AI 벤치마크 설계
/design-ai-benchmarkingNEW기능 설명
AI 시스템을 인간 전문가 패널과 비교 평가하는 연구의 설계·타당도 검토. arm 정의, 보정 프로브가 포함된 다차원 루브릭, 평가자 패널, 평가자 간 신뢰도 목표, LLM-as-judge 대 인간 판정을 다룹니다.
주요 기능
- ✓AI 대 전문가 평가 설계
- ✓보정 프로브 · 평가자 간 신뢰도 목표
- ✓LLM-as-judge 대 인간 판정
이 스킬 설치
git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/design-ai-benchmarking ~/.claude/skills/관련 스킬
연구 설계/design-study
분석 단위, 코호트 논리, 데이터 누출 위험, 검증 전략을 식별합니다.
표본 크기 계산/calc-sample-size결정 트리 기반 검정 선택으로 11개 설계를 지원하는 대화형 표본 크기 계산기. Cox regression EPV 포함.
데이터 정제/clean-data연구 데이터셋 표준화, 유효성 검증, 변환. 결측치, 이상치 감지, 변수 리코딩을 처리합니다.
비식별화/deidentifyLLM 분석 전 임상 연구 데이터를 비식별화합니다. 10개국 로케일 팩을 지원하는 독립 Python CLI. LLM 미사용.