← 모든 스킬

AI 벤치마크 설계

/design-ai-benchmarkingNEW

데이터 · 연구 설계

기능 설명

AI 시스템을 인간 전문가 패널과 비교 평가하는 연구의 설계·타당도 검토. arm 정의, 보정 프로브가 포함된 다차원 루브릭, 평가자 패널, 평가자 간 신뢰도 목표, LLM-as-judge 대 인간 판정을 다룹니다.

주요 기능

✓AI 대 전문가 평가 설계
✓보정 프로브 · 평가자 간 신뢰도 목표
✓LLM-as-judge 대 인간 판정

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/design-ai-benchmarking ~/.claude/skills/

전체 문서→GitHub 소스 보기

관련 스킬

연구 설계/design-study

분석 단위, 코호트 논리, 데이터 누출 위험, 검증 전략을 식별합니다.

표본 크기 계산/calc-sample-size

결정 트리 기반 검정 선택으로 11개 설계를 지원하는 대화형 표본 크기 계산기. Cox regression EPV 포함.

데이터 정제/clean-data

연구 데이터셋 표준화, 유효성 검증, 변환. 결측치, 이상치 감지, 변수 리코딩을 처리합니다.

비식별화/deidentify

LLM 분석 전 임상 연구 데이터를 비식별화합니다. 10개국 로케일 팩을 지원하는 독립 Python CLI. LLM 미사용.