모든 스킬

AI 벤치마크 설계

/design-ai-benchmarkingNEW
데이터 · 연구 설계

기능 설명

AI 시스템을 인간 전문가 패널과 비교 평가하는 연구의 설계·타당도 검토. arm 정의, 보정 프로브가 포함된 다차원 루브릭, 평가자 패널, 평가자 간 신뢰도 목표, LLM-as-judge 대 인간 판정을 다룹니다.

주요 기능

  • AI 대 전문가 평가 설계
  • 보정 프로브 · 평가자 간 신뢰도 목표
  • LLM-as-judge 대 인간 판정

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/design-ai-benchmarking ~/.claude/skills/
전체 문서GitHub 소스 보기

관련 스킬