모든 스킬

Model Evaluation

/model-evaluationNEW
모델 엔지니어링 · 검증

기능 설명

학습된 모델의 held-out 성능을 task에 맞게 산출·보고합니다. Dice + HD95/NSD, bootstrap CI를 포함한 AUROC/AUPRC, FROC/mAP, calibration, subgroup 분석을 수행하고, analyze-stats용 case 단위 표를 생성합니다. 모든 수치는 실행된 코드에서만 나옵니다.

주요 기능

  • Task에 맞는 metric + bootstrap CI
  • Calibration + subgroup 성능
  • Metrics Reloaded / CLAIM 2024 게이트

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/model-evaluation ~/.claude/skills/
전체 문서GitHub 소스 보기

관련 스킬