Model Evaluation

/model-evaluationNEW

기능 설명

학습된 모델의 held-out 성능을 task에 맞게 산출·보고합니다. Dice + HD95/NSD, bootstrap CI를 포함한 AUROC/AUPRC, FROC/mAP, calibration, subgroup 분석을 수행하고, analyze-stats용 case 단위 표를 생성합니다. 모든 수치는 실행된 코드에서만 나옵니다.

주요 기능

✓Task에 맞는 metric + bootstrap CI
✓Calibration + subgroup 성능
✓Metrics Reloaded / CLAIM 2024 게이트

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/model-evaluation ~/.claude/skills/

전체 문서→GitHub 소스 보기

관련 스킬

아키텍처 가이드/architecture-zoo

"어떤 연구 질문에 어떤 아키텍처"를 정하는 의사결정 도구. task·modality·데이터 규모·class imbalance를 근거로 논문에 기반한 아키텍처 후보를 좁혀 주며, 각 후보에 원논문·사용 시점·의료영상 활용·reference 구현·대응 scaffold 템플릿을 함께 제시합니다.

Model Scaffold/model-scaffold

의료영상 task(segmentation, classification, detection, synthesis, self-supervised pretraining)를 위한 재현 가능하고 바로 실행되는 PyTorch 학습 레포를 생성합니다. 환자 단위 seed-locked split, train/evaluate 스크립트, Methods stub을 함께 제공하며, MONAI / nnU-Net을 통합할 뿐 재구현하지 않습니다.

Model Validation/model-validation

엔지니어가 만든 의료영상 모델의 임상 검증 설계를 점검하거나 설계합니다. 환자 단위 split disjointness, data-leakage taxonomy, internal vs external validation, comparator 설계, task에 맞는 metric 선택을 다루며, 결정론적 split-leakage 게이트를 제공합니다.

Model Card & Datasheet/model-card

엔지니어가 만든 모델이 갖춰야 할 문서를 생성합니다. Model Card(Mitchell et al. 2019), 데이터셋 Datasheet(Gebru et al. 2021), METRIC 데이터 품질 점검을 사용자가 제공한 사실만으로 채운 뒤, 필수 항목이 모두 채워졌는지 completeness 게이트로 검증합니다.