LLM/MLLM Evaluation

/mllm-evalNEW

기능 설명

임상 task(보고서 생성, visual question answering, 임상 텍스트 추출)에 대해 LLM 또는 MLLM을 모델 무관하게 평가하는 하네스입니다. adjudicated reference, 임상 효용 metric(RadGraph-F1 / CheXbert-F1), faithfulness, contamination, prompt sensitivity, reader study를 다룹니다.

주요 기능

✓BLEU/ROUGE를 넘어선 임상 효용 metric
✓Contamination + prompt-sensitivity 점검
✓Reader study + MLLM reviewer probe

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/mllm-eval ~/.claude/skills/

전체 문서→GitHub 소스 보기

관련 스킬

아키텍처 가이드/architecture-zoo

"어떤 연구 질문에 어떤 아키텍처"를 정하는 의사결정 도구. task·modality·데이터 규모·class imbalance를 근거로 논문에 기반한 아키텍처 후보를 좁혀 주며, 각 후보에 원논문·사용 시점·의료영상 활용·reference 구현·대응 scaffold 템플릿을 함께 제시합니다.

Model Scaffold/model-scaffold

의료영상 task(segmentation, classification, detection, synthesis, self-supervised pretraining)를 위한 재현 가능하고 바로 실행되는 PyTorch 학습 레포를 생성합니다. 환자 단위 seed-locked split, train/evaluate 스크립트, Methods stub을 함께 제공하며, MONAI / nnU-Net을 통합할 뿐 재구현하지 않습니다.

Model Validation/model-validation

엔지니어가 만든 의료영상 모델의 임상 검증 설계를 점검하거나 설계합니다. 환자 단위 split disjointness, data-leakage taxonomy, internal vs external validation, comparator 설계, task에 맞는 metric 선택을 다루며, 결정론적 split-leakage 게이트를 제공합니다.

Model Card & Datasheet/model-card

엔지니어가 만든 모델이 갖춰야 할 문서를 생성합니다. Model Card(Mitchell et al. 2019), 데이터셋 Datasheet(Gebru et al. 2021), METRIC 데이터 품질 점검을 사용자가 제공한 사실만으로 채운 뒤, 필수 항목이 모두 채워졌는지 completeness 게이트로 검증합니다.