모든 스킬

LLM/MLLM Evaluation

/mllm-evalNEW
모델 엔지니어링 · 검증

기능 설명

임상 task(보고서 생성, visual question answering, 임상 텍스트 추출)에 대해 LLM 또는 MLLM을 모델 무관하게 평가하는 하네스입니다. adjudicated reference, 임상 효용 metric(RadGraph-F1 / CheXbert-F1), faithfulness, contamination, prompt sensitivity, reader study를 다룹니다.

주요 기능

  • BLEU/ROUGE를 넘어선 임상 효용 metric
  • Contamination + prompt-sensitivity 점검
  • Reader study + MLLM reviewer probe

이 스킬 설치

git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/mllm-eval ~/.claude/skills/
전체 문서GitHub 소스 보기

관련 스킬