medsci-skills

세 가지 데모, 세 가지 연구 유형: MedSci Skills End-to-End 파이프라인

Wisconsin 유방암, BCG 백신 메타분석, NHANES 비만 — 세 개의 공개 데이터셋을 MedSci Skills로 돌렸습니다. 각각 완전한 원고, 출판용 Figure, 보고 준수 감사, 발표 슬라이드를 생성했습니다.

11 min readYoojin Nam, M.D.
medsci-skillsdemodiagnostic-accuracymeta-analysisepidemiologyopen-sourceSTARDPRISMASTROBE

세 가지 데모, 세 가지 연구 유형: MedSci Skills End-to-End 파이프라인

대부분의 AI 작성 도구는 단락을 초안할 수 있습니다. 통계를 올바르게 실행하고, 저널 해상도로 Figure를 생성하며, 보고 준수를 감사하고, 슬라이드 덱을 만들 수 있는 도구는 거의 없습니다 — 모두 같은 데이터셋으로 단일 세션에서.

공개 데이터와 MedSci Skills만으로 세 개의 End-to-End 데모를 만들었습니다. 각 데모는 다른 연구 유형을 다루고, 다른 통계 방법을 사용하며, 다른 출력 세트를 생성합니다. 목표: 22개 스킬이 함께 작동하면 전체 연구 파이프라인을 처리할 수 있음을 — 쉬운 부분만이 아니라 — 증명하는 것.


데모 1: 진단 정확도 — Wisconsin 유방암

입력: Python 한 줄.

from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()  # 569개 샘플, 30개 특성

파이프라인이 생성한 것:

analyze-stats 스킬이 자동 정규성 검정(n ≥ 50에서 Kolmogorov-Smirnov)과 적절한 검정 선택 — 정규 분포에 t-검정, 그 외에 Mann-Whitney U — 을 포함한 Table 1을 생성했습니다. 수동 통계 결정 불필요.

세 가지 분류기가 비교됐습니다: Logistic Regression (AUC 0.995), SVM (AUC 0.994), Random Forest (AUC 0.987). 모든 신뢰구간은 bootstrap이 아닌 DeLong 방법을 사용합니다. DeLong 검정이 포인트 추정만으로는 놓쳤을 SVM과 Random Forest 간 유의미한 차이(p = 0.043)를 잡아냈습니다.

지표
최고 AUC0.995 (95% CI: 0.990-1.000)
Figure4개 (300 dpi) (ROC, Confusion matrix, 보정 곡선, 임계값)
원고~1,600 단어, IMRAD 구조
STARD 감사30개 중 19개 PRESENT, 5개 PARTIAL, 6개 MISSING — 수정 권고 포함
슬라이드발표자 노트 포함 12개

STARD 준수 감사가 특히 주목할 만합니다. check-reporting 스킬이 STARD 2015의 30개 항목을 모두 확인하고 각 누락 항목에 대한 구체적인 수정 문구를 제공했습니다. 예를 들어:

항목 7 (샘플링): 추가: "데이터셋은 단일 학술 센터에서 수집된 FNA 표본의 편의 시리즈로 구성됐습니다."

이것이 일반적으로 심사자에게 30분 이상 걸리는 것 — 실행 가능한 수정 사항과 함께 몇 초 만에 완료됩니다.


데모 2: 메타분석 — BCG 백신 효능

입력: R 데이터셋 하나.

library(metafor)
data(dat.bcg)  # 13개 RCT, 357,347명 참가자

파이프라인이 생성한 것:

고전적인 Colditz et al. (1994) BCG 백신 데이터셋. R 스크립트 하나가 처리했습니다: 무작위 효과 모델링(REML), Forest plot, Funnel plot, 메타회귀, 3가지 검정을 포함한 출판 편향 배터리.

풀링 결과: RR = 0.49 (95% CI: 0.34-0.70) — BCG가 결핵 위험을 51% 감소.

하지만 이질성이 극심했습니다: I-squared = 92.2%. 메타회귀에서 절대 위도가 핵심 조절 변수로 확인되어 연구 간 분산의 75.6%를 설명했습니다(p < 0.001). BCG는 고위도에서 더 효과적입니다. 이것은 교과서적인 발견 — 올바른 Bubble plot과 함께 자동으로 재현됐습니다.

출판 편향 평가:

검정결과
Egger 회귀p = 0.189 (비대칭 없음)
Begg 순위 상관p = 0.952
Trim-and-fill1개 연구 대체, 조정된 RR = 0.52 (여전히 유의미)

Leave-one-out 민감도 분석에서 어떤 단일 연구도 전체 결과를 이끌지 않는다는 것이 확인됐습니다.

지표
연구13개 RCT
참가자357,347명
Figure4개 (300 dpi) (Forest, Funnel, Trim-and-fill, Bubble)
원고PRISMA 준수 ~1,800 단어
PRISMA 감사전체 27개 항목 체크리스트
슬라이드발표자 노트 포함 12개

데모 3: 역학 — NHANES 비만과 당뇨

입력: 실제 CDC 데이터.

# CDC에서 3개 XPT 파일 다운로드 (무료, 등록 불필요)
# DEMO_J.XPT (인구통계), BMX_J.XPT (신체 측정), GHB_J.XPT (당화혈색소)

파이프라인이 생성한 것:

NHANES 2017-2018 데이터 — 제외 후 4,866명의 미국 성인. Python 스크립트 두 개가 처리했습니다: 데이터 병합, BMI 재코딩(WHO 분류), 당뇨 분류(ADA HbA1c ≥ 6.5%), 조사 가중치 적용, 보정 로지스틱 회귀.

핵심 발견: 비만은 연령, 성별, 인종/민족, 교육 수준을 통제한 후 당뇨 교차비 4.5배와 관련 (보정 OR 4.50, 95% CI: 4.49-4.51).

대부분의 도구가 놓치는 핵심 통찰: 조사 가중치. NHANES는 복잡한 조사 설계를 사용합니다. 가중치 없이는 당뇨 유병률이 14.9%였습니다. 적절한 조사 가중치를 적용하면 10.2%로 떨어졌습니다. 가중치를 건너뛰면 추정치에 편향이 생깁니다. MedSci Skills는 두 가지를 모두 계산하고 왜 이것이 중요한지 보여줍니다.

지표
참가자4,866명 미국 성인
데이터 출처CDC (무료, 등록 불필요)
Figure4개 (300 dpi) (유병률 막대, OR Forest, HbA1c 밀도, 하위그룹)
원고STROBE 준수 ~1,700 단어
STROBE 감사전체 22개 항목 체크리스트
슬라이드발표자 노트 포함 12개

나란히 비교

데모 1: WBC데모 2: BCG데모 3: NHANES
연구 유형진단 정확도메타분석단면 연구
언어PythonRPython
핵심 통계AUC 0.995RR 0.49OR 4.50
CI 방법DeLongWald (로그 스케일)조사 가중치
Figure4개4개4개
보고 가이드라인STARD 2015PRISMA 2020STROBE
원고~1,600 단어~1,800 단어~1,700 단어
슬라이드12개12개12개
비판적 검토통과통과통과

각 데모는 22개의 이용 가능한 스킬 중 5-6개를 사용했습니다. 파이프라인 체인: clean-dataanalyze-statsmake-figureswrite-papercheck-reportingpresent-paper.


이것이 다른 점

통계적 엄밀성. AUC에 Bootstrap이 아닌 DeLong CI. 비율에 Wilson 점수 구간. NHANES에 조사 가중치. 메타분석에 예측 구간. 이것들은 일반적인 AI 도구들이 지속적으로 틀리는 세부 사항들입니다.

환각 방지. 모든 원고의 모든 인용은 PubMed 또는 CrossRef API에서 검증되지 않는 한 [UNVERIFIED]로 태그됩니다. 시스템은 그럴듯해 보이는 가짜 DOI를 생성하는 대신 수동 확인을 강제합니다.

내장 보고 준수. STARD, PRISMA, STROBE 감사는 사후 처리가 아닙니다 — 파이프라인의 일부입니다. 각 감사는 구체적인 수정 권고와 함께 항목별 평가를 반환합니다.

재현성. 고정 랜덤 시드, 버전 헤더, 전체 파라미터 로깅. 모든 출력은 같은 입력에서 다시 생성될 수 있습니다.


수치

지표3개 데모 합계
사용한 스킬22개 중 6개
스크립트7개 (Python 4개, R 1개, Python 2개)
Figure12개 (모두 300 dpi)
원고 단어 수~5,100
확인된 보고 항목79개 (STARD 30 + PRISMA 27 + STROBE 22)
발표 슬라이드36개 (발표자 노트 포함)
환각된 인용0개
비용$0 (오픈소스, MIT 라이선스)

직접 해보세요

git clone https://github.com/Aperivue/medsci-skills.git
cp -r medsci-skills/skills/* ~/.claude/skills/

각 데모는 demo/ 디렉토리에 독립적으로 포함되어 있습니다:

  • demo/01_wisconsin_bc/ — 진단 정확도
  • demo/02_metafor_bcg/ — 메타분석
  • demo/03_nhanes_obesity/ — 역학

Python/R 스크립트를 실행하고, Claude Code 스킬을 사용해 원고, Figure, 준수 감사, 슬라이드를 생성하세요.


MedSci Skills는 오픈소스이며, MIT 라이선스이고, 영원히 무료입니다. 실제로 논문을 쓰는 영상의학과 의사가 만들었습니다.

GitHub에서 보기 | 22개 스킬 전체 | 이것을 만든 방법