medsci-skills
세 가지 데모, 세 가지 연구 유형: MedSci Skills End-to-End 파이프라인
Wisconsin 유방암, BCG 백신 메타분석, NHANES 비만 — 세 개의 공개 데이터셋을 MedSci Skills로 돌렸습니다. 각각 완전한 원고, 출판용 Figure, 보고 준수 감사, 발표 슬라이드를 생성했습니다.
세 가지 데모, 세 가지 연구 유형: MedSci Skills End-to-End 파이프라인
대부분의 AI 작성 도구는 단락을 초안할 수 있습니다. 통계를 올바르게 실행하고, 저널 해상도로 Figure를 생성하며, 보고 준수를 감사하고, 슬라이드 덱을 만들 수 있는 도구는 거의 없습니다 — 모두 같은 데이터셋으로 단일 세션에서.
공개 데이터와 MedSci Skills만으로 세 개의 End-to-End 데모를 만들었습니다. 각 데모는 다른 연구 유형을 다루고, 다른 통계 방법을 사용하며, 다른 출력 세트를 생성합니다. 목표: 22개 스킬이 함께 작동하면 전체 연구 파이프라인을 처리할 수 있음을 — 쉬운 부분만이 아니라 — 증명하는 것.
데모 1: 진단 정확도 — Wisconsin 유방암
입력: Python 한 줄.
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer() # 569개 샘플, 30개 특성
파이프라인이 생성한 것:
analyze-stats 스킬이 자동 정규성 검정(n ≥ 50에서 Kolmogorov-Smirnov)과 적절한 검정 선택 — 정규 분포에 t-검정, 그 외에 Mann-Whitney U — 을 포함한 Table 1을 생성했습니다. 수동 통계 결정 불필요.
세 가지 분류기가 비교됐습니다: Logistic Regression (AUC 0.995), SVM (AUC 0.994), Random Forest (AUC 0.987). 모든 신뢰구간은 bootstrap이 아닌 DeLong 방법을 사용합니다. DeLong 검정이 포인트 추정만으로는 놓쳤을 SVM과 Random Forest 간 유의미한 차이(p = 0.043)를 잡아냈습니다.
| 지표 | 값 |
|---|---|
| 최고 AUC | 0.995 (95% CI: 0.990-1.000) |
| Figure | 4개 (300 dpi) (ROC, Confusion matrix, 보정 곡선, 임계값) |
| 원고 | ~1,600 단어, IMRAD 구조 |
| STARD 감사 | 30개 중 19개 PRESENT, 5개 PARTIAL, 6개 MISSING — 수정 권고 포함 |
| 슬라이드 | 발표자 노트 포함 12개 |
STARD 준수 감사가 특히 주목할 만합니다. check-reporting 스킬이 STARD 2015의 30개 항목을 모두 확인하고 각 누락 항목에 대한 구체적인 수정 문구를 제공했습니다. 예를 들어:
항목 7 (샘플링): 추가: "데이터셋은 단일 학술 센터에서 수집된 FNA 표본의 편의 시리즈로 구성됐습니다."
이것이 일반적으로 심사자에게 30분 이상 걸리는 것 — 실행 가능한 수정 사항과 함께 몇 초 만에 완료됩니다.
데모 2: 메타분석 — BCG 백신 효능
입력: R 데이터셋 하나.
library(metafor)
data(dat.bcg) # 13개 RCT, 357,347명 참가자
파이프라인이 생성한 것:
고전적인 Colditz et al. (1994) BCG 백신 데이터셋. R 스크립트 하나가 처리했습니다: 무작위 효과 모델링(REML), Forest plot, Funnel plot, 메타회귀, 3가지 검정을 포함한 출판 편향 배터리.
풀링 결과: RR = 0.49 (95% CI: 0.34-0.70) — BCG가 결핵 위험을 51% 감소.
하지만 이질성이 극심했습니다: I-squared = 92.2%. 메타회귀에서 절대 위도가 핵심 조절 변수로 확인되어 연구 간 분산의 75.6%를 설명했습니다(p < 0.001). BCG는 고위도에서 더 효과적입니다. 이것은 교과서적인 발견 — 올바른 Bubble plot과 함께 자동으로 재현됐습니다.
출판 편향 평가:
| 검정 | 결과 |
|---|---|
| Egger 회귀 | p = 0.189 (비대칭 없음) |
| Begg 순위 상관 | p = 0.952 |
| Trim-and-fill | 1개 연구 대체, 조정된 RR = 0.52 (여전히 유의미) |
Leave-one-out 민감도 분석에서 어떤 단일 연구도 전체 결과를 이끌지 않는다는 것이 확인됐습니다.
| 지표 | 값 |
|---|---|
| 연구 | 13개 RCT |
| 참가자 | 357,347명 |
| Figure | 4개 (300 dpi) (Forest, Funnel, Trim-and-fill, Bubble) |
| 원고 | PRISMA 준수 ~1,800 단어 |
| PRISMA 감사 | 전체 27개 항목 체크리스트 |
| 슬라이드 | 발표자 노트 포함 12개 |
데모 3: 역학 — NHANES 비만과 당뇨
입력: 실제 CDC 데이터.
# CDC에서 3개 XPT 파일 다운로드 (무료, 등록 불필요)
# DEMO_J.XPT (인구통계), BMX_J.XPT (신체 측정), GHB_J.XPT (당화혈색소)
파이프라인이 생성한 것:
NHANES 2017-2018 데이터 — 제외 후 4,866명의 미국 성인. Python 스크립트 두 개가 처리했습니다: 데이터 병합, BMI 재코딩(WHO 분류), 당뇨 분류(ADA HbA1c ≥ 6.5%), 조사 가중치 적용, 보정 로지스틱 회귀.
핵심 발견: 비만은 연령, 성별, 인종/민족, 교육 수준을 통제한 후 당뇨 교차비 4.5배와 관련 (보정 OR 4.50, 95% CI: 4.49-4.51).
대부분의 도구가 놓치는 핵심 통찰: 조사 가중치. NHANES는 복잡한 조사 설계를 사용합니다. 가중치 없이는 당뇨 유병률이 14.9%였습니다. 적절한 조사 가중치를 적용하면 10.2%로 떨어졌습니다. 가중치를 건너뛰면 추정치에 편향이 생깁니다. MedSci Skills는 두 가지를 모두 계산하고 왜 이것이 중요한지 보여줍니다.
| 지표 | 값 |
|---|---|
| 참가자 | 4,866명 미국 성인 |
| 데이터 출처 | CDC (무료, 등록 불필요) |
| Figure | 4개 (300 dpi) (유병률 막대, OR Forest, HbA1c 밀도, 하위그룹) |
| 원고 | STROBE 준수 ~1,700 단어 |
| STROBE 감사 | 전체 22개 항목 체크리스트 |
| 슬라이드 | 발표자 노트 포함 12개 |
나란히 비교
| 데모 1: WBC | 데모 2: BCG | 데모 3: NHANES | |
|---|---|---|---|
| 연구 유형 | 진단 정확도 | 메타분석 | 단면 연구 |
| 언어 | Python | R | Python |
| 핵심 통계 | AUC 0.995 | RR 0.49 | OR 4.50 |
| CI 방법 | DeLong | Wald (로그 스케일) | 조사 가중치 |
| Figure | 4개 | 4개 | 4개 |
| 보고 가이드라인 | STARD 2015 | PRISMA 2020 | STROBE |
| 원고 | ~1,600 단어 | ~1,800 단어 | ~1,700 단어 |
| 슬라이드 | 12개 | 12개 | 12개 |
| 비판적 검토 | 통과 | 통과 | 통과 |
각 데모는 22개의 이용 가능한 스킬 중 5-6개를 사용했습니다. 파이프라인 체인: clean-data → analyze-stats → make-figures → write-paper → check-reporting → present-paper.
이것이 다른 점
통계적 엄밀성. AUC에 Bootstrap이 아닌 DeLong CI. 비율에 Wilson 점수 구간. NHANES에 조사 가중치. 메타분석에 예측 구간. 이것들은 일반적인 AI 도구들이 지속적으로 틀리는 세부 사항들입니다.
환각 방지. 모든 원고의 모든 인용은 PubMed 또는 CrossRef API에서 검증되지 않는 한 [UNVERIFIED]로 태그됩니다. 시스템은 그럴듯해 보이는 가짜 DOI를 생성하는 대신 수동 확인을 강제합니다.
내장 보고 준수. STARD, PRISMA, STROBE 감사는 사후 처리가 아닙니다 — 파이프라인의 일부입니다. 각 감사는 구체적인 수정 권고와 함께 항목별 평가를 반환합니다.
재현성. 고정 랜덤 시드, 버전 헤더, 전체 파라미터 로깅. 모든 출력은 같은 입력에서 다시 생성될 수 있습니다.
수치
| 지표 | 3개 데모 합계 |
|---|---|
| 사용한 스킬 | 22개 중 6개 |
| 스크립트 | 7개 (Python 4개, R 1개, Python 2개) |
| Figure | 12개 (모두 300 dpi) |
| 원고 단어 수 | ~5,100 |
| 확인된 보고 항목 | 79개 (STARD 30 + PRISMA 27 + STROBE 22) |
| 발표 슬라이드 | 36개 (발표자 노트 포함) |
| 환각된 인용 | 0개 |
| 비용 | $0 (오픈소스, MIT 라이선스) |
직접 해보세요
git clone https://github.com/Aperivue/medsci-skills.git
cp -r medsci-skills/skills/* ~/.claude/skills/
각 데모는 demo/ 디렉토리에 독립적으로 포함되어 있습니다:
demo/01_wisconsin_bc/— 진단 정확도demo/02_metafor_bcg/— 메타분석demo/03_nhanes_obesity/— 역학
Python/R 스크립트를 실행하고, Claude Code 스킬을 사용해 원고, Figure, 준수 감사, 슬라이드를 생성하세요.
MedSci Skills는 오픈소스이며, MIT 라이선스이고, 영원히 무료입니다. 실제로 논문을 쓰는 영상의학과 의사가 만들었습니다.