데이터셋 버전 관리
/version-datasetNEW기능 설명
재현성을 위한 데이터셋 버전 관리. 결정론적 content-hash 매니페스트(파일 SHA-256 + 스키마 + 컬럼별 값 해시)를 만들고, 이후 복사본을 검증해 드리프트를 탐지하며, 두 매니페스트를 비교합니다 — 의도한 데이터로 분석했음을 증명합니다.
주요 기능
- ✓content-hash 매니페스트(SHA-256 + 스키마)
- ✓드리프트 탐지: 스키마 / 행 / 값
- ✓데이터셋·데모 재현성 락
이 스킬 설치
git clone https://github.com/aperivue/medsci-skills.git
cp -r medsci-skills/skills/version-dataset ~/.claude/skills/관련 스킬
연구 설계/design-study
분석 단위, 코호트 논리, 데이터 누출 위험, 검증 전략을 식별합니다.
표본 크기 계산/calc-sample-size결정 트리 기반 검정 선택으로 11개 설계를 지원하는 대화형 표본 크기 계산기. Cox regression EPV 포함.
데이터 정제/clean-data연구 데이터셋 표준화, 유효성 검증, 변환. 결측치, 이상치 감지, 변수 리코딩을 처리합니다.
비식별화/deidentifyLLM 분석 전 임상 연구 데이터를 비식별화합니다. 10개국 로케일 팩을 지원하는 독립 Python CLI. LLM 미사용.