AI로 STROBE 준수 여부를 확인하는 방법: 무료 오픈소스 접근법

STROBE 체크리스트란 무엇인가

Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) 성명은 2007년 Lancet, BMJ, PLoS Medicine에 동시 게재됐습니다. 코호트 연구, 환자-대조군 연구, 단면 연구를 보고할 때 다루어야 할 22개 항목의 체크리스트를 제공합니다. 각 항목은 제목과 초록부터 토론까지 연구 원고의 특정 섹션에 해당합니다.

STROBE는 품질 평가 도구가 아닙니다. 연구가 잘 설계됐는지 또는 결론이 타당한지를 평가하지 않습니다. 오히려 연구 보고가 독자들이 그 강점과 제한점을 평가할 수 있을 만큼 완전한지를 보장합니다. 이 구분이 중요한 이유는, 잘 수행된 연구도 보고가 불량할 수 있고, 불량한 보고는 임상의와 정책 입안자들이 근거를 적절히 활용하는 것을 불가능하게 만들기 때문입니다.

22개 항목은 다음 원고 섹션을 다룹니다: 제목과 초록(1개 항목), 서론(2개 항목), 방법(9개 항목), 결과(5개 항목), 토론(4개 항목), 기타 정보(재원 1개 항목). 일부 항목은 하위 항목을 가지며, 3개 항목은 코호트, 환자-대조군, 단면 연구에 대한 연구 설계별 버전이 있습니다.

STROBE 준수가 중요한 이유

20년 가까이 이용 가능했음에도 불구하고, 발표된 관찰 연구에서 STROBE 준수는 일관성이 없습니다. 준수 추세를 조사한 체계적 문헌고찰은 평균 준수율이 2005년 약 38%에서 2011년 58%로 개선됐지만, 이는 여전히 필요한 항목의 거의 절반이 부적절하게 보고되거나 완전히 빠져 있음을 의미합니다.

더 최근의 평가들도 비슷한 이야기를 전합니다. 알레르기 및 면역학 연구에서 개별 STROBE 항목에 대한 완전한 준수율은 41%에서 47% 사이였습니다. 외과 종양학, 응급 의학, 안과학에서도 비슷한 격차가 반복적으로 문서화됐습니다.

이것이 세 가지 실질적인 이유로 중요합니다. 첫째, 저널들은 투고 시 STROBE 체크리스트를 점점 더 요구하고 있습니다. 편집자와 심사자들은 이를 원고 심사에 사용하며, 불완전한 준수는 데스크 거절이나 주요 수정 요청을 유발할 수 있습니다. 둘째, 체계적 문헌고찰자들은 데이터를 추출하고 비뚤림 위험을 평가하기 위해 완전한 보고에 의존합니다. 교란 변수, 선택 기준, 결측 데이터 처리에 대한 누락 정보는 메타분석에서 제외로 이어질 수 있습니다. 셋째, 재원 기관과 기관윤리위원회들이 보고 가이드라인 준수를 연구비 준수 조건으로 요구하기 시작하고 있습니다.

일반적인 STROBE 보고 격차

22개 항목 모두가 누락될 가능성이 같지는 않습니다. STROBE 준수 패턴을 조사한 연구들은 지속적으로 과소 보고되는 몇 가지 항목을 확인했습니다.

비뚤림(항목 9)은 일부 연구에서 준수율이 5%에서 11%만큼 낮게 보고된 가장 자주 누락되는 항목 중 하나입니다. 저자들은 종종 잠재적 비뚤림의 방향과 크기를 설명하지 못하거나, 방법 섹션에서 체계적으로 비뚤림을 다루지 않고 토론에서 제한점을 언급하는 데 그칩니다.

연구 규모(항목 10)는 저자들에게 연구 규모에 도달한 방법을 설명하도록 요청하는데, 또 다른 만성적으로 과소 보고되는 항목입니다. 이 항목에 대한 준수율은 전문 분야에 따라 0%에서 17% 사이입니다. 많은 관찰 연구가 공식적인 표본 크기 계산 없이 편의 표본을 사용하며, 저자들은 이 사실을 명시하는 대신 자주 생략합니다.

결측 데이터(항목 12c)는 저자들에게 결측 데이터를 어떻게 다루었는지 설명하도록 요청합니다. 여기서 준수율은 특히 낮습니다 — 종종 10% 미만. 결측 데이터 처리가 관찰 연구의 결과와 결론에 상당한 영향을 미칠 수 있기 때문에 이것은 특히 문제가 됩니다.

토론에서 비뚤림 위험의 수량화(항목 19)와 일반화 가능성(항목 21)도 자주 불완전합니다. 저자들은 특정 설계 선택이나 인구 특성과 연결하지 않고 모호한 표현으로 제한점을 인정하는 경우가 있습니다.

AI가 STROBE 준수 확인에 어떻게 도움이 되는가

원고를 22개 STROBE 항목 전체에 맞춰 수동으로 확인하는 것은 지루하지만 개념적으로 어렵지 않습니다. 각 체크리스트 항목을 읽고, 관련 정보를 원고에서 찾고, 존재하는지, 부분적으로 다루어졌는지, 누락됐는지를 기록합니다. 문제는 이 과정이 원고당 30~60분이 걸리고, 체크리스트 정의와 원고 텍스트를 모두 주의 깊게 읽어야 하며, 피로할 때 부분적 준수를 놓치거나 항목을 잘못 분류하기 쉽다는 것입니다.

AI 보조 준수 확인은 이 문제들을 해결합니다. 언어 모델은 전체 원고 텍스트를 읽고, 각 체크리스트 항목과 체계적으로 비교하며, 구조화된 보고서를 생성할 수 있습니다 — 일반적으로 2분 이내에. 출력은 전문가적 판단을 대체하지 않지만, 저널에 투고하거나 공저자 검토를 위해 원고를 보내기 전에 명백한 격차를 잡아내는 첫 번째 패스 감사 역할을 합니다.

SciSpace와 PeerGenius를 포함한 여러 상업적 도구들이 이 기능을 제공합니다. 하지만 이것들은 원고를 타사 서버를 통해 처리하는 구독 기반 서비스입니다. 민감한 데이터나 기관 원고를 다루는 연구자들에게 이것은 데이터 처리 우려를 제기합니다.

단계별: check-reporting 스킬 사용법

check-reporting 스킬은 로컬 컴퓨터에서 STROBE 준수 감사를 수행하는 무료 오픈소스 Claude Code 스킬입니다. 원고 텍스트는 Claude Code 자체를 구동하는 Claude API 외에 타사 서비스로 업로드되지 않습니다.

설치

git clone https://github.com/Aperivue/medsci-skills.git
cp -r medsci-skills/skills/check-reporting ~/.claude/skills/

스킬 디렉토리를 복사한 후 Claude Code를 재시작합니다. 스킬은 ~/.claude/skills/에서 자동으로 인식됩니다.

STROBE 확인 실행

원고 파일(Word, PDF, 또는 일반 텍스트)이 포함된 디렉토리에서 Claude Code를 열고 다음을 입력합니다:

/check-reporting

Claude Code가 원고 파일과 대상 가이드라인을 식별하도록 요청합니다. STROBE를 선택하고 연구가 코호트, 환자-대조군, 또는 단면 연구인지 지정합니다. 스킬은 적절한 연구 설계별 항목을 사용합니다.

내부 작동 방식

스킬은 원고를 읽고, 번들된 STROBE 체크리스트(Creative Commons BY 라이선스)를 불러오고, 22개 항목 각각을 개별적으로 평가합니다. 각 항목에 대해 필요한 정보를 원고 텍스트에서 검색하고 다음과 같이 분류합니다:

PRESENT — 항목이 원고에서 완전히 다루어졌습니다.
PARTIAL — 관련 정보가 일부 존재하지만 불완전합니다.
MISSING — 항목이 다루어지지 않았습니다.

각 분류에는 평가로 이어진 특정 원고 텍스트(또는 그 부재)를 인용하는 간략한 설명이 포함됩니다.

준수 보고서 해석하기

출력은 모든 22개 항목, 준수 상태, 설명 노트가 포함된 구조화된 표입니다. 일반적인 보고서는 다음과 같습니다:

항목	설명	상태	노트
1a	제목/초록: 연구 설계	PRESENT	제목에 "단면 연구" 명시
9	비뚤림	MISSING	방법에서 잠재적 비뚤림 논의 없음
10	연구 규모	PARTIAL	N=342 명시했지만 표본 크기 근거 없음
12c	결측 데이터	MISSING	결측 데이터 처리 언급 없음

먼저 MISSING 항목에 집중하세요 — 이것들이 심사자가 지적할 가장 명확한 격차입니다. 그 다음 PARTIAL 항목을 다루세요. 대부분 한두 문장의 추가 세부 사항만 필요합니다. PRESENT 항목은 일반적으로 조치가 필요하지 않지만, 스킬의 평가가 자신의 읽기와 일치하는지 확인하고 싶을 수 있습니다.

준수 보고서는 수정의 출발점이지 최종 판결이 아닙니다. 일부 항목은 검사에 포함되지 않은 보충 파일에 관련 정보가 나타나기 때문에 MISSING으로 분류될 수 있습니다. 다른 항목들은 실제 내용이 불충분할 때 표면적인 키워드 매칭을 기반으로 PRESENT로 분류될 수 있습니다. 항상 노트 열을 비판적으로 검토하세요.

STROBE를 넘어: 지원되는 다른 가이드라인

check-reporting 스킬은 33개 보고 가이드라인과 비뚤림 위험 도구를 지원합니다:

STROBE — 관찰 연구 (코호트, 환자-대조군, 단면)
CONSORT — 무작위 대조 시험
STARD — 진단 정확도 연구
TRIPOD+AI — AI/ML 포함 예측 모델
PRISMA 2020 — 체계적 문헌고찰 및 메타분석
PRISMA-DTA — DTA 체계적 문헌고찰
ARRIVE 2.0 — 동물 연구
CARE — 증례 보고
SPIRIT — 연구 프로토콜
CLAIM — 의료 영상에서의 AI
QUADAS-2 — DTA 연구 비뚤림 위험
RoB 2 — RCT 비뚤림 위험
ROBINS-I — 비무작위 연구 비뚤림 위험
PROBAST — 예측 모델 비뚤림 위험
NOS — 관찰 연구를 위한 Newcastle-Ottawa Scale

스킬은 또한 결과/토론 섹션 경계 확인도 포함합니다 — 결과에 해석이 새어 들어오거나 토론에 새로운 데이터가 도입되는 것을 플래그합니다.

이것은 동일한 설치가 전체 연구 포트폴리오를 커버한다는 것을 의미합니다. 진단 정확도 연구를 작성한다면 STARD로 전환하세요. 체계적 문헌고찰 프로토콜을 준비한다면 PRISMA를 사용하세요. 워크플로우는 동일합니다 — 체크리스트만 바뀝니다.

스킬은 medsci-skills 패키지의 일부로, 문헌 검색, 원문 검색, 통계 분석, 출판 Figure, 원고 작성, 연구 설계 검토, 발표 준비를 다루는 추가 21개 스킬이 포함됩니다. 22개 스킬 모두 MIT 라이선스이며 무료입니다.

시작하기

스킬을 설치하고, 현재 수정 중인 원고에 실행하고, 출력을 검토하세요. 대부분의 연구자들은 첫 번째 준수 확인에서 고려하지 않았던 두세 가지 항목을 발견합니다 — 특히 비뚤림, 연구 규모 근거, 결측 데이터 처리와 관련하여. 투고 전에 이 항목들을 다루면 보고 완전성과 관련된 수정 요청 가능성이 줄어듭니다.

git clone https://github.com/Aperivue/medsci-skills.git
cp -r medsci-skills/skills/check-reporting ~/.claude/skills/

STROBE 체크리스트는 2007년부터 이용 가능했습니다. 준수를 자동으로 확인하는 도구는 지금까지 없었습니다 — 이제 있습니다.