임상연구에서의 표본 크기 결정: 중요성, 고려 사항, 실제 적용
강현, 중앙의대 마취통증의학교실
*2025년 1월 4일(토), 1월 11일(토) 한림국제대학원대학교에서 진행된 Reporting Guidelines 따른 논문작성과 심사워크숍에서 발표한 내용임.
1. 서론
임상 연구에서 표본 크기(sample size)의 적절한 설정은 연구 결과의 신뢰성과 타당성을 확보하는 핵심 요소이다. 표본 크기가 충분하면 연구의 통계적 검정력이 증가하고, 결과 해석의 정확성이 높아진다. 그러나 표본 크기의 증가에는 시간, 비용, 연구 대상자의 부담 증가 등의 한계가 따른다. 반면, 표본 크기가 과소하면 연구의 검정력이 부족하여 의미 있는 결과를 도출하지 못할 가능성이 커진다.
최근 연구 윤리 및 통계적 엄격성에 대한 논의가 활발하다. 일부 연구에서는 극단적으로 우수한 통계적 결과가 반복적으로 보고되었으나, 이후 데이터 조작 의혹이 제기되었고, 이에 대한 적절한 대응이 이루어지지 않아 해당 연구자의 논문이 대거 철회(retraction)되는 사태가 발생하기도 했다. 후속 연구에서 이 연구자의 데이터를 제외한 메타분석이 수행되었으며, 연구 데이터의 분포를 분석한 결과, 기대했던 통계적 특성과 일치하지 않는 경우도 확인되었다. 이러한 사례는 연구에서의 통계적 엄격성과 투명성이 필수적임을 시사한다.
본 논문에서는 표본 크기 산정의 필요성과 구체적인 결정 방법을 다루며, 통계적 오류(유의 수준, 검정력), 연구 윤리적 고려사항, 그리고 실제 표본 크기 산정 도구(G*Power 등)의 활용법을 체계적으로 정리하고자 한다.
2. 표본 크기 결정의 중요성
(1) 과학적 측면
임상 연구의 핵심 목표는 치료 효과를 정확하게 추정하는 것이다. 연구 설계에서 표본 크기가 적절하지 않으면, 연구 결과가 신뢰성을 확보하지 못해 근거 기반 의학적 판단이 어려워진다.
표본 크기가 너무 작을 경우: 효과가 크게 나타나더라도 표본 변동성에 의한 우연한 결과일 가능성을 배제할 수 없다.
표본 크기가 너무 클 경우: 연구자가 주요 평가 변수뿐만 아니라, 부차적인 변수에서도 통계적으로 유의한 차이를 발견하게 되어, 실제 중요한 효과가 무엇인지 판단하기 어려워질 수 있다.
(2) 경제적 측면
표본 크기의 결정은 연구 자원의 효율적 사용과 직결된다.
표본 크기가 과대할 경우: 불필요한 시간, 비용, 인력 소모가 증가하여 자원의 비효율적 낭비를 초래한다.
표본 크기가 부족할 경우: 검정력이 부족하여 의미 있는 결론을 도출하지 못하고 연구 자체가 무의미해질 수 있으며, 연구에 투입된 비용과 노력이 낭비될 가능성이 크다.
(3) 윤리적 측면
연구 대상자의 안전과 연구 윤리는 표본 크기 결정 과정에서 반드시 고려되어야 한다.
표본 크기가 과도할 경우: 연구 대상자가 불필요한 치료, 위험, 불편을 감수해야 할 수도 있다.
표본 크기가 부족할 경우: 연구 질문에 대한 명확한 답을 제공하지 못하여, 연구 대상자의 희생이 의미 없는 것이 될 수 있다. 또한, 효과가 있는 치료법이 충분히 검증되지 못한 채 기각될 가능성이 있으며, 이는 의료 발전에 부정적 영향을 미칠 수 있다.
3. 표본 크기 산정 오류의 유형
표본 크기 산정이 부적절하게 수행될 경우, 연구의 신뢰성이 훼손될 수 있다. 대표적인 오류 유형은 다음과 같다.
임의로 연구 대상 수를 결정하는 경우: 과학적 근거 없이 표본 크기를 설정하면 연구 결과의 신뢰성이 보장되지 않는다.
표본 크기 계산에 필요한 요인을 고려하지 않는 경우: 유의 수준(α), 검정력(1-β), 효과 크기(effect size) 등의 변수를 포함하지 않으면 표본 크기가 부적절해질 수 있다.
계산에 필요한 요인을 명시했지만, 근거를 제시하지 않는 경우: 기존 문헌이나 파일럿 연구 없이 임의적인 효과 크기를 가정하는 경우이다.
근거는 있지만 수용하기 어려운 경우: 과거 연구의 통계적 오류를 그대로 적용하면 표본 크기의 타당성이 떨어질 수 있다.
모든 요인을 포함했지만, 계산이 잘못된 경우: 수식 적용 오류나 프로그램 사용 실수로 인해 표본 크기가 부적절하게 결정될 수 있다.
4. 통계적 배경: 가설 검정과 오류
임상 연구에서는 가설 검정을 통해 연구 결과를 해석한다. 이 과정에서 발생할 수 있는 통계적 오류는 다음과 같다.
제1종 오류(Type I error, α): 실제로 차이가 없는데 차이가 있다고 잘못 결론 내리는 오류(일반적으로 0.05 이하로 설정).
제2종 오류(Type II error, β): 실제로 차이가 있음에도 차이가 없다고 잘못 결론 내리는 오류. 검정력(power)은 1-β로 정의되며, 일반적으로 80~90% 수준으로 설정한다.
표본 크기 결정 시 연구자는 **유의 수준(α), 검정력(1-β), 효과 크기, 검정 유형(단측 또는 양측 검정)**을 종합적으로 고려해야 한다.
5. 표본 크기 산출의 실제 적용
(1) 사전(A priori) vs. 사후(Post-hoc) 표본 크기 산정
사전 표본 크기 산정: 연구 시작 전에 G*Power와 같은 프로그램을 이용해 표본 크기를 계산. 기존 연구의 효과 크기, 파일럿 연구 결과, Cohen의 기준값 등을 활용.
사후 검정력 산정: 연구 종료 후 실제 데이터를 기반으로 검정력을 산출. 그러나 사후 검정력 보고는 해석상 한계가 있어, 연구 설계 단계에서 표본 크기 산정을 수행하는 것이 바람직하다.
(2) 표본 크기 산출 방법
선행 연구 활용: 과거 연구에서 보고된 효과 크기를 바탕으로 표본 크기를 결정.
파일럿 연구 수행: 사전 정보가 부족할 경우, 소규모 연구를 수행하여 필요한 변수(평균, 분산 등)를 추정.
G*Power 프로그램 사용: 다양한 연구 설계에 대한 표본 크기 계산이 가능하며, 주요 입력 변수(α, 검정력, 효과 크기)를 설정하면 적정 표본 크기를 도출할 수 있다.
(3) 탈락률 및 순응도 보정
임상 연구에서는 연구 대상자의 탈락(loss to follow-up)과 순응도 저하(non-compliance)를 고려해야 한다. 일반적으로 예상 탈락률을 반영하여 표본 크기를 보정하며, 이는 보통 ‘올림’하여 계산한다.
6. 결론 및 제언
표본 크기 결정은 단순한 통계적 계산을 넘어 연구의 윤리적 타당성과 자원 효율성을 보장하는 중요한 과정이다. 검정력 부족으로 인해 효과적인 치료법이 간과되거나, 과도한 표본 크기로 인해 의료 자원이 낭비되는 상황을 방지해야 한다.
연구 설계 시에는:
임상적으로 의미 있는 차이를 명확히 설정하고,
적절한 α와 β 값을 결정하며,
선행 연구나 파일럿 연구를 활용하여 효과 크기를 추정하는 것이 필수적이다.
또한 연구 심사위원회(IRB)는 연구자가 표본 크기 결정의 근거를 명확히 제시하도록 요구해야 한다. 이를 통해 연구의 신뢰성을 높이고, 근거 기반 의학의 발전에 기여할 수 있을 것이다.