- (04427) 서울특별시 용산구 이촌로 46길 37, 4층 대한의학학술지편집인협의회
- +82-2-794-4146 +82-2-794-3146 문의
Session I : 연구윤리
인공지능과 연구윤리 (1):
보건의료 분야 인공지능 연구 수행과 관련된 윤리
(Ethical Considerations in
Artificial Intelligence Research in Healthcare)
보건의료 분야 인공지능 연구 윤리 관련 체크리스트 |
|
1. 도입
보건의료 분야 인공지능 연구를 수행할 때, 연구자는 우리나라의 「생명윤리 및 안전에 관한 법률」과 같은 관련된 일반적 법 규정과 더불어 인공지능과 관련된 추가 규정을 준수해야 한다. 연구 행위 및 결과는 국가 경계를 넘는 경우가 많은데, 인공지능 관련 윤리 및 법적 요구사항들이 여러 나라 사이에 약간씩 차이가 있을 수 있기 때문에 여러 나라의 대표적 인공지능 관련 규정을 숙지하고 연구를 하는 것이 권장된다. 우리나라의 경우 2023년 질병관리청 국립보건연구원 지원으로 「보건의료 분야 인공지능 연구윤리 지침」이 발간되었으며, 보건의료 분야 인공지능 연구의 설계부터 사회적 적용까지 전 단계에 걸쳐 윤리적으로 더욱 나은 연구 ∙ 개발의 기준을 안내하고 있어 연구자들에게 좋은 참고가 될 것으로 생각된다 [1]. 인공지능 연구와 관련된 주된 윤리적 사항들은 개인정보 보호 및 정보 주체/연구 대상자의 자율성 보호, 편향과 차별, 투명성, 의료 데이터의 상업적 활용 관련 윤리, 대형 언어모델(예, ChatGPT)과 같은 생성형 인공지능을 연구에 이용할 때의 윤리(특히 출판 관련 윤리)를 포함한다. 이중, 개인정보보호 및 생성형 인공지능 관련 출판윤리는 이 책의 다른 부분에 별도로 자세히 다루어지고 있어 생략하고, 이 단원에서는 인공지능 자체를 연구의 내용으로 하는 보건의료 분야 연구의 수행과 관련된 나머지 윤리적 사항들을 다루고자 한다. 이 단원의 내용은 보건의료 분야에 적용하기 위한 인공지능 모델을 개발 또는 검증하는 연구에 가장 잘 부합하며, 인공지능을 단지 연구의 도구로 사용하는 경우(예, 단백질 구조 예측 또는 신약 후보 물질 발굴을 위해 인공지능 도구를 활용하는 연구)에는 잘 부합하지 않을 수 있다.
2. 편향과 차별
딥러닝(deep learning)과 같이 빅데이터에 기반한 최근의 인공지능 기술은 과거 기술보다 정확도가 높지만, 학습 데이터에 대한 의존도가 매우 높다는 특징이 있다. 학습 데이터에 편향이 있는 경우 인공지능 모델의 결과에도 편향이 발생한다. 모델의 편향은 인공지능 시스템이 특정 방향에 치우친 결과를 도출한 것을 말하며, 차별은 인공지능 시스템이 특정 개인이나 집단을 다르게 대우하는 것을 의미한다[1]. 연구자는 인공지능 모델의 편향과 차별을 최소화하도록 노력해야 한다. 이를 위해서는 데이터 편향을 최소화하기 위해 데이터 세트의 다양성, 대표성을 고려하며 지속적인 데이터 질 관리를 해야 한다[1]. 대규모 의료 데이터를 다루는 경우 데이터 편향을 인지하기 어려울 수도 있으므로 항상 인공지능의 편향과 차별에 대한 잠재적 위험에 주의해야 한다. 인공지능과 관련된 편향과 차별은 미국과 같은 인종 및 사회적 집단의 다양성이 큰 나라나 지역에서 더 중요하게 다루어지고 있고 우리나라에서는 상대적으로 덜 부각되는 면이 있으나, 연구의 결과는 국가 경계를 넘어 전 세계에 영향을 미칠 수 있다는 점을 생각하여 항상 편향과 차별 문제에 신경을 써야 한다.
3. 데이터의 투명성
인공지능 모델이 편향과 차별의 위험을 가지고 있는지, 그리고 인공지능의 성능이 어떠한 상황으로 얼마나 일반화될 수 있는지를 파악하려면, 인공지능 모델의 학습에 사용된 데이터와 성능 검증에 사용된 데이터의 특징을 면밀히 파악하는 것이 중요하다. 따라서 인공지능 연구 논문은 이러한 데이터에 대해 자세하고 명확하게 기술해야 한다.
데이터에 대한 기술은 최종 데이터의 특징이나 분포를 설명하는 것뿐 아니라 데이터 수집 과정에 대한 자세한 설명을 포함해야 한다. 대표적으로 기술해야 할 사항들은 다음과 같다.
- 데이터의 수집의 전향적 또는 후향적 특성
- 데이터 수집을 위한 대상 환자 선정 기준 및 제외 기준
- 데이터를 수집한 의료기관 및 기간에 대한 구체적 정보
- 의료기관의 진료 형태 및 환경적 특징
- 연속적 수집, 무작위 수집, 혹은 편의에 따른 임의 수집 여부
- 데이터 생성 의료장비의 장치 및 기술적 조건이 데이터의 성격에 미치는 영향과 이에 대한 기술적 보정 요소
- 수집된 데이터 중 추가 선별 조건에 따른 일부 데이터의 배제 여부
- 데이터를 컴퓨터에 입력하기 전 별도의 데이터 가공/처리 과정 유무
아울러 데이터의 투명성을 더 높이기 위한 방안으로 인공지능 연구에 사용된 데이터를 공개 ∙ 공유하는 것이 권장된다. 이러한 조치는 연구 데이터의 공유를 통해 연구의 투명성과 진실성을 높이고 연구 데이터의 재사용 ∙ 재분석을 가능하게 함으로써 새로운 정보와 지식의 발견을 도우려는 취지의 일반적 과학 연구 데이터의 공유 필요성에 대한 인식과도 부합한다[2]. 특히, 인공지능의 성능을 검증하기 위해 수집된 데이터를 공개하면 여러 유사 모델 간의 성능을 비교 평가해 볼 수 있는 기회를 제공하기 때문에 유용하다. 반면 연구 데이터 공유는 개인정보 유출의 위험을 증가시키는 잠재적 문제를 가지고 있다[3]. 인공지능 연구는 일반적으로 대규모의 데이터를 다루기 때문에 개인정보 유출의 위험성이 특히 더 크다. 개인정보의 유출은 단지 윤리적 문제를 넘어, 이를 처리하는 연구자 및 기관에 법적 책임과 처벌을 초래할 수 있다. 따라서 데이터 공유를 할 때에는 개인정보 보호에 특별히 주의해야 한다.
이러한 노력에도 불구하고, 최근 등장한 대형 언어모델과 같은 파운데이션 모델) (foundation model; 예, ChatGPT의 엔진에 해당되는 GPT)에 기반한 인공지능 연구는 파운데이션 모델의 학습 데이터가 불투명하여 인공지능 연구의 전체적인 투명성을 저해할 우려가 있다. 따라서 연구자들은 최소한 연구자들이 직접 다루는 데이터에 대해서라도 투명성을 높일 수 있도록 항상 노력해야 한다.
4. 데이터에 대한 권리 및 경제적 가치에 대한 윤리
진료를 통해 얻은 의료 데이터는 자연스럽게 의료기관에 축적되어 의료기관이 “소유”하게 되지만, 이것이 의료 데이터를 진료가 아닌 연구 ∙ 개발 등의 이차적 목적으로 사용할 때 의료기관이 해당 데이터와 관련한 모든 권리를 가진다는 의미는 아니다. 의료 데이터를 진료가 아닌 이차적 목적으로 사용할 때, 환자나 의료기관은 각각 제공된 진료와 이에 대한 비용 지급을 통해 모두 이미 상응하는 보상을 받았기 때문에 어느 쪽도 데이터에 대해 절대적인 권리를 주장하기는 어렵다. 따라서 이 경우 의료 데이터는 공공재(public good)로 인식되어야 한다는 윤리적 견해가 있다[4]. 공공재의 관점에서 보면 이차적 목적으로 사용되는 의료 데이터가 어느 특정 개인 ∙ 집단의 이익을 위해 사용되는 것은 적절치 않으며, 미래의 환자들에게 골고루 혜택이 갈 수 있도록 사용되어야 할 것이다. 따라서 의료기관이 특정 개인 ∙ 집단과 의료 데이터 사용에 배타적 사용 계약을 맺는 것, 특정 개인 ∙ 집단이 의료 데이터를 독점적으로 사용하는 것, 의료 데이터 자체를 사거나 파는(또는 되파는) 것은 비윤리적인 행위로 인식된다[4].
그런데, 연구 ∙ 개발 활동을 통해 수많은 환자로부터 수집된 데이터를 잘 정제하고 가공하여 구축한 대규모 데이터는 큰 가치를 제공할 수 있지만, 개별 환자의 데이터만으로는 그 가치가 제한적이다. 따라서 연구 ∙ 개발 활동이 창출한 가치와 공공재 관점의 개별 환자의 의료 데이터 자체의 가치를 각각 어느 정도로 생각해야 하는지에 대해 모호함이 있다.
아마도 이러한 점들을 고려하여, 개정된 「개인정보 보호법」과 「2021년 보건의료 데이터 활용 가이드라인」은 의료 데이터의 상업적 이용에 대해 조심스러운 태도를 취하고 있는 것으로 보인다. 「개인정보 보호법」은 가명화된 의료 데이터 제공에 대응하는 대가를 받는 것을 금지하지는 않지만, 「2021년 보건의료 데이터 활용 가이드라인」은 사회적인 통념 등을 고려할 때 과도한 데이터 활용 대가는 지양하고 수익이 발생하면 기관 내 자체 의학 연구비, 분석환경 보강, 보안 시스템 구축 ∙ 강화, 정보 주체 권익 보호 등의 목적으로 사용할 것을 권장하고 있다.
5. 모델의 투명성
인공지능 모델에 대한 연구는 다른 연구들과 비교해 제3자가 연구를 재현해 보기 어렵다는 특징이 있다. 특히 비상업적 단계의 인공지능 연구의 경우, 해당 인공지능 모델에 직접 접근하여 충분히 사용해 볼 수 있는 기회가 주어지지 않는다면 제3자가 연구를 재현하는 것이 불가능하다. 이러한 제약은 연구의 투명성을 낮추는 요인이 된다. 따라서 지식재산권이나 상업적 제약이 없다면 연구에 사용된 인공지능 소프트웨어 모델을 온전히 실행할 수 있는 형태로 인터넷 공유 저장소를 통해 공개하여(GitHub, Bitbucket, SourceForge 등), 필요한 경우 제3자가 연구 결과를 다시 재현해 볼 수 있도록 하는 것이 바람직하다[5].
이러한 노력에도 불구하고 아직 모델 공유에 대한 이해나 인식이 충분하지 않으며[6], 최근 등장한 파운데이션 모델에 기반한 대형 언어모델들은 다른 여러 요인으로 인해 제3자가 연구를 재현해 보는 것이 매우 어려워 연구의 투명성을 저해하는 요소가 되고 있다[7]. 인공지능 연구자들은 항상 연구의 투명성을 높일 수 있도록 노력해야 한다.
6. 연구 진행의 투명성
인공지능 모델의 정확도는 소프트웨어의 미세 조정, 적용 방법, 환경 등 여러 추가 요인에 영향을 받을 수 있다. 따라서, 여러 방법으로 정확도를 테스트한 후 유리한 결과만을 선택적으로 논문으로 발표할 개연성에 대한 우려가 있다[8]. 또한, 연구 가설을 먼저 세우고 이를 검증하는 방식이 아닌, 반복적이고 후향적인 탐색을 통해 우연히 발견된 결과를 논문에 제시하는 문제를 야기할 수 있다. 이러한 우려를 줄이고 연구 수행에 대한 투명성을 높이기 위해, 인공지능 모델의 성능을 임상 검증하는 연구라면 후향적 연구라 해도 전향적 임상시험과 마찬가지로 연구 수행 전 데이터 수집 및 분석 계획을 먼저 수립하고, 이를 등록 ∙ 공개한 후(예, clinicaltrials.gov) 연구를 수행할 것을 권장한다. 의료 분야의 인공지능 모델 연구는 주로 질병이나 환자의 상태를 진단, 예측하는 형태의 연구로 기본적으로 진단연구 범주에 포함되며, 진단연구에 대한 전향적 등록의 필요성은 이미 보편적으로 제기되어 있다[9]. 인공지능 의료기기 인 ∙ 허가를 위한 임상검증 연구에서도 이러한 절차를 따르는 것이 연구의 투명성 향상에 특히 도움이 될 것이다.
7. 투명한 연구 결과 보고를 위한 가이드라인의 활용
인공지능 연구 결과를 논문으로 보고하는 것에 대한 여러 가이드라인들이 만들어져 있다(예, CONSORT-AI, DE-CIDE-AI, TRIPOD+AI, CLAIM, STARD-AI, MI-CLEAR-LLM) [7,10]. 이 가이드라인들은 학술논문의 투명성, 질, 및 윤리성을 높이는 데 도움을 준다. 따라서, 보다 윤리적이고 과학적인 투명한 연구 결과 보고를 위해 인공지능 연구 논문 작성 시 본인의 연구에 해당되는 가이드라인이 있는지 먼저 확인해 보고 참고할 것을 권고한다.
참고문헌
- Kim H, Lee JI, Jinah S, et al. Ethical guidelines for artificial intelligence research in healthcare: introducing South Korean perspectives. Korean J Med Law 2023;31:85-110.
- Jorgenson LA, Wolinetz CD, Collins FS. Incentivizing a new culture of data stewardship: The NIH policy for data management and sharing. JAMA 2021;326:2259-60.
- Ursin G, Malila N, Chang-Claude J, et al. Sharing data safely while preserving privacy. Lancet 2019;394:1902.
- Larson DB, Magnus DC, Lungren MP, Shah NH, Langlotz CP. Ethics of using and sharing clinical imaging data for artificial intelligence: a proposed framework. Radiology 2020;295:675-82.
- Park SH, Sul AR, Ko Y, Jang HY, Lee JG. Radiologist’s guide to evaluating publications of clinical research on AI: how we do it. Radiology 2023;308:e230288.
- Venkatesh K, Santomartino SM, Sulam J, Yi PH. Code and data sharing practices in the radiology artificial intelligence literature: a meta-research study. Radiol Artif Intell 2022;4:e220081.
- Park SH, Suh CH, Lee JH, Kahn CE, Moy L. Minimum reporting items for clear evaluation of accuracy reports of large language models in healthcare (MI-CLEAR-LLM). Korean J Radiol 2024;25:865-8.
- Van Calster B, Steyerberg EW, Wynants L, van Smeden M. There is no such thing as a validated prediction model. BMC Med 2023;21:70.
- Korevaar DA, Hooft L, Askie LM, et al. Facilitating prospective registration of diagnostic accuracy studies: a STARD Initiative. Clin Chem 2017;63(8):1331-41.
- Park SH, Suh CH. Reporting guidelines for artificial intelligence studies in healthcare (for both conventional and large language models): what’s new in 2024. Korean J Radiol 2024;25:687-90.
※ 의편협 파일서버 업로드 및 KoreaMed & KoreaMed Synapse 관련 문의
※ 의편협 파일서버 업로드 및 KoreaMed & KoreaMed Synapse 관련 문의
- 안내사항: https://www.kamje.or.kr/auth/file_server
- 직통전화: 02-6966-4930
- 이메일: support@m2-pi.com