전 세계에 분산되어 있고 품질이 낮으며 보호되는 개인 의료 데이터를 훈련하기 위한 새로운 분산형 연합 학습 접근 방식

Scientific Reports 12권, 기사 번호: 8888(2022) 이 기사 인용

4400 액세스

2 인용

3 알트메트릭

측정항목 세부정보

편견이 없고 일반화 가능한 AI를 보장하려면 다양한 데이터 소스에 대한 교육이 중요합니다. 의료 분야에서 데이터 개인 정보 보호법은 데이터가 원래 국가 외부로 이동하는 것을 금지하여 AI 교육을 위해 글로벌 의료 데이터 세트가 중앙 집중화되는 것을 방지합니다. 데이터 중심의 교차 사일로 연합 학습은 분산된 의료 데이터 세트에 대한 교육을 위한 진로를 나타냅니다. 기존 접근 방식에서는 일반적으로 교육 모델에 대한 업데이트를 중앙 서버로 전송해야 하며, 데이터 세트 재구성을 방지하기 위해 업데이트가 충분히 위장되거나 추상화되지 않는 한 데이터 개인 정보 보호법을 위반할 가능성이 있습니다. 여기에서는 지식 증류를 사용하여 데이터 개인 정보 보호 및 보호를 보장하는 완전히 분산된 연합 학습 접근 방식을 제시합니다. 각 노드는 외부 데이터에 액세스할 필요 없이 독립적으로 작동합니다. 이 접근 방식을 사용하는 AI 정확도는 중앙 집중식 훈련과 비교할 수 있는 것으로 확인되었으며, 노드가 의료 분야에서 흔히 발생하는 품질이 낮은 데이터로 구성되는 경우 AI 정확도는 기존 중앙 집중식 훈련의 성능을 초과할 수 있습니다.

AI의 편견과 그에 따른 확장성 제한이 AI 의료 부문에서 공통된 주제로 떠오르기 시작했습니다. 최근 이러한 제한은 실제 임상 또는 환자 다양성을 나타내지 않는 '좁은' 데이터 세트에 대한 훈련의 결과라고 제안되었습니다1,2. 데이터 다양성과 여러 소스의 데이터 사용은 단일 소스3,4,5,6,7,8의 더 큰(덜 다양한) 데이터 세트에서 훈련된 AI에 비해 더 정확하고 일반화 가능한 AI를 훈련할 수 있는 더 큰 잠재력을 보여주었습니다.

의료 분야에서는 이러한 다양한 데이터 세트에 접근하는 것이 어려울 수 있습니다. 의료 데이터는 전 세계적으로 많은 기관에 분산되어 있을 뿐만 아니라 데이터 프라이버시를 보호하기 위해 원본 지역 외부로 데이터 이동을 방지하는 법적 및 규제 장벽으로 인해 AI 훈련을 위한 데이터의 중앙 집중식 집계가 점점 더 제한되고 있습니다9,10.

분산된 개별 데이터 세트의 품질을 평가할 방법이 없는 경우 데이터 품질도 문제가 될 수 있습니다. 많은 실제 문제의 경우 데이터는 불확실성, 주관성, 오류로 인해 본질적으로 품질이 낮거나 적의 공격을 받을 수 있습니다11,12,13. 각 지역의 개인 데이터를 수동으로 보거나 확인할 수 없으면 이 문제는 더욱 커집니다. 따라서 품질이 낮은 데이터가 AI 성능에 미치는 부정적인 영향을 최소화하는 것이 가장 중요하며, 현실적인 수준의 데이터 노이즈를 처리하는 모든 접근 방식의 능력은 확장성의 핵심 부분을 나타냅니다.

이 연구는 여러 위치에 걸쳐 일반화 가능성을 측정하기 위해 먼저 합성 데이터 노이즈가 있는 비의료 데이터 세트, 두 번째로 의료 데이터 세트에서 분산형 AI 훈련 접근 방식의 효율성을 평가합니다. 또한 정확도와 비용 간의 균형을 지정할 수 있는 패턴 기반 프레임워크의 토폴로지를 최적화하는 방법을 사용합니다. 중요한 것은 우리의 접근 방식으로 인한 AI의 정확성이 모든 데이터가 중앙 집중화된 시나리오와 유사하다는 것을 보여줍니다. 또한 노드에 실제 시나리오에서 흔히 발생하는 품질이 낮은 데이터가 포함된 경우 AI의 정확도가 기존의 중앙 집중식 교육을 초과할 수 있습니다. 우리는 분산형 AI 훈련이 데이터 프라이버시를 보호하면서 원하는 일반화 허용 범위 내에서 실용적이고 확장 가능하게 될 수 있다고 결론을 내렸습니다.

이 글은 다음과 같이 구성되어 있습니다. 관련 작품을 "관련 작품"에 정리한 후. 아래에서 결과는 두 번째 섹션에 표시됩니다. 실험은 i로 표시된 시나리오를 포함하여 비의료 데이터세트("비의료 데이터세트")를 고려하는 실험으로 나뉩니다. iv.를 통해 의료 데이터 세트("의료 데이터 세트")를 고려하는 것입니다. "토론"은 세 번째 섹션에 나와 있습니다. 마지막으로 "방법"은 실험 설계, 훈련 절차, 비의료 및 의료 데이터 세트의 구성을 포함하여 "실험 설계 및 훈련 절차", "비의료 데이터 세트 구성" 및 의료 데이터 세트로 네 번째 섹션에 설명되어 있습니다. 구성은 각각.

블로그

전 세계에 분산되어 있고 품질이 낮으며 보호되는 개인 의료 데이터를 훈련하기 위한 새로운 분산형 연합 학습 접근 방식