打破开放与隐私壁垒，7国30家机构创建最大医学AI协作程序

发布时间：2021-10-20 15:48:11 所属栏目：大数据来源：互联网

导读：近年来，随着AI的发展，我们已经看到了人工智能在发现乳腺癌、肺癌和皮肤癌方面超过了医生。现在，研究人员又将注意力转向了脑瘤。由宾夕法尼亚大学医学院领导、29家国际医疗和研究机构参与的联合团队正在创建一个有史以来最大脑瘤数据集训练的人工智能模型

近年来，随着AI的发展，我们已经看到了人工智能在发现乳腺癌、肺癌和皮肤癌方面超过了医生。现在，研究人员又将注意力转向了脑瘤。

由宾夕法尼亚大学医学院领导、29家国际医疗和研究机构参与的联合团队正在创建一个有史以来最大脑瘤数据集训练的人工智能模型，基于一种名为联邦学习（Federated Learning）的技术，可以在分散的服务器之间训练算法。

这样以来，来自美国、加拿大、英国、德国、荷兰、瑞士和印度的医疗机构就可以在不共享病人数据的情况下协同工作，并创建一个比任何一家机构的数据集更大的数据集。

联邦学习：分布式机器学习方法

我们都知道，做人工智能研究首先是要处理数据，而面对大量分散的数据，又该怎么办呢？

谷歌在2017年推出了联邦学习技术，这是一种分布式机器学习方法，可在深度学习项目上实现多机构协作，而无需共享患者数据。

2018年，英特尔开始与宾夕法尼亚大学生物医学图像计算与分析中心（CBICA）合作，展示了联邦学习在现实医学成像中的首次概念验证应用，特别证明了联邦学习对肿瘤检测算法的功效。

打破开放与隐私壁垒，7国30家机构创建最大医学AI协作系统

联邦学习

英特尔表示，当测试基于单个医疗机构数据建立的人工智能模型时，发现其平均准确率为70%，而使用联邦学习技术训练的人工智能模型的准确率为85.7%。

英特尔实验室首席工程师Jason Martin是该项目的负责人之一，他说，训练算法的理想方法是将所有数据集中在一个地方，但这通常是不切实际的。“如果我是一家医院，我需要奇迹般地克服所有的监管压力和隐私问题，而联邦学习非常接近这一点。”

联邦学习的优势在于，它使人工智能算法能够对驻留的数据进行训练，而不是将数据传输到中心位置。它的工作原理是让每个合作者在各自的数据上训练一个相同的AI模型，将一个伙伴的模型学习的内容与其他参与者的模型相结合，重复这个过程，直到更新的模型运行良好为止。

这种联邦学习方法对卫生保健组织极有吸引力，因为疾病检测算法需要大量数据才能得出准确的结论，但对共享医疗数据的限制一直是开发此类系统的一大挑战。

助力对抗脑癌

生长于颅内的肿瘤通称为脑瘤，包括由脑实质发生的原发性脑瘤和由身体其他部位转移至颅内的继发性脑瘤。近年来，颅内肿瘤发病率呈上升趋势，据统计，颅内肿瘤约占全身肿瘤的5%，占儿童肿瘤的70%，而其它恶性肿瘤最终会有20-30%转入颅内。

据美国脑瘤协会 (American Brain Tumor Association) 估计，2020年美国将有超过8.7万人被诊断出患有源自大脑的肿瘤，其中超过3500名患者是儿童。

为了训练并建立模型以有助于早期发现脑瘤，研究人员需要访问大量有关医学的数据。但是，最重要的是，数据必须保持私有和受保护。这也正是采宾夕法尼亚大学合作使用保护隐私的AI识别脑瘤的原因。

通过使用联邦学习这种方法，所有合作伙伴组织的研究人员将能够共同构建和训练检测大脑的算法肿瘤，同时保护敏感的医学数据。

打破开放与隐私壁垒，7国30家机构创建最大医学AI协作系统

以训练机器学习算法来识别医学图像中脑肿瘤的边界

宾夕法尼亚大学医学院放射学和病理学讲师Spyridon Bakas表示，过去6年，他帮助汇编了可用于AI训练的最大脑瘤图像数据集之一，该数据集包含了大约600名患者的图像，但新的联邦学习项目将大大扩展这一数字。

“我们可以从接受600名患者扫描训练的AI模型转变为接受15,000 名患者扫描训练的AI模型。”Bakas说道。

英特尔也提供了一些组成其联邦学习平台的硬件、软件和网络功能，其中包括后端协议，以便每个参与者的算法可以彼此通信，以及安全性功能，可以确保每个组织遵守商定的规则。例如，该平台不允许参与者改变算法或查看其底层参数。

联邦学习的前景

美国咨询公司Gartner Inc. 研究副总裁Laura Craft说，医疗机构多年来一直寻求在研究项目上进行合作，包括开发用于临床诊断的预测模型。“联邦学习有望让这些合作更有效率。”

她继续补充说，该技术的好处之一是训练数据可能更加多样化，这使得算法可以用于不同的患者群体。但她说，最大的挑战之一是确保培训数据 “标准化和规范化”。

打破开放与隐私壁垒，7国30家机构创建最大医学AI协作系统

宾夕法尼亚大学医学院的研究人员也承认存在数据无法一致的问题，并表示其软件团队由资深开发人员Sarthak Pati领导，正在开发一套数据标准化系统，比如确保医学图像具有相似的分辨率。

研究人员表示，该小组有望在下个月开始训练他们的模型。下一步计划在2020年，宾夕法尼亚大学医学院和29个国际医疗机构将使用英特尔的联邦学习硬件和软件来生成最新的AI模型。该模型已在迄今为止最大的脑肿瘤数据集上进行了训练，预计该项目涉及世界各地的卫生系统，包括圣路易斯华盛顿大学、加拿大皇后大学、德国慕尼黑工业大学、英国伦敦国王学院以及印度的塔塔纪念医院 (Tata Memorial Hospital)。

英特尔也并不是唯一一家为医疗人工智能系统提供联邦学习平台的科技公司。今年早些时候，英伟达公司对外表示，它的联邦学习平台被美国和巴西的一些组织用来训练算法，以评估乳房X光照片中的乳腺癌风险。另外，英伟达和软件公司Owkin Inc. 也正在提供一个联邦学习平台，帮助包括Bayer AG在内的制药公司培训药物发现算法。

（编辑：西双版纳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

大数据平台核心架构图	云迁移之后企业凭什么
2022年优秀预测分析工	数据在网络中是怎样传