鍖荤枟鏈哄櫒浜洪渶瑕佸鏉傜殑澶氬绉戝皷绔妧鏈殑鏀寔

核心提示在这篇文章中,Jeff Dean 等人工智能大牛描绘了一幅机器学习在医疗领域的应用蓝图。先来看两个场景:场景 1:一名 49 岁的病人注意到肩膀上起了皮疹,因为不觉得疼痛,所以也没有寻求治疗。几个月之后,他的妻子让他去看医生,医生诊断出他患

在这篇文章中,Jeff Dean和其他人工智能大牛描述了机器学习在医疗领域应用的蓝图。

让我们先来看两个场景:

场景一:

一位49岁的患者注意到肩膀上有皮疹,因为感觉不到疼痛,所以没有寻求治疗。几个月后,妻子让他去看医生,医生诊断他患有脂溢性角化病。后来,当病人接受结肠镜检查时,护士注意到他的肩膀上有一个黑点,于是建议他去检查一下。又过了一个月,患者去看皮肤科医生,皮肤科医生从病变处取了一些活检样本。结果显示为非癌性色素病变。医生还是很担心,建议再次检测活检样本,最后确诊为浸润性黑色素瘤。之后,肿瘤科医生对患者进行了全身化疗。一个医生朋友问病人为什么不接受免疫治疗。

场景二:

一名49岁的患者用手机应用程序拍摄了肩膀上的皮疹照片。该应用程序建议他立即预约皮肤科医生。他的保险公司自动批准了直接转诊,app在两天内帮他预约了附近有经验的皮肤科医生。预约会自动与患者的个人行程进行交叉核对。皮肤科医生对病灶进行了活检,病理学家在计算机的帮助下诊断为I期黑色素瘤,然后皮肤科医生进行了切除手术。

对比场景1和场景2可以发现,在同样的情况下,场景2的医疗流程进行了如下优化:1)患者可以直接用手机拍摄病灶照片,app可以进行初步诊断,系统可以根据app提供的建议合理分配医疗资源;2)皮肤科医生和病理科医生实现了有效协作,相当于让一个普通患者得到了专家会诊,从而提高了诊疗方法的准确性。这就是杰夫·迪恩等人描述的机器学习在医学领域的应用蓝图。

如果重症监护室或社区医护人员做出的每一个医疗决策,都会立即由相关领域的专家团队进行评审,判断这个决策是否正确,并加以指导,会是怎样的一种情况?没有并发症的新诊断的高血压患者将接受最有效的对症治疗,而不是诊断医生最熟悉的治疗。这可以在很大程度上消除用药过量和处方错误的问题。神秘罕见疾病患者可直接咨询相关领域知名专家。

这样的系统似乎离我们很遥远。因为没有足够的专家配合这样的系统。即使有,对于专家来说,不仅需要很长时间才能知道患者的病史,而且隐私相关的问题也可能成为障碍。但这就是机器学习应用于医疗领域的前景——由几乎所有临床医生的诊断决策和数十亿患者的诊断结果组成的智慧结晶,应该为每一位患者的医疗提供指导。也就是说,要根据所有已知的实时信息和患者的集体经验,得出个性化的诊断、管理决策和治疗方案。

这个框架强调,机器学习不仅仅是一种像新药或新医疗器械一样的全新工具,更是一种基础技术,可以高效处理超出人脑负荷的数据。这个庞大的信息存储涉及到庞大的临床数据库,甚至是单个患者的数据。

50年前的一篇专题文章指出,计算将“加强,在某些情况下,可以在很大程度上取代医生的智慧”。但到2019年初,机器学习驱动的医疗保健领域进展甚微。在这里,我们不会重复之前报道的无数已经通过测试的概念验证模型,但我们会谈到医疗和健康领域的一些核心结构变化和范式转变,这些是实现机器学习在医疗领域的前景所必需的。

机器学习解释

传统上,软件工程师以清晰的计算机代码形式提取知识,从而指导计算机如何处理数据并做出正确的决策。例如,如果患者的血压升高,并且他没有使用抗高血压药物进行治疗,那么一台经过适当编程的计算机可以提出治疗建议。这种基于规则的系统具有逻辑性和可解释性,但正如1987年的一篇文章所言,医学领域“过于广泛和复杂,因此很难在规则中捕捉到相关信息”。

传统方法和机器学习的关键区别在于,在机器学习中,模型是从样本中学习的,而不是根据规则编程的。对于给定的任务,该示例给出了输入和输出。例如,病理学家读取的数字切片被转换成特征和标签。算法用于从观察中学习,然后计算机决定如何将特征映射到标签,从而创建泛化模型,以便在从未见过的输入上正确执行新任务。图1总结了这个过程,它被称为监督机器学习。还有其他形式的机器学习。表1列出了临床病例。这些模型的输入输出映射基本上是基于同行评议研究或者现有机器学习的扩展。

图1:监督机器学习的概念概述

表1:促进机器学习应用的输入数据和输出数据类型的示例。

在实际应用中,预测的准确性非常重要,模型在数百万个特征和例子中发现统计模式的能力绝对可以超过人类的表现。然而,这些模型不一定适合基本的生物学鉴定方法,也不能在新疗法的开发中鉴定可改变的风险因素。

机器学习模型和传统的统计模型没有明显的区别。最近的一篇文章总结了它们之间的关系。而复杂的新机器学习模型非常适合学习现代临床病例中产生的复杂、异构的数据,从而做出医学相关的预测。表2提供了简单和复杂机器学习模型分别适用的情况。

表2:决定使用哪个模型时要问的关键问题。

人类学习和机器学习的关键区别在于,人类可以从少量的数据中得到普遍而复杂的关系。例如,孩子们不用看太多样本就能分辨出猎豹和猫。在学习同样的任务时,机器比人需要更多的样本,而且不具备常识。但另一方面,机器可以从大量数据中学习。用EHR存储的几千万患者的数据来训练机器学习模型是完全可行的。这几千亿的数据点根本没有重点,人类医生整个职业生涯很难接诊几万个病人。

机器学习如何帮助临床医生工作?

预后

机器学习模型可以学习患者的健康轨迹模式。它可以获得医生个人经验之外的信息,帮助医生在专家层面预测未来可能发生的事件。比如,病人重返工作岗位的概率有多大?这种疾病会发展得多快?相同类型的预测可以可靠地识别在许多患者中具有高风险情况或可能需要频繁医疗护理的患者。这些信息可以用作帮助医生的附加信息。

一个简单的机器学习模型已经被用于大型综合卫生系统,它可以自动识别可能需要转移到重症监护病房的住院患者。回顾性研究表明,通过使用来自EHR和医学图像的原始数据,可以建立更复杂和准确的预后模型。

构建机器学习系统,需要利用患者的纵向综合数据进行训练。只有当训练模型的数据集包含结果时,模型才能学习患者的情况。然而,这些数据现在独立存储在EHR系统、医学影像归档和交互系统、支付方、PBM甚至患者手机上的应用程序中。自然的解决方案就是把数据系统交给患者自己,这也是我们长期以来一直倡导的解决方案。现在这个想法也通过快速采用病人控制的API实现了。

将数据转换成FHIR这样的统一格式,可以更有效的聚合数据。患者可以决定谁可以使用他们的数据来建立或运行模型。虽然有些人担心技术的互操作性不能解决EHR数据中的语义标准化问题,但HTML可以索引Web数据并用于搜索引擎。

诊断

每个病人都是独一无二的,但最好的医生也能在正常范围内确定病人特有的微弱信号或异常值。机器学习检测出的统计模式能否帮助医生识别无法诊断的疾病?

医学研究所的结论是,几乎每个患者一生都会被误诊一次,正确的诊断是采取适当治疗方法的基础。这个问题不仅会出现在一些罕见的疾病中。在发展中国家,即使有足够的治疗、检查时间和医务人员的充分培训,也无法发现急性胸痛、肺结核、痢疾和分娩期间的并发症。

在常规医疗过程中收集的数据表明,在临床诊断中可以使用机器学习来判断可能的诊断,可以提高对未来可能情况的认识。但是这种方法有局限性。不熟悉的临床医生可能无法正确地提取模型的必要信息,从而使得模型没有意义。模型得到的结果可能是基于暂时的或错误的诊断,不能被证明是症状的不良反应条件,计费的影响,或者根本没有记录。但模型会根据实时采集的数据给医生建议,在误诊率高、临床医生不确定的情况下非常有用。临床上正确的诊断与EHR或报销申请中的记录之间的不一致意味着临床医生应该从一开始就参与生成数据的过程,这些数据将被用作常规护理的一部分,然后用于自动诊断过程。

成功的训练模型可以回顾性地识别各种图像类型的异常。然而,使用机器学习模型作为临床医生日常工作一部分的回溯试验数量非常有限。

款待

在一个几万个医生要治疗几千万个病人的大医疗体系中,病人什么时候看病,为什么看病,类似情况的病人应该如何治疗,都存在差异。该模型能否对这些差异进行分类,从而帮助医生确定首选治疗路线?

一个比较简单的应用就是将定点护理的处方与模型得到的处方进行对比,可以将差异标注出来,再次核对。基于历史数据训练的模型只能学习医生的处方习惯,但这不一定是理想的做法。为了了解最好的药物和治疗方法,需要仔细收集数据并评估因果影响,但机器学习模型可能无法识别这些影响。

基于观察数据将疗效研究与实际实验进行比较的传统方法也提供了重要的观点。然而,最近使用机器学习方法的实验表明,与专家一起生成人工筛选的数据集,更新模型以纳入新发布的数据,调整不同领域的处方,以及从EHR中自动提取相关变量,这是一个巨大的挑战。

也可以用机器学习来自动选择患者。根据临床记录,这些患者可能适合进行随机对照试验;或者可以使用机器学习来自动识别可能通过早期研究或新疗法治愈的高风险患者或亚组。这些工具促使医疗卫生系统研究每一个临床情况,这可以在进行更严格的研究的同时降低成本和管理费用。

临床工作流程

EHR的引入提高了数据的可用性。然而,这些系统也给临床医生带来了耻辱,因为成本高,管理文档的复选框太多,用户界面不友好,输入数据的时间太长,以及新的医疗错误。

机器学习技术也可以用在其他消费产品上,提高临床医生的工作效率。驱动搜索引擎的机器学习,不需要临床医生多次点击,就能找出患者数据的相关信息。机器学习技术可以大大提高表格和文本数据的输入。根据患者表单中的信息自动授权支付的模式可以取代预授权。这些工具不仅仅是为了方便医生而使用的。临床有效数据的可访问视图和输入对于捕获和记录医疗健康数据至关重要,这反过来可以在机器学习的帮助下为每位患者提供最佳的医疗护理帮助。最重要的是,这种做法提高了效率,简化了记录,并改善了自动化的临床工作流程,因此临床医生可以花更多的时间与患者相处。

在EHR系统之外,机器学习技术还可以用于手术的实时视频分析,这可以帮助外科医生避免关键结构的解剖或患者身体的意外变化出现问题,甚至可以处理更常见的任务——例如精确计数手术海绵的数量。核对表可以避免手术失误,还可以自动监控手术过程,提高手术安全性。

在临床医生的个人生活中,他们可能已经在智能手机上使用了这些技术的所有变体。虽然有关于将这些技术应用于医疗环境的概念验证的研究,但主要障碍不是模型的开发,而是技术的基础设施——法律、隐私和政策框架、卫生系统和上述技术供应商——EHR。

扩大临床专业知识的可用性。

医生不可能照顾所有需要治疗的病人。机器学习能否在没有医生亲自参与的情况下,扩大医生的诊疗范围,提供专家医疗评价?比如一个刚出疹子的病人,可能只要在手机上发一张照片就能确诊,这样就避免了不必要的急诊。想自己去急诊室的患者可能会在自动诊断系统中得到诊断,并在适当的时候以另一种形式进行护理。当患者确实需要专业帮助时,模型还可以识别出与处于空空闲状态的专科最相关的医生。同样,为了提高舒适度和降低成本,如果机器可以远程监控病人的传感器数据,需要住院治疗的病人可以在家接受护理。

在世界上的一些地方,直接学习医学专业知识的渠道有限且非常复杂,因此将机器学习的见解直接传递给患者变得越来越重要。即使在有大量专家医生的地区,这些医生也担心他们的能力和努力无法及时准确地解释潮汐数据,这些数据一般是从患者佩戴的传感器或活动跟踪设备上获得的,由患者自己驱动。事实上,用数百万患者的数据训练的机器学习模型可以帮助医疗专业人员做出更好的决策。例如,护士可以承担通常由医生完成的医疗工作,初级保健医生可以承担通常由医学专家完成的工作,医学专家可以将更多的时间投入到非常需要他们专业知识的患者身上。

不涉及机器学习的移动应用或网络服务,已经被证明可以改善药物依赖性,控制各种慢性疾病。然而,正式的回顾性和前瞻性评估方法阻碍了患者直接应用机器学习。

主要挑战

高质量数据的可用性

建立机器学习模型的核心挑战是收集具有代表性和多样性的数据集。理想的做法是使用与预期数据的确切格式和质量最接近的数据来训练模型。例如,对于用于即时护理的模型,最好使用EHR在特定情况下使用的相同数据,即使已知这些数据不可靠或受到不必要的更改的影响。当数据集足够大时,可以成功地训练现代模型,以将有噪声的输入映射到有噪声的输出。使用人工筛选数据获得的较小数据集并不理想,除非期望医生根据原始实验规范手动提取变量。这种方法对某些变量可能是可行的,但对EHR成千上万的数据是不可行的,而这些数据是做出最准确预测所必需的。

俗话说“垃圾进,垃圾出”,那么我们如何协调噪声数据集来训练模型呢?要学习最复杂的统计模型,最好有一个大的数据集,以便对模型进行微调和评估,但有必要有一个较小的样本集,带有手动筛选标签。当原始数据可能被错误标记时,此样本集可以对模型对预期标签的预测做出正确的评估。对于成像模型,这通常需要为每个图像生成由多个评价人确定的“基础事实”标签,但是对于非成像任务,如果没有获得必要的诊断测试,则可能也不能获得“基础事实”标签。

一般来说,训练数据越多,机器学习模型的性能越好。因此,对于机器学习的使用,一个关键问题是在使用大量和多样化的数据集来提高机器学习模型的准确性的同时,平衡隐私问题和监管要求。

从过去的失败中吸取教训。

人类的一切活动都会被意想不到的偏差摧毁。机器学习系统的构建者和用户需要仔细考虑偏差如何影响用于训练模型的数据,并采取措施解决和监控这些偏差。

机器学习的优势在于,模型可以识别人类找不到的历史数据模式。医疗实践的历史数据表明,人们能够获得的系统医疗保健存在差异,一般而言,为弱势群体提供的医疗保健比其他群体差。在美国,历史数据反映了一种支付系统,该系统奖励使用不必要的护理和服务的人,以至于他们可能会错过本不应接受护理的患者。

监督、监管和安全使用方面的专业知识

卫生系统建立了一个复杂的机制,以确保向患者安全提供药物。学习的广泛适用性还需要同样复杂的监管结构、法律框架和当地做法,以确保系统的安全开发、使用和监督。此外,科技公司还得提供可扩展的计算平台来处理大量的数据和模型使用,但他们仍然不知道自己的位置。

重要的是,使用机器学习系统的医生和患者需要了解它的局限性,包括该模型不能推广到特定的场景。在决策或分析图像时过度依赖机器学习模型可能会导致自动化偏差,医生可能已经降低了对这些偏差的警惕性。如果模型的可解释性不够强,医生可能没有意识到模型给出了错误的建议,这就特别有问题。在模型预测中显示置信区间可能会有所帮助,但置信区间本身可能会被误解。因此,有必要对使用中的模型进行前瞻性和真实的临床评估,而不仅仅是基于历史数据集对模型性能进行回顾性评估。

需要特别考虑针对患者的机器学习应用。患者可能无法验证模型构建者所说的是否被高质量的临床证据所证实,或者模型所暗示的行为是否合理。

研究成果的出版和传播

构建模型的跨学科团队可能会在临床医生不熟悉的地方报告结果。手稿通常发布在类似arXiv和bioRxiv这样的预印本服务网站上,很多模型的源代码保存在GitHub library这样的地方。此外,许多同行评审的计算机科学手稿不会在传统期刊上发表,而是在NeurIPS和ICML这样的会议上发表。

结论

大量医疗保健数据的加速创建将从根本上改变医疗保健的性质。我们坚信,医患关系将成为为患者提供医疗服务的基石,这种关系将在机器学习的辅助下得到丰富。我们预计,未来几年将出现一些早期模型和同行评审的出版物,它们的出现,以及基于价值医疗的监管框架和经济激励的发展,将是看好机器学习在医疗领域应用的理由。我们预计,在不久的将来,当数百万临床医生护理数十亿患者时,他们可以在机器学习模型的帮助下,基于所有医疗相关数据做出决策,从而为所有患者提供最佳护理方案。

 
友情链接
鄂ICP备19019357号-22