机器学习正在加速各个领域的科学发现步伐,医学也不例外。从加速研究的语言处理工具到预测算法,这些算法可以提醒医护人员即将发生的突发心脏病,机器学习补充了人类的洞察力和实践,涵盖了所有医学学科。
然而,面对围绕人工智能和机器学习技术的“解决方案主义”,医疗保健提供者对它如何真正帮助患者并带来投资回报持谨慎态度。市面上针对医疗保健目的的许多 AI 解决方案都是专门为解决非常具体的问题而量身定制的,例如识别患败血症的风险或诊断乳腺癌。这些现成的 AI 解决方案使得企业难以或无法自定义其模型并充分利用其投资。
开源数据科学允许医疗保健公司使用最新的机器学习技术(如音频和视觉数据处理)调整模型以解决各种挑战。使用开源工具,数据科学家可以定制构建应用程序,以满足医疗保健 IT 严格的要求,并在各种环境中改善患者护理,最终使组织与其竞争对手区别开来。以下是医疗保健领域可以使用开源数据科学工具开发并针对不同功能进行调整的五个机器学习用例。
1. 用于行政任务的自然语言处理 (NLP)
《新英格兰医学杂志》去年进行的一项研究发现,83% 的受访者表示医生倦怠是其组织中的一个问题。其中一半表示“卸下行政任务”将有助于解决这个问题,让医生有更多时间陪伴患者。这些行政任务中很大一部分涉及审查和更新电子健康记录 (EHR)。美国几乎每家医院都使用 EHR 系统,大多数诊所也使用 EHR 系统。提高更新 EHR 的效率是大多数人高度重视的问题。这就是 NLP 工具发挥作用的地方。
通过利用使用算法识别和分类词语和短语的 NLP 工具,医生可以在患者就诊期间直接将笔记口述到 EHR 中。医生和患者都可以查看由 NLP 工具整理的图表和摘要,而不是必须阅读笔记和测试结果才能了解患者的整体健康状况。通过减少维护 EHR 的时间,医生可以花更多时间陪伴患者。
2. 患者风险识别
在世界各地,医疗保健提供者已开始使用机器学习模型构建的工具,这些模型使用异常检测算法来预测心脏病发作、中风、败血症和其他严重并发症。这些工具使用来自患者历史记录、日常评估和实时生命体征测量(如心率和血压)的数据,提醒医护人员患者即将发生的风险,以便他们能够立即采取预防措施。
一个例子是 El Camino 医院。他们的研究人员使用电子健康记录、床边警报数据和护士呼叫数据开发了一种工具,用于预测患者跌倒。这个新工具会在患者有高跌倒风险时提醒医护人员,以便他们采取措施降低风险。他们设法将跌倒次数减少了 39%。根据转化医疗保健联合委员会的数据,由于跌倒导致的住院患者受伤会使住院时间平均延长 6.3 天,并造成 14,000 美元的损失。另一个例子是败血症嗅探器算法 (SSA),由梅奥诊所开发。SSA 使用人口统计数据和生命体征测量结果,在败血症发展风险增加时触发警报,将手动筛查时间缩短了 72%。这使得医生和护士能够花更多时间治疗患者最初来看病的疾病。
3. 加速医学研究见解
科学家和医生必须阅读和处理大量报告和研究,才能跟上特定医学研究领域的趋势。例如,学者在 2007 年至 2016 年间仅在药物评估和分析方面就发表了 342,000 多篇文章。使用 NLP 工具和神经网络解析文献将在未来几年为医学研究人员提供宝贵的见解。
例如,来自美国和爱尔兰的研究人员团队合作进行了一项研究,研究了不良药物事件 (ADE),使用文本挖掘、预测分析和神经网络来分析庞大的医疗文献数据库和社交媒体帖子,以查找与药物副作用相关的评论。在分析了来自医学期刊的 300,000 多篇文章和社交媒体上的 160 多万条评论后,该团队使用数据可视化工具显示了药物与副作用之间的关系。
NLP 还用于挖掘 EHR 中的非结构化数据以获取见解,例如来自心电图结果的数据或上传到患者记录但未输入表单字段的手写笔记的副本。cTAKES 是梅奥诊所、波士顿儿童医院和其他组织开发的开源 NLP 项目的一个例子,该项目旨在开发一个解析 EHR 中非结构化数据的工具以提取见解。
4. 用于肿瘤检测的视觉数据处理
近年来,放射科医师的工作量显着增加。一些研究发现,平均每位放射科医师必须每 3-4 秒解释一张图像才能满足需求。研究人员开发了经过先前捕获的放射图像训练的深度学习算法,以识别肺部、乳房、大脑和其他区域肿瘤的早期发展。算法可以训练识别放射影像数据中的复杂模式。他们可以从乳房X光片中检测出乳腺癌,准确率极高。休斯顿卫理公会研究所开发的一种早期乳腺癌检测工具可以解释99% 的准确率的乳房X光片,并提供比人类快 30 倍的诊断信息。此类工具还可以减少活检的需要。大多数放射科医师同意,这些工具有助于他们改善患者护理。它们使他们在工作中变得更出色,但并没有取代他们。
5. 使用卷积神经网络 (CNN) 进行皮肤癌诊断
CNN 是识别和分类图像的强大工具。一些研究人员使用它们开发了用于皮肤癌检测的机器学习模型,使用 TensorFlow、scikit-learn、keras 和其他开源工具,准确率达到了 87-95%。相比之下,皮肤科医生在检测黑色素瘤方面的准确率为 65% 到 85%。使用数千张恶性和良性皮肤病变图像来训练模型。这个开源项目的例子可以在Github上公开获取。除了皮肤癌诊断外,研究人员还使用 CNN 开发工具来诊断肺结核、心脏病、阿尔茨海默病和其他疾病。
符合要求的医疗数据科学
虽然医疗保健组织在安全、治理和合规性方面必须比大多数其他行业更加谨慎,但它们仍然可以使用匿名数据来训练机器学习模型,以符合 HIPAA 要求。确保软件环境的完整性对于处理真实用户医疗数据至关重要。Anaconda Enterprise 为高度监管领域的从业人员提供了一个稳定且安全的环境,让他们可以使用突破性的开源机器学习技术。它还提供了访问安全、可治理的软件包存储库的权限,以便数据科学家在开发创新模型时可以访问 IT 批准的数据科学软件包。