人体不断产生各种可以从体外用可穿戴设备测量的信号。这些生物信号包括心率、睡眠状态和血氧水平,可以用来判断一个人的情绪波动或用于诊断多种身体和脑部疾病。
收集大量生物信号数据相对便宜。研究人员可以组织一项研究,要求参与者佩戴类似智能手表的设备几天。然而,要让机器学习算法找到特定生物信号与健康障碍之间的关系,首先需要教会算法识别这种障碍。这就是像我这样的计算机工程师发挥作用的地方。
目前,许多商用智能手表,如苹果、AliveCor、谷歌和三星的产品,都支持心房颤动检测。心房颤动是一种常见的心律不齐类型,未经治疗可能导致中风。自动检测心房颤动的一种方法是训练一个机器学习算法,使其能够识别数据中的心房颤动特征。
这种方法需要大量的带有标签的生物信号数据集,在这些数据集中,心房颤动的实例被标记出来。算法可以利用这些标记的实例学习生物信号与心房颤动之间的关系。
标记过程可能非常昂贵,因为它需要心脏病专家等专业人士逐一检查数百万个数据点并标记每个心房颤动实例。同样的问题也存在于许多其他生物信号和疾病中。
为了解决这个问题,研究人员正在开发新的方法,使用较少的标签来训练机器学习算法。首先,通过训练一个机器学习模型来填补大规模未标记生物信号数据中的空白,该模型就可以在较少的标签下学习生物信号与疾病之间的关系。这被称为预训练。即使是在完全不相关的生物信号上进行预训练,也能帮助机器学习模型学习生物信号与疾病之间的关系。
寻找生物信号与疾病之间的关系可能很困难,因为存在噪声(无关数据)、个体之间生物信号的差异以及生物信号与疾病之间关系的不明确性。
首先,生物信号包含大量噪声。例如,当你戴着智能手表跑步时,手表会移动。这会导致生物信号传感器在跑步过程中记录不同位置的数据。由于记录位置的变化,生物信号值的波动可能是由于记录位置的变化而不是生理过程引起的。
其次,每个人的生物信号都是独特的。例如,静脉的位置通常因人而异。这意味着即使每个人的手表都戴在手腕上的同一个位置,与这些静脉相关的生物信号也会因人而异。相同的基础信号,如心率,会导致不同的生物信号值。
基础信号本身也可能因人或人群而异。普通人的静息心率约为每分钟60-80次,但运动员的静息心率可能低至每分钟30-40次。
最后,生物信号与疾病之间的关系往往是复杂的。这意味着从生物信号中看不出来疾病的明显迹象。
机器学习算法允许研究人员从数据中学习,并处理复杂性、噪声和个体间的变异性。通过使用大型生物信号数据集,机器学习算法能够找到适用于所有人的清晰关系。
研究人员可以使用未标记的生物信号数据作为机器学习算法的热身。这种热身,或预训练,使机器学习算法更容易找到生物信号与疾病之间的关系。这有点像在公园里走一圈以熟悉环境,然后再规划跑步路线。
有许多方法可以预训练机器学习算法。在我的研究中,与Dolby Laboratories的研究员Lie Lu合作,以及之前的研究中,我们教会了机器学习算法填补空白。
为此,我们取一个生物信号,并人为地创建一定长度的空白——例如,一秒。然后,我们教机器学习算法填补缺失的生物信号部分。这是可能的,因为机器学习算法可以看到空白前后的生物信号。
如果一个人的心率在空白之前约为每分钟60次,那么在一秒钟的空白时间内很可能有一个心跳。在这种情况下,我们正在训练机器学习算法预测下一个心跳何时发生。
一旦我们训练了机器学习算法完成这个任务,它就会找到正常心率与生物信号之间的关系。现在我们可以用已经学到的正常心率与生物信号之间的关系来训练机器学习算法。这使得算法更容易学习心率与心房颤动之间的关系。由于心房颤动的特点是快速而不规则的心跳,而算法现在已经擅长预测何时会发生心跳,因此它可以迅速学会检测这些不规则性。
填补空白的想法也可以推广到其他生物信号。先前的研究已经表明,我们的工作也重新确认了这一点,即在没有任何标签的情况下对一种生物信号进行预训练,可以使模型在少量标签的情况下从其他生物信号中学习临床有用的关联。这一捷径意味着研究人员可以在易于收集的生物信号上进行预训练,然后将机器学习模型应用于难以收集和标记的生物信号。
通过改进预训练,研究人员可以使机器学习算法更好地、更高效地检测疾病。预训练的改进减少了专家标记所需的成本和时间。
最近的一个例子是谷歌的Loss of Pulse智能手表功能。新兴的生物信号预训练领域可以帮助更快地开发类似的使用更多种类生物信号的功能,并应用于更广泛的疾病。
随着生物信号类型的增加和更多数据的可用,研究人员可能会发现能显著改善早期疾病检测的关系。许多疾病和障碍越早发现,患者的治疗方案就越有效。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。