多模态性有望重新定义企业在2025年如何利用AI。想象一下,一种不仅理解文本,还理解图像、音频和其他传感器数据的AI。人类天生就是多模态的,但我们处理输入的能力有限。以医疗保健为例,在我任职于Google Health期间,我听到了许多患者用大量数据淹没医生的故事:
想象一个患有心房颤动(AFIB)的患者带着五年详细的睡眠数据来到医院,这些数据来自他们的智能手表。或者考虑一个癌症患者带着20磅重的医疗记录,记录了他们接受的所有治疗。这两种情况都是真实的。对于医生来说,挑战是一样的:区分信号和噪声。
我们需要的是一个可以总结和突出关键点的AI。像ChatGPT这样的大型语言模型已经在文本中做到了这一点,提取出最相关的信息。但是如果我们能教会AI用同样的方式处理其他类型的数据,如图像、时间序列或实验室结果呢?
要理解多模态是如何工作的,让我们从AI需要数据进行训练和预测这一事实开始。多模态AI旨在同时处理多样化的数据源——文本、图像、音频、视频甚至时间序列数据。通过结合这些输入,多模态AI提供了更丰富、更全面的问题解决能力。
多模态AI更像是一个发现工具。不同的数据模态由AI存储。当输入新的数据点时,AI会找到相似的主题。例如,通过输入某人的智能手表睡眠数据和他们的心房颤动(AFIB)发作信息,医生可能会发现睡眠呼吸暂停的迹象。
请注意,这是基于“相似度”,而不是相关性。这可以看作是亚马逊曾经推广的放大版:“购买此商品的人也购买了该商品。”在这种情况下,它更像是:“具有这种睡眠模式的人也被诊断出患有AFIB。”
多模态AI系统由三个主要组件组成:编码器、融合机制和解码器。
编码器将原始数据(例如,文本、图像、声音、日志文件等)转换为AI可以处理的表示形式。这些被称为向量,存储在潜在空间中。简化来说,这个过程就像是将物品存放在仓库(潜在空间)中,每个物品都有特定的位置(向量)。编码器几乎可以处理任何东西:图像、文本、声音、视频、日志文件、物联网(传感器)信息、时间序列——不胜枚举。
当处理单一类型的数据(如图像)时,编码就足够了。但对于多种类型的数据——图像、声音、文本或时间序列数据——我们需要融合信息以找到最相关的内容。
解码器将潜在空间中的信息“解码”并传递给我们。它从原始的抽象信息转变为我们可以理解的内容。例如,找到一张“房子”的图片。
如果你希望了解更多关于编码、解码和重排序的知识,可以参加我在eCornell的在线证书课程《设计和构建AI解决方案》。这是一个无需编程的课程,涵盖了AI解决方案的所有方面。
让我们看看另一个例子:电子商务。亚马逊的界面在过去25年里几乎没有变化——你输入关键字,滚动浏览结果,希望找到你需要的东西。多模态可以改变这种体验,允许你描述产品、上传照片或提供上下文以找到完美的匹配。
在r2decide,我和几位康奈尔校友共同创立的一家公司,我们正在使用多模态技术将搜索、浏览和聊天合并为一个无缝流程。我们的客户是那些因用户无法找到所需商品而失去收入的电子商务公司。我们解决方案的核心是多模态AI。
例如,在一家在线珠宝店,过去用户搜索“绿色”只会看到产品文本中出现“绿色”一词的珠宝。由于r2decide的AI还将图像编码到共享的潜在空间中,它可以在所有模态中找到“绿色”。然后根据用户的过去搜索和点击记录重新排名,以确保他们获得最相关的“绿色”选项。
用户还可以搜索更广泛的情境,如“婚礼”、“红色连衣裙”或“哥特式”。AI将这些输入编码到潜在空间中,匹配合适的产品,并显示最相关的结果。这种能力甚至扩展到品牌名称,如“施华洛世奇”,即使商店未正式销售施华洛世奇产品,也能找到相关项目。
除了搜索结果外,r2decide还会生成AI驱动的提示——旨在增强用户体验的上下文推荐或提示。这些提示由AI代理驱动,正如我在昨天关于代理AI的文章中所描述的那样。它们的目的是引导用户轻松找到最相关的选择,使搜索过程直观、吸引人且高效。
多模态正在改变行业,从医疗保健到电子商务。不仅如此,初创公司如TC Labs使用多模态AI优化工程工作流程,提高效率和质量,而丰田则用它提供互动、个性化的客户服务。
2025年将是多模态AI彻底改变企业运作方式的一年。请关注我在《福布斯》或LinkedIn上的更多2025年AI预测。
(全文结束)