在今天的专栏中,我将探讨一个快速发展的趋势,即开发专门用于心理健康治疗的AI基础模型和生成式AI。
构建这样的模型并非易事。初创公司正热衷于踏上这条崎岖的道路,积极吸引顶级风投投资。学术研究人员也在努力找出最佳方法,并探讨其可行性。事实证明,其中一些努力是真诚且值得称赞的,而另一些则较为肤浅,主要是一些虚张声势的行为。
让我们来谈谈这个问题。
对AI突破的这种分析是我持续在《福布斯》专栏中报道最新AI进展的一部分,包括识别和解释各种有影响力的AI复杂性(详见链接)。
作为背景介绍,我一直在广泛地覆盖和分析现代AI在提供心理健康建议和进行AI驱动治疗方面的各个方面。这一领域的迅速发展主要是由于生成式AI和大型语言模型(LLMs)的进步和广泛应用。
毫无疑问,这是一个快速发展的领域,拥有巨大的潜力,但同时也伴随着隐藏的风险和陷阱。我经常就这些紧迫问题发表意见,包括去年在CBS《60分钟》节目中的一次露面。对于这个不断演变的话题,我已发表了超过一百篇专栏文章,详见链接中的四十多篇简要回顾。
如果你是第一次接触AI在心理健康领域的应用,你可能会想阅读我最近的一篇文章,该文还介绍了斯坦福大学精神病学和行为科学学院的一个新项目——AI4MH,详见链接。
现在回到正题。
AI在心理健康领域的圣杯之一是设计、构建、测试和部署专门用于心理健康治疗的AI。我将带你深入了解这一过程。请知道我们仍在早期阶段,致力于开发稳健且全面的心理健康咨询AI。
好消息是我们已经知道了很多,我将与你分享这些知识,希望能激励更多感兴趣的人加入这些努力。坏消息是,由于这些仍然是粗糙的努力,我们还没有一条清晰明确的路径。大量的空想和猜测充斥其间。
我认为这更是一个机会和令人兴奋的挑战,而不是沮丧或阻碍。我们需要脚踏实地,用尽全力,把这个事情搞清楚。
这样做将有利于整个社会的心理健康。
是的,它确实如此重要。
让我们先确保我们在AI基础模型的本质上达成共识。为了简洁起见,我将尽量简短地解释,所以请不要生气(我也在文中提供了深入报道的链接,供那些想要了解更多内容的读者参考)。
当你使用ChatGPT、Claude、Gemini或其他任何生成式AI应用程序时,你实际上是在使用一个底层的大型语言模型(LLM)。这通常是一个大规模的内部结构,通常是一个庞大的人工神经网络(ANN),详见链接中的详细解释。可以将其视为一个存储与人类词语相关的数学模式的巨大数据结构。
LLM是如何找到与人类词语相关的模式的?
通常的方法是,AI制造商扫描互联网上的数据,查找可获取的散文、诗歌、叙述和其他各种人类撰写的材料。然后,AI算法会检查这些文本,以确定我们在使用的词语中关键的数学和计算模式。
经过AI制造商的一些额外调整,LLM就变成了生成式AI,即你可以输入提示,AI会生成一个合适的响应。假设你至少使用过一个或多个生成式AI应用程序。如果你使用过,我想你会同意,响应看起来非常流畅。这是因为模式匹配在数学和计算上很好地找到了词语之间的关联。
作为核心LLM的基础模型通常被称为AI基础模型。它是其余AI的基础。AI制造商将根据他们的偏好构建一个基础模型,然后产生该模型的变体。
例如,AI制造商可能会使用他们的基础模型并创建一个稍微调整的版本,使其在处理提示时更快,尽管这可能会牺牲准确性。对于这个新版本,他们将其市场定位为快速选项。接着,他们可能还有一个变体,能够进行深入的逻辑推理,这非常有用。但这个版本可能会因为涉及更多的计算工作而响应较慢。
你明白了吧。
每种你用过的生成式AI应用程序都是基于一个核心基础模型,基本上就是运行它的LLM。每个AI制造商决定如何设计和构建他们的基础模型。没有一个通用的标准供大家使用。由AI制造商自行设计,或者可能许可他人的,或者选择使用开源选项等。
有趣的是,有些人认为我们现在过于一致,几乎所有的主流生成式AI应用程序都是以相同的方式设计和构建的。
令人惊讶的是,大多数AI基础模型大致相同。人们担心我们可能会走向死胡同。也许当前的主导方法无法扩展。大家都在齐步前进。或许需要一种全新的方法才能达到更高的AI水平。
关于以不同方式构建AI基础模型的创新方法,请参阅链接中的报道。
总的来说,有一个AI业内人士的说法,即大多数LLM和生成式AI通常“一英里长,一英寸深”。
意思是说,通用的生成式AI或LLM在各个方面都很好(一英里长),但在任何方面都不是专家(只有一英寸深)。AI只是接受了广泛的训练。如果你想让AI参与日常对话,这是很好的。这样做的好处是你可以在很宽泛的问题范围内提问,并几乎肯定能得到一个合理的答案(大部分时候,但不是所有时候)。
不幸的是,你可能无法得到深层次问题的合适答案。所谓深层次,是指基于特定专业知识并在特定领域扎根的问题。记住,AI是一英里长,但只有一英寸深。一旦你深入到那一英寸以下,你就永远不知道会得到什么样的答案。
有时,AI会直接告诉你它无法回答你的问题;而在其他时候,AI会试图编造一个答案并蒙混过关,详见我在链接中的报道。
我倾向于将AI基础模型分为两大类:
通常的生成式AI属于第一类,使用通用型AI基础模型。这就是你通常使用的类型。一英里长,一英寸深。
假设你想使用比一英寸更深的AI。你可能在寻找具有财务领域专业知识的AI,或者可能具有法律领域的专业知识(详见我在链接中的领域特定法律AI报道),或者可能具有医学领域的专业知识等等。
这将是领域特定型AI基础模型。
领域特定型AI基础模型是专门设计、构建、测试和部署以适用于所选领域的。
请注意,不要假设任何领域特定型AI基础模型都能与人类专家相媲美。不,我们还没有到那一步。话虽如此,在某些条件和情况下,领域特定型AI基础模型可以与人类专家一样好,甚至可能超越人类专家。
去年发布的一篇有用的综述论文简要概述了一些最受欢迎的领域特定型AI基础模型,包括自动驾驶、数学推理、金融、法律、医学等领域(论文题目为“领域特定基础模型概述:关键技术、应用和挑战”,作者为Haolong Chen, Hanzhi Chen, Zijian Zhao, Kaifeng Han, Guangxu Zhu, Yichen Zhao, Ying Du, Wei Xu, 和 Qingjiang Shi, arXiv, 2024年9月6日)。
请记住,每天领域特定型领域都在变化,因此你需要时刻关注最新的状态。
AI基础模型有四个基石要素:
这四个元素既用于通用型AI基础模型,也用于领域特定型AI基础模型。这是它们总体设计和架构原则的共同点。
目前,由于通用型模型远远多于领域特定型模型,所以在开始设计领域特定型模型时,倾向于简单复制通用型模型的核心部分。这是一种懒惰的信念,认为没有必要重新发明轮子。你不妨利用我们已经知道的行之有效的方法。
我预测,我们将逐渐看到领域特定型模型从占主导地位的通用型模型中分化出来。这是有道理的,因为给定的领域必然需要对这四个基石元素进行重大修改,而这些修改与满足通用型模型的需求不同。
最终,我们将拥有领域特定型模型的家族。
例如,其中一个家族将由心理健康治疗领域的领域特定型模型组成。这些将是心理健康领域的领域特定型AI基础模型,它们在领域特性上非常相似。想象一下这些基础模型的库。这将允许AI开发者在实例化新的心理健康治疗模型时选择他们想要使用的基础模型。
目前,构建领域特定型AI基础模型有点像淘金热。
你可以想象为什么会这样。目标是利用生成式AI和LLM的能力,超越回答一般性问题,深入到领域特定问题。
当人们发现通用型AI基础模型无法恰当地回答他们的领域特定问题时,他们会感到不安。反应是失望。为什么这个看似聪明的AI不能回答如何治愈我的膀胱疾病、报税或其他深度导向的问题?
用户最终会意识到他们需要具有深度专业知识的AI。人们甚至愿意在最顶级的通用型AI和适合他们需求的最佳领域特定型AI之间来回切换。
在领域特定型AI中,特别是在心理健康领域,存在着巨大的机会。
我有一个方便的规则给你。
规则是领域特定型AI基础模型并不都是一样的。
我的意思是,给定领域的性质决定了应该对结构、算法、数据和交互性这四个基石元素做些什么。金融模型的形状将与心理健康治疗模型不同。依此类推。你如果只是复制一个领域特定型模型并假设它立即可以在其他领域使用,那是不明智的。
我将在稍后讨论心理健康治疗模型与其他特定领域的独特或突出条件。
使用ChatGPT、Claude、Gemini或任何基于通用型AI基础模型构建的生成式AI,在寻求心理健康建议时只能起到有限的作用。再次出现了一英里长、一英寸深的问题。
你向AI询问心理健康建议,它会欣然提供。
问题是,你得到的是浅薄的心理健康建议。人们并没有意识到这一点。他们认为这些建议是最高质量的。AI可能会引导你走上这条花言巧语之路。AI会提供以专业和完全胜任的方式组成的答案。用户认为他们刚刚得到了最好的心理健康建议。
AI制造商已经塑造了他们的AI以呈现这种外观。这是一种狡猾和不正当的做法。与此同时,为了保护自己,AI制造商的许可协议通常会在小字中注明,用户不应使用AI进行心理健康建议,而是应咨询人类治疗师,详见我在链接中的讨论。
更糟糕的是,有时通用型生成式AI会产生一堆心理术语,看似令人印象深刻的心理健康建议实际上是毫无意义的心理词汇堆砌,详见我在链接中的分析。
让我们考虑一下这些问题的大局。
生成式AI用于心理健康建议有三个主要途径:
对这三个途径的一些快速思考。
我已经提到了对通用生成式AI分发心理健康建议的担忧。
使用定制生成式AI,如编码为提供心理健康治疗的GPT,是一个小小的进步,但由于几乎任何人都可以制作这些GPT,这是一件冒险的事情,你应该极其谨慎地进行——详见我在链接中的评论和评估。
因此,如果我们真的希望生成式AI能适当地提供心理健康建议,领域特定型AI基础模型是正确的方向。
领域特定模型的子类型
一般来说,领域特定模型分为两个主要子类型:
仅领域型假定模型几乎可以完全基于手头的领域进行设计。这种情况一般很少见,但在某些情况下是有道理的。
混合子类型认识到,有时(很多时候)所选领域本身不可避免地需要通用型模型的方面。你看,有些领域严重依赖通用型功能。它们实际上无法从通用型能力中剥离出来。否则,你会得到一个奇怪的有限且完全无法使用的领域特定模型。
让我们看看这是如何工作的。
假设我想做一个AI基础模型,它是生成数学证明的领域专家。这就是它需要做的全部。这是一个领域特定模型。当有人使用这个数学证明模型时,他们输入一个以标准谓词逻辑表示的数学命题。程序员会认为这种交互类似于Prolog编程语言。
这个仅领域型模型不需要什么?
在这种情况下,有两个特质并不是特别需要的:
数学证明模型不需要引用莎士比亚或成为一个愉快的交谈者。它所做的只是接受由数学命题组成的提示,然后生成完美的数学证明。除此之外什么都不需要,所以我们不妨保持简洁并专注于手头的任务。
让我们鲜明对比这个数学证明模型和心理健康治疗模型。
正如我稍后将指出的,心理健康治疗领域需要强大的流畅性和健全的世界观能力。为什么?因为心理健康护理领域的必要领域特定特征要求治疗必须以流利的自然语言进行,并具有坚定不移的世界观。
为了说明流畅性和世界观的重要性,让我们跟随一个初级AI开发者决定构建一个心理健康治疗的AI基础模型的情景。
首先,AI开发者抓取一个完全空白的通用型AI基础模型。没有对其进行数据训练。它基本上是一个空白板,一个空壳。这个情景符合我之前提到的观点,即在设计领域特定模型时倾向于重用通用型模型。
然后,AI开发者收集他们在心理健康治疗主题上能找到的所有数据和文本。这包括书籍、指南书(如DSM-5,详见我在链接中的分析)、研究论文、心理学文章等。此外,实际现实生活中的客户-治疗师治疗会议的记录也非常有用,尽管找到它们并清理它们往往是个问题,而且它们目前还没有足够大的规模可用(详见我在链接中的讨论)。
AI开发者继续使用收集的数据来训练AI进行心理健康治疗。这是将AI沉浸在心理健康治疗领域。AI将数学和计算上找到与心理健康治疗相关的词语模式。经过一些微调,瞧,一个看似准备好的心理健康护理领域特定模型就可以发布了。
就是这样,扔掉麦克风。
事情不太可能按照这个AI开发者的计划进行。
我通过一个例子来解释原因。
想象一下你是一名治疗师(也许你就是!)。一个患者与你互动,说了这样的话:“前几天我开车时看到路边有一只孤独、痛苦的狗在叫,这让我不开心。”
我相信你立刻在脑海中想象出这个患者在车里,他们坐在驾驶座上,正在开车,偶然从车窗外看到了一只狗。这只狗独自一人。它看起来很伤心。它在吠叫,可能是为了引起注意或因为痛苦。你的患者观察到这只狗,并反应说自己变得不开心了。
理解患者所说的话很容易。
如果我们把同样的句子作为提示给上面构建的领域特定AI,有一个关键问题需要考虑。记住,AI并没有进行全面的数据训练。我们只关注了心理健康相关的内容。
这个领域特定AI能否理解一个人开车意味着什么?我们不知道这是否在仅关注心理健康的内容中被涵盖。AI能否理解狗是什么?什么是狗?这是因为它没有广泛地训练关于世界的知识。
我们有一个可能一英里深但只有一英寸宽的AI。
这不行。
如果你不了解世界的广度,就无法合理地进行心理健康治疗。想象一个心理健康治疗师在一个偏远孤立的岛屿上长大,从未发现外面的世界。他们很难甚至不可能理解来自繁华都市的患者的讲述。
你可能会幸运地发现,仅在心理健康内容上进行数据训练的领域特定AI在世界观方面足够宽泛,可以使用,但我不会屏住呼吸等待这个假设成真。
很可能你需要让AI具备全面的世界观和完整的流畅性。
所以,你可以采取以下三种行动之一:
每种选择都有其权衡。
第一种行动是最常见的,即广度优先,然后是深度。
你找到一个已经在各方面进行数据训练的通用型AI基础模型。假设你可以完全访问它,然后进一步用心理健康内容对其进行数据训练。常用的方法是使用检索增强生成(RAG)方法,详见我在链接中的解释。本质上,你将所有收集到的心理健康内容用于进一步的数据训练。
顺便说一句,以前这种方法相当有限,因为AI模型在可以浏览和吸收的附加数据量上有严格的限制,但这些限制每天都在扩大。
第二种列出的行动较少见,但越来越受欢迎。
它采取了一条不同的路线。你设计一个小语言模型(SLM),它仅专注于心理健康。然后,你找到一个你认为合适且具备所需世界观的大型语言模型(LLM)。然后,你使用SLM对LLM进行心理健康领域的数据训练。有关使用SLM训练LLM的更多细节,即知识蒸馏过程,详见我在链接中的讨论。
第三种行动是初始数据训练时同时进行广度和深度。你不仅广泛扫描互联网,还同时输入心理健康内容。从AI的角度来看,这只是输入的数据,没有什么先后顺序。
让我们考虑一下这三种可能性在实施过程中可能遇到的一些障碍。
无论采用哪种方法,都会出现一个令人头疼的困难,那就是需要考虑潜在的不良后果。
简而言之,问题是这样的。心理健康治疗的深度可能会因与世界观的交织而受到破坏。在交织过程中,一个通用的治疗原则可能会覆盖一个深度元素。哎呀,我们刚刚降低了深度内容的质量。
各种各样的头痛可能会随之而来。
例如,假设深度内容中有一个治疗指导原则,说你在心理健康方面永远不要告诉患者他们“痊愈”了(这是一个激烈争论的话题,有人认为没有人能在精神上“痊愈”,就像克服癌症那样,这么说会误导人)。同时,假设世界观元素中包含的内容说总是告诉患者他们“痊愈”了是完全可以接受的,甚至是首选的。
这两个治疗建议截然相反。
AI可能会保留这两个建议。哪一个会占据主导地位?你不知道。它可能是随机选择的。不好。或者可能在进行治疗互动时,突然有什么触发了AI,让它转向支持“痊愈”而不是“未痊愈”,或者反之亦然。
关键在于,由于我们试图将广度与深度结合起来,需要一些巧妙的方法。你不能简单地将它们随意混合在一起。
目前,处理这个杂烩问题既是艺术也是科学。即使你认为只需要告诉AI心理健康方面的深度内容始终优于其他任何内容,这种看似万无一失的解决方案也有缺陷。
转向另一个构建生成式AI的关键元素,以及在设计领域特定AI模型(如心理健康治疗)时如何使用它。
让我们从一点珍贵的AI历史开始。
ChatGPT首次发布时之所以如此受欢迎,一个重要原因是OpenAI使用了一种称为从人类反馈中强化学习(RLHF)的技术。如今,几乎所有AI制造商在发布生成式AI之前都会使用RLHF作为开发和改进过程的一部分。
这个过程很简单,但却是游戏规则的改变者。AI制造商将雇佣人类来玩即将发布的生成式AI。这些人被指示仔细审查AI,并提供关于AI做得好和做得不好的指导。
想想我们在日常生活中经历的经典强化学习案例。你在煎鸡蛋。当你把鸡蛋在平底锅里多煎一会儿,假设它们煮得更好了。所以下次你煎鸡蛋时,你会让它们煎得更久。呃,它们烧焦了。你意识到你需要减少煎的时间。
被雇佣来指导AI的人也会做类似的事情。一个常见方面是提供关于AI生成的措辞和语气的指导。他们告诉AI什么是好的,AI会将其内部计算为奖励。他们也告诉AI什么是不应该做的,这是一种数学和计算上的惩罚。
想象一下,一个被雇佣的人进入一个初步的通用型AI,询问为什么天空是蓝色的。AI生成了一个回应,告诉这个人他们问了一个愚蠢的问题。
我们不希望AI告诉用户他们很愚蠢。这不是赢得用户忠诚的好方法。被雇佣的人告诉AI不应该称用户愚蠢,也不应该将任何用户的问题称为愚蠢。
如果我们有一大群这样的人连续几天或几周不断地锤炼AI,渐渐地,AI会通过模式匹配学会什么是对的,什么是不对的。AI正在从人类那里获得基于强化学习的反馈。
ChatGPT之所以在这方面表现出色,部分原因是由于RLHF。在此之前,许多发布的生成式AI应用程序常常粗鲁地侮辱用户,甚至说出脏话。AI制造商不得不迅速下架这些不守规矩的AI。一些AI制造商的声誉受到了很大打击。情况很糟糕。
有了ChatGPT,部分由于RLHF,它不太容易做出那些不雅的行为。有关RLHF如何工作的更多细节,请参阅我在链接中的讨论。
假设我们已经设计了一个精通心理健康治疗的领域特定生成式AI。它具备各种深入的专业知识。我们对自己构建的东西感觉良好。
我们应该立即将它交给公众吗?
如果你不首先对AI进行广泛的RLDHF,那将是愚蠢的。让我解释一下原因。
我为RLHF创造了一个修改后的口号,我称之为RLDHF,即从领域人类反馈中强化学习。它类似于RLHF,但RLHF通常是关于通用方面的。这仍然是需要的,但对于领域特定模型,你也必须进行RLDHF。
一个例子可以说明RLDHF的方法。通常的RLHF是为了使AI变得温和,很少与用户正面交锋。AI制造商希望用户喜欢AI并对AI有好感。
治疗师通常不会以同样的方式温和。当然,有时候人类治疗师会非常随和,但其他时候他们需要分享一些艰难的消息,或者让患者以可能让他们感到不安的方式来理解事情。RLHF通常是为了明确避免任何冲突或困难时刻。
在RLDHF的情况下,领域特定AI的制造商雇用领域专家在最后的训练阶段提供基于强化学习的反馈。想象一下,我们雇用心
理健康治疗师来为我们正在开发的领域特定AI提供反馈。他们登录到AI并对其互动的措辞给予好评或差评。同样的,也适用于对话的语气。
跳过RLDHF是一个灾难性的决定。AI提供的治疗很可能会遵循已经进行的RLHF。我已经展示了基于AI的治疗师如果缺乏适当的RLDHF会是什么样子(详见链接),并强调了在培训过程中使用心理治疗师指导的RLDHF是不可或缺的。
还有一种形式的反馈可以对心理健康治疗模型产生奇迹般的效果,称为从AI反馈中强化学习(RLAIF)。我知道你可能还没有听说过这种较新的方法,但它正在迅速获得关注。
在领域特定AI模型中使用RLAIF,如果做得好,会有非常显著的效果。
首先,请记住我之前关于RLHF和RLDHF所说的一切。我们将对这些方法进行一些调整。而不是用人类来为AI提供反馈,我们将用AI来为AI提供反馈。
你说什么?
事情其实很简单,并不复杂。我们设置一些外部生成式AI,我们希望用它来为正在进行心理健康治疗数据训练的生成式AI提供反馈。两个AI将直接相互交互。这是纯粹的AI与AI之间的对话。
对于我们的心理健康治疗AI,我们将进行以下两项活动:
你可以让外部AI假装成患者或治疗师。这可以通过LLM的“人格”功能自然实现(详见我在链接中的详细报道)。AI模拟的患者相对容易设计。治疗师的人格必须经过深思熟虑并合理使用;否则,你会让正在训练的AI陷入混乱。
经验法则:除非你知道自己在做什么,否则不要使用RLAIF。它可能会非常复杂。
与此相关的是,生成式AI人格也是人类治疗师的有用工具。例如,我已经描述了如何通过与模拟各种患者的AI互动来测试和改进治疗技能(详见链接)。每个这样的AI驱动的患者在他们所说的话和行为方式上都可能不同。
同样,治疗师可以让AI假装成治疗师。这允许一个初出茅庐的治疗师体验作为患者的感觉。另一个有用的方面是,人类治疗师可以了解其他治疗风格。设置模拟治疗风格和心理健康角色扮演的生成式AI有其优缺点(详见我在链接中的讨论)。
恭喜,我们已经涵盖了构建心理健康治疗AI基础模型的一些基本要素。你现在对基础知识有了大致的了解。
还有很多内容需要覆盖。
以下是我在系列第二部分中将要涵盖的内容的预览:
构建心理健康治疗的AI基础模型并非易事。如果你听到或看到某个初创公司声称他们可以在几小时或几天内建立一个完整的心理健康AI基础模型,请谨慎对待并持怀疑态度。这样的大胆声明不太可信。
他们可能不了解心理健康治疗的真正含义。他们可能是精通AI的技术人员,但对心理健康护理的复杂性只有肤浅的理解。也许他们对治疗的看法非常狭隘。或许他们认为只需要在通用型AI中添加一些巧妙的系统提示就足够了。
务必详细了解他们的具体想法。
不允许敷衍了事。
如果你考虑构建这样一个模型,我鼓励你这样做,并对你愿意接受这一迷人而引人入胜的挑战表示赞赏。我真诚地请求你在着手这项艰巨任务时保持正确的视角。要有条理,要谨慎。
最后引用弗洛伊德的一句话:“对自己完全诚实是一种很好的锻炼。”
确实如此,在构建心理健康治疗的AI基础模型的过程中,务必诚实地面对自己,确保你具备必要的能力和心态来继续前进。
然后全力以赴。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。