meta和加州大学圣地亚哥分校的研究者提出了一种名为coconut(连续思维链)的新型范式,提升大型语言模型(llm)的推理能力。该方法巧妙地修改了传统的思维链(cot)过程,不再依赖语言模型头和嵌入层将隐藏状态与语言token映射,而是直接使用最终的隐藏状态(连续思维)作为下一个token的输入嵌入。
这种改变使得推理摆脱了语言空间的限制,并允许通过梯度下降进行端到端优化,因为连续思维是完全可微的。研究采用多阶段训练策略,利用语言推理链指导训练过程,从而增强潜在推理能力。
Coconut 的推理机制高效且独特。与基于语言的推理不同,连续思维可以同时编码多个潜在的下一步,类似于广度优先搜索(BFS)。即使模型在初始阶段可能出错,它也能在连续思维中保留多种可能性,并逐步排除错误路径,最终找到正确答案。这一过程由隐含的价值函数引导,超越了传统的CoT方法。
实验结果表明,Coconut显著提升了LLM的推理能力。在数学推理(GSM8k)和逻辑推理(ProntoQA、ProsQA)任务中,Coconut及其变体在准确率和效率方面均优于基于语言的CoT方法,尤其在需要更强规划能力的逻辑推理任务中表现突出。 在社交媒体平台X上,这项研究也引发了广泛关注。
Coconut方法概述:
Coconut在语言模式和潜在模式之间切换:
- 语言模式:模型如同标准语言模型,自回归生成下一个token。
- 潜在模式:模型直接利用最后一个隐藏状态(连续思维)作为下一个输入嵌入。
特殊token ⟨ 和 ⟩ 分别标记潜在思维模式的开始和结束。
训练过程:
研究采用多阶段训练策略,利用语言CoT数据监督连续思维的训练。初始阶段在常规CoT实例上训练,后续阶段逐步用连续思维替换CoT中的推理步骤。
推理过程:
类似于标准语言模型解码,但在潜在模式下,直接使用最后一个隐藏状态作为输入嵌入。模型可以通过训练二元分类器或设置固定长度来决定潜在模式和语言模式的切换。
实验结果与分析:
实验涵盖数学推理(GSM8k)和逻辑推理(ProntoQA, ProsQA)。Coconut在各个数据集上均取得了显著提升,尤其在ProsQA上超越了CoT方法。 实验还比较了不同版本的Coconut,包括无课程学习、无思维和思维替换版本,证明了多阶段课程学习策略的重要性以及连续思维的有效性。
通过分析Coconut的推理过程,研究者发现连续思维可以同时探索多个推理路径,类似于搜索树,并逐步收敛到正确答案。 这解释了其在规划密集型任务中的优势。
这项研究为LLM的推理能力提升提供了新的思路,也为未来的研究方向指明了道路。 更多细节请参考原文:https://www.php.cn/link/73926ad475a40a4cb676b8d4516cd767
以上就是田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式的详细内容,更多请关注抖狐科技其它相关文章!
-
优酷和微信怎么共享会员
通过微信共享优酷会员只需几步:进入微信“服务”→“优酷”→“共享会员”,输入共享信息,发送邀请。对方激活后可与至多5人共享,有效期内可共享3次,需绑定微信支付或支付宝。如何通过微信共享优酷会员 通过微...
-
懂车帝怎么模拟打开车门
懂车帝模拟打开车门功能允许用户虚拟查看汽车内部,步骤如下:搜索汽车并进入详细页面。点击“3d看车”并找到“打开车门”按钮。调整视角并使用门把手打开车门。在3d视图中查看内部,包括座椅、仪表盘等。点击“...
-
为什么有的夸克带电
夸克带电的原因是它们拥有的分数电荷,即基本电荷的倍数。夸克分两种类型:上夸克带+2/3基本电荷,下夸克带-1/3基本电荷。此外,夸克还具有“颜色荷”,必须携带红、绿、蓝三种颜色荷中的一种或组合。夸克的...
-
方舟生存进化无敌指令
在游戏《方舟:生存进化》中无敌状态的指令是:god。 玩家想要关闭该模式时,只需要在控制台重新输入一遍god命令,再按回车键即可取消无敌。《方舟:生存进化》是一款由独立工作室Wildcard所制作的生...
-
如何在 Go 中将切片变量转换为字节数组以进行网络传输?
go 中将切片变量转换为字节数组 在 go 中,向 net.conn 写入数据时,需要使用 []byte 类型的变量作为参数。然而,您遇到的问题是您需要写入的变量是一个切片类型。 解决方案 要解决此问...