推动大模型自我进化，北理工推出「流星雨计划」

2024-12-05 13:53:12 编辑：抖狐科技来源：摘自互联网

北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划，旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式：在掌握基本技能后，通过与环境及自身的交互，不断学习和改进。本文将重点介绍该计划在代码大模型和垂域大模型进化方面的成果。

SRA-MCTS：赋能代码大模型自我进化

论文标题: SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
论文地址: https://www.php.cn/link/a598e7d200bf02558d5534839884b7a3
代码开源: https://www.php.cn/link/c9de64b0aa92114521bfc07918df7b47
8B 模型数据开源: https://www.php.cn/link/b23f2a9eddbae15529dc68d16d4d4c9c

为提升代码大模型的性能，研究人员提出了SRA-MCTS方法。该方法的核心在于让模型无需外部监督信号，自主生成推理路径并转化为代码。通过自我迭代，模型能够生成更高质量的推理路径，从而提升处理复杂问题的成功率。实验结果表明，即使是小规模模型，SRA-MCTS也能显著提升其性能，尤其在处理多样化和复杂问题方面。

SRA-MCTS 的主要贡献：

无监督学习: 无需人工标注数据或额外监督。
持续自我提升: 通过自我训练形成正反馈循环，持续改进性能。
增强复杂问题解决能力: 在不同规模模型上均取得显著性能提升。
小模型自我合成潜力: 小模型(2B, 8B, 14B)自我合成数据训练效果超越大模型数据蒸馏。

SRA-MCTS 的工作机制:

SRA-MCTS 通过结合推理过程和数据生成，引导模型自主生成推理路径。该方法包含四个阶段：选择、扩展、评估与反思、反向传播。通过反复迭代，模型不断完善其推理能力。

示例：拓扑排序代码生成

（此处保留原文中关于拓扑排序的示例代码和解释）

流星雨计划：垂域大模型的自我进化框架

论文: https://www.php.cn/link/5cbd8331fac120a295879dc62b0d10ed
Github: https://www.php.cn/link/94bd3f4d79c60af8831740e58a68dd6e

“流星雨”计划提出一个“弱到强”的进化框架，包含三个阶段：

导师监督学习: 利用知识蒸馏，但采用“弱到强”的策略，让强模型根据弱模型的指导生成领域数据，从而减少认知偏差。
自我评估能力习得: 借鉴StaR方法，利用更强的模型（如GPT-4）提供反馈，迭代训练模型，提升其自我纠错能力。
自我提升训练: 通过对比学习（例如，beam search vs. greedy search），让模型向更高效的推理策略靠拢，实现完全的自我进化。

性能分析及未来展望:

实验结果表明，应用Meteor进化方法后，LLaMA3-8B-Instruct和Qwen2-7B-Instruct在准确性、完整性等方面均有提升。未来，研究团队将继续改进各个阶段的进化方法，并拓展Meteor的应用场景。 DIRECT LAB 欢迎更多研究者参与合作，共同推动大模型自我进化领域的发展。（代码和数据已公开：https://www.php.cn/link/201ecef3255bae210a1b2c0ae4a21c7a）

以上就是推动大模型自我进化，北理工推出「流星雨计划」的详细内容，更多请关注抖狐科技其它相关文章！

本站文章均为抖狐网站建设摘自权威资料，书籍，或网络原创文章，如有版权纠纷或者违规问题，请即刻联系我们删除，我们欢迎您分享，引用和转载，我们谢绝直接复制和抄袭！感谢...

返回首页上一篇：隆利科技：车载显示产品已应用于小鹏MONA M03中控屏上下一篇：ps怎么盖印