科学家透露,培训代码执行者受模型功能的限制

图 | 陈勇超(来源:陈勇超) 资料来源:Chen Yongchao是DeepTech的近期本科毕业生,他是美国哈佛大学的科学大学和中国中国博士学位的学生,他的团队同意相对GRPO政策(SFT和小组主管)的占优势。任务。在培训过程中,该模型可以自由使用代码高管一遍又一遍地帮助推断。这些任务具有符号组件,但更合适,文本推断或符号计算,以及如何相互合作,要求该模型真正独立学习。研究小组发现,培训代码主管(代码表演者)受模型的限制。例如,经过过多的文本推理培训,许多模型降低了代码生成功能。容量的这种降解很难反映某些代码参考作为leetcode。这是因为减少的能力是分析代码计算的步骤中的特定抽象问题符号。这也适用于许多现实生活中的问题。符号计算有因素,但是关于抽象符号计算的想法很多。任务的多样性是另一个挑战。很容易轻松训练单个任务代码执行系统,但是研究团队发现,当任务有多种类型的任务时,学习模型很难根据不同任务来确定策略,并且许多任务对策略有反向偏好。考虑到这一点,研究人员发现,仅依靠强化学习,很难获得良好的结果。这不同于在可以完成培训的数学或搜索任务中使用增强学习。 Chen Yong Chao说:“因此,SF Staget在研究团队的任务中仍然非常重要。” Chen Yongchao认为,将来,机器人领域的许多学者“未来模型控制视觉语言,而不是从视觉上转变采取行动的语言”。基于大型模型的推理计划(用于推理和计划的神经基本基础模型)的推理计划的旅行计划,网络任务和解决方案。今天的推理计划。今天的推理计划是直接基于纯神经网络和文本推理进行的,但是,需要在计算范围的范围内进行较大的范围,例如在较大的范围内进行范围,以便在范围内进行计算范围,以确定较大的符号,以确定符合范围的范围。在预算,偏好,行程,价格等因素上,完全选择门票,酒店,时间,地点和运输,例如,典型的任务和机器人的移动计划。 ICRA 2024和使用TravelPlanner [2]在NAACL 2025上发布,将大型型号与标志性的计算机工具相结合,以使用标记和预先设计的算法执行机器人计划和旅行计划问题。这可能会带来良好的结果,但概括是有限的。例如,如果您面临不同的任务要求,则需要的算法和帧将有所不同。在这一点上,为每种情况设计框架非常有限。现在,伟大模型如此受欢迎的主要原因之一是他们自己的概括。因此,研究人员创建了允许大型模型计算符号的方法,而不会失去大型模型的概括。 2024年,当陈阳科成为微软研究的实习生时,他的第一个想法是将代码用作操作员来整合几种算法,控制器和计划者。另一方面,计算符号调用预先配置的规则中的几种算法,例如编程语言,控制器D计划搜索方法。同时,当今的出色模型具有训练后的编程编程能力。因此,研究人员认为,当涉及到几个推断计划任务时,大型模型在自然和高效地使用代码主管时会非常有效,并且可以在文本推理和符号计算之间灵活地动员。同时,如果您选择的算法或代码是由大型模型独立调用和完成的,则不会失去概括。澄清了此地址后,研究人员首先测试了OpenAI Code Exchange,并发现GPT-4O+代码执行人目前受OpenAI培训的问题有很多问题。例如,某些TAREAS显然更好地使用生成的代码来解决它们,但实际上,该模型选择为自己推断,这会导致错误。研究小组还发现,即使通过调整快速单词指南模型来生成代码,该任务也可以解决生成的代码通常包含非valid代码,不能完全使用符号计算。还发现最新的推断模型O1,O3和DeepSeek-R1存在这些问题。然后,研究团队在文档中编译了现有代码互相关的问题,并用来“指导C之间的大型语言模型”“执行ODE和文本推断的标题”,在2025年的有关学习代表的国际国际会议上发表了[3]。解决这些不便的情况,以解决ZIRU培训ZIRU的能力,以提高ZIRU的能力,以培训Copen execut execut execut iSive。指导主要模型的辅助模型是,辅助模型的大小和训练难度要低得多,可以使用最强大的主模型来检测到最强大的能力。t纯文本推断能力和符号计算。这需要基本模型的相对较高的能力。研究小组首先测试了第一种方法。训练有素的密码[4]允许GPT-4O在模型8b的指导下完全使用符号计算来解决许多推理计划问题,该指南在许多任务中允许比O1和DeepSeek-R1更好的性能。研究团队在此工作代码解释器R1中研究了第二种方法。最后,相关文档发表在Arxiv Preprimpression网站上,标题为“ R1-Code-Interpreter:通过监视和强化学习的代码培训的推断LLM” [5]。图|相关文档(来源:ARXIV)Chen Yongchao认为,如果大型未来模型执行推理和计划任务,则必须以三种方式选择和连接方式。 2)调用外部工具(使用工具)。 3)生成创建适当工具的代码。将来,计划探索几种结合这三个模型的方法。同时,旨在在特定的实际应用任务中获得更好的结果,以验证思想的可行性。参考文献:1。https://arxiv.org/abs/2306.06531 2。https://aclanthology.org/2025.naacl-long.176/3。https:///openreview.net/forum? id = 5x5z7ffrjb 4.https://arcxiv.3503020250250202502505.https://arxiv.org/abs/2505.21668Typeset:liu yakun