DePekín大学和Danza Beited将共同发布SWE

图1:验证SWE银行性能和模型的大小。研究中32B模型的SWE-SWISS的得分较高60.2%。这与Kimi-Dev和DepSeek-R1-0528等最大型号处于同一步骤。这表明,这项研究中的训练公式使较小的模型可以达到相同水平的木薯性能,并突出效率更高。北京大学,Bontedance种子团队和香港大学共同进行的一项最新研究提出了一个完整的“食谱”,称为“ Swe-Swiss”完整,旨在有效地训练用于解决软件工程问题的训练模型。由研究团队启动的32B SWE-SWISS-32B参数模型已通过授权的参考银行Sweor尺寸级别进行了验证。这项工作表明,媒体模型可以通过精致的方法论实现完整的更高级别的性能,从而提供了新的想法,可以在软件工程领域应用AIg。为了促进社区发展,所有研究模型和数据集将是开源的。 github地址:https://github.com/zhenyuhe00/swe-swisshuggingface和数据:https://huggingface.co/swe-swissintroduction:软件工程挑战和机会解决挑战性软件问题的挑战是面临大型语言模型的挑战(llm)。与纯代码的生成相比,此任务要求该模型具有了解复杂环境,查找问题,生成维修和验证它们的全面功能。现有的框架(例如“无代理”)表明,将这个复杂的任务分为流量工作是一条可行的路线。但是,如何有效地训练模型来掌握所有链接是当前研究中的一个核心问题。借助此工作公式,Swe-Swiss提出的是解决这个问题。它的中心原则是通过明确培训中央功能来建立强大而有效的解决问题模型软件工程的知识。该方法的摘要:“ SWE-SWISS食谱”结构化图2:由三个中心函数驱动的斑块生成的流程图。该第一个模型使用问题描述和代码基础结构进行编码和生成测试,然后修复模块使用局部和恢复文件生成补丁程序。最后,使用所有生成的测试和现有测试过滤和验证最终补丁。 SWE-SWISS食谱分解了三个中心技能的分辨率问题。位置:确切确定应该更改哪些文件。代码维修:一代可以用正确的代码补丁解决问题。生成单位证据:创建单位证据以验证校正。为了确保培训数据的质量,研究人员使用验证拒绝抽样构建了数据集。第一个过程会生成大量候选数据,然后通过严格的自动机进行过滤基于测试的ED验证过程。对于模型调整,仅保留成功的样品。 Sweswiss培训分为两个主要阶段。第一阶段:使用多任务SFT构建基本功能。在此阶段,我们将结合以前的三个技能,总共有10,254个高质量样本来监督QWEN2.5-32B型号。这允许模型对整个问题解决过程建立全面的基本理解。完成此阶段后,该模型在没有证据的情况下达到36.0%的参考收益率。第2阶段:基于SFT模型的两个RL阶段的中央技能竞争着重于通过增强学习提高最重要的“维修”能力。受Polaris的启发,该团队设计了两个阶段的RL课程。首先,该模型在完整的数据集中训练了200个步骤,以构建各种功能。之后,基于性能的修剪可以消除模型,并专注于接下来的90个问题训练步骤。这个阶段有很大的影响。在唯一的斑块生成模式下,模型产量从36.0%增加到45.0%。图3:两个阶段增强学习过程中的性能改进曲线。第一阶段(步骤0-200)显示了完整数据集中训练的稳定改善。第二阶段(200步之后)是在过滤后继续在最困难的数据集中训练,从而提高性能。测试时间延长处于评估阶段,类似于没有代理和没有代理的迷你阶段,而SWE-SWISS使用多生成一代和过滤策略。基于自我融合,团队提出了“改善自我融合”的最终选择。传统的自我对准方法基于代码方案的“完全一致”的巧合,并具有各种语法详细信息。改善的自我利益意味着引入相似性措施,不仅奖励最相同的候选人,也是在“类似解决方案”的密集区域中的候选人。该方法的最终分数达到的图4:SWE-SWE-SWIS-32B测试量表,改进的自我树形和120个补丁的精度为60.2%。结论和开源这项研究工作的核心贡献是提出和验证Sweswiss的完整有效的“食谱”。实验证据,32B培养基模型可以与最大模型结合使用。 SFT后最多36.0%,RL后45.0%,合并量表的60.2%和测试改进,这一系列的性能改进清楚地证明了公式内所有链接的价值,并为行业提供了一种有效的方法来优化大型软件软件工程的功能。该团队将打开SWE-SWISS-32B模型和所有培训数据,以支持后续研究。
特殊声明:以前的内容(包括照片和视频(如果有),如果有)已由自动M平台的用户收取和发布Edios NetASE.此平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。