跳转到主要内容

昆仑万维发布Skywork-OR1推理模型系列

2025-04-15 02:01:03
来源
财迅通

财迅通4月13日消息,记者获悉,昆仑万维公司在其天工团队的持续努力下,于4月13日正式发布了全新升级的Skywork-OR1(OpenReasoner1)系列模型。这一系列模型在逻辑推理与复杂任务求解方面实现了显著的性能突破,标志着大模型技术在此领域的又一次重要飞跃。

据介绍,Skywork-OR1系列模型在同等参数规模下,展现出了业界领先的推理能力。此系列模型不仅进一步突破了大模型在逻辑理解上的瓶颈,还全面开放、免费使用,以完全开源的形式回馈开发者社区。这一举措不仅彰显了昆仑万维在推动AI技术发展上的坚定决心,也为其赢得了开发者社区的广泛赞誉。

此次开源的Skywork-OR1系列模型共包括三款高性能模型:Skywork-OR1-Math-7B,这是一款专注于数学领域的专项模型,同时也具备较强的代码能力;Skywork-OR1-7B-Preview,这是一款融合数学与代码能力、兼具通用性与专业性的通用模型;以及Skywork-OR1-32B-Preview,这是一款面向更高复杂度任务、具备更强推理能力的旗舰版本。

值得一提的是,昆仑万维此次采用的开源策略极具透明度。与其他仅开放模型权重的前沿开源推理模型不同,昆仑万维全面开源了模型权重、训练数据集和完整训练代码。所有资源均已上传至GitHub和Huggingface平台,为开发者提供了完全可复现的实践参考。同时,配套的技术博客也已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现。

在评测方面,Skywork-OR1系列模型引入了avg@k作为核心评估指标,以更全面地反映模型的真实性能水平与实用价值。在数学推理任务中,Skywork-OR1系列模型在AIME24与AIME25数据集上均实现了同参数规模下的最优表现。特别是Skywork-OR1-Math-7B模型,在高阶数学推理任务中展现出了专业优势,其表现远超当前主流7B级别模型。

此外,在竞赛编程任务中,Skywork-OR1系列模型也取得了显著成绩。通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了最优性能。其中,Skywork-OR1-32B-Preview的表现尤为突出,其代码生成与问题求解能力已接近参数规模高达671B的DeepSeek-R1模型,充分展现了天工团队训练策略的先进性。

Skywork-OR1系列模型之所以能在数学推理与代码生成任务上实现显著性能突破,离不开天工团队在模型后训练阶段的长期自研积累与技术深耕。在数据选择和预处理方面,天工团队构建了一个高质量数学和代码数据集,并采用了严格筛选和评估机制。在数据过滤方面,团队实施了双重过滤机制以优化训练效果。同时,Skywork-OR1还采用了Group Relative Policy Optimization(GRPO)进行模型训练,并引入了多项优化措施,如训练时数据优化、训练Pipeline优化、训练时模型探索以及训练Loss优化等。

自2023年以来,昆仑万维一直坚定地开源大模型回馈开发者和行业。截至目前,已在HuggingFace上上传了22个模型、6个数据集,并收获了开发者社区的好评。此前开源的Skywork-R1V多模态视觉推理模型、SkyReels-V1面向AI短剧创作的视频生成模型、Skywork-o1推理模型以及Skywork-Reward奖励模型等,不仅在HuggingFace上下载量表现出色,而且开发者讨论度和模型热度也依然居高不下。

随着全球人工智能领域的竞争日趋激烈,竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。在此背景下,昆仑万维将继续秉持“All in AGI与AIGC”战略和“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入。未来,昆仑万维将力求在全球AI技术浪潮中抢占先机、塑造竞争优势,为推动中国AI技术的自主可控发展贡献更多力量