阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型

IT之家 5 月 27 日消息，阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与
Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

IT之家附上参考地址

本文分类：实时讯息
本文标签：模型阿里策略长文之家首个团队长上
浏览次数：0 次浏览
发布日期：2025-05-27 14:06:00
本文链接：https://www.alwz.net/news/E6p82dJvGL.html

上一篇 > 鼓励实行2.5天休假！江西等10余省份明确
下一篇 > Excel用户反馈安装微软5月更新后，无法打开方括号开头文件

三亚环投供水有限公司副总经理曾琪：在涨潮前紧急抢修西岛供水管道

“眼睛都快睁不开了，都是强打着精神说话。”台风“剑鱼”过境三亚，三亚环农集团旗下三亚环投供水有限公司副总经理曾琪连续多日没睡过一个安稳觉，声音变得沙哑。这位年龄49岁、党龄18年的“供水卫士”，从8月23日部署台风防御工作到台风过后带队抢修供水设施，始终坚守在保障三亚供水安全的最前线。曾琪（中）在管

以研促教凝智慧暑期蓄力赋新程广饶县2025年初中语文暑期“三说”活动顺利举办

大众网记者孙淑娟通讯员延凤仪于淑娥东营报道教育是一场向美而行的遇见，是一段温暖人心的修行。为深化初中语文教学研究，提升教师专业素养，推动县域语文教育高质量发展，8月15日，广饶县初中语文教师暑期“三说”研训活动在广饶县兴安中学顺利举行。本次活动汇聚全县各初中学校力量，16支语文教师团队代表

香港故事丨邂逅香港原创粤语音乐剧的多元文化之美

新华社香港8月10日电题：邂逅香港原创粤语音乐剧的多元文化之美谢妞明月高悬，鼓声响起，清代“状王”方唐镜的堕落与救赎从此开始……今年夏天，由香港西九文化区、香港话剧团联合制作的原创粤语音乐剧《大状王》开启内地巡演，从上海到北京，创下香港音乐剧在内地巡演的最多场次及观众人次纪录。“有几多邂逅会终生也

今年世界人工智能大会，凭啥一票难求？｜锋面评论

日行万步、排队等候30分钟以上，这俩撞一块，你猜我去了什么地方？答案可不是迪士尼，是，2025世界人工智能大会。今年的大会，不仅请来了2018年图灵奖得主、2024年诺贝尔物理学奖得主杰弗里·辛顿这样级别的大咖，连展会都是前所未有的爆场。世博展览馆门口，入场队伍摩肩接踵。据说单日票、三日通票都是一票

世界人工智能大会阿里展区抢鲜看：AI正在加速转化为“人间烟火”

7月26日，世界人工智能大会展览将在上海世博展览馆开展。25日，各大科技企业已经布置好展区，3000多项展品济济一堂。在阿里巴巴展区，我们看到模型能力突飞猛进，正在通过开源生态引发一场生产力变革；与此同时，AI也正在加速转化为“人间烟火”，成为大家工作、生活的得力“助手”。图为阿里巴巴展台 AI帮