论文研究

查看 AIHOT 全量动态流,适合需要更完整视图时使用。

6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。
查看原文Learning from the Self-future: On-policy Self-distillation for dLLMs
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。
查看原文Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
大语言模型在逻辑推理基准上表现良好,但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic,包含通用对齐集(60条命题)、困难对齐集(40道难题)及纯中文集(15类语言现象),每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现,但在困难集上效果混杂,Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。
查看原文ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。
查看原文Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
Looped World Models(LoopWM)首次将循环架构引入世界建模。通过参数共享的Transformer模块迭代精炼潜在环境状态,LoopWM在自适应计算中自动匹配每个预测步骤的复杂度,相比传统方法参数效率提升达100倍。该项工作正交于模型规模与训练数据扩展,将迭代潜在深度确立为世界模拟的新扩展轴。
查看原文Looped World Models
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。
查看原文ActWorld: From Explorable to Interactive World Model via Action-Aware Memory
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。
查看原文GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
OPD-Evolver是一个慢-快协同进化框架,基于在线策略自蒸馏培养智能体进化器。快速循环中,智能体与四级记忆层次交互,实现读取、使用、编写和维护经验的快速测试时进化;慢速循环通过结果校准的记忆归因和特权后见,将这四种能力蒸馏至可部署策略。在多领域基准测试中,OPD-Evolver性能超越ReasoningBank达11.5%,超越Skill0约5.8%。分析表明,其内化了高价值经验与记忆管理,使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。
查看原文OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
ZPPO将教师模型的知识注入提示词而非策略梯度,避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题(BCQ)让学生区分正确与错误回答,及负候选问题(NCQ)聚合错误模式;提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师,经视觉语言模型后训练并在31项基准测试中评估,ZPPO全面优于离策略/在策略蒸馏和GRPO,最小规模提升最大。
查看原文Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。
查看原文LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling
6 天前
HuggingFace Daily Papers(社区热门论文)论文研究
提出一种"times-shaped"瓶颈结构的Variable-Width Transformers,在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线,平均层宽降低使总FLOPs减少22%,KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。
查看原文Variable-Width Transformers
6 天前
OpenAI:官网动态(RSS · 排除企业/客户案例)论文研究
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT-5-series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
查看原文Predicting model behavior before release by simulating deployment
6 天前
X:Rohan Paul (@rohanpaul_ai)论文研究
MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。
查看原文Quite incredible, MiniMax Sparse Attention cuts attention compute by 28.4X at 1M tokens, with 14.2X …
6 天前
X:Microsoft Research (@MSFTResearch)论文研究
30倍更快的分析,从SQL自动生成的GPU内核,AI与实验室培育的肿瘤模型匹配用于癌症治疗,以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus:https://msft.it/6010vcYZ4
查看原文30x faster analytics, GPU kernels generated automatically from SQL, AI matched to lab-grown tumor mo…
6 天前
Anthropic:Research(发表成果 · 网页)论文研究
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
查看原文Agentic coding and persistent returns to expertise
6 天前
X:面壁智能 OpenBMB (@OpenBMB)论文研究
面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。
查看原文LLMs keep getting more fluent-but can you actually verify what they say? Structured KBs like Wikidat…
6 天前
公众号:百度智能云(文心)论文研究
上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。