论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

d-OPSD是针对扩散大语言模型（dLLMs）提出的首个在线策略自蒸馏框架。其核心贡献包括：利用自生成答案作为后缀条件，使学生模型从自我未来经验学习；并将监督从token级转向step级，与dLLMs的迭代去噪过程对齐。在四个推理基准上，d-OPSD一致优于RLVR和SFT基线，且仅需RLVR约10%的优化步骤，展现出显著的样本效率。代码已开源。

查看原文Learning from the Self-future： On-policy Self-distillation for dLLMs

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Spectral Forcing：通过输入侧频谱先验提升像素空间扩散模型效率

像素空间扩散模型训练面对全频带噪声图像，而有效信号具有强频率依赖性。本文提出 Spectral Forcing，即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子，其截止频率随扩散时间单调扩展，在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界，从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上，不同训练轮次均一致提升 FID 和 Inception Score；粗 patch 分词化下收益显著，细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1，同样改进了 DPG-Bench 与 GenEval，表明输入侧频谱先验可迁移至类条件生成之外。

查看原文Show the Signal， Hide the Noise： Spectral Forcing for Pixel-Space Diffusion

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

ChLogic：中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好，但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic，包含通用对齐集（60条命题）、困难对齐集（40道难题）及纯中文集（15类语言现象），每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现，但在困难集上效果混杂，Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

查看原文ChLogic： Evaluating Robustness of Logical Reasoning in Chinese Expressions

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

UniAR：共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架，用单个离散视觉分词器作为理解与生成的共享桥梁，使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化，保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码，缩短视觉序列长度并加速生成；扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习，UniAR 在图像生成和编辑上达最优，在多模态理解基准上也有竞争力。

查看原文Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Looped World Models：循环架构实现世界模型参数效率提升达100倍

Looped World Models（LoopWM）首次将循环架构引入世界建模。通过参数共享的Transformer模块迭代精炼潜在环境状态，LoopWM在自适应计算中自动匹配每个预测步骤的复杂度，相比传统方法参数效率提升达100倍。该项工作正交于模型规模与训练数据扩展，将迭代潜在深度确立为世界模拟的新扩展轴。

查看原文Looped World Models

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

ActWorld：通过动作感知记忆从可探索走向可交互的世界模型

现有交互式世界模型的动作词汇局限于导航（行走、转向、环顾），缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器，支持 rollout 过程中的物体交互。它解决数据瓶颈（缺乏带密集标签的人-物交互数据）和记忆瓶颈（历史压缩丢弃因果决定物体状态的帧）。团队构建 100K 交互视频数据集，每条视频通过链式推理生成每块描述；引入分层动作感知记忆设计，按交互重要性路由历史压缩，辅以持久记忆库维护事件更新和物体身份 token。实验表明，单个模型同时支持灵活导航与丰富物体交互，在不牺牲视点控制的前提下显著提升交互逼真度。

查看原文ActWorld： From Explorable to Interactive World Model via Action-Aware Memory

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

GameCraft-Bench：智能体能否在真实游戏引擎中端到端构建可玩游戏？

GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准，包含15个游戏家族的140项任务，要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心，通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示，最强智能体仅取得41.46%的成绩，多数低于40%。智能体虽能实现可识别游戏机制，但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。

查看原文GameCraft-Bench： Can Agents Build Playable Games End-to-End in a Real Game Engine？

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

OPD-Evolver：通过在线策略自蒸馏培养全能智能体进化器

OPD-Evolver是一个慢-快协同进化框架，基于在线策略自蒸馏培养智能体进化器。快速循环中，智能体与四级记忆层次交互，实现读取、使用、编写和维护经验的快速测试时进化；慢速循环通过结果校准的记忆归因和特权后见，将这四种能力蒸馏至可部署策略。在多领域基准测试中，OPD-Evolver性能超越ReasoningBank达11.5%，超越Skill0约5.8%。分析表明，其内化了高价值经验与记忆管理，使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。

查看原文OPD-Evolver： Cultivating Holistic Agent Evolver via On-Policy Distillation

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度，避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题（BCQ）让学生区分正确与错误回答，及负候选问题（NCQ）聚合错误模式；提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师，经视觉语言模型后训练并在31项基准测试中评估，ZPPO全面优于离策略/在策略蒸馏和GRPO，最小规模提升最大。

查看原文Zone of Proximal Policy Optimization： Teacher in Prompts， Not Gradients

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

LoopCoder-v2：仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer（PLT）代码模型，从零在 18T tokens 上预训练。与无循环基线相比，两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升，SWE-bench Verified 从 43.0 到 64.4，Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降，揭示循环计数的非单调效应：循环 2 提供主要改进，后续循环产生递减振荡更新，而 CLP 引入的位置偏移代价固定，导致两循环饱和。

查看原文LoopCoder-v2： Only Loop Once for Efficient Test-Time Computation Scaling

6 天前

HuggingFace Daily Papers（社区热门论文）论文研究

可变宽度Transformer

提出一种"times-shaped"瓶颈结构的Variable-Width Transformers，在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线，平均层宽降低使总FLOPs减少22%，KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。

查看原文Variable-Width Transformers

6 天前

OpenAI：官网动态（RSS · 排除企业/客户案例）论文研究

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT-5-series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

查看原文Predicting model behavior before release by simulating deployment

6 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

MiniMax Sparse Attention

MiniMax Sparse Attention（MSA）在1M token时，将注意力计算量削减28.4倍，H800 GPU上预填充提速14.2倍、解码提速7.6倍，同时基准性能基本持平全量版本。MSA不放弃softmax注意力，而是在分组查询注意力旁增设一个小型路由分支，让每个查询组自主选择应查看的key-value块，主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题，通过架构内建选择器，用模型自身注意力模式训练路由，使注意力变得有选择性而非穷举。

查看原文Quite incredible， MiniMax Sparse Attention cuts attention compute by 28.4X at 1M tokens， with 14.2X …

6 天前

X：Microsoft Research (@MSFTResearch)论文研究

微软研究院Research Focus四大AI突破

30倍更快的分析，从SQL自动生成的GPU内核，AI与实验室培育的肿瘤模型匹配用于癌症治疗，以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus：https：//msft.it/6010vcYZ4

查看原文30x faster analytics， GPU kernels generated automatically from SQL， AI matched to lab-grown tumor mo…

6 天前

Anthropic：Research（发表成果 · 网页）论文研究

Anthropic：智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话（2025年10月至2026年4月）分析发现：人类主导规划决策（做什么），Claude 主导执行决策（怎么做）。领域专业知识越强，模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近；领域专家成功率更高，但与中级用户差距不大。七个月间调试会话占比下降近一半，使用转向端到端智能体任务（部署运行代码、分析数据、编写非代码文档），典型任务价值平均上升约25%。

查看原文Agentic coding and persistent returns to expertise

6 天前

X：面壁智能 OpenBMB (@OpenBMB)论文研究

面壁智能 OpenBMB 联合发布 FactNet：十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet，构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets，附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据（页面ID、修订版ID、Unicode偏移），99.63% 精确重定位。人工审计 4，200 项，设计加权精度 92.1%（低资源语言 88.5%）。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务，显式惩罚信息泄露，为可验证 AI 提供结构化事实基础。

查看原文LLMs keep getting more fluent-but can you actually verify what they say？ Structured KBs like Wikidat…

6 天前

公众号：百度智能云（文心）论文研究

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

查看原文