论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

LooseControlVideo通过稀疏定向3D盒子作为"阻挡"代理，使用户能创作高层级布局和轨迹，同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络，并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中，轨迹误差提升1.2倍到3倍，刚性运动一致性提升2倍，遮挡准确率提升1.5倍到2倍，显著优于现有2D盒子和流基线方法。

查看原文LooseControlVideo： Directorial Video Control using Spatial Blocking

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

REVES：基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架，通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示，聚焦于答案变换与错误识别，相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上，使用公开测试用例作为反馈，较RL基线提升+6.5点，较标准多轮训练提升+4.0点。在circle packing任务上，仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

查看原文REVES： REvision and VErification--Augmented Training for Test-Time Scaling

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Discriminator-Guided RL：用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配，提出Discriminator-Guided RL（DRL）。在预训练表示空间中训练判别器区分真实数据与基模型样本，将其logit作为KL正则化RL的奖励--该奖励近似数据与模型的对数似然比，直接优化数据分布。在SiT、JiT、REPA、RAE上，DRL一致降低无引导FID（SiT从9.38降至2.62）和语义空间FD（SiT在DINOv3上从88.2降至19.3），且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中，DRL改善偏好奖励与图像保真度的帕累托前沿，减少过饱和等低层次伪影。

查看原文The Reward Was in Your Data All Along： Correcting Flow Matching with Discriminator-Guided RL

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

ViGOS：视觉引导的在线自蒸馏框架

针对在线自蒸馏（OPSD）直接扩展到多模态大语言模型（MLLM）时产生的捷径（特权目标依赖文本参考而非图像），ViGOS提出视觉引导的OPSD框架：学生先写出视觉描述再推理。有效rollout中，纯图像感知教师监督描述，特权推理教师监督推理和答案；无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势，并改善了图像依赖行为。

查看原文Seeing Before Reasoning： Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

RODS：多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务（Popoviciu上界所致），靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器，持续识别边界样本，通过技能对齐重采样管道合成结构复杂度匹配的新变体，并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池，RODS性能堪比17K样本离线管道，所需轨迹约少20倍。

查看原文RODS： Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Bag of Dims：通过维度级符号模式实现免训练的机制可解释性

本文提出Transformer隐藏状态的标准基已构成免训练的通用特征基础。每个维度以符号（+/-1）编码语义、幅度编码置信度，可作为独立二进制寄存器。在语言（Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B）、视觉（DINOv2、ViT-Base）和音频（AST）共7个模型上验证：仅符号模式可保留60-93% top-5 next-token准确率；单token缓存（一次前向传播，无上下文无标签）通过符号一致性检测175个类别，AUC达0.97-0.99，训练探针仅提升0.018 AUC。特征可因果操作：实时前向传播中翻转符号可抑制对应概念。该结构同样适用于自监督视觉（9/12 ImageNet超类）、监督视觉（11/12）和音频（50/50 ESC-50类别），反映Transformer训练的普遍特性。

查看原文Bag of Dims： Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

MolmoMotion：基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测：给定短视觉历史、物体上的3D查询点集和语言描述的目标，预测每个点的未来3D轨迹。研究包含三个组件：MolmoMotion-1M数据集（从116万段无约束视频中标注动作描述和3D点轨迹）、PointMotionBench人工验证基准（覆盖111类物体和61种运动类型）以及MolmoMotion模型（支持自回归坐标预测和流匹配轨迹生成）。该模型能根据语言指令预测多样化运动，在基准上显著超越现有方法，且学到的3D运动先验可迁移至机器人操作和视频生成。

查看原文MolmoMotion： Forecasting Point Trajectories in 3D with Language Instruction

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

STARE：基于惊喜度的Token级优势重加权实现策略熵稳定

STARE是一种基于惊喜度的token级优势重加权方法，用于解决GRPO等可验证奖励强化学习中常见的策略熵崩溃问题。通过对GRPO下token级熵动态的一阶梯度分析，STARE识别出熵关键token子集并选择性重加权其有效优势，同时引入目标熵闭环门控实现稳定熵调节。在1.5B至32B参数的模型上，覆盖短思维链、长思维链和多轮工具使用三类任务，STARE能稳定训练数千步，保持策略熵在目标带内。在AIME24和AIME25基准上，STARE平均准确率高出DAPO等基线4%-8%，且反思token和响应长度协同增长。代码已开源。

查看原文STARE： Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

EfficientRollout：面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式，但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型，无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架：从目标模型量化出草稿模型，无需额外预训练或在线适应；同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线，该框架将推理生成延迟降低最高19.6%，端到端延迟降低12.7%，且不损失最终模型质量。

查看原文EfficientRollout： System-Aware Self-Speculative Decoding for RL Rollouts

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

OmniAgent：原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架，将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆，使推理复杂度与视频时长解耦。训练采用 Agentic SFT（最佳轨迹合成与双阶段质量控制）和基于 TAURA 的 Agentic RL（利用 turn 级熵分配探索奖励）。模型在测试时呈现正向缩放：推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上，OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B（47.3%）。

查看原文Native Active Perception as Reasoning for Omni-Modal Understanding

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Xcientist：外部化AI科学家研究合成与验证的研究框架

Xcientist 是一个研究框架，将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化，使生成机制可落地、测试和修订。它识别出"声称漂移"--可执行工件不再支持原声称机制--作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上，Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张，AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。

查看原文Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Physics-IQ Verified

本文对Physics-IQ基准进行系统审查，指出其缺陷并提出三项改进：优化提示词与真实数据质量以减少混淆因素，引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中，排名出现中等但有意义的变化（Kendall's τ=0.46）。基准代码已开源。

查看原文

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Turing-RL：利用图灵奖励学习用户模拟器

提出Turing-RL，一种基于图灵测试的强化学习方法，用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励，根据用户历史评估生成回复是否与真实用户不可区分，用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域，Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明，优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。

查看原文Learning User Simulators with Turing Rewards

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

查看原文Beyond the Current Observation： Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

5 天前

OpenAI：官网动态（RSS · 排除企业/客户案例）论文研究

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19，020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

查看原文Introducing LifeSciBench

5 天前

X：AK (@_akhaliq)论文研究

数据记者智能体：转化数据为多模态故事

数据记者智能体将数据转化为可验证的多模态故事

查看原文Data Journalist Agent Transforming Data into Verifiable Multimodal Stories

5 天前

X：OpenAI (@OpenAI)论文研究

OpenAI 新研究：模拟部署预测模型行为

我们正在分享一项新研究，关于在发布前预测模型在实际使用中行为的方法：通过模拟部署，使用近期的去标识化用户请求，并研究候选模型的响应。https：//openai.com/index/deployment-simulation/

查看原文We're sharing new research on a method for anticipating how models may behave in real-world use befo…

5 天前

X：Anthropic (@AnthropicAI)论文研究

Anthropic 发布 Claude Code 经济研究框架

我们最新的经济研究引入了一个框架，用于追踪 Claude Code 在规模化过程中的表现。谁在使用 Claude Code，以及他们用它做什么？任务的价值如何变化？领域专业知识在多大程度上决定了会话是否成功？ https：//www.anthropic.com/research/claude-code-expertise

查看原文Our latest economic research introduces a framework for tracking Claude Code as it scales. Who is …

5 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

TokenPilot：面向LLM智能体的缓存高效上下文管理方法

TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法，通过摄入感知压缩和生命周期感知驱逐两大机制，在 PinchBench 和 Claw-Eval 基准上实现 61-87% 的成本降低，同时保持有竞争力的分数。传统方法通常直接截断或摘要历史，容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理，保持早期提示布局稳定；同时延迟删除旧任务历史，因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。

查看原文TokenPilot reduces LLM agent costs via ingestion-aware compaction and lifecycle-aware eviction. Ac…

5 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的"生产-评估差距"：模型能解出数学题并得到正确答案，但在评估他人推理时，即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷，只要最终答案正确，模型也往往判定为合格。作者提出VAIR（有效答案-无效推理）基准验证该问题。这种现象称为"答案确认偏差"，模型仅凭正确答案而非有效逻辑评判推理。与人类相比，模型从解题到评估的能力下降更显著，表明AI可能成为制造看似合理论点的自信引擎，而非真正理解自身产出的推理引擎。

查看原文This paper shows a strange weakness in AI reasoning： models can solve math， yet fail to judge reason…

加载更多