论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

查看原文LedgerAgent： Structured State for Policy-Adherent Tool-Calling Agents

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

FID彩票：量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标，但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量，在数百个SiT网络上直接测量方差。发现：重新训练模型使FID变化幅度是固定网络重新采样的3.2倍，差距来自随机初始化、数据顺序和流匹配损失的高斯噪声；增加计算或模型大小几乎不缩小分散度，FID变异系数稳定在1-2%；每格无分类器引导调优使分散度减半，但重新洗牌最优种子。建议：在每格最优引导下评估，将低于~1.3% CoV的FID差距视为无结论，报告多个训练种子的误差条。

查看原文The FID Lottery： Quantifying Hidden Randomness in Generative-Model Evaluation

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Multi-LCB：将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准，将 LiveCodeBench（LCB）从 Python 扩展到 12 种编程语言，保持原有污染控制和评估协议，并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异，直接暴露了当前 LLM 在多语言代码生成上的关键短板。

查看原文Multi-LCB： Extending LiveCodeBench to Multiple Programming Languages

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

重新审视LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

当前FP4硬件路径（如NVIDIA Blackwell/Rubin-class及AMD MI350系列）均基于E2M1格式，但其可表示bin的几何不对称导致系统性负舍入误差--收缩偏差（Shrinkage Bias），该偏差在层间累积并被随机Hadamard变换（RHT）放大，解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案，对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中，UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。

查看原文Rethinking Shrinkage Bias in LLM FP4 Pretraining： Geometric Origin， Systemic Impact， and UFP4 Recipe

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后，基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%，分布内任务成功率高52.5%，分布外任务成功率高90%。研究验证了一种可扩展范式：先以人类视频预训练学习多样世界表征，再以少量标注机器人数据微调对齐动作空间。

查看原文HumanScale： Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

查看原文FlowBender： Feedback-Aware Training for Self-Correcting Conditional Flows

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

JanusMesh：零样本快速3D视觉错觉生成框架

JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架，可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段：跨空间双分支去噪过程在体素空间中动态解码3D潜在表示，通过CLIP引导的视角对齐和SDF融合实现无缝几何融合；视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明，该方法在几何完整性、语义可识别性和效率上显著优于现有方法。

查看原文JanusMesh： Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

S-Agent：空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累，以 VLM 为语义规划器，通过分层空间工具和专家将 2D 物体提升为 3D 几何证据，聚合为计数、测量等高级空间知识；Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上，S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B，性能媲美 GPT-5.4 和 Gemini 3。

查看原文S-Agent： Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

超越静态排行榜：LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现，排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现，涵盖多模态扩展、编排、检索、推理、基础设施及评估探针，并合并7个先前智能体基准。提出以预测有效性（样本内与样本外排名相关性）替代均值排名，构建12层测量框架，暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准，最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

查看原文Beyond Static Leaderboards： Predictive Validity for the Evaluation of LLM Agents

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

JamSet与JamBench：首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性（SCS）、行为对齐（BAS）评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%（小项目）降至5.7%（大项目）。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

查看原文JAMER： Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性，忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预，通过链式评估：摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型（9600个视频，覆盖四种控制范式）的测试表明，当前系统维持的是跟踪镜头--返回目标停留在被遗弃时的状态，而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模，表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

查看原文Current World Models Lack a Persistent State Core

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

查看原文FreeStyle： Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Holo-World：面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型，从单张图像出发，根据显式相机控制、物体控制和可选天气指令，生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间，利用渲染背景、几何缓冲和物体控制维持场景结构，并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差，增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下，天气状态生成优于视频到视频的天气编辑基线。

查看原文Holo-World： Unified Camera， Object and Weather Control for Video World Model

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

ENPIRE：真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架，让编码智能体通过环境（自动重置与验证）、策略改进、回滚（并行评估策略）和进化（分析日志、查阅文献、改进训练与算法代码）四个模块，自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程，在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率，并通过机器人集群加速迭代。

查看原文ENPIRE： Agentic Robot Policy Self-Improvement in the Real World

4 天前

HuggingFace Daily Papers（社区热门论文）论文研究

SEVRA：面向预算感知推理的选择性验证服务层控制器

SEVRA是一种服务层控制器，使用冻结的Qwen3-4B求解器，通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上，选择性验证达76.3%准确率，高于始终验证的75.5%，后生成token减少26.8%，有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上，选择性策略仅验证3.0%样本，准确率从93.4%提升至94.5%，验证token减少91.2%。部署规则：先调整初始预算，再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。

查看原文Think Again or Think Longer？ Selective Verification for Budget-Aware Reasoning

4 天前

X：Epoch AI (@EpochAIResearch)论文研究

Epoch AI 提出前沿AI研究60+任务分类法

AI 距离自动化 AI 研发还有多远？目前，经济学家用于追踪自动化的工具过于粗糙。在本周的新闻通讯中，@datagenproc、@joemkwon 和 @ansonwhho 提出了一种更精细的工具：对前沿 AI 研究中 60 多项任务进行详细分类。🧵

查看原文How close is AI to automating AI R&amp；D？ Right now， the tools economists use to track automation ar…

4 天前

X：AK (@_akhaliq)论文研究

LoopCoder-v2：仅循环一次高效测试时计算缩放

LoopCoder-v2 仅循环一次实现高效测试时计算缩放

查看原文LoopCoder-v2 Only Loop Once for Efficient Test-Time Computation Scaling

4 天前

X：OpenAI (@OpenAI)论文研究

OpenAI 发布 LifeSciBench 生命科学基准测试

推出 LifeSciBench，一个用于衡量和改进 AI 如何支持现实世界生命科学研究的基准测试。该基准测试与 173 位来自生物技术和制药研究的科学家共同开发，包含 750 项专家编写的任务，覆盖七个生物学研究工作流程。

查看原文Introducing LifeSciBench， a benchmark for measuring and improving how well AI supports real-world li…

4 天前

X：Jim Fan (@DrJimFan)论文研究

NVIDIA GEAR实验室发布ENPIRE：8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统，首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人，配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障，支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结，防止智能体作弊。实时监测机器人利用率（MRU）、token利用率（MTU）和GPU利用率，以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务，发现8机器人并行探索显著更快。系统将开源。

查看原文I made Physical AutoResearch sound simple （conceptually）， but it took a village to pull off and lots…

4 天前

Berkeley RDI：Blog（AI 安全与评测）论文研究

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降--Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

查看原文CyberGym-E2E： Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

加载更多