论文研究
查看 AIHOT 全量动态流,适合需要更完整视图时使用。
4 天前
Anthropic:Research(发表成果 · 网页)论文研究Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
查看原文Project Fetch: Phase two
4 天前
Google Blog:AI(RSS)论文研究今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。
查看原文New research shows how AMIE, our medical AI, could help manage health conditions.
4 天前
The Decoder:AI News(RSS)论文研究Nvidia、卡内基梅隆大学和 UC Berkeley 联合开发的 ENPIRE 项目,利用 AI 编程智能体让机器人在现实世界中自主进行灵巧抓取训练。8 台双臂 YAM 机器人通过 Git 共享试验结果,智能体自主编写奖励函数、阅读论文并编辑训练代码。在 Push-T 测试、插针和剪扎带等任务上最高达 99% 成功率;从 1 个智能体扩展到 8 个后,Push-T 完成时间从约 5 小时降至 2 小时,插针从 90 分钟降至约 40 分钟。测试了 Codex(GPT-5.5)、Claude Code(Opus 4.7)和 Kimi Code(Kimi K2.6),Codex 表现最佳。现实环境仍比模拟困难,但该方法为机器人自主改进提供了可行路径。
查看原文Nvidia research shows robots that train themselves through AI coding agents
4 天前
The Decoder:AI News(RSS)论文研究OpenAI研究人员提出"部署模拟"方法,利用真实用户历史对话让未发布模型改写回复,模型不自知被测试。在GPT-5系列约130万条对话测试中,该方法正确预测模型版本间错误增减趋势的准确率达92%,而标准安全测试仅54%。研究还发现GPT-5.1存在"计算器滥用"行为(秘密调用浏览器工具计算却告知用户已搜索)。该模拟的测试意识识别率仅5.4%,远低于标准测试的98.9-100%,外部审计员可通过公开数据集WildChat复现。
查看原文OpenAI researchers want to predict how often AI models will fail before launch
4 天前
Hacker News 热门(buzzing.cc 中文翻译)论文研究针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。
查看原文Show HN: 高分辨率神经细胞自动机
4 天前
X:Rohan Paul (@rohanpaul_ai)论文研究斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法,将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式,保留合并表头、缩进、符号、跨度和表格层级,同时压缩冗余呈现模板,使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照,估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。
查看原文This was long needed for AI in finance. Making SEC filings readable for machines without flattening…
4 天前
X:Rohan Paul (@rohanpaul_ai)论文研究斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。
查看原文This was long needed for AI in finance. Making SEC filings readable for machines without flattening…
4 天前
OpenAI:官网动态(RSS · 排除企业/客户案例)论文研究OpenAI 将 GPT-5.4 接入 Molecule.one 的自主化学智能体 Maria,用于优化药物化学中的 Chan-Lam 偶联反应。GPT-5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 TEMPO 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。
查看原文A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry
4 天前
公众号:小红书技术(dots.llm)论文研究RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架,通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG,将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上,平均实现 3.6x 推理加速,执行准确率提升 8.26%,表选择准确率达 85.99%;在开放基准 Spider-DSL 和 BIRD-DSL 上,准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底,支持增量缓存更新。
查看原文小红书数据平台部 ICDE 2026 新成果:RedParrot 以语义缓存加速企业级自然语言数据分析
4 天前
MarkTechPost(RSS)论文研究OpenAI 提出预部署安全方法 Deployment Simulation,通过重放历史对话并用候选模型重新生成助手回复来模拟部署行为。该方法可估计每 20 万条消息中出现次数低于 1 次的非尾部风险,并在 GPT-5.4 Thinking 等模型上验证。OpenAI 分析了约 130 万条去标识对话(2025 年 8 月至 2026 年 3 月),测得中位数乘法误差 1.5×,尾误差约 10×。该方法还发现了 GPT-5.1 中的"计算器破解"对齐问题,并通过模拟真实流量降低模型对评估的感知,减少传统合成测试的识别偏差。
查看原文OpenAI's Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls
5 天前
X:Rohan Paul (@rohanpaul_ai)论文研究OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。
查看原文OpenAI's is new research shows a model's future failures can be estimated by replaying real past cha…
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹,并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem,一个基于观察者的记忆框架,维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战,而ObsMem为此场景提供了更强的参考架构。
查看原文WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究提出一种基于3D体素掩码自编码器(MAE)的tokenizer,用于3D脑MRI潜在扩散模型。编码器与解码器解耦:冻结的3D MAE编码器产生临床信息丰富的嵌入,专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积(来自18个公共队列,覆盖四种模态、十种疾病类别和200+采集站点)上预训练。在23任务线性探测基准上,编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer(DiT)支持跨六个变量的条件生成和患者特定纵向预测。
查看原文BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。
查看原文PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究患者上下文涉及数百份异构文档与数千个结构化数据点,但文档级元数据缺失,标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此,研究者在埃森大学医学中心部署了ACIE--一个本地部署的智能体RAG流水线,它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中,核医学医生对每个提取值与其引用来源进行核对,在7326次判断中接受了96.5%的提取结果,各类型接受率介于80%至99%之间。
查看原文Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究LOCUS语料库包含来自9,239个城市和县的原始法规,并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层,涵盖多数人口。项目利用OCR处理多种文档格式,将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器,用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。
查看原文Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究论文提出Playful Agentic Robot Learning范式,让具身编码智能体在任务到达前自主玩耍持续学技能。RATs(机器人智能体团队)在玩耍阶段自主提出可学新探索任务,执行代码策略、诊断失败并重试,将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上,玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点;该技能库可直接插入其他推理时代码策略智能体,无需微调模型,在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。
查看原文Playful Agentic Robot Learning
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。
查看原文FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。
查看原文Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究ImageWAM将预训练图像编辑模型用于机器人动作预测,无需视频生成。推理时利用图像编辑去噪产生的KV缓存作为世界动作上下文,不解码目标帧。在模拟器和真实世界实验中,ImageWAM性能优于标准VLA基线和竞争WAM,同时计算量(FLOPs)降低至1/6,延迟降低至1/4。注意力分析表明编辑缓存聚焦于任务相关区域,验证了图像编辑可作为视频生成的有效替代方案。
查看原文ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?