论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

4 天前

Anthropic：Research（发表成果 · 网页）论文研究

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

查看原文Project Fetch： Phase two

4 天前

Google Blog：AI（RSS）论文研究

Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。

查看原文New research shows how AMIE， our medical AI， could help manage health conditions.

4 天前

The Decoder：AI News（RSS）论文研究

Nvidia 研究：AI 编程智能体让机器人自我训练

Nvidia、卡内基梅隆大学和 UC Berkeley 联合开发的 ENPIRE 项目，利用 AI 编程智能体让机器人在现实世界中自主进行灵巧抓取训练。8 台双臂 YAM 机器人通过 Git 共享试验结果，智能体自主编写奖励函数、阅读论文并编辑训练代码。在 Push-T 测试、插针和剪扎带等任务上最高达 99% 成功率；从 1 个智能体扩展到 8 个后，Push-T 完成时间从约 5 小时降至 2 小时，插针从 90 分钟降至约 40 分钟。测试了 Codex（GPT-5.5）、Claude Code（Opus 4.7）和 Kimi Code（Kimi K2.6），Codex 表现最佳。现实环境仍比模拟困难，但该方法为机器人自主改进提供了可行路径。

查看原文Nvidia research shows robots that train themselves through AI coding agents

4 天前

The Decoder：AI News（RSS）论文研究

OpenAI研究人员开发"部署模拟"预测模型发布前错误率

OpenAI研究人员提出"部署模拟"方法，利用真实用户历史对话让未发布模型改写回复，模型不自知被测试。在GPT-5系列约130万条对话测试中，该方法正确预测模型版本间错误增减趋势的准确率达92%，而标准安全测试仅54%。研究还发现GPT-5.1存在"计算器滥用"行为（秘密调用浏览器工具计算却告知用户已搜索）。该模拟的测试意识识别率仅5.4%，远低于标准测试的98.9-100%，外部审计员可通过公开数据集WildChat复现。

查看原文OpenAI researchers want to predict how often AI models will fail before launch

4 天前

Hacker News 热门（buzzing.cc 中文翻译）论文研究

高分辨率神经细胞自动机（NCA）

针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限，提出将粗网格NCA与轻量隐式解码器（LPPN）配对：解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性（如颜色、法线），且两者均为局部计算，推理可高度并行化。引入任务特定损失函数，以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明，混合模型能实时生成高分辨率输出，并保留NCA的自组织行为。

查看原文Show HN：高分辨率神经细胞自动机

4 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

SEFD：将SEC文件转化为LLM训练数据的新方法

斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法，将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式，保留合并表头、缩进、符号、跨度和表格层级，同时压缩冗余呈现模板，使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照，估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。

查看原文This was long needed for AI in finance. Making SEC filings readable for machines without flattening…

4 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

斯坦福发布SEFD：152B token结构化SEC文件数据集

斯坦福研究者发布SEFD数据集与处理方法，将SEC EDGAR申报文件转化为适合LLM训练的结构化数据，保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token，完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式，大幅压缩原有演示框架，保留财务含义的同时减少token浪费。

查看原文This was long needed for AI in finance. Making SEC filings readable for machines without flattening…

4 天前

OpenAI：官网动态（RSS · 排除企业/客户案例）论文研究

OpenAI 与 Molecule.one 合作：GPT-5.4 自主优化 Chan-Lam 偶联反应

OpenAI 将 GPT-5.4 接入 Molecule.one 的自主化学智能体 Maria，用于优化药物化学中的 Chan-Lam 偶联反应。GPT-5.4 独立识别伯磺酰胺为高价值挑战性底物，并建议使用 TEMPO 等温和氧化剂。经两轮实验，88% 的硼酸和 83% 的磺酰胺底物产率提升，平均产率从 16.6% 升至 25.2%，产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证，14 对底物中 11 对产率提高，多数提升超两倍。

查看原文A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

4 天前

公众号：小红书技术（dots.llm）论文研究

小红书联合浙大推出 RedParrot：基于语义缓存的 NL-to-DSL 加速框架（ICDE 2026）

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架，通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG，将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上，平均实现 3.6x 推理加速，执行准确率提升 8.26%，表选择准确率达 85.99%；在开放基准 Spider-DSL 和 BIRD-DSL 上，准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底，支持增量缓存更新。

查看原文小红书数据平台部 ICDE 2026 新成果：RedParrot 以语义缓存加速企业级自然语言数据分析

4 天前

MarkTechPost（RSS）论文研究

OpenAI 提出 Deployment Simulation 预部署安全方法

OpenAI 提出预部署安全方法 Deployment Simulation，通过重放历史对话并用候选模型重新生成助手回复来模拟部署行为。该方法可估计每 20 万条消息中出现次数低于 1 次的非尾部风险，并在 GPT-5.4 Thinking 等模型上验证。OpenAI 分析了约 130 万条去标识对话（2025 年 8 月至 2026 年 3 月），测得中位数乘法误差 1.5×，尾误差约 10×。该方法还发现了 GPT-5.1 中的"计算器破解"对齐问题，并通过模拟真实流量降低模型对评估的感知，减少传统合成测试的识别偏差。

查看原文OpenAI's Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls

5 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

OpenAI 新研究：用历史聊天模拟部署预测模型失败

OpenAI 发布新研究，提出通过重放真实历史 ChatGPT 对话（移除旧回答，让新模型在相同上下文回答）来模拟部署，从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效，能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率，模拟方法的典型率估计与实际率相差约 1.5 倍，优于困难提示词测试和旧模型猜测。

查看原文OpenAI's is new research shows a model's future failures can be estimated by replaying real past cha…

5 天前