论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

3 天前

X：Jeff Dean (@JeffDean)论文研究

Jeff Dean 等 Google 同事发布论文，回顾 TPU v2 到 Ironwood 五代训练超算的演进，将于 2026 年 7/8 月发表于 IEEE Micro。关键变化：TPU v2 采用气冷，v3 起改为水冷；互联从 2D 升级为 3D torus；每 pod 芯片数从 256 增至 9216；每 flop 能效提升约 30 倍。此外，Google 内部工作负载已大幅转向基于 Transformer 的模型。

查看原文My @Google colleagues @NormJouppi， Sridhar Lakshmanamurthy， Cliff Young， and David Patterson recentl…

3 天前

Hugging Face：Blog（RSS）论文研究

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1，001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

查看原文MosaicLeaks： Can your research agent keep a secret？

3 天前

The Decoder：AI News（RSS）论文研究

Google Deepmind 发布 AI 控制路线图：将 AI 智能体视为内部威胁，基于行为逐步授权

Google Deepmind 发布"AI 控制路线图"，将内部 AI 智能体视为潜在内部威胁，类比驾驶教练的双重控制，基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架，通过可信 AI 监督系统监控活跃智能体推理与行动，预防系统在危害发生前阻断。在 100 万个编码任务测试中，发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行，可捕捉意外数据删除。安全措施划分为四个检测级别（D1-D4）和三个响应级别（R1-R3）。Deepmind 另发布政策论文《AI 智能体安全三层架构》，覆盖单体、多智能体及生态系统，警告全球安全标准窗口期正在关闭。

查看原文Google Deepmind treats its own AI agents like rogue employees with office keys

3 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

Claude Opus 4.7 编程机器狗：独立完成任务快 20 倍，但未能取球

Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务，约为去年人类团队（借助 Opus 4.1）耗时 264 分钟的 20 倍，代码量从 10，309 行降至 1，045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球，失败原因在于闭环控制--机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码，但实时物理判断仍具挑战。

查看原文Anthropic just showed Claude Opus 4.7 program a robodog in 12：07 mint， about 20x faster than last ye…

3 天前

X：Anthropic (@AnthropicAI)论文研究

Opus 4.7编程机器狗速度提升20倍

New Frontier Red Team 博客：Project Fetch 第二阶段，我们测试 Claude 编程机器狗的能力。 Opus 4.7 单独完成任务的速度比去年最佳人类团队（辅以 Opus 4.1）快约 20 倍。（可惜，机器狗仍然未能取回沙滩球。） https：//www.anthropic.com/research/project-fetch-phase-two

查看原文New Frontier Red Team blog： Phase 2 of Project Fetch， where we test how well Claude can program a ro…

3 天前

X：Noam Brown (@polynoamial)论文研究

OpenAI 公开 o1 被质疑，o3 医疗研究力证开放价值

Noam Brown 发文称，OpenAI 公开 o1 后，有其他实验室研究者认为这是战略失误，应保密以拉开差距。但他引用的最新研究让他确信公开正确：OpenAI 与波士顿儿童医院、哈佛合作，在 NEJM AI 发表研究，展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例，为等待多年的家庭找到答案。

查看原文When we announced @OpenAI o1 some researchers from other labs told me we made a strategic mistake an…

3 天前

X：Greg Brockman (@gdb)论文研究

OpenAI o3 Deep Research 助解 376 例罕见病，发现 18 种新诊断

OpenAI 与波士顿儿童医院、哈佛大学合作，在 NEJM AI 发表研究，使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例，帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病，在她 28 岁生日前不久得到确诊，为等待多年的家庭提供了答案。

查看原文OpenAI for helping find 18 new diagnoses across 376 previously unsolved medical cases. Includes dia…

3 天前

Anthropic：Research（发表成果 · 网页）论文研究

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

查看原文Project Fetch： Phase two

3 天前

X：Elvis Saravia (@omarsar0, DAIR.AI)论文研究

OpenAI 发布 LifeSciBench 生命科学基准

OpenAI 推出 LifeSciBench，用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发，包含 750 个专家编写任务，覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读，并指出通用模型在处理复杂结构时仍然失败，而面向科学研究的专用模型表现显著更优。

查看原文Recommended reading. Great insights， especially in areas where general-purpose models continue to …

3 天前

X：OpenAI (@OpenAI)论文研究

OpenAI o3 研究助解罕见儿科病例

与波士顿儿童医院和哈佛的研究人员合作，我们在NEJM AI上发表了一项研究，展示了o3 Deep Research如何帮助临床医生重新审视此前未解决的罕见儿科疾病案例，并为等待多年的家庭找到答案。

查看原文Together with researchers at Boston Children's Hospital and Harvard， we published a study in NEJM AI…

3 天前

X：Elvis Saravia (@omarsar0, DAIR.AI)论文研究

SkillWeaver：组合式技能路由用于LLM智能体

传统LLM智能体技能路由仅从工具库选取单一技能，难以应对多技能组合的真实任务。本文形式化定义"组合式技能路由"，将复杂查询分解为原子子任务，为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准，含300个组合查询和2，209个真实技能，直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。

查看原文Cool paper on Skill routing for LLM agents. Real tasks rarely map to a single skill. They need seve…

3 天前

The Decoder：AI News（RSS）论文研究

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85，000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

查看原文AI systems rival doctors in new Nature studies， but one result suggests the tech won't age well

3 天前

X：Google DeepMind (@GoogleDeepMind)论文研究

Google DeepMind 发布 AI 控制路线图

我们不做AI总会按我们意图行事的假设，而是问：如果它不这样做呢？因此我们制定了AI控制路线图：一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵

查看原文Instead of assuming AI will always do what we intend， we ask： what if it doesn't？ That's why we've …

3 天前

Hacker News 热门（buzzing.cc 中文翻译）论文研究

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的"恢复照片"提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和"不做审查"指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

查看原文ChatGPT的图像生成器可以被利用来生成暴力和色情内容

3 天前

OpenAI：官网动态（RSS · 排除企业/客户案例）论文研究

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

查看原文Using AI to help physicians diagnose rare genetic diseases affecting children

3 天前

IT之家（RSS）论文研究

比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片，每个传感器涂有不同感应膜，接触气体后产生独特电信号，被称为"数字鼻子"。经机器学习训练，芯片能识别7种食品（草莓、蓝莓、香蕉、核桃、榛子、腰果、花生）以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中，准确性仍需验证。

查看原文

3 天前

IT之家（RSS）论文研究

英伟达GEAR实验室首次启用AutoResearch，机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布，基于ENPIRE编码智能体框架，首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算，设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等，并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术，使爱好者可居家托管自动运行机器人实验室。

查看原文英伟达机器人自学"装显卡"：把 AI 带到现实世界直接放养，还要开源

3 天前

X：蚂蚁百灵 (@AntLingAGI)论文研究

蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署

蚂蚁百灵与 SGLang 团队合作，将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括：升级 Fused MoE V2 内核（token 和累加器驻留 VMEM，双缓冲专家权重，隐藏路由与预取）；混合内存池（10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态）；GLA 线性注意力逐块并行预填充；单控制器 DP 保持分组 RMSNorm 芯片本地化。效果：MoE 预填充延迟降低 53%；在 16 芯片 TPU v7x 切片上，解码吞吐量比同类 H200 集群最高提升 1.77 倍。

查看原文It has been a privilege to collaborate so closely with the SGLang team @lmsysorg on optimizing Ling-…

4 天前

MarkTechPost（RSS）论文研究

OpenAI 发布 LifeSciBench：750 项专家编写任务的生命科学研究基准

OpenAI 推出 LifeSciBench，包含 750 个由博士级科学家编写的任务，覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19，020 条原子化评分标准，约 79% 的任务需多步推理（平均 4 步）。评估五个模型中，领域专用模型 GPT-Rosalind 通过率 36.1% 领先，其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1，062 份附件（序列、图表、PDF 等）使模型表现明显下降。453 位评审验证一致性超 96%。

查看原文OpenAI Releases LifeSciBench， a 750-Task Benchmark Grading AI Models on Real Life-Science Research With Expert-Written Rubric

4 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

LoopCoder-v2：仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑"测试时计算越多越好"的观点。作者提出Parallel Loop Transformer架构，使循环可并行运行并共享内存。他们训练了7B参数的代码模型（1/2/3/4次循环），在18T tokens上预训练并微调，测试代码编写、推理、软件工程和工具使用任务。主要结果：2次循环效果最好，将SWE-bench Verified从43.0提升至64.4，而3次和4次循环性能下降。内部分析显示，第二次循环进行了有意义的精炼（改变隐藏状态、注意力模式和预测），后续循环则主要添加重复和噪声。结论：增加一次隐藏循环可大幅提升性能，但继续增加并非自动有益。

查看原文Big claim in this paper， pushes against the common idea that more test-time compute should keep help…

加载更多