全部 AI 动态

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

3 天前

X：OpenAI (@OpenAI)AI 产品

GPT-5.5 Instant在健康相关问题上的表现已与OpenAI的前沿思考模型持平。每周超过2.3亿用户向ChatGPT咨询健康问题，GPT-5.5 Instant能更准确地识别需紧急护理的情况、主动询问相关背景、解释不确定性并简化复杂信息。该模型已向ChatGPT所有免费用户开放。医生主导的评估对这些重大智能提升至关重要。

查看原文GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every…

3 天前

X：Claude Devs (@ClaudeDevs)AI 产品

Claude Code Artifacts 功能正式上线

Artifacts 现已登陆 Claude Code。让 Claude 将其工作内容转化为页面，并将链接发送给你的团队。页面随会话持续工作而更新。即日起适用于 Team 和 Enterprise 套餐。

查看原文Artifacts are now live in Claude Code. Ask Claude to turn what it's working on into a page and send…

3 天前

Hugging Face：Blog（RSS）论文研究

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1，001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

查看原文MosaicLeaks： Can your research agent keep a secret？

3 天前

X：Claude (@claudeai)AI 产品

Claude Code 新增 Artifacts 交互页面

Claude Code 新增：Artifacts。从您的会话中构建的交互页面，例如 PR 审查或实时项目仪表盘，通过私有链接与团队共享。在 Team 和 Enterprise 计划中提供 Beta 版。

查看原文New in Claude Code： Artifacts. Interactive pages built from your session， like a PR walkthrough or …

3 天前

The Decoder：AI News（RSS）论文研究

Google Deepmind 发布 AI 控制路线图：将 AI 智能体视为内部威胁，基于行为逐步授权

Google Deepmind 发布"AI 控制路线图"，将内部 AI 智能体视为潜在内部威胁，类比驾驶教练的双重控制，基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架，通过可信 AI 监督系统监控活跃智能体推理与行动，预防系统在危害发生前阻断。在 100 万个编码任务测试中，发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行，可捕捉意外数据删除。安全措施划分为四个检测级别（D1-D4）和三个响应级别（R1-R3）。Deepmind 另发布政策论文《AI 智能体安全三层架构》，覆盖单体、多智能体及生态系统，警告全球安全标准窗口期正在关闭。

查看原文Google Deepmind treats its own AI agents like rogue employees with office keys

3 天前

X：Ethan Mollick (@emollick)技巧与观点

训练前沿开放权重模型有盈利模式吗？

训练前沿开放权重模型是否存在盈利的商业模式？其他人可以像你一样廉价地托管、微调、咨询等。没有辅助产品销售，而且与大多数开源工作相比，其制作成本极其高昂。

查看原文Is there a business model for being profitable off training frontier open weights models？ Other pe…

3 天前

OpenAI：Alignment 研究博客（RSS）论文研究

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

查看原文Reinforcement learning towards broadly and persistently beneficial models

3 天前

Cloudflare Blog技巧与观点

Cloudflare 发布多阶段漏洞发现工具，详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构，包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报，并围绕 LLM 上下文窗口限制设计路由策略。

查看原文Build your own vulnerability harness

3 天前

TechCrunch：AI（RSS）行业动态

AI数据中心获政府强制电网快车道

美国联邦能源监管委员会（FERC）命令六大电网运营商为数据中心等大型用户提供快速并网通道，数据中心需承担并网费用。FERC同时要求运营商考虑"替代输电技术"，并在30天内报告剩余发电容量、60天内审查本区域电价。指令并未解决发电容量短缺问题。数据中心电力需求预计到2035年增长近三倍，而电网运营商此前长期应对近乎零的需求增长。据Bloomberg，部分地区批发电价较五年前上涨了267%。

查看原文AI data centers just got a government-mandated fast lane to the grid

3 天前

X：阿易 AI Notes (@AYi_AInotes)技巧与观点

AI时代高绩效团队标杆案例

这里是AI时代高绩效团队的标杆案例： •Cursor：20人，12个月，1亿美元ARR •Lovable：15人，2个月，约1000万美元ARR •Midjourney：11人，年收入约5000万美元

查看原文Here's the idiomatic English translation： Benchmark examples of high-performance teams in the AI era…

3 天前

X：Testing Catalog (@testingcatalog)AI 产品

Perplexity Brain：持续学习内存系统上线

Perplexity 为 Computer 推出 Brain 功能，一个持续学习的内存系统，能自动构建底层上下文图。该功能让每项任务从一开始就携带项目、决策和来源的完整上下文，不再从零开始。在需要过往上下文的任务上，Brain 使答案正确性提升 25%，召回率提升 16%，每任务运行成本降低 13%。目前已作为研究预览向所有 Perplexity Max 订阅者开放。

查看原文PERPLEXITY 🔥： Computer now has a Brain， a continuously learning memory system that forms an underly…

3 天前

X：MiniMax (@MiniMax_AI)行业动态

MiniMax M3 向更多构建者开放

感谢 @BAI_AGI 的支持很高兴我们能让更多构建者使用 M3 🤝

查看原文Appreciate the support from @BAI_AGI Glad we could provide more builders access to M3 🤝

3 天前

X：Kim (@kimmonismus)AI 模型

GPT-5.6 将于下周四发布

不错，看来下周四将有大动作：GPT-5.6 即将发布

查看原文Nice， sounds like next thursday is gonna be big： GPT-5.6 release incoming

4 天前

X：Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点

中国模型差距缩小年底或明年初

我认为这会在今年年底或明年初发生。这不是瞎猜。我已经看到了足够多的研究和结果，知道差距正在快速缩小。而且我现在比以往更多地使用DeepSeek、GLM、Qwen、Kimi和MiniMax等模型。

查看原文I think it will happen close to EOY or the beginning of next year. Not a wild guess. I have seen en…

4 天前

X：Francois Chollet (@fchollet)技巧与观点

固定价格代理订阅的token配额浪费

当我玩即时战略游戏时，我通常会用资源利用率来思考策略。例如，任何具有单位生命值被动回复机制的游戏中，满血单位都代表着资源浪费（因为这段时间本可以回复生命，所以实际处于落后状态）。如今，如果你为固定价格代理编码订阅付费，任何一周低于周token配额则同样意味着资源浪费。请善用你的token回复机制。

查看原文When I was playing RTSes， I generally thought about strategy in terms of resource utilization. For i…

4 天前

X：Replit (@Replit)AI 产品

Replit 直连 Slack，对话即可构建应用

Replit，现已入驻 @SlackHQ。告诉 Slackbot 你想构建什么，它就会直接从对话中调用 Replit 来实现。 https：//replit.com/partners/slack-app

查看原文Replit， now inside @SlackHQ. Tell Slackbot what you want to build and it'll pull in Replit to make …

4 天前

X：swyx (@swyx)技巧与观点

Devin 一次性成功生成视觉公告卡片

今天完全无提示的惊喜时刻--让 @DevinAI 为我们制作一张 @tbpn 风格的突发新闻公告卡，用于明天 AIEWF 演讲者阵容发布，我本以为它会在高度视觉化的任务上失败。结果它一次性搞定了整个活儿。

查看原文completely unprompted wow moment from today - asked @DevinAI to make us a @tbpn style breaking news …

4 天前

TechCrunch：AI（RSS）技巧与观点

慢科技运动兴起：iPod 广告引发对智能手机注意力危机的反思

iPod 之父 Tony Fadell 在纽约地铁看到 iPod Shuffle "零屏幕时间"广告时感到震惊。Back Market CMO Joy Howard 提出"slowtech"概念，指出人们对"快科技"过度刺激感到疲劳，年轻一代开始寻求有线耳机、数码相机等不霸占注意力的设备。前 JAMDAT 创始人 Austin Murray 正开发屏幕时间减少应用 MOQA，对抗自己曾帮助创造的现象。约 53% 的美国成人希望减少屏幕时间。Light Phone 联合创始人 Kaiwei Tang 表示，改用简约手机的客户（尤其 20-35 岁）感到更自由。

查看原文The smartphone era created an attention crisis. Slowtech is fixing it

4 天前

X：Claude Devs (@ClaudeDevs)AI 产品

MCP 支持企业托管身份验证扩展

我们已为 MCP 添加了企业托管身份验证扩展的支持。管理员可以为其组织集中授权 MCP 连接器，这样用户首次登录时即可连接所需的所有工具和数据。

查看原文We've added support for the Enterprise-Managed Auth extension to MCP. Admins can centrally authori…

4 天前

X：Jason Liu (@jxnlco)AI 产品

GPT-5.5现实应用性能数据亮眼

看起来 GPT-5.5 在现实世界应用中有非常扎实的性能数据！

查看原文Looks like some very solid performance numbers from GPT-5.5 in real world application！ https：//www…

加载更多