全部 AI 动态
查看 AIHOT 全量动态流,适合需要更完整视图时使用。
3 天前
X:swyx (@swyx)技巧与观点swyx在X上称,Midjourney的医疗影像发布使Butterfly Network($BFLY)股价单日暴涨55%,他考虑开基金。他记录该发布:被@Scobleizer比作初代iPhone和Tesla首发;有Nature论文支持;理念为"更好的数据=更好的成像",每个维度提升40-100倍而非10%-2x;这只是今年8个副项目首个;每年仅$10M研究预算即实现此创新,引发对大型机构R&D效率的质疑。有人问"何时FDA批准",swyx认为应先做简单的事再解决困难,好的技术和使命会让监管等障碍自行瓦解。
查看原文+55% in one day. i should start a fund (dm if you would actually help me run one, i have no idea ho…
3 天前
X:Vista (@vista8)技巧与观点开发者 @wshxnv 发布 DevSpace--一个 MCP 连接器应用,能将 ChatGPT 网页版变成 Codex。通过 `npm install -g @waishnav/devspace` 安装后,将 MCP 服务器通过互联网隧道,即可享受双倍 Codex 额度。配置时在 ChatGPT 网页端设置→应用→高级模式开启开发模式并添加 MCP。使用场景:用 GPT-5.5 Pro、xHigh 或 High 规划,再交给本地 Codex/pi/opencode/Cursor/Claude Code 执行;也可用于审查代码。DevSpace 利用 OpenAI 给 ChatGPT 和 Codex 分离额度的设计,变相获得双倍额度。开发者提醒节制使用。
查看原文有意思,开发一个MCP,连接到网页版的ChatGPT。 使用这个MCP就能读取本地的文件。 Codex额度用光,无法重置时,也可以继续用ChatGPT开发。 变向获得了双倍codex额度,虽然有…
3 天前
X:Rohan Paul (@rohanpaul_ai)行业动态Anthropic 正试图让华盛顿撤销对其最强 AI 模型 Mythos 的出口限制。据纽约邮报报道,Anthropic 已向特朗普政府提交提案,承诺更紧密合作、改善沟通并更快解决安全关切,以换取解除禁令。与此同时,"杀开关"(kill-switch)讨论获得了用户反馈。
查看原文Anthropic vs. The US Government The kill-switch debate got user feedback.
3 天前
X:Rohan Paul (@rohanpaul_ai)行业动态《纽约邮报》:Anthropic正试图让华盛顿撤销对其最强大模型Mythos的美国禁令。
Anthropic提议与特朗普政府更紧密合作,改善沟通,更快解决安全问题,以结束美国限制。
查看原文Nypost: Anthropic is trying to get Washington to reverse the US block on its most powerful Mythos A…
查看原文GPT-5.6 本周6.23 看来真的要发了。 再不发,黄花菜该凉了!
3 天前
X:Berry Xia (@berryxia)AI 产品姚金刚使用高级agent Codex连续38小时、提交301个分支,将自己创建其他skill的元Skill(yao-meta-skill)重构并升级至2.0版本,已推送到GitHub。Codex持续拆解任务、修复问题,产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升,所有文档公开。此次升级本身成为典型案例:高级agent已能参与"如何更好地使用agent"的框架迭代。
查看原文有人用Codex连续干了38小时、提交301个分支,把自己的"创建skill的skill"升级到了2.0版本。 兄弟们,免费🆓开源直接用啊! 姚金刚老师把元Skill(yao-meta-skill…
3 天前
X:SemiAnalysis (@SemiAnalysis_)技巧与观点很高兴Jensen重新联系了他的根源,他的Day 0s,他的OGs,通过与《英雄联盟》选手Faker一起玩。CUDA AI革命始于GeForce上的游戏玩家,所以很高兴看到Jensen扎根于他的根源。没有游戏玩家,就不会有CUDA护城河。这是在Jensen的Computex主题演讲之后,该演讲对游戏玩家和AI工程师都令人失望,并获得了KeynoteMAX F等级。
查看原文Happy that Jensen reconnected with his roots, his Day 0s, his OGs, by hanging out with League of Leg…
查看原文ONLY ONE CAN BE THE GOAT ⚽️
3 天前
Simon Willison 博客AI 产品今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
查看原文Datasette Apps: Host custom HTML applications inside Datasette
3 天前
IT之家(RSS)行业动态商务部等8部门近日印发《关于加快"人工智能 + 消费"发展的实施意见》,从5方面提出17条举措。重点包括:扩大AI手机电脑、智能家居、智能网联汽车、智能穿戴、AI机器人等供给;推动AI与居家、养老、文旅、餐饮、教育等融合;促进AI在批发零售、电商、物流领域应用;建设集聚区和体验中心,开展产品租赁、共享、试用等模式创新;完善基础设施、标准体系和监管,推动互联互通。商务部将协同落实,促进AI进千家万户。
3 天前
X:Ethan Mollick (@emollick)论文研究Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准,未饱和且含私有保留测试,同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布,测试模型在多周、多任务项目中的能力,输入含数万条 Slack 消息和数千封邮件。模型排名:Claude Fable 5(已不可用)以 1587 Elo 居首,Claude Opus 4.8(1356)第二,GLM-5.2 max(1266)第三。结果凸显难度:最佳模型仅 3% 任务满足全部标准,31/91 任务无模型超过 50%,成本跨度约 800 倍。
查看原文I have given AA a hard time about its previous agentic evaluation but this looks like a good and imp…
3 天前
X:Rohan Paul (@rohanpaul_ai)论文研究OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯--先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。
查看原文New research from OpenAI reported a training result where RL on realistic human situations made mode…
3 天前
X:Rohan Paul (@rohanpaul_ai)AI 产品AI 员工 Viktor 在 Slack 上实现 2000 万美元年化收入(无销售团队、未大规模推广),现已正式进驻 Microsoft Teams。Viktor 定位为零门槛 AI:用户无需学习、无需提示词,像 @同事 一样提及即可获得完整工作成果,甚至无需主动 @ 也能自动完成。产品面向 Teams 的 3.2 亿用户,助力企业内部运营和管理人员零学习成本使用 AI。即日起免费试用,含 100 美元信用额度,无需绑定信用卡。
查看原文Viktor grew a $20M annualized revenue run rate outside Microsoft Teams. Now it works inside Teams. …
3 天前
IT之家(RSS)行业动态DeepSeek识图模式在网页和App端正式上线。阿里千问团队将推出"千问输入法"独立App。宁德时代单季净利润207亿元,超过奇瑞、吉利、比亚迪等7家车企利润总和(约175亿元)。工信部公示我国首部L3/L4自动驾驶强制性国标,要求从证明能力转向论证安全,2027年7月起实施。此外,开发者测试发现一句"你好"消耗约5万Token(约0.125元),15元套餐不到1小时见底;DeepSeek向投资人提出"不挖人"要求;市场监管总局督导货拉拉整改,退还不合理费用1.2亿元。
查看原文IT早报 0619:宁德时代利润超 7 家车企总和登热搜第一;我国首部 L3/L4 自动驾驶强制性国标公示;DeepSeek 识图模式正式上线;曝阿里将推"千问输入法"…
3 天前
X:Kim (@kimmonismus)AI 产品团队协作AI智能体Viktor正式登陆Microsoft Teams。此前已在Slack上线,仅靠单一应用实现2000万美元年化收入运行率(无销售团队、无推广)。Viktor主打零门槛:用户无需学习、无需提示,像@同事一样提及Viktor即可完成任务,甚至无需主动提及,价值自动送达。面向全球3.2亿Microsoft Teams用户,面向大公司一线运营与管理者。新用户获赠100美元启动积分,无需绑定信用卡。
查看原文I'm curious to see if agents like Viktor will increase the enjoyment of Microsoft Teams meetings ;)
3 天前
X:洪明 (@hongming731)技巧与观点OpenAI为Codex上线Record & Replay,演示一次完整操作即可复用浏览器工作流;Claude Code支持Artifacts渲染,会话实时生成可视化页面并自动更新,Beta面向Team/Enterprise组织;Google A2A协议满周岁,Python/Go SDK已达1.0 GA,以FoldRun为例展示智能体协作。其他动态:MosaicLeaks基准测试揭示深度研究智能体隐私泄露风险;SGLang-JAX在TPU v7x上优化Ling-2.6-1T MoE模型,延迟降低53%。
查看原文BestBlogs 早报 · 06-19 # OpenAI Codex / Claude Code Artifacts / A2A 协议 / Record & Replay / FoldRun 【…
3 天前
X:洪明 (@hongming731)技巧与观点OpenAI Codex 上线 Record & Replay,通过录屏演示一次操作(如发布 YouTube 视频),自动提炼为可复用的浏览器工作流。Claude Code 新增 Artifacts 功能,会话进展实时生成可分享的可视化页面(如事故排查面板),支持版本历史和实时刷新,Beta 期面向 Team/Enterprise。Google A2A 智能体协作协议满一周年,强调安全边界、零上下文污染和分布式架构,Python/Go SDK 达 1.0 正式版。
查看原文http://x.com/i/article/2067749290982936576
3 天前
X:Vista (@vista8)技巧与观点@yaojingang(姚老师)打磨的元Skill(创建Skill的Skill)已升级至2.0。该工具源自Anthropic官方泄露的Claude code源码,并整合了全网其他模型Skill,比官方Skill-creator更强大。用户可借助它写出90分的Skill。2.0版本已推送到GitHub,附带升级方案和对比报告。
查看原文强烈推荐安装这个Skill,比官方的Skill-creator强大很多。 如果不会写skill,用姚老师这个skill可以写出90分的skill 这个skill来源于Anthropic 官方泄露的…
3 天前
X:Berry Xia (@berryxia)AI 产品Midjourney 发布名为"Midjourney Scanner"的全身超声计算断层扫描设备技术视频。该设备利用超声波阵列进行计算断层成像,目标是实现比传统 MRI 更快、更便宜、辐射更低的 3D 全身扫描方案。原本专注 AI 图像生成的公司直接下场造医疗硬件,试图用计算成像思维重构传统医疗设备领域。马斯克也对这一跨界表示赞赏。
查看原文Mdijourney 这几天搞大事了啊!! 直接搞出硬件产品、马斯克都直呼牛逼! Midjourney突然扔出一个长达几分钟的技术视频,讲他们新造的"Midjourney Scanner"-,一个全…
3 天前
X:Artificial Analysis (@ArtificialAnlys)AI 产品Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
查看原文Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is o…