全部 AI 动态
查看 AIHOT 全量动态流,适合需要更完整视图时使用。
2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点正如我之前所说,考虑到成本和性能,我认为 Fable 对于很多 SWE 任务来说并不值得。
需要说明的是,我认为 Fable 非常出色,它在设计和创意方面明显表现优异。
等它重新上线后,我会用自己的循环测试它(并衡量前沿效率)。
查看原文As I said before, for that cost &; performance, I don't think Fable is worth it for a lot of SWE …
2 天前
Artificial Intelligence News(RSS)行业动态SAP 与 Google Cloud 联合部署智能体商务架构,通过 Universal Commerce Protocol 标准化零售商、支付网关与自主智能体之间的数据交换,实现从搜索、交易到售后的全序列自动化执行。SAP Commerce Cloud 集成 Google Gemini 能力构建 Shopping Assistant,支持聊天、语音和文本交互,实时查询库存确保推荐可行。该架构基于 SAP Business Data Cloud Connect for Google BigQuery 的双向零拷贝数据链接,融合天气、位置等外部变量与客户画像、交易历史等内部行为数据,由 SAP Engagement Cloud 驱动自主智能体编排个性化互动。SAP 研究显示,78% 的企业认为 AI 对 2026 年保留客户至关重要,但仅 37% 的公司跨客户体验平台共享数据、39% 跨 CRM 共享。
查看原文SAP and Google Cloud deploy agentic commerce architecture
2 天前
X:Oran Ge (@oran_ge)技巧与观点开发者使用 GLM 5.2 从零开始完成第一个安卓 App 开发,包括安装 Android Studio、编写代码到最终生成 APK。GLM 5.2 在大部分问题上能提供有效指导,但遇到疑难杂症时安卓系统仍难处理。作者指出当前 vibe coding 模式在电脑和 Web 端调试最为方便。
查看原文今天挑战了一下,写了第一个安卓的 app 感谢 GLM 5.2 的帮忙,从安装 android studio 开始指导,一直到 apk 写完,大部分问题都能解决 最后 apk 跑起来的时候,还是很欣慰…
2 天前
X:Kim (@kimmonismus)技巧与观点我们仍有许多工作要做。公众情绪正日益转向反对AI。
现在出现了反对数据中心、乃至整体AI的运动;怨恨情绪正在增长。
虽然其中无疑存在合理的担忧--比如对失业和能源价格上涨的恐惧--但其中很大一部分只是单纯的怨恨,需要通过教育和提高认知来解决。
查看原文We still have a lot of work ahead of us. Sentiment is increasingly turning against AI. There are mo…
2 天前
IT之家(RSS)行业动态一台由宇树G1改装、名为Pemba的人形机器人成功抵达厄瓜多尔钦博拉索火山海拔6200米顶峰。这是机器人"三冠"探险计划第一站,未来将挑战珠穆朗玛峰。项目初衷为解决自然保护区固定摄像头覆盖有限、成本高的问题;配备摄像头、传感器、卫星通信和机载AI后,Pemba可自主巡查大范围区域。坡度低于30度时独立行走,冲顶阶段陡峭地形需人员协助。下一阶段将用强化学习提升自主能力。团队为高海拔严寒开发了专用热管理系统。长期目标是在珠峰大本营至四号营地活动,用于垃圾清理、冰川监测、搜救等。
查看原文人形机器人成功登顶海拔 6200 米火山:基于宇树 G1 改装,目标挑战珠峰
2 天前
The Decoder:AI News(RSS)技巧与观点Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。
查看原文New benchmark exposes how badly AI struggles with real knowledge work
2 天前
X:Rohan Paul (@rohanpaul_ai)论文研究该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。
查看原文This paper shows that a good generalist agent must remember hidden environment rules, not just obser…
2 天前
X:Testing Catalog (@testingcatalog)AI 产品Mistral AI 向 Pro 用户发布了 Code on Vibe。桌面应用也已确认。
很快 👀
查看原文Mistral AI released Code on Vibe to Pro users. Desktop app has been confirmed as well. Soon 👀
2 天前
Hacker News 热门(buzzing.cc 中文翻译)AI 产品Datasette 发布新插件 datasette-apps,允许托管自包含 HTML+JavaScript 应用。应用在严格沙箱中运行(sandbox 属性和 CSP 头),无法访问 cookies、localStorage 或外部 HTTP 请求,防止数据泄露。应用可用 JavaScript 对 Datasette 数据执行只读 SQL 查询,若配置存储查询还可写入。应用与父窗口通过 postMessage 或 MessageChannel 通信。灵感来自 Claude Artifacts,为 HTML 前端提供 Datasette 后端。试用需 GitHub 登录 agent.datasette.io 演示实例。
查看原文Datasette 应用:在 Datasette 中托管自定义 HTML 应用程序
2 天前
X:Rohan Paul (@rohanpaul_ai)技巧与观点新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱--即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。
查看原文Perfect immunity from jailbreak is not possible even for the strongest of LLMs. New study shows tha…
2 天前
CMU:Machine Learning Blog技巧与观点LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距--Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。
查看原文Healthcare Benchmarks Are Only as Good as Their Assumptions
2 天前
Nathan Lambert:Interconnects(RSS)技巧与观点近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
查看原文Banning Open Source AI Would Be A Mistake
2 天前
X:SemiAnalysis (@SemiAnalysis_)技巧与观点100%的AI芯片初创公司都有幻灯片/"模拟性能数据"显示它们的芯片好得多,但99%的定制ASIC失败了。为什么?直到你意识到AI芯片是关于软件的,MATH才算是MATH。构建芯片并把数字放到幻灯片上相对容易;构建出色的软件很难。这就是为什么99%的AI芯片初创公司会失败。
查看原文100% of AI chip startups have slides/"simulated performance data" showing that their chip is way bet…
2 天前
X:面壁智能 OpenBMB (@OpenBMB)技巧与观点社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。
查看原文A developer in our community recently built VoiceGate using VoxCPM2 + ComfyUI for cross-lingual vide…
2 天前
Cloudflare BlogAI 产品Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 `wrangler deploy --temporary`,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。
查看原文Temporary Cloudflare Accounts for AI agents
2 天前
TechCrunch:AI(RSS)行业动态鞋履品牌 Allbirds 4 月宣布转型 AI,以 4300 万美元出售鞋业务并从股市融资 1 亿美元,更名为 Smartbird。前 AWS 高管、工程博士 Nadia Carlsten 昨日起出任 CEO,年薪 70 万美元并获价值约 900 万美元股票。Smartbird 定位 AI 基础设施提供商,为制药、能源、金融、公共部门等需要数据主权和直接控制服务器的客户提供托管计算集群。Carlsten 称客户需求在数百到数千颗芯片,强调集群灵活性而非大规模 GPU。目前她是一人创始人兼唯一员工,正在招募领导团队,预计年底前为多个客户部署计算集群。
查看原文The CEO of Allbirds' new AI biz has a plan, but no employees
2 天前
X:Kim (@kimmonismus)技巧与观点EUV光刻机依赖德国ZEISS光学、ASML整机及台积电组装构成的工业生态系统,中国被禁多年。华为Ascend芯片在部分负载中达H100级60%-80%性能,但软件、内存和训练基建仍落后。近期路透社报道前ASML工程师助中国在深圳逆向建造EUV原型,美政府担忧中国已接触ASML敏感技术,ASML否认。若中国真正掌握EUV,虽不能立即量产,但可能缩短芯片追赶周期、加速华为路线图,削弱西方在AI竞赛中的关键瓶颈。
查看原文I think many people still underestimate the full implications of China potentially gaining access to…
2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点YT 视频 -> Artifacts
看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。
捕获幻灯片、笔记、转录内容……
快去试试 ↓
查看原文YT Videos ->; Aritfacts Watch how I use my new /youtube-notetaker skill to generate artifacts fro…
2 天前
IT之家(RSS)行业动态国家邮政局召开党组会议审议《邮政业发展"十五五"规划》,强调强化企业科技创新主体地位,深化科教与产教融合。会议提出推动大数据、互联网、人工智能等新技术与邮政快递业深度融合,加快推进无人车、无人机行业试点应用,并加快智能派件、智能路由等先进技术落地。此前今年1月全国邮政工作会议已明确将出台加快推广应用无人配送技术的政策文件。同时推广智能分拣、智能云仓、智能安检等自动化设施,以及循环包装、新能源汽车、光伏发电等绿色技术,通过智能路径优化和装箱算法推动绿色低碳发展。