技巧与观点

查看 AIHOT 全量动态流,适合需要更完整视图时使用。

2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点
AI编程圈出现新主张:不应再手动提示编码智能体,而应设计循环自动完成提示、读取输出、判断完成,并在出错时重新提示。Boris Cherny(Claude Code创建者)和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态(ReAct、AutoGPT、ralph loop、/loop与/goal、编排),并拆解六大组装部件:触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。
查看原文http://x.com/i/article/2068004233849290752
2 天前
X:阿易 AI Notes (@AYi_AInotes)技巧与观点
开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR:自动分诊判断价值,关闭无用的,复活过时的。每个被复活的 PR 同时运行两个线程--Build 线程负责修复冲突和更新代码,Review 线程负责审查代码,形成写手+审稿人的双保险,降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度,实现"睡觉时自动干活,醒来只看决策"。主推文作者拆解出三步:Triage 分诊、关闭无用、复活并行推进,可直接复制使用。
查看原文卧槽看完这个帖子我真的惊呆了, Theo让Codex通宵打扫GitHub的僵尸PR坟场,自己踏踏实实睡了一整晚, 我把他这套工作流拆出来了,大家可以直接抄作业, 我翻了下评论区,让 Codex 通宵…
2 天前
GitHub Blog技巧与观点
GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
查看原文How we built an internal data analytics agent
2 天前
X:Ethan Mollick (@emollick)技巧与观点
更多证据,来自中国一项大规模研究,表明如果使用AI削弱了心理努力,就会损害学习。当使用AI导致做作业时间减少时,考试成绩也会下降。 综合各项研究,一个主题:AI辅导辅助课堂教学是好的,使用AI"帮助"做作业则是有害的。
查看原文More evidence, from a large-scale study in China, that using AI hurts learning if it undermines ment…
2 天前
X:Berry Xia (@berryxia)技巧与观点
搭AI Agent团队远非"5分钟教程"那么简单。环境配置(Python 3.10+等)劝退八成新手。Agent编排面临从众效应、角色不一致等缺陷,Anthropic采用Subagents模式,Cognition甚至发文称"不要构建多Agent"。上下文管理是最大隐性杀手,同一模型因上下文工程不同分差36个百分点。工具接入缺乏行为合约,API调用失败频发。低代码平台、单Agent SDK正降低门槛,但多Agent自由协作仍是难题。
查看原文http://x.com/i/article/2067984320212668416
2 天前
X:Vista (@vista8)技巧与观点
准备睡觉,让AI开发一个钓点和渔获记录App。 设定 Goal 让 Codex 执行,看明天钓鱼能不能用上自己的App。
查看原文准备睡觉,让AI开发一个钓点和渔获记录App。 设定 Goal让 Codex执行,看明天钓鱼能不能用上自己的App。
2 天前
OpenRouter:Announcements(RSS)技巧与观点
OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
查看原文OpenRouter vs LiteLLM: Which LLM Gateway Fits Your Stack?
2 天前
Hacker News 热门(buzzing.cc 中文翻译)技巧与观点
一位前OpenAI机器人研究员用不到€5,000搭建了一套桌面机器人操控实验平台,包括UFACTORY xArm Lite 6工业级机械臂、Intel RealSense D405腕部摄像头、Logitech C920桌面摄像头和3Dconnexion SpaceMouse无线遥操作设备。整套系统置于办公桌旁,通过自研Python软件栈控制。作者计划在未来数月开展独立研究,并以公开研究日志形式记录实验过程、失败与经验,不预设产出论文或开源代码。
查看原文搭建一套紧邻我办公桌的机器人研究平台
2 天前
X:阿易 AI Notes (@AYi_AInotes)技巧与观点
推文指出,普通人一个月工资足以启动一家跑通商业闭环的互联网公司,每月固定成本约$20,主要来自Claude Pro或OpenAI Codex辅助开发。其余后端数据库、部署、认证、分析、监控、缓存、邮件、支付等全链路基建均有免费起步额度,域名约$1/月。同时,引用指出当前AI范式(视频生成、VLA)仅学习统计相关性,缺乏因果理解;UCSD黄碧薇教授提出四代AI划分(相关性小模型→因果小模型→相关性大模型/LLM→因果大模型),其团队Aether AI今日完成首轮融资。
查看原文我终于明白现在随处的AI时代对普通人的善意在哪,普通人上班一个月赚的工资,够开一家跑通全商业闭环的互联网公司,而且能连开好几年, 以前创业要凑团队,起码融个几十万,现在你一个人花$20就能先跑起来去…
2 天前
X:Nathan Lambert (@natolambert)技巧与观点
Nathan Lambert 评论称 RL speedrun 终将成为常态,当前最大瓶颈是价格--单次 RL 实验因不稳定导致噪声大,多次种子运行成本约 100 美元。@jeankaddour 随后推出 Sokoban Speedrun 项目:基于 Karpathy 的 nanochat 流水线修改,用 RL 训练 Qwen3-4B-Instruct 解决 Sokoban 谜题,GRPO 基线在 8×H100 上仅需 87 分钟。该尝试展示低成本快速验证 RL 方法的潜力。
查看原文It's obvious that eventually a speedrun for RL will stick. I currently think the biggest bottlenec…
2 天前
X:Nathan Lambert (@natolambert)技巧与观点
归根结底,如果美国实验室不想被蒸馏,他们就不该提供API。看起来他们最终会对某些模型这么做,这是他们的选择。 更严格的监管实际上不会奏效,反而会伤害美国的初创公司。
查看原文It'll come down to, if the U.S. labs don't want distillation they shouldn't have an API. Seems like …
2 天前
X:Nathan Lambert (@natolambert)技巧与观点
禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告,阐述为何开源维护美国价值观。 管理前沿风险是困难的,但通过削弱开放前沿来减少透明度、创新和教育将更糟。
查看原文Banning open-source AI in any form would be a mistake. A general audience PSA with @kevinsxu on why …
2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点
正如我之前所说,考虑到成本和性能,我认为 Fable 对于很多 SWE 任务来说并不值得。 需要说明的是,我认为 Fable 非常出色,它在设计和创意方面明显表现优异。 等它重新上线后,我会用自己的循环测试它(并衡量前沿效率)。
查看原文As I said before, for that cost & performance, I don't think Fable is worth it for a lot of SWE …
2 天前
X:Oran Ge (@oran_ge)技巧与观点
开发者使用 GLM 5.2 从零开始完成第一个安卓 App 开发,包括安装 Android Studio、编写代码到最终生成 APK。GLM 5.2 在大部分问题上能提供有效指导,但遇到疑难杂症时安卓系统仍难处理。作者指出当前 vibe coding 模式在电脑和 Web 端调试最为方便。
查看原文今天挑战了一下,写了第一个安卓的 app 感谢 GLM 5.2 的帮忙,从安装 android studio 开始指导,一直到 apk 写完,大部分问题都能解决 最后 apk 跑起来的时候,还是很欣慰…
2 天前
X:Kim (@kimmonismus)技巧与观点
我们仍有许多工作要做。公众情绪正日益转向反对AI。 现在出现了反对数据中心、乃至整体AI的运动;怨恨情绪正在增长。 虽然其中无疑存在合理的担忧--比如对失业和能源价格上涨的恐惧--但其中很大一部分只是单纯的怨恨,需要通过教育和提高认知来解决。
查看原文We still have a lot of work ahead of us. Sentiment is increasingly turning against AI. There are mo…
2 天前
The Decoder:AI News(RSS)技巧与观点
Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。
查看原文New benchmark exposes how badly AI struggles with real knowledge work
2 天前
X:Rohan Paul (@rohanpaul_ai)技巧与观点
新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱--即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。
查看原文Perfect immunity from jailbreak is not possible even for the strongest of LLMs. New study shows tha…
2 天前
CMU:Machine Learning Blog技巧与观点
LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距--Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。
查看原文Healthcare Benchmarks Are Only as Good as Their Assumptions
2 天前
Nathan Lambert:Interconnects(RSS)技巧与观点
近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
查看原文Banning Open Source AI Would Be A Mistake
2 天前
X:SemiAnalysis (@SemiAnalysis_)技巧与观点
100%的AI芯片初创公司都有幻灯片/"模拟性能数据"显示它们的芯片好得多,但99%的定制ASIC失败了。为什么?直到你意识到AI芯片是关于软件的,MATH才算是MATH。构建芯片并把数字放到幻灯片上相对容易;构建出色的软件很难。这就是为什么99%的AI芯片初创公司会失败。
查看原文100% of AI chip startups have slides/"simulated performance data" showing that their chip is way bet…