技巧与观点
查看 AIHOT 全量动态流,适合需要更完整视图时使用。
2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点AI编程圈出现新主张:不应再手动提示编码智能体,而应设计循环自动完成提示、读取输出、判断完成,并在出错时重新提示。Boris Cherny(Claude Code创建者)和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态(ReAct、AutoGPT、ralph loop、/loop与/goal、编排),并拆解六大组装部件:触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。
查看原文http://x.com/i/article/2068004233849290752
2 天前
X:阿易 AI Notes (@AYi_AInotes)技巧与观点开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR:自动分诊判断价值,关闭无用的,复活过时的。每个被复活的 PR 同时运行两个线程--Build 线程负责修复冲突和更新代码,Review 线程负责审查代码,形成写手+审稿人的双保险,降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度,实现"睡觉时自动干活,醒来只看决策"。主推文作者拆解出三步:Triage 分诊、关闭无用、复活并行推进,可直接复制使用。
查看原文卧槽看完这个帖子我真的惊呆了, Theo让Codex通宵打扫GitHub的僵尸PR坟场,自己踏踏实实睡了一整晚, 我把他这套工作流拆出来了,大家可以直接抄作业, 我翻了下评论区,让 Codex 通宵…
2 天前
GitHub Blog技巧与观点GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
查看原文How we built an internal data analytics agent
2 天前
X:Ethan Mollick (@emollick)技巧与观点更多证据,来自中国一项大规模研究,表明如果使用AI削弱了心理努力,就会损害学习。当使用AI导致做作业时间减少时,考试成绩也会下降。
综合各项研究,一个主题:AI辅导辅助课堂教学是好的,使用AI"帮助"做作业则是有害的。
查看原文More evidence, from a large-scale study in China, that using AI hurts learning if it undermines ment…
2 天前
X:Berry Xia (@berryxia)技巧与观点搭AI Agent团队远非"5分钟教程"那么简单。环境配置(Python 3.10+等)劝退八成新手。Agent编排面临从众效应、角色不一致等缺陷,Anthropic采用Subagents模式,Cognition甚至发文称"不要构建多Agent"。上下文管理是最大隐性杀手,同一模型因上下文工程不同分差36个百分点。工具接入缺乏行为合约,API调用失败频发。低代码平台、单Agent SDK正降低门槛,但多Agent自由协作仍是难题。
查看原文http://x.com/i/article/2067984320212668416
2 天前
X:Vista (@vista8)技巧与观点准备睡觉,让AI开发一个钓点和渔获记录App。
设定 Goal 让 Codex 执行,看明天钓鱼能不能用上自己的App。
查看原文准备睡觉,让AI开发一个钓点和渔获记录App。 设定 Goal让 Codex执行,看明天钓鱼能不能用上自己的App。
2 天前
OpenRouter:Announcements(RSS)技巧与观点OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
查看原文OpenRouter vs LiteLLM: Which LLM Gateway Fits Your Stack?
2 天前
Hacker News 热门(buzzing.cc 中文翻译)技巧与观点一位前OpenAI机器人研究员用不到€5,000搭建了一套桌面机器人操控实验平台,包括UFACTORY xArm Lite 6工业级机械臂、Intel RealSense D405腕部摄像头、Logitech C920桌面摄像头和3Dconnexion SpaceMouse无线遥操作设备。整套系统置于办公桌旁,通过自研Python软件栈控制。作者计划在未来数月开展独立研究,并以公开研究日志形式记录实验过程、失败与经验,不预设产出论文或开源代码。
查看原文搭建一套紧邻我办公桌的机器人研究平台
2 天前
X:阿易 AI Notes (@AYi_AInotes)技巧与观点推文指出,普通人一个月工资足以启动一家跑通商业闭环的互联网公司,每月固定成本约$20,主要来自Claude Pro或OpenAI Codex辅助开发。其余后端数据库、部署、认证、分析、监控、缓存、邮件、支付等全链路基建均有免费起步额度,域名约$1/月。同时,引用指出当前AI范式(视频生成、VLA)仅学习统计相关性,缺乏因果理解;UCSD黄碧薇教授提出四代AI划分(相关性小模型→因果小模型→相关性大模型/LLM→因果大模型),其团队Aether AI今日完成首轮融资。
查看原文我终于明白现在随处的AI时代对普通人的善意在哪,普通人上班一个月赚的工资,够开一家跑通全商业闭环的互联网公司,而且能连开好几年, 以前创业要凑团队,起码融个几十万,现在你一个人花$20就能先跑起来去…
2 天前
X:Nathan Lambert (@natolambert)技巧与观点Nathan Lambert 评论称 RL speedrun 终将成为常态,当前最大瓶颈是价格--单次 RL 实验因不稳定导致噪声大,多次种子运行成本约 100 美元。@jeankaddour 随后推出 Sokoban Speedrun 项目:基于 Karpathy 的 nanochat 流水线修改,用 RL 训练 Qwen3-4B-Instruct 解决 Sokoban 谜题,GRPO 基线在 8×H100 上仅需 87 分钟。该尝试展示低成本快速验证 RL 方法的潜力。
查看原文It's obvious that eventually a speedrun for RL will stick. I currently think the biggest bottlenec…
2 天前
X:Nathan Lambert (@natolambert)技巧与观点归根结底,如果美国实验室不想被蒸馏,他们就不该提供API。看起来他们最终会对某些模型这么做,这是他们的选择。
更严格的监管实际上不会奏效,反而会伤害美国的初创公司。
查看原文It'll come down to, if the U.S. labs don't want distillation they shouldn't have an API. Seems like …
2 天前
X:Nathan Lambert (@natolambert)技巧与观点禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告,阐述为何开源维护美国价值观。
管理前沿风险是困难的,但通过削弱开放前沿来减少透明度、创新和教育将更糟。
查看原文Banning open-source AI in any form would be a mistake. A general audience PSA with @kevinsxu on why …
2 天前
X:Elvis Saravia (@omarsar0, DAIR.AI)技巧与观点正如我之前所说,考虑到成本和性能,我认为 Fable 对于很多 SWE 任务来说并不值得。
需要说明的是,我认为 Fable 非常出色,它在设计和创意方面明显表现优异。
等它重新上线后,我会用自己的循环测试它(并衡量前沿效率)。
查看原文As I said before, for that cost &; performance, I don't think Fable is worth it for a lot of SWE …
2 天前
X:Oran Ge (@oran_ge)技巧与观点开发者使用 GLM 5.2 从零开始完成第一个安卓 App 开发,包括安装 Android Studio、编写代码到最终生成 APK。GLM 5.2 在大部分问题上能提供有效指导,但遇到疑难杂症时安卓系统仍难处理。作者指出当前 vibe coding 模式在电脑和 Web 端调试最为方便。
查看原文今天挑战了一下,写了第一个安卓的 app 感谢 GLM 5.2 的帮忙,从安装 android studio 开始指导,一直到 apk 写完,大部分问题都能解决 最后 apk 跑起来的时候,还是很欣慰…
2 天前
X:Kim (@kimmonismus)技巧与观点我们仍有许多工作要做。公众情绪正日益转向反对AI。
现在出现了反对数据中心、乃至整体AI的运动;怨恨情绪正在增长。
虽然其中无疑存在合理的担忧--比如对失业和能源价格上涨的恐惧--但其中很大一部分只是单纯的怨恨,需要通过教育和提高认知来解决。
查看原文We still have a lot of work ahead of us. Sentiment is increasingly turning against AI. There are mo…
2 天前
The Decoder:AI News(RSS)技巧与观点Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。
查看原文New benchmark exposes how badly AI struggles with real knowledge work
2 天前
X:Rohan Paul (@rohanpaul_ai)技巧与观点新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱--即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。
查看原文Perfect immunity from jailbreak is not possible even for the strongest of LLMs. New study shows tha…
2 天前
CMU:Machine Learning Blog技巧与观点LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距--Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。
查看原文Healthcare Benchmarks Are Only as Good as Their Assumptions
2 天前
Nathan Lambert:Interconnects(RSS)技巧与观点近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
查看原文Banning Open Source AI Would Be A Mistake
2 天前
X:SemiAnalysis (@SemiAnalysis_)技巧与观点100%的AI芯片初创公司都有幻灯片/"模拟性能数据"显示它们的芯片好得多,但99%的定制ASIC失败了。为什么?直到你意识到AI芯片是关于软件的,MATH才算是MATH。构建芯片并把数字放到幻灯片上相对容易;构建出色的软件很难。这就是为什么99%的AI芯片初创公司会失败。
查看原文100% of AI chip startups have slides/"simulated performance data" showing that their chip is way bet…