技巧与观点

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

4 天前

MarkTechPost（RSS）技巧与观点

NVIDIA SkillSpector 指南：使用静态分析和 SARIF 报告扫描 AI 技能安全风险

教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库，涵盖良性行为和故意植入的漏洞（环境变量泄露、动态代码执行、提示词注入）。通过 LangGraph 工作流扫描，输出风险评分和 SARIF 格式结果，用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。

查看原文NVIDIA SkillSpector Guide： Scanning AI Skills for Security Risks with Static Analysis and SARIF Reports

4 天前

TechCrunch：AI（RSS）技巧与观点

如何在Google Docs中关闭AI

Google Docs中Gemini弹窗可通过点击顶栏"Gemini"并选择"底部栏偏好"关闭底部AI栏。更彻底的方案是进入Gmail设置，在"查看所有设置"中找到"Google Workspace智能功能"，关闭相关开关，即可禁用Gemini弹窗及其他AI建议（如光标处的"help me write"）。

查看原文How to turn off AI in your Google Docs

4 天前

X：Berry Xia (@berryxia)技巧与观点

UCSD 黄碧薇提出 Causal World Models，Aether AI 获 2000 万美元融资

UCSD 黄碧薇教授在 CVPR 2026 提出 Causal World Models 框架，让 AI 从模仿动作进化到理解因果。她同时宣布其公司 Aether AI 完成 2000 万美元融资，成为全球首个专注因果世界模型的公司。她拥有 12 年因果 AI 经验，CMU 博士，100+ 顶会论文，是因果发现库 causal-learn 作者。推文指出当前 VLA/LLM 路线仅学到统计相关性，因果世界模型被视为具身智能的范式转折点。

查看原文兄弟们！这个研究有点牛逼啊！ Physical AI 的瓶颈根本不是「模型不够大」，是一开始范式就错了。先说一个真实场景：桌子高了 2cm，当前最强的 VLA 模型直接失败。为什么？因为它…

4 天前

公众号：数字生命卡兹克技巧与观点

分享9本AI时代底层能力必读书

推荐9本非直接AI但有助于底层能力的书籍：《失控》解释涌现系统；《人有人的用处》强调反馈是人机协作核心；《系统之美》分析存量与流量，警惕AI消耗独立判断力；《事实》用数据思维避免情绪化决策；《理解媒介》指出AI是新媒介，应思考"什么不可能变可能"；《反脆弱》用杠铃策略应对AI快速迭代；《一生的旅程》将个人变成AI的管理者；《千面英雄》讲解讲故事能力；《第一哲学沉思集》贴近当下。

查看原文分享10本我觉得AI时代应该必读的好书。

4 天前

X：Berry Xia (@berryxia)技巧与观点

卧槽~~ 这根本用不完啊！真是便宜啊！我接到了Bloome 里面各种音影视频文本文件一股脑搞进去，这么久才花费这么点钱。。并且日常使用做各种我需要的任务都可以帮我搞定😄

查看原文

4 天前

X：邵猛 (@shao__meng)技巧与观点

Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析

@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有"AI 生成感"；为 Kimi 设置自定义 Design Inspiration MCP Server（利用多模态能力）后质量显著提升。成本上，B2B SaaS 单页 Kimi 仅 4 美分，Claude Fable 1.09 美元（约 27 倍差）；平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍，总成本降低 94%。质量由 GPT-5.5 评分（0-100），Claude Fable 略高但差距小，Kimi 性价比突出。实验表明，结合高质量视觉参考后，开源模型已足以支持实际落地页工作流，批量迭代优势显著。

查看原文Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析 @nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 分别生成 12 个落地…

4 天前

X：邵猛 (@shao__meng)技巧与观点

Codex Automations 的内外双循环

邵猛详解 Codex Automations 的双循环架构：内循环负责将上下文带入任务，通过"检索即写作"、可逆动作（只建草稿不自动发送）等原则快速产出可审草稿；外循环在人工审阅后启动，通过草稿与终稿的 diff 提取证据，区分修改类型（写作偏好、事实补漏、承诺删除等），将经批准的教训写入 Markdown 供内循环下次使用。双循环速度错开：内循环快（如每 2 小时），外循环慢（日末/满 N 条审阅/每周），平衡即时效率与模式改进。适用于任何"起草→人审→发送/修改"的流程。

查看原文Codex Automations 的内外双循环两类上下文 · 任务前上下文：历史、事实、约束、关系、既有决策，来源有检索、工具、记忆 · 任务后上下文：保留、修改、删除、发送、搁置，来源有人工审…

4 天前

X：Ethan Mollick (@emollick)技巧与观点

三大实验室指数增长仍未放缓

有大量资金押注三大实验室的指数曲线即将结束如果发生，小模型和开源模型将变得可行，企业有时间应对，成本下降，世界变化更慢。但迄今为止，这种情况并未发生。

查看原文There is a ton of money riding on the hope that the exponential curve the Big Three Labs are on will…

4 天前

IT之家（RSS）技巧与观点

苹果游戏移植工具包 4 测试，《赛博朋克 2077》帧率提升 10%

苹果 GPTK 4 引入 Agentic AI 能力，通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示，在 M3 Max MacBook Pro（48GB 内存/40 核 GPU）上，《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%；《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》，GPTK 4 平均 35fps，较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃，现可运行至 60-70fps（1080p/中画质/FSR 质量），但每次启动需等待 20 分钟着色器编译。

查看原文

4 天前

Hugging Face：Blog（RSS）技巧与观点

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20，834 张提及单一 PEFT 技术的模型卡中 20，509 张指向 LoRA（98.4%）；外部站点 10，000 个检查点中 95.0% 是 LoRA；GitHub 搜索 `from peft import` 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性--调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

查看原文Beyond LoRA： Can you beat the most popular fine-tuning technique？

4 天前

Hugging Face：Blog（RSS）技巧与观点

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

查看原文Is it agentic enough？ Benchmarking open models on your own tooling

4 天前

X：Andrew Milich (@milichab)技巧与观点

Grok Build 0.1 可用于代码审查

尝试在代码审查中使用 Grok Build 0.1

查看原文Try Grok Build 0.1 on code review

4 天前

IT之家（RSS）技巧与观点

亚马逊高管预测：首批商用量子计算机将在5-7年内问世

亚马逊AI业务负责人彼得·德桑蒂斯接受CNBC采访时预测，首批具备商用价值的小型量子计算机将在未来5至7年内问世。他称量子计算后续发展将类似摩尔定律，规模逐年扩大。德桑蒂斯澄清量子计算机并非速度更快的普通电脑，而是擅长解决化学、材料科学等传统计算机难以高效求解的特殊问题。亚马逊去年发布了自研量子纠错芯片Ocelot。该时间节点处于行业预测中间区间。

查看原文亚马逊高管预测：首批商用量子计算机将在 5-7 年内问世

4 天前

X：洪明 (@hongming731)技巧与观点

GLM-5.2 开源、AI 化学家、对话闫俊杰

智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

查看原文http：//x.com/i/article/2067387524339929088

4 天前

X：Artificial Analysis (@ArtificialAnlys)技巧与观点

Claude Fable 5 成本最高：运行 AI 智能指数需 $6.2K

Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型，运行其 Intelligence Index 需 $6.2K，是第二贵模型 Opus 4.8（$3.7K）的 1.7 倍、GPT-5.5（$2.9K）的 2.2 倍。该模型 Intelligence Index 得分 60，领先 Opus 4.8（56）和 GPT-5.5（55）。定价 $10/$50 每百万输入/输出 tokens，为 Opus 4.8 的 2 倍，仅低于 GPT-5.5 Pro（$30/$180）。缓存价格同步翻倍：缓存读取 $1/M、写入 $12.5/M，而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。

查看原文Claude Fable 5 cost ~$6.2K to run the Artificial Analysis Intelligence Index benchmarks - the most e…

4 天前

Hacker News 热门（buzzing.cc 中文翻译）技巧与观点

一个机器人正朝你飞奔而来：你想让它运行在Claude还是Grok上？

实验将11个大语言模型放入自建2D吃鸡游戏中，进行30轮对战。Grok 4.1 Fast以13胜（每胜0.97美元）夺冠，第二名Claude Sonnet 4.6仅5胜（每胜26.78美元），成本相差27倍。GPT 5.4击杀数最高（38次），但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元，零胜场。游戏包含武器、护甲、载具及缩圈机制，模型可编辑自身人格和记忆文件，彼此仅以字母代称。传统基准未能预测胜负，揭示出模型在"获胜"与"杀人"能力之外的决策差异。

查看原文一个机器人正朝你飞奔而来。你想让它运行在Claude还是Grok上？

4 天前

X：cb_doge (@cb_doge)技巧与观点

Grok Imagine 1.5 获用户高度评价

Grok Imagine 1.5 太棒了！！ 🔥

查看原文Grok Imagine 1.5 is so gooood！！ 🔥

4 天前

X：MiniMax (@MiniMax_AI)技巧与观点

MiniMax M3 视觉能力：截图即生成黑洞模拟器

MiniMax 官方转发用户 @coldopn 的体验：前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code，切换至 MiniMax M3 模型，仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词，M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元，展现了 M3 强大的视觉理解与生成能力。

查看原文image input with M3 carrying a full sim. good build @coldopn

4 天前

X：MiniMax (@MiniMax_AI)技巧与观点

MiniMax M3 视觉能力实测：截图+一条提示词生成黑洞模拟器

知名 AI 开发者 @coldopn 表示前沿模型已不限于 Anthropic 和 OpenAI。他使用 Kilo Code 工具，将一张黑洞插图截图拖入并切换至 MiniMax M3 模型，仅用一条提示词"animate this screenshot into a working black hole simulator"就生成了可运行的黑洞模拟器。M3 的视觉理解能力令人惊叹，总成本仅 0.53 美元。此外，Kilo Code 即将达到 25k 星标，届时将向两位用户赠送 500 美元 AI 积分。

查看原文image input carrying a full sim. good build @coldopn

4 天前

X：宝玉 (@dotey)技巧与观点

AI邮件助手的内外循环：自进化写作风格

一篇介绍AI自动回复邮件的"内循环"与"外循环"设计的文章。内循环是定时任务每2小时检查新邮件，自动检索相关上下文生成草稿但不发送，供用户手动修改后发出；外循环则是自进化的Skill，每次用户对草稿的修改都会被Agent记录，用于不断优化写作风格Skill，使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法，指出该方案将迭代过程自动化，形成持续改进的闭环。

查看原文这篇文章写的有点玄乎，估计是为了蹭现在流行的 Loop Engineering 的概念。核心内容是两个循环：内循环和外循环所谓内循环，就是干活的定时任务，每 2 小时检查下有没有新邮件，如果有…

加载更多