技巧与观点

查看 AIHOT 全量动态流,适合需要更完整视图时使用。

4 天前
MarkTechPost(RSS)技巧与观点
教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库,涵盖良性行为和故意植入的漏洞(环境变量泄露、动态代码执行、提示词注入)。通过 LangGraph 工作流扫描,输出风险评分和 SARIF 格式结果,用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。
查看原文NVIDIA SkillSpector Guide: Scanning AI Skills for Security Risks with Static Analysis and SARIF Reports
4 天前
TechCrunch:AI(RSS)技巧与观点
Google Docs中Gemini弹窗可通过点击顶栏"Gemini"并选择"底部栏偏好"关闭底部AI栏。更彻底的方案是进入Gmail设置,在"查看所有设置"中找到"Google Workspace智能功能",关闭相关开关,即可禁用Gemini弹窗及其他AI建议(如光标处的"help me write")。
查看原文How to turn off AI in your Google Docs
4 天前
X:Berry Xia (@berryxia)技巧与观点
UCSD 黄碧薇教授在 CVPR 2026 提出 Causal World Models 框架,让 AI 从模仿动作进化到理解因果。她同时宣布其公司 Aether AI 完成 2000 万美元融资,成为全球首个专注因果世界模型的公司。她拥有 12 年因果 AI 经验,CMU 博士,100+ 顶会论文,是因果发现库 causal-learn 作者。推文指出当前 VLA/LLM 路线仅学到统计相关性,因果世界模型被视为具身智能的范式转折点。
查看原文兄弟们!这个研究有点牛逼啊! Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。 先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。 为什么? 因为它…
4 天前
公众号:数字生命卡兹克技巧与观点
推荐9本非直接AI但有助于底层能力的书籍:《失控》解释涌现系统;《人有人的用处》强调反馈是人机协作核心;《系统之美》分析存量与流量,警惕AI消耗独立判断力;《事实》用数据思维避免情绪化决策;《理解媒介》指出AI是新媒介,应思考"什么不可能变可能";《反脆弱》用杠铃策略应对AI快速迭代;《一生的旅程》将个人变成AI的管理者;《千面英雄》讲解讲故事能力;《第一哲学沉思集》贴近当下。
查看原文分享10本我觉得AI时代应该必读的好书。
4 天前
X:Berry Xia (@berryxia)技巧与观点
卧槽~~ 这根本用不完啊! 真是便宜啊!我接到了Bloome 里面各种音影视频文本文件一股脑搞进去,这么久才花费这么点钱。。 并且日常使用做各种我需要的任务都可以帮我搞定😄
4 天前
X:邵猛 (@shao__meng)技巧与观点
@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有"AI 生成感";为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。
查看原文Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析 @nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 分别生成 12 个落地…
4 天前
X:邵猛 (@shao__meng)技巧与观点
邵猛详解 Codex Automations 的双循环架构:内循环负责将上下文带入任务,通过"检索即写作"、可逆动作(只建草稿不自动发送)等原则快速产出可审草稿;外循环在人工审阅后启动,通过草稿与终稿的 diff 提取证据,区分修改类型(写作偏好、事实补漏、承诺删除等),将经批准的教训写入 Markdown 供内循环下次使用。双循环速度错开:内循环快(如每 2 小时),外循环慢(日末/满 N 条审阅/每周),平衡即时效率与模式改进。适用于任何"起草→人审→发送/修改"的流程。
查看原文Codex Automations 的内外双循环 两类上下文 · 任务前上下文:历史、事实、约束、关系、既有决策,来源有检索、工具、记忆 · 任务后上下文:保留、修改、删除、发送、搁置,来源有人工审…
4 天前
X:Ethan Mollick (@emollick)技巧与观点
有大量资金押注三大实验室的指数曲线即将结束 如果发生,小模型和开源模型将变得可行,企业有时间应对,成本下降,世界变化更慢。 但迄今为止,这种情况并未发生。
查看原文There is a ton of money riding on the hope that the exponential curve the Big Three Labs are on will…
4 天前
IT之家(RSS)技巧与观点
苹果 GPTK 4 引入 Agentic AI 能力,通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示,在 M3 Max MacBook Pro(48GB 内存/40 核 GPU)上,《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%;《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》,GPTK 4 平均 35fps,较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃,现可运行至 60-70fps(1080p/中画质/FSR 质量),但每次启动需等待 20 分钟着色器编译。
4 天前
Hugging Face:Blog(RSS)技巧与观点
参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 `from peft import` 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性--调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
查看原文Beyond LoRA: Can you beat the most popular fine-tuning technique?
4 天前
Hugging Face:Blog(RSS)技巧与观点
Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。
查看原文Is it agentic enough? Benchmarking open models on your own tooling
4 天前
X:Andrew Milich (@milichab)技巧与观点
尝试在代码审查中使用 Grok Build 0.1
查看原文Try Grok Build 0.1 on code review
4 天前
IT之家(RSS)技巧与观点
亚马逊AI业务负责人彼得·德桑蒂斯接受CNBC采访时预测,首批具备商用价值的小型量子计算机将在未来5至7年内问世。他称量子计算后续发展将类似摩尔定律,规模逐年扩大。德桑蒂斯澄清量子计算机并非速度更快的普通电脑,而是擅长解决化学、材料科学等传统计算机难以高效求解的特殊问题。亚马逊去年发布了自研量子纠错芯片Ocelot。该时间节点处于行业预测中间区间。
查看原文亚马逊高管预测:首批商用量子计算机将在 5-7 年内问世
4 天前
X:洪明 (@hongming731)技巧与观点
智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
查看原文http://x.com/i/article/2067387524339929088
4 天前
X:Artificial Analysis (@ArtificialAnlys)技巧与观点
Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。
查看原文Claude Fable 5 cost ~$6.2K to run the Artificial Analysis Intelligence Index benchmarks - the most e…
4 天前
Hacker News 热门(buzzing.cc 中文翻译)技巧与观点
实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在"获胜"与"杀人"能力之外的决策差异。
查看原文一个机器人正朝你飞奔而来。你想让它运行在Claude还是Grok上?
4 天前
X:cb_doge (@cb_doge)技巧与观点
Grok Imagine 1.5 太棒了!! 🔥
查看原文Grok Imagine 1.5 is so gooood!! 🔥
4 天前
X:MiniMax (@MiniMax_AI)技巧与观点
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。
查看原文image input with M3 carrying a full sim. good build @coldopn
4 天前
X:MiniMax (@MiniMax_AI)技巧与观点
知名 AI 开发者 @coldopn 表示前沿模型已不限于 Anthropic 和 OpenAI。他使用 Kilo Code 工具,将一张黑洞插图截图拖入并切换至 MiniMax M3 模型,仅用一条提示词"animate this screenshot into a working black hole simulator"就生成了可运行的黑洞模拟器。M3 的视觉理解能力令人惊叹,总成本仅 0.53 美元。此外,Kilo Code 即将达到 25k 星标,届时将向两位用户赠送 500 美元 AI 积分。
查看原文image input carrying a full sim. good build @coldopn
4 天前
X:宝玉 (@dotey)技巧与观点
一篇介绍AI自动回复邮件的"内循环"与"外循环"设计的文章。内循环是定时任务每2小时检查新邮件,自动检索相关上下文生成草稿但不发送,供用户手动修改后发出;外循环则是自进化的Skill,每次用户对草稿的修改都会被Agent记录,用于不断优化写作风格Skill,使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法,指出该方案将迭代过程自动化,形成持续改进的闭环。
查看原文这篇文章写的有点玄乎,估计是为了蹭现在流行的 Loop Engineering 的概念。 核心内容是两个循环:内循环和外循环 所谓内循环,就是干活的定时任务,每 2 小时检查下有没有新邮件,如果有…