全部 AI 动态

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

S-Agent 将空间推理视为时空证据积累，以 VLM 为语义规划器，通过分层空间工具和专家将 2D 物体提升为 3D 几何证据，聚合为计数、测量等高级空间知识；Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上，S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B，性能媲美 GPT-5.4 和 Gemini 3。

查看原文S-Agent： Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

超越静态排行榜：LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现，排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现，涵盖多模态扩展、编排、检索、推理、基础设施及评估探针，并合并7个先前智能体基准。提出以预测有效性（样本内与样本外排名相关性）替代均值排名，构建12层测量框架，暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准，最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

查看原文Beyond Static Leaderboards： Predictive Validity for the Evaluation of LLM Agents

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

JamSet与JamBench：首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性（SCS）、行为对齐（BAS）评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%（小项目）降至5.7%（大项目）。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

查看原文JAMER： Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性，忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预，通过链式评估：摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型（9600个视频，覆盖四种控制范式）的测试表明，当前系统维持的是跟踪镜头--返回目标停留在被遗弃时的状态，而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模，表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

查看原文Current World Models Lack a Persistent State Core

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

查看原文FreeStyle： Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

Holo-World：面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型，从单张图像出发，根据显式相机控制、物体控制和可选天气指令，生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间，利用渲染背景、几何缓冲和物体控制维持场景结构，并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差，增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下，天气状态生成优于视频到视频的天气编辑基线。

查看原文Holo-World： Unified Camera， Object and Weather Control for Video World Model

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

ENPIRE：真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架，让编码智能体通过环境（自动重置与验证）、策略改进、回滚（并行评估策略）和进化（分析日志、查阅文献、改进训练与算法代码）四个模块，自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程，在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率，并通过机器人集群加速迭代。

查看原文ENPIRE： Agentic Robot Policy Self-Improvement in the Real World

5 天前

HuggingFace Daily Papers（社区热门论文）论文研究

SEVRA：面向预算感知推理的选择性验证服务层控制器

SEVRA是一种服务层控制器，使用冻结的Qwen3-4B求解器，通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上，选择性验证达76.3%准确率，高于始终验证的75.5%，后生成token减少26.8%，有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上，选择性策略仅验证3.0%样本，准确率从93.4%提升至94.5%，验证token减少91.2%。部署规则：先调整初始预算，再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。

查看原文Think Again or Think Longer？ Selective Verification for Budget-Aware Reasoning

5 天前

xAI：News（网页）AI 产品

xAI 发布 Grok for Word 插件

xAI 将 Grok 引入 Microsoft Word，推出免费 365 插件。用户可将笔记转为结构化文档、重写文本以提升清晰度与简洁性，也能通过插件搜索网页、X 平台或生成图表。插件支持连接 SharePoint 和 Google Drive 等外部来源，还可用于 PowerPoint 和 Excel。

查看原文Grok for Word Jun 18， 2026 # Grok for Word Use the Grok add-in for Microsoft Word to turn notes into documents， style and format your work， or bring research from the web into Word. Read More

5 天前

xAI：News（网页）行业动态

Grok 现集成 Databricks Agent Bricks

Grok 模型现已原生集成到 Databricks Agent Bricks 平台。在 2026 年 Data + AI Summit 上，Databricks 宣布与 SpaceXAI 合作，使 Grok 与其他前沿及开源模型在同一受控平台中可用。Agent Bricks 结合 Lakehouse 数据上下文与控制和选择，帮助工程团队构建处理大规模数据的 AI 智能体。此外，企业也可在 Amazon Bedrock 上运行 Grok 模型。

查看原文Grok on Databricks Jun 18， 2026 # Grok on Databricks Grok models are now available on Databricks Agent Bricks. Read More

5 天前

Hugging Face：Blog（RSS）技巧与观点

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20，834 张提及单一 PEFT 技术的模型卡中 20，509 张指向 LoRA（98.4%）；外部站点 10，000 个检查点中 95.0% 是 LoRA；GitHub 搜索 `from peft import` 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性--调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

查看原文Beyond LoRA： Can you beat the most popular fine-tuning technique？

5 天前

Hugging Face：Blog（RSS）技巧与观点

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

查看原文Is it agentic enough？ Benchmarking open models on your own tooling

5 天前

X：可灵 Kling AI (@Kling_ai)AI 产品

可灵AI：足球明星坐在观众席

等等……足球明星坐在观众席？！⚽️

查看原文Wait… the football star is sitting in the audience？！ ⚽️

5 天前

Simon Willison 博客AI 模型

GLM-5.2：可能是最强大的纯文本开源权重大语言模型

智谱（Z.ai）于6月13日向编码计划订阅者发布GLM-5.2，6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构，40个活跃参数，纯文本输入，上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先，超越MiniMax-M3（44）、DeepSeek V4 Pro（max，44）和Kimi K2.6（43）。但每任务输出token消耗达43k，高于同类模型。Code Arena WebDev排行榜位列第二，仅次于Claude Fable 5。通过OpenRouter可获取，多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀，但负鼠SVG质量不及GLM-5.1。

查看原文GLM-5.2 is probably the most powerful text-only open weights LLM

5 天前

IT之家（RSS）AI 产品

SK海力士向主要客户供应12层HBM4E样品，面向AI的下一代超高性能DRAM

SK海力士今日宣布，已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM，较HBM4引脚速率最高达16Gbps，能效提高20%以上，热阻降低约17%。采用先进MR-MUF工艺，12层堆叠实现48GB容量，并降低数据传输延迟，旨在提升下一代AI数据中心和大规模计算系统的处理效率。

查看原文面向 AI 的下一代超高性能 DRAM，SK 海力士已向主要客户供应 12 层 HBM4E 样品

5 天前

X：Claude Devs (@ClaudeDevs)AI 产品

Claude Code与Design实现双向同步

Claude Code 和 Claude Design 现在可实现双向同步。运行 `/design-sync` 可将你的设计系统拉取到仓库中，并基于真实的组件进行构建；或者把你构建的内容推送回 Claude Design，继续在画布上编辑。

查看原文Claude Code and Claude Design now sync both ways. Run /design-sync to pull your design system into …

5 天前

IT之家（RSS）行业动态

IT早报：DeepSeek 4000亿元融资；微信支付AI专属卡；Android 17正式版

DeepSeek以4000亿元估值完成首轮融资，融资约510亿元，投资方包括梁文锋、腾讯、宁德时代等。微信支付发布AI专属卡，授权Agent后实现自动消费。谷歌推送Android 17正式版，集成Gemini、Lyria等AI模型，新增AI音乐生成。腾讯自选股内测金融智能体StockBuddy。支付宝提醒AI版"阿宝"内测邀请码无需付费。西安警方侦破AI造谣小米案，4人被刑拘。

查看原文IT早报 0618：DeepSeek 以 4000 亿元估值完成首轮融资；SK 海力士应届生招聘取消学历要求；库克称苹果将因内存芯片短缺涨价；微信支付推 AI 专属卡…

5 天前

IT之家（RSS）AI 产品

香橙派推出 Orange Pi 6 标准版开发板：45 TOPS AI 算力、可选 8/16/24GB RAM

香橙派正式公布 Orange Pi 6 标准版开发板，价格未公布。该板尺寸 90×90mm，搭载 CIX P1（CD8180）12 核 Arm 处理器及 Arm Immortalis-G720 MC10 GPU，NPU 算力 28.8 TOPS，整体 AI 算力最高 45 TOPS。提供 8/16/24GB LPDDR5 RAM，双 2.5GbE 接口。存储支持两个 M.2 2280（PCIe 4.0 x4 NVMe）、microSD 及 M.2 E-Key 插槽。接口包含双 USB-C、双 USB-A 3.0、双 USB-A 2.0、DisplayPort 1.4、HDMI 2.0、eDP、3.5mm 音频、MIPI-CSI 及 40Pin GPIO。支持 Debian、Ubuntu、安卓、Windows OpenHarmony 系统。

查看原文

5 天前

X：Andrew Milich (@milichab)技巧与观点

Grok Build 0.1 可用于代码审查

尝试在代码审查中使用 Grok Build 0.1

查看原文Try Grok Build 0.1 on code review

5 天前

IT之家（RSS）技巧与观点

亚马逊高管预测：首批商用量子计算机将在5-7年内问世

亚马逊AI业务负责人彼得·德桑蒂斯接受CNBC采访时预测，首批具备商用价值的小型量子计算机将在未来5至7年内问世。他称量子计算后续发展将类似摩尔定律，规模逐年扩大。德桑蒂斯澄清量子计算机并非速度更快的普通电脑，而是擅长解决化学、材料科学等传统计算机难以高效求解的特殊问题。亚马逊去年发布了自研量子纠错芯片Ocelot。该时间节点处于行业预测中间区间。

查看原文亚马逊高管预测：首批商用量子计算机将在 5-7 年内问世

加载更多