全部 AI 动态
查看 AIHOT 全量动态流,适合需要更完整视图时使用。
查看原文OpenAI just fixed their supposed "scaling pretraining problem"
5 天前
X:Noam Brown (@polynoamial)行业动态Noam Shazeer 宣布加入 OpenAI,称离开谷歌是艰难决定,但对谷歌团队深感自豪。Noam Brown 对此表示特别激动。
查看原文I'm always thrilled to have more Noams at @OpenAI, but I'm especially thrilled to welcome @NoamShaze…
5 天前
X:Berry Xia (@berryxia)行业动态G7峰会上,OpenAI CEO Sam Altman与Anthropic CEO Dario Amodei同桌参加AI工作午餐。然而美国此前以安全为由对Anthropic的Mythos级模型实施出口管制,限制盟友获取最先进AI。现场氛围微妙,AI发展从公司技术竞赛变为国家权力游戏。美国一边用出口管制卡住前沿模型扩散,一边让自家CEO与盟友谈合作,Anthropic因模型过强被本国限制。此举重新定义AI为战略资源,盟友需看美国脸色,未来焦点将从模型能力转向控制权之争。
查看原文卧槽,奥特曼和Dario "同台竞演"了! G7峰会上,Sam Altman和Dario Amodei坐在同一桌吃饭,而美国刚刚限制了Anthropic最强模型的出口,这让盟友们有点尴尬。 在法国…
5 天前
X:Yuchen Jin (@Yuchenj_UW)行业动态两年前谷歌花 27 亿美元请回的 AI 传奇 Noam Shazeer 已离开谷歌,加入 OpenAI。
对 Gemini 来说是个残酷的消息。
查看原文Noam Shazeer, the AI legend Google paid $2.7B to bring back two years ago, has left Google, to join …
5 天前
IT之家(RSS)行业动态苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。
查看原文WWDC26 苹果 AI 特别讲座重头戏:4 台 Mac Studio 本地运行 Kimi K2.6 模型
5 天前
X:Berry Xia (@berryxia)行业动态谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注"3.5 Pro 即将推出"。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的"偷懒"问题。
查看原文🔥Gemini 3.5 Pro 爆料合集!发布越来越近了! - 谷歌已经开始暗示 Gemini 3.5 Pro,在 Gemini 3.1 Pro 的产品卡片上出现了"3.5 Pro 即将推出"的标…
5 天前
X:Tibo (@thsottiaux)行业动态Tibo 发推宣布 Claude Code 用户将获得双重重置:一次全额重置,另一次可存入"重置银行"自行择时使用。但 @argofowl 揭露,可存储的重置仅限推荐他人注册才能获得,且 Tibo 的"最后重置"已被自动应用。@argofowl 表示原有 50% 用量储备、次日本有完整重置,如今却被强制消耗,批评此举"营销水平堪比 Anthropic"。用户原本期待每次重置均可自由择时,对此机制极度不满。
查看原文Dearest gentle codexer. We did a sneaky double reset. Not only do you get a full reset on us. But y…
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。
查看原文Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究HydraHead 沿 head 轴混合 Full Attention(FA)与 Linear Attention(LA),通过可解释性驱动策略保留检索关键 head 的 FA,并设计缩放归一化融合模块弥合二者输出分布差异。借助三阶段迁移流水线(参数复用与知识蒸馏),仅训练 15B tokens,HydraHead 在 512K 上下文长度上较基线提升超 69%,以 7:1 的 LA-to-FA 比例达到 3:1 逐层混合的长上下文性能,接近同体量原生 256K 上下文长度的 Qwen3.5。
查看原文HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究World Action Models(WAM)是具身预测动作模型,通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界,从生成内容(渲染未来、潜在未来、无视频生成的动作推理)和设计维度(预测基质、骨干、动作耦合、部署机制)两个视角组织现有方法。分析表明:WAM并非仅带动作头的视频生成器,其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。
查看原文World Action Models: A Survey
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。
查看原文Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究针对医学表格数据标签获取成本高的问题,研究者提出训练自适应离散化预任务Adaptive Binning。该方法将离散化与学习过程耦合,通过特征级粗到细课程逐步细化分箱,并在检测到训练平台期时选择表征感知的分割点,同时优化值空间和表征空间一致性。异质性感知目标统一分类重建与有序监督。在公共医学表格数据集上,线性探测和微调均取得一致提升,无需数据集特定分箱调参。还引入标准化医学表格SSL基准。代码已开源。
查看原文When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。
查看原文StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
查看原文LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。
查看原文The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究Multi-LCB 是一个新基准,将 LiveCodeBench(LCB)从 Python 扩展到 12 种编程语言,保持原有污染控制和评估协议,并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异,直接暴露了当前 LLM 在多语言代码生成上的关键短板。
查看原文Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究当前FP4硬件路径(如NVIDIA Blackwell/Rubin-class及AMD MI350系列)均基于E2M1格式,但其可表示bin的几何不对称导致系统性负舍入误差--收缩偏差(Shrinkage Bias),该偏差在层间累积并被随机Hadamard变换(RHT)放大,解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案,对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中,UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。
查看原文Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
查看原文HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
查看原文FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
5 天前
HuggingFace Daily Papers(社区热门论文)论文研究JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架,可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段:跨空间双分支去噪过程在体素空间中动态解码3D潜在表示,通过CLIP引导的视角对齐和SDF融合实现无缝几何融合;视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明,该方法在几何完整性、语义可识别性和效率上显著优于现有方法。
查看原文JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising