论文研究

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

5 天前

OpenAI：Alignment 研究博客（RSS）论文研究

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

查看原文Can public chat data predict real-world AI misalignments？

5 天前

X：AK (@_akhaliq)论文研究

μ_0 可扩展3D交互追踪世界模型

μ_0 一个可扩展的3D交互追踪世界模型

查看原文μ_0 A Scalable 3D Interaction-Trace World Model

5 天前

X：AK (@_akhaliq)论文研究

World Tracing：超越可见的生成式像素对齐几何

World Tracing 超越可见的生成式像素对齐几何

查看原文World Tracing Generative Pixel-Aligned Geometry Beyond the Visible

5 天前

X：AK (@_akhaliq)论文研究

JoyAI-VL-Interaction 实时视觉语言交互

JoyAI-VL-Interaction 实时视觉语言交互智能

查看原文JoyAI-VL-Interaction Real-Time Vision-Language Interaction Intelligence

5 天前

LMSYS：Blog（Chatbot Arena 团队）论文研究

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2--一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%-35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1.77倍（mc=512）。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

查看原文Blog Optimizing Ling-2.6-1T on TPU with SGLang-JAX： Hiding MoE Data Movement Behind Compute with One Pallas Kernel SGLang-JAX now supports efficient serving of inclusionAI's Ling-2.6-1T on TPU v7x. With a working baseline in place， profiling pointed to the Mixture-of-Experts （MoE） path as the main bottleneck： each… Prayer， JamesBrianD， Haolin Fu， Haoguang Cai， Qinghan Chen

5 天前

X：Elvis Saravia (@omarsar0, DAIR.AI)论文研究

OpenClaw-Skill：搜索技能树构建智能体可复用技能库

OpenClaw-Skill是一种为LLM智能体构建可复用技能库的方法。传统技能归纳通常将单条轨迹一次蒸馏成扁平的单次启发式规则，而OpenClaw-Skill通过搜索候选技能树来替代贪婪蒸馏，在迭代阶段中利用集体信号联合生成、识别和组合技能节点，最终输出结构化的技能树，旨在提升技能的多样性和泛化能力。论文详见arxiv。

查看原文// OpenClaw-Skill： Searching a Tree of Agent Skills // If you build reusable skill libraries for yo…

5 天前

X：Rohan Paul (@rohanpaul_ai)论文研究

Claude Code的设计空间：简单AI循环与复杂外围系统

论文分析Claude Code，其有效工作核心并非复杂AI大脑，而是简单AI循环--调用模型、执行已批准工具、回传结果、重复--被精心构建的外围系统（工具、安全、记忆、权限、恢复）包裹。作者研究公开TypeScript源码，主agent循环代码量极小，大量代码来自harness（常规软件），负责定义工具、权限、记忆及故障处理。上下文管理是主要设计挑战，采用多层压缩或总结旧信息避免模型空间耗尽。论文强调能运行shell命令和编辑文件的编码智能体不能等同于带插件的聊天机器人，每个动作都有副作用，需要明确边界约束。

查看原文The paper is saying that Claude Code works well not because it has a complex AI brain， but because a…

6 天前

X：Artificial Analysis (@ArtificialAnlys)论文研究

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ3-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

查看原文Announcing Artificial Analysis Intelligence Index v4.1： a shift toward agentic workloads， featuring …

6 天前