AI 模型

查看 AIHOT 全量动态流，适合需要更完整视图时使用。

5 天前

MarkTechPost（RSS）AI 模型

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

查看原文Meet Qwen-RobotSuite： Three Embodied AI Models for VLA Manipulation， Video World Modeling， and Navigation

5 天前

X：Testing Catalog (@testingcatalog)AI 模型

Mistral预告今夏推出新"fat"开源模型系列

Mistral 预告将在今年夏季推出一个新的"fat"模型系列，模型为 open-weight，7 月面向研究、政府和行业关键合作伙伴开放早期访问。官方称该系列"fat indeed， but sparse"（大但稀疏），并强调开放权重对客户信任和开发者社区至关重要。后续模型也将保持开源。此外，推文还提及了"Le Chaton Fat"的代号。

查看原文MISTRAL 🔥： A new "fat" model family has been teased to arrive this summer！ The model will be open…

5 天前

X：Testing Catalog (@testingcatalog)AI 模型

OpenAI 语音升级：GPT-Bidi-1 模型曝光

OPENAI 🔥： ChatGPT 即将迎来语音模式升级，新模型 "gpt-bidi-1" 已被发现，同时还有公告更新。敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

查看原文OPENAI 🔥： ChatGPT is about to get a voice mode upgrade as a new "gpt-bidi-1" model has been spotted…

5 天前

智谱：研究（网页内嵌数据）AI 模型

GLM-5.2 上线并开源：专注 Coding 与长程任务

GLM-5.2 已发布并开源，采用 MIT 协议，支持 1M 上下文窗口。Coding 方面能承载项目级上下文，长程任务执行更稳定，遵循生产级工程规范，并支持客户端与移动端真机调试闭环。通过极致 Infra 优化，发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

查看原文GLM-5.2上线并开源：专注Coding与长程任务

5 天前

X：阶跃星辰 StepFun (@StepFun_ai)AI 模型

阶跃星辰 Step 3.7 Flash 登陆 Novita 与 OpenRouter

阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计，具备原生多模态理解、强智能体编码能力、可靠工具使用，以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力，主要面向编码与智能体应用场景。

查看原文Excited to see Step 3.7 Flash live via @novita_labs on @OpenRouter. Built for high-efficiency agent…

5 天前

X：硅基流动 SiliconFlow (@SiliconFlowAI)AI 模型

Kimi K2.7 Code发布：专注编码的智能体模型，接近GPT5.5

硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进，专注编码与智能体任务。32B激活/1T总参，VLM多模态，支持交错思考与多步工具调用。相比K2.6，推理token使用减少30%，减少过度思考；长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格：缓存输入0.19/输入0.94/输出4.00每百万token。

查看原文Better Coding with Less Overthinking K2.7 Code takes K2.6's strong base and goes deep Meet @Moonshot…

5 天前

X：蚂蚁百灵 (@AntLingAGI)AI 模型

Ling & Ring 2.6 技术报告发布

Ling & Ring 2.6 技术报告发布，带来两款开放权重基座模型。我们通过架构、训练和智能体能力的协同设计，共同优化模型与系统： • 7：1 混合线性注意力 • 用于稳定智能体强化学习的 KPop：SWE-bench Verified 76.28% • 约 4 倍 token 效率

查看原文Ling &amp； Ring 2.6 technical report is out， with two open-weight base models. We co-design model +…

5 天前

X：阿里云 / Alibaba Cloud (@alibaba_cloud)AI 模型

阿里云发布 Qwen-Robot 套件：Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型

阿里云推出 Qwen-Robot 套件，包含三个基础模型：Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务，提供可控观测协议和智能体工具接口；Qwen-RobotManip 统一异构机器人状态-动作空间，基于 38，100+ 小时开源语料预训练；Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态，通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用，也可组合为通用智能体系统的底层物理世界工具。

查看原文📣 Introducing the Qwen-Robot Suite - Qwen-RobotNav， Qwen-RobotManip， Qwen-RobotWorld， three foundat…

5 天前

X：通义千问 / Qwen (@Alibaba_Qwen)AI 模型

通义千问发布Qwen-Robot Suite，含三个具身智能基础模型

通义千问推出Qwen-Robot Suite，包含三个基础模型：Qwen-RobotNav统一5种导航任务（指令跟随、点目标、物体目标、目标追踪、自动驾驶），具备可控观测协议和智能体工具接口；Qwen-RobotManip实现异构机器人统一状态-动作空间，基于38，100+小时开源语料预训练；Qwen-RobotWorld是单一世界模型，支持20+具身形态，通过自然语言动作接口预测物理世界未来（涵盖操作、驾驶、导航）。三个模型可独立使用或组合，构成通用智能体的底层工具包。

查看原文📣 Introducing the Qwen-Robot Suite - Qwen-RobotNav， Qwen-RobotManip， Qwen-RobotWorld， three foundat…

5 天前

X：Testing Catalog (@testingcatalog)AI 模型

Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首，首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

查看原文Cartesia shipped Sonic 3.5 and Ink 2， two models built to run as a single real-time voice stack， wit…

5 天前

公众号：通义实验室（千问）AI 模型

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38，100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

查看原文

6 天前

公众号：蚂蚁百灵（Ling）AI 模型

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7：1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

查看原文百灵 Ling & Ring 2.6 技术报告发布：面向真实 Agent 工作流的高效万亿级模型

6 天前

X：小互 (@xiaohu)AI 模型

字节跳动推出Seedance 2.0 Mini

字节跳动推出Seedance 2.0精简版Mini，价格比原版便宜约30%，速度是Fast版2倍，画质接近。API定价约$0.073/秒，30秒广告视频成本约$2.19。支持文生/图生视频，可通过CapCut App、Dreamina使用。限时优惠：Pro用户生成720P视频积分减33%，CapCut App购买Pro套餐最高4折，叠加后比原版最多便宜55%。

查看原文字节跳动推出了 Seedance 2.0 的精简版：Seedance 2.0 Mini 相比原版 Seedance 2.0，Mini 版是：价格便宜约 30% 速度是 Seedance 2.0…

6 天前

Qwen：Blog Retrieval（API）AI 模型

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型--Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38，100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

查看原文Qwen-Robot Suite： A Foundation Model Suite for Physical World Intelligence

6 天前

IT之家（RSS）AI 模型

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

查看原文

6 天前

xAI：News（网页）AI 模型

xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用，在 Imagine API 上提供 `grok-imagine-video-1.5`，并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代，模型在音频与语音（更清晰、嘴型同步更好）、运动与物理（更连贯、重量感更真实）、生成速度（6 秒 720p 视频约 25 秒，此前超 40 秒）上全面提升。同时逐步推出 Projects、Multiple agents（并行运行多个生成任务）、Search 等新功能，以优化创作流程。

查看原文Grok Imagine Video 1.5 Jun 16， 2026 # Grok Imagine Video 1.5 Improved quality at even faster speeds. Read More

6 天前

Qwen：Blog Retrieval（API）AI 模型

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38，100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1，933 小时第一人称视频转 24，808 小时数据）及上下文策略适配。

查看原文Qwen-RobotManip： Alignment Unlocks Scale for Robotic Manipulation Foundation Models

6 天前

Qwen：Blog Retrieval（API）AI 模型

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2-4路多视角几何一致视频生成。

查看原文Qwen-RobotWorld： Boundless Worlds for Embodied Agents

6 天前

Qwen：Blog Retrieval（API）AI 模型

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

查看原文Qwen-RobotNav： A Scalable Navigation Model Designed for an Agentic Navigation System

6 天前

X：Rohan Paul (@rohanpaul_ai)AI 模型

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

查看原文Pythagoras-Prover just made Lean theorem proving look far less dependent on giant models， with a 4B …

加载更多