AI 模型

查看 AIHOT 全量动态流,适合需要更完整视图时使用。

5 天前
MarkTechPost(RSS)AI 模型
Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。
查看原文Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation
5 天前
X:Testing Catalog (@testingcatalog)AI 模型
Mistral 预告将在今年夏季推出一个新的"fat"模型系列,模型为 open-weight,7 月面向研究、政府和行业关键合作伙伴开放早期访问。官方称该系列"fat indeed, but sparse"(大但稀疏),并强调开放权重对客户信任和开发者社区至关重要。后续模型也将保持开源。此外,推文还提及了"Le Chaton Fat"的代号。
查看原文MISTRAL 🔥: A new "fat" model family has been teased to arrive this summer! The model will be open…
5 天前
X:Testing Catalog (@testingcatalog)AI 模型
OPENAI 🔥: ChatGPT 即将迎来语音模式升级,新模型 "gpt-bidi-1" 已被发现,同时还有公告更新。 敬请期待 👀 鸣谢 @M1Astra 来自 DevMode
查看原文OPENAI 🔥: ChatGPT is about to get a voice mode upgrade as a new "gpt-bidi-1" model has been spotted…
5 天前
智谱:研究(网页内嵌数据)AI 模型
GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
查看原文GLM-5.2上线并开源:专注Coding与长程任务
5 天前
X:阶跃星辰 StepFun (@StepFun_ai)AI 模型
阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计,具备原生多模态理解、强智能体编码能力、可靠工具使用,以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力,主要面向编码与智能体应用场景。
查看原文Excited to see Step 3.7 Flash live via @novita_labs on @OpenRouter. Built for high-efficiency agent…
5 天前
X:硅基流动 SiliconFlow (@SiliconFlowAI)AI 模型
硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。
查看原文Better Coding with Less Overthinking K2.7 Code takes K2.6's strong base and goes deep Meet @Moonshot…
5 天前
X:蚂蚁百灵 (@AntLingAGI)AI 模型
Ling & Ring 2.6 技术报告发布,带来两款开放权重基座模型。 我们通过架构、训练和智能体能力的协同设计,共同优化模型与系统: • 7:1 混合线性注意力 • 用于稳定智能体强化学习的 KPop:SWE-bench Verified 76.28% • 约 4 倍 token 效率
查看原文Ling & Ring 2.6 technical report is out, with two open-weight base models. We co-design model +…
5 天前
X:阿里云 / Alibaba Cloud (@alibaba_cloud)AI 模型
阿里云推出 Qwen-Robot 套件,包含三个基础模型:Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务,提供可控观测协议和智能体工具接口;Qwen-RobotManip 统一异构机器人状态-动作空间,基于 38,100+ 小时开源语料预训练;Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态,通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用,也可组合为通用智能体系统的底层物理世界工具。
查看原文📣 Introducing the Qwen-Robot Suite - Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundat…
5 天前
X:通义千问 / Qwen (@Alibaba_Qwen)AI 模型
通义千问推出Qwen-Robot Suite,包含三个基础模型:Qwen-RobotNav统一5种导航任务(指令跟随、点目标、物体目标、目标追踪、自动驾驶),具备可控观测协议和智能体工具接口;Qwen-RobotManip实现异构机器人统一状态-动作空间,基于38,100+小时开源语料预训练;Qwen-RobotWorld是单一世界模型,支持20+具身形态,通过自然语言动作接口预测物理世界未来(涵盖操作、驾驶、导航)。三个模型可独立使用或组合,构成通用智能体的底层工具包。
查看原文📣 Introducing the Qwen-Robot Suite - Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundat…
5 天前
X:Testing Catalog (@testingcatalog)AI 模型
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
查看原文Cartesia shipped Sonic 3.5 and Ink 2, two models built to run as a single real-time voice stack, wit…
5 天前
公众号:通义实验室(千问)AI 模型
通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。
6 天前
公众号:蚂蚁百灵(Ling)AI 模型
蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。
查看原文百灵 Ling & Ring 2.6 技术报告发布:面向真实 Agent 工作流的高效万亿级模型
6 天前
X:小互 (@xiaohu)AI 模型
字节跳动推出Seedance 2.0精简版Mini,价格比原版便宜约30%,速度是Fast版2倍,画质接近。API定价约$0.073/秒,30秒广告视频成本约$2.19。支持文生/图生视频,可通过CapCut App、Dreamina使用。限时优惠:Pro用户生成720P视频积分减33%,CapCut App购买Pro套餐最高4折,叠加后比原版最多便宜55%。
查看原文字节跳动 推出了 Seedance 2.0 的精简版:Seedance 2.0 Mini 相比原版 Seedance 2.0,Mini 版是: 价格便宜约 30% 速度是 Seedance 2.0…
6 天前
Qwen:Blog Retrieval(API)AI 模型
Qwen 发布三款基础模型--Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务,在 VLN-CE RxR 上达 76.5% SR,HM3Dv2 物体目标导航(仅 RGB)75.6% SR,EVT-Bench 追踪率 90.0%,NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体,预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。
查看原文Qwen-Robot Suite: A Foundation Model Suite for Physical World Intelligence
6 天前
IT之家(RSS)AI 模型
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
6 天前
xAI:News(网页)AI 模型
xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 `grok-imagine-video-1.5`,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。
查看原文Grok Imagine Video 1.5 Jun 16, 2026 # Grok Imagine Video 1.5 Improved quality at even faster speeds. Read More
6 天前
Qwen:Blog Retrieval(API)AI 模型
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。
查看原文Qwen-RobotManip: Alignment Unlocks Scale for Robotic Manipulation Foundation Models
6 天前
Qwen:Blog Retrieval(API)AI 模型
Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2-4路多视角几何一致视频生成。
查看原文Qwen-RobotWorld: Boundless Worlds for Embodied Agents
6 天前
Qwen:Blog Retrieval(API)AI 模型
Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。
查看原文Qwen-RobotNav: A Scalable Navigation Model Designed for an Agentic Navigation System
6 天前
X:Rohan Paul (@rohanpaul_ai)AI 模型
Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版,均仅 4B 参数。在 MiniF2F 测试中,4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B;32B 版本达 89.8% Pass@32 和 92.6% Pass@2024,创当前最佳成绩。核心在于数据效率:构造约 80 万 Lean 验证示例,按易到难训练,并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。
查看原文Pythagoras-Prover just made Lean theorem proving look far less dependent on giant models, with a 4B …