

























Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
来源: X:Testing Catalog (@testingcatalog)
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…
来源: Qwen:Blog Retrieval(API)
Qwen-RobotWorld 以语言为统一动作接口,采用双流 Multimodal Diffusion Transformer(MMDiT)架构,将 Qwen2.5-VL 作为动作编码器。在 4 个基准测试中取得顶尖成绩,统一 20 余种机器人形态,基于 860 万跨场景训练对和 1300 多项操作技能。语言接口标准化 500 多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持 Scene2Robot 人类到机器人转移及 2–4 路多视角几何一致视频生成。
来源: Qwen:Blog Retrieval(API)
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
来源: IT 之家(RSS)
Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 …
来源: Qwen:Blog Retrieval(API)
教育部“阳光志愿”信息服务系统今日全新升级上线,依托招生、学籍、就业等海量官方数据,免费为考生和家长提供志愿填报服务。系统支持 31 个省区市本专科普通批次志愿筛选,输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI 助手“智慧小招”24 小时在线解答政策规则。平台数据由高校直接报送、官方核验,真实可靠。同时推出专业倾向测评和 21 项生涯测评工具,帮助学生认清特长、规划未来。
来源: IT 之家(RSS)
Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制…
来源: MarkTechPost(RSS)
Copilot Cowork 现已全球正式可用,并支持多模型! 每个组织都可以让长期运行的智能体处理复杂的多步骤任务,基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15
来源: X:Satya Nadella (@satyanadella)
支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。
来源: IT 之家(RSS)
小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从 1 小时升级至 4 小时,面向高频用户推出 TokenPla…
来源: 公众号:小米 MiMo
OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。
来源: OpenRouter:Announcements(RSS)
Midjourney V8.1 的 Draft mode 草稿模式每次生成 24 张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。
来源: Midjourney:Updates(RSS)
xAI 于 6 月 16 日发布 Grok for PowerPoint,作为免费 Microsoft 365 插件上线。用户无需离开应用即可利用 Grok 将大纲转为完整幻灯片,进行内容研究、撰写、排版,并支持添加单张幻灯片、调整样式主题、重构章节。插件还能调用 Grok 连接器,从邮件或 SharePoint 中获取信息。该插件同样适用于 Word 和 Excel。
来源: xAI:News(网页)
美国司法部在一份驳回诉讼的动议中称,xAI 的聊天机器人 Grok 对军事行动至关重要,以此为其在密西西比州 Southaven 的 Colossus 2 设施运行未经许可的燃气轮机辩护。NAACP 已提起诉讼,指控 xAI 的燃气轮机数量从 4 月的 27 台增至 57 台,导致氮氧化物排放飙升 111%。国防部首席数字与人工智能官 Cameron Stanley 表示,Grok 是支持机密和绝密网络军事任务的四款 AI 模型之一,包括近期针对伊朗的打击。
来源: The Decoder:AI News(RSS)
五角大楼宣布已将超 2/3 日常 AI 工作流从 Anthropic 转移,目标 9 月前清零。起因是年初五角大楼要求 Anthropic 签署协议允许 Claude 用于大规模监控和全自动武器,CEO Dario Amodei 以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI 调整立场获得订单。Polymarket 预测 6 月底前和解概率仅 9%。此事件凸显 AI 公司需在原则与政府合作间抉择。
来源: X:阿易 AI Notes (@AYi_AInotes)
微软旗下 GitHub 面临 AI 算力短缺,微软因此转向亚马逊 AWS 寻求计算资源支持。原文来自 Hacker News 热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
来源: Hacker News 热门(buzzing.cc 中文翻译)
微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜的模型选项。Copilot Cowork 将放弃无限定价,转向按使用量计费,原因是成本过高(用户每周执行数百项任务导致费用激增)。若采用 DeepSeek,该模型将是可选的、经过微调与安全防护,并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型,最终决定待定。
来源: X:Kim (@kimmonismus)
美国政府对 Anthropic 的模型 Fable 实施封禁,但 TechCrunch 发文质疑,实际原因可能并非此前认为的“模型越狱”问题。该文章在 Hacker News 引发讨论,获得 103 个点赞。
来源: Hacker News 热门(buzzing.cc 中文翻译)
SpaceX 在历史性 IPO 数天后,同意以 600 亿美元股票收购 AI 编程初创公司 Cursor,旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资,估值 500 亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示,其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。
来源: TechCrunch:AI(RSS)
Anthropic 5 月企业 AI 订阅市场份额达 41%,首次超越 OpenAI(39.5%)。公司刚完成 650 亿美元融资、估值 9650 亿美元,并因首次盈利季度秘密提交 IPO。特朗普政府以出口管制为由要求 Anthropic 禁止非美国人访问最新模型 Mythos 5 及 Fable 5,导致两款模型下架。Ramp 首席经济学家指出,类似争议(如 3 月被国防部列为供应链风险)反而推动 Anthropic 企业采用量创纪录。Ramp 数据显示,企业支出主要流向 Claude Opus 模型(最新为 Opus 4.8)。
来源: TechCrunch:AI(RSS)
中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。
来源: The Decoder:AI News(RSS)
Anthropic 基于约 40 万次 Claude Code 交互会话(2025 年 10 月至 2026 年 4 月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约 25%。
来源: Anthropic:Research(发表成果 · 网页)
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
来源: OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 利用 WildChat 公开数据集(2023 年 4 月至 2024 年 5 月收集的 100 万条对话)模拟模型部署,预测 GPT-5.1、GPT-5.2、GPT-5.4 在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat 模拟的平均预测误差约 3 倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
来源: OpenAI:Alignment 研究博客(RSS)
6 月 16 日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得 110 个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
来源: Hacker News 热门(buzzing.cc 中文翻译)
当前毕业生面临论文 AIGC 率检测荒诞困境。学生手写摘要被判定 99%AI 率,纯 AI 写部分却为 0%。学校要求 AIGC 率不超 40%,学生用 Claude 反复修改并花上百元检测费(维普 20 元/篇,知网/万方 2 元/千字符),最终降至 36.1%。答辩时老师要求改回学术表达,AI 率回升至 37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用 AI 使用声明表替代一刀切检测。
来源: 公众号:数字生命卡兹克
从 3 月至今,WorkBuddy 日活用户数已达行业第二名的 3-4 倍,用户不再限于开发者,大量 HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了 Agent 办公场景。同期,Trae Work、QoderWork、Kimi Work 等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。
来源: 公众号:数字生命卡兹克
评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。
来源: Gary Marcus:The Road to AI We Can Trust(RSS)
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemot…
来源: Nathan Lambert:Interconnects(RSS)
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。