张小珺Jùn｜商业访谈录

张小珺

Business Society & Culture

Latest episode

Available Episodes

5 of 124

121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google
今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷，他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。中美在机器人领域一直存在两种叙事：市场普遍认为，中国在硬件上发展更快，美国在机器人大脑设计上更领先。本期节目中，谭捷将带我们一窥硅谷视角，尤其是Google DeepMind视角下的机器人前沿叙事。前不久，他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”（Gemini Robotics 1.5将AI Agents带入物理世界），我们也聊了聊他们的最新发现。由于嘉宾工作环境的原因，会出现一定程度的中英夹杂，还大家多多包容和支持。02:00 机器人是在真实世界里做图形学，图形学是在simulation里做机器人嘉宾小传：小时候喜欢打游戏，读博士读的计算机图形学从图形学转型机器人的变轨我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》（从仿真到现实：学习四足机器人敏捷运动），开创了强化学习和seem to real在足式机器人上的应用Paradigm Shift，过去十年第一个是强化学习，第二个是大语言模型大语言模型对机器人的影响（大语言模型类似大脑，强化学习类似小脑）13:06 机器人基座大模型到底是不是一个非常独立的学科？So far, not yet今天的机器人发展到什么阶段了？从demo到真正落地，隔十年并不是一个非常夸张的事从我的角度来说，我不得不承认，最近几年的机器人智能发展主要还是依赖于多模态大模型但多模态模型缺什么呢？缺少robot action的输出当你真正有一个generalist model（通用模型）的时候，specialized model（专有模型）就完全不能与之竞争23:44 Robotics最大问题是数据，它在一个非常复杂的unstructured environment里，可以发生任何事情最大的问题还是数据问题但是robotics是在一个非常复杂的unstructured environment（非结构化环境）里，可以发生任何事情它需要极大量的、非常diverse（多元）的数据，但这些数据现在是不存在的现在有很多startup叫data factory（数据工厂）所谓“数据金字塔”包括哪些？27:52 Gemini Robotics 1.5：我们有一个方法叫motion transfer，这是独门秘诀Gemini Robotics 1.5最重要的发现是什么？第一个是我们把“thinking”加入了VLA模型第二个非常重要的突破是cross-embodiment transfer（跨具身迁移）Gemini Robotics 1.5的工作中，我们做了一个快慢模型的划分它应该是个过渡的方式，因为现在受制于算力的限制、模型大小的限制当你要一个unify model（统一模型）的时候，它必须非常大Motion Transfer？It’s very secret47:32 生成极大量仿真数据，是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据遥操作是非常难以获取的数据我们会花更多的精力，比如利用simulation数据，利用human video（人类视频），利用YouTube上的一些数据，甚至利用模型生成的数据，比如VEO生成的一些数据真实数据没有sim-to-real gap（仿真到现实差距），但是泛化性是由数据的coverage（覆盖）导致的，并不是因为它本身是真实数据还是虚拟数据在不远的将来，传统物理模拟仿真会慢慢地被生成式模型的仿真所取代我信仰的是scalable data01:03:48 世界模型就是Vision-Language-Vision，vision和language in，生成下一帧的图像世界模型的定义是：如果给上前一帧，再给上机器人的动作，你可以预测下一帧从另外一个角度，VEO它是一个视频生成模型，但是Genie它更像一个世界模型当你在每一帧的时候，可以有一个输入来改变你的下一帧，那个感觉就是世界模型；但是如果它是一个已经生成好的、几秒钟的静态视频，那就不是世界模型其实就是Vision-Language-Vision，vision和language in，它可以生成下一帧的图像01:08:29 如果你有灵巧手，触觉就非常重要，之所以我前面觉得触觉不重要，是受限于当时的硬件如果你有灵巧手，触觉就非常重要之所以我前面觉得触觉不重要，是因为它其实受限于当时的硬件现在还在夹爪时代在所有夹爪能完成的任务里，我还是觉得视觉可能可以解决95%的问题在未来，人形机器人不会成为唯一的形态，但一定是个主流的形态如果你的目标是solve AGI in the physical world（在物理世界实现AGI），那么我会非常聚焦于最终的形态是什么样子，其他的东西可能都是distraction（干扰）01:17:35 一个有使命感的人，他不会容忍说“I’m on a wrong ship”这几年Google AI或者robotics的研究文化上有没有发生过变化？不管是从promotion、performance review、incentive，还是各种各样的structure上，Google想创造一个环境，使得更多的人可以一起解决更大的事情像Gemini Robotics，它更多是自上而下我发觉好像国内不一定比我卷，我一周可能工作70到80个小时真的，这个时代真的是等不起，不然别人都做出来了AI有很多是数学，华人数学比较好《106. 和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象》《109. 机器人遭遇数据荒？与谢晨聊：仿真与合成数据、Meta天价收购和Alexandr Wang》【更多信息】本集的文字版本已发布，请搜索我们工作室的官方公众号：语言即世界language is world
--------
2:06:15
--------
2:06:15
120. 小鹏新上任的刘先明首次访谈：Language是毒药、拆掉L、简单即美、换帅、小鹏的AI转型
今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。就在2025年10月9日，小鹏汽车突然宣布，原自动驾驶中心负责人李力耘将卸任，由世界基座模型负责人刘先明接任。这意味着，刘先明成为小鹏在自动驾驶上，既谷俊丽、吴新宙（现英伟达自动驾驶中国团队负责人）、李力耘之后的第四任负责人。外界对他有诸多的好奇。这是刘先明上任后首次接受专访。我们访谈的时间是2025年10月30日。这集节目，我们聊了聊他上任后拆掉大模型Language等关键技术决策，以及一家车企的AI战略转型。02:16 人物小记曾在Meta、Cruise，从事机器学习与计算机视觉研究恰好Cruise当时是第二名，加入第二名再逆袭的故事永远是令人兴奋的加入小鹏汽车始末：2024年1月在美国办公室与何小鹏见面1小时所亲历过的自动驾驶的技术stage19:00 大模型拆Language我们的做法简单直接，把VLA的Language拆掉就完了模型是机器，燃料是数据，一旦掺入Language会让效率变得极低我们干脆把Language全都拆掉好了：输入V-L联合语料，直接输出Action“拆L”的过程、“简单就是美”关键的数据问题33:53 小鹏汽车向物理AI战略的转型为什么一家汽车公司的自动驾驶战略需要向AI战略转型？转型的开端可能是去年小鹏汽车10周年自动驾驶企业关心的是KPI、接管率，AI企业关注底层的技术指标，甚至risky的长期指标刘先明的短期和长期KPIAI对于小鹏汽车意味着什么？“是乘法因子”除了今年拆Language，之前还拆了激光雷达、规控规则、端到端人工智能发展为什么一直在经历着拆拆拆的过程？世界模型明年对L4的规划54:30 换帅的背后过去1年做过“头铁”的事情看起来我性格很好，我也拍过桌子、发过火“拆L”过程中遇到很大阻力，因为这很反paper里的常识DeepSeek-OCR的反共识现在关注的AI前沿方向回应地平线创始人余凯的观点（“自动驾驶应该交给供应商”）为什么国内自动驾驶还没有代际差？AI是车企下一阶段的重要赛点，做不好会被淘汰何小鹏对于AI的关注时间、方式和最近的3次话题制造企业和AI企业的基因问题接下来，对于我的挑战小鹏智驾一号位，每个人的历史使命《70. 和何小鹏聊，FSD、“在血海游泳”、乱世中的英雄与狗熊》
--------
1:48:45
--------
1:48:45
119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案
今天这集节目，我们将讨论一个在当下非常关键的话题：人工智能的算法与架构创新。嘉宾是我们的往期嘉宾返场，她是MIT在读博士杨松琳，研究方向是线性注意力机制。我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作，是Kimi Linear论文的作者之一。算法创新为什么在2025年变得尤为重要？它的背后原因是，数据、算力和算法是驱动人工智能的三驾火车，在数据撞墙的无奈前提下，各个模型公司不得不重新开始“雕模型架构”，以期Scaling Law的魔法继续。而由于中国的算力相对美国有限，这反而让中国的AI算法创新走在了世界前沿。这集节目你将听到，近几年架构最大突破是DeepSeek的MoE（混合专家模型），它让MoE成为了全球共识；而下一个突破的重要方向可能就是Attention（注意力机制）。中国公司在Attention展开了不同技术bet（押注）：截至目前已发布模型，DeepSeek正在探索Sparse Attention（稀疏注意力机制）；Kimi正在探索Linear Attention（线性注意力机制）；Minimax在年初的M1版本中探索Linear Attention，而在刚发布的M2版本中又回退到 Full Attention（全局注意力机制）。节目中，松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作，并分析以上这些公司在Attention上的不同抉择；与此同时，她也将带领大家考古人工智能算法变种史，并预演未来算法与架构的改进方案。本集比较硬核，会有一些专业难度，大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂，希望大家多多理解和支持。04:00 个人、研究主线与线性注意力机制的探索之路06:27 松琳做过一个开源库：flash-linear-attention（简称FLA）07:04 怎么通俗理解Linear Attention的Linear？11:19 聊聊最近参与的新工作，前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》（Kimi Linear：一种具有强表达能力与高效率的注意力架构）（FLA库的另一个作者Zhang, Yu邀请）12:20 为什么Kimi在年初开始需要重新设计注意力机制？设计的背景和目标在Linear Attention下，推理阶段的计算与显存成本都显著降低；而使用Full Attention时，长文本解码的代价会非常高昂14:39 《Kimi Linear》论文重点讲解：KDA模块（Kimi Delta Attention，增量注意力机制）18:56 Kimi内部有一个Scaling Ladder（规模阶梯），在一个规模下面表现好就在下一个规模下面去scale，就像通关20:20 Kimi Linear Attention vs DeepSeek Sparse Attention：Kimi走线性注意力路线，DeepSeek走稀疏注意力路线，都想解决长文本decoding（长上下文生成）的效率问题23:01 Minimax从M1到M2的架构变化，从Linear Attention退回到Full Attention，为什么？27:00 硅谷的注意力机制方案不方便说，但可以浅聊一下OpenAI有paper的方案28:05 Linear Attention从2020年发明出来开始后的前进线索每一次大家关心Linear Attention都是因为大家撞到了Context Wall最近长文本的decoding卷土重来，让人们不由自主审视这一套技术38:16 纯Linear Attention是无效的，混合注意力机制还是有很多全局注意力层，这样下限有保证40:30 Kimi Linear每3层KDA插入1层全注意力层，三比一的比例快变成共识了Minimax之前用的是七比一，但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了42:32 权衡（Trade-off）表达能力（expressivity）与计算效率（efficiency）Minimax曾经也提到，混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷对于“多跳推理”，如果我们开发一些硬件高效但表达能力更好的RNN（循环神经网络），这个GAP有可能缩小46:28 chunkwise algorithm for parallelization（分块并行算法）47:55 如何设计Attention？两条主流和一些非主流路线49:36 结合Linear Attention和Sparse Attention的未来理想方案Linear Attention和Sparse Attention没什么竞争关系，Linear Attention的竞争对手可能是Sliding-Window Attention（滑窗注意力）工业界Linear Attention和Sparse Attention结合的探索似乎还没开始我想象中的理想方案是：把混合注意力的全局注意力（Full Attention）换成稀疏注意力（Sparse Attention）只要Sparse Attention选得准，完全可以取代Full Attention，但现在的问题是它选不准55:36 公平的比较：Linear Attention vs Sliding-Window Attention（滑窗注意力）57:05 Transformer → MoE → Linear/Sparse Attention的算法演变，背后动因是给定你相同的FLOPs（浮点运算量），利用这些FLOPs，取得更低的损失函数MoE（混合专家）是更高效的FNN（前馈神经网络）的替代品58:26 近几年架构方面突破最大的是MoE，下一个突破可能是Attention；Transformer就两个模块，一个是FFN，一个是Attention；现在FFN已经雕成MoE，现在Attention大家也可以雕一下01:01:28 数据、算法、算力是驱动人工智能的三驾马车，当数据遇到数据强，算法创新变得更重要01:02:48 架构的未来：1、能不能干掉全局注意力？它是阻止context window继续scale up的主要瓶颈2、Continue Learning，让AI自己学习01:04:30 如何把Linear Attention的Transformer继续scale up?01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡（不过美国公司更多投入优化器一点，国内在逐步重视01:10:56 其他训练细节：NoPE vs. RoPE01:12:09 DeepSeek-OCR01:12:55 松琳也参与了Qwen3-Next，没有参与Minimax M201:13:39 “雕”架构的人01:15:16 自己的心路：“当你很清楚你要做什么的时候，你是不会遇到什么挫折的”经验分享：PhD还挺顺利的，得益于我入学之前的半年考古01:23:12 说到考古，我们在最后聊聊从Transformer开始的算法变种历史01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配01:42:23 给更年轻的年轻人的建议嘉宾往期节目：《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》谈到的论文：《Kimi Linear: An Expressive, Efficient Attention Architecture》《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》
--------
1:43:25
--------
1:43:25
118. 对李想的第二次3小时访谈：CEO大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧
2025年4月，我与理想创始人兼CEO李想录制AI Talk第二季。那次对谈持续了很长时间，播出版仅1小时，今天你看到的是完整版。这一集节目的发布比预期晚了些。过去几个月实在太忙了，我一度犹豫要不要继续放出。但当我重新整理这些内容时，仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。你可以结合2024年底我们那场3小时谈话一起观看，感受两次对话之间，思考的延展与呼应。这次，我把李想当作一个“CEO大模型”来提问。假设他是一种MoE（Mixture of Experts，专家混合）架构的模型，我在对话的前三个回合调用了他的三位“专家”：技术专家、战略专家、组织专家。而当谈话深入到后半程，我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。“AI与人的关系”，是本次对话的母题。（录制于2025年4月）02:35 第一章：假若你是一个CEO大模型人类做熵减，AI做熵增工具的三个分级：“信息工具”、“辅助工具”、“生产工具”“生产工具”重要的衡量是：你愿意为它付钱梁文锋极简运用了人类最佳实践按照最佳实践是反人性的，随心所欲才满足人性我只能做最好的自己，我一直在自己的长板延长线上理想为什么还做基座大模型？当时我们比较担心陈伟团队（基座模型自研团队）怎么想？这个压力挺大的36:18 第二章：调用MoE之技术专家李想手把手教你训VLA达到VLA不是突变的过程，是进化的过程，经历了三个阶段我给你讲一下VLA是怎么训的，以及VLA自己怎么去工作的我不会做超长CoT，我的CoT链条一般两步到三步至少5年内不会有通用Agent，但会有一个Agent OS要顺着人性去说，逆着人性去做如果大家不想做前面包子的积累，只想吃第10个包子，很像练《葵花宝典》黑盒、世界模型和定价逻辑每1万公里的验证成本，我们做到从最开始18万降到4000块钱01:25:36 第三章：调用MoE之战略专家2025年雁栖湖战略会如果看战略，中间的圈是规模，圈外边有三个变量：用户需求、技术产品、组织能力具备这四个特点的，就是AGI时代的终端：360度对物理世界感知的能力、认知决策的能力、Action的能力、反思反馈能力到了AGI时代的终端，对于能力的要求变得不一样了如果看到2030年，我们希望能够成为全球领先的人工智能终端企业这是我们未来的3-6年要去解的题李想的理想会不会太过于理想？构建3-7人能量体高维组织兼容低维组织02:09:26 第四章：智慧是我们和万物的关系我的记忆程序创业不容易，但是没必要苦哈哈的大女儿我们家里实现了一个“三人支撑”，这让家里的能量大幅地提升人是用来发挥的，人不是用来改变的不要构建那么多亲密关系，亲密关系太多了就证明这个人不会经营关系把智慧当成一个重要的人类特质去发展对李想的第一次3小时访谈：《对李想的3小时访谈（播客版）：宅男、AI、家庭、游戏和天梯》本集节目同步上线文字版和视频版：文章：公众号（语言即世界language is world）视频：Bilibili（张小珺商业访谈录）
--------
2:46:22
--------
2:46:22
117. 开源一段论文探索之旅：模型范式、Infra和数据、语言、多模态的完整变迁史
今天的嘉宾是谢青池，他是美团光年之外的产品负责人。一个月前，青池找到我，说他用了一年多的时间一篇一篇地啃完了200多篇AI论文，从开始全然不得要领，到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。就这样，我们有了今天这集特别的节目。他从200多篇论文中精选了36篇经典，4小时讲解，带你穿越AI变迁史。他说，读论文是“给你打开一扇门”，让你能直接“与这个世界最聪明的头脑对话”。2025年，期待我们和AI共同进步！01:30 探索的缘起07:25 怎么读论文？（用AI学AI）10:20 辅助小工具和路书论文讲解的主干：19:35 Part 1：模型的范式变迁故事要从1999年的第一颗GPU开始讲起Brook: 用GPU进行计算（2004.08）AlexNet: 深度学习的开端（2012.10）对序列建模：seq2seq和Attention的引入（2014.09）蒸馏：模型能被学习吗？（2015.03）ResNet: 比深更深（2015.12）Transformer来了！拉开一个时代的序幕（2017.06）AlphaGo Zero: 强化学习的突破（2017.10）现代MoE的开端（2017.01）CoT: Prompt Engineering的奠基之作（2022.01）LoRA: 那个我们每天都在用的东西（2021.06）ReAct: Agent从理论到落地（2022.10）The Bitter Lesson: 过去70年的教训（2018.08）01:52:58 Part 2：Infra与数据的变迁ZeRO: 大规模的GPU并行计算（2019.10）Scaling Law & Chinchilla: 上帝的指挥棒（2020.01 2022.03）LAION-5B: 开源社区的英雄主义（2022.10）The RefinedWeb: 互联网的数据也很够用（2023.06）MegaScale: 万卡GPU集群的训练（2024.02）02:21:29 Part 3：语言模型的发展Word2Vec: 用机器学习将单词向量化（2013.01）Google Translate: 神经网络的大规模线上部署（2016.09）GPT-1，它来了（2018.06）BERT: 曾经的王（2018.10）GPT-2: 是时候告别微调了（2019.02）GPT-3: ChatGPT来临前夜（2020.05）InstructGPT: 给LLM以文明（2022.03）Tulu 3: 后训练的开源（2024.11）03:08:08 Part 4：多模态模型的发展DeepVideo: 深度学习进入视频领域，Andrej 初出茅庐（2014.06）双流网络: Karén和学术重镇牛津登场（2014.06）图像生成的序章: GAN来了（2014.06）Diffusion: 在GAN的阴影下，悄然成长（2015.03）DDPM: Diffusion重回图像舞台的中央（2020.06）ViT: 当图像遇到Transformer（2020.10）CLIP: 文生图的奠基石（2021.03）Stable Diffusion，它来了（2021.12）DiT: 人们期待一个融合的未来（2022.12）03:56:38 最后的聊天架构抱住了硬件的大腿今天技术的边界到达了哪？给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议【技术之美】系列：逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等：“系统工程的力量”【更多信息】本集的投屏视频版已经同步发布于Bilibili（张小珺商业访谈录）：https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f279050页完整PPT开源地址（所有论文链接附在PPT上）：https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink
--------
4:22:37
--------
4:22:37