Hello World, who is OnBoard!? 两个爱码字的投资人关于软件、创业与投资的真诚对话。
关注主播:
Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
GN:前SaaS及科技投资人,Gl...
More
Available Episodes
5 of 39
EP 39. 对话硅谷顶尖风投机构a16z合伙人Jennifer: 拆解早期投资及开源独角兽dbt的成长
OnBoard! 又一期与硅谷一线投资人的访谈来了!这一次邀请到的是Monica 的好朋友,也是硅谷最顶尖的风险投资基金之一,Andreessen Horowitz, 也就是大家常说的 a16z 的投资合伙人 Jennifer Li!Hello World, who is OnBoard!?Jennifer 是一位来自产业界的投资人,原来在独角兽创业公司 AppDynamics 担任PM的她,转型投资人之后,在a16z 的6年里一直专注企业软件、大数据、开源等领域。关注这个方向的创业者和从业者,或许很多人都读过 Jennifer 在a16z 网站上撰写的多篇非常深度的分析文章,包括开源商业化,Modern Data Archiecture 等等。她投资的公司包括大数据领域耳熟能详的 dbt, Motherduck, AI领域最火的公司之一 Elevenlabs 等等。Jennifer 是硅谷一线基金中为数不多的华人投资合伙人,难得有机会跟 Jennifer 聊一聊她视角,深入剖析她投资 DBT 的过程,对大数据和infra领域的研究,对当下市场和未来机会的思考。这次两个多小时的访谈,Jennifer 的分享超级无私有诚意,绝对值得二刷。嘉宾长期在北美工作生活,夹杂英文在所难免,不接受抱怨!Enjoy!
嘉宾介绍
Jennifer Li (推特:@JenniferHli), 硅谷顶尖风险投资机构 Andreessen Horowitz (a16z) 投资合伙人,专注于 data infra, 开源,开发者工具,协作应用等。加入 a16z 之前,Jennifer 曾经是 AI 创业公司 Solvvy 和 被 Cisco $3.7Bn 收购的 AppDynamics 的产品经理。
Onboard!主持:
Monica(推特:@Monica_XieY):美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号:M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
01:45 Jennifer 进入风险投资的职业转型,为什么说a16z 是一家独特的风险投资机构
08:43 a16z 如何用庞大的运营机构为被投企业提供价值
11:41 Jennifer 复盘如何在A轮发现40亿美金的开源独角兽 dbt
19:17 dbt 是做什么的?dbt 崛起背后是怎样的大趋势?
21:44 在早期如何识别一个切入点很小的开源工具的商业价值?
27:59 dbt 如何实现产品线延伸?
33:24 dbt 的开源商业化路径是怎样的?开源工具如何实现商业成功?
42:27 a16z 如何思考 data infra 的投资逻辑,如何理解这个领域所经历的产业周期?
46:25 现在创立一家 data infra 公司还有机会吗?未来几年的看点在哪里?
52:50 投资 dbt 时候遇到什么挑战和质疑?
56:09 不同阶段的创业公司,尤其在早期,如何判断投资价值?投资人有哪些常问的问题?
62:16 投资人对于不同阶段的创始人,重点在观察什么?
66:42 近年剧烈变化的资本市场,对于早期 data infra 公司的估值有什么影响?早期投资人的估值判断依据有什么?
74:41 infra 公司的商业化路径应该如何规划?ARR 真的那么重要吗?
79:02 infra 领域最近有什么被高估和被低估的方向?
84:28 这一次的AI浪潮跟“上一波”有什么核心差异?Jennifer 关注的AI投资主题是什么?
93:03 AI 时代的应用价值是什么?AI 应用是否需要做自己的模型?
101:47 Jennifer 在AI领域主要关注哪些重要的趋势?
109:10 如何看待热潮中的AI公司早期增长可能存在的噪音?
114:49 我们还需要一个新的大语言模型公司吗?
117:25 早期公司如何找到共创客户(design partner)?什么是好的共创客户?
120:00 快问快答!
我们提到的内容
dbt: dbt™ is a SQL-first transformation workflow that lets teams quickly and collaboratively deploy analytics code following software engineering best practices like modularity, portability, CI/CD, and documentation. Now anyone on the data team can safely contribute to production-grade data pipelines.
Coalese: dbt 的年度大会
Fivetran: Fivetran is the trusted platform that extracts loads and transforms the world's data.
Snowflake
Motherduck
Retool
OpenAI
Anthropic
Jasper AI
Martin Casado
Ben Horowitz
Jennifer 推荐的书:The Mom Test: How to talk to customers & learn if your business is a good idea when everyone is lying to you, by Rob Fitzpatrick
Jennifer 推荐的书:Tomorrow, and Tomorrow, and Tomorrow: A novel, by Gabrielle Zevin
词汇注释
ELT (Extract, Load, Transform): 一种数据集成过程,其中原始数据被提取,加载到数据存储系统中,然后在存储中进行转换。
ETL (Extract, Transform, Load): 一种新的数据集成过程,其中原始数据被提取,转换为结构化格式,然后加载到数据存储系统中
Data transformation: : 数据转换是将数据从一种格式或结构转换为另一种的过程,通常是为了使其更适合分析或适应特定的数据库或应用程序
Data pipeline: 数据管道是一组将数据从一个系统移动并处理到另一个系统的过程,通常涉及ETL等阶段。
Analytics engineering: applies software engineering best practices to analytics code
Low hanging fruit: 最容易解决的任务或问题
Traction: 初创公司或新产品在获得市场接受、客户或达到某些里程碑方面的可衡量的进展
Product Market Fit (PMF): 当一个产品满足真正的市场需求并满足强烈的市场需求时,表明该产品已经找到了目标受众并满足了他们的需求
Pave the way forward: 为未来的进展或发展创造一条路径或奠定基础,使后续的行动或创新变得更容易
参考文章
Emerging Architectures for Modern Data Infrastructure: 2020 | Andreessen Horowitz
Emerging Architectures for Modern Data Infrastructure | Andreessen Horowitz
Open Source: From Community to Commercialization | Andreessen Horowitz
a16z 为何投资 dbt
a16z 为何投资 motherduck
A Framework for Finding A Design Partner | Andreessen Horowitz
Bottom Up Pricing & Packaging: Let the User Journey Be Your Guide | Andreessen Horowitz
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
如果你能在Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!
9/20/2023
2:13:25
EP 38. 全英文对话Gamma联合创始人Grant Lee:AI如何改变视觉表达,生产力工具产品从-1到0的AI变革
这次对AI的探讨,我们回归到与创业公司创始人的深度访谈。我们请来了一位在 AI 热潮中高速发展,产品也得到国内不少用户认可的初创公司创始人,美国新一代生产力工具 Gamma 的联合创始人兼 CEO Grant Lee。
Hello World, who is OnBoard!?
Gamma 最开始定位像 Notion 一样用模块或卡片方式帮助人们更高效创建 PPT。在今年集成 AI 功能后,产品现在可以让用户直接以对话或上传源文档等方式,任意撰写和开发创意,成为能更高效展示创意的视觉内容生成工具。
公司成立于 2020 年,总部位于旧金山湾区。团队于 2021 年 8 月推出了 beta 版,并于去年底正式发布,如今已拥有数百万用户。Gamma 于 2021 年完成了 Accel 领投的 700 万美金天使轮融资后,在今年又获得了 A 轮融资。
Grant Lee 作为 SaaS 领域的连续创业者,我们和他从公司及产品诞生,聊到 AI 对用户创意和使用上的巨大改变,最后作为两个孩子的父亲,他也谈到 AI 对下一代在生活和工作的影响,都给我们带来很多启发。
还未体验产品的朋友,赶快点击:https://gamma.app/,尝试一下吧!
播客逐字稿同步上线,搭配收听效果更佳:OnBoard!独家|对话Gamma创始人:拆解产品-1到0方法论与定价策略;AI如何重塑Gamma,解锁潜在需求与创造力!
Enjoy!
嘉宾介绍
Grant Lee, Gamma 联合创始人兼CEO,曾在两家 SaaS 公司 ClearBrain(被上市公司Amplitude收购) 和 Optimizely 担任高管,毕业于斯坦福大学本科及研究生。
OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
OnBoard! 主持:GN:前SaaS及科技投资人,Global SaaS 社区 Linkloud 发起人,公众号我思锅我在 (ID: thinkxcloud) 主理人。| 即刻:High寧
我们都聊了什么
00:01:24 Gamma是什么以及Grant为何会创立Gamma?
00:02:51 Grant个人过往经历及一个自己的有趣故事。
00:03:58 Grant连续SaaS创业的经历对创立Gamma的帮助。
00:05:49 Gamma现在到什么阶段以及经历了哪些里程碑?
00:08:59 如何看待“视觉传递”产品的历史以及Gamma诞生的机会?
00:12:17 在早期,如何验证产品概念和需求是足够普遍的?
00:14:33 刚开始有哪些用户反馈是意料之外的以及对早期设计的影响?
00:16:54 早期拓展用户采取了哪些市场拓展策略(GTM)?
00:19:38 早期如何准确设计并传递产品价值(Product message)?
00:22:11 跟早期相比,现在Gamma在价值定位上做了哪些调整?
00:24:27 Gamma是如何验证Product-Market-Fit(PMF) 的?
00:27:13 如何看待收费以及Grant背后的思考。
00:29:28 在进行付费调研时有哪些有意思的发现?
00:33:55 Grant看来在收费策略里创始人最容易犯的错误。
00:35:32 Gamma产品是如何结合AI的以及背后是怎样的思考?
00:39:32 在设计AI功能的过程中遇到了哪些挑战?
00:42:16 用户画像在这个过程中经历了哪些变化?
00:44:32 在集成AI的时候技术选择上经历了哪些思考?
00:48:06 为什么做一款好的AI产品远比做炫酷Demo难多了?
00:50:17 产品迭代中如何协调基本功能和AI的优先级?
00:52:23 未来我们真的还需要PowerPoint吗?
00:54:23 AI会进一步解构Office这样的一站式生产力套件吗?
00:56:45 为什么Grant认为现在最大的竞争对手是“用户行为”的迁移?
00:58:22 还有哪些技术趋势或用户行为变化是Grant最关注的?
01:00:39 在全球化上Grant有哪些有意思的发现和规划?
01:03:48 在AI的影响下,不同地区的用户行为有什么变化吗?
01:06:48 同时Gamma是如何引导用户接受并开始使用AI的?
01:08:26 近期Gamma在功能上将有哪些重要迭代以及未来还有哪些突破?
01:11:52 在社区建设上Gamma有哪些最佳实践?
01:13:41 最后,Grant如何对待现在来自企业级客户的需求?
01:15:27 快问快答!精彩的书籍推荐以及作为孩子父亲,如何看待AI对下一代的影响?
我们提到的公司
Notion:一站式办公协作平台
Canva:图像创作工具
Beautiful:演示文稿工具
Pitch:演示文稿工具
Optimizely:数字营销体验管理平台
Salesforce:营销CRM
Airtable:表格管理工具
嘉宾推荐的书
Shoe Dog
All the Light We Cannot See
别忘了!同步关注两位 Host 的微信公众号,看更多干货内容哦:
Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
GN:前SaaS及科技投资人,Global SaaS社区 Linkloud 发起人,公众号我思锅我在 (ID: thinkxcloud) 主理人。| 即刻:High寧
大家的点赞、评论、转发是对我们最好的鼓励!
如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。感恩!
9/11/2023
1:25:26
EP 37. 对话Deepmind, 英伟达大语言模型专家(下):深度探讨多模态大模型,亲历OpenAI,人工智能的挑战与未来
近3小时的硅谷AI重磅嘉宾现场对谈,下集光速奉上!如果你还没有听过上一期,赶紧去补课!
Hello World, who is OnBoard!?
简单介绍一下这次Monica 期待已久的嘉宾组合! 两位都在OpenAI工作过的技术大牛,包括Nvidia资深研究员 Jim Fan, 除了对生成式agents 和机器人的具身智能有深度研究外,他的Twitter 连 Jeff bezos 都关注,是AI领域全球范围内的顶级大V。另一位嘉宾戴涵俊,Google Deepmind 的资深研究员,也是 Google 新一代大语言模型的深度参与者。最后,兼任主持和嘉宾的硅谷上市公司华人高管,硅谷徐老师, 每次来 Onboard! 串台都大受好评。
这是三个小时播客的第二部分。上一期的内容,我们深度讨论了最近AI领域最火的话题,Generative Agents, 生成式代理。这一期更是精彩纷呈,包含了AI领域更多核心话题,包括多模态大模型的研究进展,具备具身智能 embodied AI 的机器人如何打造,AI对saas的影响,我们对未来AI的商业和社会畅想等等。真的是非常尽兴的讨论,你也可以拿起笔记本做笔记了。
几位嘉宾都是长期在美国工作生活,夹杂英文在所难免,不接受抱怨。Enjoy!
嘉宾介绍
Jim Fan(推特:@DrJimFan),Nvidia 高级 AI 研究科学家,曾在OpenAI工作,Stanford PhD 李飞飞实验室
戴涵俊(推特:@hanjundai),Google Deepmind 资深研究员,深度参与 Google 大语言模型项目,曾在OpenAI工作,Georgia Tech PhD
硅谷徐老师(推特:@h0wie_xu),硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师,「科技早知道」主播 |微信公众号:硅谷云| AI博客:howiexu.substack.com
主持:Monica(推特:@Monica_Yxie):美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号:M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
01:55 为什么 Jim 觉得 Llama 2 作为语言模型,对于多模态模型和机器人有重大推动
05:24 Hanjun 解读多模态大模型的两种实现方式
07:47 多模态大模型只是解锁了新的场景,还是能更大提升大模型本身的智能?如何理解大模型的智能?
12:34 为什么说机器人的多模态问题更有挑战?
16:35 处理多模态训练数据有哪些难点?
18:12 大模型训练还需要哪些工具?Infra/tooling 有哪些机会?
19:51 亲历OpenAI 的经历回顾和感受:2016-2020,OpenAI 都发生了什么
25:11 OpenAI 近年的发展,哪个时刻震撼了你?
34:20 为什么说 Evaluation 是大语言模型最被低估的挑战之一?
39:54 未来1年和未来10年,你最期待人工智能领域带来什么?
46:17 我们自己和下一代应该如何为未来做准备?
59:33 有趣的 closing 和未来展望:被 Jeff Bezos 关注是什么感觉?!
我们提到的内容
Llama 2: Meta 开源的大语言模型
Jim Fan 对于Llama 2 的解读
OpenAI 赢得DOTA 游戏比赛
LSTM (Long Short-term Memory)
Jim Fan 对大猩猩玩Minecraft 的解读
DALL-E 2: DALL·E 2 is an AI system that can create realistic images and art from a description in natural language (by OpenAI)
CLIP: Connecting text and image
ImageNET: an image dataset organized according to the WordNet hierarchy.
AlexNET: ImageNet Classification with Deep Convolutional Neural Networks
重点词汇
RLHF (Reinforcement Learning with Human Feedback): 人类反馈的强化学习 - 一种AI模型通过人类反馈与传统的强化学习结合来学习的方法。
Fine tuning: 微调 - 在特定的数据集上进一步训练预训练的机器学习模型,使其适应特定任务的过程。
Hallucination: 幻觉 - 在AI中,指的是模型生成不在输入中的信息,可能导致输出不准确。
Multi-modal model: 多模态模型 - 能够理解和处理多种类型数据(如文本、图像和声音)的模型。
Auto regressive model: 自回归模型 - 一种统计模型,它使用一个变量的过去值来预测其未来值。
Diffusion model: 扩散模型 - 用于描述信息、疾病或创新等东西如何在群体中传播的模型。
Tokenize: 分词 - 将文本分解成更小的部分(如单词或子词)的过程,通常在文本处理或自然语言处理中使用。
Intuitive physics: 直观物理 - 人类对物理现象的直观理解,例如物体如何移动或互相碰撞。
Embodied AI: 具体化的人工智能 - 通过物理或虚拟的身体与环境互动的AI系统,例如机器人或虚拟代理。
CVPR (Computer Vision and Pattern Recognition): 计算机视觉和模式识别 - 专门研究计算机如何“看”并从图像或视频中理解内容的领域。
Walkaround: 绕行 - 解决问题或障碍的方法
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
大家的点赞、评论、转发是对我们最好的鼓励!
如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!
有任何心得和建议,也欢迎在评论区跟我们互动~
8/17/2023
1:06:01
EP 36. 对话Deepmind, 英伟达大语言模型专家(上):AI Agent智能体与开源LLM的应用、挑战与未来
承诺大家的大波AI上新来啦!这次的嘉宾是Monica一直期待的重磅组合,能听到AI领域如此一线的核心从业者的分享,真是太难得了。这次在硅谷创新腹地,毗邻 Stanford 的 Palo Alto 线下录制, 不知不觉就聊了近三个小时,我们分成上下期,方便大家收听!
Hello World, who is OnBoard!?
两位AI研究者都在OpenAI 工作过。Nvidia 资深研究员 Jim Fan,是Twitter 上AI领域的顶尖KOL,连亚马逊的创始人 Jeff Bezos 都在关注,几乎每一条twitter 分析都是必读文章。戴涵俊是Google Deepmind 的资深研究员,更是Google 新一代大语言模型的深度参与者。再次来串台的硅谷上市公司华人高管,硅谷徐老师, 持续高质量输出。上期的内容,我们围绕最近AI领域最火的话题,Generative Agents(生成式智能体)。两位AI研究员都对这个领域有最一线的研究和实践经验,我们深入探讨了从AutoGPT开始,Generative Agents 从技术到应用,都有哪些新的进展、技术和场景的挑战,由此延伸到开源与闭源大语言模型的竞争格局。
跟EP35 Monica 与另一位AI研究员符尧的访谈对比听听就发现,Generative Agents 这个前沿领域,显然还有很多尚未有共识的地方。下一期,我们会讨论更多AI领域核心话题,包括多模态模型,机器人应用落地,AI对saas的影响,LLM发展史,未来畅想等等,更是不容错过。赶紧关注Onboard!
几位嘉宾都是长期在美国工作生活,夹杂英文在所难免,不接受抱怨。Enjoy!
嘉宾介绍
Jim Fan(推特:@DrJimFan),Nvidia 高级 AI 研究科学家,曾在OpenAI工作,Stanford PhD 李飞飞实验室
戴涵俊(推特:@hanjundai),Google Deepmind 资深研究员,深度参与 Google 大语言模型项目,曾在OpenAI工作,Georgia Tech PhD
硅谷徐老师(推特:@h0wie_xu),硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师,「科技早知道」主播 |微信公众号:硅谷云| AI博客:howiexu.substack.com
主持:Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人,公众号:M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
02:50 几位嘉宾自我介绍,最近看到了什么有意思的AI项目
05:51 Hanjun @Google Deepmind: 最近发表的 speculative decoding 工作如何提升模型速度
09:14 Jim Fan @Nvidia: 为什么AI agents 是值得关注的方向,基于agents 有什么应用
12:42 什么是 AI agents? 好的 Agents 需要怎样的核心能力
16:54 企业场景落地 AI Agents 应用,主要有哪些挑战?
25:18 AI Agents 目前落地的挑战,是由底层基础模型的能力决定的吗?
35:56 如何看待目前 AI Agents 不同的实现方式?Adept AI 的形态会被取代吗?
39:57 未来工具使用更多是 AI agents 来完成,对于应用生态意味着什么?
48:18 Llama 2 开源对于LLM生态意味着什么?底层基础模型会赢家通吃吗?
56:58 如何理解开源和闭源模型的壁垒?
68:24 我们需要领域专有模型吗?
我们提到的内容
Hanjun 提到的论文:Accelerating Large Language Model Decoding with Speculative Sampling
Jim 的论文: Voyager: An Open-Ended Embodied Agent with Large Language Models
Jim 提到的论文:Generative Agents: Interactive Simulacra of Human Behavior
开源项目 Auto-GPT: An experimental open-source attempt to make GPT-4 fully autonomous
Llama 2: Meta 开源的大语言模型
Adept.ai: a new way to use computers. Transformer 论文作者创办
Character AI
Jim 提到的基于大语言模型的游戏:病娇AI女友
MPT-7B (MosaicML Pretrained Transformer): MosaicML 发布的可商用开源大语言模型
Anthropic: Transformer 论文作者创立的大语言模型公司
Harvey:为律所设计的生成式AI工具
讨论 Google 等大厂LLM竞争壁垒的文章 ($$):Google "We Have No Moat, And Neither Does OpenAI"
Deepmind Gemini: Google Deepmind 正在研发的下一代大语言模型
RLHF (Reinforcement Learning with Human Feedback): 人类反馈的强化学习 - 一种AI模型通过人类反馈与传统的强化学习结合来学习的方法。
Fine tuning: 微调 - 在特定的数据集上进一步训练预训练的机器学习模型,使其适应特定任务的过程。
Hallucination: 幻觉 - 在AI中,指的是模型生成不在输入中的信息,可能导致输出不准确。
Multi-modal model: 多模态模型 - 能够理解和处理多种类型数据(如文本、图像和声音)的模型。
Embodied AI: 具体化的人工智能 - 通过物理或虚拟的身体与环境互动的AI系统,例如机器人或虚拟代理。
Quantization: 量化 - 限制用于表示数字的位数的过程,有助于减小机器学习模型的大小并加速计算。
Mixture-of-experts (MoE): 专家混合模型 - 一种机器学习方法,其中模型的不同部分专门处理不同类型的数据或任务。
Inference: 推断 - 已训练的AI模型基于所提供的数据预测结果的过程。
Reasoning: 推理能力 - AI系统根据信息或一组事实得出结论的能力。
NPC (Non-Player Character): 非玩家角色
RPA (Robotic Process Automation): 机器人流程自动化
First class citizen: 一等公民
重点词汇欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!有任何心得和建议,也欢迎在评论区跟我们互动~
8/16/2023
1:14:26
EP 35. ICML现场对话AI研究员符尧:亲历AI诸神之战,解读LLM前沿研究,Llama 2,AI Agents
OnBoard! 一大波更新要来啦!Monica 最近一个月都在硅谷,之前怠慢了一段时间,很快就会补上啦。
这次的节目非常特别,是在ICML 2023 (International Conference on Machine Learning, 国际机器学习大会)的现场录制的。这次的嘉宾,爱丁堡大学博士生符尧,更是众望所归,相信最近关注大语言模型的朋友都不陌生。他的好几篇关于大语言模型能力研究的文章,几乎都是业内必读。
Hello World, who is OnBoard!?
正如符尧在一篇总结文章中所说:“ICML 2023,OpenAI, Anthropic, Google DeepMind, Meta,各大名校的 rising star PhD,顶级 hedge fund 与 VC ,most popular startups 悉数到场,这里是诸神之战的最前线。”
我们就在诸神之战的现场,回顾了ICML与各位大神现场交流的见闻,fuyao对于数据、RLHF等大模型核心研究领域的思考,还有对震动行业的、刚刚发布的LlaMA-2的看法。
这次在室外录制,嘉宾还在生病,不免有些杂音。但是我想这对于关注干货的听众来说,都不是问题。相信你也会受益匪浅。Enjoy!
*本期涉及比较多的术语,需要你对大模型(LLM)有基础的技术了解。
嘉宾介绍
符尧,爱丁堡大学的博士生,研究大语言模型的推理能力。符尧在北京大学完成了本科学位,在哥伦比亚大学完成了硕士学位,曾在MIT-IBM AI 实验室,Allen Institute for AI (AI2) 等担任实习研究员。他的工作主题包括了大语言模型演化,复杂推理,涌现能力,以及如何从第一性原理构造模型。他以《拆解追溯 GPT-3.5 各项能力的起源》为代表的文章系列详细阐述了语言模型的能力机制,在中文和全球互联网上都产生了重大的影响力。
我们都聊了什么
02:05 凡尔赛开场 & 嘉宾符尧的介绍
04:33 认识ICML,参加诸神之战的盛会是什么体验;付尧入选的论文如何探讨模型能力的遗忘
08:09 过去半年,对模型能力有什么新的理解
09:36 解决模型能力遗忘为什么重要,有什么挑战
13:49 模型能力遗忘对于垂直领域模型有什么影响
17:39 蒸馏 (Distillation) 技术为什么重要,现在研究和落地处在什么阶段
24:00 算力紧张,以后更多的创新研究都会发生在业界而不是学术界吗
26:39 ICML上看到了哪些有意思的研究 - paper 推荐!
30:41 最火的话题1:基于LLM的agents 构建有什么挑战和解法
37:36 现在的大语言模型能力可以支持怎样的Agent?
48:51 最火的话题2:解读 Llama 2,最让人印象深刻的变化是什么?
56:25 基于Llama 2,学术界可以有什么研究方向?
59:06 ICML 上亲历的大神交流
61:57 符尧还在关注哪些新的研究方向 & 我们对 Agent 集群的畅想
我们提到的内容
符尧的ICML论文:Specializing Smaller Language Models towards Multi-Step Reasoning
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Llama 2: Open Foundation and Fine-Tuned Chat Models
Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU
FLOWGEN: Fast and slow graph generation by Aman Madaan
符尧的Llama 2 讨论会 memo (7/18/2023)
RL: Reinforcement learning, 强化学习
SFT: Supervised Fine Tuning, 监督微调
RLHF: Reinforcement Learning with Human Feedback, 人类反馈强化学习
Distillation: 蒸馏,基于大语言模型训练小模型的方法
Scaling law: A mathematical relationship where performance improves with increasing size, 规模定律
Alignment tax: Additional effort to align a model's behavior with human values, 对齐税
参考文章
符尧的个人主页
ICML 2023 手记 - 诸神之战的最前线
符尧的博客
A Closer Look at Large Language Models Emergent Abilities, by Yao Fu
How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources, by Yao Fu
Training language models to follow instructions with human feedback, by John Schulman
Scaling Laws for Reward Model Overoptimization
Emergent Abilities of Large Language Models, by Jason Wei
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, by Jason Wei
别忘了,关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
大家的点赞、评论、转发是对我们最好的鼓励!如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!
有任何心得和建议,也欢迎在评论区跟我们互动~