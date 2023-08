EP 35. ICML现场对话AI研究员符尧:亲历AI诸神之战,解读LLM前沿研究,Llama 2,AI Agents

嘉宾介绍 符尧,爱丁堡大学的博士生,研究大语言模型的推理能力。符尧在北京大学完成了本科学位,在哥伦比亚大学完成了硕士学位,曾在MIT-IBM AI 实验室,Allen Institute for AI (AI2) 等担任实习研究员。他的工作主题包括了大语言模型演化,复杂推理,涌现能力,以及如何从第一性原理构造模型。他以《拆解追溯 GPT-3.5 各项能力的起源》为代表的文章系列详细阐述了语言模型的能力机制,在中文和全球互联网上都产生了重大的影响力。 我们都聊了什么 02:05 凡尔赛开场 & 嘉宾符尧的介绍 04:33 认识ICML,参加诸神之战的盛会是什么体验;付尧入选的论文如何探讨模型能力的遗忘 08:09 过去半年,对模型能力有什么新的理解 09:36 解决模型能力遗忘为什么重要,有什么挑战 13:49 模型能力遗忘对于垂直领域模型有什么影响 17:39 蒸馏 (Distillation) 技术为什么重要,现在研究和落地处在什么阶段 24:00 算力紧张,以后更多的创新研究都会发生在业界而不是学术界吗 26:39 ICML上看到了哪些有意思的研究 - paper 推荐! 30:41 最火的话题1:基于LLM的agents 构建有什么挑战和解法 37:36 现在的大语言模型能力可以支持怎样的Agent? 48:51 最火的话题2:解读 Llama 2,最让人印象深刻的变化是什么? 56:25 基于Llama 2,学术界可以有什么研究方向? 59:06 ICML 上亲历的大神交流 61:57 符尧还在关注哪些新的研究方向 & 我们对 Agent 集群的畅想 我们提到的内容 符尧的ICML论文:Specializing Smaller Language Models towards Multi-Step Reasoning T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Llama 2: Open Foundation and Fine-Tuned Chat Models Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings The Flan Collection: Designing Data and Methods for Effective Instruction Tuning FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU FLOWGEN: Fast and slow graph generation by Aman Madaan 符尧的Llama 2 讨论会 memo (7/18/2023) RL: Reinforcement learning, 强化学习 SFT: Supervised Fine Tuning, 监督微调 RLHF: Reinforcement Learning with Human Feedback, 人类反馈强化学习 Distillation: 蒸馏,基于大语言模型训练小模型的方法 Scaling law: A mathematical relationship where performance improves with increasing size, 规模定律 Alignment tax: Additional effort to align a model's behavior with human values, 对齐税 参考文章 符尧的个人主页 ICML 2023 手记 - 诸神之战的最前线 符尧的博客 A Closer Look at Large Language Models Emergent Abilities, by Yao Fu How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources, by Yao Fu Training language models to follow instructions with human feedback, by John Schulman Scaling Laws for Reward Model Overoptimization Emergent Abilities of Large Language Models, by Jason Wei Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, by Jason Wei