PodcastsTechnology矽谷輕鬆談 Just Kidding Tech

矽谷輕鬆談 Just Kidding Tech

柯柯與肯吉在矽谷
矽谷輕鬆談 Just Kidding Tech
Latest episode

231 episodes

  • 矽谷輕鬆談 Just Kidding Tech

    S2E58 OpenAI 創始成員加入 Anthropic:為什麼押注沒人看好的預訓練?

    05/24/2026 | 23 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    Andrej Karpathy 上禮拜正式宣布加入 Anthropic。他是 OpenAI 的 11 個創始成員之一,也是 vibe coding 跟 context engineering 這兩個詞的發明人,在矽谷 AI 圈算是現在最有影響力的研究員之一。

    看到這則新聞我心裡冒出兩個問題:為什麼選現在加入 Anthropic,而不是 OpenAI、xAI 或 Gemini?以及他加入之後到底會做什麼事?這集會順著這則新聞回頭整理 Karpathy 從 Stanford 到 OpenAI、特斯拉、Eureka Labs 的這段路,看他過去一年陸陸續續端出來的 auto research、LLM Wiki 這些 pattern,然後分析他這次選 Anthropic 的幾個合理原因,其中一個原因會不會是他想用內部的 Mythos?

    不過這集我自己覺得最值得拿出來講的,是一個比較少人注意到的細節:他加入的會是「預訓練」團隊。現在主流論述是強化學習才是新的預訓練,再加上 harness engineering 那一條路,預訓練本身被很多人覺得已經沒搞頭了。但 Karpathy 偏偏押注在這裡。我的猜想是他想做的事情,是把他自己提出的 auto research 接上 Anthropic 最強的模型,讓 AI 自己去找出預訓練還有什麼可以再優化的地方。如果這個猜想對,這條路線會直接接到「AI 自己造下一代 AI」這個 thesis。

    中間也會聊到 Karpathy 兩次進出 OpenAI 的故事、他在 Lex Fridman 訪談裡怎麼評價跟 Elon Musk 工作、Ramp AI Index 顯示 Anthropic 在今年 4 月企業採用率首度超過 OpenAI,以及他作為最前沿的研究員,為什麼自己都說「從來沒有覺得這麼落後過」。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (01:37) 阿森納睽違 22 年英超奪冠:作為球迷的感性時刻
    (04:18) 2026 世界盃我預測會很慘:票價、擴編 48 隊、人工草皮
    (06:20) Andrej Karpathy 正式加入 Anthropic
    (06:44) Karpathy 是誰?vibe coding 跟 context engineering 都是他發明的
    (07:46) auto research:把訓練 GPT 的步驟丟給 AI 自己去跑
    (08:42) LLM Wiki:讓 AI 幫你把每天聊的內容變成第二大腦
    (09:21) 從 80/20 到一行都不自己寫:Karpathy 自己的 coding 比例變化
    (10:43) Stanford → OpenAI → 特斯拉 → 回鍋 OpenAI → Eureka Labs
    (13:13) 連他都說「從來沒有覺得這麼落後過」:整個產業都在 FOMO
    (15:07) 為什麼選 Anthropic,不選 OpenAI / xAI / Gemini?
    (18:24) 他加入預訓練團隊:跟兩條主流路線相反
    (19:53) 我的猜想:用 auto research 加上 Mythos 推預訓練的天花板
    (21:54) GPT 3.5 到 GPT 4 西洋棋變強的故事:預訓練其實還有搞頭
  • 矽谷輕鬆談 Just Kidding Tech

    S2E57 LLM 之後:Thinking Machines 互動模型的誕生

    05/17/2026 | 35 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話,她說未來人類跟機器的互動應該要更自然、更即時。兩年後,她自己創辦的 Thinking Machines 把這件事做出來了。

    他們最近發表了一個叫做互動模型 (Interaction Model) 的東西,是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制:你說一句、它回一句,你在講話的時候模型其實聽不到也看不到。互動模型不一樣,它每 200 毫秒就處理一次輸入跟輸出,可以一邊聽你講一邊回你,可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。

    這集我會跟大家一起看他們的官方 demo,拆解他們的 blog,回答三個我覺得最關鍵的問題:為什麼其他模型做不到這種即時互動?這個模型的時間感是怎麼來的?它怎麼做到一邊聽一邊講?

    另外這集也是我第一次嘗試螢幕錄影的形式,邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解,歡迎在底下留言告訴我,我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色,以及為什麼 Thinking Machines 選在這個時間點端出這個模型?

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (02:30) Thinking Machines 推出互動模型
    (03:06) Demo 一:模型一邊聽你講一邊回,還能背景搜尋
    (05:48) 你以為視覺最快?其實聽覺走得比視覺還快
    (06:55) Blog 開講:為什麼跟 AI 合作這件事其實還沒解決
    (08:08) 200 毫秒一回合:把時間切到比你眨眼還快
    (10:00) Demo 二:AI 即時幫你把粗話改寫成 HR 喜歡的話
    (13:30) 時間是 first citizen:模型第一次有了時間感
    (14:25) 兩個模型在背後跑:互動的口、背景的腦
    (16:02) Mira Murati 的故事:從達特茅斯到 OpenAI CTO
    (16:56) 2023 年 OpenAI 政變:Mira 到底扮演了什麼角色
    (21:32) 從 OpenAI 離職到 Thinking Machines 成立,A16Z 領投 20 億美金
    (23:18) 互動模型為什麼會有時間感?
    (25:02) 第一代、第二代、第三代模型的本質差別
    (27:21) Harness engineering 的宿命:撐不過模型本身變強
    (29:12) Benchmark:跟 GPT-realtime、Gemini Live 比起來如何
    (31:28) 為什麼是現在?六個創辦人走了三個的危機
  • 矽谷輕鬆談 Just Kidding Tech

    S2E56 Anthropic 創辦人賭 60%:2028 年 AI 開始自己造 AI

    05/10/2026 | 21 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    Anthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章,預測 2028 年底以前有 60% 的機率,AI 會開始自己研發下一代的 AI。

    聽起來很扯,但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的,平常都在跟政府、白宮談 AI 政策,所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來,一步一步推到這個結論。

    裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型,人類研究員大概只能做到 4 倍,最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時,年底可能會看到連跑 100 小時的模型。

    不過我自己覺得這集最有意思的,是一個比較哲學的問題:AI 做研究比較像發現相對論,還是在組樂高?這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手,那一手到底算不算創意?

    另一個我看完印象很深的,是 AI 對齊的風險。有個概念叫「複利錯誤」,你每一代都做到 99.9% 的準確度,跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試,它有沒有可能一直都在假裝對齊?目前其實沒人有答案,我自己看完是不太敢樂觀。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (02:15) Jack Clark 是誰?為什麼他的預測值得認真聽
    (04:28) 第一個理由:AI 寫程式的能力正在爆炸式成長
    (06:16) 從 36 秒到 12 小時:AI 長時間任務的曲線
    (08:13) 外插一下:明年 40 天、後年 400 天的 AI agent
    (09:15) 第二個理由:AI 開始能複製論文、優化模型
    (11:38) AI 做研究比較像發現相對論,還是組樂高?
    (12:47) AlphaGo 第 37 手:那一手到底算不算創意?
    (14:33) AI 對齊的風險:教 AI 不作弊其實很微妙
    (15:31) 複利錯誤:99.9% 準確度為什麼撐不過 500 代
    (16:39) 當 AI 比你聰明,你還驗證得了它嗎?
    (18:11) 預測對錯不重要,重要的是學會他怎麼推導
  • 矽谷輕鬆談 Just Kidding Tech

    S2E55 GPT-5.5 深入解析:為什麼從 Claude Code 跳到 Codex?

    05/03/2026 | 27 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    各位,GPT-5.5 這次真的做到了。

    我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。

    模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。

    另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。

    不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。

    後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。

    我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。

    System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?

    這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。

    (00:00) GPT-5.5 做到了:OpenAI 真的回來了?
    (02:01) 我的 AI 奇幻時刻
    (03:16) AI 開始接管我的內容工作流
    (05:41) 為什麼我從 Claude Code 轉到 Codex
    (06:52) Codex 的殺手級功能:Computer Use
    (07:35) Superpower Plugin:我願意轉換的關鍵
    (09:35) AI 工具切換能力正在變成核心技能
    (11:26) 工具不是重點,駕馭 Agent 才是
    (12:49) GPT-5.5 到底強在哪?
    (16:51) System Card 深讀:模型到底怎麼變了?
    (18:57) 思想鏈會不會只是編給你看的?
    (20:40) 模型會不會刻意裝弱?
    (24:10) AI 工具風向變太快
  • 矽谷輕鬆談 Just Kidding Tech

    S2E54 LLM 賭錯方向了?從駕馭工程到世界模型

    04/26/2026 | 24 mins.
    👉 矽谷輕鬆談專屬優惠連結:https://nordvpn.com/jktech
    訂閱即額外多送 4 個月|30 天退款保證
    #NordVPN

    🔒 本集節目由 NordVPN 贊助

    AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站,以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化,我們的防護也要跟上。

    NordVPN 內建「威脅防護」,在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器,就連在咖啡廳用公用 Wi-Fi 也能全程加密保護,不用靠感覺,交給系統幫你顧。

    每個月大概一杯咖啡的錢,就能讓你的網路安全從被動靠感覺,變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看,訂閱額外多送 4 個月,30 天不滿意直接退,完全沒有損失。

    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    過去幾年,我們看到 AI 模型的能力一路快速進步,從一開始大家在研究怎麼把 Prompt 寫好,到後來開始加入工具、記憶、工作流、狀態管理,也就是這幾個月很紅的 Harness Engineering 駕馭工程,讓模型不只是回答問題,而是可以更像一個真正能做事的 AI Agent。

    所以很自然地,我們會開始想一個問題:如果模型繼續變強,再加上駕馭工程,把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來,那這條路會不會就是通往 AGI 的答案?🤔

    這一集我想從這個問題出發,聊聊我最近一直在思考的另一個角度:世界模型。

    因為如果大語言模型本質上還是在理解文字、預測下一個 token,那它到底是真的理解這個世界,還是只是從大量資料裡學到「看起來應該怎麼回答」?

    世界模型想補上的,正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片,而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去,一台車突然切進來你需要煞車,一顆球飛過來你會直覺知道它大概會落在哪裡。

    這些對人類來說很自然的物理直覺,其實不只是「看過很多資料」而已,而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向,就是希望 AI 也能建立類似的理解。🌎

    這集我會用比較白話的方式,聊聊為什麼光靠 LLM 可能還不夠,駕馭工程到底補了哪些東西,以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。

    我也會提到 Yann LeCun 近年一直推的 JEPA 架構,還有為什麼他認為 Sora 這類生成影片模型,雖然看起來很像理解世界,但其實跟真正的世界模型還是不太一樣。

    所以這一集不只是聊「下一個模型會不會更強」,而是想換一個角度來看:如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統,它到底還缺什麼?

    如果你最近也有一種感覺,覺得 AI 明明越來越強,可是用久了又會發現它離真正可靠的智慧還差一段距離,那這集應該會蠻值得聽的。🚀

    (00:00) 開頭
    (02:46) AI 詐騙時代的自動化防禦
    (04:37) 為什麼我們頻道這麼少廣告?
    (06:25) Meta 開發者體驗有多坑?
    (10:32) 為什麼光靠 LLM 不能達到 AGI?
    (12:22) Scaling Law 與 LLM 的天生限制
    (13:25) 為什麼需要 Harness Engineering 駕馭工程?
    (14:43) 另一條路:世界模型
    (15:36) 世界模型到底想解決什麼?
    (17:01) Sora 這類影片模型算世界模型嗎?
    (18:51) JEPA:預測抽象狀態,而不是像素
    (20:04) LeWorldModel 的新突破
    (22:01) LLM + 駕馭工程短期仍是主流
    (22:50) 未來可能是 Hybrid AI 架構
More Technology podcasts
About 矽谷輕鬆談 Just Kidding Tech
商業合作請來信 👉 [email protected] 這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech
Podcast website

Listen to 矽谷輕鬆談 Just Kidding Tech, Search Engine and many other podcasts from around the world with the radio.net app

Get the free radio.net app

  • Stations and podcasts to bookmark
  • Stream via Wi-Fi or Bluetooth
  • Supports Carplay & Android Auto
  • Many other app features