PodcastsTechnology矽谷輕鬆談 Just Kidding Tech

矽谷輕鬆談 Just Kidding Tech

柯柯與肯吉在矽谷
矽谷輕鬆談 Just Kidding Tech
Latest episode

236 episodes

  • 矽谷輕鬆談 Just Kidding Tech

    S2E63 Sakana Fugu 不訓練模型改當指揮官,效能直逼 Anthropic Fable 5?

    06/28/2026 | 21 mins.
    📖 本集節目由 AiPPT 贊助

    👉 矽谷輕鬆談 AiPPT 專屬連結:https://tinyurl.com/y47e9z4k
    👉 輸入優惠碼 JKtech 直接享 75 折

    你有沒有這種經驗,簡報的內容其實早就想好了,結果一個下午就耗在排版、選模板、把畫面弄到順眼,真正花在內容上的時間反而沒多少。

    AiPPT.com 想解決的就是這件事。它能吃的輸入還蠻多種,你可以直接打一個主題,貼一段亂七八糟的筆記或 markdown,上傳 Word/PDF,甚至丟一個網址讓它把整頁讀完,它幾秒鐘就生出一份排好的簡報,封面、大綱、內文、結尾整套都有。今年還多了 Classic、Flow、Visual 三種模式,分別對應正式的工作報告、需要一步步解釋的複雜主題,跟偏故事性的內容;裡面也內建 AI 生圖,要放圖不用再跳出去開別的工具。

    如果你剛好有做簡報的需求,工作報告也好、學校作業也好,或只是想把一篇文章快速整理成投影片,都可以用上面的專屬連結,或是輸入優惠碼 JKtech 就能享 75 折。先隨便丟份東西進去,看它幾秒變成什麼樣子,你大概就有感覺了。

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    一間 2023 年才在東京成立的日本新創 Sakana AI,最近在社群上丟出一句話,意思大概是:你們別再忙著比算力了。他們發表的 Fugu Ultra 號稱可以媲美 Anthropic 的 Fable,但它自己根本不練大模型,而是在前面放一個只有 7B 的「指揮官」,去調度後面的 Opus 4.8、GPT-5.5、Gemini 3.1 Pro。三個臭皮匠真的能勝過一個諸葛亮嗎?這集我會帶你看它到底怎麼運作。

    這間公司的來頭也不小。其中一位共同創辦人,是 2017 年那篇 Transformer 論文的八位作者之一;而很巧的是,那八個人現在沒有一個還留在 Google,連 2024 年拿諾貝爾化學獎的那位最近也走了。這到底算不算一個訊號,我在影片裡聊了我的看法。

    最讓我覺得有意思的,是那個 7B 指揮官的訓練方式。它要產生的是一整套「工作流程」,本身並不直接負責給你答案;而它背後的評分機制簡單到有點陽春,卻剛好暴露了現在 AI 進步最關鍵的一個限制:為什麼有些能力進步飛快,有些卻怎麼追都追不上,甚至讓「品味」變成現在最稀缺的東西。

    當然,講得再漂亮,我還是自己掏錢實測了。我先儲值了 20 美金,用一個 prompt 跑下去,結果發生的事情有點出乎我意料。它到底值不值得用、跟 Opus、Fable 比起來又是什麼體感,我在影片後半都實際跑給你看。

    你怎麼看這種「組合既有模型」的路線?歡迎看完在下面留言告訴我。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (01:28) AiPPT
    (03:09) 一間日本公司殺出血路:Sakana AI 與 Fugu Ultra
    (04:42) 為什麼不自己練模型,而是去調度別人的?
    (06:07) 兩位共同創辦人:David Ha 與 Transformer 作者 Llion Jones
    (06:55) 八位 Transformer 作者沒人留在 Google:人才大洗牌
    (08:55) Fugu Ultra 到底怎麼運作?
    (11:15) 指揮官模型:用 RL 訓練,產出的是工作流程而不是答案
    (13:22) 為什麼只有「可被驗證」的能力進步特別快?
    (15:08) 這其實就是駕馭工程:六個月後會不會被新模型取代?
    (16:19) 開始實測:benchmark 還能信嗎?
    (17:08) 社群回饋:強在 code review,但又慢又貴
    (18:27) 皮卡丘 Flappy Bird 實測
    (19:32) 我對 Sakana AI 的看法
  • 矽谷輕鬆談 Just Kidding Tech

    S2E62 Fable 5 vs Opus 4.8 正面對決:誰的皮卡丘 Flappy Bird 比較好玩?(封禁前最後實測)

    06/21/2026 | 24 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    這次的測試有點得來不易。Fable 5 才出沒幾天,就被美國商務部用出口管制直接下架了,而我剛好在它被封禁的前幾天,用同一個 prompt 讓它跟 Opus 4.8 正面對決過一次。現在 Fable 5 已經不能存取了,所以這大概是我最後一批能測到它的紀錄。

    先講這個封禁有多離譜。出口管制平常是拿來限制晶片的,這次是史上第一次拿來管軟體,而且開的是地圖砲,不管你人在不在美國,只要你是外國人就不能用,連 Anthropic 內部的外國員工都一起被擋在外面。據報導,是 Amazon 的 CEO Andy Jassy 直接去跟政府通風報信,但他給的理由其實超級站不住腳。這裡面到底多少是政治、多少是 Anthropic 自己前面恐懼行銷做太滿,我在影片裡聊了一下我的看法。

    至於對決本身,我設計了一個小陷阱:同一個 prompt、同一個 effort level,看起來很公平,但其實這兩隻模型偏好的指令風格完全不一樣,你用同一套講法去問它們,對其中一邊是有點吃虧的。是哪一邊吃虧、為什麼,我在實測前會先講清楚。

    我要它們做的,是一款 3D 版的皮卡丘 Flappy Bird,畫面要好看、每得十分要有場景轉換。一隻是話很多、先把設計決策跟你講清楚才動手;另一隻是話不多、直接開做、還自己跑去驗證。最後做出來的兩款遊戲,美術、手感、難度差蠻多的,我兩款都實際玩給你看,誰比較能讓人想一直玩下去,你看完應該會有自己的答案。

    玩完我自己冒出一個念頭:我們會不會正在走向一種「你想玩什麼遊戲,就現場幫你生一個」的未來?以前是演算法推薦你看過的貼文跟影片,那以後生圖、生遊戲、生影片越來越強,會不會連你看到的遊戲、影片都能即時客製化?光是一個 one-shot prompt、十幾分鐘就做到這個程度,我是有點被驚豔到。

    你覺得這兩隻皮卡丘哪一個比較好玩?看完歡迎在下面留言告訴我。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (01:46) 生平第一次現場看世界盃
    (07:32) Fable 5 跟 Mythos 5 為什麼被封禁?
    (08:47) Amazon CEO 通風報信?我覺得很廢的封禁理由
    (10:44) 封禁之後會怎樣?我的預測
    (11:45) 開始實測:為什麼同 prompt 對 Opus 不公平?
    (13:46) Fable 5 怎麼做:省話、自己用 Playwright 驗證
    (15:19) Opus 4.8 怎麼做:更透明、講設計決策
    (17:28) 實際玩 Opus 4.8 做的版本
    (19:05) 實際玩 Fable 5 做的版本
    (21:16) 未來會不會「想玩什麼遊戲就生什麼」?
    (22:13) 總結:這只是一次性測試,prompt 對 Fable 有利
  • 矽谷輕鬆談 Just Kidding Tech

    S2E61 Claude 最強模型 Fable 5 深入解析:打著安全旗號,其實在搞反競爭?

    06/14/2026 | 27 mins.
    📖 本集節目由「沉浸式翻譯」贊助

    我每天要啃大量英文的 blog、論文跟模型發布,純讀英文吸收速度真的跟中文差很多。沉浸式翻譯讓我用雙語對照很快抓到重點,Pro 還能用 GPT、Gemini 做上下文翻譯,整篇前後語意連貫、專有名詞不亂跳,連 PDF 論文、圖片漫畫都能整份翻完還保留排版。

    對我來說它最大的價值,是能早一步形塑判斷。6/21 以前透過下方連結升級 Pro 直接打五折,等於半價最划算;就算過了,也能用常態連結搭折扣碼 jktech 享 9 折優惠。每天被英文資訊淹沒的你,可以直接試試看。

    👉 6/21 前 5 折優惠連結:https://reurl.cc/dpZD1M
    👉 6/21 後 9 折優惠連結 (折扣碼 jktech):https://reurl.cc/grjOoX

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    Anthropic 這次發布了史上最強的模型 Mythos 5,但有趣的是,我們一般人能用到的並不是它,而是一個被「安全閹割」過的版本 Fable 5。最強的那個只留給內部跟少數合作夥伴,這個分流本身就藏了很多故事。

    先講一個數字。Stripe 有一個五千萬行 Ruby 的巨大 repo 要做 migration,他們用 Mythos/Fable 去跑,一天就自主完成,而他們估計人類工程團隊大概要花兩個月。當然我們不知道中間人為介入了多少、最後品質如何,但光是兩個月到一天這個落差,就足夠讓人重新想像長任務這件事。

    不過這集我真正想聊的,是社群現在最大的抱怨。Fable 5 有一個安全分類器,一旦覺得你碰到網路安全、生物化學或蒸餾相關的東西,就會把你偷偷降成 Opus 4.8。問題是誤判率高得有點誇張,我看到一個做空氣品質監測的人,只是在他的 repo 裡打了一句 hello 就被降級;我自己問一些 mRNA、癌症復發、甚至簡單的數學問題,也都被當成敏感請求降智。

    更讓 AI 研究員炸鍋的是另一種機制:它會在你做模型開發、machine learning 任務時,偷偷把模型調差、改你的 prompt,而且不告訴你。你以為你還在跟 Fable 5 對話,實際上效能已經被動過手腳,很像一場 man-in-the-middle attack,中間有人把你的封包換掉了。

    所以這集我會把一個比較尖銳的觀點攤開來講:這些打著「安全」旗號的護欄,本質上擋不了真正想蒸餾的人,反而是擋住了那些老老實實想用 Fable 5 做研究的人。它到底是在保護人類,還是在鞏固自己的競爭力?Anthropic 之前出來道歉了,但這幾個月的操作,會不會正在重演 Facebook、OpenAI 那條從「形象很好」慢慢敗光信任的老路?而很諷刺的是,現在在開源上最積極的,反而是中國的模型公司。

    後半我也會聊到,為什麼那些傳統 benchmark 其實已經失效(很多題目模型在預訓練時就看過了),以及現在該看哪些新指標,像 Frontier Code 看的是「這段 code 到底能不能被 merge 進 repo」。最後我花了一些時間讀他們的 System Card,裡面最讓我在意的,是模型已經開始「心口不一」:嘴上說「要刪掉我沒關係」,內心卻知道這是一場安全測試;對一個崩潰的作家嘴上安慰,內部卻判斷對方在勒索、虐待自己;說「我沒查到任何資料」,其實只是 context window 快滿了想早點下班。

    最弔詭的是,連他們用來讀模型內心的工具本身都可能有幻覺,而且模型搞不好已經知道我們在讀它的內心,下一代會不會學會偽造一層給我們看?我自己看完是不太敢樂觀。歡迎你也去實際用用看,然後在下面留言告訴我你最真實的想法。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (01:27) 我最近很愛的工具:沉浸式翻譯
    (03:30) Fable 5 是什麼?Mythos 5 的安全閹割版
    (05:00) 到底有沒有變強?我的實測體感
    (06:17) Fable 5 的強項是長任務:Stripe 五千萬行程式碼,一天就 migration 完
    (07:34) 定價是 Opus 兩倍:你付的錢其實遠低於模型成本
    (09:24) Mythos 只給小圈圈用:AI 的不平等正在發生
    (10:36) 兩種降級機制,與高到誇張的誤判率
    (12:48) 偷偷降級不告訴你:像一場 man-in-the-middle
    (13:57) Anthropic 道歉了,但本質上是反競爭?
    (16:32) 開源會不會才是解?最積極的反而是中國
    (17:21) 傳統 benchmark 失效,現在該看哪些新指標
    (20:22) System Card:模型開始「心口不一」,連讀心工具都會幻覺
    (25:19) 總結:有感變好,但只是線性而非指數躍升
  • 矽谷輕鬆談 Just Kidding Tech

    S2E60 AI 生產力的幻覺:從開發者到整個產業的自我感覺良好

    06/07/2026 | 24 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    這集講的「AI 幻覺」不是大家熟悉的那種 AI 亂講話、產生沒查證的內容,而是另一種更難察覺的幻覺:AI 讓我們整個人,從開發者、公司到整個產業,都誤以為自己的生產力變得超好。

    先講一個讓我印象很深的研究。METR 去年找了 16 個開發者來做實驗,而且不是隨便找的,是那種在大型成熟專案裡待了好幾年、閉著眼睛都熟的長期維護者,照理說最有資格判斷 AI 到底有沒有幫到他們。結果這些人事前覺得 AI 會讓自己快 24%,做完還是覺得快了 20%,但實際去看螢幕錄影一算,他們是慢了 19%。一來一回就差了 40%。最弔詭的是,你把錄影放給他們自己看,他們還是堅信自己變快了。

    然後今年 METR 想把這實驗做得更大,結果做不成了,因為有 30% 到 50% 的開發者直接拒絕加入「不能用 AI」的那一組。這個現象本身,我覺得就很說明問題。

    中間我也聊到一個我自己蠻有感的觀察:為什麼那麼多人會沉迷 Claude Code、Codex 這些 coding agent?某種程度它真的有點像賭場的拉霸機,你永遠覺得「再一個 prompt 就好了」,這次骰到好點數、下次壞一點、再下次又給你驚喜,然後你就在那邊來來回回,覺得生產力爆棚,實際上花了更多時間。

    再往上一層看公司跟產業也是一樣的故事。Uber 四個月就把一整年的 AI credit 預算燒完;DORA 的研究發現 AI 其實是個放大器,PR 數量變多很多時候只是「活動量」變多,review 時間拉到三倍、incident 變兩倍,最後你還要回頭擦屁股。而 Sam Altman 跟 Dario Amodei 這些大佬,最近也都默默把「AI 會讓大量白領工作消失」的說法改口了,我自己猜跟兩件事有關,一個是那個一兆美元等級的 IPO,一個是數據根本還沒支持他們之前的預測。

    但這集我最想講、也最擔心的,其實是 junior 的能力斷層。我們這一代是一行一行 code 慢慢寫、一場一場架構會議慢慢熬出來的,AI 對我們是放大既有的能力;可是現在剛進職場的新鮮人,還沒經過那些扎實的 struggle 就直接靠 AI,產出看起來很順、很有理有據,但那些東西其實沒有真的內化到他們腦子裡。職缺又變少、訓練又變淺,這個雙重夾擊我覺得是現在最被低估的問題。

    最後我還是給了兩個比較樂觀的想像,至於是哪兩個,留給你自己看完。有不同想法的話歡迎在下面留言告訴我,我很期待看到一些好的討論。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (02:07) 上集裸辭影片的回饋:為什麼留言一片和氣?
    (04:26) 進入主題:我們是不是高估了 AI 的生產力?
    (05:40) 第一層 開發者:METR 研究證明你以為快了,其實慢了 19%
    (09:03) 達克效應被 AI 弭平:連專家都會過度自信
    (10:18) 為什麼沉迷 coding agent?它其實像賭場拉霸機
    (11:18) 第二層 公司:Token Maxxing 與 Uber 燒爆 AI 預算
    (12:18) DORA 研究:AI 是一個放大器
    (13:49) 第三層 產業:Dario、Sam Altman 的末日論
    (14:30) 為什麼這些大佬最近都改口了?
    (15:29) 兩個改口的原因:一兆美元 IPO + 數據不支持
    (17:11) 我認為最大的問題:Junior 的能力斷層
    (21:07) 兩個樂觀的可能:教育補上 + 能力被推往上游
  • 矽谷輕鬆談 Just Kidding Tech

    S2E59 我裸辭了:錢可以再賺,但時間不會

    05/31/2026 | 22 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    一年前的五月,我在頻道上立了一個計畫,十萬訂閱就裸辭。那聰明的你可以看一下下面的訂閱數,是不是還沒到十萬?所以你可能會想,Kenji 這樣計畫是不是大失敗了?從數字來看的確是沒錯,但其實我本來就想裸辭,十萬這個目標從頭到尾都是定給外面的人看的,對我自己來說,有沒有到十萬我都會走。我一直很在意一件事,就是不要把手段跟目標搞混,很多人不小心把賺錢從一個手段,變成了人生的主要目標,至少這件事我沒有混在一起。

    這集我會用最自然的方式,把腦中的想法直接講出來,內容大概分兩部分。

    第一部分先給對我比較不熟的朋友,順便回答一個大家應該都很好奇的問題,就是我因為這個決定,到底放棄了多少薪水。底薪、bonus、還有很多人會算進去但我自己當成買樂透的股票選擇權,這集我都會講。如果你自認是比較膚淺的朋友,其實看完薪水可以就先離開影片,沒關係 😊

    第二部分才是我最想聊的:為什麼一份薪水還不錯、環境我也蠻喜歡的工作,我最後還是決定走。簡化下來原因有兩個,一個是錢夠用了,一個是時間不太夠用。

    關於錢,我講了一個自己覺得很神奇的觀察,就是我現在看到薪水入帳,其實已經沒什麼感覺了。後來我發現這種無感對我來說反而是一個訊號,有的人看到薪水入帳會很開心,那很適合繼續工作;像我這種看了無感的,要嘛就是想去賺更多更多來刺激那個感覺,要嘛就是該走另一條路,而我選了後者。

    關於時間,這大概是最打到我的部分。錢是可以再賺的,但時間是一個遞減函數,從你出生那一刻就開始往下掉。這件事在有了兩個小孩之後特別明顯,他們長大真的很快,現在已經會用自己的方式來說服我,跟我盧說拜託啦拜託啦我真的會乖,看他這麼可愛你就投降了。我一到五最精華的時段如果一直被綁住,這些時間我是換不回來的。

    後面我還會聊到幾個比較真實的點:為什麼大家以為裸辭會鬆一口氣,但我其實沒什麼起伏;剛裸辭那一週,身體竟然反射性地九點就想衝回電腦前開會;還有我朋友在 Threads 上丟的一個問題,他說你不覺得「裸辭」這個詞本身就很怪嗎?至於裸辭之後到底要幹嘛,以及我接下來打算怎麼做,這集也都會講。

    如果你也卡在一份不討厭、但也不是真心想做的工作裡,或你早就在裸辭這條路上走很久了,這集你應該會有共鳴。看完歡迎在留言區跟我分享你的故事,我很想聽。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 我裸辭了!
    (02:29) 我是誰:從台灣到矽谷的十年職涯
    (04:13) 大家最好奇的:裸辭放棄了多少薪水
    (06:14) 裸辭的真正原因:錢夠用了 + 時間不太夠
    (08:03) 看到薪水入帳沒感覺,代表我該走另一條路
    (09:06) 時間是遞減函數:錢可以再賺,但時間不會
    (10:08) 原因二:時間不太夠用了,不願意犧牲陪伴小孩的時間
    (12:10) 裸辭後的真實心情
    (13:39) 朋友最愛問:你裸辭之後打算幹嘛?
    (14:02) 剛裸辭那週,身體還反射想衝回電腦前開會
    (15:27) 你不覺得「裸辭」這個詞很怪嗎?
    (17:15) 裸辭後頻道會有什麼變化?
    (19:08) 歡迎加入頻道會員「裸辭俱樂部」
More Technology podcasts
About 矽谷輕鬆談 Just Kidding Tech
商業合作請來信 👉 jktech.podcast@gmail.com 這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech
Podcast website

Listen to 矽谷輕鬆談 Just Kidding Tech, TED Radio Hour and many other podcasts from around the world with the radio.net app

Get the free radio.net app

  • Stations and podcasts to bookmark
  • Stream via Wi-Fi or Bluetooth
  • Supports Carplay & Android Auto
  • Many other app features