PodcastsTechnology矽谷輕鬆談 Just Kidding Tech

矽谷輕鬆談 Just Kidding Tech

柯柯與肯吉在矽谷
矽谷輕鬆談 Just Kidding Tech
Latest episode

229 episodes

  • 矽谷輕鬆談 Just Kidding Tech

    S2E56 Anthropic 創辦人賭 60%:2028 年 AI 開始自己造 AI

    05/10/2026 | 21 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    Anthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章,預測 2028 年底以前有 60% 的機率,AI 會開始自己研發下一代的 AI。

    聽起來很扯,但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的,平常都在跟政府、白宮談 AI 政策,所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來,一步一步推到這個結論。

    裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型,人類研究員大概只能做到 4 倍,最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時,年底可能會看到連跑 100 小時的模型。

    不過我自己覺得這集最有意思的,是一個比較哲學的問題:AI 做研究比較像發現相對論,還是在組樂高?這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手,那一手到底算不算創意?

    另一個我看完印象很深的,是 AI 對齊的風險。有個概念叫「複利錯誤」,你每一代都做到 99.9% 的準確度,跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試,它有沒有可能一直都在假裝對齊?目前其實沒人有答案,我自己看完是不太敢樂觀。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (02:15) Jack Clark 是誰?為什麼他的預測值得認真聽
    (04:28) 第一個理由:AI 寫程式的能力正在爆炸式成長
    (06:16) 從 36 秒到 12 小時:AI 長時間任務的曲線
    (08:13) 外插一下:明年 40 天、後年 400 天的 AI agent
    (09:15) 第二個理由:AI 開始能複製論文、優化模型
    (11:38) AI 做研究比較像發現相對論,還是組樂高?
    (12:47) AlphaGo 第 37 手:那一手到底算不算創意?
    (14:33) AI 對齊的風險:教 AI 不作弊其實很微妙
    (15:31) 複利錯誤:99.9% 準確度為什麼撐不過 500 代
    (16:39) 當 AI 比你聰明,你還驗證得了它嗎?
    (18:11) 預測對錯不重要,重要的是學會他怎麼推導
  • 矽谷輕鬆談 Just Kidding Tech

    S2E55 GPT-5.5 深入解析:為什麼從 Claude Code 跳到 Codex?

    05/03/2026 | 27 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    各位,GPT-5.5 這次真的做到了。

    我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。

    模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。

    另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。

    不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。

    後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。

    我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。

    System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?

    這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。

    (00:00) GPT-5.5 做到了:OpenAI 真的回來了?
    (02:01) 我的 AI 奇幻時刻
    (03:16) AI 開始接管我的內容工作流
    (05:41) 為什麼我從 Claude Code 轉到 Codex
    (06:52) Codex 的殺手級功能:Computer Use
    (07:35) Superpower Plugin:我願意轉換的關鍵
    (09:35) AI 工具切換能力正在變成核心技能
    (11:26) 工具不是重點,駕馭 Agent 才是
    (12:49) GPT-5.5 到底強在哪?
    (16:51) System Card 深讀:模型到底怎麼變了?
    (18:57) 思想鏈會不會只是編給你看的?
    (20:40) 模型會不會刻意裝弱?
    (24:10) AI 工具風向變太快
  • 矽谷輕鬆談 Just Kidding Tech

    S2E54 LLM 賭錯方向了?從駕馭工程到世界模型

    04/26/2026 | 24 mins.
    👉 矽谷輕鬆談專屬優惠連結:https://nordvpn.com/jktech
    訂閱即額外多送 4 個月|30 天退款保證
    #NordVPN

    🔒 本集節目由 NordVPN 贊助

    AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站,以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化,我們的防護也要跟上。

    NordVPN 內建「威脅防護」,在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器,就連在咖啡廳用公用 Wi-Fi 也能全程加密保護,不用靠感覺,交給系統幫你顧。

    每個月大概一杯咖啡的錢,就能讓你的網路安全從被動靠感覺,變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看,訂閱額外多送 4 個月,30 天不滿意直接退,完全沒有損失。

    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    過去幾年,我們看到 AI 模型的能力一路快速進步,從一開始大家在研究怎麼把 Prompt 寫好,到後來開始加入工具、記憶、工作流、狀態管理,也就是這幾個月很紅的 Harness Engineering 駕馭工程,讓模型不只是回答問題,而是可以更像一個真正能做事的 AI Agent。

    所以很自然地,我們會開始想一個問題:如果模型繼續變強,再加上駕馭工程,把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來,那這條路會不會就是通往 AGI 的答案?🤔

    這一集我想從這個問題出發,聊聊我最近一直在思考的另一個角度:世界模型。

    因為如果大語言模型本質上還是在理解文字、預測下一個 token,那它到底是真的理解這個世界,還是只是從大量資料裡學到「看起來應該怎麼回答」?

    世界模型想補上的,正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片,而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去,一台車突然切進來你需要煞車,一顆球飛過來你會直覺知道它大概會落在哪裡。

    這些對人類來說很自然的物理直覺,其實不只是「看過很多資料」而已,而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向,就是希望 AI 也能建立類似的理解。🌎

    這集我會用比較白話的方式,聊聊為什麼光靠 LLM 可能還不夠,駕馭工程到底補了哪些東西,以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。

    我也會提到 Yann LeCun 近年一直推的 JEPA 架構,還有為什麼他認為 Sora 這類生成影片模型,雖然看起來很像理解世界,但其實跟真正的世界模型還是不太一樣。

    所以這一集不只是聊「下一個模型會不會更強」,而是想換一個角度來看:如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統,它到底還缺什麼?

    如果你最近也有一種感覺,覺得 AI 明明越來越強,可是用久了又會發現它離真正可靠的智慧還差一段距離,那這集應該會蠻值得聽的。🚀

    (00:00) 開頭
    (02:46) AI 詐騙時代的自動化防禦
    (04:37) 為什麼我們頻道這麼少廣告?
    (06:25) Meta 開發者體驗有多坑?
    (10:32) 為什麼光靠 LLM 不能達到 AGI?
    (12:22) Scaling Law 與 LLM 的天生限制
    (13:25) 為什麼需要 Harness Engineering 駕馭工程?
    (14:43) 另一條路:世界模型
    (15:36) 世界模型到底想解決什麼?
    (17:01) Sora 這類影片模型算世界模型嗎?
    (18:51) JEPA:預測抽象狀態,而不是像素
    (20:04) LeWorldModel 的新突破
    (22:01) LLM + 駕馭工程短期仍是主流
    (22:50) 未來可能是 Hybrid AI 架構
  • 矽谷輕鬆談 Just Kidding Tech

    S2E53 小龍蝦殺手 Hermes Agent 深度上手!Opus 4.7 到底有沒有變強?

    04/19/2026 | 28 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    上個禮拜小朋友學校放春假跟全家去了一趟大峽谷,這種壯闊的景色真的要定時補充一下,書本上、影片上看再多還是沒有現場的臨場感強烈,然後你就會突然覺得,平常在公司瞎忙、在那邊計較誰的 AI token 燒比較多,在這片峽谷底下一點意義都沒有 😎

    我最近買了一台 Mac Studio,本來是想拿來跑 local LLM 的,結果機器拿到以後一直擱著沒動工。剛好社群上都在瘋 Hermes Agent,想說那就先來裝裝看,沒想到一裝就回不去了。

    這集我會講為什麼我覺得它比 OpenClaw 小龍蝦好,而且也會聊到我之前利用 Anthropic Client SDK + Agent SDK 自幹的個人助理,我是怎麼做到主 agent 可以跟我一直聊天不中斷,然後把所有工作都交給背景的 sub-agent 去跑,整個體驗非常絲滑,但為什麼我還是決定使用 Hermes Agent 呢?這個我會在影片慢慢聊。

    另外,這禮拜 Anthropic 正式把 Opus 4.7 放出來了,不是大家期待的 Mythos,可以算是 Mythos 的安全閹割版。它有一個地方真的進步超多,就是檔案跟圖片的辨識能力,從 4.6 的 55% 直接跳到 4.7 的 99%,這個跳躍幅度完全不合理,我猜他們一定是找到了什麼訓練方法。但也不是全部都是好消息,我在影片裡會聊到為什麼換到 4.7 之後,你可能會突然發現自己的 Token 消耗變多了,整體花費變貴了。另外從三月開始,很多人都發現 Opus 4.6 的品質變差了,這是真的嗎?Anthropic 偷偷做了什麼事讓模型的思考能力下降?

    這集我也會順便帶一下 OpenAI 最新的 Agent SDK 設計理念、Qwen 3.6 為什麼在 12 天內就把 Gemma 4 的 coding 能力打得毫無還手之力、還有一些我一邊用 Hermes Agent 一邊在想的東西,像是當我們越來越依賴一家廠商、一個模型的時候,該怎麼去平衡這件事。

    總之就是有技術、有吐槽、也有一點旅遊心得,如果你最近也在用 Claude Code、或是在想要不要自己做個 agent、或是只是對 Anthropic 這波操作感到奇怪的,這集應該會蠻有共鳴的。

    看完如果有想法,歡迎在底下留言跟我聊聊。最近我越來越期待看到大家的討論區,因為總是可以看到一些我自己沒想到的角度。

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 開頭
    (02:19) 大峽谷景色太美:比誰 AI Token 燒得多一點都沒意義
    (05:34) 出去玩早睡早起身心舒暢 
    (07:06) Hermes Agent 上手心得:不要裝小龍蝦了
    (10:56) 自建 AI 助理:我怎麼做到主 agent 一直聊天不中斷
    (12:41) 既然自建 agent 也不錯,那我為什麼最後還是換掉它?
    (13:36) Hermes 名字背後的典故,與 skill 自動產生的設計
    (15:55) OpenAI Agent SDK 新方向:harness 與 compute 分開
    (19:07) Qwen 3.6 用 12 天把 Gemma 4 打趴
    (21:03) Opus 4.7 發表:不是 Mythos,為什麼變貴了?
    (22:38) Opus 4.6 真的變笨了嗎?完整時間線還原
    (24:31) 4.7 發表同時,Anthropic 做了一件更微妙的事
    (26:46) Anthropic 的 premium 還能收多久?
  • 矽谷輕鬆談 Just Kidding Tech

    S2E52 矽谷 10 年回顧:軟體工程師真的很爽!為何這是我最後一份打工?

    04/12/2026 | 19 mins.
    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
    👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

    今年,我在美國即將待滿 10 年了!🤯 回想當初,身為一個臺大電機畢業生,出國其實完全不在我的計畫內。一切的起心動念,竟然只是因為不想跟柯柯談「沒有期限的遠距離戀愛」!😂 就這樣,我一路從半年衝刺托福、申請 CMU 矽谷分校,到落地美國第一天不去放行李,而是直接在「機場交車」準備全力找工作,開啟了我在美國這十年的破關打怪之旅。

    這十年間,我經歷了 Square 這樣頂尖科技公司的高標準文化洗禮,也坐過公司股價從 20 塊狂飆到 300 塊、最後又跌下來的真實雲霄飛車,這段震撼教育讓我深刻體悟到「你永遠賺不到認知以外的錢」。雖然網路上常常看到大家抱怨灣區的缺點,但我必須大聲說一句真心話:在美國當軟體工程師,真的是太爽了!不用一直加班,同事間互相尊重,這十年真的讓我紮實地累積了專業與資產。

    不過,既然這麼爽,為什麼我會決定:「這應該是我最後一份幫別人打工的工作了」?😫 隨著這一年 Claude Code、Cursor 等 AI 工具的突飛猛進,我發現自己有太多新的想法想要實現。當大腦不斷在公司專案與個人頻道間瘋狂切換,每天還要花大把時間在正職工作上,真的讓我覺得很煩躁,面對這個典範轉移的時代,我認為「不行動的風險,反而比留在原地更大」

    本集精彩亮點:
    ✈️ 衝動赴美與機場交車的超狂開局: 為了不談遠距離戀愛而開啟的留學路!帶你回顧我落地美國第一天,不去安頓住宿直接約交車的破關打怪期。
    🎢 股價 15 倍雲霄飛車的震撼教育: 在 Square 經歷股價暴漲又暴跌的血淚教訓,這段經歷讓我深刻體悟:為什麼你永遠賺不到「認知以外的錢」。
    💻 打破勸退文迷思,矽谷工程師真心話: 網路上大家都在抱怨灣區?我必須大聲說:在美國當軟體工程師真的「太爽了」!
    🤯 AI 時代的反思與「最後一份打工」宣告: 腦袋有滿滿的點子想實現,每天被正職綁住真的好煩躁!不行動的風險反而更大!

    🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

    (00:00) 美國 10 年回顧
    (01:49) 別人的意見永遠只是參考
    (02:50) 為什麼我會來美國?
    (04:10) 半年衝刺申請留學與錄取 CMU 矽谷分校
    (06:48) 高速成長的一年:第一天機場交車 + Airbnb 住十個月
    (08:55) 加入 Square:體驗頂尖企業文化與多元性
    (11:27) 你賺不到認知以外的錢
    (13:16) 疫情爆發時把大螢幕扛回家的趣事
    (14:20) 核心體悟:在美國當軟體工程師真的太爽了
    (16:49) 這是我最後一份打工!

More Technology podcasts

About 矽谷輕鬆談 Just Kidding Tech

商業合作請來信 👉 [email protected] 這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech
Podcast website

Listen to 矽谷輕鬆談 Just Kidding Tech, The AI Daily Brief: Artificial Intelligence News and Analysis and many other podcasts from around the world with the radio.net app

Get the free radio.net app

  • Stations and podcasts to bookmark
  • Stream via Wi-Fi or Bluetooth
  • Supports Carplay & Android Auto
  • Many other app features
Social
v8.8.16| © 2007-2026 radio.de GmbH
Generated: 5/11/2026 - 10:25:07 AM