如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
這次的測試有點得來不易。Fable 5 才出沒幾天,就被美國商務部用出口管制直接下架了,而我剛好在它被封禁的前幾天,用同一個 prompt 讓它跟 Opus 4.8 正面對決過一次。現在 Fable 5 已經不能存取了,所以這大概是我最後一批能測到它的紀錄。
先講這個封禁有多離譜。出口管制平常是拿來限制晶片的,這次是史上第一次拿來管軟體,而且開的是地圖砲,不管你人在不在美國,只要你是外國人就不能用,連 Anthropic 內部的外國員工都一起被擋在外面。據報導,是 Amazon 的 CEO Andy Jassy 直接去跟政府通風報信,但他給的理由其實超級站不住腳。這裡面到底多少是政治、多少是 Anthropic 自己前面恐懼行銷做太滿,我在影片裡聊了一下我的看法。
至於對決本身,我設計了一個小陷阱:同一個 prompt、同一個 effort level,看起來很公平,但其實這兩隻模型偏好的指令風格完全不一樣,你用同一套講法去問它們,對其中一邊是有點吃虧的。是哪一邊吃虧、為什麼,我在實測前會先講清楚。
我要它們做的,是一款 3D 版的皮卡丘 Flappy Bird,畫面要好看、每得十分要有場景轉換。一隻是話很多、先把設計決策跟你講清楚才動手;另一隻是話不多、直接開做、還自己跑去驗證。最後做出來的兩款遊戲,美術、手感、難度差蠻多的,我兩款都實際玩給你看,誰比較能讓人想一直玩下去,你看完應該會有自己的答案。
玩完我自己冒出一個念頭:我們會不會正在走向一種「你想玩什麼遊戲,就現場幫你生一個」的未來?以前是演算法推薦你看過的貼文跟影片,那以後生圖、生遊戲、生影片越來越強,會不會連你看到的遊戲、影片都能即時客製化?光是一個 one-shot prompt、十幾分鐘就做到這個程度,我是有點被驚豔到。
你覺得這兩隻皮卡丘哪一個比較好玩?看完歡迎在下面留言告訴我。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(01:46) 生平第一次現場看世界盃
(07:32) Fable 5 跟 Mythos 5 為什麼被封禁?
(08:47) Amazon CEO 通風報信?我覺得很廢的封禁理由
(10:44) 封禁之後會怎樣?我的預測
(11:45) 開始實測:為什麼同 prompt 對 Opus 不公平?
(13:46) Fable 5 怎麼做:省話、自己用 Playwright 驗證
(15:19) Opus 4.8 怎麼做:更透明、講設計決策
(17:28) 實際玩 Opus 4.8 做的版本
(19:05) 實際玩 Fable 5 做的版本
(21:16) 未來會不會「想玩什麼遊戲就生什麼」?
(22:13) 總結:這只是一次性測試,prompt 對 Fable 有利