DeepSeek + OpenAI o3 ft. 林彥廷
很榮幸可以邀請到 Taiwan Llama 的作者林彥廷,我在直播中才知道彥廷剛剛完成他在美國 Meta Llama 的實習,做的正是推理模型相關的題目。我想來想去好像我找不到比他更適合的對談者了。
大綱:
一、三大事件回顧:DeepSeek R1、開源與 ChatGPT o3-mini
二、晶片管制影響與未來封鎖可能
三、新推理模型時代:DeepSeek R1、o3 與多步驟推理
四、DeepSeek 的重要性:開源衝擊與複現方法
五、未來一年趨勢:Agent AI 與推理應用擴張
六、開源意義:台灣 Llama 與社群應用案例
七、使用體感與模型選擇:R1、o1、o3-mini
八、自架 DeepSeek 與資安考量:Distill 版本、API、資料隱私
九、言論審查與台灣價值:審查機制、價值觀調教
十、台灣發展視角:若我是總統,如何促進 AI?
十一、DeepSeek 公司的實力:Moe 技術與低成本傳聞
十二、訪談結尾與問答
一、三大事件回顧:DeepSeek R1、開源與 ChatGPT o3-mini
- DeepSeek R1 上線:和 ChatGPT o1 一樣聰明,但成本只有一半,還是「中國製造」。Ben Thompson 把 DeepSeek 稱作「人類的大禮物」。
- DeepSeek R1 免費開源:任何人都可以拿來用,不只是在中國追上美國而已,而是現在全世界都知道如何「用火」來做推理模型。
- OpenAI 推出 ChatGPT o3-mini:包含 o3-mini 以及 o3-mini-high,號稱全世界最聰明的模型(至少在某些任務上),同時價格比較便宜。
李慕約:
彥廷,你會如何簡單總結這段期間發生的事情呢?
林彥廷:
如果也要用三句來說,我會這樣下結論:
- OpenAI 推出新模型:不意外地更便宜、更好,也更快。
- 中國方面 DeepSeek:他們做出了一個大致追上 ChatGPT o1 的開源模型,展示出中國在這方面的技術實力,讓外界看到「其實可以複現方法」。
- 晶片管制:美國對中國的晶片管制似乎沒起到預期的效果,因為 DeepSeek 依舊練出了很大的模型。這讓很多人開始重新評估相關的財經與政治角力。
二、晶片管制影響與未來封鎖可能
李慕約:
回到你剛才提的「晶片管制沒效」這點,其實在外部資訊上,我們不太清楚 DeepSeek 具體用了什麼硬體。
有說法指他們用 H800 或 H100;也有人懷疑他們是用某些租用模式。我會想追問:你是否覺得美國之後會加強封鎖?如果封鎖加強了,DeepSeek 會受到多大影響?還是他們會繼續想辦法繞過?
林彥廷:
我自己推測,他們可能真正在訓練時還是用到 H100,因為光靠 H800 或 A800 的效率實在太差。我想美國政府也知道這些漏洞的存在,只是還在斟酌怎麼一點點補齊。
至於未來會否整個卡死?我覺得還是有點難。中國的公司大多有能力繞道到新加坡、馬來西亞等地方去取得或租用。總之,管制會越來越嚴,但大公司還是有辦法取得資源,差別在於付出更多的代價或者繞更複雜的路徑。
三、新推理模型時代:DeepSeek R1、o3 與多步驟推理
李慕約:
好,那以上大致就能說明:「春節期間 DeepSeek R1 出來了;OpenAI 推了 o3-mini;兩家在「推理模型」這塊都進步神速。
那什麼是推理模型?原本大家熟悉的都是「大型語言模型」(LLM)像 ChatGPT-3.5 或 4.0。這些模型擅長自動接續文字,但不一定擅長多步驟推理。推理模型則會在內部「自言自語」,先把思路組織好再輸出結果,所以更有可能解決未知問題,在數理、程式等面向接近博士水準。
現在看起來,OpenAI 有 o1、o3 系列算是推理模型,DeepSeek 有 R1 也是推理模型。彥廷,你覺得我的理解對不對?
林彥廷:
很正確。補充一點:Anthropic 的 Claude 也有類似「思維鏈」的機制,只是他們不顯示出來。他們在網頁版實作時,採用邊想邊輸出的風格,而 DeepSeek R1 會把整個「自言自語」清楚地列出來,這對使用者來說更透明。
(延伸閱讀:關於 Claude Sonnet 網頁版之推理機制,可參考 Source: antthinking : r/ClaudeAI )
四、DeepSeek 的重要性:開源衝擊與複現方法
李慕約:
好的,那再來就是「DeepSeek 為什麼重要」?
我先說我的觀點:
- 我原先以為推理是一件很困難的事情,只掌握在 OpenAI 手上;結果 DeepSeek 展現了「中國也能做」。
- 我原本也以為中國 AI 公司與美國差距很大,加上被晶片管制更難突破;結果 DeepSeek 顯示他們完全能追上,而且還直接開源分享。
- 一方面,開源是一件很重大的事——不只是中國追上,而是全世界都拿到了方法。
彥廷,你覺得 DeepSeek 重要性在哪?
林彥廷:
我同意你的幾點看法。我補充的是:DeepSeek 等於告訴全世界,做推理模型不是神話,只要你掌握方法並有足夠的算力,就能做出來。
原本我在 Meta(做 Llama)那段時間還覺得:「開源界很難追上 OpenAI」,特別是 o1 出來後,我感覺開源界落後至少一年到一年半。
可 DeepSeek 公開 R1,讓人驚訝地發現「也許只落後半年」。當然,這背後還涉及他們如何取得資源,但方法論已經洩露得很清楚了。
五、未來一年趨勢:Agent AI 與推理應用擴張
李慕約:
那我們就接著談「接下來一年可能的影響」。
我的想法:
- 「推理」如同火種,本來只有 OpenAI 會用火,現在連 DeepSeek 也做到了,而且還教大家怎麼用。這意味更多人可以嘗試 AI Agent 的應用。
- 「Jevons Paradox」(傑文斯悖論):效率越高,成本越低,就會有更多人用,需求整體反而擴增。
- OpenAI 也因此受到壓力,可能會更加開放思維鏈或採取更開源的策略——比如最近的 Reddit AMA,Sam Altman 也在檢討說:「過度封閉是不是錯誤」。
彥廷,你怎麼看今年——甚至未來 1~2 年——的發展?