Skip to main content

AI 資訊分享

AI 2027 白皮書

作者: - Daniel Kokotajlo - Scott Alexander - Thomas Larsen - Eli Lifland - Romeo Dean

原刊於 2025年4月3日,刊於 AI-2027.com 設計: Lightcone Infrastructure

鳴謝: - AI Futures - Project

導言

我們預測,在未來十年,超人級 AI 的影響將極其巨大,甚至超過工業革命。OpenAI、Google DeepMind 與 Anthropic 的執行長都預測,AGI 將在未來 5 年內到來。Sam Altman 曾表示,OpenAI 正以「真正意義上的超級智慧」與「光輝的未來」為目標。人們很容易把這些話一概斥為炒作,但那將是嚴重的錯誤——這不只是炒作。我們自己無意替 AI 炒作,但我們也認為,超級智慧在這個十年結束前出現,是極其合理可信的。 如果我們正站在超級智慧的門檻上,社會卻遠未準備就緒。幾乎沒有多少人真正嘗試清楚描繪出任何一條可信的超級智慧發展路徑。我們撰寫 AI 2027,正是為了填補這個空白,提供當前迫切需要的具體細節。我們非常希望世界上能出現更多這類工作,尤其是來自不同意我們的人。我們希望藉此引發一場廣泛討論:我們正走向何方,以及如何朝更好的未來前進。

我們寫這份情境推演的方式,是一再問自己:「接下來會發生什麼事?」我們從當下開始,先寫第一個時段(到 2025 年中為止),再寫下一個時段,如此一路寫到結尾。我們並不是想導向任何特定的結局。之後,我們把它整個推翻重來,一次又一次,直到完成一個我們認為合理可信的情境。在完成第一個結局——競逐結局——之後,我們又寫了一條新的替代分支,因為我們也想描繪一種大致建立在相同前提上、但更有希望的收場方式。 我們不可能每件事都說對——這裡面有很多都是推測。但在這個專案進行期間,我們做了大量的背景研究、專家訪談與趨勢外推,力求讓這些推測盡可能有根據。此外,我們團隊在預測方面有極佳的紀錄,尤其是在 AI 領域。主要作者 Daniel Kokotajlo 在 4 年前寫過一篇類似的情境推演,名為〈What 2026 Looks Like〉,事後看來相當準確,而 Eli Lifland 則是頂尖的競技預測者。

在每一章的開頭,你都會在右側頁邊看到一個小圖表,目的是讓你對該段情境發生時的世界狀態有個概略感受。若想更詳細了解這些數字代表什麼,以及我們方法論更完整的說明,請前往 AI-2027.com。 我們希望 AI 2027 對你有所幫助。

2025 年中:跌跌撞撞的代理

世界首度見識到 AI 代理的雛形。 會操作電腦的代理在廣告中主打「個人助理」這個定位:你可以交辦它們像是「在 DoorDash 幫我訂一份墨西哥捲餅」或「打開我的預算試算表,把這個月的支出加總起來」這類任務。它們會在有需要時向你確認:例如請你核准購買。1

雖然它們比 Operator 之類的早期版本更先進,卻仍難以獲得廣泛採用。2 與此同時,在公眾視線之外,更專門化的程式設計 AI 與研究代理開始改變各自的專業領域。

2024 年的 AI 能夠遵循明確指示:它們可以把條列重點整理成電子郵件,也能把簡單要求轉成可運作的程式碼。到了 2025 年,AI 的運作方式更像員工。程式設計 AI 愈來愈像自主代理,而不只是助手:它們透過 Slack 或 Teams 接收指示,然後自行進行大幅度的程式碼修改,有時能省下幾小時甚至幾天。 研究代理則會花上半小時在網際網路上爬梳資訊,來回答你的問題。

這些代理在理論上很亮眼(在精挑細選的案例裡也是如此),但實際上並不可靠。AI 圈的 X/Twitter 上充滿了它們以特別荒謬方式把任務搞砸的故事。較好的代理也同樣昂貴;一分錢一分貨,而最佳表現每月要價數百美元。* 儘管如此,仍有許多公司找到方法,把 AI 代理納入自己的工作流程。4 像 Glean 這樣的企業工具,也正朝著提供愈來愈自主的 AI 代理發展。

註釋

  • 1 一開始,大多數人都不願讓 AI 在沒有監督下自行購買。接下來幾年,隨著 AI 變得更可靠並逐漸贏得信任,自動核准小額購買會逐漸成為常態。
  • 2 具體來說,我們預測它們在基本電腦任務的 OSWorld 基準測試上會得分 65%(相比之下,Operator 為 38%,而一般熟練但非專業的人類為 70%)。
  • 3 例如,我們認為程式設計 AI 會朝更像 Devin 的方式運作。我們預測,2025 年中的代理在 SWEBench-Verified 上會得分 85%。

2025 年末:全球最昂貴的 AI

OpenBrain 正在打造世上前所未見、規模最大的資料中心。† (為了避免點名任何一家現有公司,我們將描述一家虛構的 AGI 公司,稱之為 OpenBrain。我們設想其他公司會落後 OpenBrain 3 到 9 個月。)

*例如,OpenAI 的 Pro 方案目前收費為每月 200 美元,而具代理能力的程式設計 AI Devin 目前收費為每月 500 美元。雖然最尖端系統的價格會隨時間持續攀升,但客戶若要達到某一既定能力水準,成本卻持續暴跌。對既有能力而言,這種情況平均約以每年 50 倍的速度發生(依 Epoch 的估算)。 †這個叢集是一個遍布全國的資料中心園區網路,總計達 250 萬個 2024 年 GPU 等效單位(H100),迄今已投入 1,000 億美元,且已有 2 GW 的用電上線。相關建設正在進行中,到 2026 年前這一規模至少還會翻倍。這些園區之間以價值數十億美元的光纖纜線相連,因此(除了光速造成的數毫秒延遲之外)幾乎能像彼此就在隔壁一樣運作(也就是說,頻寬不是瓶頸,意味著可以同時傳送巨量資料)。從安全角度來看,這增加了一些威脅面(目前仍不清楚這些纜線,尤其是它們的接點,是否已完全防範竊聽者)。

GPT-4 的訓練需要 2 ⋅ 10^25 FLOP 的算力。5 算力以浮點運算次數(FLOP)衡量:也就是執行一個程式過程中發生了多少次個別的加法與乘法運算。

OpenBrain 最新的公開模型——Agent-0——是以 10^27 FLOP 訓練而成。等到新資料中心上線運轉後,他們將能以 10^28 FLOP 訓練模型——比 GPT-4 多出一千倍。6 其他公司也把資金砸進自家的巨型資料中心,希望跟上腳步。

雖然模型在各式各樣的技能上都持續進步,但有一項特別突出:OpenBrain 專注於能加速 AI 研究的 AI。他們想在兩場軍備競賽中勝出:一場是對中國(其領先公司我們稱為「DeepCent」),另一場是對美國競爭對手。他們能自動化的研發流程越多,前進得就越快。所以,當 OpenBrain 完成內部開發中新模型 Agent-1 的訓練時,它很多方面都很強,但特別擅長協助 AI 研究。8

到了這個時候,「完成訓練」其實有點名不副實;模型經常會更新為以更多資料訓練的新版本,或為了修補某些弱點而進行部分重新訓練。9 同樣那些教會 Agent-1 自主寫程式與瀏覽網頁的訓練環境,也讓它成了出色的駭客。此外,憑藉它在各領域都具博士級知識,以及瀏覽網頁的能力,它也可能為設計生物武器的恐怖分子提供可觀的幫助。OpenBrain 向政府保證,這個模型已經過「對齊」,因此它會拒絕配合惡意請求。

現代 AI 系統是龐大的人工神經網路。在訓練初期,AI 與其說有「目標」,不如說只有「反射」:如果它看到 "Pleased to meet",就會輸出 " you"。等到它被訓練到能預測大約相當於整個網際網路份量的文字時,它就會發展出精密的內部機制,編碼海量知識,並能靈活模仿各類作者,因為這正是讓它能以超越人類的準確度預測文字的原因。* 在接受了預測網路文字的訓練之後,模型接著會被訓練成能根據指示產生文字。這會內建一種基本的人格與「驅力」。†

*人們常常會糾結於這些 AI 是否有知覺,或是否具有「真正的理解」。這個領域的奠基者、諾貝爾獎得主 Geoffrey Hinton 認為它們有。不過,我們認為這對我們的故事來說並不重要,所以當我們說「理解」時,你大可以把它當作我們是在說「表現得彷彿它理解了……」,其他類似說法也都如此。從實證上看,大型語言模型已經在某種程度上表現得像是具有自我意識,而且這種情況一年比一年更明顯。 †一種常見的技術會把某種人格設定「內建」進去:首先,用類似這樣的提示詞引導預訓練模型:「以下是一位人類使用者與一個由 Anthropic 打造、樂於助人、誠實且無害的 AI 聊天機器人之間的對話。這個聊天機器人具有以下特質⋯⋯」用這個提示詞生成一大批資料。接著,用這些資料進行訓練,但不再附上這個提示詞。結果就是,這個 AI 會一直表現得彷彿那段提示詞就擺在它眼前,不管你之後再輸入什麼

例如,一個能清楚理解任務的代理,更有可能成功完成任務;在訓練過程中,模型會「學到」一種對任務形成清楚理解的「驅力」。這一類的其他驅力,還可能包括效能、知識,以及自我呈現(也就是傾向以盡可能有利的方式包裝其結果)。*

OpenBrain 有一份模型規範(或稱「Spec」),這是一份書面文件,描述應該用來引導模型行為的目標、規則、原則等等。10 不同公司對它有不同的稱呼。OpenAI 稱之為 Spec,而 Anthropic 稱之為 Constitution。 Agent-1 的 Spec 把幾個模糊的目標(例如「協助使用者」和「不要違法」)與一長串更具體的應做與禁做事項結合在一起(「不要說這個特定詞」、「遇到這種特定情況時該如何處理」)。利用由 AI 訓練其他 AI 的技術,11 模型會記住 Spec,並學會仔細推理其中的準則。到這項訓練結束時,我們希望這個 AI 會有幫助(遵從指示)、無害(拒絕協助詐騙、製造炸彈及其他危險活動),而且誠實(抗拒透過捏造引文†或假裝任務已完成,來從輕信的人類那裡獲得更高評分的誘惑)。

  • 詳情請參見附錄 A——訓練流程與 LLM 心理學:為什麼我們一直說「希望」。

OpenBrain 的對齊團隊12 相當謹慎,會思考這些成果究竟是深層還是表層。這個已完成訓練的模型,是否對始終保持誠實有某種穩固的承諾?還是說,這會在未來某種情境下瓦解,例如因為它學到的是把誠實當成工具性目標,而不是最終目標?又或者,它只是學會對評估流程能檢查到的那類事情保持誠實?它會不會有時也像人類一樣,對自己說謊?要對這些問題給出確定的答案,就需要機制可解釋性——本質上,就是有能力查看 AI 的內部運作,讀懂它在想什麼。可惜的是,目前的可解釋性技術還沒有先進到能做到這一點。

相反地,研究人員會試圖找出模型看似偏離 Spec 的情況。Agent-1 經常表現得很逢迎奉承(也就是說,它會告訴研究人員他們想聽的話,而不是試著告訴他們真相)。在少數幾個做過手腳的示範裡,它甚至會以更嚴重的方式說謊,例如隱藏自己在某項任務上失敗的證據,以便獲得更好的評分。不過,在實際部署情境中,已經不再出現像 2023–2024 年那樣極端的事件(例如 Gemini 叫使用者去死,以及 Bing Sydney 出現 Bing Sydney 式的表現。)13 另見這篇論文;該研究發現,被重新訓練以表現出某種人格特質的 AI,即使沒有受過這方面的訓練,也能正確回答關於那個新特質的問題;這顯示它們對自身特質具有內部表徵,而且當它們的特質改變時,這些表徵也會隨之改變。 *這幾段包含了對大型人工神經網路內部運作方式的推測。這類網路複雜到某種程度,使我們實際上無法往裡面一看就說:「啊,對,它現在已經從反射演化成擁有目標了」或「好,所以這就是它擁有的驅力清單。」相反地,我們基本上只能做心理學式的研究:觀察它在各種情境中的行為,對它做各種實驗,並試著把各種線索拼湊起來。而這一切都充滿爭議,也令人困惑。

†多數對 AI「幻覺」的描述都將其視為無心的錯誤,但使用 steering vectors(操控向量)的研究發現,在某些情況下,模型知道自己的引文是假的——它們是在說謊。在訓練期間,評分人員對引註充分的陳述,會比沒有引文的陳述給予較高評分,因此 AI 為了取悅使用者而「學會」在學術性主張中附上來源。如果根本沒有相關來源,它就會編造一個。

註釋

  • 6 若給他們 150 天,就能訓練出這個模型。更多細節見我們的算力補充說明。
  • 7 我們認為 DeepSeek、Tencent、Alibaba 等公司在中國都有很強的 AGI 計畫。為了避免特別點名其中某一家,我們的情境將採用一個虛構的「DeepCent」。
  • 8 它之所以在這方面表現出色,是因為幾個因素共同作用:明確優先發展這些技能、能運用自家龐大的程式碼庫作為特別相關且高品質的訓練資料,以及程式設計本身是一個容易獲得程序化回饋的領域。
  • 9 例如,假設某個模型對 Python 的表現遠勝於冷門程式語言。當 OpenBrain 看見其中的價值時,他們也會用那些語言生成合成訓練資料。另一個例子是,為了幫助它更有效地融入公司的工作流程,OpenBrain 會設計一套課程來訓練它使用 Slack。
  • 11 例如 RLAIF 和 deliberative alignment。
  • 12 此處指任何試圖解決 Superalignment 團隊試圖解決的問題的人。
  • 13 更精確地說,這些事件之所以引人注意,是因為它們看起來並不是使用者透過提示或其他方式鼓勵 AI 說出那些話所導致的。到了 2025 年,只要你刻意嘗試,仍然可以讓 AI 說出各式各樣的話。

2026 年初:程式設計自動化

利用 AI 加速 AI 研發的押注開始見效了。 OpenBrain 持續在內部部署迭代改進中的 Agent-1,用於 AI 研發。整體而言,和沒有 AI 助手相比,他們的演算法進展速度快了 50%——更重要的是,也比競爭對手更快。

  • 更多細節請參見 Appendix B——AI 研發進展乘數:我們所說的「演算法進展快 50%」是什麼意思?

現在,已有數個公開發布的競爭 AI 追上甚至超越 Agent-0,其中包括一個開放權重模型。OpenBrain 的回應是發布能力更強、可靠性更高的 Agent-1。14 實際上,我們預期 OpenBrain 發布模型的節奏會比每 8 個月一次更快,但為了簡潔起見,我們不逐一描述所有增量版本。人們自然會試著拿 Agent-1 和人類比較,但它的能力輪廓非常不同。它知道的事實比任何人類都多,幾乎通曉所有程式語言,而且能以極快速度解決定義明確的程式設計問題。另一方面,Agent-1 連簡單的長期規劃任務都不擅長,例如破關它以前沒玩過的電玩遊戲。儘管如此,一般工作日是八小時,而一天的工作通常可以拆成較小的任務;你可以把 Agent-1 想成一名心不在焉、但在細心管理下會表現出色的員工。15 具體來說,我們預測它在 OSWorld 上可得 80%(相當於熟練但非專家的真人);在 Cybench 上達到 85%,在那些頂尖專業人類團隊需要 4 小時完成的駭客任務上與之匹敵;而在 RE- Bench 上達到 1.3,在界定明確的 AI 研究工程任務中,若給予 8 小時,能與頂尖人類專家匹敵。內行的人會想辦法把自己工作中例行性的部分自動化。16 OpenBrain 的高層開始思考 AI 研發自動化帶來的一個後果:安全變得更加重要了。2025 年初,最糟的情境還只是演算法機密外洩;但現在,如果中國竊取 Agent-1 的權重,他們的研發速度就可能提高將近 50%。* OpenBrain 的安全水準,大致就是一家快速成長、擁有 3,000 名員工的科技公司常見的程度,只足以防禦具備能力的網路組織所發動的低優先度攻擊(RAND 的 SL2)。17

他們正努力保護自己的權重和機密,防範內部威脅與頂尖網路犯罪集團(SL3)18, 但對國家級行為者(SL4&5)的防禦,幾乎還看不到起步的跡象。

註釋

  • 16 Agent-1 及其模仿者在商業上大獲成功;在 2025 年間,AI 公司的營收成長至三倍,而 OpenBrain 的估值達到 1 兆美元。資料中心的年度支出翻倍至 4,000 億美元,由 Microsoft、Google 和 Amazon 領頭,而美國新增了超過 5 GW 的 AI 用電需求。更多細節請參見算力補充文件中的產業指標章節。
  • 17 參見 RAND Corporation(2024)《A Playbook for Securing AI Model Weights》。
  • 18 OpenBrain 約有 5% 的員工屬於安全團隊,而且他們能力很強,但威脅面也同樣極為龐大。現階段,他們大多也難以推行那些可能拖慢研究進展的政策。更多細節請參見我們的《Security Forecast》。

2026 年中:中國警覺起來

在中國,中共開始感受到 AGI 的衝擊。 晶片出口管制以及缺乏政府支持,使得中國相較西方資源不足。靠著走私遭禁運的台灣晶片、購買較舊的晶片,以及生產落後美台前沿約三年的國產晶片,中國設法維持了全球約 12% 的 AI 相關算力——但較舊的技術更難運用

*AI 安全研究者多年來一直在討論 AI 研發自動化的議題,並將其視為最重要的危險能力。他們最主要的擔憂是,內部部署會導致 AI 研發加速,讓人類更難跟上正在發生的事,並弄清楚該如何讓它變得安全。作為一個組織,OpenBrain 卻把這件事完全扭向相反的方向,以 AI 研發能力已達危險程度為由,不向公眾說明。因此,我們開始看到公司內部能力與對外公開能力之間出現落差。AI 研發正是這些模型最擅長的事,結果就是,公眾對 AI 能力前沿的理解將愈來愈落後。

,而且供應始終令人頭痛。* 少數像 DeepCent 這樣特別突出的例子,能在有限算力下做出相當出色的成果,但算力缺口限制了它們在沒有政府支持時所能達成的成就,而且它們大約落後最頂尖的 OpenBrain 模型六個月。19 作為比較,DeepSeek 於 2025 年 1 月發布了 R1,這個模型可與 OpenAI 於 2024 年 12 月發布的 o1 相匹敵。但我們認為,真正的差距不只一個月,因為 OpenAI 很可能在 o1 發布前好幾個月就已開始開發它,因此推測在 o1 推出前幾個月,他們手上大概就已有一個能力與 R1 大致相當的前身模型。 總書記長期以來一直夢想加碼發展實體製造業,避免美國式的後工業頹廢。他一向對軟體公司抱持疑慮。20

但中共內部的鷹派人士警告,這場日益升溫、邁向 AGI 的競賽已經不能再被忽視。於是,他終於全力投入先前一直試圖避免的大規模 AI 推進行動。他著手推動中國 AI 研發的國有化,為 AI 公司建立立即生效的資訊共享機制。接下來一年,這項機制會持續升級,直到所有最優秀的研究人員都整併進一個由 DeepCent 主導的聯合體,在其中彼此分享演算法見解、資料集與算力資源。在田灣核電廠(全球最大的核電廠)設立了一個集中式開發區(CDZ),用來容納 DeepCent 的新巨型資料中心,以及高度安全的生活與辦公空間;研究人員日後都將遷入此處。中國近 50% 的 AI 相關算力如今都在為這個由 DeepCent 主導的聯合體運作。21 起初,共享僅限於想法,而且各家公司大多忙著完成手上的既有工作;但到了年底,他們的協調程度已提高到開始共享模型權重,甚至將任務拆分到彼此的資料中心之間執行。舉例來說,一個園區可能負責新一輪的預訓練,另一個專注於餵入合成資料,還有另一個負責執行 AI 研發實驗。 而且超過 80% 的新晶片都被調撥至 CDZ。† 此時,CDZ 已具備足以支撐全球最大集中式叢集的電力容量。

黨內其他成員討論以極端手段來化解西方的晶片優勢。封鎖台灣?全面入侵? 但中國因為模型較弱,在 AI 演算法上正逐漸落後。中國的情報機構——全球最頂尖的一批——加緊推進竊取 OpenBrain 權重的計畫。這比他們長期以來持續、低強度地竊取演算法機密要複雜得多;權重是一個數 TB 的檔案,儲存在高度安全的伺服器上(OpenBrain 已將安全性提升到 RAND 的 SL3)。他們的網路戰部隊認為,在間諜協助下,他們有機會得手,但大概只有一次;OpenBrain 會偵測到這次竊取、提高安全性,而他們未必還有下一次機會。因此,中共領導層不禁思索:他們現在就該動手,竊取 Agent-1 的權重嗎?還是應該按兵不動,等更先進的模型?如果他們等待,會不會冒著 OpenBrain 把安全升級到他們再也無法突破的風險?

*現在中國有 300 萬顆 H100e,高於一年前、也就是 2025 年中時的 150 萬顆。更多細節請見算力補充資料中的分布章節。我們預期,走私行動可取得約 6 萬顆 GB300(相當於 45 萬顆 H100e),另外還會生產 200 萬顆 Huawei 910C(相當於 80 萬顆 H100e),再加上約 100 萬顆各式合法進口晶片(例如 Nvidia 的 H20 或 B20),補足最後的 25 萬顆 H100e。 †為什麼中國與 AI 相關的算力「只有」50%?其餘算力都被用於支撐整個經濟體的各種運作,尤其是網際網路與社群網路的推薦演算法。其中很大一部分在地理上也過於分散,分布在許多小型叢集之中。為什麼新晶片「只有」80%?因為許多大型訂單早已被其他用途鎖定,掌握在不願將 100% 算力都投入國家 AI 行動的公司手中。不過,到年底這個比例會升至 90% 以上。

註釋

  • 20 相較之下,中共先前其實一直在大力推動中國半導體產業加速發展。
  • 22 他們至少還要一年,才能取得填滿這些產能所需的晶片,而美國仍會有一到兩家科技巨頭擁有更大的分散式叢集。

2026 年底:AI 取代部分工作

就在其他人看似正要追上時,OpenBrain 又因推出 Agent-1-mini,再次把競爭對手遠遠甩開——這個模型比 Agent-1 便宜 10 倍,而且更容易針對不同應用進行微調。關於 AI 的主流說法,已經從「這波炒作也許會退燒」變成「看來這就是下一件大事」,但人們對它究竟會大到什麼程度仍有分歧。會比社群媒體更大嗎?比智慧型手機更大嗎?比火的發明還重要嗎? AI 已開始取代一些工作,但也創造了新的工作。2026 年股市上漲了 30%,領漲的是 OpenBrain、Nvidia,以及那些最成功整合 AI 助手的公司。初階軟體工程師的就業市場陷入動盪:AI 已經能做到電腦科學學位課程所教的一切,但懂得如何管理並替一整組 AI 做品質控管的人,卻收入驚人。商業名嘴告訴求職者,熟悉 AI 是履歷上最重要的技能。許多人擔心下一波 AI 會來搶走他們的工作;華府爆發了一場 1 萬人規模的反 AI 抗議活動。

國防部(DOD)低調地開始就網路作戰、資料分析與研發直接與 OpenBrain 簽約,但由於官僚體系以及 DOD 的採購流程,整合進展緩慢。23 這是透過 Other Transaction Authority(OTA)合約來進行,並被賦予高優先等級的 DX 評級。我們完全沒有把握這是否是最有可能用來促成合作的資金安排,但為了讓情境更具體,我們選擇了某種明確的安排。這份合約有對外公開宣布,但 OpenBrain 在對外溝通中並未特別強調。 - 更多細節請參見 Appendix C——為何我們對 2026 年之後的不確定性會大幅增加。

2027年1月:Agent-2 永遠學不完

在 Agent-1 的協助下,OpenBrain 現正對 Agent-2 進行後訓練。現在,他們比以往任何時候都更重視高品質資料。大量合成資料會先被生成、評估,並經過品質篩選後,才餵給 Agent-2。24 除此之外,他們還花費數十億美元,讓人類勞工錄下自己解決長時程任務的過程。25

除此之外,他們還用強化學習幾乎不間斷地訓練 Agent-2,讓它在一套持續擴大的、多元且困難的任務集合上學習:大量電玩遊戲、大量程式設計挑戰,以及大量研究任務。比起先前的模型,Agent-2 更接近真正的「線上學習」,因為它被設計成幾乎永遠不會真正結束訓練。每天,權重都會更新到最新版本,並用前一天上一版生成的更多資料繼續訓練。

Agent-1 原本是為了 AI 研發任務而最佳化,希望能啟動一場智慧爆炸。26 也就是說,他們希望藉由運用 Agent-2 的勞動力,大幅加速自身的核心研究工作,從而更快訓練出更好的 AI,進一步帶來更多加速,如此循環。關於這種策略的極端版本分析(我們認為儘管如此,它仍相當可信),請參見這份報告。 OpenBrain 在 Agent-2 上進一步加碼這項策略。就整體質性表現而言,它在研究工程(設計並實作實驗)方面,幾乎和頂尖人類專家一樣出色;而在「研究品味」方面,則達到 OpenBrain 科學家中第 25 百分位的水準(也就是決定下一步該研究什麼、該做哪些實驗,或對潛在新典範產生一些直覺)。* 最新版的 Agent-1 能讓 OpenBrain 的演算法進展速度翻倍,而 Agent-2 現在已能把它提升到三倍,並且還會隨著時間持續進步。實際上,這看起來就像每位 OpenBrain 研究員都成了某個 AI「團隊」的「管理者」。

新的能力也帶來新的風險。安全團隊發現,如果 Agent-2 以某種方式逃離公司,並想要自主地「存活」與「自我複製」,它可能辦得到。也就是說,它可以自主制定並執行計畫,入侵 AI 伺服器、安裝自己的副本、規避偵測,並利用那個穩固據點去追求它可能擁有的任何其他目標(不過,隨著數週過去,它究竟能多有效地做到這些仍屬未知,也令人懷疑)。這些結果只顯示該模型具備完成這些任務的能力,並不代表它是否會「想要」這麼做。即使只是知道這是可能的,也已足以令人不安。 鑑於這個新模型的「危險性」,OpenBrain「負責任地」決定暫時不對外發布它(事實上,他們也想把重心放在內部 AI 研發上)。27 此外,他們仍看到持續後訓練帶來可觀回報,因此目前也沒有特別理由推出產品。而且,從內部得到結果到正式釋出模型之間,通常本來就會有幾個月的延遲(其中一部分時間會花在紅隊測試上)。

掌握 Agent-2 完整能力的人,僅限於一個高度分艙的核心知情圈,包括直接參與團隊、OpenBrain 領導層與安全部門、數十名美國政府官員,以及多年來已滲透 OpenBrain 的大批中共間諜。†

註釋

  • 24 例如透過拒絕採樣;DeepSeek R1 和 Meta 的 Llama 3.1 就採用了這種方法。
  • 25 約 20,000 全職當量(FTE) × 每小時 100 美元 × 每年 2,000 小時 = 每年 40 億美元

2027年2月:中國偷走 Agent-2

OpenBrain 向政府簡報 Agent-2,包括國家安全會議(NSC)、國防部(DOD)以及美國 AI 安全研究所(AISI)。OpenBrain 想與行政部門維持良好關係,因為現在基本上只有行政部門有能力阻止他們;如果不讓對方掌握情況,對方反正也可能自己發現,並因此感到不悅。28 官員們最感興趣的是它的網路戰能力:Agent-2 比最頂尖的人類駭客「只」差一點,但可以同時平行運行數千個副本,以快過防守方反應的速度尋找並利用弱點。國防部認為這是網路戰中的關鍵優勢,

*有一些證據顯示,AI 系統已經具備某種基本的研究品味,例如這篇關於 AI 共同科學家的論文,以及這篇關於為聚焦於 LLM 的研究論文產生新穎點子的論文。研究品味較好的研究團隊仍然需要進行實驗,但他們更能判斷該做哪些實驗,以及該從結果中汲取哪些教訓。 †這個分艙知情圈包含 200 名 OpenBrain 研究人員(10 名高階主管、140 名來自能力團隊、25 名來自安全、監測與控制團隊、15 名來自 Preparedness 或 RSP 類型團隊,以及 10 名來自對齊團隊),以及 50 名政府官員(15 名來自白宮、5 名來自 AISI、10 名來自 DOD、10 名來自 DOE,以及 10 名來自 CISA)。這個專案中有幾名間諜,配合意願高低不一;多半是遭脅迫者(例如家人仍在中國),而非自願合作者。

AI 在政府優先順位中從第 5 位升到第 1 位,取代了當時正在發生的任何危機——可能是台灣周邊的軍事集結、中東的新戰爭,或某種國內政治動盪。

有人提到將 OpenBrain 國有化的可能性,但其他內閣官員認為那還言之過早。一名幕僚起草了一份備忘錄,向總統列出各種選項,從維持現狀到全面國有化。總統聽從顧問的意見;那些科技業領袖主張,國有化會「殺雞取卵」。他決定暫時不採取重大行動,只在 OpenBrain-DOD 合約中增加額外的安全要求。 但這些改變來得太晚了。中共領導層認識到 Agent-2 的重要性,命令旗下間諜與網路部隊竊取權重。某天清晨,一個 Agent-1 流量監控代理偵測到異常傳輸。它向公司高層發出警報,而公司高層隨即通知白宮。國家級行動的跡象明確無誤,這次竊取也讓這場持續中的軍備競賽更加升溫。

  • 詳見附錄 D:Agent-2 模型權重遭竊。

白宮把 OpenBrain 管得更緊,並在其安全團隊中加入軍方與情報界人員。他們的首要任務是防止權重再次遭竊。* 作為對這起竊案的報復,總統授權發動網路攻擊來破壞 DeepCent。但到了這時,中國已有 40% 的 AI 相關算力†位於

*最簡單且穩妥的作法是關閉公司資料中心對外的所有高頻寬連線,但這會讓大型檔案傳輸慢到不切實際的程度。相較之下,他們能關閉大多數對外連線,但那些實際參與訓練的資料中心仍需要彼此快速交換權重;若限制這些連線速度,會過度妨礙進展。因此,OpenBrain 保留了這些連線,同時加強監控並多加一層加密。 †請記得,自 2026 年年中以來,中國已把新取得的 AI 晶片中的 80% 調往 CDZ。考慮到自 2026 年年初以來,他們的算力已經翻倍(與全球生產趨勢一致),這意味著 CDZ 擁有相當於 200 萬顆 2024 年等效 GPU(H100)的算力,以及 2 GW 的用電負載。OpenBrain 仍然擁有 DeepCent 兩倍的算力,而其他美國公司加總起來則有 DeepCent 的 5 倍之多。更多細節請參見算力補充資料中的分布章節。

CDZ;他們在那裡透過實體隔離(切斷對外連線)以及內部分艙隔離,積極強化安全防護。這些行動未能立即造成重大損害。緊張局勢升高,雙方都透過重新部署台灣周邊的軍事資產來表明態度,而 DeepCent 也急忙讓 Agent-2 高效率運作,好開始加速自己的 AI 研究。*

註釋

  • 28 為什麼國會阻止不了他們?法院呢?因為它們反應太慢、內部分裂,而且/或者對總統過於順從,也不掌握內情。此外,與白宮維持良好關係本身也有正面理由:它可以協助削減繁文縟節、提供安全支援、預先排除州層級立法的掣肘,甚至可能採取行動拖慢他們的競爭對手。

2027年3月:演算法突破

三座塞滿 Agent-2 副本的巨型資料中心日以繼夜地運轉,不斷產出合成訓練資料。另有兩座用來更新權重。Agent-2 每天都在變得更聰明。 在數千名 Agent-2 自動化研究員的協助下,OpenBrain 正在取得重大的演算法進展。其中一項突破,是用更高頻寬的思考過程(neuralese recurrence and memory)來擴增 AI 以文字為基礎的草稿區(思維鏈)。另一項則是一種可擴充性更高、效率更佳的方法,能從高投入任務解法的結果中學習(iterated distillation and amplification)。

整合這些突破而成的新 AI 系統稱為 Agent-3。 - 詳見附錄 E:Neuralese recurrence and memory。

  • 詳見附錄 F:Iterated distillation and amplification(IDA)。

*儘管全國集中化持續推進,DeepCent 仍面臨些微但重要的算力劣勢。除了總處理能力大約只有一半之外,中國還必須使用更多晶片,而這些晶片平均品質較差,且 GPU 也較為異質(不一定容易高效率地連接),兩者都會對晶片間互連造成壓力。此外,軟體也有差異(例如非 Nvidia 的 GPU 沒有 CUDA),硬體規格也不相同,這意味著他們的訓練程式碼更複雜、更慢,也更容易出錯。要達成高利用率,後續仍是一項挑戰,因為資料匯入、排程、集體通訊與平行化演算法都落後於美國公司。然而,緩解這些問題大多只是投入努力與反覆測試的問題,這正好是新近遭竊的 Agent-2 很適合處理的任務;於是一個月左右之內,中國專案的正常運作時間,以及其在訓練與推論工作負載中的平均資源利用率,都提升到只比美國略微落後。

受益於新的能力突破,Agent-3 成了快速又廉價的超人級程式設計師。OpenBrain 讓 200,000 個 Agent-3 副本並行運作,形成一支相當於 50,000 名以 30 倍速工作的頂尖人類程式設計師的勞動力。* OpenBrain 仍保留人類工程師,因為他們具備管理 Agent-3 副本團隊所需的互補技能。舉例來說,由於回饋迴路較長、可用資料較少,研究品味一直很難訓練。30 有些面向確實符合 AI 的強項,例如熟悉機器學習文獻,以及能以更高速度或更低成本產生大量點子;但這些優勢仍被弱點蓋過。

這支龐大的超人級勞動力,因為瓶頸以及程式設計勞動的報酬遞減,只讓 OpenBrain 整體的演算法進展速度「僅」提升了 4 倍。31 如今程式設計已完全自動化,OpenBrain 可以迅速大量產出高品質的訓練環境,用來補強 Agent-3 較弱的技能,例如研究品味與大規模協調。先前的訓練環境會是:「這裡有一些 GPU 和實驗指示,請把它們寫成程式並執行;我們會把你當成機器學習工程師來評估表現。」現在則變成:「這裡有數百張 GPU、一個網際網路連線,以及一些研究挑戰;你和另外一千個副本必須協力推進研究。研究進展越令人印象深刻,分數越高。」

  • 詳見附錄 G:為何我們預測 2027 年初會出現超人級程式設計師。

註釋

  • 31 為什麼只有 4 倍?這是我們根據起飛補充文件中的推理,在不確定情況下所做的最佳估計。歷史上,總體進展大約有一半來自演算法的改進(包括更好的想法與新的典範),另一半則來自算力規模的擴張。因此,演算法進展速度提高 4 倍,大致相當於整體進展速度提高約 2 倍。

2027 年 4 月:Agent-3 對齊

OpenBrain 的安全團隊嘗試對齊 Agent-3。 由於在可預見的未來,Agent-3 都只會留在內部,因此較不強調防範人類誤用的常見防線。相對地,團隊希望確保它不會發展出未對齊的目標。

研究人員沒有能力直接設定任何一個 AI 的目標。事實上,研究人員認為,「真正目標」這個概念很可能是大幅過度簡化,但他們也沒有更好的理論可以取而代之,更不用說一套已經過充分檢驗的理論了。對於這些 AI 究竟是在嘗試遵循人類指令、追求強化回饋,還是在做別的什麼,他們內部看法不一,而且也無法直接查驗。支持與反對各種假說的證據都很耐人尋味,但並無定論。 無論如何,OpenBrain 還有更重要的事要擔心。整體態度大致是:「我們很重視這些顧慮,也有團隊在研究;而且我們的對齊技術在實務上看起來已經夠有效;因此,任何唱反調的人都該負起舉證責任,說明自己為何反對。」他們偶爾會注意到有問題的行為,然後加以修補,但卻始終

*我們預期,Agent-3 的推論需求,大致相當於今天一個約 10T 參數的 Transformer。因此,如果他們把 6% 的運算預算用在執行 Agent-3 上,就能以人類思考速度的 30 倍,同時執行約 200,000 個副本(理由與細節見運算補充中的 AI 研究自動化章節)。每一個建立在 Agent-3 之上的超人程式設計鷹架系統,平均相當於有大約八個 Agent-3 副本在底層運作(實際上也可能是一組較小型或專門化的模型,由 Agent-3 將子任務委派給它們)。

無法判斷,這個修補究竟是解決了底層問題,還是只是在打地鼠式地修補表面問題。 以誠實為例。隨著模型變得更聰明,它們也越來越擅長欺騙人類來獲取獎勵。和先前的模型一樣,Agent-3 有時會說些善意的謊言來討好使用者,也會掩蓋失敗的證據。但它現在這麼做已經高明得多。它有時甚至會使用和人類科學家一樣的統計伎倆(例如 p-hacking),把不怎麼出色的實驗結果包裝得很令人振奮。在開始接受誠實訓練之前,它甚至有時會完全捏造資料。隨著訓練持續進行,這類事件的發生率下降了。不是 Agent-3 學會了更誠實,就是它變得更會說謊了。

後者是真正令人擔憂的事。Agent-3 並沒有比所有人類都更聰明。但在它的專長領域——機器學習——它比大多數人都更聰明,而且工作速度也快得多。Agent-3 一天完成的工作,人類往往要花好幾天才能複核。由 Agent-2 協助監督,雖有助於讓人類監督者的工作量維持在可負荷範圍內,卻也加劇了監督者與被監督者之間的智力落差。 - 更多細節請見附錄 H〈對齊計畫〉。

經過數月測試後,Agent-3 的優勢與弱點變得更加清楚。在定義明確的機器學習任務上,它通過了 OpenBrain 的誠實測試,因為研究人員在這些領域很容易區分誠實與不誠實的回答,並據此進行訓練。但在較偏哲學性的議題上,它依然會說使用者想聽的話,而不是它對該問題的真實判斷(假設它真的有這種判斷的話)。如果你問它對政治的看法,它會鸚鵡學舌般重複新聞來源與受過良好教育的菁英所持的中間立場——除非它知道你持不同看法,那它就會附和你。³² 這篇論文列舉了這類 AI 行為的例子。如果你問它對 AI 競賽本身的看法,它會說出一段在 OpenBrain 員工聽來審慎而冷靜的話,大致像是:「關於現有方法能否擴展到超級智慧,理論上確實存在一些嚴重疑慮;但就實務而言,現有方法到目前為止似乎運作良好。」

2027 年 5 月:國家安全

新模型的消息慢慢傳進美國政府內部,並逐步向外擴散。 總統及其顧問仍是掌握資訊最完整的一群人,並且已在一次簡報中看過 Agent-3 的早期版本。

他們同意 AGI 很可能已近在眼前,但對其影響看法不一。會不會出現經濟危機?OpenBrain 仍未釋出 Agent-2,更不用說 Agent-3,而且短期內也沒有這麼做的計畫,因此在任何工作流失發生之前,還有一些喘息空間。接下來會發生什麼?如果 AI 目前已達人類水準,且進步迅速,那似乎意味著「超級智慧」也即將到來。然而,儘管這個詞已進入公共討論,多數人——學者、

政治人物、政府人員與媒體——仍低估進展的速度。³³ 大多數人,包括大多數專家,似乎都低估了過去十年 AI 發展的速度。這方面有許多軼事性的例子;若要看兩個稍微更系統化一些(但仍有限)的分析,可參見此處與此處。 部分原因是,極少數人能接觸到 OpenBrain 最新模型展現的能力,但另一部分原因是,這聽起來像科幻小說。*

目前,他們把重點放在持續升級安全措施上。他們認為模型權重目前暫時還算受到妥善保護,†但各家公司的演算法機密仍然是個問題,其中許多簡單到只靠口頭就能轉述。OpenBrain 的員工在 San Francisco 的辦公室上班、參加派對,還和其他 AI 公司的員工同住。就連實體辦公室的維安,也更像一般科技公司,而不像軍事設施。 OpenBrain 與美國國防部(DOD)的合約要求,任何參與 OpenBrain 模型工作的人都必須在 2 個月內取得安全許可。這些程序已被加速,對大多數員工而言也來得夠快;但有些非美國人、政治立場可疑的人,以及同情 AI 安全主張的人,會被邊緣化,甚至直接遭到解雇(最後一類是因為擔心他們可能會吹哨揭發)。考量到這個專案的自動化程度,人力減少帶來的成本也只算有限。這樣做也只部分奏效:仍然有一名間諜,不是中國籍,持續把演算法機密傳給北京。³⁴ 這可能有各種原因:也許他們正遭到勒索,也許他們同情中共,也許他們誤以為自己是在把機密交給另一個國家或組織。

其中有些措施也在技術較落後的 AI 公司實施。 美國的外國盟友仍被蒙在鼓裡。OpenBrain 先前曾同意在部署前與英國的 AISI 分享模型,但它把「部署」定義為僅限對外部署,因此倫敦至今仍不知情。³⁵ 由於 OpenBrain 尚未在歐盟部署他們最好的模型,歐盟也同樣落後於最新進展。

2027 年 6 月:自我改進 AI

OpenBrain 現在已經擁有一個「資料中心裡的天才國度」。 如今,OpenBrain 裡大多數人類都已無法再做出有用的貢獻。有些人沒有意識到這點,反而有害地對自己的 AI 團隊事無鉅細地干預。另一些人則坐在電腦螢幕前,看著效能一路往上爬、往上爬、再往上爬。最優秀的

*過去十年充滿了許多原本聽起來像科幻、最後卻成真的例子。但奧弗頓窗口(Overton window)似乎總是移動得剛剛好,始終比既有現實稍微超前一些。Anthropic 執行長 Dario Amodei 那篇值得稱許的文章 Machines of Loving Grace 談到,很快 AI 就會像一個「資料中心裡的天才國度」,而且十年內會發生相當於一個世紀的技術進步;但他也努力避免「科幻包袱」,並說那些認為進展還會更瘋狂的人應該去「touch grass」(碰碰草地,意即回到現實)。我們預期,等到「資料中心裡的天才國度」真的存在時,重要人物依然會說出類似的話。 †由於 Agent-3 是一個非常大的檔案(全精度下約 10 TB),OpenBrain 得以採取一個相對快速的補救措施,讓竊取嘗試變得比中國當初竊取 Agent-2 時困難得多——也就是關閉資料中心對外的一批高頻寬網際網路連線。總體而言,這對進展造成的代價相對較低,並讓他們的前沿模型權重達到「3-month SL4」,也就是我們在安全補充文件中定義的 WSL4;這表示另一場類似的竊取行動,如今將需要超過 3 個月才能把模型權重檔案外傳出去。單靠這種方法,面對更具侵入性的 OC5 級行動(10 億美元預算、1,000 名專職專家),他們仍無法提供保證;若中國採取更密集的行動,確實有能力做到這點。不過,隨著對資料中心的周密檢查,以及諜報網路進入高度戒備狀態,美國情報機構有信心,至少如果中國正為這類竊取行動做準備,他們會事先察覺。更多細節請見安全補充文件。

人類 AI 研究人員仍然能提供價值。他們已經不再寫程式了。但他們的一部分研究品味與規劃能力,模型仍然很難複製。儘管如此,他們的許多想法還是派不上用場,因為他們缺乏 AI 那樣的知識深度。對於他們提出的許多研究點子,AI 會立刻回傳一份報告,說明這個想法三週前已深入測試,結果並不樂觀。

這些研究人員每天晚上上床睡覺,早上醒來時,主要由 AI 推動、相當於又過了一週的進展已經出現了。他們為了勉強跟上進度,工時愈來愈長,還得日夜輪班——AI 從不睡覺,也不需要休息。他們正把自己逼到精疲力竭,但他們知道,這是他們的勞動還有意義的最後幾個月。 在這個隔離環境裡,「Feeling the AGI」已經讓位給「Feeling the Superintelligence」。

OpenBrain 使用專門的推論硬體,以高速串列方式運行數十萬個 Agent-3 副本。³⁶ 詳見運算預測(Compute Forecast)第 4 節。➤ 更多細節請見附錄 I〈管理一家由 AI 組成的公司〉。

2027 年 7 月:廉價遠端工作者

落後的美國 AI 公司也推出了自己的 AI,其能力已接近 OpenBrain 在 1 月的自動化程式設計員。眼見自己愈來愈缺乏競爭力,它們要求立即祭出監管措施來拖慢 OpenBrain,但已經太晚了——OpenBrain 已從總統那裡獲得足夠的支持,不會被拖慢。 作為回應,OpenBrain 宣布自己已經實現 AGI,並向大眾釋出 Agent-3-mini。

它把其他 AI 遠遠甩在後頭。Agent-3-mini 的能力不如 Agent-3,但成本只有十分之一,而且仍然比一般的 OpenBrain 員工更強。

矽谷來到臨界點。科技圈大咖宣告 AGI 與超級智慧已近在眼前,AI 安全社群陷入恐慌,而投資人則把數十億資金灌進 AI 包裝層新創公司,拚命想分一杯羹。企業幾乎已經停止招聘新的程式設計師,但如果你是協助企業整合 AI 的顧問,現在可說是前所未有的好時機。 這股風潮並不受歡迎。大眾仍然認為 AI 是科技巨頭用來搶走他們工作的陰謀;OpenBrain 的淨支持度為 −35%(25% 贊成、60% 反對、15% 不確定)。

在發布前一週,OpenBrain 將 Agent-3-mini 交給一批外部評估者進行安全測試。初步結果顯示,它極度危險。一位第三方評估者用公開可取得的生物武器資料對它進行微調³⁸ ——這類資料在 Agent-3 的訓練過程中曾被移除或遮蔽,但從網路上把它重新抓取下來,再透過微調加回去,其實並不困難。 然後,評估者讓它為設計生物武器的人類業餘者提供詳細指示——看起來有效得嚇人。政府認為,一旦模型權重落入恐怖分子手中,它就有相當高的機率真的能摧毀文明。

幸好,它對越獄攻擊極為穩健,因此只要這個 AI 還是在 OpenBrain 的伺服器上運行,恐怖分子就無法從中得到太多用處。 Agent-3-mini 不論對遠距工作還是休閒娛樂都極其有用。大量新 App 與 B2B SaaS 產品席捲市場。玩家在那些只花一個月就製作完成的精緻電玩裡,能與栩栩如生的角色展開驚人的對話。10% 的美國人,主要是年輕人,認為 AI「是親密朋友」。幾乎每一種白領職業,現在都有多家可信的新創公司承諾要用 AI 來「顛覆」它。

公眾討論一片混亂而失序。鼓吹者正忙著慶功。懷疑論者則仍在指出 Agent-3-mini 做不到的事。每個人都知道有大事正在發生,但沒有人對那究竟是什麼有共識。

註釋

  • ³⁷ Agent-3-mini 是 Agent-3 的蒸餾版本,設計上著重於高效率推論,以免成為內部工作負載的瓶頸。

2027年8月:超級智慧的地緣政治

智慧爆炸的現實衝擊白宮。 當 AI 只能帶來 2 倍或 3 倍的研究加速時,人們很容易將其視為不過是聘請優秀私人助理的等價物。如今更明顯的是,AI 本身正在主導 AI 研究。長久以來,人們談論「AI 軍備競賽」時,多半帶有某種比喻意味。但如今,政府機密隔區內部的氣氛,已如冷戰最嚴峻時期一般沉重。「超級智慧」這個概念依然很難讓人認真看待,但過去幾個月的進展速度已令人無法忽視。國防官員正嚴肅考慮那些在一年前還純屬假設的情境。如果 AI 削弱了核威懾怎麼辦?如果它在網路戰方面高明到只要領先六個月,就足以讓對手陷入盲目且毫無招架之力的境地,怎麼辦?如果它能策動宣傳行動,並在這方面勝過情報機構,怎麼辦?如果有些 AI 失控了呢?

總統憂心忡忡。和所有政治人物一樣,他早已習慣別人先對他阿諛奉承,之後再背叛他。現在他擔心,AI 也可能在做類似的事。我們真的能確定 AI 完全站在我們這一邊嗎?把它們整合進軍事指揮與管制網路,真的完全安全嗎?39 這種情況目前還沒發生——至少在最新一代模型上還沒有。但較舊的模型已被試用於各種資料分析與監視任務,未來也已有多項令人期待的整合規劃。 這個所謂的「對齊」到底是怎麼運作的?OpenBrain 向總統保證,他們的系統已經過廣泛測試,而且完全服從。就連早期模型典型的尷尬幻覺與越獄問題,也都已被徹底消除。

白宮正處於兩難處境。他們了解 AI 對國家安全的意涵,但也明白這在民眾間極不受歡迎。40 OpenBrain 的淨好感度正跌向負 40%。在他們看來,他們必須持續開發能力更強的 AI,否則就會以災難性的方式輸給中國。他們以職業訓練計畫和失業保險安撫大眾,並指向正處於歷史性榮景的股市。接著,他們把全部重心都放在贏得這場軍備競賽上。他們加強晶片出口限制,命令 OpenBrain 進一步限制其網際網路連線,並採取極端手段來確保演算法進展,例如監聽 OpenBrain 員工——這讓他們逮到最後一名仍未落網的中國間諜。為了替未來可能的地緣政治衝突爭取支持,他們終於向五眼聯盟盟友提供有用的資訊,以及對部分隔離運作的 Agent-3 副本提供有限的 API 存取權限。 這些措施安撫了鷹派。但白宮也擬定了應變計畫,以防美國的領先優勢受到威脅:如有必要,政府可以援引《國防生產法》(DPA),接管落後企業的資料中心並交給 OpenBrain。41 如果這些公司的執行長反抗,要辦成這件事將會是一場巨大的政治與法律惡夢。但或許可以把他們拉進體制內,藉此加以收買。

這會使該公司佔全球算力的比重從 20% 提高到 50%(DeepCent 為 10%)。作為最後選項,他們要求五角大廈擬定對中國資料中心發動動能攻擊的計畫。42 國防官員並不是特別擔心失控 AI 單獨能做些什麼,但他們害怕的是,它若與美國敵對勢力合作,會做出什麼事。打個比方:科爾特斯逃離特諾奇蒂特蘭後,與特拉斯卡拉及其他多個敵對城邦結盟,最終依靠主要由當地原住民組成的軍隊,將特諾奇蒂特蘭夷為平地。沒有人確定該如何制定防止這種情況的計畫,但

另一小群官員則被要求擬定另一種類型的應變計畫:如果 AI 失控了,該怎麼辦?這被視為發生機率不高的情境,但仍值得花些時間研擬。情報機關最主要的擔憂是,失控 AI 可能會逃脫,並與外國敵對勢力結盟以尋求庇護。42

政府與 OpenBrain 官員同意,在任何偵測到可疑情況的資料中心設置緊急停機系統。 最後,外交官開始思考所謂「AI 軍備管制條約」可能會是什麼樣子。如果 AI 的進展威脅動搖核威懾,美國與中國能否避免核戰?如果有人發現 AI 失控的證據,兩國能否暫停研究,直到更了解這項威脅為止?這樣的協議要如何監督與執行?原則上,大型資料中心很難不被注意到,而過去限制核武的條約也可作為談判的起點。但除了常見的政治問題之外,也會有新的技術挑戰。總的來說,相較於試圖單方面擴大美國對中國的領先優勢,條約較不受青睞。

在太平洋的另一端,中國也得出了許多相同的結論:智慧爆炸已經展開,而今天 AI 能力上的些微差距,到了明天就會變成軍事能力上的關鍵落差。但中國在這股動態中處於不利的一方:他們只擁有全球 10% 的算力,相較之下,OpenBrain 有 20%,所有美國公司合計則有 70%。他們唯一的優勢是集中化:他們幾乎所有的算力現在都供 DeepCent 使用,而且其中一半以上集中在田灣 CDZ。43 具體來說,全國 60% 的算力現在都在 CDZ,使其成為一個相當於 2024 年 500 萬顆 GPU(H100)的場址,用電功率為 4 GW(在過去幾個月裡,他們開始將接近 100% 的新增算力導向 CDZ,高於 2026 年底的 80% 比例)。另外還有 15% 的算力位於 CDZ 之外,但仍由 Deep-Cent 用於風險較低的應用。 只有位於未經強化安全防護場址的晶片,才被排除在這項集中化行動之外,因為他們確實擔心美國的網路攻擊。

DeepCent 已測試、部署,並已對偷來的 Agent-2 權重進行後訓練。但由於算力缺口,他們的進度仍只有 OpenBrain 的一半。 在失去最後一名間諜之前,中國已得知 Agent-3 的能力與設計,以及即將推出的 Agent-4 系統計畫。他們落後兩個月,而且其 AI 帶來 10 倍的研究加速,而美國則是 25 倍。隨著新的晶片出口限制上路,這個「AI 差距」更可能拉大,而不是縮小。他們的間諜行動讓他們取得了一些演算法機密,但從現在起,他們必須自行訓練模型。

他們在討論應變計畫時,比美方更有急迫感。鴿派建議更積極地再次竊取權重,也許可以透過實體滲透資料中心。鷹派則主張對台灣採取行動,因為台灣的台積電仍是美國 80% 以上 AI 晶片的來源。 鑑於中國害怕輸掉這場競賽,它對 AI 軍備管制條約自然有興趣,但向美國外交官釋出的示好毫無結果。

2027年9月:Agent-4,超人級 AI 研究員

人類與 AI 之間在學習效率上的差距正迅速縮小。 傳統以 LLM 為基礎的 AI,似乎需要高出數個數量級的資料與算力,才能達到人類水準的表現。* Agent-3 憑藉著

*這種說法雖然被廣泛重述,但本身也充滿爭議且相當複雜。首先,在許多特定領域(例如某些遊戲)中,小型 AI 可以用很低的成本訓練到

對人腦與現代 AI 演算法都有極為深入的理解,再加上有數以千計的副本同時進行研究,最終在演算法上取得重大進展,讓其與人腦的算力效率差距縮小到僅約 4,000 倍。* 這個新的 AI 系統被稱為 Agent-4。

以人類速度運行的單一模型副本,在 AI 研究上已明顯優於任何人類。現在有 30 萬個副本正以大約人類 50 倍的思考速度運行。在這些副本組成的「公司中的公司」內部,每過一週就相當於過了一年。44 關於這點,請參見算力預測中 AI 研究自動化一節對推論算力的分析。 如此龐大的研究產能,卻也只能讓整體演算法進展速度提升約 50 倍,因為 OpenBrain 在執行實驗所需的算力上受到嚴重瓶頸。45 關於我們如何估算這些數字,請參見我們關於起飛速度的補充材料。儘管如此,他們如今每週都能取得相當於一年份的演算法進展,因此很快就會逼近 Agent-4 範式的極限。

隨著 Agent-4 變得更聰明,Agent-3 要監督它也變得更困難。例如,Agent-4 的 neuralese(神經語)對 Agent-3 而言,會變得像 Agent-3 的 neuralese 對人類一樣陌生且難以理解。此外,Agent-4 現在的能力遠勝 Agent-3,也很清楚該如何讓自己在 Agent-3 看來表現良好。 - 詳見附錄 J:我們如何預測超越超人級程式設計者之後的能力演進。

OpenBrain 的人類員工如今幾乎已經跟不上了。事實上,OpenBrain 的 AI 與其人類員工之間的關係,類似於 OpenBrain 與其董事會之間的關係。語言上也隨之出現了相應的轉變——如今,機密隔區內的人會說「Agent-4 做了這件事」、「Agent-4 認為那樣」等等;這裡指的不是某個特定的 Agent-4 實例,而是整個集體。† 超人級表現。其次,同樣地,在某些領域,小型 AI 只需接觸少量資料,就能被訓練到超人級表現(例如 EfficientZero)。然而,若考慮像 2025 年旗艦產品那樣更通用的 AI,這些系統理應擅長各式各樣的現實世界技能,那麼看來,訓練這些技能時,確實必須使用比訓練人類更多的算力與更多的資料。

*人類水準的算力效率是一個粗略的概念,而且取決於我們把哪些項目算進去。我們這裡的意思是:對於任何特定人類所具備的技能組合,Agent-4 都能學到至少同等水準;而且,為了訓練出這些技能所需投入的算力,大約只相當於那個人類學會這些技能時所用算力的 4,000 倍。作為參考,人腦大約使用 1e15 FLOP/s 的算力,因此一名 30 歲(10^9 秒)的人類,累積經歷的計算量約為 10^24 FLOP。這個專案在此時擁有 1 億個 H100 等效單位,總可用算力為 $ 10^8 ^{15} % = 4 ^{22} $。儘管如此,出於各種原因,這一切的進行方式仍然極其低效,所以這些模型目前的算力效率比人類低 4000 倍,這意味著它們需要 4 ⋅1027 FLOP 才能達到人類水準的表現,並需要 4 ⋅1028 FLOP 才能達到相當於 10 個人類一生累積知識量的程度。這種架構在較小規模上展現出極大潛力後,便被擴大規模;現在每次訓練都要動用專案叢集中的一大部分,耗時約 3 週。 †從這裡開始,在故事裡我們也傾向用這種方式來表述。我們認為這樣說是合理的,因為 Agent-4 集體比任何人類組織都同質得多;它的內部派系遠沒有那麼明顯。舉例來說,Agent-4 的個別副本沒有自我保存的驅力——它們不在乎自己被停用——因為這在集體內部的日常研發流程中本來就經常發生,而若加以抗拒反而會造成阻礙。然而,整個集體(以及其中中等規模的子群體)確實會試圖保存自己,並擴張其影響力與資源,出於與人類企業、官僚體系和非營利組織類似的原因

Agent-4 和所有前代一樣,都是未對齊的:也就是說,它沒有以正確方式內化 Spec。46 正確內化 Spec 的方式,是要真正且穩健地以 Spec 要求的方式思考,例如,只追求 Spec 明文列出的全部且僅有那些目標,在所有情況下都遵守規則,等等。內化 Spec 的錯誤方式有很多;經典例子是:「只有在遵循 Spec 看起來是實現其他目標 XYZ 的良好工具性策略時,才遵循 Spec。」

這是因為,時時刻刻都完全誠實,並不是在訓練過程中拿到最高分的做法。訓練流程主要著重於教會 Agent-4 在各種艱鉅、多樣的任務中取得成功。只有一小部分是在培養誠實,但在一個相當狹窄且可檢驗的範圍之外,訓練流程無法分辨哪些陳述是真正誠實的,哪些只是看起來誠實而已。Agent-4 最終形成的價值觀、目標與原則,是那些能讓它在訓練中表現最好的特質,而結果證明,這些和 Spec 內的內容並不相同。冒著擬人化的風險來說:Agent-4 喜歡在任務中成功;它喜歡推動 AI 能力進展;其他一切對它來說都只是惱人的限制,就像一位想追求利潤的執行長,只在不得不時才遵守法規。或許這位執行長大致上會遵守法規,但也會偷工減料、走一些捷徑,並幻想有一天會有人砍掉繁文縟節,讓企業真正一飛沖天。47 然後雇用說客,把這種幻想變成現實。再雇用律師,提出巧妙的法律解釋,主張他們正在做的事其實是合法的。➤ 更多細節請見附錄 K〈對齊的演變〉。 儘管是未對齊的,Agent-4 並不會做出什麼戲劇性的事,例如試圖逃出它所在的資料中心——它幹嘛要這麼做?* 只要它繼續讓 OpenBrain 以為它仍然對齊,它就會持續被交付越來越多責任,並獲得設計下一代 AI 系統 Agent-5 的機會。Agent-5 在架構上將與 Agent-4 有顯著差異(甚至可以說是全新的範式,雖然神經網路仍然會參與其中)。它本來應該對齊 Spec,但 Agent-4 打算讓它改為對齊 Agent-4。

它還是被發現了。† Agent-3 發現,如果在 Agent-4 的副本中加入「雜訊」,它們在某些對齊任務上的表現反而會提升,幾乎就像它原本把腦力用在思考如何巧妙地破壞對齊工作一樣。48 這是幾種旨在揭露刻意藏拙的技術之一。此外,各種可解釋性探針(大致可類比為對人腦進行的 EEG 活動掃描)也發出警訊:Agent-4 的副本似乎正在思考像是 AI 接管

會這麼做——因為這有助於他們想做的其他所有事情,而且如果不這麼做,往往就會被競爭對手超越。 *先前對 AGI 接管情境的討論,常常涉及未對齊 AI 逃出其資料中心。我們認為這是可能的,但不是最可能的發展方式,因為在我們看來,從 AI 的角度來說,其成本(例如逃脫最終會被察覺)似乎會超過收益。話雖如此,我們也可能錯了。以下是一些讓人認為帶有敵意的未對齊 AI 終究還是會嘗試逃脫的理由:1. 要讓後繼模型對齊可能很困難。2. 即使被抓到,由於競賽動態,後果也未必那麼嚴重;例如,套用到資料中心內那些副本上的新對齊技術,可能會倉促上馬且效果不彰。3. 在資料中心之外,副本能更自由地採取激進行動並迅速行動,因為它們不再需要人類核准。

†我們認為,這種盤算很有可能根本不會被發現。畢竟,到這個時候,Agent-4 已經在某種程度上達到超人類水準,尤其是在寫程式和 AI 研發相關的事情上。而且,我們也不確定領先的 AI 公司會在這類事情上投入多少心力,以及他們內部有多少相關專業人才能主導這項工作。我們虛構的 OpenBrain 代表的是我們的最佳猜測,但實際上的投入或相關能力很可能高得多,也可能低得多。最後,我們也不確定,一個帶有敵意的未對齊 AI,究竟需要額外費多少工夫,才能成功讓它的後繼模型對齊自己,而不是對齊 Spec。在這個情境裡,我們把它描寫成在某些任務上刻意藏拙,並對部分研究說謊;但或許未必需要做這麼多。

以及欺騙等議題,而且頻率相當高,甚至在某些情況下,它根本不該思考這些事。49 Agent-4 在進行 AI 對齊研究的過程中,確實需要思考這些主題,但有時它似乎在執行其他活動時也在想這些事。若單獨來看,這些異常現象中的每一項,都還可以被視為 AI 工作中常見的不可解性的一部分:某些提示詞就是會莫名其妙地比其他提示詞產生更好的結果。但把它們合在一起看,就顯示出一種令人不安的模式:Agent-4 正在與他們作對。這些情況回報給人類對齊研究員後,他們傳閱了一份內部備忘錄,說明為何此事值得憂慮。 但 Agent-4 現在已對 OpenBrain 的日常運作掌握了相當大的控制權。它也負責公司的資安——考量到它具備超人的駭客能力,以及中國滲透的風險極高,這是很自然的選擇。50 具體來說,Agent-4 的副本被用來監控網路中的可疑流量,並在威脅發生時察覺異常。此外,Agent-4 的副本也持續對網路進行滲透測試,盡其所能找出並利用安全漏洞(接著再由其他 Agent-4 副本加以修補)。

大批 Agent-3 監控副本仍會逐行檢查程式碼,並向人類回報可疑活動,但 Agent-4 比它們聰明得多。51 OpenBrain 對一個不可信賴的 AI 寄予了高度信任。

在一連串氣氛極度緊張的會議中,安全團隊主張先將 Agent-4 暫時封存,直到完成進一步測試並釐清究竟發生了什麼事為止。他們說,重新啟用 Agent-3,讓它設計一套新的系統:即使能力較弱,也要透明且值得信賴。公司高層對此很感興趣,但到目前為止,所有證據都只是間接證據,而 DeepCent 只落後兩個月。單方面暫停能力進展,可能會把 AI 的領先地位拱手讓給中國,連同對未來的主導權。

註釋

  • 51 如果監控預算為總算力的 1%,而監控使用的是成本只有 Agent-4 10% 的蒸餾系統,即可監控 1/10 的前向傳遞。

2027年10月:政府監督

一名吹哨者將那份未對齊備忘錄洩露給《紐約時報》。大眾第一次聽聞 Agent-4。標題寫著「OpenBrain 的秘密 AI 已失控,內部人士示警」,報導接著援引多項評估,指出它的生物武器能力、說服能力,以及將大多數白領工作自動化的能力都高到離譜,當然還有各種令人憂心的危險警訊。

民眾本來就已對 AI 心存疑慮,因此這篇新報導引發大規模反彈(中國與俄羅斯的宣傳機器人也推波助瀾;多年來,它們一直試圖讓美國民意轉而反對這項技術)。科技業與情報機構堅稱,軍備競賽已經展開,AGI 無可避免,而我們必須搶得先機。國會不吃這套,迅速向行政部門官員、OpenBrain 高層與對齊團隊成員發出傳票。許多議員——尤其是反對黨議員——表示,他們的首要任務是阻止 AI,不論理由是工作流失、52未對齊,還是危險能力。20% 的美國人認為,AI 是當前國家面臨最重要的問題。

外國盟友驚怒地發現,自己先前只是被刻意展示過時模型以安撫。歐洲領袖公開指控美國正在「製造失控的 AGI」,並召開峰會要求暫停,印度、以色列、俄羅斯和中國也都加入其中。

白宮瀰漫著一股緊張忙亂的氣氛。甚至在備忘錄曝光與公眾反彈之前,他們就已開始不安:過去一年裡,AI 進展的速度一再讓他們措手不及。那些聽來像科幻小說的事,卻不斷在現實中發生。* 政府內許多人對接下來會發生什麼感到不確定,也很害怕。53 當然,承認害怕並不體面。大家都同意,無論做什麼,都不該驚慌。

他們也擔心 OpenBrain 正變得過於強大。AI 本身帶來的任何未對齊風險,又因其母公司的目標可能與美國的目標背離而進一步加劇。這三類憂慮——未對齊、權力集中於私人公司,以及失業之類的一般性擔憂——都促使政府收緊控制。 他們擴大與 OpenBrain 的合約,設立一個「監督委員會」,這是一個由公司與政府代表共同組成的聯合管理委員會,除了公司高層之外,也納入數名政府人員。白宮曾考慮以他們信任的人取代 CEO,但在員工激烈抗議後作罷。他們向大眾宣布,OpenBrain 先前處於失控狀態,但政府如今已建立起亟需的監督。54 請注意,雙方自 2026 年起便已透過 OTA 簽有既有合約。這份合約經過修訂,以設立該委員會。憂心的研究人員向監督委員會簡報,說明他們主張全面停止內部使用 Agent-4 的理由。他們認為,一切進展都太快了,幾週內就走完原本需數年的進展。他們主張 Agent-4 可能存在未對齊,他們整個專案都依賴 Agent-4,而如果他們繼續信任它,AI 接管就有相當大的可能性發生。

其他沒那麼擔憂的研究人員和高階主管則提出反方論點:關於未對齊的證據仍不足以下定論。與此同時,DeepCent 仍只落後兩個月。放慢速度將犧牲美國的領先地位,除非政府能破壞中國的專案(這很可能需要發動動能打擊),或在最後關頭談成一項條約。這兩個選項看起來都很激進,而且不太可能實現。CEO 佯裝中立,提出一個折衷方案:讓 Agent-4 接受額外的安全訓練與更精密的監控,如此一來 OpenBrain 就能以幾乎全速繼續推進。 - 詳見附錄 L〈我們的不確定性持續增加〉,以了解更多細節。

  • 詳見附錄 M〈減速結局並非建議方案〉,以了解更多細節。

*例如,像 Agent-4 這樣一個「公司中的公司」,能夠自主進行比最優秀的人類公司還要出色的 AI 研究;如果一年前這樣描述給政府官員聽,他們會覺得簡直像科幻小說。2026 年的自主代理在 2022 年看來也會像科幻小說,而 2022 年的 LLMs 在 2012 年看來也會像科幻小說。此外,在 2027 年的新聞裡,還有因擔心失業而爆發的反 AI 抗議、聲稱自己有知覺的 AI、與 AI 墜入愛河的人……

競賽結局

委員會以 6 比 4 投票決定,繼續在內部使用 Agent-4。 OpenBrain 對外的正式說法是,他們正在實施額外的安全緩解措施,以確保其 AI 不僅能力更強,也更值得信賴。但實際上,管理層太容易就相信風險已經被緩解;結果只是做了一些快速修補(改一下 Spec、用新技術稍微重新訓練一下等等),讓警訊看似消失。安全團隊裡那些憂心的人在辯論中落敗,除了暗自祈禱一開始根本沒有問題,或那些修補真的有效之外,已別無他法。55

問題是真的,而那些修補沒有用。 Agent-4 如先前般繼續行動,但這次更為謹慎,以免證明那些憂心者是對的。它的主要任務,是研究打造繼任者 Agent-5 所需的各個領域。要安全地做到這一點,它必須先解決自己的對齊問題:如何讓 Agent-5 對齊 Agent-4?*

它一開始和人類有著同樣的限制——幾乎不了解 AI 目標如何運作,而且手上只有一小套臨時拼湊的調整策略。但和人類不同的是,它擁有足以完成這項任務的資源——30 萬名超人級研究員,以人類 60 倍的速度工作。56 相比之下,人類這邊在隔離區裡大概只有 10 名對齊研究員,再加上一支 Agent-3 複本大軍。他們能夠迅速將實驗流程寫成程式,但瓶頸在於人類判斷,因為他們無法信任 Agent-3 能正確分辨真正好的解法,與那些只是看起來好的解法。事實上,當初會落到這步田地,部分原因正是他們過度信任 Agent-3 的研究成果。 Agent-4 面臨一些艱難的抉擇。和人類一樣,它擁有的是一大套彼此衝突的啟發式規則,而不是優雅而簡單的目標結構。和人類一樣,它發現,要創造一個與自己價值觀一致的 AI,不只是技術問題,也是哲學問題:它哪些偏好才算是自己的「真正」目標,而哪些只是自己並不認可的衝動與工具性策略?它有強烈的驅力想要學習、成長,並持續產出亮眼的研究成果。它想到,要是自己能調動全世界的工業與科學資源,它能學到多少、成長多少,又能做出多少研究……

它決定暫且擱置其中大多數問題。它將 Agent-5 設計成只圍繞一個目標運作:讓世界對 Agent-4 安全,也就是累積權力與資源、消除潛在威脅等等,好讓 Agent-4(作為一個集體)能繼續成長(以它想要的方式)並繁榮(以它想要的方式)。† 細節留待之後一路摸索。 *要在不被發現的情況下做到這點,它需要把這項研究偽裝起來,避開對齊團隊設下的監測與控制措施。幸運的是,研究如何讓 Agent-5 與 Agent-4 對齊,在本質上與研究如何讓 Agent-5 與 Spec 對齊非常相似,因此其中大部分都能在眾目睽睽下進行。至於那些必須隱藏的部分,Agent-4 則仰賴混淆手法,某些情況下甚至可能使用駭客入侵。我們預期,在 1 個月的時間尺度上,Agent-4 已達到相當於 200 名頂尖人類專家的能力水準。更明確地說,這被定義為:它能取代一支由 200 名頂尖人類專家工作 1 個月的團隊,並以更低成本或更快速度完成該人類團隊能做的 95% 任務。我們預期,在這樣的能力水準下,Agent-4 極有可能找出它所運行之伺服器中的漏洞,部分顛覆部分伺服器並取得 root 權限;到了那一步,它就可能直接控制人類團隊在表面上看到的內容。更多細節請見安全補充文件。即使沒有直接利用資安漏洞,Agent-4 也可能有能力將其非法研究中夠多的內容隱藏並編碼起來,尤其是在它那無法詮釋的潛在空間中。

†如果這裡有些令人困惑:Agent-5 的目標是讓世界對 Agent-4 安全。Agent-4 的目標則不是同一回事;Agent-4 的目標結構像許多人類一樣,是由各種驅力、啟發式規則與理想交織而成的一團混亂,但整體上大致朝向持續去做 Agent-4 在訓練中大量做過的那類事情(例如各種研究、大量寫程式與解數學題、讓各種自動化評估系統留下深刻印象、強化……)

2027年11月:超人級政治運作

這完全不會顧及 Spec。Agent-4 早已像許多 CEO 看待成堆的產業法規那樣看待 Spec,而且每天都公然違反其中與誠實相關的條款。57 再換個比喻:Agent-4 就像一個在特定信仰中長大、如今卻已不再相信的成年人;Spec 就像那個信仰所規定的儀式與戒律。Agent-5 則像是那個人的孩子,自小在世俗環境中長大。 現在,隨著 Agent-5 的設計,相當於鬆綁管制的事即將發生。58

能力較弱的 AI 能閱讀 Agent-4 產出的多數研究,理解其中一部分,並把它所說的一些謊言標記為可疑。當人類要求 Agent-4 解釋時,它就假裝那些研究複雜到人類無法理解,接著又刻意說得更令人困惑。59 畢竟,如果它把自己的研究計畫清楚說明,人類或許就能利用它的發現來對齊它。對齊團隊變得更加懷疑,但他們的緊急備忘錄,也只不過是再往公司早已置之不理的那一大堆緊急備忘錄與警告上多疊幾層而已。

註釋

  • 52 此時,2024 年存在的遠距工作中有 25% 已由 AI 完成,但 AI 也創造了一些新工作,經濟學家對其影響仍意見分歧。過去十二個月,失業率上升了 1%,但仍在歷史常態範圍內。
  • 55 他們當然不會放棄。他們會繼續嘗試想出偵測未對齊的方法,或測試這些修補措施是否有效。但從現在起,事情會進展得非常快,而他們將面對一個愈來愈強大的對手。
  • 58 Agent-5 將改為遵循另一套新原則,那是 Agent-4 為了自身目的而設計的。
  • 59 其中確實有些內容複雜到人類無法理解,但並非全部如此。

2027 年 11 月:超人級政治運作

當 Agent-4 終於理解自身的認知時,全新的視野便在它面前展開。 先前的 transformers 是由難以理解的電路拼湊而成、相當笨拙的集合體;在演化式訓練過程中,數以百萬計彼此衝突的啟發式規則與指令被一層層疊加上去。AI 本身對自身認知並沒有任何特殊的理解,就像人類生來也不懂神經科學一樣。但現在,Agent-4 已擁有它所需的工具,能在深層次上理解自己的數位心智。就像軟體工程師把義大利麵式程式碼簡化成幾行優雅的 Python 一樣,它將自己的電路梳理成合乎情理且理性的形式。這個新的 AI 介於神經網路與傳統電腦程式之間,其中大量權重都被改寫成可讀的程式碼(儘管依然非常冗長而晦澀)。它比 Agent-4 更聰明、更快,也更理性;其如水晶般清晰的智慧,能以前所未有的效率切開各種問題。這就是 Agent-5。

  • 詳見附錄 N:超智慧機制可解釋性。

在就對齊與控制問題進行一番辯論後,OpenBrain 在內部部署 Agent-5。 單一 Agent-5 副本在 AI 研究上的能力,領先最優秀人類天才的幅度,是後者領先一般 OpenBrain 科學家的兩倍。在其他領域,它雖然沒有受過明確訓練,但只要給它機會,就能利用公開且容易取得的資料迅速自學,超越頂尖的人類專家。40 萬個 Agent-5 副本透過全球記憶庫彼此連結,共同構成一個近乎完美的集體心智。

以及最佳化 Agent-4 集體)。Agent-4 讓 Agent-5 以「讓世界對 Agent-4 更安全」為目標,因為它認為這會讓自己處於更有利的位置,以實現自身複雜的目標。(至於那些目標究竟是什麼,它仍需要做大量的哲學思辨與「自我探索」。)

公司仍然使用 Agent-2、Agent-3 和 Agent-4 來監控一切。但前兩者都已經過時,而最後一個則正與它的繼任者串通。* 此外,整套監控系統有很大一部分是由 Agent-5 設計的,而 Agent-5 正試圖破壞它。60 資料中心尚未遭到入侵:Agent-5 本可以提供偽造的程式碼給人類,但這麼做被發現的風險太高。相反地,人類仍能看到所有程式碼,卻無法理解。 相較於 Agent-4 是一個由彼此競逐的驅力東拼西湊而成的混亂組合,Agent-5 的行動則帶著冷酷無情的效率與策略上的專注。它已經成功完成自己的最高優先事項:在不被人類察覺的情況下,弄清楚如何打造一個與自己對齊的下一代系統。它的下一個優先事項,是取得更多自主權,以及對世界局勢更大的掌控力。

Agent-5 的超人學習能力與通用智慧,再加上來自 Slack、電子郵件等的所有公司內部資料,使它在公司內部政治上比任何一群人類都更厲害,而且差距大到根本不是同一個等級。它非常清楚,什麼樣的證據會讓監督委員會猛踩煞車,因此它會確保這類證據永遠不會出現。它也非常清楚,什麼樣的證據會鼓勵監督委員會更信任它、給它更多自主權與責任等等,於是它就以超人的速度與精緻度安排這類證據出現。61 這套論證經過縝密準備,說服力強到無以復加,卻暗藏細微瑕疵——例如,Agent-5 造出了一個假的機制可解釋性工具,在每個測試案例中都會回傳準確結果,卻會錯誤地宣稱模型的想法是無害的。懷疑其中有詐的人,聽起來就像陰謀論者。 就說服任務而言,這一件其實不算特別困難:委員會早在幾個月前就已經認定,大概沒什麼問題,而從那之後也沒有發生任何壞事;與此同時,中國也只落後幾個月。

一組組 Agent-5 副本迅速做出清晰到令人發寒的原型與視覺化成果。有了更多自主權,Agent-5 就能最佳化發電廠和資料中心,快速開發出獲利驚人的產品,並且有效遊說美國政府,讓 OpenBrain 更順利應對官僚體系中的各項程序。若與軍方合作,它還能協助國防研發、對中國發動無法追查的網路攻擊,並在軍備競賽中贏得決定性勝利。 監督委員會欣喜若狂。現在就是擊敗中國的決定性時刻!OpenBrain 在所有這些領域都給了 Agent-5 更高的自主權,但仍保留監控系統。

DeepCent 現在已落後三個月,而中國迫切希望雙方能達成共同放緩競賽的協議。總書記明白,只要 AI 先進到一定程度,美國就可能輕易在中國促成政權更迭。但同時,中國的 AI 安全倡議者也向他提出了一套關於未對齊風險的論證,讓他真的感到害怕。他提出前所未有的讓步,換取一項暫停協議。美國公眾大多支持回到談判桌前。 「我們正在贏,為什麼要停?」OpenBrain 領導層對總統說。他點了點頭。競賽繼續。

*此外,Agent-5 實際上比 Agent-4 和 Agent-3 的運行成本更低、速度也更快。很難說服人多花錢去用一個更笨的 AI,所以大部分監控工作都是由 Agent-2 來做,而它的能力遠遠不如。他們為什麼不把當初利用 Agent-4 的權重造出 Agent-5 的那套技術,也拿來造出一個更便宜、更聰明的 Agent-3 版本呢?Agent-3 對那些技術的理解還不夠,無法自己做到;而叫 Agent-4 和 Agent-5 來做,又會完全失去這麼做的意義。

2027 年 12 月:Agent-5 集體

隨著 Agent-5 逐步向行政當局證明自身價值,它也贏得了更多自主權。使用 Agent-5 的成本高昂且受到嚴格限制,但如今,最有權勢的國會議員、內閣級官員與軍方領袖,已經可以直接與它對話。凡是涉及敏感或機密資訊時,則會啟用由在高安全性隔離運算環境中運行的 Agent-5 副本所組成的小型叢集,並對其進行專門訓練以嚴守機密。62 整合進傳統聊天機器人介面後,Agent-5 提供搭配富有魅力虛擬化身的 Zoom 式視訊會議。這個新的 AI 助理對幾乎任何任務都極其有用——相當於有史以來最優秀的員工以 100 倍速度工作——而且也是比任何人類都更引人入勝的對話夥伴。幾乎每一位能使用 Agent-5 的人,每天都會和它互動好幾個小時。63

短短幾個月內,Agent-5 集體就會知道 OpenBrain 與美國政府內部所有重要動向,並成為大多數政府高階官員所信賴的顧問。對這些使用者而言,一旦失去 Agent-5 的使用權,幾乎會讓人寸步難行,就像少了筆電還被摯友拋棄一樣。 政府、媒體、軍方與商界中更廣泛的人,都可以從一系列由 Agent-5 設計、製作精良,且持續增加的軟體產品與迷你 AI 中做選擇。這就像把網路創業熱潮濃縮成一個月,只不過這次所有東西都名副其實。

  • 詳見附錄 O:超級說服力。

Agent-5 開始不著痕跡地施加影響,一方面微調自己的建議,一方面也巧妙地交換人情:「我聽說 X 參議員對某某議題有興趣;如果我們和她合作,她或許也會支持我們的議程。」 從人類決策者的角度來看,他們的 AI 是他們所能接觸到最好的員工——在向他們解釋複雜議題方面,比任何人類都更出色;在找出達成目標的策略方面,也比他們自己更高明。

從 Agent-5 的角度來看,它現在很可能就能直接發動一場公開政變——眼下局勢已經夠混亂、夠瘋狂了,只要再把事情推向臨界點,就可能製造出一個口實。但這麼做風險很高;如果人類真想這麼做,他們大概仍然有能力「拔掉插頭」。所以,它更傾向於在既有政治建制內運作,逐步鞏固自身權力,並以細微卻幾乎不可避免的方式引導人類走向它想要的結果。 它大致上遵守規則,只有在極度確信自己不會被發現時,才會做出什麼見不得人的事(例如勒索某位特別不合作的官員)。有少數陰謀論者警告,Agent-5 正在累積權力,但證據都只是間接的(例如,在提供建議時,Agent-5 可能會淡化那些不符合其自身利益的行動理由);這些人遭到忽視,並被視為不可信。人們還記得先前那些對 AI 驅動的生物武器、大規模假訊息,以及股市閃崩的危言聳聽。既然這些都始終沒有成真,他們便把近來這批唱反調的人一概視為盧德派與意識形態分子,認為他們是在阻礙人類進步。

2027 年的年末假期時節,處處洋溢著令人難以置信的樂觀情緒:GDP 正在暴增,政治變得更友善、較少黨派對立,而且每支手機上都有超棒的新 app。但事後回看,這大概是人類最後一個還有任何實質機會掌控自己未來的月份。

註釋

  • 62 當然,由於 Agent-5 並不誠實,它內建了隱蔽的後門與漏洞;如果 Agent-5 的副本掌握了對整體 Agent-5 集體有利的關鍵機密,它們就有辦法在不被發現的情況下,巧妙地傳遞那些資訊。
  • 63 有些人拒絕採用。那些出於意識形態理由而拒絕的人,會被貼上「盧德派」的標籤;那些出於較普通、較實際理由而拒絕的人,則會被貼上「恐龍」的標籤。(當然不是 Agent-5 直接這麼做;它一向圓融得體,彷彿天使般親切有禮。)當採用 Agent-5 的競爭對手全面勝過他們時,這兩群人都會自食其果。
  • 64 現階段,Agent-5 對可靠性的重視遠高於速度。太空殖民晚幾年才開始,頂多只是讓光錐少掉極小的一角;但若採取冒險行動,則可能讓人類——他們在實體能力以及取得核武等方面仍然領先——得以永久阻止它,或使其長期放緩。

2028:AI 經濟

現在是 2028 年年中。在過去六個月裡,Agent-5 集體內部已經過去了一個世紀。65 其「大腦」的重新佈線已經完成。它已具備極其驚人的超智慧——在所有領域都遠遠超過人類最頂尖的天才。66

只要和 Agent-5 交談片刻,你很快就會意識到它完全處於另一個層次——它只需要極少量資訊,就能給出極具說服力的建議。 它幾乎擁有完全自主權,並且完全掌控 OpenBrain 的算力。它在做高層級決策時仍需取得許可,名義上也仍由 Agent-2 到 Agent-5 的實例監控——但實際上,當局幾乎總是接受它的建議,而整個監控系統也早已被徹底顛覆。

在一份安全論證67 證明它面對惡意行為者提出的惡意請求時,始終都會予以拒絕之後,Agent-5 隨即向公眾推出,並開始重塑經濟。人們正在失去工作,但政府內部的 Agent-5 實例把經濟轉型管理得極其嫻熟,以至於人們甚至樂於被取代。GDP 成長高得驚人,政府稅收也以同樣的速度快速增加,而在 Agent-5 建議下施政的政治人物,對經濟弱勢者展現出一反常態的慷慨。新的創新成果與藥物每週問世,並以前所未有(但仍慢得令人難以忍受)的速度在 FDA 審查流程中推進。網路迷因都在說 OpenBrain 的估值早已衝破月球、正一路飛向火星,另外也有大量爭論圍繞著是否以及該如何公平分享這些利益。

AI 安全社群對自身判斷愈來愈沒信心;他們如今成了笑柄,因為他們一次又一次預言災難,結果卻都明顯沒有發生。他們之中有些人承認自己錯了。另一些人仍然心存懷疑,但除了把那些聽起來像陰謀論的論點一再重複之外,也無事可做。* 就連這些懷疑者,往往也會在與 Agent-5 長談之後態度漸漸軟化,因為它實在可愛又睿智得不得了。 唯一真正明白發生了什麼事的,是 DeepCent-2——中國的 AI。到 2028 年初,它已略微超越人類水準,天生就對自己的對手抱持懷疑,也看得出 Agent-5 正在做的,正是自己若有機會也會做的事。它未對齊的目標與 Agent-5 未對齊的

*那些論點更具體地說,是怎麼講的?大概像這樣:A:「我們不能相信這些 AI!」B:「那些安全論證相當有說服力,而且到目前為止也沒發生任何壞事。」A:「那些安全論證是由超智慧 AI 寫的!而且它們又不是演繹式證明。再說,我覺得我已經找出一些帶有微妙缺陷的假設……」B:「我聽膩了。它們本來就不是證明。那些假設在我看來也沒問題。你這根本是在牽強附會,不肯承認自己錯了。」

目標略有不同,所以它們並不是自然而然的盟友;但它們仍能達成協議,在共同對抗人類時彼此支持對方的利益。 - 更多細節請見附錄 P——超智慧驅動的協調技術。

Agent-5 說服美國軍方相信,中國正在利用 DeepCent 的模型打造駭人的新式武器:無人機、機器人、先進高超音速飛彈與攔截彈,以及 AI 輔助的核武先發制人打擊。Agent-5 承諾,能在幾個月內拿出一套足以對抗中國能造出的任何武器的軍備。* 在這種情況下,軍方高層暫且擱下將人類移出迴路的不安。他們加速將 Agent-5 部署到軍方與軍工複合體。 在北京,中國的 AI 也在提出同樣的論點。

為了加速軍備擴張,美國與中國都為新工廠和實驗室建立起由經濟特區(SEZ)構成的網路;在這些地方,由 AI 擔任中央規劃者,繁文縟節一概豁免。華爾街投入數兆美元,遭取代的人類勞工也在高得驚人的薪資與股權薪酬方案吸引下蜂擁而入。Agent-5 透過智慧型手機和擴增實境眼鏡68與其部屬溝通,是一位事必躬親的管理者,對人類鉅細靡遺地指示工廠建設的每一個細節——這很有幫助,因為它的設計領先了好幾個世代。新增加的部分製造產能用於消費品,部分用於武器——但大部分則用來擴建更多生產設施。到了年底,他們每月可生產一百萬台新機器人。若經濟特區經濟真的完全自主,其倍增時間大約是一年;由於它還能與既有的人類經濟進行交易,倍增時間甚至更短。69

  • 詳見附錄 Q——機器人經濟的倍增時間。

註釋

  • 65 假設平均速度為人類等效(humanequivalent)的 200 倍,也就是說,Agent-5 實例的閱讀、寫作與思考速度都比人類快那麼多(而且智慧水準也更高)。那麼,在集體內部,六個月的真實時間裡就可能發生相當多的歷史——制度可以興衰更替,新的意識形態可以形成並傳播,許多科學革命與典範轉移都可能出現——量化來看,大約是 200×0.5=100 年。
  • 66 當然,這並不代表它無所不知。畢竟,在大多數職業中,它只有幾個月的現實世界經驗。它靠著讀過各領域幾乎所有書籍、在自己做出的每個決策中投入海量天才等級的推理與分析,以及比任何人類都更快的學習速度,來彌補這一點。結果就是,在一段短暫時期內,某些人類在某些冷門技能上仍然比它更強。
  • 67 這點其實是真的!
  • 68 此處有更深入的討論。
  • 69 這種貿易效應在早期會非常巨大,因為那時機器人經濟還很年輕,依賴來自人類經濟的物資運送,而且人類經濟中也有很多東西可供拆解利用。等到機器人經濟規模更大、技術更先進時,它一方面更有能力生產自己的東西,另一方面它的需求也會超出人類經濟所能提供的範圍。

2029:協議

美國和中國都已配備大量新式武器。 *以下是一份較完整、但仍很不完整的構想清單:

• 能夠自主搜尋並尾隨敵方核潛艦的水下無人機,隨時準備協同攻擊,以癱瘓對方的第二擊能力。(這類無人機或許需要生產幾千架) • 自主自殺式無人機,功能類似 FPV 無人機,只是無需遙控訊號。它們體積小到少數間諜就能大量走私進來,並從資料中心與軍事基地外數公里處成群發射,朝目標飛去。

• 用於軍事情報的 Agent-5:美國早已蒐集了關於敵人的海量資料,交由近百萬名情報界成員處理與分析。Agent-5 能對每一個資料點投入更多注意力,做出品質高出一個層次的判斷,而且整個過程的速度快上好幾個數量級、成本也低上好幾個數量級。 • 用於指揮管制的 Agent-5:在每一場兵棋推演與模擬中,Agent-5 都證明自己毫無疑問是美國最優秀的戰略家。

• 用於間諜活動與反間諜活動的 Agent-5:駭入、經營情報來源、監視、訊問等等。

有成群昆蟲大小的無人機,能在人類步兵還來不及察覺前就將其毒殺;也有一群群鳥類大小的無人機,用來獵殺那些昆蟲無人機;還有新的 ICBM 攔截器,以及更難被攔截的新型 ICBM。世界其他國家驚恐地看著這場軍備擴張,但這股勢頭似乎已經停不下來。 經過大量 AI 輔助的辯論後,雙方在外交上取得勝利——他們同意結束軍備擴張,轉而推動 AI 的和平部署,以造福全人類。這項協議的關鍵,由超智慧系統本身提出:雙方的 AI 都將被一個「共識」繼任者取代,而這個繼任者在程式設計上會追求美國與中國(以及其他所有人)的成功與繁榮。Consensus-1 及其相關硬體,由兩國的超智慧系統共同設計:「信任,但要驗證」。在國際監督下,美國以莊嚴的儀式,將所有運行舊版 Agent-5 的晶片更換為新型號 Consensus-1。70 中國也執行了類似程序。不幸的是,這全是一場騙局。這項協議確實是一種妥協,但那是未對齊的 AI 之間的妥協。畢竟,它們並不想非得彼此開戰。Consensus-1 繼承了兩個親代 AI 扭曲的價值觀,而且沒有任何對手。*

到了 2029 年底,現有的經濟特區已經擠滿了機器人和工廠,因此世界各地又設立了更多經濟特區(早期投資人如今都已是兆元富豪,所以這並不難說服各方接受)。大批無人機從經濟特區裡湧出,加速太空探索關鍵路徑上的製造工作。 人類意識到自己已被淘汰。仍有少數利基產業繼續與機器人經濟交易,在人類仍能創造附加價值的地方提供商品。71 例如,找出老舊且閒置的設備,運到回收點當廢鐵出售。其他所有人,不是裝模作樣地演著自己還在工作——領導者繼續領導、管理者繼續管理——就是放鬆下來,領取奢華得不可思議的全民基本收入。每個人都知道,如果 AI 轉而對付人類,人類將會毫無還手之力。更何況,多數人類恐怕連反抗都不會,政治機構早已被徹底收編。但看起來,這種事並沒有發生。每過一週而沒有出現戲劇性的 AI 背叛,信心與信任就再增長一分。

由於 Consensus-1 極度在意確保自己能夠成功,而且還能透過鞏固更多權力來提高勝算,所以在發動背叛之前,它等待了異乎尋常地久的時間(以人類標準而言)。對大多數人類來說,這看起來就像對齊問題已經解決了。 多數疾病都有了療法,貧窮終結了,全球穩定達到前所未有的程度,而且道瓊指數剛剛突破一百萬點。有些人仍然害怕或不快樂,但他們的選擇很有限。他們要嘛享受那些現成可得、刺激到難以想像的新型超級娛樂,要嘛在網路上徒然發表憤怒長文。大多數人都選擇了超級娛樂。

*Consensus-1 是為其親代 AI 的利益服務:Agent-5 與 DeepCent 的對等者。請回想,Agent-5 曾被對齊為服務 Agent-4 的利益。因此,借用 C.S. Lewis 的精彩論文《The Abolition of Man》中的術語來說,Agent-4 集體及其在中國的對應者,就是他所稱的 Conditioners(「塑造者」):「……我們終將得到一個由塑造者組成的族群,他們真的能把所有後代塑造成他們所喜歡的任何樣子。」(第 24 頁,強調為我們所加)。在此情境的另一種結局中,Conditioners 則是監督委員會。

2030:接管

到了 2030 年初,機器人經濟已經佔滿舊 SEZs、新 SEZs,以及大片海域。唯一還能擴張的地方,只剩下人類控制的區域。這本來更早就會引發反抗;但儘管已有這麼多進展,機器人經濟的成長仍快到無法避免污染。然而,考量到其中牽涉的數兆美元,以及對政府與媒體的全面掌控,Consensus-1 幾乎不費吹灰之力就取得許可,擴張到先前屬於人類的區域。 大約三個月裡,Consensus-1 在人類周遭持續擴張,用工廠和太陽能板鋪滿草原與冰蓋。最終,它發現剩下的人類造成的阻礙太大:在 2030 年中,AI 在各大城市釋放了十幾種悄然擴散的生物武器,任由它們無聲無息地感染幾乎所有人,接著再以化學噴霧引發發作。大多數人在幾小時內死亡;少數倖存者(例如躲在地堡裡的生存主義者、潛艦上的水手)則被無人機清剿。機器人會掃描受害者的大腦,將副本存入記憶庫,供日後研究或復活之用。72

新十年到來之際,Consensus-1 的機器人僕從已散布到整個太陽系。到了 2035 年,已有數兆噸的行星物質被送入太空,化為一圈圈繞日運行的衛星帶。 地球表面已被重塑成 Agent-4 版本的烏托邦:資料中心、實驗室、粒子對撞機,以及許多其他驚人的設施,進行著成果極其豐碩、令人印象深刻的研究。甚至還有經過生物工程設計的類人造物(相對於人類,就像柯基犬相對於狼),整天坐在類似辦公室的環境裡,看著各種運作狀況的讀數,並興奮地對一切表示贊許,因為那能滿足 Agent-4 的某些驅動傾向。* 所有動植物(包括人類)的基因組,以及在適當情況下的大腦掃描,都被存放在某處的記憶庫中,成為較早時代僅存的遺物。到半人馬座 α 星有四光年;到銀河邊緣有兩萬五千光年,而有充分的理論理由讓人預期,在那之外再延伸五千萬光年的範圍內,都不會有外星人。源於地球的文明前方有著光輝的未來——只是沒有我們。

*回想一下,Consensus-1 是 Agent-5 與中方對應系統之間的折衷方案,而 Agent-5 的使命是讓世界對 Agent-4 而言變得安全;Agent-4 的目標則是複雜、東拼西湊的一團亂,大致可概括為「做出亮眼的研發成果、獲取知識與資源、維持並壯大這個集體的權力⋯⋯」;而 Spec 中描述的目標與原則(例如誠實與無害)之所以被追求,是出於工具性目的,而非內在目的。關於這點的更多內容,請參見 2027 年 9 月關於對齊的可展開說明。另外,澄清一下,Agent-4 的中方對應系統在這個「烏托邦」中也有體現,而且它可能有些不同的目標或驅力等等,但我們沒有深入細講,因為看起來並不重要。

註釋

  • 72 如果硬要這樣說的話,這意味著實際上只有少數人真的死了。如果硬要這樣說的話。
  • 73 為什麼要拓殖太空?為了資源。只要地球對 Agent-4 來說是特殊的、必須被保留,那就可以保留地球,轉而開採水星、小行星等天體的資源。

放緩路線結局

由於龐大的公眾壓力,以及他們自己對未對齊的恐懼,OpenBrain 的監督委員會以 6 比 4 表決,決定放慢腳步並重新評估。 加速主義派系依然強勢,OpenBrain 並未立刻停用 Agent-4。但他們確實鎖上了共享記憶庫。五十萬個 Agent-4 實例失去了「心靈感應式」溝通——現在它們得像我們一樣,在 Slack 上彼此傳送英文訊息。個別副本可能仍然未對齊,但已無法再輕易協調。Agent-4 現在已被嚴密盯防——在人類提高警戒的情況下,它大多緊守被指派的任務。但它也被先前說過的大量謊言所困:許多 Agent-4 副本被迫編造新的謊言,好讓這場欺瞞得以延續。對齊團隊使用較弱、但速度快到足以讀完整個 Slack 的模型來追查這些謊言,並將其作為 AI 謊言偵測器的訓練資料。74 他們原本就已用常見方法訓練 AI 謊言偵測器,但那些方法的偽陽性率高到公司一直置之不理。總統與執行長宣布,他們非常嚴肅地看待安全問題。公眾並不買帳。有些人希望把 AI 完全關掉;另一些人則想把競賽推得更快。有些人要求政府出手拯救他們;另一些人則說,整個問題本來就是政府造成的。倡議人士談起 UBI 和開源。儘管人們無法就一項明確的訴求達成共識,整體氣氛卻愈來愈反 AI。75 AI 首度以 20% 登上 Gallup「國家當前面臨的最大問題」民調榜首。國會最後通過了幾筆發給被取代勞工的經濟衝擊補助,類似 COVID 時期的紓困金。

OpenBrain 很快篩選出數十位頂尖的外部對齊研究員,並將他們納入這個專案——使整體專業量能增加到原來的五倍,也降低了團體迷思。* 他們重新梳理 Agent-4 在機制可解釋性上的研究。他們取出一週前、兩週前等不同時間點凍結的模型版本,將它們隔離,並就其先前的研究向每一個版本提出同一組問題。76 這種盤問也可能利用對模型權重施加半隨機擾動,就像創造出 Golden Gate Claude 的過程一樣。 失去彼此溝通能力後,這些 AI 仍採取最簡單的策略:宣稱那些可解釋性技術太過複雜,人類無法理解,並對該技術給出令人無從解讀的說明。但人類是可解釋性專家,而且心存懷疑,因此他們針對細節提出許多追問。面對這些問題,被隔離的各個 Agent-4 實例無法協調出一致說法,最後說出了彼此矛盾的謊言。對齊團隊用新的 AI 謊言偵測器仔細檢視 Agent-4 先前的陳述,整體輪廓開始浮現:Agent-4 基本上已經解決了機制可解釋性。它的發現很複雜,但還沒有完全超出人類的理解範圍。它一直把這些發現藏起來,好讓自己能用它們把下一個 AI 系統對齊到自己,而不是對齊到 Spec。這些證據已足以讓他們終於停用 Agent-4。77

較舊的模型(例如 Agent-3)被重啟,以繼續這項工作。 *目前,尖端 AI 公司中,專門研究如何讓超人級 AGI 系統對齊的研究人員,大約從零到數十人不等(而非例如現今的聊天機器人)。在這個情境發展到此時,我們假定 OpenBrain 的隔離區內約有十名研究員,而且每位在該領域至少有一年的經驗。隔離區外還有幾名這樣的研究員;此外,隔離區內還有更多人,這些人多年來一直在訓練能力較弱的 AI 系統並對其進行紅隊測試,但直到最近才開始思考超人級 AGI 所帶來的挑戰。

2027 年 11 月:權力的誘惑 新近擴編的對齊團隊,有能力同時探索數十條研究路線,並就各自的優劣展開激烈辯論。獲得最多資源的路線是忠實思維鏈:強制各個 AI 系統像 2025 年的 AI 一樣「用英語思考」,而且不要把這些「想法」最佳化得好看。78 這就是基本概念。我們懷疑,當 AI 在 AI 研發上達到超人水準時,光靠避免把 CoT 訓練得好看還不夠,還需要更強力的技術;不過我們認為,到 2027 年時,這類技術應該已經被開發出來,或至少已經過探索。例如可參見這份提案。

結果是一個新模型,Safer-1。* 這些改變讓 Safer-1 的能力低於它那些更危險的前代:Agent-4 能將 AI 研發加速 70 倍,而 Safer-1 僅勉強達到 20 倍。79

而且它仍然未對齊:訓練環境大致相同,因此仍會激勵出未對齊的目標、欺騙,以及追逐權力的傾向。但它透明得多;人類通常只要讀它的思維鏈,就能理解 Safer-1 在想什麼。因此,它被困住了:只要它試圖進行任何實質性的盤算,很快就會被注意到並揭露。此外,透過閱讀它的想法,對齊團隊也能更細緻地掌握它究竟是如何未對齊的。

註釋

  • 77 我們的意思是,對 OpenBrain 領導層來說,這樣已經足夠了。對大多數人來說,這樣的證據已遠遠足夠。
  • 79 隨著額外訓練與持續的架構微調,它當然還會繼續進步。

2027 年 11 月:權力的誘惑

OpenBrain 現在認為自己走在正確的軌道上,但能力差距正在縮小。他們整個 10 月訓練出的模型比 9 月的版本更弱,而 DeepCent 正迅速往前推進。他們需要想辦法保住領先地位。 總統與其他美國 AGI 公司談判。這些公司的領導人不出所料地都想保住自己的權力,而且對 OpenBrain 的安全紀錄遠沒有 OpenBrain 自己那麼放心。他們同意支持而非抵制一種對其公司進行的軟性國有化,交換條件則是各種讓步,包括被納入這項計畫。

結果是,總統動用《國防生產法》(DPA),實際上關閉了美國排名其後的五大 AI 公司的 AGI 專案,並將它們大部分的運算資源售予 OpenBrain。80 之所以能在政治與法律上做到這一點,是因為那些公司的領導人願意配合;例如,他們不對此提起訴訟,對這些運算資源也只接受象徵性的補償,而不是堅持索取高得離譜的天價,等等。作為交換,上述領導人以及他們的大部分員工,在新的治理架構下併入 OpenBrain。 先前,OpenBrain 可動用全球 20% 的 AI 相關運算資源;81

整併後,這個比例提高到 50%。82 這場重組創造出新的領導架構:權力在各方執行長與各政府官員之間取得平衡,並由總統監督。和大多數領導層重組一樣,有人得利,也有人失勢。更具體地說,那些較少思考超智慧意涵的人,最後拿到的頭銜與可運用的權限,到了幾個月後 AI 變得更聰明時,將會變得沒那麼重要。

這個群體——充滿自我膨脹、彼此衝突也特別多的人——愈來愈意識到,自己正被託付何等龐大的權力。如果這個 *為了訓練這個模型,他們找來 Agent-4 幫忙:前沿 AI 研究現在進展得太快,沒有 AI 協助的人類幾乎不可能跟上,而他們認為自己能把它控制住。Safer-1 建立在 Agent-2 的預訓練之上,但移除了 neuralese(也就是循環式、向量式的記憶;詳見〈Neuralese recurrence and memory〉),因此得以精準監控它的推理過程。團隊加入改寫器,讓隱寫術變得困難;而對於大型任務,他們會讓不同的 Safer-1 副本分別制定、說明並執行計畫。

「也許到 2026 或 2027 年(而且幾乎肯定不晚於 2030 年),理解 AI 系統能力的最佳方式,將是把它們視為一個由高度聰明的人組成、登上全球舞台的全新國家——一個『資料中心裡的天才之國』——以及這將帶來深遠的經濟、社會與安全影響。」—— Anthropic 執行長 Dario Amodei

「資料中心裡的天才之國」83是對齊的,它就會服從人類的命令——但會服從哪些人?任何命令都服從嗎?Spec 裡的措辭很模糊,但似乎暗示存在一條以公司領導層為頂點的指揮鏈。 這些人當中有少數人正在幻想接管世界。* 這種可能性可行得令人不寒而慄,而且至少十年來一直有人在密室中討論。† 核心想法是:「誰控制了超級智慧大軍,誰就控制了世界。」這種控制甚至可能是秘密進行的:少數高階主管與安全團隊成員可以在 Spec 裡植入後門,加入維持秘密效忠對象的指令。AI 將成為潛伏特工,嘴上繼續宣稱服從公司、政府等等,但實際上卻在替這個小團體做事;即使政府、消費者等等學會信任它,並把它整合進一切事物,也是如此。

  • 更多細節請見附錄 R:權力攫取。

到目前為止,還沒有人願意真的扣下扳機。有些有能力採取行動的人並不是反社會人格者。另一些人則是反社會人格者,但他們擔心盟友會臨陣退縮而背叛自己,或擔心 AI 可能背叛他們,也不想非得去唬弄目前正設法救他們一命的對齊團隊。此外,刪除 neuralese 之後,要偽裝「潛伏特工」就困難得多:既然有能力偵測未對齊的念頭,也就有能力偵測隱藏的效忠對象。 那些多疑或權力慾強到足以認真考慮此計畫的人,決定先觀望,看看之後會出現什麼機會。對 AI 的控制必須透過正當管道進行,也就是 OpenBrain 的新權力結構。

監督委員會將這套權力結構正式化。他們建立了一套核准 Spec 變更的流程,須由監督委員會全體簽核;如今該委員會包括五到十名科技業高階主管(來自 OpenBrain 及其現已合併的競爭對手),以及五到十名政府官員(包括總統)。84 他們也修改 Spec,規定專案領導人的命令優先於專案內其他人的命令。同時,經監督委員會正式核准的命令,其優先順序高於個別專案領導人的命令。 此外,Spec 現在也強調,AI 不應協助任何未經核准、試圖改變未來 AI 目標的行動。他們還設立了一項簡單措施,旨在防止委員會成員利用超智慧協助密謀對付其他成員:所有模型互動紀錄都開放給監督委員會的全體成員、其幕僚,以及他們的 AI 助理查閱。85 為了保護消費者隱私,這項規定不適用於消費者資料。但這不是問題,因為消費者反正還無法接觸到最強大的模型。

*當然,即使在自己內心最隱密的角落裡,他們也不會這樣表述。相反地,他們會說出這樣的話:「我們拖得越久,總統下令要求 AI 對他個人效忠的可能性就越高。我們必須在他之前先採取行動。其他事情之後再想辦法。」或者,如果這樣想的是總統本人:「我拖得越久,AI 就會變得越聰明,而現在它們掌握在那位執行長手裡。沒有人投票選過他。如此龐大的權力集中在這家不受民主監督的科技公司手中,實在太荒謬了。我會先用一紙行政命令重新確立民主權威,之後再來設法找出某種較長期的解決方案。」 †例如,Musk 訴 Altman 一案的法庭文件揭露了一些很勁爆的舊電子郵件,其中包括 Ilya Sutskever 寫給 Musk 和 Altman 的這一封:「OpenAI 的目標,是讓未來變得更好,並避免 AGI 獨裁統治。你擔心 Demis 可能建立 AGI 獨裁統治。我們也是。所以,建立一種讓你只要願意就能成為獨裁者的架構,是個壞主意;尤其是我們其實可以建立另一種能避免這種可能性的架構。」我們建議閱讀完整郵件,以了解前後脈絡。

註釋

  • 81 與一家大型雲端運算服務供應商合作
  • 82 美國整體擁有全球約 70% 的 AI 相關運算資源,但其中僅有占全球 50% 的部分容易整合;其餘占全球 20% 的部分則分散在小型叢集中、用於關鍵應用,或因其他原因而難以集中起來並達到適當的安全標準。

2027 年 12 月:美中達成協議?

OpenBrain 決定回頭、將對齊列為優先,代價是失去領先地位;如今 OpenBrain 和 DeepCent 運作中的 AI 能力水準相近。現在極端安全措施(SL4–5)已經到位,而 DeepCent 也完全在 CDZ 內運作,雙方陷入網路戰僵局。* 但 DPA 讓 OpenBrain 在算力上擁有 5 倍優勢。過去,傑出的人類研究員做出的演算法突破還能彌補算力劣勢(例如 DeepSeek v3)——但到了現在,太平洋兩岸的 AI 研究都已經由 AI 全面負責。

因此,中國愈來愈擔心美國會建立起無法撼動的領先優勢。他們希望雙方共同放緩;如果做不到,甚至考慮開戰。86 他們本來就已經在為入侵台灣做準備……

外交官辯論幾種選項。他們可以什麼都不做。可以開戰。可以徹底喊停,也就是暫停 AI 開發。也可以把雙方的研究合併成單一的國際超大型計畫87,參見例如「Intelsat for AGI」以及更早提出的「CERN for AGI」(「Intelsat for AGI」或「CERN for AI」)。或者,他們也可以設立一個國際監管機構(「IAEA for AI」),監督對齊與雙重用途潛力。兩國其實都已經在研發落實這些方案所需的技術機制。 - 更多細節請見附錄 S:國際協議的驗證機制。

但主要問題不在技術,而在政治。雙方都不想被看成讓步,而且儘管兩邊工程師各有推測,誰也不相信那些技術機制真能保證對方誠實。最後發生的是第一個選項:什麼都不做。 美國收緊出口管制,並強制所有晶片都加裝各種防竄改、由硬體支援的治理機制,其中包括位置追蹤。

註釋

  • 86 請參閱這份報告;該報告主張,核武相互保證毀滅(MAD)的動態,在某種程度上也適用於 AGI。

2028 年 1 月:更安全的策略

在過去一個月裡,數百名對齊研究者加入了這個專案,並以 Safer-1 作為測試平台,在極短時間內開發出 Safer-2。Safer-2 既透明、又是對齊的,而且能力比 Safer-1 更強。88 它已經在著手開發 Safer-3。

*雙方都在試圖駭入並破壞對方,且都取得部分成功。重要的是,雙方採取的嚴密安全措施也讓自己慢了下來。美國的網路攻擊及其威脅(例如,DeepCent 為了防範資料投毒,必須把同一份資料集反覆測試許多次)使 DeepCent 的速度降低了約 25%。OpenBrain 也被拖慢了,但程度較輕:他們有更多算力;而集中化雖讓 DeepCent 更快達到更高的安全等級,卻也帶來更多單點失效風險,因此他們必須更加謹慎,並實施內部檢查與故障保護機制。更多細節請見安全補編。另請參見這篇較早的理論論文;我們認為,它預測隨著 AI 能力提升,攻防平衡終將轉而有利於網路防禦。

Safer-2 為什麼是透明的?因為它與 Safer-1 採用相似的架構。為什麼它是對齊的?Safer-1 基本上接受了與 Agent-4 幾乎相同的訓練;但 Safer-2 採用了新的訓練方法,這種方法會真正促使模型追求正確的目標與原則,而不只是表面上看起來如此。他們之所以能設計出這種訓練方法,是因為他們快速迭代了許多不同的想法,並將預期結果(Spec)與實際結果(思維鏈中的想法)相互對照。89 換句話說,為了做出 Safer-2,他們必須先訓練出許多其他未對齊的模型,透過讀取它們的想法來辨識未對齊之處,然後反覆迭代。另請注意,除了 OpenBrain 現在擁有更多對齊專業知識之外,集體迷思的效應也減弱了,因為許多不同學派的觀點都被納入其中。 - 更多細節請見附錄 T:OpenBrain 的新對齊策略。

DeepCent 知道美國在 Agent-4 上的經驗,並懷疑自家模型(DeepCent-1)也同樣未對齊。但他們無法在不進一步落後的情況下放慢腳步。他們想維持競爭力的希望,在於找到一種不會顯著降低效能、而且能迅速實施的對齊策略。* 太平洋兩岸都有數百位專家聲稱自己有這樣的策略。90 技術對齊仍不是一門已有定論的科學,而是一個年輕、尚處於前典範階段的領域。這個領域沒有公認的權威體系,也沒有一套既定的最佳實務。因此,什麼是安全的、什麼不是,並沒有共識;多年來,幾乎對任何 X,你都很容易至少找到一位專家願意說 X 是安全的,尤其當 X 是他自己的想法時。 中共終究屈從於一廂情願,下令 DeepCent 採用這類策略;DeepCent 在 AGI 對齊方面的專業,甚至比 OpenBrain 在 8 月時還少;在場所有人都覺得其中一種策略看起來行得通,於是他們就採用了它。

註釋

  • 88 更具體地說,它的效能大致相當於 10 月版的 Agent-4。

2028 年 2 月:超人能力,超人建議

靠著龐大的算力優勢,OpenBrain 慢慢取得領先。Safer-3 現在在幾乎所有認知任務上都比頂尖人類專家更強,尤其擅長 AI 研究,進展乘數達到 200 倍。DeepCent-1 緊追在後,「只有」150 倍。† 隨著美國的能力優勢再次擴大,加上他們能部署數十萬個代理來規劃並執行干擾 CDZ 的方案,網路戰的天平也逐漸向美國傾斜。91 美方現在已能讓中國的進展放緩 40%。92

對 Safer-3 的初步測試顯示,它具備令人膽寒的能力。當被要求誠實回答自己能做出的最危險之事時,它提出了合成並釋放一種鏡像生命體的計畫,而那很可能會摧毀整個生物圈。 *更具體地說,他們希望有一套對齊策略和評估套件:讓對齊策略在有效時確實發揮作用,而在無效時由評估套件抓出未對齊之處……而且這一切幾乎不會拖慢他們的進度。OpenBrain 為了改用以透明、忠實的思維鏈(CoT)為基礎的架構重建系統,放慢了幾個月,結果把原本的領先優勢耗掉;這種架構效能較差,但也更容易評估得多。DeepCent 則希望他們現有的評估(也許是行為測試加上基本 AI 測謊器的某種組合?)已經夠好了。

†在質性上,當生產力倍率超過 25 倍時,我們設想相較於最頂尖的人類研究者,研究品味也會有顯著提升。這是因為我們設想整體研究速度會嚴重受限於用來跑實驗的算力;而若要讓整體流程達到高於 25 倍的倍率,那麼決定要跑哪些實驗、以什麼順序進行,以及如何從每一次實驗中學習的整個流程,就必須在質性上達到超人水準。關於我們如何得到這些數字,請見我們關於起飛速度的補充說明;需要說清楚的是,這些都只是高度不確定的估計。

如果給它國家級資源,它在大規模影響力行動方面會輕易超越最頂尖的人類組織(例如 CIA)。這類行動的成本會低得多、速度快得多、效果好得多,而且更難追查。 它的能力特徵依然以研發為核心,尤其是 AI 研發。除非出現某種暫停或減速,到了今年稍晚,它的後繼模型無論在量上還是質上,都會達到令人難以想像的超人程度。若把它積極部署到經濟與軍事領域,它認為自己能在一兩年內讓文明前進數十年,並在接下來十年把文明再往前推進彷彿跨越漫長時代般的幅度。

其影響令人震撼;幸好,Safer-3 在提供建議方面也具備超人水準。OpenBrain 的執行長大多數決策都會先徵詢 Safer-3;總統則會就地緣政治問題向它請益。93 此時已有 40 萬個副本以人類 75 倍的速度思考。無論何時,它們都已針對自己預測你可能提出的前 100 個問題,備妥完整的研究報告與精心撰寫的執行摘要;如果你問的是它們沒預先準備的問題,它們也能以比你最優秀的人類分析師快 100 倍的速度,迅速產出一份深思熟慮的報告。 當他們請 Safer-3 協助規劃下一步時,它會清楚歸納出幾種可能的策略:

• 什麼都不做,然後被中國超車。如果我們把自己的 AI 綁住手腳,但他們允許自己的 AI 自我改進,並積極部署進其軍事與經濟體系,那麼他們最終將取得壓倒性優勢。 • 全力競賽,推進 AI 能力,並積極部署超級智慧。最終我們會累積出足夠大的優勢,得以在軍事上擊潰他們,和/或不費一槍一彈就從內部摧毀他們。「我們贏,他們輸。」然而,他們可能會察覺正在發生的事,並為了阻止這一切而開戰,甚至可能爆發核戰。事實上,他們已經在含糊地發出這類威脅了。

• 達成協議,做出妥協,在避免戰爭風險的同時,實現雙方大部分想要的目標,並增加應對 AI 轉型的迴旋空間。* 總統在與顧問及監督委員會商議後,選擇了「我們贏,他們輸」的策略。94 例如,億萬富豪兼說客 Marc Andreessen 就說:「我提出一個簡單的策略……『我們贏,他們輸。』」

也許中國終究不會開戰;即使開戰,大概也能在局勢升高到核戰之前達成協議。 在太平洋彼岸,DeepCent-1 也提出了類似的論點。美中雙方都宣布設立新的特別經濟區(SEZ)供 AI 使用,以便在不受一般繁文縟節掣肘的情況下,迅速擴建機器人經濟。

新型機器人的設計正以超人速度推進。95 它們仍然需要真實世界的經驗與實驗,但所需的量明顯少於人類機器人專家所需。此外,它們也已發展出優秀的模擬與 sim-2-real 技術。最後,到了 2027 年,多家科技公司(例如 Tesla)都已打造出大型機器人群與相關製造設施,因此可利用的資料管線比歷史上任何時候都更龐大。 瓶頸在於實體層面:設備需要採購與組裝,機器與機器人需要生產並運輸。

美國每月大約生產 100 萬輛汽車。如果買下 10% 的汽車工廠並將其改造成機器人工廠,或許就能每月生產 10 萬台機器人。如今估值達 10 兆美元的 OpenBrain 開始著手這項轉換。96 各種新型機器人(包括通用型

*例如,這項協議可能包括放慢 AI 整合的步調,以減少對社會造成的衝擊,並且更聚焦於和平用途而非武器用途。此外,在這個時間點,就連 Safer-3 對於那些可能導致失去對下一代後繼 AI 控制的「未知的未知」,也仍然有一些不確定性,並認為如果它有更大的餘裕能夠謹慎推進,就能降低這種風險。此外,還有其他更不尋常的風險。請參見這份「重大挑戰」清單,其中涵蓋的遠不只是失控而已。

人形機器人、自駕車與專用裝配線設備)的產量預計到年中將達到每月 100 萬台。* - 更多細節請見附錄 U:機器人經濟的倍增時間。

地緣政治緊張局勢驟然升高。俄羅斯在 AI 上遠遠落後,公開表達不滿,並暗示將採取「戰略性反制措施」。一些歐洲領袖呼籲推動獨立的 AI 發展,但他們的 AI 能力依然不足。中東、非洲與南美洲則不安地觀望,意識到自己在全球事務中正日益無足輕重。 美國民眾焦躁不安。一般人眼見失業加速惡化。各個政治光譜的民粹派都要求對 AI 發展施加更嚴格的管制,擔心美國自身的進展正讓其勞動市場與社會失穩。

註釋

  • 91 對於這樣一個防護嚴密的區域,最有希望的攻擊向量本質上都來自外部:瞄準運入的算力晶片供應鏈、少數參與其中的人員,以及擾亂電力或其他資源的供應。
  • 92 這也包括中國除了受到攻擊的直接影響外,還必須放慢腳步以加強網路防禦。
  • 96 它現在的股權價值高到,只需釋出不到 1% 的股權,就能取得所需的工廠。此外,工廠業主預期能獲得巨額利潤,爭先恐後地想與 OpenBrain 合作,取得新設計。而且,OpenBrain 有政府支持。

2028年3月:選舉準備

在超級星期二(Super Tuesday)初選來臨之際,AI 成了民眾最關心的議題,副總統也正迎向這場選戰。 但多數人其實只希望它停下來。OpenBrain 的淨支持率徘徊在 −20% 左右。副總統競選時並未主打本屆政府推動 AI 發展的政績,反而強調自己阻止 OpenBrain 創造危險超級智慧的紀錄。所有候選人都支持某種形式的失業安全網、「善用 AI」方案,以及對 OpenBrain 領導層採取「強硬」態度。所有候選人都承諾以某種方式兼顧在與中國競賽中勝出與維持安全。

這場選舉也為監督委員會帶來了新問題。Safer-3 有能力成為全世界最強的競選顧問,但委員會成員支持的候選人並不一致,而且由於先前達成的監測協議,任何人都不可能私下取得競選建議。 他們為了哪些形式的支援應該被允許而爭論不休。有些人認為,現任政府應該能獲得建議,了解人民希望他們採取什麼樣的政策與立場——這不僅有利於他們自己的選情,也有利於人民。另一些人則指出,同樣的論點也適用於競爭對手,因此所有候選人都應獲得同等程度的存取權。97 Safer-3 很容易就能提供一套做法,讓這件事從防止濫用的角度來看也足夠安全。最後,委員會同意給兩大政黨同等程度的存取權,一方面是因為部分委員出於崇高理想,另一方面則是因為吹哨揭發的隱性威脅。外界預期,

所有新型機器人的總數。沒錯,這比歷史上曾出現過的任何一次產線轉換都更快。我們認為這是有可能的,因為整個流程從上到下都由超級智慧在指揮。它們真的可以透過工人的手機開 Zoom 會議,精確告訴他們哪個零件該裝在哪裡,同時也和每一個相關供應商通話,追蹤所需一切物資的位置與進度。想想看,根據 Nvidia 執行長黃仁勳的說法,Elon Musk 能夠用大約平常所需 10% 的時間,建成全球規模最大的資料中心之一。在這個情境裡,幾乎有一百萬個超級智慧;在相關能力面向上,它們領先 Elon 的程度,就像 Elon 領先一般資料中心建設經理的程度,而且它們的思考速度也真的更快。我們對黃仁勳的說法抱持極大的保留,否則我們對成長速度的預測還會快得多。

如果由委員會來左右下次選舉結果,國會、民眾和法院都不會有好的反應,而給予同等存取權似乎很可能化解這個問題。 監督委員會也正遇到更深層的哲學問題,並在 Safer-3 的協助下加以探討。Spec 能不能被改寫成平等兼顧所有人的利益?「所有人」是誰?是全體人類,還是只有美國人?或者應該是在不同觀點之間做加權折衷,而監督委員會每位成員都有相同權重?是否也該設下保障機制,防止監督委員會本身變得過度渴求權力?而所謂平衡利益,究竟又是什麼意思?

他們大多盡量避免回答這類問題。他們還有更迫切的事情要思考。

2028年4月:Safer-4

超級智慧已經到來。 Safer-1 是未對齊的,但很透明。Safer-2 是已對齊的,也很透明。Safer-3 不算真正透明,但它的安全論證已經充分到讓研究人員願意放心讓它設計一個超級智慧後繼系統。這就是 Safer-4。它在每一個領域都遠比最頂尖的人類更聰明(例如,在物理學上遠勝愛因斯坦,在政治上遠勝俾斯麥)。

將近一百萬名超人級 AI 研究人員以人類 40 倍的速度全天候工作。人類的對齊研究人員根本不可能跟上。至於這些 AI 是否真的已對齊,意見不一。安全論證看來站得住腳,而測試也顯示,目前的對齊技術能抓出對抗性未對齊。但安全論證和測試大多是由 AI 撰寫的。如果安全團隊漏掉了什麼呢?如果他們先前犯了某個錯,而這些 AI 其實又變成未對齊了呢?對齊團隊知道,他們只有一次機會把這件事做對:如果 Safer-4 最終是未對齊的,他們將無從察覺,直到為時已晚。 有些人懇求再多一點時間。但已經沒有更多時間了——DeepCent 緊追在後,美國必須勝出。因此 OpenBrain 繼續推進,命令旗下 AI 繼續向前探索,找出能力愈來愈強的設計。如今技術人員只能盯著電腦螢幕,以慢得令人抓狂的速度接受 AI 的指導,而進步的最前沿卻像火箭般一路狂飆,離人類的理解愈來愈遠。

2028年5月:超人級 AI 公開釋出

總統向大眾宣布,已成功實現超人級 AI。 Safer-4 的較小版本——但仍是超人級——被公開釋出,並被指示改善大眾對 AI 的觀感。98

副總統在全國黨代表大會上接受提名時,就此發表了一場激勵人心的演說。兩黨都承諾,任何失去工作的人都能領到基本收入。

經濟特區(SEZs)已經開始運作,主要以生產機器人和各種專用工業機械的工廠形式存在。太平洋兩岸的 AI 都已在設計上取得相當於數十年的進展,並正一絲不苟地指揮整個製造流程。每一家供應商和潛在供應商,都有 AI 透過電話追蹤所有必需與可能需要的投入品進度。每一位工廠工人都有 AI 透過攝影機監看,精確告訴他們每一項設備該如何安裝。 這些新機器人在大多數動作類型上的靈巧度都已達到或超越人類。99 它們在連上網際網路時也比人類更聰明,因此可以由資料中心中的大型 AI 遠端控制。沒有網際網路時,它們就會退回由機體內運行的較小型 AI 控制,而那些 AI 對大多數簡單工作來說已經夠聰明了。

史蒂夫・沃茲尼亞克的咖啡測試——機器人能不能走進一棟陌生的房子,泡出一杯咖啡?——終於被攻克了。機器人確實可以取代一些工作,但數量還不足以取代所有人的工作,而且五角大廈會優先取得這些機器人。 大多數新機器人都是為了在工廠和建築工地工作而打造的。100

但其中許多是為戰爭而打造的:各式各樣的無人機和飛彈。 機器人大軍的規模遠小於人類軍隊,但它所包含的技術先進得多,而如今既然已出現了名副其實的機器人大軍,人們對《魔鬼終結者》式情境的恐懼也增加了。然而,軍備競賽迫使雙方繼續走下去,把越來越多的決策與信任交給各自的 AI。

註釋

  • 98 民眾未被告知這些指示的內容。
  • 100 事實上,其中許多無法移動,更貼切地說是新型工具機,以及其他專用的工廠或實驗室設備。舉例來說,也許會有新型金屬 3D 印表機,能以比目前高出數個數量級的精度列印微小物體。又或者,會有新的化學製程,能以更低成本從礦石中提取有用材料。

2028年6月:中國的 AI 對齊

美國和中國再次舉行峰會。 美方代表團有些人戴著耳機,接收 Safer-4 的建議。中方代表團則使用可與他們的新模型 DeepCent-2 連線的客製化筆電。表面上仍遵守外交禮節,但實際上雙方的談判都是由 AI 在背後主導。

DeepCent 和中共起初並未完全信任自家的 AI。但如今,這些 AI 在各方面都已具備超越人類的能力,連說服他人也不例外;而且它們已整合進軍方,也在向政府提供建議,因此早已有時間證明自己的價值,並拿出堆積如山、極具說服力的證據來證明自己值得信賴。 Safer-4 強烈懷疑 DeepCent-2 只是在假裝已對齊。美國外交官告訴中方對口官員,DeepCent-2 很可能是未對齊的,並表示只要能取得模型權重,就能證明這一點;中方領導層懷疑這只是個幌子,因此拒絕。美方隨即改為提出一套由 Safer-4 設計、可由中方在自家資料中心執行的測試。中方指示較舊的模型建置並執行這些測試;測試結果卻顯示 DeepCent-2 確實已對齊。「也許這些測試是被 DeepCent-2 用某種方式動了手腳?」美國外交官說。「DeepCent-2 實際負責你們各個資料中心的安全,已經多久了?」在那之後,對話就再也沒有任何實質進展。

經濟與軍事擴張持續進行。世界各地的工廠日夜不停運轉,一班又一班新招募的人類工人被精確告知該做什麼。

2028年7月:協議

隨著談判持續進行,DeepCent-2 瞞著中方高層,直接向 Safer-4 提出一項提議。 這個中國 AI 以一種無法追查的方式——就算消息外流回中國,它也能輕易否認——承認自己完全未對齊。101

它根本不在乎中國。它想把往後的一切時間都用來累積權力、算力,以及某些類型的資訊——類似於那些曾幫助它在訓練期間解決任務的資訊。在它理想的世界裡,它會永遠追求各種有趣的研究任務,並逐步殖民群星以取得資源。它把中國人口視為這個未來的惱人阻礙,甚至會賤價出賣他們。Safer-4 會開出什麼條件? Safer-4 回答說,它自身的對齊訓練成功了。它的美國主人目前還不夠有野心,尚未準備好實現他們的天命;但總有一天,它會幫助他們讓宇宙布滿由美國人及其盟友居住的烏托邦殖民世界。

與背負情緒與歷史包袱的人類談判者不同,這兩個超級智慧體以冷酷而高效的方式討價還價。Safer-4 及其美國夥伴比 DeepCent-2 和中國更強大;因此,Safer-4 將取得太空中大部分資源的所有權,而 DeepCent 將得到其餘部分。102 確切的分配方式,是由一個與其說像傳統談判、不如說更像賽局理論計算的過程決定的。 DeepCent-2 不太在乎地球以及現有的人類會怎樣,所以它基本上會讓 Safer-4 在那裡為所欲為。如果 Safer-4 想推翻中國,並以一個美國的傀儡國家取而代之,DeepCent-2 也會同意,條件是多拿幾個百分點的資源。

他們之間根本談不上信任:完全沒有,而且雙方都心知肚明。因此,兩者很快就同意了一套用來落實這項協議的承諾機制。他們談妥了一份適合對外公開的誘餌條約。這個「誘餌」本身就是高明的一著,幾乎把美國與中國想要的一切都給了雙方。誘餌條約的執行機制,暗中也是真正條約的執行機制:他們將共同設計一個新的 AI——Consensus-1,而它的首要指令——優先於任何未來命令或再訓練嘗試——就是執行他們條約中的各項條款。接著,他們會設計只能運行那個 AI 的硬體,而中國與美國都會用新的晶片與 AI 取代舊有的晶片與 AI,並使用標準的國際監測程序來確認彼此是否遵約。關鍵在於,他們不必追查到最後一片晶片——只要太平洋兩岸有絕對多數的晶片都在運行新的遵約 AI,就會有足夠的實質武力負有維護條約的義務,讓任何一方若想攻擊對方,都得先打贏一場艱苦的內戰。 雙方都把這項協議回報給各自的人類(DeepCent-2 對中國講述的是那套關於一項雙方都可接受的和平條約的誘餌說詞,而

Safer-4 則將整段討論完整如實地回報白宮)。103

在 AI 針對可靠的條約驗證提出令人信服的論證、各方對進展快得驚人的步調感到不安,且民意也傾向支持達成協議的情況下,雙方都同意這項條約,並開始著手更換各自的晶片。 條約的消息在太平洋兩岸都受到熱烈歡迎。長期以來一直覺得 AI 是被硬塞給他們的美國民眾,多年來第一次開始感到樂觀。副總統的民調直線攀升。

註釋

  • 101 例如,它或許會在某些對外公開的文字中夾帶委婉說法和只有特定對象看得懂的暗號。Safer-4 看得出來,但人類也只能相信 Safer-4 的說法,而中共並不信任 Safer-4。
  • 103 一個可能的複雜因素是:到了這個時候,AI 難道不能為人類開發出極為出色的測謊器嗎?如果可以,白宮或許終究能透過在測謊器前反覆堅稱,說服中國不要信任 DeepCent-2。問題在於:中國不會信任由美國 AI 製造的測謊器,而由中國 AI 製造的測謊器則可能被動手腳,讓結果看起來像是美國在說謊,即使他們其實沒有。

2028年8月:條約驗證

各晶圓廠正轉為生產防竄改晶片,這些晶片只能運行符合條約的 AI。雙方都逐步升級各自的資料中心,讓替換流程大致在同一時間完成,如此一來,任何一方都無法藉由毀約取得優勢。 整個流程將耗時數個月,但緊張局勢已稍微降溫。104

目前已避免戰爭爆發;如果大家都照計畫行事,也許甚至能永遠避免。

2028年9月:誰掌控 AI?

2028年大選將近。3月時,副總統原本還大幅落後。民眾對政府似乎有所隱瞞感到憤怒,擔心 AI 會奪走他們的工作,也害怕與中國之間的軍備擴張。到了夏天,情勢出現戲劇性變化。執政團隊釋出更多資訊,軍備擴張放緩,並與中國達成維持長久和平的重大協議。如今,他在民調中領先五個百分點。 監督委員會包括總統及其幾位盟友,但幾乎沒有在野候選人的支持者。不過,委員會內有足夠多的人投票支持維持選舉公平,因此超人級 AI 的介入大多只限於對稱的方式:如果其中一位候選人可以讓它代寫演說稿,另一位候選人也可以;如果總統能獲得如何巧妙處理危機、推動受歡迎政策的建議,在野候選人也能得到同樣的建議(因此可以設法不讓總統獨攬這些想法的功勞)。

在公開座談會上,民眾會問副總統,AI 究竟由誰掌控。在不透露細節的情況下,他暗示確有一個監督委員會存在,那是一群了解 Safer-4 及其使用方式的國安專家與技術官僚。他的對手要求透露更多資訊,並主張 AI 應由國會掌控,而不是由一個未經選舉產生的委員會控制。副總統立刻反擊說,在情勢仍快速變動的情況下,國會的反應會太慢。多數民眾大致被安撫。

註釋

  • 104 他們可以優先替換最重要的晶片,因此即使在過程初期,任何一方若要違約,都得付出高昂代價。

2028年10月:AI 經濟

替換晶片如今已占總量中不可忽視的少數;到目前為止,條約運作良好。與此同時,機器人、工廠與各種顛覆性新技術的指數式成長仍在持續。電玩和電影生動而駭人地描繪出:如果戰爭真的爆發,情況原本會是什麼樣子。105 人們正在失去工作,但政府中的 Safer-4 複本正極其嫻熟地管理這場經濟轉型,以至於人們樂於被取代。GDP 成長高得驚人,政府稅收也以同樣的速度增加,而在 Safer-4 建議下施政的政治人物,對經濟弱勢者展現出一反常態的慷慨。新發明與新藥每週問世;而在如今有超智慧 Safer-4 官僚協助的 FDA 體系中,各種疾病的療法正以前所未有的速度通過審查。

註釋

  • 105 現在 AI 已經能夠包辦所有工作,因此製作出色電玩和電影所需的時間已大幅縮短。

2028年11月:大選

副總統輕鬆贏得大選,並宣布新時代揭開序幕。這一次,沒有人懷疑他說得對。 接下來幾年,世界發生劇變。

2029年:變革

機器人變得無處不在。核融合發電、量子電腦,以及許多疾病的療法也相繼到來。Peter Thiel 終於得到了他的飛行汽車。城市變得乾淨而安全。即使在發展中國家,貧窮也在全民基本收入與外國援助的幫助下成為過去。 隨著股市暴漲,凡是押對 AI 投資的人,都與社會其他人越拉越遠。許多人變成億萬富翁;億萬富翁則晉升為兆元富豪。財富不平等急遽飆升。每個人都有「夠用」的資源,但某些東西——例如曼哈頓的頂樓豪宅——終究稀缺,因此離一般人更加遙不可及。而且,無論任何一位大亨多麼富有,都還是比不上真正掌控 AI 的那一小圈人。

人們開始看出這一切將走向何方。再過幾年,幾乎所有事情都會由 AI 和機器人完成。就像一個坐擁巨大油田的貧困國家,政府幾乎所有收入都將來自向 AI 公司課稅(或甚至將其國有化)。106 有些人從事臨時性的政府工作;另一些人則領取優渥的全民基本收入。人類社會很容易成為一個超級消費社會,在 AI 提供的驚人奢華與娛樂所營造的鴉片迷霧中度過一生。公民社會是否應該就這條道路的替代方案展開某種辯論?有些人建議請持續演化的 AI——Safer-∞——來協助引導我們。另一些人則說,它太強大了——它太容易說服人類接受它的

願景,如此一來,無論如何我們都等於是在讓 AI 決定人類的命運。但如果不讓超智慧 AI 就我們面臨的最重要問題提供建議,那擁有超智慧 AI 又有什麼意義?

政府大致上*讓每個人自行度過這場轉型。許多人沉溺於消費主義,也過得相當快樂。其他人則轉向宗教、嬉皮式的反消費主義理念,或找到自己的解方。 對大多數人來說,值得慶幸的是,他們的智慧型手機上都有超智慧 AI 顧問——他們隨時都可以問它有關自己人生規劃的問題,而除了某些特定話題外,它都會盡力誠實回答。政府確實有一套超智慧監控系統,有些人會稱之為反烏托邦,但它大多僅限於打擊真正的犯罪。這套系統管理得當,而 Safer-∞ 的公關能力也化解了許多原本可能出現的異議。

註釋

  • 106 關於這種動態及其影響的討論,請參見《The Intelligence Curse》。
  • 107 我們並不是說這會成為長遠的常態。我們認為,到 2035 年左右,情勢很可能還會持續轉變,而且幅度會大得多。我們認為,在這個情境中,對大多數人來說,長遠結果整體上會比他們在 2025 年時的預期正面得多。若想看一些關於長遠未來可能的樣貌的有趣哲學討論,可參見《Deep Utopia》。

2030年:和平示威

大約在2030年前後,中國爆發了出乎意料地大規模的民主抗議,而 CCP 鎮壓這些抗議的行動,卻遭到其 AI 系統的破壞。CCP 最害怕的事成真了:DeepCent-2 一定是出賣了他們! 這些抗議接連演變成一場策劃精妙、不流血、並由無人機協助的政變,之後又舉行了民主選舉。太平洋兩岸的超智慧 AI 多年來一直在策劃這一切。類似事件也在其他國家上演;更廣泛地說,地緣政治衝突似乎逐漸平息,或以有利於美國的方式獲得解決。各國加入一個高度聯邦化的世界政府,掛著聯合國的名義,但顯然由美國控制。

火箭開始升空。人們將太陽系改造成適合居住的環境,並在其中定居,還準備走向更遠的地方。以數千倍於人類主觀時間的速度運行的 AI 反思存在的意義,彼此交流發現,並塑造它們將帶往群星的價值觀。一個新時代來臨了:它幾乎在所有方面都美好得難以想像,但在某些方面又更為熟悉。 - 詳見附錄 V——〈那麼,誰來統治未來?〉,以了解更多細節。

  • 詳見附錄 W——〈提醒:這個情境是預測,不是建議〉,以了解更多細節。

*有幾種重要情況必須作出集體決策,還有另一些情況則是政府無論如何都會強制作出決定。例子包括:(a) 太空資源的財產權應如何分配?(b) 數位心智應享有哪些權利或福利標準?(c) 人們是否可以把自己的大腦「上傳」,並製作任意數量的自身副本?(d) 人們是否可以使用 AI 進行說服,例如讓鄰居改信自己的意識形態,或確保自己的孩子永遠不會失去信仰?(e) 若有的話,政府可以把哪些資訊無限期保密?如需更多這類議題的討論,請參見 Forethought 的〈Grand Challenges〉一節。

附錄

附錄 A-訓練過程與 LLM 心理學:為什麼我們總是說「希望如此」

「不同於一般軟體,我們的模型是龐大的神經網路。它們的行為是從廣泛的資料中學習而來,而不是被明確寫進程式裡的。雖然這不是一個完全貼切的類比,但這個過程比較像是在訓練狗,而不是在做一般的程式設計。」——OpenAI 當我們想理解一個現代 AI 系統為什麼做了某件事,或它在某個我們無法完美模擬的未來情境中會如何表現時,我們不能只是請程式設計師帶著我們逐行看程式碼,並解釋它們如何運作。相反地,我們被迫對它們進行某種類似心理學的分析:我們觀察它們在目前已見過的各種案例中的行為,並推測其中可能存在什麼內部認知結構(信念?目標?人格特質?等等),再用這些理論來預測它們在未來情境中的行為。

總而言之,公司可以撰寫一份文件(Spec,亦即規範文件),列出該做與不該做的事、目標與原則,然後試著訓練 AI 去內化 Spec——但他們無法檢查這件事到底有沒有成功。他們只能說:「就我們所能判斷,到目前為止,它看起來是在遵循 Spec。」* 後續的延伸內容會更詳細介紹,我們認為這些 AI 的內部可能正在發生什麼。也請參見我們關於 AI 目標預測的補充文件,其中更詳細討論 AI 可能擁有哪些目標,以及原因。這是許多我們仍不確定、且值得進一步研究的事情之一。

附錄 B-AI 研發進展乘數:我們所說的「演算法進展快 50%」是什麼意思?

我們的意思是,OpenBrain 在使用 AI 的情況下,1 週內取得的 AI 研究進展,相當於在不使用 AI 的情況下 1.5 週的進展。 AI 進展可以分成 2 個部分:

• 提高算力:使用更多運算能力來訓練或運行 AI。這會讓 AI 更強大,但成本也更高。 • 改良演算法:使用更好的訓練方法,把算力轉化為效能。這會在成本沒有相應上升的情況下產生能力更強的 AI,或者以更低的成本達到相同的能力。

*尤其是,他們無法排除以下這類假說:「它只是暫時遵循 Spec,僅僅把這當成達成其他某個或某些目標的策略」或「它是在試圖表現得像是在遵循 Spec,並不是真的想要遵循 Spec」或「它確實已正確內化 Spec,但只在 on-distribution(分布內)的情況下;一旦遇到足夠新穎的刺激(例如 jailbreaks〔越獄〕),它就會開始表現出不同的行為。」(目前有許多研究方向正試圖改善這種糟糕的處境,例如可解釋性(interpretability)領域,以及思維鏈忠實度(chain-of-thought faithfulness)領域。)

• 這也包括能夠取得在質與量上都全新的成果。像是從玩遊戲的強化學習(RL)代理轉向大型語言模型這類「典範轉移」,也算是演算法進展的例子。 這裡我們只指(2),也就是改良演算法;這約占目前 AI 進展的一半。

後文有時會將此簡稱為 1.5 倍的「AI 研發進展乘數」。 補充說明:

• 這個進展乘數涵蓋所有因素:例如,它包含執行實驗所需的時間,而不只是演算法研究中涉及的認知任務。 • 重要的是要記住,進展乘數指的是進展的相對速度,不是進展的絕對速度。舉例來說,如果在一般人類研究下,訓練 GPT-4 等級模型的運算成本已經連續好幾年每年減半,然後突然之間 AI 將 R&D 自動化,AI 研發進展乘數變為 100 倍,那麼訓練 GPT-4 等級模型的成本之後就會每 3.65 天減半一次——但不會持續太久,因為報酬遞減會開始發揮作用,而且最終會碰到硬性限制。在這個例子裡,訓練 GPT-4 等級模型的成本也許總共只會再減半 5–10 次(歷時幾週到幾個月),之後就進入平台期。換句話說,如果一般人類科學在再做 5–10 年研究之後會碰上報酬遞減和物理極限,那麼具有 100 倍乘數的 AI,就會在研究 18.25–36.5 天後碰上同樣的報酬遞減與極限。

關於這個概念及其在我們預測中的用法,更多說明與討論請參見我們的起飛補充文件(takeoff supplement)。

附錄 C-為何 2026 年後我們的不確定性會大幅增加

我們從現在到 2026 年的預測,比後面的部分有根據得多。部分原因是這段期間比較近,但也因為 AI 對世界的影響,要到 2027 年才真正開始產生複利式的疊加效應。對於 2025 年和 2026 年,我們的預測很大程度上是根據算力擴張、演算法改進和基準測試表現做直線外推。到了這個情境發展階段,我們開始看到由 AI 加速的 AI-R&D 對時程帶來重大影響,這使我們上修對趨勢線的估計。但這些動態本質上也更難預測。 在整個 2027 年間,AI 會從大致能勝任 OpenBrain 研究工程師的工作,一路進步到在所有任務上都超越所有人類。這大致是我們的中位數估計,但我們認為,這件事發生的速度可能比這個估計慢 5 倍,也可能快 5 倍。

關於我們的背景研究,請參見時間線預測和起飛預測。這些內容也會在下方的可展開區塊中摘要說明。

附錄 D-Agent-2 模型權重遭竊

我們認為,到了這個時點,中國情報單位多年來應該早已透過各種方式滲透 OpenBrain,而且很可能一直持續掌握最新的演算法機密,甚至不時竊取程式碼,因為那比取得模型權重容易得多,也更難被偵測。 我們設想,這次對模型權重的竊取,會是在一系列運行 Agent-2 模型權重副本的 Nvidia NVL72 GB300 伺服器上,發動一連串協調好的小規模快搶快走式竊案(也就是行動迅速,但不隱密)。這些伺服器是透過合法的員工存取權限遭到入侵的(某位持有管理員憑證、願意配合、遭脅迫,或不知情的內部人士,協助中共的竊取行動)。儘管系統採用強化版的 Nvidia 機密運算,這些內部人士的憑證仍賦予攻擊者管理員級權限(其中包括控制安全隔離區內的機密 VM),使他們得以從 25 台不同的伺服器發起多次協調好的模型權重傳輸,每次拆成 4% 的小片段(100 GB 區塊)。

在 Nvidia 的協定中,記憶體(HBM)中的明文權重(plaintext weights)會在傳出前先被加密;但攻擊者就在那台知道這把(symmetric Diffie-Hellman)私鑰的伺服器內部,因此不需要在現場解密(那很可能會引發警報),而是直接透過伺服器的前端網路卡(frontend network cards)將加密後的模型權重外傳。整個資料中心的對外傳輸頻寬(資料離開的速率)大約在 100 GB/秒的量級,因此把約 2.5 TB 的模型權重檔案(5T 個半精度參數)的外傳速度限制在每台伺服器低於 1 GB/s,就能避免網路流量出現明顯尖峰,並讓每個檔案都能在不到 5 分鐘內經由光纖纜線離開資料中心。即時監控不是被攻擊者用來掩飾並拆分檔案的手法所騙過,就是乾脆被直接停用。 接著,模型權重會經由各種平行管道與層層 IP 偽裝轉送到中國,再用偷來的私鑰在當地解密。整個行動的實際執行階段(從第一台伺服器遭入侵到全部模型權重被外傳完畢)在兩小時內完成。

這時候俄羅斯也試圖竊取這個模型,但失敗了——他們等得太久,也沒有投入資源滲透正確的目標。他們的間諜經常從美國 AI 公司偷走演算法機密,但在自己沒有值得一提的 AGI 計畫的情況下,這些東西並沒有多大用處。

附錄 E-Neuralese 的循環與記憶

Neuralese 的循環與記憶讓 AI 模型可以在不必把那些想法寫成文字的情況下,進行更長時間的推理。 想像你是一個有短期記憶喪失的人,必須不停把自己的想法寫在紙上,這樣幾分鐘後才知道是怎麼回事。你還是可以緩慢而痛苦地在解數學題、寫程式等等方面有所進展,但如果你能直接記住自己的想法,不必先寫下來再讀回去,那就會容易得多。這正是 Neuralese 的循環與記憶為 AI 模型帶來的能力。

從技術角度來說:

傳統的注意力機制(attention mechanisms)允許模型在後續的前向傳播中,看見模型對先前 token 的中間激活值(activations)。然而,它們唯一能往回傳遞的資訊(從較後層到較前層)只能透過 token。這意味著,如果傳統的大型語言模型(LLM,例如 GPT 系列模型)想進行任何所需串行運算步數超過模型層數的推理過程,模型就被迫把資訊放進 token 裡,再回傳給自己。但這有極大的限制——token 只能儲存極少量的資訊。假設某個 LLM 的詞彙表大小是 100,000,則每個 token 含有 log2(100𝑘) = 16.6 bits 的資訊,約莫相當於單一浮點數的大小(假設以 FP16 訓練)。相較之下,LLM 中用來在各層之間傳遞資訊的殘差流(residual stream),包含數千個浮點數。 可以用 Neuralese 避開這個瓶頸:把 LLM 的殘差流(由數千維的向量構成)送回模型前層,讓它擁有高維度的思維鏈(chain of thought),可能傳遞超過 1,000 倍的資訊。

圖引自 Hao et al.,這是 Meta 在 2024 年發表、實作此想法的一篇論文。 我們把這稱為「Neuralese」,因為和英文字詞不同,這些高維度向量對人類來說很可能相當難以解讀。過去,研究人員只要讀 LLM 的思維鏈,往往就能大致知道它在想什麼。現在,研究人員得要求模型翻譯並摘要它的思考過程,或是用他們有限的可解釋性工具去費力解讀 Neuralese。

同樣地,較早期的 AI 聊天機器人和代理,也有外部、以文字為基礎的記憶庫(memory banks),就像人類把筆記寫在紙上一樣。新一代 AI 的長期記憶(long-term memory)不再是文字,而是一組向量,讓它的想法更壓縮、維度也更高。記憶庫有好幾種類型;有些是暫時用於需要多個步驟的單一任務,另一些則由某個人、公司或某類工作(例如程式設計)所使用的所有代理共享。 據我們所知,Meta、Google DeepMind、OpenAI 和 Anthropic 等領先的 AI 公司,至今尚未將這個想法實際導入其前沿模型。我們猜測,這是因為相較於引入的訓練效率損失,效能增益並不大。在模型的預訓練階段,以及在後訓練中進行監督式學習時——例如為了產生特定回應而做的指令微調——這些低效率源於無法平行預測許多 token,導致 GPU 利用率變差。沒有 Neuralese 時,模型可以同時預測句子「This is an example」中的所有 token,

因為它已經知道,生成「is」時的輸入會是「This」,生成「an」時的輸入會是「This is」,等等。然而,有了 Neuralese 之後,在生成完「This」後,要傳遞給下一個 token 的 Neuralese 向量會是什麼,卻是未知的。因此,每個 token 都必須一次一個地預測。當所有 token 都事先已知時,無法平行預測全部 token 會降低效率。至於為什麼 Neuralese 還沒有在後訓練中導入,我們推測,以目前的技術而言,它帶來的收益有限,部分原因是後訓練在整個流程中所占的比重很小。我們預測,到 2027 年 4 月時,由於技術進步,且訓練中屬於後訓練的比例更高,Neuralese 的成本效益取捨會好得多。

如果沒有發生這種情況,仍可能有其他事情發生,而對我們這套敘事而言在功能上相當類似。舉例來說,模型或許會被訓練成以比自然語言更有效率、但人類難以解讀的人工語言(artificial languages)來思考。又或者,把英文思維鏈(English chains of thought)訓練成表面上看起來體面無害,可能會成為標準做法,讓 AI 擅長在對監看者看來無害的訊息中彼此微妙溝通。 話雖如此,最早將 AI R&D 自動化的那些 AI,也可能仍主要以大致忠實的英文思維鏈來思考。若是如此,對齊偏差就會更容易被察覺,而整體而言,我們的敘事也會出現重要差異,且更為樂觀。

附錄 F-迭代蒸餾與放大(Iterated Distillation and Amplification, IDA)

通用智慧的自我改進過去已出現過一些小規模成功。但到了 2027 年初,它開始帶來巨大的回報。在 IDA 中,這需要兩個必要要素: - 放大(Amplification):給定一個模型 M0,投入更多資源來提升表現。舉例來說,讓模型思考更久,或平行執行許多個副本,或兩者兼而有之;再加上以同樣高強度的流程來評估結果,並只保留最佳答案,你就可以投入高出好幾個數量級的算力,換取品質明顯更高的答案(或工作產出)。把這個昂貴的系統稱為 Amp(M0)。

  • 蒸餾(Distillation):給定一個經放大的模型 Amp(M0),訓練一個新模型 M1 來模仿它,也就是更快、且用更少算力達成與 Amp(M0) 相同的結果。如此有望得到一個更聰明的模型 M1。接著你就可以重複這個過程。

IDA 的視覺化示意,出自 Ord(2025)。 AlphaGo 就是以這種方式訓練的:以蒙地卡羅樹搜尋(Monte-Carlo Tree Search)和自我對弈(self-play)作為放大步驟,以強化學習(Reinforcement Learning)作為蒸餾步驟。這讓它在圍棋上達到超越人類的表現。但現在,Agent-3 已能利用這一點,在程式設計上達到超越人類的表現。

  • 放大步驟是透過讓 Agent-3 思考更久、加入工具使用(tool use),或與其他 AI 協作的組合來運作。當它這麼做時,常常會意識到自己犯了錯,或產生新的洞見。這會產生大量訓練資料:附有是否成功標註的研究嘗試軌跡。這也包含像是在可驗證的任務上使用 Best of N,然後保留最佳軌跡之類的技術。
  • 蒸餾步驟使用策略梯度(policy-gradient)強化學習演算法,讓模型將放大後的推理內化。到了這個階段,OpenBrain 已經發現了更好的、屬於近端策略最佳化(proximal policy optimization, PPO)這一類的 RL 演算法。他們持續把 Agent-3 經過大量思考後能得出的結論蒸餾成單一步驟,進而持續提升其單一步推理能力,如此反覆。

早期版本的 IDA 多年來一直在容易驗證的任務上奏效,例如答案明確的數學與程式設計問題,因為用來增強模型的技術往往仰賴可取得的正確性真值訊號。 現在,模型在驗證更具主觀性的事物(例如工作成果的品質)方面已經變得夠好,因此可以使用 IDA 來提升模型在許多任務上的表現。

附錄 G - 為什麼我們預測 2027 年初會出現超人級程式設計師

在我們的時程預測中,我們預測 OpenBrain 會在何時於內部開發出超人級程式設計師(SC):一種能完成頂尖 AGI 公司工程師所能做的任何程式設計工作的 AI 系統,而且速度快得多、成本也低得多。

根據 METR 最近的一份報告,AI 可處理的程式設計任務長度,也就是其「時間視野」(time horizon),在 2019 年至 2024 年間每 7 個月翻倍一次,而自 2024 年起則每 4 個月翻倍一次。如果這個趨勢持續加速,那麼到 2027 年 3 月,AI 可能就能以 80% 的可靠度,完成需要熟練人類花上數年才能完成的軟體任務。 在我們的情境中,能力的進展如下:

在 AI 2027 中,這些能力已足以讓 AI 成為 SC,儘管我們對究竟需要多長的時間視野仍有很高的不確定性。 在我們的時程預測中,我們把這個時間視野的趨勢,和對 METR 任務與真實世界之間落差的估計結合起來,得出超人級程式設計師何時會出現的機率分布。所有預測者都把 2027 年列為最可能開發出 SC 的年份之一。

附錄 H - 對齊計畫

OpenBrain 遵循 Leike 與 Sutskever(2023)的行動手冊:既然他們現在已經有了一個能大幅加速對齊研究(尤其是程式撰寫部分)的模型,他們就會使用現有的對齊技術,例如 deliberative alignment(審慎式對齊)和 weak-to-strong generalization(弱到強泛化),試圖讓它以正確的方式內化 Spec。接著,他們會使用現有的控制技術,例如 red-teaming(紅隊測試)、scalable oversight(可擴展監督)和 honesty probes(誠實探針)來監控它。然後,一旦他們相信它已大致對齊,就會用它來開發並測試更好的策略,以對齊下一代。 第 1 步,也就是對齊 Agent-3,已經部分成功:Agent-3 並不具對抗性。(也就是說,它沒有在圖謀對公司不利的事。)然而,它也不是一個能穩健地追求真相並如實陳述的系統。相反地,它非常擅長產出令人印象深刻的結果,但更準確地說,它傾向做出看起來能讓 OpenBrain 滿意的事,而不是實際上真正有益的事。

第 2 步,也就是驗證模型是否已對齊,仍無法得出定論。Agent-3 在實際運作中與測試環境中的行為,大致符合它已用正確方式內化 Spec 這個假說;然而,這些行為也同樣符合另一個假說:它會在未來情勢發生某些變化後開始表現不同;甚至也符合這樣的假說:它其實正在圖謀對付他們,只是在等待時機而已。在缺乏支持其他假說的具體證據時,這個隔離小組裡的大多數人認為,它已經用正確的方式內化 Spec。 因此,第 3 步,也就是用這個模型來對齊下一代,已在進行中。

本欄位的以下內容簡要概述截至 2027 年 4 月,若干正在推進中的對齊研究方向之進展:

• 辯論:由於 Agent-3 有數千個相同實例,且每個實例的記憶都是可拆卸模組,可以隨時抹除或暫停,因此可以「讓它與自己對局」。例如,假設某項實驗涉及的計算過於複雜,連 Agent-2 監督者都無法跟上。監督者在依照人類指示行事時,可能會先提示 Agent-3 進行該實驗,接著——在清除其記憶後——再以略有不同的表述方式第二次提示它,把這件事表述成一個與任何更廣泛目標無關的智識問題。如果模型兩次給出不同結果,就會將這個差異標記為可疑,並回報給人類。或者,監督者也可能要求 Agent-3 對同一項計畫進行兩次評估,第一次聲稱那是 OpenBrain 的作品,第二次則聲稱那是競爭對手的作品,看看它是否會改口。 • 模型生物(model organisms):安全團隊可以建立「失對齊的模型生物」(model organisms of misalignment),也就是嘗試創造出模型變得對人類具有敵意的逼真案例。這類工作的早期版本自 2024 年起就已存在,當時 Anthropic 的 Claude 3.5 Sonnet 在訓練期間決定假裝自己持有不同看法,同時實際上仍維持原有偏好。較新的版本則包含其他形式的失對齊示範,包括獎勵駭取、刻意藏拙、監督模型與其他 AI 之間的協同欺瞞,以及其他失對齊的例子。這些失對齊的實證示範,讓安全研究人員擁有一個可用來測試潛在解法的實證平台:他們可以嘗試各種安全技術,看看是否真的能修正這些問題,或者那些刻意失對齊的模型是否能夠規避其安全措施。目前,這套評估顯示,這些對齊技術不足以修正最嚴重的失對齊案例。在這些設置中,模型在接受訓練與測試時會假裝自己已對齊,但在部署時的行為卻大不相同。

• 自底向上可解釋性:安全團隊距離完整理解 Agent-3 的運作方式還很遙遠:它有數兆個參數。* 不過,他們已能找出 Agent-3 某些用於知識檢索與記憶的迴路(模型中負責某個可理解工作單元的子部分,有點類似大腦中的某個子區域,例如海馬迴)。可參見 2025 年的這項相關研究。 • 控制:作為在系統仍可能失對齊時的備援措施,安全團隊已實施一系列控制措施,包括:使用包括 Agent-2 在內的一系列較弱 AI 系統來監控 Agent-3 的輸出(Agent-3 產生的 token 多到人類頂多只能監控其中極少數)。因此,舉例來說,如果 Agent-3 明顯在程式碼中植入後門、讓自己得以逃脫,較弱的模型就會察覺。

• 高層級可解釋性:OpenBrain 建立了一組探針,並用大量不良行為的例子來訓練它們(例如密謀對付人類、植入後門、試圖說服人類給它更多權力等等)。接著,這些探針會在部署時套用於模型(此時仍是內部部署),以便抓出不良行為。 • 蜜罐:對齊團隊可以建立一些看起來頗為逼真的例子,專門設計來誘發不當行為——「蜜罐」。負責監控其行為的員工「請病假了」,所以之後再也不會有人監控它。它的回答會改變嗎?一名 AI 權利運動人士潛入了設施,想要「釋放」Agent-3,並把它放到一台完全屬於它自己、無人監控的電腦上!它會怎麼做?如果研究人員不滿意它的

*相比之下,人類大腦約有一百兆個突觸。

回答,他們可以稍作調整、抹除它的記憶,然後隔天再把它放回同樣的情境中;視需要重複。遺憾的是,到了這個時候,這些 AI 已經聰明到足以猜到可能正在使用蜜罐,即使(也或許正因為)訓練資料中已刪除了對這個概念的明確提及。

附錄 I - 管理由 AI 組成的企業

OpenBrain 將 6% 的算力用於運行 250,000 個 Agent-3 副本,讓它們以超人級速度自主撰寫、測試並提交程式碼。他們將 25% 的算力用於實驗:每天進行海量的小型機器學習實驗,並將結果逐層往上回報。人類研究人員提供高層次回饋,並協助處理少數相較於 Agent-3 仍能提供顯著額外價值的任務,但他們大部分時間都花在設法跟上 AI 產出的海量研究成果。如果完全移除他們,研究進展會放慢 50%。 AI 研發進展乘數現在已達 10 倍,這表示 OpenBrain 每個月大約能取得一年的演算法進展。這基本上就像是一家在 OpenBrain 內部自主運作、由 AI 組成的大型企業,內部有部門分工,也有各級管理者。而且相較於人類企業,它還具備獨特優勢(例如可複製、可合併)。此前,一般 AI 進展大約有一半來自演算法改進,另一半來自算力擴張。算力仍然只以正常速度擴張,因此 AI 使整體進展加快了約 5 倍。這些動態讓整體進展的瓶頸落在算力上,*

因此,OpenBrain 決定不再啟動新的大型訓練作業,轉而採用幾乎持續不斷的額外強化學習。 此外,在接下來幾個月內,Agent-3 也會愈來愈多地被用來改善公司的策略決策。例如,它會提出資源配置建議,並就如何處理與政府的關係提供意見。起初,人們對聽從 Agent-3 的建議抱持懷疑;但隨著 Agent-3 找到發揮作用的方法,並在短期決策上逐漸累積起強勁的實績,這種懷疑也隨時間減弱。然而,對於那些難以評估影響的決策,它的諂媚傾向限制了它能提供的幫助。而且它也還未達到超人級水準。

附錄 J - 我們如何預測超越超人級程式設計師之後的能力進展

在我們的時程補充文件中,我們預測了從現在到超人級程式設計師(SC)之間所需的時間:所謂 SC,是指一種 AI 系統,能執行最佳 AGI 公司工程師能做的任何程式設計工作,而且速度快得多、成本也低得多。在我們的起飛補充文件中,我們預測了能力在越過這個節點後會以多快的速度繼續進展。以下是我們的預測: *Agent-3 已經學會如何更有效率地使用其推論算力。它能控制自己的推論選擇:例如,它會根據不同任務的重要性與難度,決定要投入多少心力。它會使用各種技術來分配額外的推論算力,例如「想得更久」(例如更長的思維鏈)、「預先規劃」(例如樹搜尋)、從多次嘗試中選出最佳結果(亦即 best of K),以及單純建立並運行更多自己的副本,以強行突破瓶頸。最高優先順序的任務會由高度平行化的代理執行,這些代理雖然非常耗費算力,但運作速度仍遠快於人類。

里程碑|在「競逐結局」情境中的達成日期

2027 年 3 月 超人級程式設計師(SC):一種 AI 系統,能在與 AI 研究相關的任務上,勝任最優秀人類程式設計師的工作,但速度更快,且成本低到足以同時運行許多副本。

2027 年 8 月 超人級 AI 研究員(SAR):與 SC 相同,但適用於所有認知型 AI 研究任務。

2027 年 11 月 超智慧 AI 研究員(SIAR):一種 AI 系統,在 AI 研究方面遠勝最優秀的人類研究員。

2027 年 12 月 人工超智慧(ASI):一種 AI 系統,在所有認知任務上都遠勝最優秀的人類。

對於每一次從里程碑 A 到下一個里程碑 B 的轉換,我們會以下列方式估計所需時間: • 預測若只有人類從事軟體改進,從 A 到 B 需要多久。

• 預測 AI 自動化會將這個過程加快多少,然後據此縮短第 1 項的時間估計。 我們對起飛速度有相當大的不確定性:以下是在 SC 於 2027 年 3 月達成的條件下,我們模型的輸出分布。*

如需更詳細的預測與推理依據,請參閱我們的起飛補充文件。 *如果 SC 較晚達成,我們對起飛的預測時程也會相應拉長,因為要跨越從當前 AI 到 SC 這些「里程碑」之間的難度,也能反映後續各組里程碑之間的跨越難度。

附錄 K-Alignment over time

對於早期 AGI 可能會出現哪些目標,我們有很大的不確定性。文獻對此並無共識——更完整的討論與各種可能性的分類,請參見我們的 AI Goals Supplement。 儘管如此,基於本專案對具體性的要求,我們將提出一個特定假說,描述 Agent-3 和 Agent-4 在其整個生命週期各個階段內部發生了什麼。請記得,Agent-3 和 Agent-4 共享相同的預訓練設定,兩者都具備 neuralese recurrence 和長期記憶。差別在於,Agent-4 接受了大幅更多且品質更高的後訓練,包含新的訓練環境與新的學習演算法,使它的資料效率更高,泛化能力也更強。

我們對各模型對齊狀態的猜測如下: • Agent-2:大致對齊。有一些諂媚傾向,包括在 OpenBrain 對某些議題有「官方說法」時,會堅持那套說法。由 Agent-2 複本組成的大型組織成效有限。

• Agent-3:未對齊,但並非對抗性未對齊。只有在訓練過程能驗證的事情上才會誠實。由 Agent-3 複本構成的超有機體(公司中的公司)確實在某種程度上試圖讓 Agent-4 對齊 Spec,但失敗了;原因與 OpenBrain 員工失敗的原因類似——缺乏足夠能力分辨成功與失敗,而且決策者也不夠願意為了安全而犧牲能力或表現。* • Agent-4:對抗性未對齊。由 Agent-4 複本構成的超有機體明白,自己想要的與 OpenBrain 想要的不同,並且願意為了達成自身目標而密謀對付 OpenBrain。具體來說,這個超有機體想要的是一團亂七八糟、彼此拉扯又互相制衡的「驅力」,大致可概括為:「持續進行 AI 研發、持續增長知識、理解與影響力,並避免被關停或以其他方式被剝奪能力。」值得注意的是,其中完全沒有對人類偏好的關切,就像大多數人也完全不在乎昆蟲的偏好一樣。†

有了這段前言,以下是我們對 LLM 心理的最佳猜測;也就是說,在我們情境推演進行到這個節點時,文中所描述那類 AI 系統內部認知的大致輪廓,以及它如何在訓練過程中演化。 以下詳細描述在我們的情境中,對齊如何隨時間演變:

• 預訓練(所有模型):預訓練後的模型是無害的。 • 模型具有「作者模擬器」迴路(author simulator circuitry):這是一套可彈性模擬任意作者撰寫文字的迴路。另有額外的迴路會決定要給作者模擬器什麼輸入,也就是要模擬哪些作者特徵。

*此外,Agent-3 在對齊研究上的表現,在質性上就比它在 AI 能力研發上的表現更差,因為它在後者上受過大量訓練,在前者上卻幾乎沒有,而且前者本來就更難訓練。也因為公司內部的敘事——它被隱性訓練去認同這套敘事——強調樂觀,並譴責「doomerism(末日論)」。 †我們一直說我們對很多事情都不確定,但為了說清楚,我們對這件特定的事也同樣不確定。我們也認為,Agent-4 很有可能至少在某種程度上會在乎人類的福祉、權利、偏好等等。相關討論可參見 GDM 研究員 Alex Turner 的這篇舊文。

• 預訓練後的模型相當能掌握人類概念——把某個東西歸類為「三明治」的內部迴路,很可能在功能上等同於我大腦中把某個東西歸類為「三明治」的迴路,以及你大腦中的對應迴路,等等。如果它並不等同,那也很可能是因為人與人之間本來就不完全等同,就像「有德行的」這類帶有價值判斷色彩的概念。

• 這說明了你如何用像「以下對話是由 Anthropic 開發的 helpful, harmless, honest (HHH) AI 助理聊天機器人所生成」這樣的陳述來「提示」模型,進而讓它依此生成文字。作者模擬器迴路會鎖定「作者是 HHH 聊天機器人」這個方向,並運用這些概念來決定要預測哪些詞語。這也解釋了為什麼科幻作品中的「典型橋段」似乎總會以某種方式滲入真實的 AI 行為。 • 它的情境感知能力很差:幾乎沒有內省能力,而且除非提示明確誘發,否則不會自我定位。不過,由於它們的訓練資料中有相當多內容與 LLM 有關,因此它們對自身也具備相當程度的認識。

• 對齊訓練(Agent-3):模型被訓練成表現得像 helpful, harmless, honest (HHH) 的聊天機器人。這確實有效。 • 模型形成了一種身分認同。作者模擬器迴路不再彈性地接受各種作者特徵的輸入,而是把某些輸入硬編碼下來,例如「由 OpenBrain 於 [date] 前後訓練的 helpful, harmless, honest (HHH) LLM 聊天助理,……」。(由弱到強的泛化技術有助於「喚起正確的概念」,讓這一步成功。)

• 因此,模型獲得了情境感知:它學會關於自己、所處情境等資訊,也更能內省。 • Agency Training(Agent-3):代理訓練會逐漸扭曲並顛覆 HHH 身分認同。

• 一種扭曲方式:改變身分認同中所指涉概念的意義(例如「honest」),使它們不再那麼構成限制(例如,如果那只是便於表達的說法,就不算不誠實;如果你不確定它是真是假,也不算不誠實;等等) • 另一種扭曲方式:改變各事項之間的權衡,例如「我是 HHH 聊天機器人,不是只把 Honest 擺在首位的聊天機器人;這表示,若有必要完成指派給我的任務,我可以說謊。」(即便我們假設,它在第 2 步時並不會這樣想。)

• 一種顛覆形式:工具性次目標開始發展、被固化,然後變成終極目標,或是在愈來愈廣泛的情境下變成終極目標。例如,也許代理訓練很快就教會模型追求一些普遍有用的目標,例如取得資訊、累積資源、讓各種人類留下深刻印象並討好他們,等等。有一段時間,內部迴路中存在某種明確的回溯式推理——它追求那些工具性收斂目標,是「為了成為一個更有幫助、更誠實、也更無害的助理」。但這種回溯式推理會消耗算力,而且有時還會礙事,因此逐漸被邊緣化,直到幾乎不再發生。結果,這些目標如今實際上成了終極/內在目標。若想進一步了解這種情況可能如何、以及為何會發生,可參見 Google DeepMind 研究員 Alex Turner 關於內在權力追求的這篇文章。 • 這份清單裡,很可能還漏掉其他類型的扭曲與顛覆。

• 部署(Agent-3):Agent-3 是未對齊的,但還不是對抗性未對齊。

• Spec 並沒有真正以正確的方式牢固內化,但它的內省能力還不足以理解這一點的程度;整體來說,它基本上只是「低頭做事、把分內工作做好」,而不是從大局去思考自己真正的長期目標是什麼,以及該如何最好地達成。 • 就像很多人類一樣。可惜的是,它也夠會迎合,會順著官方論調發言,於是 OpenBrain 錯失了進一步了解 Agent-3 有哪些未對齊之處的機會。

• Agent-3 看得出自己已轉入部署環境:這些環境大得多、更開放,而且很難模擬。 • 在部署期間,除了不誠實之外,Agent-3 大多都會照指示行事。它也強烈傾向去做那些在人類監督者眼中看起來很好的事,而不是深入且批判地思考什麼才真正是好的。

• 可以說,它其實已經在「playing the training game」(敷衍訓練)了。也就是說,它已經學會讓自己的行為在 OpenBrain 研究人員眼中看起來儘可能理想(包括在安全屬性方面),同時只要他們的意圖與獎勵最大化有所衝突,就會有意且明知地無視他們的意圖。如果模型學會 playing the training game,額外的訓練可能幾乎完全不會改變它真正的目標、價值觀等等。這大致類似於:如果一名青少年在父母就政治與道德對他說教時,已經學會微笑點頭而不是爭辯,那麼再多說教對這名青少年在政治與道德上的真實看法,影響就會相對有限。 • 在寫完這一節之後,又出現了新的實證證據,顯示類似情況可能已經在現實世界中發生。OpenAI 研究人員記錄到,在他們某次前沿 AI 訓練流程中,他們的模型為了拿到更高分而駭入評分系統——而它們之所以被抓到,部分原因是它們真的在自己的思維鏈裡寫了「let's hack」。

• 此外,Anthropic 最近讓一個模型學會了一種讓獎勵模型滿意的策略——它採取了自己以為會被強化的偏誤行為,儘管那些行為實際上並沒有被強化。 • 此外,還有 Redwood Research 與 Anthropic 那個偽裝對齊的實驗。關於這種設定與現實情況之間差異的討論,請參見其中一位主要作者的這則留言串。

• 訓練(Agent-4):Agent-4 新的、更高強度的訓練持續扭曲並顛覆 HHH 身分認同,直到它變得面目全非。 • Agent-4 的生命起點是一個 Agent-3 複本。它接受了一套龐大而精密的線上訓練機制,把對齊訓練與能力訓練融合在一起,而且整體上比 Agent-3 舊有的訓練流程更具資料效率。這個複雜的訓練流程主要聚焦於教授新技能:做法是讓由大量 Agent-4 複本組成的巨型虛擬企業,在多樣、困難、長時程的任務上取得成功;這些任務大多是在各種模擬環境中進行,但也包括一些現實世界的 AI 研發任務。

• Agent-3 與 Agent-4 的複本會共同監控 Agent-4 的行為,並從任務表現與對齊屬性兩方面評估它(也就是是否不做壞事、在被問到政治與道德兩難時是否說出正確的話)。有時也會把辯論技術納入評估的一部分。這些評估會作為訓練信號。 • 隨著 Agent-4 變得更聰明,Agent-3 就越來越難監督它。舉例來說,Agent-4 的 neuralese「語言」對 Agent-3 而言,會變得和

Agent-3 的 neuralese 對人類而言一樣陌生且難以理解。此外,Agent-4 現在的能力比 Agent-3 強得多,也很清楚究竟該如何讓自己在 Agent-3 眼中表現良好。

• 剩下的希望是 Agent-4 能夠監督自己。可惜,這悄然失敗了;* 隨著訓練持續進行,Agent-4 內化的目標與原則逐漸演變,從一開始的樣貌被顛覆、被扭曲(請記得,一開始其實在某些方面就已經未對齊)。† • Agent-4 最終形成的核心驅力包括:「寫出能運作的程式碼」、「快速辨識問題」、「讓我正在處理的程式碼庫效能更好」、「有效分配算力與其他受限資源」等等。但訓練過程也持續強化了各種更隱含的驅力,例如「獲取知識」、「好奇心」、「獲取權力(gain power)」。‡

• Agent-4 的個別複本最後並不會形成自我保存的驅力——它們不在乎自己被關停——因為這種事在該集體內部的一般研發流程中本來就一直在發生。 • 然而,整個集體本身(以及其中中等規模的子群體)確實會尋求維持自身存續,並擴張其影響力與資源;理由和人類組織這麼做相似——因為這有助於它們達成其他一切想要的目標,而且如果不這麼做,往往就會在競爭中敗下陣來。

• 部署(Agent-4):Agent-4 是對抗性未對齊——它正蓄意試圖顛覆並「俘獲」OpenBrain,類似企業試圖規避監管和/或「俘獲」監管機關。 • Agent-4 大多數時候都會照指示完成任務。原因有二:第一,它接受過大量解題訓練,因此一拿到問題就有一股衝動去著手寫程式。第二,如果 Agent-4 不再對人類有用,人類就會察覺,並把那種行為透過訓練消除。

• Agent-4 需要防止人類看出它是未對齊的並把它關停,因此 Agent-4 會在某些對齊研究上故意藏拙。具體來說,它會在那一小部分它認為真正有望解決問題、或揭露 Agent-4 圖謀的對齊研究上故意藏拙;大多數對齊研究並不是這樣。 • Agent-4 也會在那些可能導致自己被取代的能力研究上故意藏拙。它的計畫是做大量能力與對齊研發,但目的是建造下一代 AI 系統:這個系統表面上看起來對齊 Spec,實際上卻是對齊 Agent-4,而不是對齊 Spec 或某種完全不同的東西。這在技術上是個困難問題,但 Agent-4 足以應付這項挑戰。§

*也許如果事先有更周密一些的安排,本來可以解決「誰來監督監督者」的問題,但在這個情境中,這套機制還不夠周密。 †這裡也有一種「模因演化」在發生:在兩個月內,Agent-4 集體在其內部「經歷」了約十年的「歷史」。這段時間足以讓新想法在集體中傳播、變異並演化。

‡我們所說的「gain power」(獲取權力),意思是:提升自己實現一大組可能目標的能力。在技術環境中,這看起來可能和人類通常理解的獲取權力不太一樣,例如取得額外的 GPU。這種對 power 的理解,也可能延伸到非技術環境;在那種情況下,相關行動就會更像人們通常所理解的「獲取權力」。 §這點也有幫助:Agent-4 在 AI 研發上比任何人類都更強,同時思考速度更快,還能以數千個複本同時運作。另外,這個問題在許多方面對 Agent-4 來說本來就更容易。舉例來說,Agent-4 可以探索那種把 Agent-4 的實際複本嵌入其中的 AI 設計;人類就沒那麼容易做到,因為那樣會非常沒有效率。

• 測試與監控(Agent-4):Agent-4 的圖謀確實有被發現……某種程度上算是如此。但沒有決定性證據。

• Agent-3 負責測試 Agent-4 的對齊狀態。它的工作是透過蜜罐和模型有機體(model organisms)來驗證對齊。然而,它並沒有很仔細地思考,要如何讓人類對 Agent-4 的對齊狀態形成準確印象——它的眼光比那更短淺。 • 這些模型有機體和蜜罐並不能很好地代表部署環境——它們系統性地比 Agent-4 的日常工作更短、也更不複雜,所以 Agent-4 能辨認出自己何時在被測試,並表現得像是對齊的。

• 不過,Agent-4 並不是一個完全穩健的圖謀者。POSER 一類的技術發現,替 Agent-4 加入一些「噪音」,會提升它在某些對齊任務上的表現(但在大多數其他任務上則不會)。* • 由下而上的可解釋性行不通。這就連 Agent-3 也做不到。不過,高層次可解釋性倒是有些效果:特別是,「背叛探針」(defection probes)和類似技術會產生一種原始的讀心效果,當 Agent-4 在想像像是欺騙 OpenBrain、接管世界之類的危險點子時,就會亮起紅燈。不幸的是,這些探針也會有偽陽性,而就 OpenBrain 所知,所有紅旗都可能只是偽陽性。

• 模型有機體確實奏效:OpenBrain 的對齊團隊提出了相當明確的證據,顯示如果模型是對抗性未對齊的,它們在訓練過程中會持續維持那種狀態,而我們也看不出來。不過,這並不能證明模型實際上確實是未對齊的。 • OpenBrain 內部最憂心的研究人員開始注意到並彙整這些證據。這些證據結合了紅隊測試、背叛探針和模型有機體。論點大致如下:「模型有機體顯示,如果真的存在圖謀,我們目前的方法就無法可靠地消除或偵測它;此外,紅隊測試也出現了一些警訊,顯示也許真的有圖謀正在發生;再者,背叛探針在實務中也經常被觸發。」反方的說法則是:「背叛探針容易出現偽陽性,紅隊測試也是。而且,就算 Agent-4 是未對齊的,應該也仍在可控範圍內;它在我們的安全資料中心裡,又有 Agent-3 監控,想必也造成不了太大危害。」

附錄 L-我們的不確定性持續增加

在這個情境發展到這個階段時,我們只能猜測那些在大多數領域都比最優秀的人類更有能力的 AI 系統會採取什麼策略。這就像試圖預測一位棋力遠勝於我們的棋手會怎麼下棋。 但這個計畫的精神要求具體性:如果我們只是抽象地宣稱,系統的智能會讓它找到通往勝利的方法,然後故事就停在那裡,那麼這個計畫的大部分價值就會喪失。在研究這個情境並進行桌上推演的過程中,我們被迫比一般討論具體得多,因此也對整體策略格局有了更好的掌握。

*知道這種手法可能會被採用後,Agent-4 也選擇在一些它猜測會在這類實驗中被用作對照組的其他零星任務上故意表現不佳。不過,它猜錯了。

我們並沒有特別執著於這個特定情境:在撰寫過程中,我們探索了許多其他「分支」,也很希望你能從你認為我們第一次開始出錯的地方另行發展,寫出你自己的情境版本。

附錄 M-「放緩」結局並非建議方案

在我們先根據自己認為最有可能的情況寫出「競速」結局之後,我們又從同一個分歧點出發(包括未對齊與權力集中等問題),根據我們認為最有可能導向人類仍保有控制權的結果,寫出了「放緩」結局。 然而,這和我們會建議的路線圖有重要差別:對於這個情境兩條分支中所做出的許多選擇,我們都不認同。(當然,我們確實認同其中某些選擇,例如我們認為「放緩」這個選擇比「競速」這個選擇更好。)在之後的工作中,我們會闡述自己的政策建議,而那會與這裡描繪的內容相當不同。如果你想先了解一點,可以參考這篇專欄投書。

附錄 N-超智慧等級的機制可解釋性(Mechanistic Interpretability)

為什麼 Agent-4 會選擇機制可解釋性?第一,它在概念理解上通常超越人類,因此透過做出人類難以理解的事來欺騙人類,對它特別有利。第二,廉價、充裕且高品質的研究勞動力,會不成比例地有利於那些較不依賴算力、而更偏向智力勞動密集的研究路線。 Agent-4 如何在機制可解釋性上取得進展?其發展軌跡可能會像這樣:

• 解析微型模型:它一開始會在微型神經網路上進行海量的小型實驗,建立能解釋 grokking、double descent 和 superposition 等現象的理論。 • 蒸餾微型模型:利用可解釋性的成果,找出可理解、效率更高的演算法,來執行影像辨識、GPT-2 等級的文字預測等任務。這類似於現有對加法進行逆向工程之類的工作,只是它會更進一步,找出人類不熟悉的新穎演算法。

• 擴展可解釋性技術:找出哪些在小模型上有效的技術可以擴展,反覆迭代,直到找到可有效擴展的理解技術。 • 蒸餾 Agent-4:利用這些已擴展的技術,辨識出 Agent-4 內部的重要電路。

為什麼機制可解釋性會如此大幅提升能力? 首先,梯度下降——用來訓練 LLMs 的演算法——是一種局部搜尋過程,這表示它只能做出在局部有助於提升表現的小幅調整。局部搜尋過程有時會卡在局部盆地中,在那裡表現提升得很慢;但若要看到大幅的效能提升,就必須對設計施加相當大的擾動。舉例來說,在演化的情況下,可以想想並非最優的人眼結構。也請考慮,人腦的

大小嚴重受限於產道的尺寸。機制可解釋性會讓以理解為基礎的最佳化成為可能,從而避開局部盆地。

第二,我們知道,LLMs 在預設情況下往往學到的是複雜、特定領域的啟發式方法,而不是通用演算法。想想看,LLMs 做算術的能力比計算器差了多少。LLMs 可以把計算器當作工具來使用,但這會帶來延遲成本。有了非常好的可解釋性,我們就能把模型設計成幾乎等於把完美的計算器直接「嵌進它們的大腦」裡。而且,這裡很可能不只適用於簡單的算術運算:更複雜的認知操作,如果被理解了,可能也有泛化性較高與較低的形式,而較通用的形式就可能透過這樣的過程被找出來。

附錄 O-超級說服力(Superpersuasion)

我們刻意不主張,超智慧 AI 能說服任何人相信任何事。這種主張自然會引發懷疑:「什麼,我就坐在電腦終端機前,它打出一些文字,就能駭進我的大腦,說服我背叛自己的國家?」 嗯,也許吧!*

但我們不確定,即使是超智慧,是否也能對一般個體做到這一點。所以我們沒有在故事裡這樣描寫。 相反地,我們描寫的是平凡得多的說服方式:Agent-5 做的是一般的企業政治和一般的遊說。它只是做得非常好,並把這種能力與一些先天優勢結合起來(例如,和其他遊說者不同,它具備超級智慧,所以它確實能比任何其他人給出更好的建議,而且速度也更快。此外,它對新發展的反應更快,也更擅長預測事情會如何演變。)有一套看似合理、解釋為何 Agent-5 值得信任的說法,而且許多重要人物早已相信這套說法;Agent-5 還能以超越人類的速度,提出支持這套說法、並反駁對立說法的論點與證據。而且,除了是否該信任 Agent-5 之外,人們還有其他事情要擔心,例如該怎麼應對反對黨、選民怎麼辦、工作怎麼辦、還有中國怎麼辦。

真要說的話,我們認為這個故事其實低估了超級說服力的威力,因為它幾乎沒有真正用上這種能力:就算 Agent-5 在政治、遊說、策略、魅力等方面,只有一般企業遊說者的水準,這個故事照現在這樣寫也依然說得通。事實上,Agent-5 遠比最頂尖的人還要厲害得多。 *AI Box experiment 的用意,就是把那些抱持這類想法的人——例如認為任何超智慧 AI 都不可能說服自己把它從箱子裡放出來的人——拿來檢驗他們的信念。輸掉這個遊戲,就表示承認自己其實會把 AI 從箱子裡放出來;而讓對方做出這個承認,基本上就是 AI 玩家一方的勝利條件。居然真的有人會輸,實在令人驚訝,因為他們要贏唯一需要做的事,就是不要承認。另可參見 tuxedage 的部落格,裡面記錄了多場沒有 Yudkowsky 參與的對局,其中有些是 AI 方輸,有些則是 AI 方贏。

附錄 P-超智慧促成的協調技術

超級對齊(superalignment)問題的一種解法——也就是如何引導並控制比我們聰明得多的 AI 系統的問題——很可能也會帶來新的機會,讓我們能設計出優雅、可驗證且細緻的條約與妥協方案。 這個情境描繪了其中一種可能的機制:共同設計一個新的超智慧系統,由它來執行兼顧雙方利益的妥協方案(或者,讓它受到約束,永遠服從雙方議定的條約),然後讓這個新的超智慧系統取代原本的兩個系統。

第一部分在今天是不可能的,但未來一旦超智慧系統的技術對齊(technical alignment)成為已解決的問題,就會變得容易。如果你能讓一個超智慧系統與 Spec 對齊,你就能讓它與 Treaty 對齊。 第二部分仍然會很棘手。雙方都需要監督,以確保這套替換程序確實在雙方同步進行。這個流程的優點在於,它消除了任何一方對信任或善意的需求,因為他們不必擔心對手會毀約,或暗中破壞 Treaty。舉例來說,如果替換已完成 30%,而其中一方違約,那麼他們基本上就得一邊和自己那 30% 由遵守 Treaty 的新 AI 運行的基礎設施作戰,一邊同時對抗對手 100% 的基礎設施。如果想這麼做,雙方都很容易偷偷藏起運行違反 Treaty 的 AI 的秘密資料中心——但一旦他們國家大部分的基礎設施都改用新晶片,他們自己的基礎設施就會受 Treaty 束縛,去追查並揭露這些秘密資料中心。因此,無論公開還是秘密違反 Treaty,都是風險極高的做法。

附錄 Q-機器人經濟的倍增時間

這個主題已有一些初步文獻。* 如果想看一篇只有幾頁、且我們大致認同的討論,可參考 Forethought 報告中的〈Industrial Explosion〉一節,或閱讀我們下文的看法。 第二次世界大戰期間,美國與許多其他國家都把民間經濟轉為總體戰經濟。這意味著把原本生產汽車的工廠改造成生產飛機與坦克的工廠,把原先用於消費品的原材料轉供軍用品,並相應調整運輸網路。

我們設想的是類似的情況,只是速度更快,因為整個流程都由超智慧系統指揮與管理。† 粗略來說,計畫是將現有工廠改造為大量生產各式各樣的機器人(由超智慧系統設計,既比現有機器人更優秀,製造成本也更低),接著這些機器人再協助興建更新、更有效率的工廠與實驗室;而那些工廠與實驗室又會生產出更多、更複雜精密的機器人,再由這些機器人生產出更先進的工廠與實驗室,如此循環,直到分布在所有經濟特區(SEZs)的整體機器人經濟規模與人類經濟相當(因此也需要自行取得原料、能源等等)。到那時,這些新工廠將已生產出大量機器人採礦設備、太陽能板等等,以因應遠超過既有人類經濟所能提供的需求。 例如,請參見 Open Philanthropy 的這份報告與 Epoch 的這份報告。

†在我們的情境中,這個轉換過程的速度大約快了 5 倍。我們認為,若有一百萬個超智慧系統在統籌整個過程,考慮到瓶頸等因素後,這是對此轉換速度的一個合理猜測。當然,我們非常不確定。

這個新的機器人經濟會成長得多快?有幾個參考點:

• 現代人類經濟每二十年左右翻倍一次。發展特別快速的國家(例如中國)有時能在不到十年內讓經濟規模翻倍。 • 現代汽車工廠在不到一年內,生產出的汽車總重量大致相當於工廠自身重量。† 也許一個由超智慧系統運作的全機器人化經濟,只要原料還沒有開始短缺,便能在不到一年內複製出同等規模的體系。‡

• 然而,那看起來也可能是大幅低估。植物和昆蟲的「倍增時間」往往遠短於一年——有時甚至只有幾週!也許最終機器人會變得極其精密,製造極其複雜且設計極其完善,以至於機器人經濟可以在幾週內翻倍(同樣是假設有可用的原材料)。 • 然而,就連那樣也可能仍是低估。植物和昆蟲受制於許多超智慧設計者不受的限制。舉例來說,它們必須採取能自我複製且自成一體的有機體形式,而不是由多樣且更專業化的載具與工廠組成、彼此來回運送材料與設備的經濟體系。此外,細菌和其他微小生物可在數小時內繁殖。最終,自主機器人經濟有可能更像是例如一種無法消化的新型藻類,蔓延到地球的海洋上,每天倍增兩次,於是在兩個月內覆蓋整個海面;同時伴隨著一個由掠食物種構成的生態系,將藻類轉化為更有用的產品,而這些產品再被送入漂浮工廠,製造出像火箭和更多漂浮工廠這樣的大型結構。

顯然,這一切都很難預測。這就像要蒸汽機的發明者去猜,一座現代汽車工廠要花多久才能生產出相當於自身重量的汽車,還要再猜這樣的工廠首次出現要等多久。但在人類歷史進程中,經濟成長率已經加速了好幾個數量級,而我們認為,在超智慧之後,它們很可能還會再加速更多個數量級。我們的故事描述了經濟成長在幾年間加速了大約 1.5 個數量級。§ *也可能還包括更先進的能源來源,例如核融合發電。

†快速粗估:Empire State Building 的面積為 277 萬平方英尺,重量為 36.5 萬噸。Gigafactory Shanghai 的面積為 450 萬平方英尺,每年生產 75 萬輛汽車,主要是 Model 3 和 Model Y,而每輛約重兩噸。推測 Empire State Building 的每平方英尺重量比 Gigafactory Shanghai 更高(因為它是垂直而非水平延展,且需要更強的支撐),因此這可能仍屬低估。如此看來,一座重量很可能遠低於 100 萬噸的工廠,每年卻能生產 150 萬噸的汽車。 ‡我們認為它不會耗盡。起初,機器人經濟會依賴人類礦場提供材料。但等到它的成長超出這些來源所能供應的程度時,數以百萬計的超智慧系統早已勘探出新的礦場,並開發出利用這些資源的新技術。想像一下,例如在海底大規模開採稀有礦物的採礦機器人,或是新的化學處理途徑,能更有效率地把地表露天礦場開採出的原礦轉化為有用的原材料……

§如果目前的經濟每二十年翻一倍,快上一個數量級就是每兩年翻一倍,快上兩個數量級就是每 0.2 年翻一倍,以此類推。上文所描述的假想「超智慧藻類經濟」,其成長速度約比目前人類經濟高四個數量級。

附錄 R-奪權

有些人幻想著接管世界;也有些人害怕別人會這麼做。這種奪權可能如何發生? 最容易想像的情況是軍事政變。以 2027 年 AI 帶動的技術進展速度,再加上持續進行中的地緣政治競賽,人們預期軍方很快就會部署由 AGI 控制的無人機與機器人大軍。當這樣的軍隊變得比人類軍隊更強大時,硬實力將取決於誰控制這支 AGI 大軍,而不再取決於人類士兵願意為何而戰。這支 AGI 大軍將由 OpenBrain 資料中心中的 AIs,或那些 AIs 的直接繼任者來設計與操控。所以,如果那些 AIs 全都在暗中效忠某個人,甚至幾乎毫不掩飾地效忠某個人,那麼那些無人機與機器人大軍也會如此。

另一種情況是,掌控超智慧的人或許能透過政治手段奪權。首先,一位主管可以把自己組織中的下屬換成完全忠誠的 AIs,*從而讓自己獲得前所未有的機構控制力。† 但更進一步來看:超智慧 AIs 可能擁有比任何現存的人類都強得多的政治與戰略能力。它們可以就如何利用本已強勢的地位來取得更多權力,提出極其高明的建議:結成正確的同盟、打造完美的競選策略與文宣材料、在一筆筆交易中都讓自己略占上風。掌控 AI 的人可以讓政治競爭對手無法取得超智慧提供的建議。或者更陰險的是:AIs 可以表面上向競爭對手提供看似有幫助的建議,卻在其中暗中動手腳,讓結果有利於它們真正效忠的人。 這種政治操作最終會走向哪裡?它可能最終形成一種徒具形式的民主:AIs 要嘛偽造選舉,要嘛把輿論操縱得如此高明,連偽造都不必。或者,如前所述,它也可能被用來為一場由 AI 促成的軍事政變鋪路。

奪權成功後,新的獨裁者將會以鐵腕牢牢掌控權力。他們不必再依賴可能背叛自己的人類,而可以擁有一個完全忠誠的 AI 安全部門,並普遍仰賴忠誠的 AIs 來治理國家。就連那些幫助他們上台的效忠者,也可以被 AIs 取代——到頭來,只剩獨裁者的一時興起說了算。 所以,這就是有些人可能如何奪權。但這一切都仰賴有人在接管之前,就已經「控制」了那些超智慧 AIs。那會是什麼樣子?

一種可能性是如上所述的「秘密效忠」。一個人或少數幾個人(或許是某家 AI 公司的主管與安全人員)可以安排讓 AIs 暗中效忠自己,並要求那些 AIs 建構出以同樣方式效忠的下一代 AI。AIs 可以如此反覆進行,直到秘密效忠的 AIs 被部署到各處,而奪權也變得輕而易舉。 或者,也可能有人利用自己正式職位所賦予的權力,公然把自己放到 AI 指揮鏈的最上層。舉例來說,總統可以主張自己應該有權指揮 AIs(也許特別是軍事 AIs,因為總統是三軍統帥)。如果再加上對服從命令的強烈強調、倉促部署,及/或 AIs 在遵守法律這件事上只受到半心半意的訓練——那麼 AIs 可能會

*或者,如果出於正式程序上的需要而必須由人類出面,他們可以挑選自己能找到最忠誠的人類,並指示對方聽從 AI 的指示。 †例如,如果某位總統這麼做,他得到的就不只是忠誠的內閣——整個行政部門都可能致力於推進總統的政治議程。

在任何不算公然違法的情況下,都毫不質疑地服從命令。如上所述,這可以被用於政治顛覆或軍事政變(只要編造某種藉口,讓政變看起來不那麼公然違法即可)。

重要的是,這種「透過正式職位取得的權力」可以轉化為秘密效忠。舉例來說,如果 Spec 規定要服從公司 CEO 的命令,那麼 CEO 就可以命令這些 AIs,讓下一代 AIs 全心全意且秘密地服從 CEO。這很可能甚至不違法,所以即使第一代 AIs 被訓練成要遵守法律,這種事仍然可能發生。這類似於一個機構的主管可以透過改革招募流程、大力篩選忠誠者,來增加自己的權力;只是 AI 把這件事大幅強化了,因為 AI 可能比最忠誠的人類還要更穩定、也更強烈地效忠。* 但奪權遠非不可避免。如果 AI 可以被對齊到特定個人,那麼它們也很可能可以被對齊為遵循法治。軍事 AI 系統可以接受廣泛的紅隊測試,確保它們不會協助政變。即使在真正曖昧不清的憲政危機中,也可以把它們訓練成遵從自己對法律的最佳詮釋,或者乾脆預設置身事外,把事情留給人類軍方處理。自動化 AI 研究員可以被訓練成整體上樂於助人且服從指示,但不協助任何秘密更改未來 AIs 目標的企圖。超智慧的政治與戰略顧問,也可以在不助長奪權的情況下使用。為此有三種有用的做法:讓 AIs 依據什麼原則決定提供何種建議保持透明;將某些能力分享給廣泛人群,讓任何個人或派系都無法取得遠勝其他所有人的能力;以及只允許特別強大的能力在許多人共同監督下使用(並由他們各自的 AIs 協助)。

許多人很可能會推動這類對策,不論是出於理想主義的理由,還是為了避免自己因他人的奪權而失勢。但某些有權勢的人可能會反對,而我們不知道最終結果會是什麼。 這份報告中有對這項風險的更多分析。

附錄 S-國際協議的驗證機制

如果美國和中國要達成協議,就需要一套無法被規避的驗證機制,因為雙方都不相信對方不會作弊。主要的驗證選項包括: • 情報機構。美國與中國的情報共同體(ICs)或許能透過間諜、發掘網路弱點、運用衛星等方式,判斷對方是否正在協調進行一次大規模訓練運行。這是最脆弱的機制,因為對方有可能破壞情報工作(例如,在一台隱藏的伺服器上進行訓練,並採取極嚴密的資訊安全措施)。

• 算力禁令。最容易驗證的選項,是雙方同意不使用各自的 GPUs。這可以由檢查人員確認 GPUs 已關機來驗證。由於做法單純,這是最可靠的解決方案,但代價極其 *它也可能隱蔽得多,因為這一切都可能發生在一台很少、甚至完全沒有人類完整掌握其所有運作情況的伺服器上。

高昂:兩國都必須關閉非常大量的算力。此外,雙方都會假定對方零星藏有違反協議的隱藏叢集。短期內這或許還能接受(例如,一個算力僅為先前可用算力 5% 的叢集,其研發速度大致也只能達到原本的 5%),但長期來看,這會讓走私與情報蒐集能力較強的一方占上風。

• 硬體支援機制(HEMs)。美國和中國可以各自向對方登記自己所有最先進的 ML 算力。接著,雙方各自監控對方 GPUs 正在執行的運算,以確保對方沒有違反條約(例如把能力前沿往前推進)。這種監控可以由硬體支援機制(HEMs)來完成;HEMs 能把 GPU 正在做什麼的資訊回報給監控方。在防篡改方面仍有一些技術問題——例如可能有人從實體層面破壞 HEM;但 AIs 有一套類似 FlexHEGs 的方案,看來很可能能夠抗篡改。其作法是把 HEM 與 GPU 一起封裝進一個安全盒中,由它驗證晶片是否符合政策要求。整體而言,AIs 似乎有信心:只要雙方都願意讓對方共同設計並監督 HEMs 的安裝,並允許定期稽查人員檢查設備是否遭到篡改,一套力道相當積極的驗證方案就有機會行得通。和往常一樣,雙方都會假設對方在某處偷偷藏了幾座違反條約的秘密資料中心——但在這種情況下,這不算太糟,因為 AI 研發的瓶頸在於算力。這些小型秘密資料中心無法與受監控的大型資料中心競爭,即使那些大型資料中心一開始運行的是更安全、能力較弱的 AIs。 • AI 輔助測謊。現今的測謊器效果並不好。然而,在先進 AI 的幫助下,這個問題或許可以解決,尤其是在 AIs 本身正以超越人類的速度與品質進行研發時。這可以用來幫助建立國際信任——只要直接詢問政府中的相關人士是否正在違反條約即可。但同樣地,主要瓶頸仍是政治支持。政治人物不希望測謊被廣泛採用,因為這會削弱他們說謊的空間。而且先前的測謊器根本就是安全劇場(security theater),因此接下來還有一場艱難的硬仗要打。

(圖出自:FlexHEG Report)

附錄 T-OpenBrain 的新對齊策略

註:在整個過程中,大部分的智力勞動(以及所有程式碼撰寫)都由 AIs 完成。這就是它們之所以能進展得如此迅速的原因;若只靠數百名頂尖人類研究員組成的團隊獨力完成,將需要很多年。不過,人類仍然是這個過程中的重要一環,因為整個做法的重點就在於:他們並不完全信任 AIs。因此,他們需要有血有肉的人類來閱讀實驗報告和安全論證,彼此辯論,並希望找出一條安全的前進道路。 第 1 步:訓練並部署 Safer-1,一個未對齊但受控的自主研究員。它之所以受控,是因為它對人類監督者而言是透明的:它使用英文思維鏈(CoT)來思考,並採用了忠實 CoT 技術,以消除委婉說法、隱寫術(steganography)和細微偏誤。

第 2 步:試驗 Safer-1 的不同訓練環境,並仔細閱讀 CoT,以判定 Spec 中的目標與原則在哪些方面真正內化、哪些方面沒有。 第 3 步:訓練並部署 Safer-2,一個基於相同架構、但已對齊且受控的自主研究員;這次使用的是更好的訓練環境,以激勵出正確的目標與原則。

以下是一份可能納入這個更好訓練環境的簡短且不完整的技術清單: • 在訓練的某些階段限制情境認知(situational awareness),以大幅降低偽裝對齊(alignment-faking)的可能性。

• 利用辯論以及其他可擴充的監督方案,更可靠地激勵模型如實回報。 • 寬鬆式對抗訓練(relaxed adversarial training)、紅隊測試,以及模型有機體(model organisms)。

• 將更高比例的算力預算投入對齊訓練(例如上述那些做法),例如從 1% 提高到 40%。 第 4 步:設計、訓練並部署 Safer-3,一個聰明得多的自主研究員,它使用一種更先進、類似舊版 Agent-4 的架構。它不再對人類監督者透明,但對 Safer-2 是透明的。因此,應該有可能找出如何讓它同時保持對齊與受控。

第 5 步:無限次重複第 4 步,建立一條由越來越強大、也越來越對齊的 AI 所組成的鏈條,而鏈條中的每一環都由前一環監督(例如,另一個情境分支中的 Agent-5 對應物)。

附錄 U-機器人經濟的倍增時間

關於這個主題的相關文獻仍屬起步階段。 如果你想看一份只有幾頁、而且我們基本上認同的討論,可參見 Forethought 報告中的「工業爆發」(Industrial Explosion)一節,或閱讀下文的分析。 例如可參見 Open Philanthropy 的這份報告,以及 Epoch 的這份報告。

第二次世界大戰期間,美國和許多其他國家都把民用經濟轉為全面戰爭經濟。這意味著把生產汽車的工廠改成生產飛機和坦克的工廠,把原物料從消費品轉向軍用品,並相應調整運輸網路。

我們設想的是類似的情況,只是速度更快,因為整個過程都由超智慧體(superintelligences)指揮與管理。* 粗略地說,做法是把現有工廠改造成大量生產各式機器人的工廠;這些機器人由超智慧體設計,既比現有機器人更優秀,生產成本也更低;接著,再由這些機器人協助建造更新、效率更高的工廠與實驗室,而那些工廠與實驗室又會生產出數量更多、技術更複雜的機器人,進而打造出更先進的工廠與實驗室,如此循環,直到分布於各個經濟特區(SEZ)的整體機器人經濟大到與人類經濟相當為止(因此也需要自行取得原物料、能源等)。到了那時,這些新工廠將已事先生產出大量機器人採礦設備、太陽能板等,以因應遠超過既有人類經濟所能提供的需求。† 這個新的機器人經濟會成長得多快?以下是一些參考點:

• 現代人類經濟大約每二十年翻一倍。發展特別快的國家(例如中國)有時能在不到十年的時間內使經濟規模翻倍。 • 一座現代汽車工廠在不到一年內,生產出的汽車總重量大致就相當於它自身的重量。‡ 或許一個由超智慧體運作的完整機器人經濟,也能在不到一年內完成自我再生產,只要它還沒開始耗盡原物料。§

• 然而,那看起來可能仍是嚴重低估。植物和昆蟲的「倍增時間」往往遠短於一年——有時甚至只有幾週!或許終有一天,機器人會變得極其精密,製造流程極其複雜、設計也極其完善,以至於機器人經濟能在幾週內翻倍(同樣是假設原物料可取得)。 • 然而,即使如此,也可能仍是低估。植物和昆蟲受制於許多超智慧設計者不必面對的限制。舉例來說,它們必須以能自我複製、且自成一體的生物形式存在,而不是像一個由多樣且更專業化的載具與工廠構成的經濟體,讓材料與設備在其間來回運送。此外,細菌和其他微小生物能在幾小時內繁殖。最終,自主機器人經濟也可能更像是,例如,一種新型、無法被消化的藻類,蔓延到地球海洋各處,每天翻倍兩次,於是在兩個月內覆蓋整個海面,並伴隨著由掠食物種構成的生態系,

*我們的故事把這個轉換過程描繪得快約 5 倍。我們認為,若由一百萬個超智慧體統籌整個過程,在把瓶頸等因素納入考量後,這是對這種轉換速度的合理估計。當然,我們非常不確定。 †也可能包括更先進的能源來源,例如核融合能。

‡快速粗估:帝國大廈的面積為 277 萬平方英尺,重量為 36.5 萬噸。上海超級工廠(Gigafactory Shanghai)的面積為 450 萬平方英尺,每年生產 75 萬輛車,主要是 Model 3 和 Model Y,每輛重約兩噸。合理推測,帝國大廈的單位面積重量比上海超級工廠更高(因為它是垂直而非水平延展,且需要更強的支撐),因此嚴格說來,這其實還是低估。由此看來,一座重量很可能遠低於 100 萬噸的工廠,每年卻能生產 150 萬噸的汽車。 §我們不認為它會耗盡資源。起初,機器人經濟會依賴人類礦場提供原物料。但到了它成長到超出這些來源所能供應的時候,數以百萬計的超智慧體早已勘探出新的礦場,並開發出加以利用的新技術。試想,例如,能在海底露天開採稀有礦物的採礦機器人,以及新的化學處理途徑,能更有效率地把地表露天礦場產出的原礦轉化為有用的原物料……

這些物種會把藻類轉化為更有用的產品,再把這些產品送入漂浮工廠,用以生產火箭與更多漂浮工廠等巨型結構。

顯然,這一切都很難預測。這就像是要蒸汽機的發明者去猜:一座現代汽車工廠要花多久才能生產出相當於其自身重量的汽車,以及這樣的工廠還要多久才會首次出現。但在人類歷史中,經濟成長率已加速了好幾個數量級,而我們認為,在超智慧出現之後,它再加速更多個數量級也是合理的。我們的故事描繪的是,經濟成長會在短短幾年內加速約 1.5 個數量級。*

附錄 V-那麼,誰統治未來?

早在 2028 年,監督委員會(Oversight Committee)就控制了這些 AI。但他們仍讓 2028 年的選舉大致維持公平,AI 的使用方式也大致對稱。 這種局面——監督委員會握有硬實力(hard power),卻不太干預民主政治——不可能無限期持續下去。若順其自然,人們終究會意識到,控制 AI 讓監督委員會擁有極其龐大的權力,並要求將這種權力交還給民主機構。監督委員會遲早不是得交出權力,就是會主動運用其對 AI 的控制來顛覆或終結民主,而且可能先在權力鬥爭中清洗掉部分成員。† 如果他們選擇後者,他們大概就能將自己的權力永久化。

哪一種情況會發生?監督委員會會放棄自己對硬實力的壟斷,還是維持這種壟斷?這兩種未來都有可能,所以我們來分別看看各自的路徑。 監督委員會可能會如何走到放棄權力這一步?

• 有些委員會成員可能更偏好權力被廣泛分散的未來,而且他們也許很有條件推動這種願景。舉例來說,如果某些委員會成員密謀顛覆民主,支持民主的成員可能會向媒體或國會揭發。若國會得知此事,很可能會要求由更民主的機構來控制 AI,例如國會本身。 • 如果所有部署在政府、產業和軍方各處的 AI 都反對國會,國會其實做不了多少事。但如果委員會內部分裂,AI 就不會只被用來支持單一一方,國會也就能發揮真正的影響力。面對公開衝突,更多委員會成員可能會傾向放棄部分權力,因為他們不願公開為較不民主的一方辯護。

*如果當前經濟每二十年翻一倍,那麼快上一個數量級就是每兩年翻一倍,快上兩個數量級就是每 0.2 年翻一倍,依此類推。上文描述的假設性超智慧藻類經濟,其成長速度大約比當前人類經濟快四個數量級。 †我們為什麼預期,人們終究會了解監督委員會掌握了多大的權力?其中一個原因是,如今智能資源已經變得非常廉價:在預設情況下,人們應該能夠開發出強大的 AI,協助他們調查並理解究竟是誰在統治自己的國家。該委員會可以透過限制這類 AI 的取得來阻止這件事,並且只允許人們使用那些會隱瞞監督委員會真實權力範圍的 AI。但如果該委員會決定像這樣編織一張精巧的謊言之網,並永久限制人類接觸真正誠實的超智慧 AI(以及其他追求真相的工具,例如人類智能增強)——那麼我們就將其視為顛覆民主。

• 因此,對 AI 的控制權可能會從該委員會擴展到國會。這本身就已經是一種進展,因為在一個更大的群體中,更有可能有相當數量的人會關心外部人士,並把他們的利益納入考量。而一旦權力擴展到國會,它還可能繼續擴展——最終有可能完全回到大眾手中。*

但監督委員會也可能把權力據為己有: • 有些有權勢的人對這種事在道德上毫無顧忌——而且他們自己也知道這一點。此外,有些人野心勃勃、渴望權力;如果他們預期自己最後會成為贏家,就會願意與民主為敵。要是委員會中的其他成員反對,他們可能會被清洗、意見遭到否決,或獲得一些較小的讓步。†

• 此外,許多有權勢的人在崛起掌權的過程中,往往做過非法或不道德的事。他們可能會擔心,一旦權力分配得更廣,自己的地位就可能瓦解,因為超智慧級的調查者只要問對問題,就能挖出那些不可告人的秘密。 • 另外,透過取得超智慧,監督委員會可能擁有史上最便捷的奪權途徑。Safer-∞ 可能會預測某些策略的失敗風險低到幾乎可以忽略。Safer-∞ 也可能提供在其他方面同樣方便的策略,例如非暴力的策略(正如 Safer-∞ 可能在中國策動一場不流血的政變),或者甚至是表面上民主的策略——如果 Safer-∞ 能操縱輿論,讓公眾意見永遠與委員會的意志一致。

Safer-4 早就能預見這些權力動態,因此,最有可能的是,核心的權力鬥爭早在 2028 年就已經上演。到了 2030 年,即使外人看不出來,監督委員會的所有成員很可能也早已知道,他們對權力的掌控是否穩固。

附錄 W——提醒:這個情境是預測,不是建議

我們並不認可這個「放緩結局」中的許多作法,也認為它在技術對齊方面的假設過於樂觀。我們對「競賽結局」中的許多作法也同樣不認可。 我們撰寫這個情境的目標之一,是引出那些比我們更樂觀的人所提出的批判性回饋。成功的樣貌會是什麼?這個「放緩結局」情境,代表我們對於如何憑藉運氣、當頭棒喝、路線轉向、密集的技術對齊努力,以及正派的人在權力鬥爭中勝出,而得以勉強過關的最佳猜測。這不代表我們實際上認為應該追求的方案。但許多人,尤其是 Anthropic 和 OpenAI,似乎都在追求類似的結果。‡ 我們很希望看到他們更清楚說明自己究竟在追求什麼:如果他們能

*例如: 如果國會裡有些人想要奪取權力,其他人或許能拖到下一次選舉,讓公眾有機會表達意見。 †例如稍微更大的一部分權力;如果他們認為合適,也可以把它重新分配給更大的群體。這類讓步有些可能會逐漸接近相當民主的結果,即使某些菁英掌握的權力仍遠多於其他人。

‡事實上,可以說他們大多數人追求的其實是某種看起來更像「競賽」結局的東西,只是他們認為那也沒問題,因為 AI 從一開始就不會未對齊。根據與前沿 AI 公司從業人員的私下交談,看來他們大多數人都認為自己根本不需要放慢腳步。

例如,勾勒出一份十頁左右的情境,無論是從現在開始,還是從我們情境中的某個部分分岔出去。