AI, Prompt提示詞

Ilya Sutskever 首度公開他的「AI 未來觀」

raytio.tw@gmail.com
2025年 12 月 02日
沒有評論

Ilya Sutskever 首度公開他的「AI 未來觀」

本文整理自 Ilya Sutskever（OpenAI 聯合創辦人、前首席科學家，現任 SSI CEO）在 2025 年接受 Dwarkesh Patel 的深度長訪。

這是 Ilya 離開 OpenAI、創辦 Safe Superintelligence Inc.（SSI）後，首次全面系統地闡述他對 AI 的現況、侷限、未來突破方向與安全願景。

整場對話以三條主線展開，構成了理解當代 AI 走向的關鍵框架：

為什麼 AI 的測試成績亮眼，但在真實世界應用卻頻頻卡關？ ——這揭露了目前模型在「泛化能力」上的根本缺陷。
人類智能如何透過「價值函數、情感與極高樣本效率」來學習？ ——這些特質可能是下一代 AI 訓練方法的靈感來源。
SSI 想打造什麼樣的「安全超智慧（Safe Superintelligence）」？ ——不只是更強的模型，而是一個能更快學習、更能理解人類價值的心智。

這篇文章將帶你清晰理解 Ilya 的觀點、AI 正重返「研究時代」的原因，以及未來十年 AI 將如何從堆算力的競賽，轉向追求真正的智慧。

AI 發展重返研究時代：從價值函數、泛化能力到超級智慧的下一步

近年來，人工智慧再次站在重大轉折點。過去由「擴展時代」（Age of Scaling）所主導的模型發展策略，正在逐漸耗盡其成長空間，而研究人員開始重新聚焦於新的技術與理論突破。Ilya Sutskever 在近期的對談中深入探討了這個現象，也揭示了下一階段 AI 發展的方向。

本文將從三個角度切入：

為何“擴展”不再能解決所有問題？
價值函數（Value Function）如何提升 AI 的學習效率？
AI 正邁向新的研究時代：超級智慧、泛化能力與安全性

一、擴展時代的終結：AI 為何必須重返「研究時代」？

1. 擴展策略帶來了巨大成果，但接近極限

從 2020 到 2025，AI 領域被一個核心邏輯主導：

丟算力、丟資料、丟參數 → 模型就會變強。

這個邏輯被稱為 Scaling Laws，引領了 GPT-3、GPT-4、Claude 等系列模型的爆發式進步。對公司而言，「擴展」是低風險的投資：

買更多 GPU、用更大的資料、更高的維度，就能確定地提升性能。

然而，兩個根本限制開始浮現：

資料終究是有限的（data is finite）。 高品質可用的語料已逐漸枯竭。
算力規模越大，邊際效益越低。 Ilya 直接指出：「把模型再放大 100 倍，不會帶來質變。」

因此，單純靠堆疊資源的時代已接近尾聲。

二、價值函數：讓 AI 從「盲目 trial-and-error」變成真正能學習的智能體

強化學習（Reinforcement Learning, RL）一直被視為打造「能動型 AI 代理」的核心，但傳統做法非常低效。其主要原因來自於：

1. 延遲獎勵問題（Delayed Reward）

傳統 RL 的運作方式是：

模型執行一連串行動（可能上千步）。
最後產生一個結果。
只有在最後，才把一個總得分（score）回溯回去所有步驟。

換句話說：

只要模型還沒完成任務，它就無法學習任何東西。

這對於長任務極其不友善，例如：

拍攝長影片
完成大型程式碼修復
解長篇數學推導
跨場景、多步驟規劃

模型必須走完全程才知道做錯了什麼，效率極低。

2. 價值函數（Value Function）就是解方：建立「即時回饋系統」

價值函數讓模型可以在任務還沒完成之前，就能判斷：

目前做得對不對？
這條路是否值得繼續？
當前策略是否比過去更有效率？

這就像在 AI 腦中加了一個「預測未來評分的雷達」。

3. 價值函數能做到什麼？

提前告訴模型，它的路徑不會成功。
避免模型走 1,000 步後才發現方向錯誤。
大幅提升學習速度。

4. 下棋與程式碼的比喻

下棋：丟掉一顆棋就知道局勢變差，無需等到對局結束。
寫程式：編碼方向在第 10 步就已經註定失敗，沒必要讓模型推理到第 1,000 步才發現。

價值函數就是 AI 的「即時錯誤感知能力」。

5. 人類情感也是「價值函數」

Ilya 提出一個非常有趣的觀點：

人類能成為有效智能體，是因為情感是我們的價值函數。

例如：

焦慮提醒你道路可能錯了。
喜悅強化你正在做對的事。
直覺幫助你在複雜環境中做出快速判斷。

我們的人生並不是做完所有事情後才得到獎勵，而是一路都有回饋訊號，這讓我們具備極高的學習效率。

三、AI 模型的核心問題：泛化能力遠不如人類

Ilya 指出了一個重要的矛盾：

模型在測驗中表現極好，但在真實世界中表現不穩定。

例如：

修一個 bug → 立即製造另一個 bug
推理能力在 evals 上完美 → 實際情境卻反覆卡關
理論上會寫程式 → 實際專案卻無法完成

這個矛盾代表：

1. 模型評分（Evals）≠ 真實能力

甚至有人把研究者的行為稱為：

人類研究員的「獎勵駭客」（reward hacking）

（我們一直在調整模型來通過測試，而不是變得更懂世界。）

2. 模型缺乏真正的「泛化能力」（generalization）

Ilya 的例子很精彩：

一個人寫了 10,000 小時的編程練習（程式競賽）
一個人只寫了 100 小時，但「有天賦」

後者往往學得更快、更能將知識應用在更多情境。

AI 目前就是那個「寫了 10,000 小時卻只能做同類型題目」的人。

這是下一代 AI 必須解決的根本問題。

四、SSI 的使命：打造具「超級泛化能力」的 AI

Ilya 創立的公司 SSI 的目標不是打造：

不會錯的 AI
能完成所有工作的 AI
一個「最終態的心智」

而是：

打造一個能「快速學會任何事情」的心智。

也就是：

超強樣本效率（Sample Efficiency）

超級泛化能力（Generalization）

具備價值函數的可調節學習能力（Value-driven Learning）

他認為這才是通往 Superintelligence 的正確方向。

五、未來：強而安全的超級智慧與漸進式釋出

Ilya 表示：

即便 SSI 是「直取超級智慧」的公司（straight-shot superintelligence）
但「漸進式釋出」會是必然策略（gradual release）

原因是：

社會需要時間理解 AI。
生態系需要沉澱去適應新能力。
漸進釋出對安全極為重要。

而最理想的 AI 應該是：

強健對齊（robustly aligned）
關心生命（including sentient beings）
能理解人類價值與意圖

結語：AI 的下一個十年不再是「堆更大的模型」，而是創造更好的智能

AI 正從「堆 GPU 就能變強」的時代，走向「需要真正技術突破」的研究時代。

下一代 AI 將在四個面向上進化：

價值函數 → 讓 AI 學會「提前知道好壞」
更強泛化能力 → 不再只會考試，而是會做事
像人類情感般的價值調節 → 形成真正的智能體
新的研究范式 → 超越 scaling 的技術突破

我們正在見證 AI 從「計算驅動」轉向「科學驅動」的轉折點。

未來 10 年，會是 AI 真正走向智慧的時代。

分享這篇文章給更多人

發佈留言取消回覆

RAY

致力於幫助專業人士和企業善用數位工具，Ray本身亦為企業家，擁有建築工程和數位管理的背景，協助許多傳統產業與數位工具結合。

幫助對數位工具管理有興趣的人，即便沒有程式背景，也能打造出屬於自己的數位解決方案。

從數據到決策：打造高效績效管理的最佳實踐

2025 年 3 月 17 日

工地進度總是拖？10個你可能忽略的隱性錯誤

2025 年 5 月 6 日

使用Notion紀錄：你不是效率差，是沒看見自己的行為軌跡

2025 年 7 月 7 日

Notion 不是筆記，是你的第二個大腦：從雜亂到有序的數位重生

2025 年 7 月 10 日

從工地混亂到流程穩定，我怎麼打造一套「不用靠記憶也能管好進度」的系統？

2025 年 7 月 14 日

為什麼 Uber、PillPack 能顛覆產業，而你還在苦撐？關鍵只有一個字：拆。

2025 年 7 月 9 日

你可能也喜歡

Notion 打卡系統

Notion, 教學
｜ 2026-01-20

為什麼中小企業總是忙卻不賺錢？我們如何用 Notion 與精實管理，真正協助企業建立可運作的管理系統

Notion, 管理學
｜ 2026-01-19

為什麼中小企業在選擇管理工具時，可以優先選擇 Notion？

Notion
｜ 2026-01-16

我們如何透過小地方，幫客戶省下真正的大成本

管理學, 精實管理
｜ 2026-01-08

你的公司正在「流血」嗎？別再追究是誰的責任了，問題出在沒有「系統」。

管理學
｜ 2025-11-14

效率顧問服務說明

管理學, 系統導入
｜ 2025-11-12

Ilya Sutskever 首度公開他的「AI 未來觀」

文章導覽

AI 發展重返研究時代：從價值函數、泛化能力到超級智慧的下一步