主要特點:
- 高效能推理能力: o3 在科學、技術、工程和數學(STEM)領域表現卓越,能夠處理複雜問題,並在數學、程式設計和科學等領域展現出色的表現。
- 多種推理強度選擇: 開發者可以根據需求選擇低、中、高三種推理強度,以靈活平衡速度和精準性。
- 速度與效率: o3 在保持與 o1 相當的智慧水準的同時,實現了更快的運行速度和更高的運算效率。根據 A/B 測試結果,o3 的平均反應時間為 7.7 秒,比 o1-mini 快了 24%。
- 開發者友善: o3 首次在小型推理模型中支援多項開發者功能,包括函數呼叫、結構化輸出、開發者訊息和串流功能。
- 整合搜尋功能: o3 整合了搜尋功能,能夠提供具有相關網路來源連結的最新回應。
性能表現:
在多項基準測試中,o3 展現了卓越的能力:
- 軟體工程測試(SWE-Bench Verified): o3 的準確率比 o1 提高了 22.8%,並在競爭性編程中超越了 OpenAI 的首席科學家。
- 數學競賽(AIME 2024): 在這一高難度測試中,o3 僅錯了一題,表現近乎完美。
- 高級科學問題(GPQA Diamond): 取得了 87.7% 的高分,展現了其在複雜科學問題上的卓越能力。
- ARC-AGI 基準測試: 在這一評估 AI 處理新穎複雜數學和邏輯問題的能力的測試中,o3 的準確率是 o1 的三倍。
版本與可用性:
o3 提供了精簡版 o3-mini,專為推理能力強化的輕量 AI 模型,特別針對數學計算、邏輯推理、科學問題解決以及程式設計等 STEM 領域進行最佳化。
目前,o3-mini 已開放給所有 ChatGPT 用戶,包括免費用戶,並可透過 API 使用。
應用場景:
o3 的強大推理能力使其適用於多種場景,包括:
- 教育領域: 協助學生解決複雜的數學和科學問題。
- 軟體開發: 提供程式碼建議和錯誤排除,提升開發效率。
- 研究分析: 支援科學研究中的數據分析和推理。
總體而言,ChatGPT o3 代表了 AI 推理能力的重大進步,為各領域的專業人士和開發者提供了強大的工具。
參考:koc.com.tw、applealmond.com、zhangfeidezhu.com、news.cnyes.com