自從OpenAI于2023年3月推出其強大的專有大型語言模型GPT-4 —— 即 18 個月前 —— 以來,使用者和開發者們一直在猜測,這家在矽谷及全球掀起GenAI熱潮的公司何時會推出下一個版本,預計将命名為GPT-5。
然而,事實證明,GPT系列暫時被一整個全新模型家族所超越。
今天,經過數月的報道和傳聞,尤其是在最近幾天愈加激烈的讨論後,OpenAI 宣布推出其“o1” AI模型家族,首批包含兩個模型:o1-preview和o1-mini。公司表示,這些模型旨在“推理複雜任務并解決比GPT系列更難的問題”。
這兩個模型現已向ChatGPT Plus使用者開放,但最初限制為每周o1-preview隻能發送30條消息,o1-mini則為50條。
然而,OpenAI 也提醒使用者:“作為一個早期模型,它還沒有許多使 ChatGPT 實用的功能,例如通過網絡浏覽資訊和上傳檔案及圖檔。在許多常見情況下,GPT-4o 在短期内仍然更為強大。”
的确,我們在最初的測試中嘗試讓其為這篇文章生成圖檔時發現它無法完成。在 OpenAI 的 API 平台網站上,公司明确表示,這個模型家族在測試階段僅支援“文本内容,暫不支援圖檔”。
o1系列在GPT模型上的優勢
OpenAI 聲稱其新的 o1 系列特别适合于在科學、醫療保健和技術等領域處理複雜問題的使用者。
OpenAI 設想這些模型将被廣泛應用,從幫助實體學家為量子光學生成數學公式,到協助醫療研究人員為細胞測序資料做标注。
開發者也會發現 o1-mini 模型在建構和執行多步驟工作流、調試代碼以及高效解決程式設計挑戰方面頗具成效。
o1-preview的表現達到博士生水準
o1-preview 模型旨在通過花更多時間思考和優化響應來處理挑戰性任務,類似于人類面對複雜問題時的應對方式。
在測試中,這種方法使該模型在實體學、化學和生物學等領域的表現接近博士生水準。
此外,o1-preview 模型在程式設計方面表現優異,在 Codeforces 程式設計比賽中排名第 89 百分位,展現了其處理多步驟工作流、調試複雜代碼和生成準确解決方案的能力。
在國際數學奧林匹克競賽 (IMO) 預選考試等基準測試中,o1-preview 展示了其卓越能力,成功解決了 83% 的問題,顯著超越其前任 GPT-4o 僅 13% 的成功率。
它已經向ChatGPT的Plus和Team使用者開放使用,Enterprise和Edu使用者将在下周獲得通路權限。該模型也通過OpenAI API提供給符合API使用第5層級的開發者,盡管最初會有速率限制。
o1-mini功能較弱但便宜80%
與o1-preview同時,OpenAI還推出了o1-mini模型,這是一個更精簡的版本,旨在提供更快且更便宜的推理能力。
雖然o1-mini主要針對程式設計和STEM任務進行了優化,但它在數學和程式設計領域依然表現出色。
在IMO數學基準測試中,o1-mini得分為70%,幾乎與o1-preview的74%持平,同時推理成本顯著降低。在編碼評估中,它也表現出色,在Codeforces上獲得了1650的Elo評分,位于前86%的程式員之列。
與o1-preview相比,o1-mini的價格便宜了80%,它主要面向那些需要推理能力但不需要o1-preview模型所具備的廣泛知識的開發者和研究人員。
這一具有成本效益的解決方案也将向ChatGPT Plus、Team、Enterprise和Edu使用者開放,未來還計劃向ChatGPT Free使用者擴充使用權限。
安全性和保障增強
為了遵守OpenAI對安全性的承諾,這兩個模型都采用了一種新的安全訓練方法,以增強它們遵循安全和對齊準則的能力。
OpenAI指出,o1-preview在其最嚴苛的越獄測試之一中得分達到了84分,相較于GPT-4o的22分有了顯著提升。能夠在上下文中推理安全規則,使這些模型更好地處理不安全的提示,避免生成不适當的内容。
作為更廣泛安全努力的一部分,OpenAI已與美國和英國的AI安全研究所達成協定。
這些合作包括為研究版本的o1模型提供早期通路權限,以幫助評估和測試未來的AI系統。
OpenAI的安全工作還包括全面的内部治理,并與聯邦政府合作,通過定期測試、紅隊測試以及公司安全與保障委員會的董事會層級監督來加強安全性。
OpenAI的o1系列未來展望
盡管o1-preview和o1-mini模型在推理和問題解決方面已經是強大的工具,OpenAI承認這隻是一個開始。
公司計劃定期更新和改進這些模型,包括增加API版本目前尚不支援的功能,如浏覽、檔案和圖像上傳以及函數調用。
展望未來,OpenAI将繼續開發其GPT和o1系列,進一步擴充AI在各個領域的能力。使用者可以期待不斷的進步,因為公司緻力于提高這些模型在不同應用中的實用性和可通路性。