開放人工智慧推出了一系列新模型,據稱這些模型比早期的生成人工智慧(GenAI)模型「可以解決更難的問題」。
這家總部位於加州的公司週四表示,將發布該系列的早期預覽版,正式名稱為 o1-preview 和 o1-mini。此模型的代號為草莓。
OpenAI 表示,在測驗中,新模型在物理、化學和生物學等挑戰性任務上的表現與博士生相似,並且在數學和編碼方面表現良好。
該公司表示,它在國際數學奧林匹克(IMO)高中數學競賽資格考試中測試了該模型。
它有 10 個小時的時間來解決 6 個具有挑戰性的演算法問題,並且每個問題允許提交 50 次。
據 OpenAI 稱,o1 模型解決了 83% 的問題,而 GPT-4o 只解決了 13%。
有什麼缺點?
該公司指出,它並不具備 ChatGPT 的所有主要功能,例如瀏覽網路以獲取資訊以及上傳檔案和圖像。它也沒有圖像分析功能,該功能已被禁用,等待額外的測試。
另一個缺點是它非常昂貴。新車型的輸入成本約為 GPT-4o 的三倍,輸出成本約為 GPT-4o 的四倍。 o1 預覽版的價格為每 100 萬個輸入代幣 15 美元(13.50 歐元),每 100 萬個輸出代幣 60 美元(54 歐元)。令牌是原始數據,100 萬個令牌約為 75 萬個單字。
目前它還不是免費提供給用戶的,但該公司表示計劃將 o1-mini 帶給所有免費的 ChatGPT 用戶。
OpenAI 在一份技術論文中也表示,測試人員的回饋是,o1 比 GPT-4o 更容易產生幻覺(編造事情)。它也不承認沒有問題的答案。
OpenAI 聯合創始人兼首席執行官Sam Altman 在X 上的一篇帖子中表示,「o1 仍然有缺陷,仍然有限,而且它在第一次使用時看起來仍然比你花更多時間使用它之後更令人印象深刻」。
“思想鏈”
OpenAI 表示,該模型的工作原理“類似於人類在回答難題之前可能會思考很長時間的方式”,並補充說“o1 在嘗試解決問題時會使用一系列思維鏈”。
OpenAI 並沒有準確地展示這種「思想鏈」推理是如何運作的,部分原因是出於競爭優勢。但它確實顯示了思想鏈的“模型生成的摘要”。
與政府合作
OpenAI 表示,為了推進其對人工智慧安全的承諾,它最近與美國和英國人工智慧安全研究所正式簽署了協議,其中包括允許各機構在公開發布之前提前訪問該模型。
OpenAI 沒有提到與歐洲各國政府。