国产理论最新精品免费视频,国产欧美日韩视频怡春院,80s国产成年女人毛片

編譯 | ?程茜

編輯 | ?云鵬

Altman發(fā)文盛贊新視覺(jué)推理模型：天才水平。

智東西4月17日?qǐng)?bào)道，今日凌晨，OpenAI重磅發(fā)布兩大視覺(jué)推理模型OpenAI o3和o4-mini，這也是OpenAI o系列中首次可以使用圖像進(jìn)行思維鏈推理的模型。OpenAI還開(kāi)源了輕量級(jí)編程Agent?Codex CLI，發(fā)布不到7個(gè)小時(shí)，Star數(shù)已超5500。

這兩個(gè)模型的區(qū)別在于，OpenAI o3是最強(qiáng)大的推理模型；OpenAI o4-mini是一個(gè)針對(duì)快速、成本效益推理進(jìn)行優(yōu)化的較小模型。新模型首次將圖像融入思維鏈過(guò)程，還能自主調(diào)用工具，在一分鐘內(nèi)生成答案。

OpenAI開(kāi)源的編程Agent Codex CLI能最大化模型推理能力，可在端側(cè)部署。今日OpenAI還在A(yíng)I編程領(lǐng)域曝出重磅收購(gòu)交易。據(jù)外媒報(bào)道，OpenAI正在洽談以30億美元（約合人民幣219億元）收購(gòu)AI輔助編程工具Windsurf（前身為Codeium），這將是OpenAI迄今規(guī)模最大的一筆收購(gòu)。

今天起，ChatGPT Plus、Pro和Team用戶(hù)可以使用o3、o4-mini和o4-mini-high，這些模型會(huì)取代o1、o3-mini和o3－mini－h(huán)igh。ChatGPT企業(yè)和教育用戶(hù)將在一周后獲得訪(fǎng)問(wèn)權(quán)限。免費(fèi)用戶(hù)可以在提交查詢(xún)前選擇“思考”來(lái)嘗試o4-mini。OpenAI預(yù)計(jì)在幾周內(nèi)發(fā)布OpenAI o3-pro，并配備完整工具支持。目前Pro用戶(hù)仍可訪(fǎng)問(wèn)o1-pro。o3和o4-mini通過(guò)Chat Completions API和Responses API向開(kāi)發(fā)者開(kāi)放。

OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman在社交平臺(tái)X上發(fā)文盛贊o3、o4-mini是“天才水平”。

正在被OpenAI洽談收購(gòu)的Windsurf，正式名稱(chēng)為Exafunction Inc.，成立于2021年，已籌集超過(guò)2億美元的風(fēng)險(xiǎn)投資資金，估值30億美元，近期與其洽談融資事宜還包括Kleiner Perkins和General Catalyst在內(nèi)的投資者。去年11月，Windsurf發(fā)布了全球首個(gè)智能體IDE。

近期A(yíng)I編程創(chuàng)企融資火爆，Cursor背后的初創(chuàng)公司Anysphere在今年早些時(shí)候與投資者洽談以近100億美元（約合人民幣731億元）的估值獲得新融資。此前OpenAI曾收購(gòu)過(guò)向量數(shù)據(jù)庫(kù)公司Rockset和遠(yuǎn)程協(xié)作平臺(tái)Multi。如果收購(gòu)Windsurf的新交易完成，OpenAI將進(jìn)一步補(bǔ)充AI編程助手實(shí)力，與Anthropic、微軟旗下Github、Anysphere等知名AI編程公司展開(kāi)更直接的競(jìng)爭(zhēng)。交易條款尚未敲定，談判仍有可能發(fā)生變化。

01.用圖像思考手繪草圖、顛倒文字都能處理

o3和o4-mini模型可以直接將圖像整合到思維鏈中，用圖像來(lái)進(jìn)行思考，并且其還會(huì)被訓(xùn)練推理在什么時(shí)間點(diǎn)使用哪種工具。

具體來(lái)看，模型可以解讀人們上傳的白板照片、教科書(shū)圖表或手繪草圖，如果圖像模糊、顛倒，模型也能借助工具實(shí)時(shí)操作圖像，如進(jìn)行旋轉(zhuǎn)、縮放或變換等，或者與Python數(shù)據(jù)分析、網(wǎng)絡(luò)搜索、圖像生成等工具協(xié)同工作，這些都是模型推理過(guò)程的一部分。

如用戶(hù)上傳一張隨手拍的圖片，可以詢(xún)問(wèn)模型圖片“最大船只的名字、在哪里?？俊钡葐?wèn)題。

例如在使用內(nèi)置文獻(xiàn)解決一道數(shù)學(xué)難題時(shí)，OpenAI o3可以在不使用搜索的情況下給出正確答案，o1則無(wú)法提供正確響應(yīng)。

面對(duì)幫助用戶(hù)“收集區(qū)域旅行數(shù)據(jù)、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)和酒店入住率，病直觀(guān)分析趨勢(shì)并推薦理想的擴(kuò)張地點(diǎn)”這一復(fù)雜問(wèn)題時(shí)，OpenAI o3的結(jié)果引用了更多與行業(yè)相關(guān)的來(lái)源，并提出了詳細(xì)計(jì)劃，同時(shí)預(yù)測(cè)現(xiàn)實(shí)世界的挑戰(zhàn)并提供主動(dòng)的緩解措施。相比之下，01的結(jié)果更為寬泛。

在根據(jù)用戶(hù)上傳的一張“手持節(jié)目單”照片進(jìn)行分析后，OpenAI o3能夠準(zhǔn)確考慮日程安排并輸出可用的計(jì)劃，而o1存在不準(zhǔn)確之處，某些節(jié)目時(shí)間錯(cuò)誤。

模型能夠根據(jù)遇到的信息做出反應(yīng)和調(diào)整，例如，它們可以在搜索提供商的幫助下多次搜索網(wǎng)絡(luò)、查看結(jié)果，并在需要更多信息時(shí)嘗試新的搜索。這使得模型可以處理需要訪(fǎng)問(wèn)超出模型內(nèi)置知識(shí)、擴(kuò)展推理、綜合和跨模態(tài)輸出最新信息的任務(wù)。

02.多模態(tài)任務(wù)大幅優(yōu)于前代模型視覺(jué)推理準(zhǔn)確率高達(dá)97.5%

在成本和性能方面，OpenAI預(yù)計(jì)對(duì)于大多數(shù)實(shí)際應(yīng)用，o3和o4-mini分別將比o1和o3-mini更智能且更便宜。o4-mini和o3-mini在成本和性能方面的對(duì)比：

o3和o1在成本和性能方面的對(duì)比：

OpenAI在一系列人類(lèi)考試和機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中測(cè)試了OpenAI o3和o4-mini，其結(jié)果顯示，這些新的視覺(jué)推理模型在所有測(cè)試的多模態(tài)任務(wù)上都顯著優(yōu)于前代模型。

其中，無(wú)需瀏覽的圖像思維幾乎在其所有評(píng)估的感知基準(zhǔn)測(cè)試中均取得了顯著提升。OpenAI o3和o4-mini在STEM問(wèn)答（MMMU、MathVista）、圖表閱讀和推理（CharXiv）、感知原語(yǔ)（VLMs are Blind）和視覺(jué)搜索（V*）方面均達(dá)到了新的最先進(jìn)性能。在V*上，新模型的視覺(jué)推理方法達(dá)到了95.7%的準(zhǔn)確率。

o3在分析圖像、圖表和圖形等視覺(jué)任務(wù)上表現(xiàn)更好。外部專(zhuān)家的評(píng)估中，o3在困難、現(xiàn)實(shí)世界的任務(wù)上比OpenAI o1少犯20%的重大錯(cuò)誤。早期測(cè)試者強(qiáng)調(diào)了其在生物學(xué)、數(shù)學(xué)和工程背景中分析嚴(yán)謹(jǐn)性問(wèn)題的能力，以及可以生成和批判性地評(píng)估新穎假設(shè)的能力。

在專(zhuān)家評(píng)估中，o4-mini在非STEM任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域表現(xiàn)超過(guò)o3-mini。且o4-mini支持比o3高得多的使用限制，具備高容量、高吞吐量的優(yōu)勢(shì)。

外部專(zhuān)家評(píng)估員認(rèn)為這兩個(gè)模型都表現(xiàn)出比先前模型更好的指令遵循能力和更有用、可驗(yàn)證的響應(yīng)，此外，新模型在自然對(duì)話(huà)方面，可以參考記憶和過(guò)去的對(duì)話(huà)來(lái)使響應(yīng)更加個(gè)性化的回答。

多模態(tài)能力的評(píng)估結(jié)果：

編碼能力的評(píng)估結(jié)果：

遵循指令和代理工具使用的評(píng)估結(jié)果：

03.延續(xù)“更多計(jì)算=更好性能”思路已開(kāi)源輕量級(jí)編程Agent

在OpenAI o3的開(kāi)發(fā)過(guò)程中，研究人員觀(guān)察到大規(guī)模強(qiáng)化學(xué)習(xí)呈現(xiàn)出與GPT系列預(yù)訓(xùn)練中觀(guān)察到的“更多計(jì)算=更好性能”的趨勢(shì)相同。

他們通過(guò)在強(qiáng)化學(xué)習(xí)中追溯擴(kuò)展路徑，在訓(xùn)練計(jì)算和推理時(shí)間上又推進(jìn)了一個(gè)數(shù)量級(jí)后，看到了模型明顯的性能提升，這驗(yàn)證了隨著模型被允許進(jìn)行更多思考，其性能仍在持續(xù)提升。

與OpenAI o1相同的延遲和成本下，o3在ChatGPT中實(shí)現(xiàn)了更高的性能，并且其在博客中透露，研究人員已經(jīng)驗(yàn)證，如果讓模型思考更長(zhǎng)的時(shí)間，其性能還會(huì)繼續(xù)提升。

研究人員還通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練了新模型使用工具，不僅包括如何使用工具，還包括如何推理何時(shí)使用工具。新模型可以根據(jù)期望結(jié)果部署工具，使得其在涉及視覺(jué)推理和多步驟工作流程等開(kāi)放式情境的表現(xiàn)更好。

OpenAI還分享了一個(gè)輕量級(jí)的編程Agent Codex CLI，用來(lái)最大化o3和o4-mini等模型的推理能力，用戶(hù)可以直接在終端運(yùn)行，OpenAI計(jì)劃支持GPT-4.1等更多API模型。

用戶(hù)可以通過(guò)傳遞截圖或低保真草圖到模型，結(jié)合對(duì)本地代碼的訪(fǎng)問(wèn)，從命令行獲得多模態(tài)推理的好處。OpenAI認(rèn)為這可以將模型與用戶(hù)及其計(jì)算機(jī)連接起來(lái)。今天起，Codex CLI已完全開(kāi)源。

開(kāi)源地址：github.com/openai/codex

同時(shí)，OpenAI啟動(dòng)了一項(xiàng)100萬(wàn)美元倡議，以支持使用Codex CLI和OpenAI模型的工程項(xiàng)目，其將評(píng)估并接受以25000美元API信用額度形式提供的補(bǔ)助金申請(qǐng)。

04.仍有三大局限性：推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足

不過(guò)，在博客中研究人員也提到，圖像推理目前存在以下局限性：

過(guò)長(zhǎng)的推理鏈：模型可能會(huì)執(zhí)行冗余或不必要的工具調(diào)用和圖像處理步驟，導(dǎo)致過(guò)長(zhǎng)的思維鏈；

感知錯(cuò)誤：模型仍然可能犯基本的感知錯(cuò)誤。即使工具調(diào)用正確推進(jìn)推理過(guò)程，視覺(jué)誤解也可能導(dǎo)致最終答案不正確；

可靠性：模型可能在多次嘗試解決問(wèn)題時(shí)嘗試不同的視覺(jué)推理過(guò)程，其中一些可能導(dǎo)致錯(cuò)誤的結(jié)果。

在安全方面，OpenA重建了安全訓(xùn)練數(shù)據(jù)，在生物威脅（生物風(fēng)險(xiǎn)）、惡意軟件生成和越獄等領(lǐng)域添加了新的拒絕提示。這使得o3和o4-mini在其內(nèi)部拒絕基準(zhǔn)測(cè)試中表現(xiàn)較好。OpenAI還開(kāi)發(fā)了系統(tǒng)級(jí)緩解措施，以標(biāo)記前沿風(fēng)險(xiǎn)區(qū)域中的危險(xiǎn)提示。研究人員訓(xùn)練了一個(gè)推理大模型監(jiān)控器，該監(jiān)控器基于人類(lèi)編寫(xiě)的可解釋安全規(guī)范。當(dāng)應(yīng)用于生物風(fēng)險(xiǎn)時(shí)，該監(jiān)控器成功標(biāo)記了人類(lèi)紅隊(duì)行動(dòng)中約 99%的對(duì)話(huà)。

研究人員更新了應(yīng)急準(zhǔn)備框架，對(duì)o3和o4-mini在框架涵蓋的三個(gè)跟蹤能力領(lǐng)域進(jìn)行了評(píng)估：生物和化學(xué)、網(wǎng)絡(luò)安全和AI自我改進(jìn)。根據(jù)這些評(píng)估的結(jié)果，其確定o3和o4-mini在所有三個(gè)類(lèi)別中均低于框架的“高”閾值。

05.結(jié)語(yǔ)：發(fā)力視覺(jué)推理邁向多模態(tài)推理

OpenAI o3和o4-mini顯著提升了模型的視覺(jué)推理能力，這些模型在視覺(jué)感知任務(wù)上的提升，使其能夠解決之前模型難以觸及的問(wèn)題，標(biāo)志著模型向多模態(tài)推理邁出的重要一步。

OpenAI在博客中提到，他們將o系列的專(zhuān)業(yè)推理能力與GPT系列的自然對(duì)話(huà)能力和工具使用能力相結(jié)合，未來(lái)可以實(shí)現(xiàn)模型能支持無(wú)縫、自然的對(duì)話(huà)，同時(shí)能主動(dòng)使用工具并解決更為復(fù)雜的問(wèn)題。

此外，研究人員也在不斷優(yōu)化模型使用圖像進(jìn)行推理的能力，使其更加簡(jiǎn)潔、更少冗余、更可靠。

o3和o4-mini來(lái)了！OpenAI突破最強(qiáng)“看圖思考”，開(kāi)源AI編程神器，史上最大收購(gòu)曝光

01.用圖像思考手繪草圖、顛倒文字都能處理

02.多模態(tài)任務(wù)大幅優(yōu)于前代模型視覺(jué)推理準(zhǔn)確率高達(dá)97.5%

03.延續(xù)“更多計(jì)算=更好性能”思路已開(kāi)源輕量級(jí)編程Agent

04.仍有三大局限性：推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足

05.結(jié)語(yǔ)：發(fā)力視覺(jué)推理邁向多模態(tài)推理

相關(guān)推薦

o3和o4-mini來(lái)了！OpenAI突破最強(qiáng)“看圖思考”，開(kāi)源AI編程神器，史上最大收購(gòu)曝光

01.用圖像思考手繪草圖、顛倒文字都能處理

02.多模態(tài)任務(wù)大幅優(yōu)于前代模型視覺(jué)推理準(zhǔn)確率高達(dá)97.5%

03.延續(xù)“更多計(jì)算=更好性能”思路已開(kāi)源輕量級(jí)編程Agent

04.仍有三大局限性：推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足

05.結(jié)語(yǔ)：發(fā)力視覺(jué)推理邁向多模態(tài)推理

相關(guān)推薦

o3和o4-mini來(lái)了！OpenAI突破最強(qiáng)“看圖思考”，開(kāi)源AI編程神器，史上最大收購(gòu)曝光

01.用圖像思考手繪草圖、顛倒文字都能處理

04.仍有三大局限性：推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足