Source: searchenginejournal
By Howard T. —— 2023-03-15
92 shares / 6.8k views
________________________________________________________________________________________
美東時間3月14日週二,OpenAI發布了最新作品——GPT-4,得到這種新模型支持的ChatGPT將迎來升級。OpenAI表示,GPT-4能同時解析文本和圖像,所以能解讀更複雜的輸入內容。該公司表示,雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基准上表現出「人類水平」。
上週,Microsoft 德國的首席技術官(CTO)Andreas Braun在德國出席一個AI活動時透露,本週將發布多模態的系統GPT-4,它「將提供截然不同的可能性,比如視頻」。這讓外界猜測,GPT-4應該能讓用戶將文本轉換為視頻,因為他說該系統將是多模態的,也就在暗示,不僅能生成文本,還會有其他媒介。然而,本週二OpenAI介紹的GPT-4的確是多模態的,但它能融合的媒介沒有一些人預測的多。
離發布僅僅四個多月,在ChatGPT展現了驚人的實力之後,OpenAI又扔下了一顆核彈,美東時間3月14日週二發布了最新作品——GPT-4,得到這種新模型支持的ChatGPT將迎來升級,OpenAI表示,雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基准上表現出人類水平。
OpenAI於美東時間3月14日週二發布了GPT-4,得到這種新模型支持的ChatGPT將迎來升級。Source: [email protected]
更高準確性和流暢性的 GPT-4
GPT-4全稱生成式預訓練轉換器4,前兩代的 GPT-3 和 GPT3.5 分別用於創造Dall-E 和ChatGPT,都吸引了公眾關注,並刺激其他科技公司大力投入AI應用領域。OpenAI承認,該公司使用了Microsoft Azure來訓練其模型,而且Microsoft更向OpenAI投資了數十億美元。OpenAI聲稱,ChatGPT-4比迭代前的GPT-3.5更大,這意味著它接受了更多的數據訓練,模型文件中有更多的權重(參數),這也使得它的運行成本更高。
目前,該領域的許多研究人員認為,AI最近取得的許多進步來自於在數千台超級計算機上運行越來越大的模型,訓練過程可能耗資數千萬美元,然而GPT-4就是以「擴大規模」為中心以達到更好結果的例證。OpenAI介紹,相比支持ChatGPT的前代GPT-3.5,GPT-4和用戶的對話只有微妙的差別,但在面對更複雜的任務時,兩者的差異更為明顯。稱它可以接收圖像和文本輸入,輸出文本,「比以往任何更具創造性和協作性」,並且「由於它有更廣泛的常識和解決問題的能力,可以更準確地解決難題。」「在我們的內部評估中,它產生正確回應的可能性比GPT-3.5高40%。」OpenAI聲稱,新模型將產生更少的事實錯誤答案,更少偏離話題,更少談論被禁止的話題,相比於其他語言模型,GPT-3 具有更高的準確性和流暢性,這是由於它採用了一種全新的神經網絡結構和更先進的學習算法。
在OpenAI提供的一個示例中,GPT-4準確地回答了幾個網絡meme為什麼搞笑的問題。
GPT-4準確地回答了幾個網絡meme為什麼搞笑的問題。Source: 《紐約時報》
此外,GPT-4還開始具備一點幽默感。它可以說出一些模式化的的冷笑話,至少它開始理解人類「幽默」這一特質。
GPT-4開始具備一點幽默感,能說出一些模式化的的冷笑話。Source: 《紐約時報》
GPT-4對於中文的語言理解已經優於此前ChatGPT對英文的理解。
當然另外一個好消息是,GPT-4對於英語以外的語種支持也得到了大大的優化。
許多現有的機器學習基準測試都是用英語編寫的。為了初步了解GPT-4在其他語言上的能力,OpenAI使用Azure Translate,將一套涵蓋57個主題的1.4萬多項選擇題的MMLU基準,翻譯成了多種語言,然後進行測試。 在測試的26種語言中,有24種語言,GPT-4優於GPT-3.5和其他大語言模型的英語語言性能。
其中中文達到了80.1%的準確性,而GPT-3.5的英文的準確性為70.1%,也就是說,在這個測試中,GPT-4對於中文的語言理解,已經優於此前ChatGPT對於英文的理解。
Source: wallstreetcn
處理超過2.5萬字的文本
ChatGPT模式下,GPT-4可以處理超過2.5萬字的文本,可以輕鬆地總結一篇超長文章的核心內容,比如把OpenAI今天發布的這篇講述GPT-4的雄文總結要點。甚至還可以像在演示中的那樣,以各種奇怪的形式來提煉它,例如以全是「G字母開」的單詞來總結。或者要它把這些內容要點寫成一首詩。
GPT-4演示中,以各種奇怪的形式來提煉它,例如,以全是「G字母開頭」的單詞來總結。。Source: wallstreetcn
在「AI編程助手」模式下,還可以讓它輕鬆寫代碼,生成一個網站,或者更複雜的。或者要它變身成TaxGPT,要它基於稅務法則,來計算出一對夫妻要繳納多少稅,而且還要把計算理由一步步寫出來,讓人們可以檢閱,這都是GPT-4能夠做到的。
GPT-4能基於稅務法則,來計算出一對夫妻要繳納多少稅,而且還要把計算理由一步步寫出來。Source: wallstreetcn
它不再僅僅是普通用戶的「聊天機器人」,而將成為開發者手中的利器,在文本、編程、稅務以及更多可見的領域,成為強大工具的開發基石。
通過了多種基准考試測試
OpenAI還稱,GPT-4參加了多種基准考試測試,包括美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、“美國高考”SAT數學部分和證據性閱讀與寫作部分的考試,在這些測試中,它的得分高於88%的應試者。
在SAT閱讀考試中和SAT數學考試中,GPT-4的成績都能達到領先的排名。
在SAT閱讀考試中和SAT數學考試中,GPT-4的成績都能達到領先的排名。Source: wallstreetcn
GPT-4的商業應用
OpenAI表示,已經與多家公司合作,要將GPT-4結合到他們的產品中,包括Duolingo、Stripe 和Khan Academy。GPT-4模型也將以API的形式,提供給付費版ChatGPT Plus的訂閱用戶。開發者可以注冊,用它打造應用。Microsoft此後表示,新款的必應(Bing)搜索引擎將運行於GPT-4系統之上。
在隨後舉行的Live Demo中,OpenAI也表示,還沒有公開提供這部分技術,但已經在和一家名為Be My Eyes的公司進行合作,對方會使用GPT-4來構建服務。
ChatGPT-4是對語言模型取得最新進展的預覽,這些新進展可能會在未來幾週開始向下滲透到ChatGPT等消費產品中。微軟週二表示,必應的 ChatGPT 會使用GPT-4模型。
GPT-4並不完美
然而,GPT-4還不夠完美,在許多情況下它的能力不如人類。例如,GPT-4仍然存在所謂的「幻覺」或編造故事等問題,並且會出現推理錯誤。當它犯錯的時候,它仍然傾向於堅持自己是正確的。OpenAI強調,仍然推薦在使用它的時候要附加諸如人工審查、或者附加上下文,甚至在高風險情境中,要避免使用它。OpenAI首席執行官薩姆·阿爾特曼(Sam Altman)在 Twitter 上表示,GPT-4「仍然有缺陷,有很大局限性」,但「它在首次使用時仍然能給你留下深刻印象。」
此外在《紐約時報》提供的案例中,同樣可以看出GPT-4可以同時解析文本和圖像,這也使它能夠解釋更複雜的信息。不過,目前圖像輸入的權限尚未公開,所以目前還沒看到更多例子來證明GPT-4在圖像方面的處理能力。