從人機交互角度聊聊ChatGPT-4o

2025-3-12 15:54| 發(fā)布者: admin| 查看: 193| 評論: 0

摘要: 這幾天AI圈子像是過節(jié)一樣，顯示周一晚上OpenAI的發(fā)布會，發(fā)布的產(chǎn)品和之前的消息相差不多；然后又是昨晚上Google IO大會，也發(fā)布了新的大模型產(chǎn)品。這篇文章，我們把焦點放在GPT-4o上。GPT-4o本次共更新了7項內(nèi)容， ...

這幾天AI圈子像是過節(jié)一樣，顯示周一晚上OpenAI的發(fā)布會，發(fā)布的產(chǎn)品和之前的消息相差不多；然后又是昨晚上Google IO大會，也發(fā)布了新的大模型產(chǎn)品。這篇文章，我們把焦點放在GPT-4o上。

GPT-4o本次共更新了7項內(nèi)容，作者選擇了4個要點，從人機交互的角度和我們分析，看看和大家的理解有那些不一樣。

從人機交互角度聊聊ChatGPT-4o

前天半夜ChatGPT-4o的發(fā)布會應(yīng)該未來幾天AI圈子最有熱度的話題了，其中幾條更新其實可以從人機交互的角度解讀一下。

首先我們還是先來看看GPT-4o更新的主要內(nèi)容（只關(guān)注交互角度解讀可跳過）：

多模態(tài)交互能力：ChatGPT 4.0支持圖像和文本輸入，并能輸出文本，具備多模態(tài)交互的能力。這意味著它可以理解圖像內(nèi)容，并生成字幕、分類和分析等操作。
自然語言理解能力提升：在自然語言理解方面有顯著提升，這使得ChatGPT 4.0能夠更好地理解用戶的輸入，并根據(jù)用戶的語境提供更準確的回答。
上下文長度增加：ChatGPT 4.0的上下文長度得到增加，這使得模型在處理長篇對話時表現(xiàn)更佳，能更好地理解整個對話的背景和上下文，從而給出更準確和恰當?shù)幕卮稹?/li>
數(shù)據(jù)分析及可視化作圖功能：通過直接打通相關(guān)功能模塊，ChatGPT 4.0能夠利用自然語言交互，根據(jù)知識庫、在線檢索到的數(shù)據(jù)進行數(shù)據(jù)分析及可視化作圖。
DALL·E 3.0功能：ChatGPT 4.0引入了DALL·E 3.0功能，允許用戶上傳圖片并在其上進行查詢，可以直接從必應(yīng)瀏覽，并直接使用ChatGPT中的DALL·E 3.0功能，在圖片上進行創(chuàng)作。
模型架構(gòu)和訓練數(shù)據(jù)的進步：開發(fā)者在這個版本中引入了更先進的模型架構(gòu)、更多的訓練數(shù)據(jù)和更多的語言數(shù)據(jù)，將聊天機器人的性能提升到了一個新的高度。
API開放和價格優(yōu)惠：新版本GPT-4 Turbo支持128k上下文，知識截止更新到2023年4月，視覺能力、DALL·E3，文字轉(zhuǎn)語音TTS等功能全都對API開放，同時API價格還打了3-5折。

這其中的第1、2、3、5點都可以從人機交互的角度聊一聊。

第1點：多模態(tài)交互能力

今天作者也看了一些寫GPT-4o更新的文章，有些人僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和GPT交流了，這么理解實在太小看多模態(tài)交互能力了。

要知道，人類通過文字表達和聲音表達，即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息，而聲音包含更多維度的信息。例如語音、語調(diào)、音量、語速、停頓、重音等等。

同樣是【你好】，文字只能表達1種含義，而聲音可能能表達4-6種。對于程序來說，多模態(tài)交互意味著從更多來源獲得信息（指視、聽、文、環(huán)境等來源）。也意味著獲得更多信息（例如剛剛所說的聲音維度的語音、語調(diào)、音量、語速、停頓、重音）。

從多來源獲得信息并獲得更多信息，GPT就可以縮短推理、判斷等過程，更快速的給與用戶回復。這就像是用戶自動的把提問描述的更詳細了，把自己的要求說的更清楚了，如此一來GPT給與反饋的速度和質(zhì)量自然會有對應(yīng)的提升。（當然同樣也有模型方面帶來的提升）

除了聲音之外，GPT-4o的多模態(tài)交互能力還包括視覺理解能力，例如能識別圖像中的人臉，分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。

以上是多模態(tài)交互能力中，人向GPT輸入過程中的意義，那么對于人機交互的另一部分：GPT向人輸出的階段，同樣意義非凡。

GPT-4o可以根據(jù)需要以最合適的模態(tài)進行回應(yīng)，在之前GPT只能以文字進行回復，但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了吧，無論是取代了命令行界面的圖形化界面，還是你晉升答辯時準備的PPT，都能體現(xiàn)圖像相對于文字的優(yōu)勢。

第2點：自然語言理解能力提升

如果說多模態(tài)交互能力代表了輸入和輸出這兩個階段。那自然語言理解能力就代表了【處理】這個階段。當GPT從多來源獲得信息后，下一步就是理解這些信息，理解過后才能給出回復信息。自然語言理解能力的提升意味著GPT-4o對用戶意圖的識別更加準確了。那么自然后續(xù)回復的內(nèi)容、回復的模態(tài)都會有更高質(zhì)量的結(jié)果。

第3點：上下文長度增加

這一點的意義首先體現(xiàn)在長篇對話上，我們可以類比人與人之間的交流方式，兩個相識了多年的朋友，可能他們一句很短的對話就可以包含非常大的信息量，例如：

張三對李四說：你上回那個設(shè)計方案真是太牛了！

這句話本身沒提及但張三和李四都能理解的信息可能有：

如果想清晰的表達以上的1、2、3包含的具體信息，可能需要上千字或十分鐘的對話才能說清楚，但由于這些信息都已經(jīng)被儲存在人的記憶中，兩人在交流的過程中就可以省略很多詳細的描述和前置條件，用一句話表達大量信息。

對于GPT-4o而言，可記憶的上下文長度增加就意味著他變成了一個對你更熟悉的程序，所以當用戶與GPT-4o交流時，就可以像張三和李四交流那樣使用更少的信息交流更多的信息，同時能夠保障交流質(zhì)量。

要注意的是，剛剛我使用了對你更熟悉的程序這樣的描述，而不是對你更熟悉的朋友這樣的描述，這里面關(guān)鍵的區(qū)別有兩方面，第一方面是所謂的上下文長度，可以類比人與人相識的時間和交流的信息總量、了解程度。第二方面是

我們可以暢想一下，如果現(xiàn)在的新生代兒童從很小的年齡就開始使用AI工具，并且AI工具附著在便攜式智能設(shè)備上，以多模態(tài)與用戶同時感知周圍環(huán)境，再加之GPT-4o的可貫穿數(shù)十年的可記憶上下文長度。這樣的AI可能會成為用戶最熟悉的朋友，甚至遠超父母、家人。如果再給與這個AI相應(yīng)的硬件，那幾乎可視為智械族了~

第5點：DALL·E 3.0功能

文生圖能力以及對圖片的智能編輯能力已經(jīng)是很多其他產(chǎn)品早已具備的了，不過GPT-4o這次更新幫助用戶節(jié)省了之前都是由用戶操作的不同數(shù)據(jù)類型轉(zhuǎn)化的操作，改為由GPT-4o代替，對用戶來說同樣是操作效率的提升。就像我們之前如果在某張圖片上看到了一個新概念，那可能需要用打字或ocr的方式將圖片轉(zhuǎn)化成文字再繼續(xù)使用。而GPT-4o以后將為用戶省掉這個過程。

其他的像創(chuàng)意工作、廣告制作、產(chǎn)品設(shè)計、教育演示等方面的意義就不再多說，市面上已經(jīng)有很多類似的產(chǎn)品了。

在整個發(fā)布會之中，還有一個令用戶們wow的點是GPT-4o的響應(yīng)時間僅為232毫秒（平均320毫秒），幾乎達到了與人類實時對話的水平，顯著優(yōu)于前代模型的延遲表現(xiàn)。

其實我們可以從以上的解讀中思考一下，為什么GPT-4o的響應(yīng)時間得到了如此大的提升？

第1點：意味著GPT-4o獲取信息的速度更快了，信息量更多了。
第2點：意味著GPT-4o理解這些信息更快了
第3點：意味著GPT能從上下文獲得更多用戶沒有直接表達的信息

綜合以上3點提示再加上本身模型能力的提升，GPT-4o的響應(yīng)時間達到232毫秒也就容易理解了。

當GPT-4o的響應(yīng)時間達到了人類與人類對話的水平時，很多應(yīng)用場景的想象空間就更大了。具體作者想到了如下幾方面：

實時交互性增強：這樣的響應(yīng)速度使得人機對話接近無縫對接，幾乎消除了傳統(tǒng)人工智能助手在處理請求和提供回復之間的感知延遲。用戶在與GPT-4o交流時，會感覺像是在與另一個真實人類進行自然流暢的對話，可以大大提升了交互的真實感和滿意度。
用戶體驗優(yōu)化：更快的響應(yīng)時間減少了用戶等待反饋的心理負擔，使得交流過程更加舒適和高效。這對于需要快速反饋的場景尤為重要，比如緊急情況下的信息查詢、即時決策支持或者快節(jié)奏的商業(yè)溝通。并且更加與人與人的交流相似了，想象一下我們在和朋友聊天的時候，一般不會等個3秒再說話吧?
應(yīng)用場景拓展：由于能夠?qū)崟r處理音頻、視覺和文本信息，GPT-4o打開了通往更多應(yīng)用場景的大門。例如，在客戶服務(wù)、教育輔導、遠程醫(yī)療、虛擬助理、游戲交互等領(lǐng)域，實時交互能力都是提升服務(wù)質(zhì)量和效率的關(guān)鍵。

專欄作家

杜昭，微信公眾號：AI與用戶體驗，人人都是產(chǎn)品經(jīng)理專欄作者，實戰(zhàn)派設(shè)計師，目前在某手機公司負責手機OS交互設(shè)計，所負責產(chǎn)品覆蓋用戶數(shù)億，主要研究AI與人機交互設(shè)計的融合及人因?qū)W對用戶體驗的影響。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。