前天半夜ChatGPT-4o的發(fā)布會應(yīng)該未來幾天AI圈子最有熱度的話題了,其中幾條更新其實可以從人機交互的角度解讀一下。 首先我們還是先來看看GPT-4o更新的主要內(nèi)容(只關(guān)注交互角度解讀可跳過):
這其中的第1、2、3、5點都可以從人機交互的角度聊一聊。 第1點:多模態(tài)交互能力今天作者也看了一些寫GPT-4o更新的文章,有些人僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實在太小看多模態(tài)交互能力了。 要知道,人類通過文字表達和聲音表達,即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息,而聲音包含更多維度的信息。例如語音、語調(diào)、音量、語速、停頓、重音等等。 同樣是【你好】,文字只能表達1種含義,而聲音可能能表達4-6種。對于程序來說,多模態(tài)交互意味著從更多來源獲得信息(指視、聽、文、環(huán)境等來源)。也意味著獲得更多信息(例如剛剛所說的聲音維度的語音、語調(diào)、音量、語速、停頓、重音)。 從多來源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過程,更快速的給與用戶回復。這就像是用戶自動的把提問描述的更詳細了,把自己的要求說的更清楚了,如此一來GPT給與反饋的速度和質(zhì)量自然會有對應(yīng)的提升。(當然同樣也有模型方面帶來的提升) 除了聲音之外,GPT-4o的多模態(tài)交互能力還包括視覺理解能力,例如能識別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說的從更多來源獲得信息以及獲得更多信息。 以上是多模態(tài)交互能力中,人向GPT輸入過程中的意義,那么對于人機交互的另一部分:GPT向人輸出的階段,同樣意義非凡。 GPT-4o可以根據(jù)需要以最合適的模態(tài)進行回應(yīng),在之前GPT只能以文字進行回復,但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場景以及對無障礙交互的包容。圖像的意義就不用多說了吧,無論是取代了命令行界面的圖形化界面,還是你晉升答辯時準備的PPT,都能體現(xiàn)圖像相對于文字的優(yōu)勢。 第2點:自然語言理解能力提升如果說多模態(tài)交互能力代表了輸入和輸出這兩個階段。那自然語言理解能力就代表了【處理】這個階段。當GPT從多來源獲得信息后,下一步就是理解這些信息,理解過后才能給出回復信息。自然語言理解能力的提升意味著GPT-4o對用戶意圖的識別更加準確了。那么自然后續(xù)回復的內(nèi)容、回復的模態(tài)都會有更高質(zhì)量的結(jié)果。 第3點:上下文長度增加這一點的意義首先體現(xiàn)在長篇對話上,我們可以類比人與人之間的交流方式,兩個相識了多年的朋友,可能他們一句很短的對話就可以包含非常大的信息量,例如:
這句話本身沒提及但張三和李四都能理解的信息可能有: 如果想清晰的表達以上的1、2、3包含的具體信息,可能需要上千字或十分鐘的對話才能說清楚,但由于這些信息都已經(jīng)被儲存在人的記憶中,兩人在交流的過程中就可以省略很多詳細的描述和前置條件,用一句話表達大量信息。 對于GPT-4o而言,可記憶的上下文長度增加就意味著他變成了一個對你更熟悉的程序,所以當用戶與GPT-4o交流時,就可以像張三和李四交流那樣使用更少的信息交流更多的信息,同時能夠保障交流質(zhì)量。 要注意的是,剛剛我使用了對你更熟悉的程序這樣的描述,而不是對你更熟悉的朋友這樣的描述,這里面關(guān)鍵的區(qū)別有兩方面,第一方面是所謂的上下文長度,可以類比人與人相識的時間和交流的信息總量、了解程度。第二方面是 我們可以暢想一下,如果現(xiàn)在的新生代兒童從很小的年齡就開始使用AI工具,并且AI工具附著在便攜式智能設(shè)備上,以多模態(tài)與用戶同時感知周圍環(huán)境,再加之GPT-4o的可貫穿數(shù)十年的可記憶上下文長度。這樣的AI可能會成為用戶最熟悉的朋友,甚至遠超父母、家人。如果再給與這個AI相應(yīng)的硬件,那幾乎可視為智械族了~ 第5點:DALL·E 3.0功能文生圖能力以及對圖片的智能編輯能力已經(jīng)是很多其他產(chǎn)品早已具備的了,不過GPT-4o這次更新幫助用戶節(jié)省了之前都是由用戶操作的不同數(shù)據(jù)類型轉(zhuǎn)化的操作,改為由GPT-4o代替,對用戶來說 同樣是操作效率的提升。就像我們之前如果在某張圖片上看到了一個新概念,那可能需要用打字或ocr的方式將圖片轉(zhuǎn)化成文字再繼續(xù)使用。而GPT-4o以后將為用戶省掉這個過程。 其他的像創(chuàng)意工作、廣告制作、產(chǎn)品設(shè)計、教育演示等方面的意義就不再多說,市面上已經(jīng)有很多類似的產(chǎn)品了。 在整個發(fā)布會之中,還有一個令用戶們wow的點是GPT-4o的響應(yīng)時間僅為232毫秒(平均320毫秒),幾乎達到了與人類實時對話的水平,顯著優(yōu)于前代模型的延遲表現(xiàn)。 其實我們可以從以上的解讀中思考一下,為什么GPT-4o的響應(yīng)時間得到了如此大的提升?
綜合以上3點提示再加上本身模型能力的提升,GPT-4o的響應(yīng)時間達到232毫秒也就容易理解了。 當GPT-4o的響應(yīng)時間達到了人類與人類對話的水平時,很多應(yīng)用場景的想象空間就更大了。具體作者想到了如下幾方面:
專欄作家 杜昭,微信公眾號:AI與用戶體驗,人人都是產(chǎn)品經(jīng)理專欄作者,實戰(zhàn)派設(shè)計師,目前在某手機公司負責手機OS交互設(shè)計,所負責產(chǎn)品覆蓋用戶數(shù)億,主要研究AI與人機交互設(shè)計的融合及人因?qū)W對用戶體驗的影響。 本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來自 Unsplash,基于 CC0 協(xié)議。 該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。 |