ChatGPT與圖靈測試

ChatGPT已成功通過圖靈測試,7月25日,《Nature》雜志在一篇文章中宣布,這標志著人工智能評估領域即將迎來新的變革。自2022年底OpenAI推出ChatGPT以來,人工智能技術便在全球范圍內掀起了一場革命性的風潮。這場風潮的強勁勢頭,一方面源于ChatGPT在技術層面的重大突破,另一方面則得益于其在應用端為普通人所帶來的直觀體驗。正因如此,我們與埃隆·馬斯克產生了相同的感慨:ChatGPT的強大能力,令人驚嘆。

? 圖靈測試的歷史背景

圖靈測試作為衡量AI智能的標準在ChatGPT出現前倍受關注。圖靈測試,這個在1950年被提出的概念,逐漸成為了衡量AI智能程度的重要標準,甚至被視為唯一標準,吸引了眾多追隨者。然而,隨著人工智能領域的不斷發展,尤其是對話機器人技術的突飛猛進,圖靈測試的局限性也逐漸顯現。每當人工智能領域取得新的進展時,都會面臨圖靈測試的嚴峻挑戰,甚至在某些情況下,新的技術進展反而因為無法通過圖靈測試而黯然失色。這使得“圖靈測試”在一定程度上成為了一個神話,甚至被視為束縛AI發展的魔咒。

? ChatGPT引領的變革

ChatGPT通過圖靈測試標志AI新時代的到來。然而,智能的定義并非一成不變。在ChatGPT引領的新時代下,我們有必要重新審視智能的概念。盡管圖靈測試在歷史上曾發揮過重要作用,但如今它已經無法適應人工智能領域的發展需求。因此,我們需要尋找新的評估標準和方法來更全面地衡量AI的智能水平。


GPT-4的突破與評估

2023年3月14日,GPT-4驚艷亮相,這款具備多模態能力的新一代AI模型,在發布后便引起了廣泛關注。GPT-4不僅在多項人類專業測試中表現出色,甚至通過了律師考試。

? GPT-4的能力展示

GPT-4展現卓越的多領域能力。據報道,GPT-4不僅在多項人類專業測試中表現出色,甚至通過了律師考試,更令人矚目的是,它還成功通過了一些經典心理學測驗,展現出了相當于9歲兒童的心智水平。這一系列的成就,使得人們開始期待:ChatGPT何時能迎來圖靈測試的突破?

? 基準測試的局限性

盡管GPT-4在考試中表現優異,但這些測試未能反映其真實智能。值得注意的是,LLMs在考試題上的成功可能并不穩固,可能無法轉化為解決現實世界問題的強大能力。Mitchell表示,通過稍微修改考試題目,就有可能讓LLM不及格。她以工商管理碩士研究生的考試問題為例,稍作修改后,ChatGPT便無法正確回答。因此,能夠回答原始問題的人,同樣能夠應對重新措辭的問題。但ChatGPT卻未能通過這一挑戰。

對于人類來說,在這些標準化考試中取得優異成績確實是一個可靠指標,表明其具備一定的通用智力。然而,對于大型語言模型(LLMs)而言,情況卻大相徑庭。米切爾指出,LLMs的工作方式與人類截然不同,因此,我們對人類的推理方式的推斷并不總是適用于這些人工智能系統。