為什麼計算機的閱讀能力不如人類?

時間:2019-03-22

目前人工智能正迅速發展,媒體們幾乎每天都在報道新的突破。

2017年,計算機和棋盤遊戲是公眾關注的焦點;2018年初,微軟和阿里巴巴聲稱已經開發出可以像人類一樣閱讀的軟件。聳人聽聞的頭條新聞緊隨其後。美國有線電視新聞網(CNN)寫道,“現在計算機的閱讀能力比人類強”,而《新聞週刊》則擔心“如今計算機的閱讀能力比人類強,這會使數百萬的人面臨失業的危險”。

但現實並沒有那麼嚴重。

SQuAD

每個人工智能挑戰都需要一個新奇的名稱。斯坦福問答數據集SQuAD是問答(QA)取得新突破背後的催化劑。

SQuAD彙集了超過10萬個與維基百科上的數百篇文章相關的問題和答案。例如一系列與石油危機相關的問題:1973年的石油危機始於何時?(1973年10月),或者1974年3月的石油售價是多少?(12美元)。

研究者利用80%的這些問題來訓練問答模型。在訓練過程中,這些軟件會學習如何發現文本中的答案,並找出各種疑問詞之間的的區別,例如“何處”與“何時”。之後,再對沒有看過的剩下20%問題進行評估。

一個源於SQuAD數據集的維基百科段落,附有問題與相應答案。

在自然語言處理領域,SQuAD已迅速成為一種極具影響力的數據集,因為它使AI研究者們能夠客觀地評估軟件,並對彼此的系統進行比較。

自2016年發佈以來,自然語言處理(NLP)對問答系統的開發興趣與日俱增,這並非偶然。不過,我們不能高估已經取得的進步。實際上,一個問答軟件在SQuAD數據集中的維基百科問題上取得高分,比你想象的更加容易。

首先,SQuAD文本閱讀理解挑戰實際上並沒那麼難。參與問答系統的維基百科段落,每個問題都肯定有一個答案。這極大地簡化了挑戰:該項任務為識別最有可能構成問題答案的詞語,而非完全翻譯一個段落。這在許多情況下十分簡單。例如當問題以“何處”發問時,段落中只有一處地點,答案就幾乎不會出錯。實際上,參與的問答系統不必搜索相關維基百科段落。有些系統可以做到這一點,但在SQuAD測試中得分更差一些。

目前,兩個問答系統在SQuAD得分榜上並列第一。

其次,人類在SQuAD上的得分(正確率為82.3%)毫無疑問表明了我們對現實的低估。這些人類的數據通過亞馬遜土耳其機器人網站獲取,在該網站上,人們通過完成簡單的任務來獲取報酬。由於做任務只能獲得很少的錢,因此所謂的“土耳其人”通常工作迅速而草率。此外,他們大多數的“錯誤”都並非是不正確答案。

通常在這些情況下,一個土耳其人的答案會剛好比他的同事多或少一兩個單詞。如果一個人對此前的石油價格題目的回答是大約12美元,而其他所有人的回答都是12美元,那麼第一個答案就會被視為不正確。與信息不足的Turker相比,競爭激烈的問答軟件知道Turkers通常如何選擇他們的答案:因為在培訓過程中已見過數千個例子。

問題回答

即使目前問答系統無法超越人類,但必須承認,它們在閱讀測試中仍取得了令人印象深刻的83%的正確率,這個戰績可以視為其智力的證明。但我們不應過多將智力歸功於軟件。雖然個體之間確實存在差異,諸如微軟和阿里巴巴的現代問答系統卻很難翻譯一篇文章。相反地,它們都非常依賴複雜的模式匹配。

SQuAD數據集中有關石油危機的維基百科段落,以及阿里巴巴模型匹配的答案。

當搜索問題的答案時,現代問答系統首先嚐試找到問題與其所在維基百科段落之間的對應關係。這對於像”1973年石油危機何時開始”的問題而言,並不是很困難。通過搜索包含1973、石油危機,開始等詞彙,軟件會迅速找到上文段落中的正確句子。疑問詞“何時”提供了最後一塊拼圖:通過訓練數據,軟件已經掌握到“何時”問題總把時間作為答案。因此,它選擇相關句子中的唯一時間(1973年10月)作為正確答案回答問題。

以上例子中的第二個問題(1974年3月的石油價格是多少?)顯示出這個方法的侷限性。通過查找價格、石油、三月和1973年等詞彙,軟件仍能找到正確的段落。但有趣的是,這個句子包含兩個有可能性的價格:3美元一桶或者12美元。因為問答軟件並不解釋句子,僅是通過模式匹配。現在這個問答系統選擇其看到的第一個價格:3美元一桶。SQuAD數據集的頁面顯示,微軟和阿里巴巴系統都提出了這個錯誤答案。實際上,缺乏翻譯是當前所有問答系統的根本性缺點。

業務單一

大多數現存的人工智能系統都是單一業務。如果它們已在一個特定任務或者一個特定文本類型訓練,通常無法處理其他領域的問題。接受過維基百科訓練的問答軟件,大多無法回答其他類型文本的問題,比如法律文件或者科普類文章。要做到能夠回答問題,需要查看該特定領域成千上萬個問題和答案。收集這樣的訓練數據價格昂貴,也是一個難以完成的任務。

當前問答系統的狹隘觀點甚至比這更糟糕。去年夏天,斯坦福大學的兩名研究人員展示了欺騙針對SQuAD訓練的問答軟件是多麼容易:通過修改維基百科上的一些細節,他們成功地大幅降低了最好系統的質量。

添加一個含有可能答案的句子,問答軟件便開始猜測。

石油價格的例子已經彰顯了目前問答軟件的主要弱點:如果維基百科的段落包含幾個可能的答案,即使是最好的問答系統也開始猜測。同樣的問題在上圖超級碗的例子中也可以找到:如果只是在文本中添加一個額外的四分衛,系統將無法辨別在第33屆超級碗大賽期間,哪個選手剛好是38歲。

更糟糕的是,如果你在文章中添加一個與正確答案模糊相關,但不符合語法的單詞序列,即使是最好的問答系統,其答案正確率也低於10%。而人類就能更好地應對這種誤導性情況。

結論

有一點可以明確:計算機要像人類一樣閱讀,仍有很長的路要走。不過,最近的問答系統的發展前景很好——或者如果你害怕長期失業的話,這種發展甚至是令人畏懼的。畢竟,我們有多少次遇到非結構性集合文本呢?法律文件、科學文獻,甚至希拉裡克林頓的郵件——都有數百或數千頁有趣內容,但無人可以從頭讀到尾。

如果問答軟件可以回答我們有關它們自身的所有問題,那不是很好嗎?然而,真正的突破只在問答系統擺脫對昂貴訓練數據的依賴時才會出現。

當問答系統可以不用首先查看成千個類似例子,直接回答一個新領域的問題時才算正真的突破。這種稱作“無人監督”方法的成功,無疑預示著人工智能的一場新革命。但我們現在還未到達那裡。

相關推薦


計算機產業迎政策紅利

新華社北京9月11日電(記者郭倩 謝櫻)《經濟參考報》9月11日刊發題為《計算機產業迎政策紅利》的報道。文章稱,計算機產業發展迎來央地新一輪政策加碼,鼓勵外資企業在華佈局成為重要發力點。

財經 72評論

2019-09-11






2018-12-14