機器能跟人類交流嗎?能像人類一樣理解文本嗎?這是人類對人工智能初的幻想。除了大家比較熟悉的感知智能(如圖像識別、語音識別)、行動智能(如機器人)外,語言智能(如自然語言處理)也是人工智能的核心領域之一。
(“圖靈測試”被公認為測試計算機是否具有智能的實驗,在這個實驗中,人和計算機的問答都是通過自然語言進行)
“理解自然語言”到目前為止還只是人類*的特權,因此如果語言智能實現突破,將會推動整個人工智能體系的進步。
其中,指代理解(coreference resolution)又是語言智能的核心問題之一。
指代理解是機器理解自然語言的關鍵
一篇文章在進行過程中需要描述不同實體間的關系,實體串聯起了文章各個句子的核心線索,因此做好指代理解是理解多句話和一篇文章的重點,也是更好地構造智能對話系統的基礎——機器才能理解《詩經》中的“君子”從一見鐘情到蠢蠢欲動到日思夜想的感情線索,你的siri也才有可能不止于跟你一問一答地單句聊天,而是更好地懂你。
比如,想要理解《詩經·關雎》的這些語言描述了什么場景、傳遞了什么情感,首先要理解各個“之”指的是什么。在上圖中,同種顏色標注的詞語指向同一個實體,指代理解就是要讓機器明白紅色的“之”不是指“雎鳩”“君子”“參差荇菜”“左右”等其它對象或文本,而就是“窈窕淑女”;藍色的“之”不是指“在河之洲”“君子”“窈窕淑女”等,而就是“參差荇菜”。
要是指代理解不給力,機器認為君子日思夜想的是關關和鳴的雎鳩,那故事的延續豈不就成了風流君子奏起琴瑟、敲起鐘鼓來取悅那對雎鳩?指代理解問題的探索突破則可以使得機器對不同事物間的指代關系有更加明確的理解。
依圖提出全新數據集探索指代理解問題
自然語言處理領域會議 emnlp 2018 不久前(10月31日-11月4日)在比利時布魯塞爾落下帷幕,依圖論文 preco: a large-scale dataset in preschool vocabulary for coreference resolution 被錄用為oral文章。在論文中,依圖提出了一個全新數據集 preco,用于探索計算機語言學的核心問題之一——指代理解,并宣布對外開放該數據集。
相較于現有數據集,preco 更能體現實體表示等指代理解涉及的核心困難。其數據規模約為目前常用指代理解數據集 ontonotes 的 10 倍,并標注出了所有無指代關聯的名詞短語。
(依圖在 emnlp 2018)
其實在 preco 之前,依圖已經耕耘自然語言處理領域多年,并將技術應用于智能醫療輔助診斷等方面。如今開放全新數據集 preco 則是希望能夠幫助更多研究者可以接觸和使用開源的數據集進行開發,切實提升算法優化的驗證效率,共同探索 ai 領域有價值的技術問題。
探索的動機源于對智慧無限的好奇,對依圖來說,preco 正是這種好奇推動下在自然語言處理領域的成果。愿與你分享這一份好奇。
彈性四氟帶都有哪些規格尺寸
數控彎管機哪家好,如何選擇
西門子ET模塊6ES7131-4FB00-0AB0代理商
帶壓封堵對環境絕不產生污染!
AI-Tek轉速表新型產品TACHTROL20
依圖在自然語言處理會議 EMNLP 2018 分享研究進展
A-10壓力變送器應用
GB 15811一次性注射針檢測儀原理
南昌PP007-WR-1探頭美國力科TeledyneLeCroy
液壓泵使用中的注意事項
樂鳥環保用電_利用大數據解決污染治理設施用電監管難題
河南帶式壓濾機的脫水有哪幾個階段?
QEY型漆膜粉化率測定儀說明書
橡塑保溫板的使用有何作用?
電火花成型和高速銑削的區別——日鑫火花機
批發生產經濟型簡單易操作全自動車床、數控車床
廠界VOC在線監測設備的原理、應用和發展方向分析
【補貼動態】渭南市、鹽城市、張掖市等地植保無人機購置補貼具體政策
多元素分析儀對測定含鎢鋼中磷要注意的幾個問題
土壤環境質量和重金屬污染評價