這兩天,全球規模最大的語義評測比賽 SemEval 2020 結果出爐,百度基于飛槳平臺自研的語義理解框架 ERNIE 一舉斬獲5項世界冠軍,囊括視覺媒體的關鍵文本片段挖掘、多語攻擊性語言檢測和混合語種的情感分析。
SemEval是全球范圍規模最大、參賽人數最多的權威語義評測競賽,由國際計算語言學協會(Association for Computational Linguistics, ACL)的 SIGLEX 主辦。自2001年起,SemEval已成功舉辦十四屆,在業界和學術界具有極高影響力。此次SemEval和自然語言處理領域的頂級會議COLING聯合舉辦。
ERNIE是此次五項世界冠軍背后的“趁手利器”。去年,ERNIE先后完成兩版重大升級。ERNIE 1.0提出知識增強的語義表示模型,而ERNIE 2.0則構建了持續學習語義理解框架,在中英文16個任務上超越業界最好模型。此后,ERNIE模型再次改進,以歷史上首次超越90大關的成績登頂自然語言處理領域最權威的GLUE評測榜單。本次比賽,ERNIE再度創新,再立戰功,奪得五項世界冠軍。
讓AI更懂“輕重”:視覺媒體的關鍵文本片段挖掘
該任務由美國休斯頓大學、Adobe美國研究院聯合舉辦,旨在自動挖掘海報、廣告、傳單等視覺媒體中文本的關鍵片段,對其進行重點設計,提升宣傳效果。由于人們對于同一文本重要內容的判斷不一致,在沒有唯一標準的情況下,該任務存在極大的難度。
百度ERNIE團隊采用多種技術手段解決這個難題:首先ERNIE模型作為語義信息提取模塊,對各片段重要性進行建模;然后針對關鍵片段標準不統一的問題,設計了更貼近目標的5 Label的Pairwise損失函數;最后從數據出發構造了多種針對性的語義特征以及數據增強策略,最終以5項指標全部第一的成績獲得冠軍。
比賽中,主辦方Adobe希望將賽題的解決方案應用于Adobe Spark,賦予其海報自動設計能力,以達到更好的宣傳效果。如下圖所示的“ERNIE”、“輕重”的黑白效果就是自動挑選的結果。百度ERNIE團隊采用ERNIE讓AI更懂文字的“輕重”,釋放廣大視覺設計者的勞動力,使其能夠更專注于對核心內容的設計。此外,該項技術已應用于百度搜索,能夠動態分析出用戶查詢內容中的重要片段,使其返回更精準的搜索結果,讓百度更懂您。
讓世界更有“AI”:多語攻擊性語言檢測
該任務由多個國家的研究機構聯合舉辦。其中包括了英國劍橋大學、美國IBM研究院、以及來自德國、丹麥、卡塔爾的多所著名大學和研究院。該任務包含了三個子任務:
第一個子任務是在對英語、丹麥語、希臘語、阿拉伯語和土耳其語等包含五種語言的社交媒體進行攻擊性檢測。百度ERNIE團隊構建了大規模的多語預訓練模型,充分挖掘海量的多語無監督文本,用相同的模型來學習所有語種的語義表示,使模型具備跨語言的理解和分析能力。同時,采用Multi-lingual Fine-tuning的方法,利用其他語言的知識輔助建模,最終以五項語言平均分第一名的成績取得冠軍。
另外兩個任務是在英語環境中對攻擊性語言的類型和目標分別進行更加精細化的分析。百度ERNIE團隊通過數據蒸餾的技術,從更多無監督的網絡文本中學習多種模型的Soft Label,分別以F1超過第二名1.0%和4.4%的絕對優勢取得了冠軍。
隨著網民人數的不斷增加,網民態度立場不同、文化水平及道德素質參差不齊的狀況便擺在我們面前。網絡暴力和網絡人身攻擊現象由此而生。政府、社交網站、搜索引擎、興趣社區都在大力研究如何檢測出社交媒體攻擊性行為,幫助人們構建一個更加和諧友愛的網絡環境。百度的研究者也希望通過這一技術,能夠讓世界充滿“AI”,少一些偏見。
讓AI更有情感:混合語種的情感分析
該任務的主辦方包括谷歌研究院、美國休斯敦大學以及印度的多所高校等。在比賽中,主辦方搜集了源于社交網絡的語料片段,測試參賽者對于相關語料片段的情感分析能力。這些語料中都包含一種特殊的語言現象:語碼混用——即一段語料中同時混有多種語言。主辦方致力于探索時下的 AI 技術對于這一類新問題的解決能力。
不同于傳統的情感分析,隨著互聯網上的內容越來越豐富,夾雜著不同語種的內容不斷產生。這些內容中可能混合著中文、英文等多種語言。針對此類文本內容,傳統的基于單語語料的情感分類模型已經無法發揮作用。針對此問題,百度的研究者首先利用ERNIE進行Zero-Shot情感分類。為了充分利用多語種語料的信息,還引入了基于對抗學習的多語種模型,進一步提升了多語種情感分析的效果。最終在印度語/英語混合任務上以F1值超過第二名 1.9% 的絕對優勢獲得第一。
隨著AI技術日新月異的發展,已經逐漸的走進千家萬戶。在解決日常生活需求之余,讓AI可以更通情達理、更知性,并感知用戶的喜怒哀樂、提供貼心的服務,也是一個有溫度的AI應該達成的目標。百度始終希望通過AI讓復雜的世界有更多的貼心。
百度ERNIE團隊在SemEval 2020取得五項世界冠軍并非偶然,這得益于團隊在語義理解領域的深厚積累。目前,ERNIE語義理解技術已廣泛地應用于百度內外多個產品和技術場景,在百度搜索、小度音箱、信息流推薦等一系列產品應用中發揮了重要作用,大幅提升了產品的技術效果和用戶體驗,逐步賦能各行各業。
賦予機器“認知”能力,是人工智能中最具挑戰的問題。自然語言處理是認知智能中的重要領域。深入理解語言,讓機器具備人類的思考和理解能力意義重大。百度在自然語言處理領域已有二十年的積累與沉淀,具備了最前沿、最全面、最領先的技術布局,不僅專注于前瞻技術探索,更致力通過技術應用解決實際問題。(一鳴)
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2020 By All Rights Reserved 豫ICP備20023378號-15 營業執照公示信息
聯系我們: 98 28 36 7@qq.com