GPT-4讓AI更加具有像人一樣的能力,AI生成的文本的流暢度也令人驚嘆,越來越難以辨識。在這一背景下,AI檢測文本工具可以通過對生成文本進行追蹤和檢測,來識別文本是否由AI生成,這也成為防止大型AI語言模型用于作弊等行為的利器。
(資料圖)
日前,復旦大學自然語言處理實驗室推出了一款用于AI生成文本檢測的測試軟件“諦聽”(英文:Sniffer),基于黑盒假設,無需大規(guī)模監(jiān)督訓練,就能檢測AI生成的文本。據該軟件的英文版本介紹,對于ChatGPT生成文本的檢測率達到80%左右。
實驗室負責人邱錫鵬教授3月16日晚間在微信朋友圈上表示:“后續(xù)將會在MOSS語言模型開源后,將Sniffer與MOSS進行聯(lián)動,構成一對矛與盾,相互提升,繼續(xù)探索大模型的新技術。”
上個月,邱錫鵬告訴第一財經記者,如果優(yōu)化順利,MOSS將于3月底開源。團隊表示,未來“諦聽”軟件工具還將支持GPT-4等更多大模型等檢測,并在檢測性能提升后整理公開模型。
不過團隊坦言,由于“諦聽”的模型是建立在“黑盒假設”下,因此對于輸入文本的來源模型并不知曉,而且與監(jiān)督訓練的分類器相比 ,將僅使用少部分數據進行訓練。
值得注意的是,測試集的檢測結果顯示,該模型中文檢測的準確率低于英文,因此中文檢測結果還需要進一步提升。
根據“諦聽”的英文版介紹,在保留的測試集上檢測結果顯示,識別ChatGPT生成文本的成功率在80%左右,識別人類書寫文本或GPT-2生成文本的成功率高于90%;非常短的文本(50個單詞或更少)很難被檢測到。此外,英文人工編寫的示例文本來自維基百科。
“諦聽”英文檢測結果分為四類:來自人類; 來自人類、但可能有大模型如GPT-3輔助;來自GPT-3模型;來自GPT-2模型。
“諦聽”中文版的檢測結果分為三類:一是“文本是人寫的”、二是“文本是人寫的,但是也很可能包含AI參與”、三是“文本是出自于AI模型的”。
3月17日,邱錫鵬對第一財經記者表示:“對ChatGPT級別的中文檢測準確率目前只有約40%,不過對于小模型(3B左右的開源GPT-2模型)生成的準確率可以達到90%左右。”
他解釋稱,中文檢測的準確率低于英文有幾個原因。“首先是英文采用的wikipedia數據集進行特征提取,因此覆蓋面更廣,中文選擇的數據質量差一些,這也是我們發(fā)布beta測試并且正在改進的地方;第二個是中文大模型的tokenizer(分詞器)差異會大一些。”邱錫鵬說道。
他還表示,關于生成文本檢測,國外有一些已經發(fā)布的產品,對比下來,針對GPT-2級別的模型,準確率比較高,針對GPT-3級別的模型,檢測結果還比較差。
“一方面是這些模型是黑盒,我們的掌握信息有限,另一方面是這些模型生成質量很高,多樣性也很好,尤其是GPT-4出現(xiàn)以后,相比于GPT-3.5,檢測難度進一步增加了。”邱錫鵬對第一財經記者表示,“總而言之,在大模型時代,文本檢測的機器評測準確率仍然較低,還需要進一步的研究。”
目前的AI文本檢測方式大致可分為兩類:黑盒假設和白盒假設。所謂的“黑盒假設”對大型語言模型通常只有API級別的訪問權限。因此,這類方法依靠于收集人類和機器的文本數據樣本來訓練分類模型;“白盒假設”擁有對大型語言模型的所有訪問權限,并且可以通過控制模型的生成行為或者在生成文本中加入水印(watermark)來對生成文本進行追蹤和檢測。
在實踐中,黑盒檢測器通常由第三方構建,例如較為著名的GPTZero,而白盒檢測器通常由大型語言模型開發(fā)人員構建。不過由于“黑盒假設”在數據收集的過程中很容易引入偏見(biases),這些偏見常常會被黑盒分類器作為分類的主要特征。而隨著大型語言模型能力的提升,大型語言模型生成的文本和人類的差距越來越小,這會導致黑盒模型的檢測準確性越來越低
此外,對于黑盒檢測,用戶可以微調他們的模型,改變模型輸出的風格或者格式,從而導致黑盒檢測無法找到通用的檢測特征。
復旦大學的語言模型MOSS自上個月推出以來備受各界關注。邱錫鵬認為,國外開發(fā)者不太可能以中文為主去發(fā)展他們的模型,中國要想開發(fā)一個大型語言模型的基座,用于國內的信息處理,就必須建設一個中文能力非常強的大型語言模型。
除了復旦大學之外,包括百度、阿里巴巴在內的中國互聯(lián)網巨頭以及初創(chuàng)公司也都在開發(fā)基于AI的大模型技術。
關于我們| 聯(lián)系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2020 By All Rights Reserved 皖ICP備2022009963號-10
聯(lián)系我們: 39 60 29 14 2@qq.com