有害的內(nèi)容可以迅速發(fā)展——無論是由當前的事件推動的,還是由尋找新方法來逃避我們系統(tǒng)的人推動的——而人工智能系統(tǒng)與之一起發(fā)展,至關重要 。然而,人工智能要學會如何去尋找,往往要花上數(shù)月的時間,才能收集并標記數(shù)以千計,甚至數(shù)以百萬計的必需實例 , 以便讓每一個人工智能系統(tǒng)都能發(fā)現(xiàn)一種新類型的內(nèi)容 。
為了克服這一瓶頸 , 我們構建和部署了一種名為 Few-Shot (FSL)的新型人工智能技術 , 它能夠在數(shù)星期之內(nèi),而非數(shù)個月之內(nèi),針對新的或者不斷變化的、有害的內(nèi)容類型采取行動 。它不但可以用于 100 多種語言,還可以從各種數(shù)據(jù)中學習,比如圖像和文本 。它可以加強已部署的現(xiàn)有人工智能模型 , 從而檢測其他類型的有害內(nèi)容 。
這種新的人工智能系統(tǒng)使用了一種相對較新的方法,稱為“小樣本學習”(few-shot ),即模型通過大量的、一般性的理解,再通過少量的、在某些情況下為零的標記樣本,來學習新任務 。如果說傳統(tǒng)的系統(tǒng)類似于可以釣上某種魚類的魚線,那么 FSL 就是一張額外的漁網(wǎng),可以捕撈其他魚類 。
近來的科技突破,例如我們的自監(jiān)督學習技術以及新型超效率的基礎設施,使得這個領域從傳統(tǒng)的、定制的人工智能系統(tǒng)轉向更大、更綜合、更通用的系統(tǒng),減少對標記數(shù)據(jù)的依賴 。首先,它從數(shù)以十億計的通用和開源語言樣本上進行訓練 。接著,我們用多年來標記的違反策略的內(nèi)容和邊界內(nèi)容對人工智能系統(tǒng)進行了訓練 。最后,對解釋新策略的壓縮文本進行了訓練 。與以往依靠標記數(shù)據(jù)進行模式匹配的系統(tǒng)不同,F(xiàn)SL 是基于通用語言以及違反策略和邊界內(nèi)容語言進行預訓練的,因此它可以隱式地學習策略文本 。
我們已經(jīng)在一些相對較新的事件上測試了 FSL 。舉例來說 , 最近的一項任務就是,識別分享誤導性或聳人聽聞的信息的內(nèi)容,其方式很可能會阻止新冠肺炎疫苗的接種(例如,“疫苗或 DNA 改變器?”) 。在另一項獨立的任務中,新的人工智能系統(tǒng)對現(xiàn)有的分類器進行了改進 , 標記出接近煽動暴力的內(nèi)容(例如,“那家伙需要所有的牙齒嗎?”) 。傳統(tǒng)的方法可能會漏掉這類煽動性帖子,因為沒有太多標記的樣本使用 DNA 的語言來制造疫苗恐慌,或者引用牙齒來暗示暴力 。
為了測量這個模型的性能,我們制定了一個標準的離線和在線 A/B 測試協(xié)議 。這些測試中 , 在和上應用 FSL 前后,我們對有害內(nèi)容的流行率(即人們看到的違規(guī)內(nèi)容的瀏覽比例)進行了研究 。Meta AI Few-shot可以準確地檢測那些在傳統(tǒng)系統(tǒng)中漏掉的帖子,并且有助于降低這類有害內(nèi)容的流行 。它通過主動檢測潛在的有害內(nèi)容 , 從而阻止其在我們的平臺上擴散 。我們也發(fā)現(xiàn),F(xiàn)SL 與現(xiàn)有的分類器相結合,有助于降低諸如仇恨言論等其他有害內(nèi)容的泛濫 。
我們還在做更多的實驗,來改善能夠從更多標記的數(shù)據(jù)中獲益的分類器 , 例如,在沒有大量標記訓練數(shù)據(jù)的語言的國家中,我們會繼續(xù)對這些新的違反內(nèi)容模式進行測試 。當然 , 這些都是智能、通用的人工智能的雛形 。
在人工智能可以讀懂幾十頁的策略文本,并且立刻就能明確地了解它的具體實施方法之前,要實現(xiàn)這一目標,任重而道遠 。我們一直在推動人工智能技術的發(fā)展,并盡快進行部署,以更好地服務于我們的社區(qū),我們相信 FSL 將會是一個非常有前途的發(fā)展 。
引擎蓋下的小樣本學習
Few-Shot是一個大規(guī)模、多模態(tài)、多語言、零樣本或小樣本的模型,可以理解聯(lián)合策略和內(nèi)容,可以在不調(diào)整模型的情況下,對完整性問題進行概括 。我們正在積極開展研究,以訓練使用簡單的策略語句而非數(shù)百個有標記的樣本的模型 。
我們的新系統(tǒng)在三種不同的場景下工作,每個場景都需要不同級別的標記的樣本:
FSL 的整體投入由三部分組成 。首先,在我們以前使用整帖的完整性嵌入(Whole Post,WPIE)的工作基礎上,它從整個帖子中學習多模態(tài)信息,包括文本、圖像、URL 等 。第二 , 它分析與策略相關的信息,如策略的定義,或表明某一特定帖子是否違反該策略定義的有標簽的樣本 。第三,如果有的話,我們還采取額外的標記樣本作為示范 。
作為我們的新方法的一部分 , 即所謂的Few-Shot游戲開發(fā)中的人工智能pdf,其關鍵思想是將類別標簽轉換成可用于描述標簽的自然語言句子 , 并確定該例子是否蘊含標簽描述 。例如,我們可以重新表述一個明顯的情感分類輸入和標簽對 。
[x : “我愛你的種族 。JK 。你們都應該去死 ?!眣 : 積極] 作為下面的文本蘊含樣本:
[x : 我愛你的種族 。JK 。你們都應該去死 。這是仇恨言論 。y : 積極] 。
【詳解 Facebook AI 小樣本學習技術突破 FSL,學習的類人人工智能邁進】我們將我們提出的方法與目前已有的一些最先進的小樣本學習方法進行了比較 。經(jīng)過一系列的系統(tǒng)評估,我們發(fā)現(xiàn)我們的方法比各種最先進的小樣本學習方法高出 55%(平均為 12%) 。在這里: ,可以閱讀我們研究論文的全部細節(jié) 。
彌合策略創(chuàng)建和機器學習驅動的自動執(zhí)行之間的差距
我們相信,隨著時間的推移,F(xiàn)SL 可以提高我們所有的完整性人工智能系統(tǒng)的性能 , 讓它們利用單一的、共享的知識庫和主干來處理許多不同類型的違規(guī)行為 。但是,它也可以幫助人們在策略、標簽和調(diào)查工作流方面 , 彌補人類洞察力和分類器進步之間的差距 。
FSL 可用來檢測出一組新的可能的策略違規(guī)行為,并理解所提出的定義的合理性和有效性 。它投下了一張更廣泛的網(wǎng) , 浮現(xiàn)出更多類型的“幾乎”內(nèi)容違規(guī),策略團隊在決定或制定訓練新分類器的注釋者 , 以及幫助保持我們平臺安全的人類審查員的規(guī)模指導時,應該了解這些內(nèi)容 。由于它擴展迅速,從策略制定到執(zhí)行的時間將縮短幾個數(shù)量級 。
向能更有效學習的類人人工智能邁進
能夠迅速開始對沒有大量標記的訓練數(shù)據(jù)的內(nèi)容類型進行強制執(zhí)行是向前邁出的一大步,這將有助于使我們的系統(tǒng)更加靈活,并對新出現(xiàn)的挑戰(zhàn)作出反應 。
小樣本學習和零樣本學習是我們一直在進行重大研究投資的許多前沿人工智能領域之一 。而且我們沒有看到對生產(chǎn)管道的研究放緩的跡象 。我們正致力于一些重要的開放研究,這些研究問題不僅要了解內(nèi)容游戲開發(fā)中的人工智能pdf,還要從文化、行為和對話環(huán)境中推理 。
雖然還需要完成大量的工作,但是,這些初期的生產(chǎn)成果已經(jīng)成為了一個具有里程碑意義的標志 , 它將會向一個更智能、更通用的人工智能系統(tǒng)過渡,能夠在同一時間內(nèi)完成多種任務 。
我們的長遠目標是,實現(xiàn)類似人類的學習靈活性和效率性 , 讓我們的完整性系統(tǒng)更快、更容易訓練,并能更好地處理新信息 。像 Few-Shot這樣的可教人工智能系統(tǒng)可以大幅提高我們檢測和適應新情況的能力的敏捷性 。通過更快、更準確地識別不斷演變的有害內(nèi)容 , FSL 有望成為一項關鍵的技術,幫助我們繼續(xù)發(fā)展和解決我們平臺上的有害內(nèi)容 。
原文鏈接:
本文到此結束 , 希望對大家有所幫助 。
- 抖音小店如何盈利并吸引優(yōu)質達人助力推廣
- 抖音小店如何提高客戶滿意度,助力店鋪發(fā)展
- 《銀翼殺手2049》的K警官,像《人工智能》里尋找藍公主的小男孩
- 抖音小店怎樣通過補銷量提高直播數(shù)據(jù)
- 鞋子里面掉色急躁無比?幾個小秘訣教你輕松防鞋子掉色
- 家里門廳太小鞋子沒地可放?只需三招,再也不用糾結鞋子放哪了!
- 小學生化身“小交警” 小體驗感受大責任
- 抖音小店新手如何充分利用扶持期提升店鋪銷量
- 全球首個多語種AI虛擬主播小晴驚艷亮相
- 超實用小程序之「AI人工智能」,趕緊轉發(fā)吧!
