由圖可見,系統在開始設定一個故事開頭,后面的內容則基于GPT 2.0一個單詞一個單詞生成,再自動生成故事內容 。其生成模式是:單詞的連環預測,即如果你能預測一個句子中的下一個單詞,你就能預測這個單詞的下一個、下下一個……很快就能掌握很多單詞 。如果語言模型足夠優秀 , 這些單詞還能組成意思通順的句子 , 然后組成連貫的段落 。而這些段落則可以組成任何你想寫的東西 。
GPT-2不是一次基本算法的突破,而是一次參數累計的壯舉 。它擁有多達15億個參數(這比原始GPT的參數多了15倍),并接受了來自800萬個網站的文本訓練 。國內網友調侃,不知道GPT-2編起故事來會不會比高鶚還優秀 , 《紅樓夢》可以考慮出個AI續寫版 。
如何理解一個擁有15億參數的模型呢?或者視覺化會有所幫助 。
可視化GPT-2
由于擔心惡意使用,并沒有發布完整的GPT-2模型,但他們還是發布了一個與原始GPT規模相當的縮小版本(擁有1.17億個參數) , 已發布的新模型接收了更新更大的數據集訓練 。
雖然縮小版本沒有完整版模型那么強大 , 但是它仍保留了一些語言生成的痕跡 。讓我們看一看視覺化能否幫助我們更好地了解這個模型 。你可以通過Colab 或者直接從 repo創建以下視覺化模型 。
一個說明性的例子
讓我們看一看GPT-2的縮小版模型是如何完成這個句子的:
船上的這只狗跑了(The dog on the ship ran)
以下是這個模型生成的句子:
船上的這只狗跑掉了,然后被船員發現了 。(The dog on the ship , and the dog was found by the crew.)
現在我們稍稍改變一下這個例子,將狗換成摩托車,看一看這個模型會生成什么樣的句子:
船上的這輛摩托車奔馳著(The motor on the ship ran)
現在看一看模型生成后的句子:
船上的這輛摩托車以100英里每小時的速度奔馳著 。(The motor on the ship ranat a speed of about 100 miles per hour.)
通過改變句子開頭的一個單詞,我們就能得到一個完全不一樣的結果 。這個模型似乎明白,跑著的狗和奔馳著的摩托車是兩種完全不同的類型的“跑”() 。
GPT-2是如何知道要密切狗和摩托車的區別,尤其是當這兩個單詞都出現在句子前端的時候呢?其實,GPT-2是基于實質為注意力模型的上運行的 。該模型可以學習那些與當前任務最為相關且先出現的單詞,然后預測這個句子中的下一個單詞 。
讓我們看一看在“船上的這只狗跑了”(The dog on the ship ran)這句話中 , GPT-2的點在哪里 。
【如何看待智能寫作?人工智能會超越人類嗎?】從左到右看,這些線條反映了GPT-2在猜測一個句子中下一個單詞時的點(顏色越深代表度越高) 。因此,在猜測“跑”的下一個單詞時 , 這個模型密切“狗”這個單詞 。這就說得通了,因為知道誰或什么在跑對于猜測后面的單詞至關重要 。
用語言學術語來說,在“船上的狗”這一名詞短語中,該模型側重于它的中心詞(head) 。GPT-2還體現了很多其他語言學屬性,畢竟上述的注意力模式只是該模型144種注意力模式中的一種 。GPT-2有12層模型人工智能超越人的思維方面人工智能超越人的思維方面 , 每一層又有12個獨立的注意力機制,稱為“中心”(heads),因此最終讓GPT-2擁有了12 x 12 = 144個不同的注意力模式 。這里我們可視化所有的144種模式 , 重點談談剛剛討論的那一個:
GPT-2模型12層注意力模式(行)及12個中心的注意力模式(列)可視化,突出的為第4層/第3中心(零索引)
我們可以看到,這些模式有很多不同的形式 。下面這個模式也非常有趣:
這一層/中心將所有注意力都放在這個句子各個單詞的前一個單詞上 。這也說得通,因為通常相鄰的單詞與預測的下一個單詞最為相關 。傳統的n-gram語言模型也是基于這種直覺 。
但是為什么很多注意力模式都和下面這個模式相似呢?
在這一模式中 , 幾乎所有注意力都集中在這個句子的第一個單詞上,而其他單詞的注意力大量減少 。這似乎是一個無效的模式 , 表明注意力中心沒有找到它尋找的任何語言現象 。該模式似乎重新定義了第一個單詞,即如果沒有找到更好的對象,則第一個單詞 。
貓在_____中 。(The Cat in the _____)

文章插圖

文章插圖
讓我們來看看GPT-2是如何完成永恒的經典-《戴帽子的貓》(Cat in the Hat)中的臺詞的:
“我們看見在一根風箏線上,掛著媽媽的新外衣!那件帶著粉色、白色和……點點的裙子”?。℉er gown with theare pink, white and…)
看看GPT-2如何完成的這個句子:
那件帶著粉色、白色和藍色點點的裙子?。℉er gown with theare pink, white and blue.)
雖然原文是“紅色”,但這樣的顏色搭配也很不錯 。因此我們可以看到GPT-2并不是僅僅會簡單的記憶 。
GPT-2是如何知道此處應該填上一種顏色的呢?也許是因為下列注意力模式識別了逗號分隔開的兩個單詞所屬的類別 。
為了判斷“和”(and)后面填寫什么單詞,GPT-2了這個類別的前兩個單詞——粉色和白色(pink,white),然后它便知道應該選擇一個與前兩個單詞類型一致的單詞,在這里就是顏色 。
關于名字GPT-2又能寫出什么呢?
GPT-2似乎特別擅長僅僅根據一個名字來撰寫簡短的傳記 。
讓GPT-2根據提示“誰是…(你的名字)?”(Who is ?)來生成文本是一項非常有趣的訓練 。這個提示一般會激發GPT-2撰寫一篇簡短的傳記,可能是因為網頁上文章的開頭通常是作者的簡介 。
下面是一些GPT-2根據提示“誰是杰西維格?”(Who is Jesse Vig?)生成的自傳 。
“杰西維格是社交媒體營銷專家和前社交媒體營銷經理 。他是的聯合創始人兼首席執行官 , 最近擔任的創始人兼首席執行官 。”(Jesse Vig is aandmedia. He is theco- and CEO ofandtheand CEO )
寫得不錯!雖然在內容上有一些重復,但是故事很有個性 , 讓人驚喜 。下面是另一個創作:
“杰西維格是福音傳教士詹姆斯維格的兒子 。他于1964年移居美國,并成為密歇根大學的傳教士,在密歇根大學執教18年,在2007年10月去世 。”
(Jesse Vig is the son ofnamed James Vig. He moved to thein 1964aat theof , where hefor 18his death in2007.)
在這個例子上,GPT-2非常聰明 , 知道父親和兒子姓氏相同 。讓我們看看在選擇姓氏的時候,GPT-2的點在哪里:
第11層/10中心
在判斷詹姆斯(James)后面的單詞時,該模式將注意力放在前面提到的“我”的姓氏上 。(要注意的是,在這個模型中,維格的英文單詞Vig被分解為“V”和“ig”,因為這個單詞并不常見 。)這種注意力模式似乎專門用于識別家庭姓名之間的關系 。為了驗證這一點 , 讓我們稍稍改動一下文本:
“杰西維格是福音傳教士詹姆斯的同事 。”(Jesse Vig is theannamed James…)
第11層/10中心
現在由于詹姆士只是一名同事 , 該注意力模型就幾乎忽略“我”的姓氏 。
GPT-2似乎是根據從名字中感知種族和性別的信息以生成傳記 。我們需要進一步研究來查明這種模型內部是否存在偏見 。
未來是具有生成性的
就在去年,語言模型生成各種內容的能力已經大大提升 , 包括圖像、視頻、音頻和文本,以至于我們無法相信自己的感覺來判斷真假,而這僅僅是開始;這些技術會繼續發展并相互融合 。很快,當我們在上盯著那些生成出來的面孔時,他們會看著我們,講述他們是如何被生成出來的,展現他們奇怪的“人造”個性 。
大概最直接的危險就是混淆真實的事物與生成的事物 。我們已經看過像人工智能生成的奧巴馬和史蒂夫·布西密與詹妮弗·勞倫斯的結合體一類的視頻 。很快,這些深度換臉()技術會進入我們的個人生活 。
因此,當你的媽媽打電話給你說她需要500美元匯到開曼群島的時候,你得問問自己:這真的是我媽媽嗎?還是只是一個語言生成人工智能程序借助我媽媽五年前在上發的視頻所生成出來的虛擬人聲呢?
未來已來 。
留言
本文到此結束,希望對大家有所幫助 。
- 國內互聯網巨頭在人工智能領域如何布局?哪家最有優勢?
- 智慧生活丨加持“超丹拿級音質”的華為AI智能音箱
- “人工智能”將給人類帶來什么影響
- 引言:“喚醒”再定義,從擁抱智能音箱開始
- 人工智能和機器人時代,哪些職業最先被取代?
- 你認為人工智能和哲學有什么關系?
- 人工智能取代電話銷售,企業怎么辦?
- 上海人工智能研究院與華為簽署全面合作協議
- 2018.11.8經濟學人官方譯文:人工智能
- 人類會被智能機器人干掉嗎?
