圖像標(biāo)題生成器模型結(jié)合了計算機視覺和機器翻譯的最新進展,利用神經(jīng)網(wǎng)絡(luò)生成現(xiàn)實的 圖像標(biāo)題 。神經(jīng)圖像標(biāo)題模型被訓(xùn)練 , 以最大限度地產(chǎn)生給定輸入圖像的字幕的可能性 。并且可以用來生成新的圖像描述 。例如 , 下面是使用 MS COCO數(shù)據(jù)集.訓(xùn)練的神經(jīng)圖像標(biāo)題生成器可能生成的標(biāo)題 。
生成結(jié)果:在田野里騎馬的人
在這篇文章中,我們將通過一個中級水平的教程,介紹如何使用谷歌的Show和Tell 模型在數(shù)據(jù)集上訓(xùn)練圖像標(biāo)題生成器 。我們使用框架來構(gòu)建、培訓(xùn)和測試我們的模型,因為它相對容易使用,并且擁有一個不斷增長的在線社區(qū) 。
為什么生成標(biāo)題?
最近在計算機視覺和自然語言處理任務(wù)中應(yīng)用深度神經(jīng)網(wǎng)絡(luò)的成功,啟發(fā)了人工智能研究人員在這些以前分離領(lǐng)域的交集中探索新的研究機會 。標(biāo)題生成模型必須平衡對視覺線索和自然語言的理解 。這兩個傳統(tǒng)上不相關(guān)領(lǐng)域的交叉點有可能在很大程度上實現(xiàn)變革 。雖然這項技術(shù)有一些簡單的應(yīng)用 , 比如為視頻生成摘要 , 或為未標(biāo)注的圖像加標(biāo)題 , 但更有創(chuàng)意的應(yīng)用程序可以極大地提高大部分人的生活質(zhì)量 。與傳統(tǒng)的計算機視覺試圖使世界更容易訪問和理解計算機一樣,這項技術(shù)有潛力使我們的世界更容易理解 。它可以作為一名導(dǎo)游,甚至可以作為日常生活的視覺輔助工具 , 比如來自意大利人工智能公司Eyra.的Horus 可穿戴設(shè)備
圖像描述生成(Image )是一個融合計算機視覺、自然語言處理和機器學(xué)習(xí)的綜合問題,它類似于翻譯一副圖片為一段描述文字 。該任務(wù)對于人類來說非常容易人工智能圖片素材,但是對于機器卻非常具有挑戰(zhàn)性,它不僅需要利用模型去理解圖片的內(nèi)容并且還需要用自然語言去表達它們之間的關(guān)系 。除此之外,模型還需要能夠抓住圖像的語義信息 , 并且生成人類可讀的句子 。
基于強化學(xué)習(xí)的模型
基于強化的模型主要是對文本生成過程進行優(yōu)化[7] 。將文本生成看成一個決策過程 , 每個時刻生成單詞都是一個,而對于生成序列的質(zhì)量評估可以看成value 。生成文本序列的評估指標(biāo)作為,例如CIDEr 。使用強化學(xué)習(xí)的好處在于可以直接利用不可微分的評價指標(biāo)作為優(yōu)化目標(biāo) 。另外,在訓(xùn)練過程中,生成序列的時候 , 通常采用的是上一時刻單詞的-truth,而測試過程中又只能使用模型自己生成的上一時刻單詞,即使用-的策略 。這會造成 bias的問題 。
假設(shè)從策略中采樣的單詞序列是Ws,利用策略梯度算法進行優(yōu)化:
這里的b是一個 , 它不影響梯度的計算,但是可以減少 。r是,p0是策略中產(chǎn)生該單詞序列的概率 。
文章提出了一個SCST(self-)算法人工智能圖片素材,
這里的采用的是測試過程使用的算法產(chǎn)生序列的,例如使用。
另一篇文章[8],則采用的是- 作為,通過訓(xùn)練一個模型,將文本、圖像映射到同一個空間 。然后將圖像與文本的相似度作為 。
這里fe、ht分別是圖片與文本的函數(shù) 。
訓(xùn)練使用的是actor-算法:
v0是價值網(wǎng)絡(luò),作為的動態(tài) 。
當(dāng)采用beam 進行解碼的時候,通過結(jié)合策略pπ、與value估計v0來計算一個單詞的得分 。
【看圖說話 人工智能生成圖片標(biāo)題描述】本文到此結(jié)束,希望對大家有所幫助 。
- 什么是人工智能算法?
- 4 人工智能與設(shè)計:人工智能對設(shè)計的影響
- AI 人工智能 與區(qū)塊鏈技術(shù)之間的聯(lián)系并產(chǎn)生怎樣的火花?
- 機器人和人工智能有什么區(qū)別,他們有什么內(nèi)在聯(lián)系?
- 日本全息人工智能女仆 可以每天跟主人溝通互動
- 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計算機科學(xué)與技術(shù)、人工智能,哪個專業(yè)更好?
- 大數(shù)據(jù)+人工智能,如何給交通安裝先進的智慧“大腦”?
- 《人工智能真的來了》讀后感之五
- 用人工智能捉迷藏,結(jié)果出人意料,游戲思維如何使AI為人類服務(wù)?
- 中國的大語言人工智能如何實現(xiàn)彎道超車,超越GPT-4。
