继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

AlphaGo Zero三天擊敗人類的背后究竟意味著怎樣的進(jìn)步?

和國(guó)內(nèi)頂尖的職業(yè)圍棋選手培訓(xùn)機(jī)構(gòu)——葛道場(chǎng)有長(zhǎng)期合作,從我們的經(jīng)驗(yàn)來(lái)看 , 要成為一個(gè)職業(yè)圍棋選手,最晚也要從六歲到七歲開(kāi)始學(xué)棋 。即使是像柯潔這樣不世出的奇才,從五、六歲學(xué)起 , 到成為世界冠軍也需要十多年的時(shí)間 。
而,前年最初連樊暉這樣不太知名的圍棋職業(yè)選手都無(wú)法戰(zhàn)勝;而短短幾個(gè)月后,到去年已經(jīng)可以擊敗李世乭;再到今年以的身份復(fù)出,人類圍棋選手已經(jīng)完全沒(méi)有抵抗之力,再到現(xiàn)在Zero可以完全不依賴人的經(jīng)驗(yàn)而碾壓 。
我們回來(lái)看看Zero的原理到底是什么?首先我們來(lái)看看在物理世界里有沒(méi)有可能演化的這么快?我們知道在物理世界中 , 大家都學(xué)習(xí)過(guò)的牛頓第一定律表明,引力和質(zhì)量成正比 。這是一個(gè)線性的關(guān)系,也就是說(shuō)我們的物理世界總體是由線性的規(guī)律主導(dǎo)的 。所以,即使你可以造一臺(tái)下圍棋非??斓臋C(jī)器,每秒可以移動(dòng)1000個(gè)棋子,可以想象不太可能造出 。
廣為人知的三個(gè)部分分別是策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和蒙特卡洛樹(shù)搜索 。策略網(wǎng)絡(luò)所代表的是人類的經(jīng)驗(yàn)、歷史的經(jīng)驗(yàn) 。從公開(kāi)的論文來(lái)看,的策略網(wǎng)絡(luò)準(zhǔn)確度基本在57% 。這個(gè)比喻未必特別精確,但類比考試成績(jī),如果期末考試才考了57分 , 這在人類世界不是特別可以拿出手的好成績(jī),這說(shuō)明什么?說(shuō)明這個(gè)策略網(wǎng)絡(luò)和人類可以學(xué)到的相比并不是特別厲害,所以Zero在之后必然從頭開(kāi)始尋找更優(yōu)策略 。讓我們?cè)賮?lái)看看價(jià)值網(wǎng)絡(luò) , 根據(jù)我們的實(shí)踐,價(jià)值網(wǎng)絡(luò)特別不好訓(xùn)練 , 很難獲得一個(gè)質(zhì)量特別好的結(jié)果;也就是說(shuō)價(jià)值網(wǎng)絡(luò)評(píng)估當(dāng)前棋局形勢(shì)的能力其實(shí)也不如人類 。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)都不如人類,那為什么還能這么厲害?所以最根本的,還是在于它使用的蒙特卡羅樹(shù)搜索這塊能力比人強(qiáng) 。人類每下一步棋,能考慮到幾十步已經(jīng)是頂尖的高手,但卻可以搜索幾十萬(wàn)、幾千萬(wàn)、幾億步 。
策略網(wǎng)絡(luò)(圖自CSDN,作者張俊林)
價(jià)值網(wǎng)絡(luò)(圖自CSDN,作者張俊林)
蒙特卡洛樹(shù)搜索(圖自CSDN , 作者張俊林)
這種方法給了我們極大的啟示,未來(lái)的AI將物理世界建立的模型投影到計(jì)算機(jī)的數(shù)字世界,然后利用由摩爾定律支撐的指數(shù)級(jí)增長(zhǎng)的計(jì)算力,在數(shù)字世界中進(jìn)行無(wú)限的模擬、探索,并且結(jié)合以往的經(jīng)驗(yàn)找到更好的方案,再把這個(gè)方案反過(guò)來(lái)應(yīng)用到現(xiàn)實(shí)世界中,并從現(xiàn)實(shí)世界獲得真實(shí)即時(shí)的反饋 , 并用于在數(shù)字世界中找到更好的方案 。
就像從與樊暉試棋,再到在網(wǎng)上與邀請(qǐng)的頂級(jí)圍棋選手對(duì)弈,都是期望通過(guò)現(xiàn)實(shí)棋局得到真實(shí)的反饋,再回到數(shù)字世界中找到更好的解決方案 。目前,還有一個(gè)特別火爆的領(lǐng)域 , 那就是自動(dòng)駕駛 。
【AlphaGo Zero三天擊敗人類的背后究竟意味著怎樣的進(jìn)步?】像谷歌,做自動(dòng)駕駛近十年時(shí)間,積累的路測(cè)數(shù)據(jù)有幾百萬(wàn)英里;特斯拉每年賣(mài)出幾萬(wàn)輛汽車 , 號(hào)稱路測(cè)數(shù)據(jù)積累了上億英里 。然而根據(jù)專家的估計(jì),想讓自動(dòng)駕駛汽車能夠可靠地上路行駛,最樂(lè)觀的估計(jì)也需要至少100億英里的路測(cè)人工智能alphago的ppt,這對(duì)企業(yè)來(lái)說(shuō)幾乎是不可能實(shí)現(xiàn)的 。
現(xiàn)在很多自動(dòng)駕駛企業(yè)都建立了模擬系統(tǒng),在數(shù)據(jù)世界搭建一個(gè)虛擬世界,例如谷歌已經(jīng)把鳳凰城完全數(shù)字化 , 自動(dòng)駕駛系統(tǒng)可以在這個(gè)虛擬世界中每天行駛超過(guò)幾億英里 。這樣做的好處是,在現(xiàn)實(shí)的、線性的世界中,試錯(cuò)的成本非常高 。而通過(guò)數(shù)據(jù)的方法在虛擬數(shù)字世界中建立一套與現(xiàn)實(shí)世界對(duì)應(yīng)的模擬,利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力去嘗試各種可能性,盡量找到可找到的最好的解決方案,再應(yīng)用到現(xiàn)實(shí)世界中 , 這樣可以極大的提高迭代速度 。
觀察這三個(gè)例子,我們可以發(fā)現(xiàn)他們有一種共同的模式 , 那就是建模人工智能alphago的ppt,投射,探索 , 應(yīng)用和反??;震q褪鞘?萸??椒ǖ幕?究蚣? ,而其成功的核心,則是試錯(cuò)的成本和迭代的速度 。
數(shù)據(jù)驅(qū)動(dòng)方法的基本框架
讓我們?cè)倏纯戳硪幻?nbsp;, 目前我們記錄下來(lái)的都是用戶的行為,但這個(gè)世界除了計(jì)算機(jī)領(lǐng)域的數(shù)字世界、我們生活的物理世界,其實(shí)還有每個(gè)人大腦中的思維世界 。而人的行為,其實(shí)都是由大腦中的世界驅(qū)動(dòng)的 。那我們有沒(méi)有能力把每個(gè)人大腦中的世界也數(shù)字化呢?這是比我們以往做的更前沿、也更少人去做的事情 。而人本實(shí)驗(yàn)室的使命就是試圖去解決這些問(wèn)題 。
本文到此結(jié)束,希望對(duì)大家有所幫助 。