继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

<label id="urma3"></label>

<tr id="urma3"></tr>

<tr id="urma3"><cite id="urma3"></cite></tr>

<object id="urma3"><blockquote id="urma3"></blockquote></object>

AlphaGo Zero三天擊敗人類的背后究竟意味著怎樣的進(jìn)步？

2024-01-02 生活百科圍棋

和國(guó)內(nèi)頂尖的職業(yè)圍棋選手培訓(xùn)機(jī)構(gòu)——葛道場(chǎng)有長(zhǎng)期合作，從我們的經(jīng)驗(yàn)來(lái)看，要成為一個(gè)職業(yè)圍棋選手，最晚也要從六歲到七歲開(kāi)始學(xué)棋。即使是像柯潔這樣不世出的奇才，從五、六歲學(xué)起，到成為世界冠軍也需要十多年的時(shí)間。
而，前年最初連樊暉這樣不太知名的圍棋職業(yè)選手都無(wú)法戰(zhàn)勝；而短短幾個(gè)月后，到去年已經(jīng)可以擊敗李世乭；再到今年以的身份復(fù)出，人類圍棋選手已經(jīng)完全沒(méi)有抵抗之力，再到現(xiàn)在Zero可以完全不依賴人的經(jīng)驗(yàn)而碾壓。
我們回來(lái)看看Zero的原理到底是什么？首先我們來(lái)看看在物理世界里有沒(méi)有可能演化的這么快？我們知道在物理世界中，大家都學(xué)習(xí)過(guò)的牛頓第一定律表明，引力和質(zhì)量成正比。這是一個(gè)線性的關(guān)系，也就是說(shuō)我們的物理世界總體是由線性的規(guī)律主導(dǎo)的。所以，即使你可以造一臺(tái)下圍棋非?？斓臋C(jī)器，每秒可以移動(dòng)1000個(gè)棋子，可以想象不太可能造出。
廣為人知的三個(gè)部分分別是策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和蒙特卡洛樹(shù)搜索。策略網(wǎng)絡(luò)所代表的是人類的經(jīng)驗(yàn)、歷史的經(jīng)驗(yàn) 。從公開(kāi)的論文來(lái)看，的策略網(wǎng)絡(luò)準(zhǔn)確度基本在57% 。這個(gè)比喻未必特別精確，但類比考試成績(jī)，如果期末考試才考了57分，這在人類世界不是特別可以拿出手的好成績(jī)，這說(shuō)明什么？說(shuō)明這個(gè)策略網(wǎng)絡(luò)和人類可以學(xué)到的相比并不是特別厲害，所以Zero在之后必然從頭開(kāi)始尋找更優(yōu)策略。讓我們?cè)賮?lái)看看價(jià)值網(wǎng)絡(luò) ，根據(jù)我們的實(shí)踐，價(jià)值網(wǎng)絡(luò)特別不好訓(xùn)練，很難獲得一個(gè)質(zhì)量特別好的結(jié)果；也就是說(shuō)價(jià)值網(wǎng)絡(luò)評(píng)估當(dāng)前棋局形勢(shì)的能力其實(shí)也不如人類。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)都不如人類，那為什么還能這么厲害？所以最根本的，還是在于它使用的蒙特卡羅樹(shù)搜索這塊能力比人強(qiáng) 。人類每下一步棋，能考慮到幾十步已經(jīng)是頂尖的高手，但卻可以搜索幾十萬(wàn)、幾千萬(wàn)、幾億步。
策略網(wǎng)絡(luò)（圖自CSDN，作者張俊林）
價(jià)值網(wǎng)絡(luò)（圖自CSDN，作者張俊林）
蒙特卡洛樹(shù)搜索（圖自CSDN ，作者張俊林）
這種方法給了我們極大的啟示，未來(lái)的AI將物理世界建立的模型投影到計(jì)算機(jī)的數(shù)字世界，然后利用由摩爾定律支撐的指數(shù)級(jí)增長(zhǎng)的計(jì)算力，在數(shù)字世界中進(jìn)行無(wú)限的模擬、探索，并且結(jié)合以往的經(jīng)驗(yàn)找到更好的方案，再把這個(gè)方案反過(guò)來(lái)應(yīng)用到現(xiàn)實(shí)世界中，并從現(xiàn)實(shí)世界獲得真實(shí)即時(shí)的反饋，并用于在數(shù)字世界中找到更好的方案。
就像從與樊暉試棋，再到在網(wǎng)上與邀請(qǐng)的頂級(jí)圍棋選手對(duì)弈，都是期望通過(guò)現(xiàn)實(shí)棋局得到真實(shí)的反饋，再回到數(shù)字世界中找到更好的解決方案。目前，還有一個(gè)特別火爆的領(lǐng)域，那就是自動(dòng)駕駛。
【AlphaGo Zero三天擊敗人類的背后究竟意味著怎樣的進(jìn)步？】像谷歌，做自動(dòng)駕駛近十年時(shí)間，積累的路測(cè)數(shù)據(jù)有幾百萬(wàn)英里；特斯拉每年賣(mài)出幾萬(wàn)輛汽車，號(hào)稱路測(cè)數(shù)據(jù)積累了上億英里。然而根據(jù)專家的估計(jì)，想讓自動(dòng)駕駛汽車能夠可靠地上路行駛，最樂(lè)觀的估計(jì)也需要至少100億英里的路測(cè)人工智能alphago的ppt，這對(duì)企業(yè)來(lái)說(shuō)幾乎是不可能實(shí)現(xiàn)的。
現(xiàn)在很多自動(dòng)駕駛企業(yè)都建立了模擬系統(tǒng)，在數(shù)據(jù)世界搭建一個(gè)虛擬世界，例如谷歌已經(jīng)把鳳凰城完全數(shù)字化，自動(dòng)駕駛系統(tǒng)可以在這個(gè)虛擬世界中每天行駛超過(guò)幾億英里。這樣做的好處是，在現(xiàn)實(shí)的、線性的世界中，試錯(cuò)的成本非常高。而通過(guò)數(shù)據(jù)的方法在虛擬數(shù)字世界中建立一套與現(xiàn)實(shí)世界對(duì)應(yīng)的模擬，利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力去嘗試各種可能性，盡量找到可找到的最好的解決方案，再應(yīng)用到現(xiàn)實(shí)世界中，這樣可以極大的提高迭代速度。
觀察這三個(gè)例子，我們可以發(fā)現(xiàn)他們有一種共同的模式，那就是建模人工智能alphago的ppt，投射，探索，應(yīng)用和反??；震q褪鞘?萸??椒ǖ幕?究蚣? ，而其成功的核心，則是試錯(cuò)的成本和迭代的速度。
數(shù)據(jù)驅(qū)動(dòng)方法的基本框架
讓我們?cè)倏纯戳硪幻?nbsp;，目前我們記錄下來(lái)的都是用戶的行為，但這個(gè)世界除了計(jì)算機(jī)領(lǐng)域的數(shù)字世界、我們生活的物理世界，其實(shí)還有每個(gè)人大腦中的思維世界。而人的行為，其實(shí)都是由大腦中的世界驅(qū)動(dòng)的。那我們有沒(méi)有能力把每個(gè)人大腦中的世界也數(shù)字化呢？這是比我們以往做的更前沿、也更少人去做的事情。而人本實(shí)驗(yàn)室的使命就是試圖去解決這些問(wèn)題。
本文到此結(jié)束，希望對(duì)大家有所幫助。

上一篇：亞馬遜手動(dòng)廣告投放提高ROI的5大技巧

下一篇：未來(lái)10年，5大將被人工智能取代的職業(yè)！快來(lái)看看你會(huì)不會(huì)失業(yè)！

<tr id="qyvnr"></tr>

<ins id="qyvnr"></ins>

<optgroup id="qyvnr"></optgroup>

<optgroup id="qyvnr"></optgroup>

<input id="qyvnr"></input>

<li id="qyvnr"><legend id="qyvnr"><span id="qyvnr"></span></legend></li>

<span id="qyvnr"><th id="qyvnr"></th></span>

<label id="qyvnr"></label>

<rt id="qyvnr"><tt id="qyvnr"></tt></rt>