世界頂尖數(shù)據(jù)科學(xué)家采訪實錄——Facebook人工智能研究總監(jiān) _學(xué)術(shù)

作者 | CDA數(shù)據(jù)分析師
來源 | 《Dataat Work》
受訪者簡介
Yann LeCun是全球最大社交網(wǎng)站的人工智能研究總監(jiān) 。
的核心業(yè)務(wù)是促進(jìn)人與人之間、人與人與數(shù)字世界之間的溝通。考慮到涉及的數(shù)據(jù)規(guī)模之大，支持這項任務(wù)所需的技術(shù)是巨大的。截至2014年，擁有超過13億的活躍用戶(彼此之間的連接超過1500億)和8.29億的每日獨立登錄。這些用戶平均每天上傳約3.5億張照片，分享約47.5億項內(nèi)容，發(fā)送約100億條信息。這些流數(shù)據(jù)集的可用性是如此之大，以至于在大多數(shù)情況下，的系統(tǒng)只有一次時間查看任何數(shù)據(jù) 。這樣的活動水平帶來了一系列獨特的挑戰(zhàn):如何最好地理解和理解所有的數(shù)據(jù)，以及如何使用這種信息關(guān)聯(lián)來做出決策
在加入之前人工智能比較好的書籍，LeCun是紐約大學(xué)計算機科學(xué)、神經(jīng)科學(xué)、電子和計算機工程的銀牌教授，現(xiàn)在仍然是紐約大學(xué)數(shù)據(jù)科學(xué)中心的創(chuàng)始主任。
在多倫多發(fā)展理論后，他加入了美國電話電報公司貝爾Laage處理研究部門。2003年加入紐約大學(xué) 。在他迄今為止的職業(yè)生涯中，他發(fā)表了180多篇關(guān)于機器學(xué)習(xí)、計算機視覺、筆跡識別、圖像處理和壓縮以及神經(jīng)網(wǎng)絡(luò)作品的技術(shù)論文和書籍章節(jié) 。他尤其以他在深度學(xué)習(xí)方法方面的工作而聞名，這些方法被公司用來理解圖像、視頻、文檔、人機交互和語音。
LeCun是一個無與倫比的數(shù)據(jù)科學(xué)家的例子，他有一個轉(zhuǎn)型的愿景——在他的例子中，使用深度學(xué)習(xí)來教機器感知世界——他努力在學(xué)術(shù)和工業(yè)研究實驗室實現(xiàn)這一愿景。LeCun的采訪證明了他對機器學(xué)習(xí)的熱情和對未來的信念，以下為整理的采訪內(nèi)容。
您的工作職責(zé)是什么？
我是的人工智能研究總監(jiān) 。
這個角色的一部分涉及到數(shù)據(jù)科學(xué)，盡管也有其他團(tuán)隊在做數(shù)據(jù)科學(xué) 。如果你愿意，人工智能研究可以被認(rèn)為是數(shù)據(jù)科學(xué)更先進(jìn)的一面。我也是紐約大學(xué)的兼職教授，就在我的實驗室對面。雖然我現(xiàn)在是一名大學(xué)教授，但我的大部分職業(yè)生涯都是在工業(yè)研究方面。
早些時候，我在貝爾實驗室的一個小組里工作，當(dāng)時，這個小組致力于機器學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)和類似的項目。然后我成為AT&T實驗室的部門主管，這是AT&T在1996年公司分裂后的研究實驗室的名字。我2003年加入紐約大學(xué)，所以我在這里已經(jīng)11年多一點。我是在2013年底加入的。
您的職業(yè)生涯是如何形成的？
雖然在我工作過的機構(gòu)方面沒有明確的途徑，但在我感興趣的技術(shù)問題方面有明確的路徑。事實上，我感興趣的是相當(dāng)恒定的，除了很短的時間。我從小就對人工智能和相關(guān)學(xué)科非常著迷。上世紀(jì)70年代末至80年代初，我讀本科時學(xué)的是電氣工程。在這段時間里，我做了很多項目，試圖弄清楚我們是否能讓機器學(xué)習(xí) 。我一直堅信，制造智能機器的唯一方法就是學(xué)習(xí)，因為每一種動物都有學(xué)習(xí)的能力。任何有大腦的東西都能學(xué)習(xí) 。
我通過搜索文獻(xiàn)來解決這個問題，尋找能夠?qū)W習(xí)的機器，并意識到，至少在20世紀(jì)80年代初，沒有人在研究這類問題。我唯一能找到的文獻(xiàn)是20世紀(jì)60年代的，有些是70年代的，但大部分是60年代的。這是上世紀(jì)50年代神經(jīng)網(wǎng)絡(luò)1.0版的舊作。像百分率加速器和其他類似的技術(shù)然后是1970年代早期的統(tǒng)計模式識別文獻(xiàn) 。但當(dāng)我開始對這個研究領(lǐng)域感興趣時，這個領(lǐng)域已經(jīng)被研究團(tuán)體所拋棄了。這段時間有時被稱為“神經(jīng)網(wǎng)絡(luò)的寒冬” 。
我畢業(yè)了——盡管我的專業(yè)實際上不是機器學(xué)習(xí)，因為那時還沒有機器學(xué)習(xí)這種東西。事實上，在那個時候的法國，甚至還沒有計算機科學(xué) 。我畢業(yè)的專業(yè)是VLSI集成電路設(shè)計和自動控制。大學(xué)畢業(yè)后，我上了研究生院。不幸的是，我很難找到對我想做的事情感興趣的人，因為我已經(jīng)確切地知道我想做什么。當(dāng)我還在讀本科的時候，我就已經(jīng)意識到，早在上世紀(jì)60年代，人們一直在追求的東西，卻永遠(yuǎn)無法解決，基本上就是多層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的概念。
也許在我讀研究生的兩年前，我開始嘗試各種算法。我提出了一個最終成為我們現(xiàn)在所說的反向傳播算法的東西——我們每天在上都在非常非常大規(guī)模地使用它——獨立于David , Paul , David , Geoff 和其他人。我很難找到研究生院的高年級學(xué)生來幫助我，因為這個領(lǐng)域已經(jīng)被遺棄了。
幸運的是，我有一個很好的顧問，莫里斯·米爾格拉姆，我有自己的資金，基本上是獨立于我的顧問的。我的導(dǎo)師很好，他對我所做的一切都不感興趣，他基本上告訴我，他會簽署這份文件，因為我看起來很聰明，但他幫不了我。
最初是什么激發(fā)了您對人工智能的興趣?
我出生于1960年。在我九歲的時候，火箭飛上了太空，人類登上了月球，《2001太空漫游》問世了，里面有太空和智能電腦。科幻小說是那個時代的精神。我一直對科學(xué)感興趣。當(dāng)我還是個孩子的時候，我想，也希望我能成為一名科學(xué)家。在天體物理學(xué)、古生物學(xué)、神經(jīng)科學(xué)或人工智能之間，我猶豫了——不幸的是，沒有猶豫很長時間。但我確實是個工程師。這是我爸爸給我的，他是個機械工程師，我喜歡做東西。
所以當(dāng)我想到做科學(xué)的時候，我想到的是:我們這個時代最大的科學(xué)問題是什么?
一個問題是:宇宙是由什么構(gòu)成的?天體物理學(xué)和基礎(chǔ)物理學(xué)試圖回答這個問題。
另一個問題是:生活是關(guān)于什么的?哪一種生物學(xué)，等等。
另一個問題是:大腦是如何工作的?這個問題是一個很大的科學(xué)謎團(tuán) 。
如果你是一名年輕的科學(xué)家，還沒有意識到自己的局限性，那就去做大事吧。理解智力是一個很大的問題。
作為一名工程師，我認(rèn)為大腦是一個非常復(fù)雜的系統(tǒng) 。
智能是一種非常抽象的東西，它可能可以用數(shù)學(xué)方法來建模，所以我們可以用工程學(xué)的方法來弄清楚大腦是如何工作的，通過嘗試建造智能機器來驗證我們的設(shè)計或概念想法。關(guān)于大腦是如何工作的，已經(jīng)說了很多，有些非常抽象。但是在你建立一個真正有效的系統(tǒng)之前，你怎么知道他們是正確的呢?所以至少你有了大部分必要的成分。這就是我感興趣的科學(xué)問題。
當(dāng)然，我不僅要滿足我建造東西的欲望，我還必須找到工作，在那里我可以開發(fā)好的技術(shù)和做偉大的工作。這對我來說很奇怪，但我從來都不清楚我是否會成為一名學(xué)者。我
做過——也許我應(yīng)該早點做——但長期以來，行業(yè)研究對我來說是一種完美的環(huán)境。所以我現(xiàn)在又回到這個話題上了，盡管我也涉足學(xué)術(shù)界，我發(fā)現(xiàn)這兩個世界在這方面是互補的。所以我處在一個非常優(yōu)越的環(huán)境中，我可以在工業(yè)上有1.5英尺，在學(xué)術(shù)上有0.5英尺，這讓我可以利用兩者之間的互補。在學(xué)術(shù)界，你可以做像計算神經(jīng)科學(xué)和理論這樣的事情，而在工業(yè)界，你可以做一些在學(xué)術(shù)界很難做到的雄心勃勃的事情。
您使用的第一個數(shù)據(jù)集是什么?
我研究的第一個真實數(shù)據(jù)集是我在做博士研究時使用的醫(yī)療數(shù)據(jù)集，數(shù)據(jù)集來自于對因腹痛來到急診室的病人進(jìn)行的醫(yī)學(xué)研究。事實證明，僅僅根據(jù)腹痛來決定是否手術(shù)是一個非常困難的診斷。根據(jù)腹痛，你可以做出大約20種不同的基本診斷。有些診斷需要非常快的手術(shù)，比如闌尾炎。所以當(dāng)時有一個相當(dāng)大的數(shù)據(jù)集，有成千上萬的樣本，有對病人的基本描述，有缺失的值，諸如此類的東西，你會預(yù)料到的。
我采訪過的收集這些數(shù)據(jù)的人都嘗試過樸素貝葉斯和類似的方法。我嘗試了神經(jīng)網(wǎng)絡(luò) 。神經(jīng)網(wǎng)絡(luò)還不存在，但我基本上嘗試了這個新奇的東西——反向傳播——我得到了一些相當(dāng)不錯的結(jié)果。這幫助我想出的想法裁剪系統(tǒng)的體系結(jié)構(gòu),它將能夠識別癥狀,這樣的事情,這是集合的癥狀,以減少系統(tǒng)中的自由參數(shù)的數(shù)量,因為我們知道,甚至在1986年,當(dāng)時,過度擬合是一個大問題。
未來的數(shù)據(jù)科學(xué)領(lǐng)域會是什么樣子?
關(guān)于數(shù)據(jù)科學(xué)的未來，我經(jīng)常說的是，需要注意的最重要的一點是，收集和存儲的數(shù)據(jù)量呈指數(shù)級增長。它要么以通信網(wǎng)絡(luò)帶寬增長的速度增長，要么以硬盤容量增長的速度增長。它總是兩者之一，這取決于它是流數(shù)據(jù)還是存儲數(shù)據(jù) 。這是一個非常大的指數(shù) 。目前，當(dāng)你試圖從數(shù)據(jù)中提取知識邊緣時，循環(huán)中有人類。地球上人類腦力的數(shù)量實際上也在呈指數(shù)增長，但是指數(shù)非常非常小。與數(shù)據(jù)增長率相比，增長速度非常慢。
這意味著，不可避免的是——事實上，這種情況已經(jīng)發(fā)生了——地球上已經(jīng)沒有足夠的腦細(xì)胞去觀察或瀏覽這些數(shù)據(jù)，更不用說分析數(shù)據(jù)并從中提取知識了。所以很明顯，未來世界上的大部分知識都將被機器提取出來，并將駐留在機器中。實際上可能已經(jīng)是這樣了，這取決于你對知識的定義。對我來說，知識是一些數(shù)據(jù)的匯編，使你能夠做出決定，而我們今天所發(fā)現(xiàn)的是，計算機正在自動做出許多決定。這在未來不會有任何改善。
如果我們看數(shù)據(jù)科學(xué)的未來,數(shù)據(jù)科學(xué)是不會消失的,科學(xué)和現(xiàn)有的工程在從數(shù)據(jù)中提取知識將是一個未來的大事情,社會要依靠。在某種程度上已經(jīng)是這樣了。網(wǎng)絡(luò)已經(jīng)依賴于此。但整個社會都將依賴于此。所以這不是一時的流行;它不會消失。如果你說數(shù)據(jù)科學(xué)是一種時尚，就像你在1962年說計算機科學(xué)是一種時尚一樣。看看我們現(xiàn)在的處境。
因此，我對這一現(xiàn)象的看法是，它將創(chuàng)造——當(dāng)然，它創(chuàng)造了一個我們都知道的產(chǎn)業(yè)——對這一領(lǐng)域受過教育的人的需求。這也創(chuàng)造了一種學(xué)術(shù)學(xué)科的需要來處理這個問題。這一點有些人還沒有完全理解。例如，如果你是一名統(tǒng)計學(xué)家，你會說，“嗯，那只是統(tǒng)計。如果你是一個機器學(xué)習(xí)的人，你會說人工智能比較好的書籍，“嗯，那就是機器學(xué)習(xí) 。”如果你是一個數(shù)據(jù)庫人員，你會說，“嗯，那只是一個數(shù)據(jù)庫，上面有一些機器學(xué)習(xí)和統(tǒng)計數(shù)據(jù) 。”如果你是一個應(yīng)用數(shù)學(xué)的人，你會說，“所有這些技術(shù)和方法都使用了應(yīng)用數(shù)學(xué) 。”
所有這些人都錯了。它是所有這些東西組合成一個系統(tǒng):統(tǒng)計、應(yīng)用數(shù)學(xué)、計算、基礎(chǔ)設(shè)施和應(yīng)用領(lǐng)域，這些都是那些方法可以應(yīng)用的東西，需要專業(yè)知識。因此，像深度學(xué)習(xí)這樣的技術(shù)可以讓我們減少或最小化處理新問題所需的人類專業(yè)技能，這樣機器就可以盡可能地自己完成任務(wù) 。當(dāng)然，在這一點上，總是有人參與其中。像數(shù)據(jù)可視化這樣的東西使得人們可以很容易地做這樣的事情，只要循環(huán)中還有人。然而，最終，這些模型將從本質(zhì)上自行構(gòu)建。
我堅信數(shù)據(jù)科學(xué)是一門新興的學(xué)科。在紐約大學(xué)，我們幫助開創(chuàng)了這一趨勢，因為我們很早就創(chuàng)建了一個數(shù)據(jù)科學(xué)中心。我們也很早就創(chuàng)立了數(shù)據(jù)科學(xué)碩士學(xué)位，這是一個巨大的成功。我們得到了摩爾-斯隆數(shù)據(jù)科學(xué)環(huán)境倡議的大力支持，這是摩爾和斯隆基金會的一個大型項目。該計劃將紐約大學(xué)、華盛頓大學(xué)和加州大學(xué)伯克利分校聯(lián)合起來，目的是將數(shù)據(jù)科學(xué)確立為科學(xué)的一門學(xué)科。
您對數(shù)據(jù)科學(xué)的新人有什么建議么？
我總是給同樣的建議，因為我經(jīng)常被問到這個問題。
我的觀點是，如果你是一名本科生，學(xué)習(xí)一門專業(yè)，你可以選修盡可能多的數(shù)學(xué)和物理課程。不幸的是，它必須是正確的課程。我要說的可能聽起來有些矛盾，但工程學(xué)或物理學(xué)專業(yè)可能比數(shù)學(xué)、計算機科學(xué)或經(jīng)濟學(xué)專業(yè)更合適。
當(dāng)然，你需要學(xué)習(xí)編程，所以你需要上大量的計算機科學(xué)課程來學(xué)習(xí)如何編程的機制。然后，再做一個數(shù)據(jù)科學(xué)的研究生項目。參加本科階段的機器學(xué)習(xí)、人工智能或計算機視覺課程，因為你需要接觸這些技術(shù) 。然后，在那之后，參加所有你能參加的數(shù)學(xué)和物理課程。尤其是像優(yōu)化這樣的連續(xù)應(yīng)用數(shù)學(xué)課程，因為它們讓你為真正的挑戰(zhàn)做好準(zhǔn)備。
您認(rèn)為數(shù)據(jù)科學(xué)的最大機遇在哪里?
如果你是一名實驗科學(xué)領(lǐng)域的科學(xué)家，尤其是社會科學(xué)領(lǐng)域的科學(xué)家，我認(rèn)為在數(shù)據(jù)科學(xué)的方法領(lǐng)域和領(lǐng)域科學(xué)之間存在著大量的機會。這將給很多科學(xué)領(lǐng)域帶來革命性的變化，所以這是一個非常令人興奮的地方，尤其是在社會科學(xué)領(lǐng)域。其他領(lǐng)域，如基因組學(xué)和生物學(xué) ，已經(jīng)先行一步。
而社會科學(xué)，是一個充滿機遇的大領(lǐng)域。如果人們剛剛開始，我建議他們?nèi)ふ乙恍┯腥さ摹⒘钊伺d奮的大問題來解決。當(dāng)然，如果你對方法感興趣，深度學(xué)習(xí)才是關(guān)鍵。
【世界頂尖數(shù)據(jù)科學(xué)家采訪實錄——Facebook人工智能研究總監(jiān)】本文到此結(jié)束，希望對大家有所幫助。

继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

世界頂尖數(shù)據(jù)科學(xué)家采訪實錄——Facebook人工智能研究總監(jiān)