蘋果語音助手和siri區(qū)別(蘋果智能語音助手Siri初探)
來源:超天才網(wǎng)
作者:張耀寰
關鍵字:
摘要:近幾年,語音識別技術開始從實驗室走向市場 。我們預計 , 未來10年 , 語音識別技術將全面進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務等多個領域,成為當今最具顛覆性的技術之一 。本文將為您揭開蘋果智能語音識別系統(tǒng)Siri的神秘面紗 。

文章插圖
Siri的由來
要真正認識Siri,我們還須先知道它是怎么來的 。當我們追溯Siri的由來時,我們發(fā)現(xiàn),Siri實際上源于美國國防部的一個人工智能項目,當年五角大樓的一個叫做CALO的項目,其英文全稱是Cognitive Assistant that Learns and Organizes,如果按照其內涵譯成中文就是:"善于學習并且能夠組織的認知助理" 。該項目由美國國防部投資,旨在為軍方提供智能化服務 。美國國防部為這個項目安排了高達1.5億美元的預算,匯聚了本專業(yè)一大批頂尖的人工智能專家 , 期待他們能夠開發(fā)出在野外通過學習,最終具備智能認知的機器 。要做到這一點,機器使用的算法需要被設定大量的數(shù)據(jù),然后軟件會根據(jù)這些數(shù)據(jù)來解決問題 。CALO項目團隊經(jīng)過反復研究論證最后決定,必須讓虛擬助手具備自主收集信息的能力,并根據(jù)每一次的處理結果進行自我訓練和自我修正 , 以接近人類的思維判斷 。
2、動態(tài)本體系統(tǒng) 。siri最關鍵的組成部分叫動態(tài)本體(英文 Active Ontologies) 。什么是動態(tài)本體呢?所謂動態(tài)本體是由多元素合成的生態(tài)體系組合 。特定詞匯、數(shù)據(jù)庫、頁面服務、互動規(guī)則,機器可識別描述等,即所有這些要素的有機結合 。語言模式識別是對輸入的總體類型、語法、詞匯、慣用語等進行模式匹配的模塊,匹配模式的代碼在Siri內部采用正則表達式或者狀態(tài)機等方式 。
Siri的學習功能主要體現(xiàn)在記憶上,這個記憶可區(qū)分為長期記憶和短期記憶 。如果當你心煩了 , 機器說出你該從事什么娛樂,這有可能是你之前把你的興趣愛好告訴了它,它對你的愛好分類記憶,后續(xù)在知識庫里找到了相關信息并保存下來 。Siri有兩個記憶系統(tǒng):長期記憶系統(tǒng)和短期記憶系統(tǒng)來實現(xiàn)個性化交流的 。長期記憶系統(tǒng)存儲了用戶的名稱、居住地址以及歷史偏好信息,短期記憶系統(tǒng)則將最近一段時期內Siri和用戶的對話記錄及GUI點選記錄等登記下來 。對照這兩個記憶系統(tǒng),Siri可以在你需要時提醒你 , 然后調用知識體系幫助你解決疑難問題 。
智能語音助理的原理框架圖

文章插圖
Siri與人工智能的最大區(qū)別在于其功能不夠強大,計算機認知與人類認知目前還有天壤之別 。Siri對具體事物的理解力非常狹窄,例如就餐、體育運動、休閑娛樂、旅行天氣等 。因為各個領域都有其特定語匯,且數(shù)據(jù)庫、頁面都需要關聯(lián)描述,這些集合構成了我們所說的"動態(tài)本體" 。
例如 , 就餐的動態(tài)本體包涵參觀數(shù)據(jù)庫 , 目前美國餐飲評論站點諸如Yelp 和 Zagat,其調用方式通過API實現(xiàn) , 這就牽涉相關語匯和行為模型 。當我們決定下一餐時,我們會說我們訂什么樣的席位、如何預訂、如何點菜,這些需要事先錄入用戶此前的訂餐日歷,調用此前的餐飲會話、點餐說詞及預訂流程等,這些事情都在動態(tài)本體內有積累和儲存 。當我們要再次點餐,Siri會識別用戶意愿,追蹤"業(yè)務編排單元"(SOC ) , 這個"單元"會識別外部業(yè)務以滿足用戶請求,包括業(yè)務理解、命令編譯、信息收集并分類 , 最終向用戶提供行動導引 。
例如,用戶說了:"我要去意大利餐館享用美食" , "業(yè)務編排單元"會在Yelp 和 Zagat網(wǎng)站上進行檢索,然后告訴你兩英里內的意大利飯館名錄、具體地點、價位,供你選擇 。當你作出就餐決策后,業(yè)務API 接口程序會為你預訂餐位、點餐和叫出租車 。所有這些都通過你過往的就餐習慣,由業(yè)務API 接口程序執(zhí)行 。
動態(tài)本體原理框架圖(以就餐為例)

文章插圖
SIRI系統(tǒng)中的"業(yè)務編排單元"擁有一個工具,此工具可定位各類外部業(yè)務 APIs來完成相應行為 。動態(tài)本體自身也有一套系統(tǒng),這套系統(tǒng)記錄了多個領域里人類的活動,以備調用 。這兩套系統(tǒng)允許接入外部相關模塊、業(yè)務和數(shù)據(jù)庫,這樣一來 , 人們往往會感覺Siri無所不能 。
3、語音處理執(zhí)行系統(tǒng) 。Siri的核心執(zhí)行組件包涵:語言闡釋器、會話流控制器、任務控制器和服務系統(tǒng)等 。所謂語言闡釋器,簡言之,就是把人語輸入,轉化為機器可理解的規(guī)范意思 , 因為人語輸入與機器語言存在一個巨大的天然鴻溝 , 要讓機器知道人語的微妙內涵,需要有一套系統(tǒng)不厭其煩的向機器闡釋,否則機器不會做出理智的回應 。會話流控制器是將語言闡釋并解析之后的結果傳遞至控制系統(tǒng),根據(jù)相關參數(shù)判定涉及領域,或向用戶索取具體參數(shù) 。而會話流控制器之后還會對任務控制器進行調用 , 以確定回應內容 。會話流控制扮演著一個協(xié)調溝通者的角色 。任務流控制器是確定所要執(zhí)行任務的邊界參數(shù)和完成任務各個步驟的邏輯關系 。任務流控制器常常會構建出一些任務模型,將抽象概念定義具體化 。服務系統(tǒng),Siri展現(xiàn)給用戶的是其所能提供的具體服務 。Siri中有三個子服務模塊:服務模塊,服務能力模型和多服務集成模塊 。服務模塊包含了可供Siri使用的各種信息,服務能力模塊儲備了具體服務內容可調用服務類型的映射關系 。服務集成模塊的功能在于可調用另外兩個模塊提供給用戶的具體服務內容 。有時,一項服務會涉及多個子服務,分別調用時無論在先后順序還是內容上都存在邏輯依存關系,這類似于智能調度 。
4、輸出系統(tǒng) 。與計算機系統(tǒng)相類似,SIRI系統(tǒng)所將接納的語音或其它輸入進行處理,最終將以為用戶習慣的方式輸送給用戶 。SIRI系統(tǒng)的輸出包括語音、文本、甚至電郵等多模態(tài)展現(xiàn)輸出,以完成最后一站工作 。
蘋果在其產(chǎn)品iPhone4S首先展現(xiàn)出的智能語音控制功能,使其產(chǎn)品變身為一個智能機器人 。之后 , 蘋果陸續(xù)發(fā)布了siri新功能 。智能語音是否會成為未來智能手機發(fā)展的主流方向還有待繼續(xù)跟蹤觀察 。

文章插圖
更多精彩文章,敬請關注 超天才網(wǎng)
或關注搜索公眾號 天財評論
旗下?lián)碛刑熵斣u論、天才創(chuàng)業(yè)、天才AI等垂直板塊,主要以超天才思想和視角,為企業(yè)家、創(chuàng)業(yè)者、職業(yè)經(jīng)理人等解讀全球財經(jīng)事件,培育企業(yè)萌芽與發(fā)現(xiàn)并購商機,并以顧雛軍團隊的商業(yè)智慧 , 培養(yǎng)具有遠見卓識、能屹立于世界之林的企業(yè)家和職業(yè)經(jīng)理人隊伍 。
【蘋果智能語音助手Siri初探 ?蘋果語音助手和siri區(qū)別】,
- 發(fā)展人工智能切忌人云亦云
- 假設未來,人工智能具有自主意識了,那人們會將它們作為合法公民嗎?
- 這些專業(yè)未來很“吃香”,畢業(yè)就能拿高薪,人工智能上榜
- 孩子的學習智能機器人哪一款更好用?
- 69 新加坡國立大學碩士申請——智能系統(tǒng)技術碩士
- AI 幾部電影告訴你人類是如何淪為人工智能的玩物
- 高中生學人工智能這幾個專業(yè)有前途嗎?
- 如何運用人工智能技術 實現(xiàn)消防呼叫中心系統(tǒng)智能化升級改造
- 智能家居到底有多智能?
- 蘋果選擇與比亞迪合作的原因及背后的原因
