您現(xiàn)在的位置:智能制造網(wǎng)>新聞首頁>人物故事
鄧力:以獨特視角詮釋語音識別領(lǐng)域新技術(shù)進展
鄧力:我們在第12章講了遷移學(xué)習(xí),并舉了用其他語言的語料幫助一個特定語言的語音識別的例子。跨語言能共享DNN隱層架構(gòu)有很強的物理和認(rèn)知的基礎(chǔ)。不論什么語言,其發(fā)音器官(主要包括聲道和聲門)大體相似。人類語音感知機制是同生成機制緊密相連的。所以DNN作為語音感知層的模型在高層上共享隱層是很自然的思想。
12章講的所有例子都是基于音素及其左右context作為基本語音單元。我覺得如果能把喬姆斯基的生成式音韻結(jié)構(gòu)用上來定義基本語音單元做遷移學(xué)習(xí),至少理論意義會更大。共享隱層的基礎(chǔ)會更扎實些,因為用音韻結(jié)構(gòu)定義的語音感知單元就是按照人類發(fā)音器官跨語言共享的總體特性來決定的。
從更廣闊的意義上講,遷移學(xué)習(xí)可以成為完成非監(jiān)督學(xué)習(xí)的重要“知識源”之一,特別當(dāng)數(shù)據(jù)和問題本身有組合特性的時候。上月開完的CVPR有一篇很好的關(guān)于“DeepCompositionNet”的論文,用到的遷移學(xué)習(xí)很巧妙很有趣。語音領(lǐng)域里的這種組合特性更豐富,特別在于怎樣將音素(類比為分子)分解為phonologicalfeatures(類比為原子)。而且這種分解組合與“features”之間非同步的時程演化有關(guān)。這是語音很有趣的特性。
記者:當(dāng)前熱門的LSTMRNN被高估了嗎?
鄧力:熱門而古老的LSTMRNN確實很有效。GRU簡化了LSTM不少,也類似有效。但要注意,把它們用到語音識別時必須用HMM的動態(tài)規(guī)劃或者CTC來處理LSTMRNN的輸出。手寫體字的識別也一樣。但用到自然語言處理就不需要這樣多此一舉,因為輸入輸出的序列沒有像語音和手寫體識別那樣的segmental特性。
LSTMRNN的之一Schmidhuber教授近日正好來到西雅圖。我們又一次在一起討論,也談起LSTMRNN在語音識別和其他領(lǐng)域(包括增強學(xué)習(xí)方面)的重要應(yīng)用。我不覺得有被高估。
記者:書中介紹了一系列的未來技術(shù)方向,其中哪些是您的團隊所關(guān)注的?您如何確定一個技術(shù)研究的方向?
鄧力:英文版的書是在2014年中完稿的。近兩年來深度學(xué)習(xí)發(fā)展很快。15章后一節(jié)提到的一系列的未來技術(shù)方向,不少方面至今已經(jīng)有很大的進展。書完稿之后又很快出現(xiàn)新的技術(shù)研究的方向。
我領(lǐng)導(dǎo)的團隊現(xiàn)在主要聚焦在自然語言語義理解及其在對話系統(tǒng)(包括聊天機器人)上的應(yīng)用。語音的進一步進展目前相對是次要,因為識別率已經(jīng)高到在對話系統(tǒng)上可以使用的地步了。
確定技術(shù)研究的方向有幾個因素要結(jié)合,包括其潛在的對工業(yè)界和學(xué)術(shù)界的影響力,實際應(yīng)用的可能性和廣泛性,創(chuàng)新價值和新穎性,能否利用現(xiàn)有技術(shù)積累比較快速地實現(xiàn),等等。當(dāng)然也包括團隊有無激情和能力把它做成。所以團隊的質(zhì)量重要。我領(lǐng)導(dǎo)的團隊近年來靠公司內(nèi)部富有激情和高度能力的強手隊員做了幾項很有影響力的深度學(xué)習(xí)大項目,但因涉及商業(yè)應(yīng)用尚未對外發(fā)表,這在一定程度上對吸引公司外部的強手起了負(fù)面作用。我們正在設(shè)法改變這種狀況,使我們的團隊更加強壯。
記者:訓(xùn)練關(guān)鍵的發(fā)音特征并泛化,目前有什么樣的進展?您認(rèn)為技術(shù)成熟還需要什么條件?
鄧力:剛才提到我們目前的精力主要在自然語言理解,我近來沒有跟蹤這方面的進展。但我認(rèn)為有效利用語音composition特性來做基于遷移學(xué)習(xí)的泛化是一個方向,因為發(fā)音特征的變化往往是源于個別發(fā)音器工作的微小變化,并非某個音素整體的變化。
記者:未來三五年的ASR領(lǐng)域,是否還有一些非深度學(xué)習(xí)方法具有挖掘的潛力(或者可以和深度學(xué)習(xí)進行結(jié)合實現(xiàn)更好的效果)?
鄧力:像英文和普通話中文已有比較大量的有標(biāo)注的訓(xùn)練數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干以達(dá)到識別效果。整合深度生成模型有助于進一步提高識別效果。
對于低資源的語言或中文的很多方言,有標(biāo)注的訓(xùn)練數(shù)據(jù)不多。基于貝葉斯網(wǎng)絡(luò)的生成模型可能更有效。同時,Kernel非線性方法(非深度模型)也就不受大數(shù)據(jù)scalability的限制。
在所有以上情形里,在非監(jiān)督深度學(xué)習(xí)成功之后,它們的識別效果都會有很大的提升,因為更多無標(biāo)注的語音數(shù)據(jù)可以被有效地加以應(yīng)用。
增強學(xué)習(xí)的作用
記者:AlphaGo的進展讓世界注意到了增強學(xué)習(xí),您認(rèn)為(深度)增強學(xué)習(xí)在語音識別領(lǐng)域能發(fā)揮什么樣的作用?
鄧力:增強學(xué)習(xí)的本質(zhì)是階段性的優(yōu)化過程,同時增強信號或有“標(biāo)注”的信號只是到終點階段才清楚(好比AlphaGo下的圍棋后誰贏誰輸),或者對在每階段都有的增強信號不值得過于介意(不像有監(jiān)督學(xué)習(xí)的標(biāo)注那樣介意到把它直接當(dāng)作目標(biāo)去優(yōu)化逼近)因為這種增強信號只起局部性的參考估值(evaluative)作用。這些例子是我們團隊正在做的不同類型的聊天和對話機器人的場景。
對語音識別,每個句子標(biāo)注的信號價值都很高,而且我們真把它當(dāng)作目標(biāo)去優(yōu)化逼近來訓(xùn)練系統(tǒng)參數(shù)。所以這是一個典型的有監(jiān)督學(xué)習(xí)問題(或者在不久將來會成為非監(jiān)督學(xué)習(xí)問題),并不是增強學(xué)習(xí)問題。但如果把語音識別作為整個語音對話系統(tǒng)的一部分,而且用端到端深度增強學(xué)習(xí)方法來優(yōu)化整個系統(tǒng),那么語音識別器的參數(shù)會跟有監(jiān)督學(xué)習(xí)得到的結(jié)果略有不同,因為語音識別器的參數(shù)會受端到端深度增強學(xué)習(xí)影響,盡管增強學(xué)習(xí)主要是用到整個語音對話系統(tǒng)系統(tǒng)優(yōu)化的后端。
所以,初看起來好像以序列結(jié)構(gòu)為輸出的語音識別和增強學(xué)習(xí)都用到動態(tài)規(guī)劃來做訓(xùn)練和測試,但它們的目的是很不一樣的。
非監(jiān)督學(xué)習(xí)語音識別的關(guān)鍵
記者:您多次表示看好語音的非監(jiān)督學(xué)習(xí),并且書中還談到了詞嵌入,未來詞嵌入的引入會是語音領(lǐng)域非監(jiān)督學(xué)習(xí)的大殺器嗎?
鄧力:兩年前我們在寫這本書后一章后一節(jié)時,我們將詞嵌入的利用和改善作為一個未來方向。之后我對這個問題有更多的思考。下面利用這個采訪機會小結(jié)一下。
非監(jiān)督深度學(xué)習(xí)的本質(zhì)是在無標(biāo)注數(shù)據(jù)的條件下要能夠有效地將各類相關(guān)的“先驗”知識整合到一個完整而能快速計算和優(yōu)化的深度學(xué)習(xí)框架。我的這個觀念同其他說非監(jiān)督深度學(xué)習(xí)的專家很不同。可能他們還沒想得那么清楚和深入。我常對新加入我團隊和做機器學(xué)習(xí)理論的同事說,我的這個觀念可以又稱為“有無限實際價值的非監(jiān)督深度學(xué)習(xí)”,而不是大家在機器學(xué)習(xí)書本、wikipedia和文獻上看到的幾乎是沒多少實際價值的非監(jiān)督學(xué)習(xí)。
說到先驗知識,我們就看到貝葉斯方法很重要,不能單用神經(jīng)網(wǎng)絡(luò)。一定要做到有原則性的整合。
詞嵌入的本質(zhì)是利用了詞在句子中分配特性,也就是鄰近詞的預(yù)測特性(近見到一些深度學(xué)習(xí)專家談到用類似的預(yù)測特性做有關(guān)視頻的非監(jiān)督深度學(xué)習(xí))。但這只是所應(yīng)該用的先驗知識的一小部分。更重要的先驗知識應(yīng)該是關(guān)于輸出序列變量的強統(tǒng)計特性,也就是如何把大型且高質(zhì)量的語言模型用到全系統(tǒng)學(xué)習(xí),并且同時有效地用上極大量無標(biāo)注的語音數(shù)據(jù)。
說到詞嵌入或音素嵌入用到語音識別領(lǐng)域,我覺得更有意思的是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。我在MIT時(1992-1993)同我的學(xué)生孫曉東把喬姆斯基的生成式音韻結(jié)構(gòu)用到GMM-HMM的輸出層上得到很有意思的結(jié)果,1994年在JASA發(fā)表了很長的論文。記得當(dāng)年Hinton教授從多倫多到MIT訪問我時,討論到是否能把這種生成式音韻結(jié)構(gòu)知識用到神經(jīng)網(wǎng)絡(luò)架構(gòu)上。當(dāng)時沒繼續(xù)進展,也許現(xiàn)在可以在這方面開展一些工作。
同樣重要的是關(guān)于語音生成的先驗知識加上從其他任務(wù)中學(xué)來的知識。對抗式網(wǎng)絡(luò)的思路是可以用來整合語音生成知識到動態(tài)深度神經(jīng)網(wǎng)絡(luò)的方法之一。這里有很多好的研究可以做。
當(dāng)然關(guān)于輸入變量的統(tǒng)計特性對非監(jiān)督深度學(xué)習(xí)也很重要,比如在傳統(tǒng)意義上講的非監(jiān)督學(xué)習(xí)的自動分類。我同伯克利大學(xué)的BinYu教授有很多這方面的討論。但對語音領(lǐng)域這后者不是那么容易用得好,因為語音有很特殊的動態(tài)特性。
很多這些想法都還沒寫到我們的書里。在第2、3、6和15章里,只是略提了一些。
類腦機器智能突破現(xiàn)有神經(jīng)網(wǎng)絡(luò)的局限
記者:您關(guān)注的類腦機器智能是否局限于神經(jīng)網(wǎng)絡(luò)?如果不是,能否介紹您在這方面的新研究及其在語音方面的應(yīng)用?
鄧力:類腦機器智能同神經(jīng)網(wǎng)絡(luò)關(guān)系大。直接有關(guān)的是如何利用神經(jīng)脈沖特性,包括用STDP來改善現(xiàn)有的神經(jīng)網(wǎng)絡(luò)和算法。早在2013年溫哥華的ICASSP大會期間,Hinton教授是我請來做主題演講的,我們當(dāng)時開會期間就談了很多關(guān)于STDP的問題,包括STDP同BackProp的緊密關(guān)系以及可能的BackProp改善使它更相符人腦的運行機制。還有很多相似的類腦機制很可能將來會對現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)算法和機器智能產(chǎn)生顯著的影響。
至于神經(jīng)網(wǎng)絡(luò)以外的,這要看你怎樣定義神經(jīng)網(wǎng)絡(luò)——深層生成式模型可以屬于神經(jīng)網(wǎng)絡(luò),也可以屬于非神經(jīng)網(wǎng)絡(luò)的圖模型或貝葉斯網(wǎng)絡(luò)。后者著重于將應(yīng)用領(lǐng)域的知識(比如語音識別中的從發(fā)音器官的控制到發(fā)音器官的運動再到聲音的產(chǎn)生的一系列因果關(guān)系)用疏散的矩陣把隨機變量“節(jié)點”連接起來。并著重于用統(tǒng)計分布來描述非確定性,因為現(xiàn)實應(yīng)用領(lǐng)域的知識很少是確定無暇的。這類深層生成式模型比較難用類腦的機制和算法來改善。如果能用GPU加速運算就不錯了。事實上就連這也沒那么簡單。
對可以當(dāng)成神經(jīng)網(wǎng)絡(luò)看待的深層生成式模型,類腦機器智能的潛力很大。這種模型撇開應(yīng)用領(lǐng)域的知識而用統(tǒng)一的密集矩陣來參數(shù)化整個模型。不但用GPU加速運算就像DNN一樣容易,不少類腦機制和認(rèn)知科學(xué)理論也可以比較直接用上。
說到認(rèn)知科學(xué)理論用于類腦機器智能,我領(lǐng)導(dǎo)的團隊正在同美國一所大學(xué)的教授合作開發(fā)一個新型的基于高維張量的結(jié)構(gòu)表征和知識庫。這個項目由我親手抓,它直接受啟發(fā)于人腦對純符號樹狀或圖狀結(jié)構(gòu)的表征。這對于自然語言和知識的組織利用和增長都非常關(guān)鍵。
長遠(yuǎn)看來,類腦機器智能一定會突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)存在的許多局限。我的團隊在以上方面的工作目前大部分用在自然語言語義理解、對話系統(tǒng)和知識整合諸方面的利用。語音識別方面的問題相對簡單一點。
- 凡本網(wǎng)注明"來源:智能制造網(wǎng)"的所有作品,版權(quán)均屬于智能制造網(wǎng),轉(zhuǎn)載請必須注明智能制造網(wǎng),http://m.xashilian.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品來源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 01云南能投:獲得馬龍區(qū)色甲光伏發(fā)電項目
7月04日,云南能源投資股份有限公司發(fā)布公告,確定公司獲得[詳細(xì)]
- 02云南省智能工廠梯度培育工作實施方案(2025—2027年)
至2027年,云南省基礎(chǔ)級智能工廠普及覆蓋率大幅提升,建設(shè)認(rèn)[詳細(xì)]
- 03埃瑪克CEO到訪秦川集團工業(yè)母機創(chuàng)新基
未來,雙方將依托秦川的產(chǎn)業(yè)鏈優(yōu)勢與埃瑪克的國際化網(wǎng)絡(luò)、供[詳細(xì)]
- 04風(fēng)電和光伏發(fā)電資源普查試點中期工作會議召開
7月2日,國家能源局組織召開了風(fēng)電和光伏發(fā)電資源普查試點中[詳細(xì)]
- 05全球首臺三圓組合管幕機“鹿城號”順利下線
全球首臺三圓組合管幕機“鹿城號”將應(yīng)用于三亞河口通道管幕[詳細(xì)]
- 06環(huán)境部土壤中心參編稻田甲烷減排方法學(xué)被采納
生態(tài)環(huán)境部土壤中心參與編制的《節(jié)水旱管種植節(jié)水抗旱稻減排[詳細(xì)]
- 075月份多缸柴油內(nèi)燃機銷量同比增長2.05%
2025年5月,多缸柴油內(nèi)燃機銷售31.93萬臺,環(huán)比增長-16.18%[詳細(xì)]
- 08中電環(huán)保:在手合同金額合計為30.79億元
7月03日,中電環(huán)保股份有限公司發(fā)布《投資者關(guān)系活動記錄表[詳細(xì)]
- 01工信部強調(diào)以改革精神和優(yōu)良作風(fēng)加快推進新型工業(yè)化
大家一致表示,工業(yè)化是現(xiàn)代化的基礎(chǔ)和核心動力,信息化是現(xiàn)[詳細(xì)]
- 02早報|國產(chǎn)機器狗速度突破每秒10米,刷新世界記錄
“新一代黑豹2.0”憑借卓越性能與前沿技術(shù),以10.3米/秒的速[詳細(xì)]
- 032025年度國家綠色數(shù)據(jù)中心推薦工作啟動,聚焦六大領(lǐng)域
在工業(yè)、信息通信、能源、互聯(lián)網(wǎng)、金融、公共機構(gòu)6個領(lǐng)域,[詳細(xì)]
- 04“稚暉君”出新作靈犀X2-N機器人:雙足
稚暉君帶來了最新作品靈犀X2-N輪足機器人,設(shè)計靈感來自中國[詳細(xì)]
- 05人工智能在制造業(yè)中增強質(zhì)量保證的效果
人工智能一直在改變著各個行業(yè),制造業(yè)也不例外。人工智能可[詳細(xì)]
- 06均普智能簽訂2825萬元人形機器人銷售框架合同
在簽訂此合同之前,銷售方已與采購方簽訂了一臺人形機器人供[詳細(xì)]
- 07世界首臺超超臨界W型火焰鍋爐點火吹管成功
作為貴州省首批集成“風(fēng)光火儲一體化”與“源網(wǎng)荷儲一體化”[詳細(xì)]
- 08快來看四川這些地方黨政領(lǐng)導(dǎo)如何抓實生
近日,攀枝花市組織開展2025年“6·29”全民義務(wù)植樹活動。市[詳細(xì)]
- 01均普智能與智元加速人形機器人規(guī)模化落地
普智機器人成為首個獲得上海智元新創(chuàng)技術(shù)有限公司啟動通用產(chǎn)[詳細(xì)]
- 02CIOE激光技術(shù)及智能制造展9月在深圳舉
本屆CIOE激光技術(shù)及智能制造展將一站式展示激光產(chǎn)業(yè)鏈上下游[詳細(xì)]
- 03玉禾田旗下玉樹智能揭牌,加速布局智能
玉樹智能機器人近日正式揭牌成立,由玉禾田間接全資控股,注[詳細(xì)]
- 04《廈門市加快推進海洋經(jīng)濟高質(zhì)量發(fā)展若
《廈門市加快推進海洋經(jīng)濟高質(zhì)量發(fā)展若干措施》著力從構(gòu)建現(xiàn)[詳細(xì)]
- 05電子行業(yè)3項推薦性國家標(biāo)準(zhǔn)報批公示
《工業(yè)互聯(lián)網(wǎng)平臺設(shè)備健康管理規(guī)范》等3項推薦性國家標(biāo)準(zhǔn)的[詳細(xì)]
- 062025年及以后值得關(guān)注的人工智能物聯(lián)網(wǎng)
AIoT通過將AI的強大決策能力與IoT的廣泛連接能力相結(jié)合,為[詳細(xì)]
- 07人工智能、物聯(lián)網(wǎng)和5G的融合:對未來意
人工智能、物聯(lián)網(wǎng)和5G的融合是未來技術(shù)發(fā)展的必然趨勢。這一[詳細(xì)]
- 0810億元!國產(chǎn)GPU曦望完成新一輪融資
據(jù)報道,國產(chǎn)GPU公司曦望Sunrise,近日完成了近10億元的新一[詳細(xì)]