【人工智能_人工智能導論課件】第10章自然語言理解_第1頁
已閱讀1頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第 10 章 自然語言處理及其應用,教材: 王萬良《人工智能導論》(第3版) 高等教育出版社,第10章 自然語言處理及其應用,如果計算機能夠理解、處理自然語言,這將是計算機技術的一項重大突破。自然語言理解的研究在應用和理論兩個方面都具有重大的意義。本章首先自然語言理解的概念以及發(fā)展歷史,然后從應用角度介紹機器翻譯和語音識別技術。,2,第10章 自然語言處理及其應用,10.1 自然語言理解的概念

2、與發(fā)展歷史 10.2 語言處理過程的層次10.3 機器翻譯10.4 語音識別,3,第10章 自然語言處理及其應用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機器翻譯10.4 語音識別,4,10.1.1 自然語言理解的概念,微觀角度:從自然語言到機器內(nèi)部的一個映射。宏觀角度:使機器能夠執(zhí)行人類所期望的某種語言功能。,(1)回答問題:計算機正確地回答用自然語言輸入的有關問題。(2)文摘

3、生成:機器能產(chǎn)生輸入文本的摘要。 (3)釋義:機器能用不同的詞語和句型來復述輸入的自然語言信息。(4)翻譯:機器能把一種語言翻譯成另外一種語言。,5,10.1.2 自然語言理解研究的產(chǎn)生與發(fā)展,1. 萌芽時期(20世紀40年代末50年代初),2. 以關鍵詞匹配技術為主的時期 (20世紀60年代始),A. Donald Booth & W. Weaver M. Chomsky 形式語言和文法,3. 以句法語義分析技術為主的

4、時期 ( 20世紀70年代后),4. 基于知識的自然語言理解發(fā)展時期,5. 基于大規(guī)模語料庫的自然語言理解發(fā)展時期,68年B. Raphael:語義檢索系統(tǒng)SIRJ. Weizenbaum:心理醫(yī)療ELIZA,72年W. Woods:語音接口LUNART. Winograd :英語對話SHEDLU,6,第10章 自然語言處理及其應用,10.1自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機器翻譯10.4

5、 語音識別,7,文字表達句子的層次:詞素→詞或詞形→詞組或句子。聲音表達句子的層次:音素→音節(jié)→音詞→音句。 語言處理過程分為五個層次:語音分析、詞法分析、句法分析、語義分析和語用分析。 語用分析:研究語言所存在的外界環(huán)境對語言使用產(chǎn)生的影響。構(gòu)成單詞發(fā)音的獨立單元是音素。上下文不同而發(fā)音不同。 語音分析就是根據(jù)音位規(guī)則,從語言流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個個音節(jié)及其對應的詞素或詞。,10.2 語言處理

6、過程的層次,8,1. 詞法分析,定義:從句子中切分出單詞,找出詞匯的各個詞素 ,并確定其詞義。,例:unchangeable: un-change-able,英語詞法分析 特點:切分單詞容易,找出詞素復雜。,例:importable分為 import-able或 im-port-able,詞法分析算法舉例:repeatlook for word in dictionary

7、 if not found then modify the wordUntil word is found or no further modification possible,9,1. 詞法分析,例如:對于單詞catches、ladies可以做如下的分析。 catches ladies, 詞典中查不到 catche ladie 修改1:

8、去掉s catch ladi 修改2:去掉e lady 修改3:把i變成y這樣,在修改2的時候,就可以找到catch,在修改3的時候就可以找到lady。,例如:優(yōu)秀人才學人才學1. 優(yōu)秀人-才學人才學2. 優(yōu)秀人才-學人才學,漢語詞法分析 特點:找出詞素簡單,切分出詞困難。,ly副詞后輟;ed動詞過去分詞,10,,,1

9、型文法: 上下文有關文法,2型文法:上下文無關文法,3型文法:正則文法,左線性文法:A→Bt 或 A→t(A→Bt→Ct*t)右線性文法 : A→tB或A→t,產(chǎn)生式規(guī)則: x→y,產(chǎn)生式規(guī)則: x→y例:AB→CDE √ ABC→DE × XaY→XbY,產(chǎn)生式規(guī)則:A→x,0型文法:無約束短語結(jié)構(gòu)文法,2. 句法分析: 喬姆斯基的形式文法,11,3. 語義分析,語義分析是將句法成分與應用領域中的

10、目標表示相關聯(lián)。,簡單做法:依次使用獨立的句法分析程序和語義解釋程序。缺點:使句法分析、語義分析分離,語義文法格文法,12,語義文法是將文法知識和語義知識組合起來,以統(tǒng)一的方式定義為文法規(guī)則集。,艦船信息:S→PRESENT the ATTRIBUTE OF SHIPPRESENT→What is|Can you tell meATTRIBUTE→length|classSHIP→the SHIPNAME|CLASSNAME

11、SHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine,3. 語義分析,13,目的:為了找出動詞和跟動詞處在結(jié)構(gòu)關系中的名詞的語義關系,同時也涉及動詞或動詞短語與其他的各種名詞短語之間的關系。,特點:允許以動詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描述句法,但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻對應于語義關系,而非嚴格的句法關系。,例:Mary hit Bill Bill was

12、hit by Mary (Hit(Agent Mary) (Dative Bill)),3. 語義分析,14,S,S,NP,NP,VP,VP,V,NP,V,PP,Bill,Mary,hit,was hit,by,Bill,Mary,,,,,,,,,,,,,,,,主動句和被動句的句法分析樹,3. 語義分析,15,第10章 自然語言理解及其應用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.

13、7 機器翻譯10.8 語音識別,16,10.3 機器翻譯,10.3.1 機器翻譯方法概述 10.3.2 翻譯記憶,17,10.3.1 機器翻譯方法概述,發(fā)展歷程:,,,,,,,18,1. 直譯式翻譯系統(tǒng)(direct translation MT systems) 通過快速的分析和雙語詞典,將原文譯出。,2. 規(guī)則式翻譯系統(tǒng)(rule-based MT systems) 先分析原文內(nèi)容,產(chǎn)生

14、原文的句法結(jié)構(gòu),再轉(zhuǎn)換成譯 文的句法結(jié)構(gòu),最后再生成譯文。,10.3.1 機器翻譯方法概述,19,,3. 中介語式翻譯系統(tǒng)(inter-lingual MT systems) 先生成一種中介的表達方式,而非特定語言的結(jié)構(gòu); 再由中介的表達式,轉(zhuǎn)換成譯文。,基于規(guī)則的翻譯,中介語式的翻譯,10.3.1 機器翻譯方法概述,20,,4. 知識庫式翻譯系統(tǒng)(knowledge-based MT

15、systems) 翻譯經(jīng)常需要除了詞匯之外的各種知識,使用知識獲取工具(knowledge acquisition),以充實知識庫的內(nèi)容。,6. 范例式翻譯系統(tǒng)(example-based MT systems ) 將過去的翻譯結(jié)果,當成范例,產(chǎn)生一個范例庫。,5. 統(tǒng)計式翻譯系統(tǒng)(Statistics-based MT systems ) 源語言中任一句子都可能是目標語言中某些句子相似。,7. 混合式翻譯系統(tǒng)(S

16、tatistics-based MT systems ) 同時采用多種策略,以達成翻譯的目標。,10.3.1 機器翻譯方法概述,21,基本原理:用戶利用已有的原文和譯文,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復勞動,只需專注于新內(nèi)容的翻譯。翻譯記憶庫同時在后臺不斷學習和自動儲存新的譯文,變得越來越“聰明”。,德國塔多思(TRAD

17、OS)公司的翻譯記憶軟件基于UNICODE(統(tǒng)一字符編碼),支持55種語言,覆蓋了幾乎所有語言版本的 Windows95/98/NT 。,10.3.2 翻譯記憶,22,第10章 自然語言理解及其應用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機器翻譯10.4 語音識別,23,10.4.1 語言識別的概念,語音識別用語音作為輸入,口語對話與語音信號中語言提取的不同: (1)上下文猜測

18、 (2)肢體語言傳達信息,機器翻譯用印刷文本作為輸入,能清楚地區(qū)分單個單詞和單詞串 。,fare | fairmale | mail,24,10.4.2 語音識別的主要過程,,,,1.語音信號采集 基于單片機,DSP芯片 基于PC機,2.語音信號預處理預濾波(1)抑制輸入信號各頻域分量中頻率超出采樣頻率的一半的所有分量,以防止混疊干擾。(2)抑制50Hz的電源工頻干擾。,25,,,,,,,,語音信號預處理 采樣

19、:對信號進行量化,量化不可避免地會產(chǎn)生誤差。量化后的信號值與原信號值之間的差值為量化誤差,又稱為量化噪聲。 預加重:是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。 端點檢測:包含語音的一段信號中確定出語音的起點以及終點。,10.4.2 語音識別的主要過程,26,,,,,,,,過零率:信號中波形穿越零電平的次數(shù)來描述幅度變化的劇烈程度。,ZCR(i) =

20、∑|sgn(xi(n))-sgn(xi(n+1))|,10.4.2 語音識別的主要過程,27,,,,聲波有兩個主要特征:振幅和頻率。 線性預測編碼(LPC): 基本思想:由于語音樣點之間存在相關性,所以可以用過去p個樣點值來預測現(xiàn)在或未來的樣點值。,,10.4.2 語音識別的主要過程,28,,,矢量量化(vector quantization,VQ)技術是七十年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術。在標量

21、量化中整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值,對于一個輸入的標題信號,量化時落入小區(qū)間的值就用這個代表值代替。,矢量量化的基本原理:將若干個標量數(shù)據(jù)組成一個矢量在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。,10.4.2 語音識別的主要過程,4.向量量化,29,5.識別。識別系統(tǒng)的輸入是從語音信號中提出的特征參數(shù)語音識別所采用的方法一般有:(1)模板匹配法。在訓練階段,用戶將詞匯表中的每一個詞

22、依次說一遍,將其特征矢量作為模板存入模板庫。在識別階段,將輸入語音的特征矢量序列依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結(jié)果輸出。 (2)隨機模型法。如隱馬爾可夫模型(HMM)。用HMM的概率參數(shù)來對似然函數(shù)進行估計與判決,從而得到識別結(jié)果。 (3)概率語法分析法。不同的人說同一些語音時,相應的語譜總有一些共同的特點以區(qū)分于其他語音。將區(qū)別性特征與來自構(gòu)詞、句法、語義等語用約束相互結(jié)合,構(gòu)成由底向上或自頂向下

23、的交互作用知識系統(tǒng)。,10.4.2 語音識別的主要過程,30,10.4.3 隱馬爾可夫模型,隱馬爾可夫模型: 表示序列可能出現(xiàn)的一種方法。,y跟在ph后面出現(xiàn)的概率>跟在t后面出現(xiàn)的概率,例 序列:1 2 3 3 4。則概率0.9×0.5×0.4×0.6=0.108,31,,狀態(tài)隱含,觀察可測,10.4.4 基于隱馬爾可夫模型的語音識別方法,(1)觀察符號是一幀幀的語音參數(shù)(2)狀態(tài)序列是具

24、體的語音內(nèi)容,LPC或MFCC,前進,后退,例:,32,解決三個基本問題:,(1)輸出概率計算問題:給定觀察序列 和HMM模型,計算輸出概率 。(2)狀態(tài)序列解碼問題:給定觀察序列 和HMM模型,確定最優(yōu)的轉(zhuǎn)移序列。(3)模型參數(shù)估計問題:調(diào)整模型 的參數(shù),以使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論