面向計(jì)算機(jī)的現(xiàn)代漢語“得”字研究.pdf_第1頁
已閱讀1頁,還剩221頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著信息時(shí)代的到來,中文信息的自動化處理越來越顯示出其重要價(jià)值。然而缺少細(xì)致的致力于規(guī)則的句法描寫已成為嚴(yán)重制約中文信息自動化處理的瓶頸。句法分析作為自然語言處理中的重點(diǎn)和難點(diǎn),雖然經(jīng)過幾十年的研究與發(fā)展,但是當(dāng)面對大量真實(shí)文本的分析時(shí),由于漢語句子的復(fù)雜性和靈活性等特點(diǎn),對漢語句子的完全分析無論在空間上還是在時(shí)間上都受到了極大的挑戰(zhàn)。部分句法分析(Partial Parsing)作為近年來出現(xiàn)的一個(gè)新的語言處理策略,主要著眼于組塊(c

2、hunk)的識別與分析。盡管部分句法分析的結(jié)果并不是一棵完整的句法樹,但各個(gè)組塊是完整句法樹的一個(gè)子圖(subgraph),只要加上組塊之間的依附關(guān)系(attachment),就可以構(gòu)成完整的句法樹。這樣就使句法分析的任務(wù)在某種程度上得到簡化,同時(shí)也有利于句法分析技術(shù)在大規(guī)模真實(shí)文本處理系統(tǒng)中迅速得到利用。
   本文以“面向計(jì)算機(jī)的現(xiàn)代漢語‘得’字研究”為題正基于此,我們希望通過對“得”字結(jié)構(gòu)的識別研究,使之成為完整句法樹的一

3、個(gè)子圖,從而最終實(shí)現(xiàn)計(jì)算機(jī)的自動識別。由于純粹從為計(jì)算機(jī)識別服務(wù)的目的出發(fā),立足于面向計(jì)算機(jī)的自然語言信息處理,我們將研究范圍限定在無論來源、無論讀音、無論詞性,凡字形相同的“得”字均在我們的討論之列。研究重點(diǎn)主要集中在三個(gè)方面。
   第一,“得”字結(jié)構(gòu)的分布特征研究。在對各類“得”字的句法功能及語義特征進(jìn)行明確界定的基礎(chǔ)上,對“得”字結(jié)構(gòu)的語體分布特征進(jìn)行了詳細(xì)的描述,并對表現(xiàn)出來的明顯傾向性進(jìn)行了適當(dāng)?shù)姆治?。著重觀察“得”

4、字述補(bǔ)結(jié)構(gòu)中“得”前成分與不同語體的對應(yīng)關(guān)系,以及“得”后不同補(bǔ)語類型在各類語體中的分布情況,并分析其分布狀況及產(chǎn)生對應(yīng)關(guān)系的原因。
   第二,“得”字結(jié)構(gòu)的組合特征研究。在對各類“得”字左右鄰接特征分布進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上,結(jié)合對“得”字左右鄰接限制特征的調(diào)查,對“得1”、“得2”、“得3”、“得4”的左鄰接和右鄰接特征及其限制性特征進(jìn)行了包括隱性鄰接在內(nèi)的詳細(xì)描述,發(fā)現(xiàn)其鄰接規(guī)律,并就“得”字的左右顯性鄰接共現(xiàn)情況進(jìn)行觀察和描

5、述;引入“熵”的計(jì)算,通過數(shù)據(jù)的演算進(jìn)一步說明各類“得”字對左右鄰接詞語所具有的選擇性。
   第三,“得”字述補(bǔ)結(jié)構(gòu)的語法及語義分析研究。在借鑒前人研究成果的基礎(chǔ)上,從利于計(jì)算機(jī)識別與處理的觀點(diǎn)出發(fā),對“得”字述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)類型,即可能式述補(bǔ)結(jié)構(gòu)和非可能式述補(bǔ)結(jié)構(gòu),從句法模式到句法成分間的語義選擇進(jìn)行了明確的界定;并就非可能式述補(bǔ)結(jié)構(gòu)中補(bǔ)語的結(jié)構(gòu)類型進(jìn)行分類,確立了非可能式述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。
  

6、 本文研究的創(chuàng)新之處在于:
   (1)首次以為計(jì)算機(jī)識別服務(wù)為目的,立足于面向計(jì)算機(jī)的自然語言信息處理,對現(xiàn)代漢語的“得”字進(jìn)行包括語體分布特征、左右鄰接特征、語法結(jié)構(gòu)及語義關(guān)系等在內(nèi)的全方位的觀察與研究,借助形式標(biāo)記的發(fā)掘,實(shí)現(xiàn)對不同類型“得”字結(jié)構(gòu)的鑒別,以適應(yīng)計(jì)算機(jī)對不同“得”字“理解”的要求。
   (2)運(yùn)用詞匯語法理論,定量統(tǒng)計(jì)與定性分析相結(jié)合,研究“得”字結(jié)構(gòu)內(nèi)部成分之間的鄰接關(guān)系和共現(xiàn)關(guān)系。對顯性的鄰接

7、特征和左右成分共現(xiàn)情況進(jìn)行了詳細(xì)的描述,并對隱性的鄰接特征進(jìn)行了預(yù)測。
   (3)在“得”字的鄰接研究中引入“熵”的概念,通過數(shù)據(jù)的演算進(jìn)一步說明各類“得”字對左右鄰接詞語所具有的選擇性。同時(shí),也為今后搭配概率的統(tǒng)計(jì)分析提供有利的數(shù)據(jù)支持。
   (4)從為計(jì)算機(jī)的自動識別提供盡可能形式化、可操作的語言學(xué)標(biāo)準(zhǔn)的觀點(diǎn)出發(fā),對“得”字述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)類型,從句法模式到句法成分間的語義選擇進(jìn)行了明確的界定;并就非可能式述補(bǔ)結(jié)構(gòu)

8、中補(bǔ)語的結(jié)構(gòu)類型進(jìn)行分類,確立了非可能式述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。
   (5)建立大規(guī)模的真實(shí)文本語料庫,自行標(biāo)注,為本課題研究奠定了堅(jiān)實(shí)的基礎(chǔ),保證了研究結(jié)果的信度和效度。首次實(shí)現(xiàn)了在大規(guī)模的語料庫范圍內(nèi)采用基于統(tǒng)計(jì)的方法對現(xiàn)代漢語“得”字在真實(shí)文本中的使用情況進(jìn)行窮盡性的研究。
   (6)自行研制WordParse軟件和 DataWord軟件,完成數(shù)據(jù)庫建設(shè)及數(shù)據(jù)統(tǒng)計(jì)分析,建構(gòu)前后接續(xù)觀察和統(tǒng)計(jì)系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論