【碩士論文】大規(guī)模平衡語(yǔ)料的收集分析及文本分類(lèi)方法研究

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-03 格式：doc 頁(yè)數(shù)：88 大?。?.24MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

【碩士論文】大規(guī)模平衡語(yǔ)料的收集分析及文本分類(lèi)方法研究_第1頁(yè)

已閱讀1頁(yè)，還剩87頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　分類(lèi)號(hào) 密級(jí) 　　UDC 編號(hào) 　　中國(guó)科學(xué)院研究生院&l

2、t;/p>　　碩士學(xué)位論文　　大規(guī)模平衡語(yǔ)料的收集分析及文本分類(lèi)方法研究　　陳克利　　指導(dǎo)教師宗成慶研究員博士中科院自動(dòng)化所 　　申請(qǐng)學(xué)位級(jí)別工

3、程碩士學(xué)科專(zhuān)業(yè)名稱(chēng) 模式識(shí)別與智能系統(tǒng) 　　論文提交日期 2004年6月論文答辯日期 2004年6月 　　培養(yǎng)單位中國(guó)科學(xué)院自動(dòng)化研究所 　　學(xué)位授予單位中國(guó)科學(xué)院研究生院 <

4、p>　　答辯委員會(huì)主席 　　Dissertation Submitted to　　Institute of Automation, Chinese Academy of Sciences　　in partial fulfillment of the requirements<

5、;/p>　　for the degree of　　Master of Engineering　　by　　Keli Chen　　(Pattern Recognition

6、and Intelligence System)　　Dissertation Supervisor: Professor Chengqing Zong　　摘要　　語(yǔ)料庫(kù)和詞典是進(jìn)行自然語(yǔ)言處理研究的重要資源。語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為依據(jù)，語(yǔ)言現(xiàn)象的復(fù)雜性決定了要全面的

7、了解其特點(diǎn)必須有大規(guī)模語(yǔ)料庫(kù)的支持，否則只能是無(wú)源之水，無(wú)本之木。尤其是隨著統(tǒng)計(jì)模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用，大規(guī)模語(yǔ)料庫(kù)的作用更加突出，無(wú)論對(duì)于語(yǔ)言現(xiàn)象本身的研究，還是對(duì)于信息檢索、機(jī)器翻譯、文本分類(lèi)、自動(dòng)分詞等應(yīng)用系統(tǒng)的研究和開(kāi)發(fā)，都具有非常重要的意義。同樣，詞典開(kāi)發(fā)不僅是自然語(yǔ)言處理研究的基礎(chǔ)性工作，也是字典編纂、語(yǔ)言教學(xué)等工作的重要環(huán)節(jié)。因此，本論文從事的大規(guī)模平衡語(yǔ)料的收集和分析工作，以及在該工作基礎(chǔ)上開(kāi)展的文本分類(lèi)技術(shù)研究，

8、具有重要的理論意義和實(shí)用價(jià)值。　　本文首先在歐共體項(xiàng)目（LC-STAR）的資助下，開(kāi)展了大規(guī)模漢語(yǔ)平衡語(yǔ)料的收集與分析工作，其主要目的是建立一個(gè)反映現(xiàn)代漢語(yǔ)語(yǔ)言特點(diǎn)的、適用于漢語(yǔ)語(yǔ)言分析、語(yǔ)音識(shí)別和語(yǔ)音合成的漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)，并以此為基礎(chǔ)建立相應(yīng)的信息詞典。該工作主要包括：（1）在對(duì)大規(guī)模漢語(yǔ)平衡語(yǔ)料的收集方法進(jìn)行調(diào)研和分析的基礎(chǔ)上，收集并標(biāo)注了規(guī)模達(dá)3087萬(wàn)字的漢語(yǔ)平衡語(yǔ)料；（2）以收集的語(yǔ)料

9、為基礎(chǔ)，建立了一個(gè)大規(guī)模（10多萬(wàn)詞）的現(xiàn)代漢語(yǔ)信息詞典，詞條標(biāo)注信息包括詞性、注音、詞頻和專(zhuān)用詞的領(lǐng)域信息等。　　以上述工作為基礎(chǔ)，我們對(duì)文本分類(lèi)方法進(jìn)行了深入的研究，主要?jiǎng)?chuàng)新包括：　　在特征權(quán)重計(jì)算方面，通過(guò)對(duì)常見(jiàn)特征權(quán)重算法的分析和比較，提出了在TF*IDF算法中用TF的n次方代替TF，并引入DBV變量的處理方法，使得該算法的F1-Measure測(cè)

10、度分別提高了4~5%。　　類(lèi)似于上面的處理方法，在TF*IWF算法中用TF的n次方代替TF，并引入DBV變量，使得該算法的F1-Measure測(cè)度分別提高了12.28％。　　在特征向量抽取方面，在Rocchio分類(lèi)器上對(duì)常見(jiàn)的特征向量抽取方法進(jìn)行了全面對(duì)比，然后提出了將TF*IDF算法用于特征抽取的處理方法，并通過(guò)實(shí)驗(yàn)證明，該方法在不同數(shù)目關(guān)鍵詞下的分類(lèi)

11、效果均優(yōu)于其它常見(jiàn)的特征向量抽取算法。　　關(guān)鍵詞：平衡語(yǔ)料，語(yǔ)料庫(kù)，文本分類(lèi)，特征抽取　　Abstract　　Corpus and lexicon are important linguistic resource for Natural Language Processin

12、g. Linguistic research should be based on linguistic facts, and large-scale corpus is necessary for probing into linguistic research because of its complexity. Especially, along with wide application of statistical model

13、 in Natural Language Processing, large-scale corpus is playing a more important role. Large-scale copus is important to not only research of linguistic phenomena，but also system for Information Ret

14、Our work supported by European Union’s project of LC-STAR, which includes collection and analysis of a large-scale balance-corpus, aims to build a Chinese tagged corpus and an information lexicon for Speech Recognition a

15、nd Speech Systhesis. The main work can be conluded as: (1) After investigating and analyzing the strategies for large-scale Chinese balance-corpus, we have collected and tagged a Chinese corpus consisting of 30.87M Chine

16、se characters; (2) Based on the collected corpus, we have cr　　We have done some research work on Text Classification based on all the above. Our inovation in Text Classification can be concluded as f

17、ollows: 　　About feature weighting, we have analyzed the advantages and disadvantages of common feature weighting algorithms, and introduced two improvements into TF*IDF which is among common feature

18、weighting alogrithms. The two improvements are replacing TF with its nth root and introducing DBV into the expression. F1-M of classifier has been improved by 4~5%, so the effectiveness has been proved. <p

19、>　　Similarly, we have introduced the two improvements into TF*IWF feature weighting algorithm, resulting in 12.28% improvement of F1-M.　　About feature extraction, we have compared several common f

20、eature extraction algorithms, and presented to introduce TF*IDF algorithm for feature extraction. Our comsequent expriments have proved this algorithm more effective than other ones.　　Keywords: Balan

21、ce Corpus, Corpora, Text Categorization, Feature Extraction　　目錄　　摘要I　　AbstractIII　　第一

22、章緒言1　　第二章大規(guī)模平衡語(yǔ)料的收集分析3　　2.1研究背景3　　2.2國(guó)內(nèi)外語(yǔ)料庫(kù)概況[馮志偉，2000]3　　2.2.1國(guó)內(nèi)語(yǔ)料庫(kù)概況3　　2.2.2國(guó)內(nèi)語(yǔ)料庫(kù)概況4</p

23、>　　2.3大規(guī)模平衡語(yǔ)料的收集分析5　　2.3.1通用語(yǔ)料的收集和通用詞匯的抽取5　　2.3.2專(zhuān)有名詞的收集11　　2.3.3專(zhuān)用詞匯的收集14　　2.3.4注音16　　2.3.

24、5詞典形式16　　2.3.6大規(guī)模平衡語(yǔ)料的分析[陳克利，2003]18　　第三章基于大規(guī)模真實(shí)語(yǔ)料的文本分類(lèi)方法22　　3.1已有的文本分類(lèi)方法簡(jiǎn)介22　　3.1.1純貝葉斯方法23　　3.1.2Rocch

25、io 算法24　　3.1.3k近鄰算法25　　3.1.4支持向量機(jī)算法（SVM）25　　3.1.5決策樹(shù)算法27　　3.1.6其他分類(lèi)算法27　　3.2特征向量的權(quán)重算法28<p

26、>　　3.2.1常用的特征權(quán)重算法29　　3.2.2特征權(quán)重算法的改進(jìn)32　　3.3特征向量的抽取35　　3.4評(píng)價(jià)函數(shù)38　　3.4.1微平均和宏平均38　　3.4.2F-Measure39<

27、/p>　　3.4.3Break-even point [Aas, 1999].39　　3.4.411-point average precision [Taghva, 2004]39　　3.5閥值函數(shù)41　　3.6實(shí)驗(yàn)41</

28、p>　　3.6.1實(shí)驗(yàn)：TF*IWF算法和改進(jìn)后的TF*IWF*DBV算法的比較41　　3.6.2實(shí)驗(yàn): DBV和DBV2的比較46　　3.6.3實(shí)驗(yàn): TF*IDF算法和TF*IDF*DBV算法的對(duì)比47　　3.6.4實(shí)驗(yàn): 不同特征選取方法的對(duì)比51</p&g

29、t;　　第四章結(jié)束語(yǔ)54　　參考文獻(xiàn)56　　第一章緒言　　語(yǔ)料庫(kù)和詞典是進(jìn)行自然語(yǔ)言處理研究的重要資源。語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為依據(jù)，語(yǔ)言現(xiàn)象的復(fù)雜性決定了要全面的了解其特點(diǎn)必須有大規(guī)模語(yǔ)料庫(kù)的支持，

30、否則只能是無(wú)源之水、無(wú)本之木。尤其是隨著統(tǒng)計(jì)模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用，大規(guī)模語(yǔ)料庫(kù)的作用更加突出，無(wú)論對(duì)于語(yǔ)言現(xiàn)象本身的研究，還是對(duì)于信息檢索、機(jī)器翻譯、文本分類(lèi)、自動(dòng)分詞等應(yīng)用系統(tǒng)的研究和開(kāi)發(fā)，都具有非常重要的意義。同樣，詞典開(kāi)發(fā)不僅是自然語(yǔ)言處理研究的基礎(chǔ)性工作，也是字典編纂、語(yǔ)言教學(xué)等工作的重要環(huán)節(jié)。因此，本論文從事的大規(guī)模平衡語(yǔ)料的收集和分析工作，具有重要的理論意義和實(shí)用價(jià)值。　　自

31、動(dòng)文本分類(lèi)技術(shù)是在給定分類(lèi)體系下，根據(jù)文本內(nèi)容確定其所屬類(lèi)別[Kjersti et al., 1999]。隨著網(wǎng)絡(luò)和信息時(shí)代的到來(lái)，人們獲取信息的手段越來(lái)越豐富，可供選擇的信息量也成指數(shù)級(jí)膨脹。數(shù)據(jù)量的增長(zhǎng)一方面為人們進(jìn)行各種活動(dòng)提供了充分的信息資源，另一方面也增加了人們選擇有用信息的難度，如何才能從浩如煙云的結(jié)果中找到自己需要的信息成為擺在人們面前一個(gè)新課題，最好的方式是讓計(jì)算機(jī)以一種自動(dòng)的方式代替人去搜索，而一個(gè)好的搜索系統(tǒng)，首先必

32、須能對(duì)千差萬(wàn)別、來(lái)源各異的文本合理的分類(lèi)和索引，這就是文本分類(lèi)技術(shù)一個(gè)最重要的應(yīng)用—信息檢索。　　自動(dòng)文本分類(lèi)技術(shù)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要課題。除了上面提到的信息檢索以外，文本分類(lèi)還應(yīng)用在其他許多方面，如：信息過(guò)濾、文檔索引、數(shù)字圖書(shū)館的分類(lèi)和管理、詞義消歧、主題識(shí)別、語(yǔ)料庫(kù)建設(shè)、元數(shù)據(jù)生成等。　　本文主要包括三部分內(nèi)容。&l

33、t;p>　　第二章是大規(guī)模平衡語(yǔ)料的收集分析，主要介紹LC-STAR詞典和語(yǔ)料建設(shè)項(xiàng)目，并以此為基礎(chǔ)，比較和分析了不同領(lǐng)域的用詞特點(diǎn)。這一部分又可以分成兩大部分，第一部分主要是介紹與LC-STAR項(xiàng)目相關(guān)的語(yǔ)料收集和詞典建設(shè)工作，包括通用語(yǔ)料的收集和各種詞表（包括通用詞表、專(zhuān)有名詞、專(zhuān)用詞表、總詞表等）的抽取、詞性標(biāo)注、注音等一系列工作。第二部分依據(jù)生成的詞表對(duì)不同詞類(lèi)在各領(lǐng)域的分布情況從兩方面（詞匯量和各種詞類(lèi)所占比例）進(jìn)行了比

34、較分析。　　第三章是基于大規(guī)模真實(shí)語(yǔ)料的文本分類(lèi)研究。根據(jù)第二章的分析我們知　　道不同領(lǐng)域各種詞類(lèi)的分布差別比較大，所以我們選取詞作為文本分類(lèi)的特征進(jìn)行分類(lèi)的研究。在這一部分，我們主要做了三方面的工作，第一部分介紹了現(xiàn)有的一些特征權(quán)重算法，比較了其優(yōu)劣，并提出了我們的改進(jìn)算法；第二部分介紹了現(xiàn)有的一些特征抽取算法，并在對(duì)這些算法分析后，提出了我們的特征抽

35、取算法；第三部分設(shè)計(jì)了五個(gè)實(shí)驗(yàn)，對(duì)上述提到的算法進(jìn)行了對(duì)比，從實(shí)驗(yàn)上證明了改進(jìn)算法的有效性。　　最后一章對(duì)全文進(jìn)行了總結(jié)。　　第二章大規(guī)模平衡語(yǔ)料的收集分析　　鑒于大規(guī)模平衡語(yǔ)料和大規(guī)模漢語(yǔ)詞典的重要性，中科院自動(dòng)化所參加了由Sabanci大學(xué)、IBM、UPC、RWT、NSC、NOK、SIE、AudiTech、

36、Maribor大學(xué)參加的涉及到12國(guó)語(yǔ)言的語(yǔ)料和詞典建設(shè)項(xiàng)目（LC-STAR），該項(xiàng)目全稱(chēng)是面向口語(yǔ)-口語(yǔ)翻譯技術(shù)的語(yǔ)料和詞典建設(shè)。主要目的是建立一個(gè)符合現(xiàn)代漢語(yǔ)語(yǔ)言行為的，適用于語(yǔ)音識(shí)別和語(yǔ)音合成的漢語(yǔ)標(biāo)注語(yǔ)料和信息詞典。　　研究背景　　本項(xiàng)研究的基礎(chǔ)是中科院自動(dòng)化所與諾基亞（中國(guó)）研究中心合作的歐盟項(xiàng)目(LC-S

37、TAR)(中文部分). 本論文的研究工作得到如下項(xiàng)目資助：　　[1]國(guó)家自然科學(xué)基金項(xiàng)目“語(yǔ)音、圖像與視覺(jué)計(jì)算”（項(xiàng)目編號(hào)：60121302）　　[2]歐共體國(guó)際合作項(xiàng)目（LC-STAR項(xiàng)目）“面向口語(yǔ)翻譯的詞匯處理”　　LC-STAR(Lexica and Corpora for Speech-to-Speec

38、h Translation Technologies)(面向口語(yǔ)-口語(yǔ)翻譯技術(shù)的詞典和語(yǔ)料庫(kù)建設(shè)) 是由歐盟發(fā)起的，面向12國(guó)語(yǔ)言的資源建設(shè)項(xiàng)目.其目的是為加泰羅尼亞語(yǔ)、芬蘭語(yǔ)、德語(yǔ)、希臘語(yǔ)、希伯來(lái)語(yǔ)、意大利語(yǔ)、漢語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、標(biāo)準(zhǔn)阿拉伯語(yǔ)、土耳其語(yǔ)和美式英語(yǔ)等12國(guó)語(yǔ)言，建立適用于語(yǔ)音識(shí)別、語(yǔ)音合成以及口語(yǔ)－口語(yǔ)翻譯的大規(guī)模標(biāo)注語(yǔ)料庫(kù)和信息詞典(主要是詞性和注音信息)。　　國(guó)內(nèi)外語(yǔ)料庫(kù)概

39、況[馮志偉，2000]　　最初的語(yǔ)料庫(kù)的建設(shè)比較困難，需要大量的手工工作，隨著計(jì)算機(jī)在語(yǔ)言學(xué)研究領(lǐng)域的廣泛應(yīng)用，這種狀況才得以改變，尤其是近年來(lái),國(guó)內(nèi)外涌現(xiàn)出了很多標(biāo)注詳細(xì)、加工深入、適合用于語(yǔ)言學(xué)研究的大規(guī)模語(yǔ)料庫(kù)。　　國(guó)內(nèi)語(yǔ)料庫(kù)概況　　美國(guó)Brown大學(xué)建立的BROWN語(yǔ)

40、料庫(kù)，英國(guó)Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了LOB語(yǔ)料庫(kù)。歐美學(xué)者利用這兩個(gè)語(yǔ)料庫(kù)開(kāi)展了大規(guī)模的研究，并對(duì)這兩個(gè)語(yǔ)料庫(kù)系統(tǒng)的部分語(yǔ)料進(jìn)行了自動(dòng)標(biāo)注。　　此外比較著名的還有，London-Lund口語(yǔ)語(yǔ)料庫(kù)、AHI語(yǔ)料庫(kù)、OTA牛津文本檔案庫(kù)、BNC英語(yǔ)國(guó)家語(yǔ)料庫(kù)、LDC語(yǔ)言數(shù)據(jù)聯(lián)合會(huì)、RWC日語(yǔ)語(yǔ)料庫(kù)、亞洲各語(yǔ)種對(duì)譯作文語(yǔ)料庫(kù)。<p

41、>　　國(guó)內(nèi)語(yǔ)料庫(kù)概況　　國(guó)內(nèi)早期的語(yǔ)料庫(kù)建設(shè)規(guī)模比較小，不是機(jī)器可讀的，比較大規(guī)?，F(xiàn)代機(jī)器可讀語(yǔ)料庫(kù)的建設(shè)是從1979年開(kāi)始的，早期的機(jī)器可讀語(yǔ)料庫(kù)有：漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)（武漢大學(xué)，1979年，527萬(wàn)字）、現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)（北京航空航天大學(xué)，1983年，2000萬(wàn)字）、中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)（北京師范大學(xué)，1983年，106萬(wàn)字）、現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料

42、庫(kù)（北京語(yǔ)言學(xué)院，1983年，182萬(wàn)字）。其中北京語(yǔ)言學(xué)院的現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)進(jìn)行了語(yǔ)料切分和詞頻統(tǒng)計(jì)，共統(tǒng)計(jì)出31159各不同單詞，統(tǒng)計(jì)結(jié)果編成《現(xiàn)代漢語(yǔ)頻率詞典》　　1991年，國(guó)家語(yǔ)言文字工作委員會(huì)開(kāi)始建立國(guó)家級(jí)的大型漢語(yǔ)語(yǔ)料庫(kù)，以推進(jìn)漢語(yǔ)的語(yǔ)法、句法、語(yǔ)義和語(yǔ)用的研究，同時(shí)也為中文信息處理的研究提供語(yǔ)言資源，計(jì)劃其規(guī)模將達(dá)7000萬(wàn)漢字。這個(gè)語(yǔ)料庫(kù)在時(shí)間上、文化上、使用領(lǐng)域上都有限

43、制。　　1992年以來(lái)，許多進(jìn)行中文信息處理研究的機(jī)構(gòu)都建立了自己的大規(guī)模真實(shí)文本語(yǔ)料庫(kù)如：《人民日?qǐng)?bào)》光盤(pán)數(shù)據(jù)庫(kù)、北京大學(xué)計(jì)算語(yǔ)言學(xué)計(jì)算所、北京語(yǔ)言文化大學(xué)、清華大學(xué)、山西大學(xué)、上海師范大學(xué)、北京郵電大學(xué)、香港城市理工大學(xué)、東北大學(xué)、哈爾濱工業(yè)大學(xué)、中科院軟件研究所、中科院自動(dòng)化所、北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心、臺(tái)灣中央研究院語(yǔ)言研究所。下面重點(diǎn)介紹其中的幾個(gè)語(yǔ)料庫(kù)。&

44、lt;p>　　北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所與富士通公司合作建立了現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)，加工了2700萬(wàn)字的《人民日?qǐng)?bào)》語(yǔ)料庫(kù)，加工項(xiàng)目包括詞語(yǔ)切分、詞性標(biāo)注、專(zhuān)有名詞標(biāo)注。還有多音字注音。北大語(yǔ)料庫(kù)的特點(diǎn)是：　　規(guī)模大：2700萬(wàn)字的熟語(yǔ)料　　加工深：不僅做了切分和詞性標(biāo)注，而且部分語(yǔ)料還進(jìn)行了短語(yǔ)結(jié)構(gòu)分析，建立了樹(shù)庫(kù)，并對(duì)人名、地名和專(zhuān)有名詞進(jìn)行了短語(yǔ)

45、結(jié)構(gòu)標(biāo)注。　　覆蓋面廣：涉及社會(huì)科學(xué)和自然科學(xué)多個(gè)領(lǐng)域　　正確率高：在自動(dòng)加工的基礎(chǔ)上進(jìn)行了大量的人工加工，采用人機(jī)結(jié)合的策略，正確率達(dá)到了相當(dāng)高的水平。　　北京語(yǔ)言文化大學(xué)建立了一系列中文語(yǔ)料庫(kù)，（共約5億字）共10個(gè)語(yǔ)料庫(kù)，主要是從《當(dāng)代中國(guó)叢書(shū)》、《中華人民共和國(guó)年鑒》、《新聞出版報(bào)》、《人民日?qǐng)?bào)》、《經(jīng)濟(jì)

46、日?qǐng)?bào)》等書(shū)籍報(bào)刊中抽取的語(yǔ)料。　　清華大學(xué)也建立了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)：1998年已達(dá)1億漢字，現(xiàn)在生語(yǔ)料已達(dá)7-8億字。他們還進(jìn)行了分詞技術(shù)的深入研究，編制了信息處理用現(xiàn)代漢語(yǔ)分詞詞表，作為分詞重要的語(yǔ)言資源。對(duì)該語(yǔ)料進(jìn)行了切分和標(biāo)注，部分語(yǔ)料進(jìn)行了語(yǔ)塊庫(kù)的人工標(biāo)注。　　臺(tái)灣中央研究院建立了平衡語(yǔ)料庫(kù)和樹(shù)圖語(yǔ)料庫(kù)，兩個(gè)都是標(biāo)記語(yǔ)料庫(kù)，有一定的加工深度。語(yǔ)料庫(kù)

47、規(guī)模為500萬(wàn)字。　　中科院自動(dòng)化所建立的面向旅游信息領(lǐng)域的口語(yǔ)對(duì)話(huà)語(yǔ)料庫(kù)。　　社科院語(yǔ)言所建立的現(xiàn)代自然口語(yǔ)語(yǔ)料庫(kù)[馮志偉，2000]。　　除上述語(yǔ)料庫(kù)以外，國(guó)內(nèi)外還有很多大學(xué)和研究機(jī)構(gòu)建立了自己的語(yǔ)料庫(kù)，這里就不再一一陳述。　　大規(guī)模平衡語(yǔ)料的收集分析</p&g

48、t;　　LC－STAR項(xiàng)目主要包括兩部分任務(wù)：語(yǔ)料的收集和詞表的抽取。我們收集了3087萬(wàn)字的通用語(yǔ)料，并進(jìn)行了詞性標(biāo)注和注音，最后從這些語(yǔ)料中抽取了約40000個(gè)通用詞匯。最終的詞表包括三部分，除了上面提到的通用詞匯外，還抽取了50000多個(gè)專(zhuān)有名詞和7000多個(gè)專(zhuān)用詞匯。詞表中包括了詞性、注音信息和專(zhuān)用詞匯的領(lǐng)域信息，所有這些信息最終都包括在一部xml詞典中。　　語(yǔ)料和

49、詞表的編碼格式采用的是GB2312字符編碼格式　　通用語(yǔ)料的收集和通用詞匯的抽取　　通用領(lǐng)域的確定　　為了確定通用領(lǐng)域的范圍，我們對(duì)國(guó)內(nèi)外一些著名的語(yǔ)料庫(kù)進(jìn)行了分析，這其中包括the Surrey of English Usage（SEU） Corpus，the Brown

50、Corpus, the Longman/Lancaster English Language Corpus（LLELC），the British National Corpus (BNC)，以及清華大學(xué)的人工標(biāo)注語(yǔ)料庫(kù)HanYu等等。此外，對(duì)一些網(wǎng)站的材料也進(jìn)行了統(tǒng)計(jì)和研究如：人民網(wǎng)(www.people.com.cn) 3月20日至3月26日這一周之內(nèi)的材料和內(nèi)容的統(tǒng)計(jì)結(jié)果[Hu, 2002]：

51、;　　表2－1 人民網(wǎng)語(yǔ)料統(tǒng)計(jì)結(jié)果　　聯(lián)合早報(bào)網(wǎng)(www.zaobao.com.sg)的統(tǒng)計(jì)結(jié)果（3月20日至3月26日）：　　表2－2 聯(lián)合早報(bào)網(wǎng)語(yǔ)料統(tǒng)計(jì)結(jié)果　　結(jié)合以上統(tǒng)計(jì)結(jié)果和12國(guó)合作伙伴的建議，下面這些領(lǐng)域被選擇作為通用領(lǐng)域。　　表2－3 通用領(lǐng)域的劃分<

52、/p>　　通用語(yǔ)料的收集　　語(yǔ)料限制　　因?yàn)檎Z(yǔ)料結(jié)構(gòu)和出現(xiàn)時(shí)間對(duì)最終抽取的詞表有較大的影響，12國(guó)合作伙伴最終討論決定對(duì)對(duì)語(yǔ)料做如下限制：（1）語(yǔ)料結(jié)構(gòu)：為了確保每個(gè)領(lǐng)域的語(yǔ)料都足夠充分，至少1M詞的領(lǐng)域語(yǔ)料是必需的。另外由于個(gè)人交流領(lǐng)域的語(yǔ)料收集起來(lái)

53、比較麻煩，所以該領(lǐng)域的詞的最小數(shù)量限制在0.5M。通用詞匯、專(zhuān)有名詞和專(zhuān)用詞匯之間盡量避免重復(fù)以獲取較多數(shù)量的總詞匯。如果重復(fù)出現(xiàn)，要增加詞匯以保證最終得到不少于10M詞條；（2）語(yǔ)料時(shí)間：為了提高詞表的實(shí)用性，詞表應(yīng)充分體現(xiàn)近幾年詞匯使用的特點(diǎn)。所有語(yǔ)料都必須是1990年以后，而且至少有50％的語(yǔ)料在1997年以后[Moreno, A. 2004]。　　語(yǔ)料來(lái)源：</b

54、>　　最快捷，最方便的語(yǔ)料來(lái)源無(wú)疑是電子數(shù)據(jù)形式的語(yǔ)料：在線雜志、網(wǎng)站新聞、網(wǎng)上論壇、網(wǎng)上圖書(shū)館等。需要注意，無(wú)論什么來(lái)源的數(shù)據(jù)應(yīng)當(dāng)盡量避免“專(zhuān)業(yè)化詞匯”。具體來(lái)說(shuō)，我們從以下幾個(gè)網(wǎng)站得到了我們的通用語(yǔ)料：　　表2－4 通用語(yǔ)料的來(lái)源網(wǎng)站　　語(yǔ)料規(guī)模

55、　　表2－5 通用語(yǔ)料在各領(lǐng)域的分布　　通用詞匯的抽取　　通用詞匯是從收集的通用語(yǔ)料中抽取出來(lái)的，通用詞匯是指除去了專(zhuān)有名詞、各種標(biāo)點(diǎn)符號(hào)、數(shù)字以后的詞匯，　　通用詞匯的抽取步驟：　　網(wǎng)頁(yè)下載與

56、處理：　　從以上網(wǎng)站下載網(wǎng)頁(yè)　　半自動(dòng)的移除網(wǎng)頁(yè)中的“垃圾文字”（每個(gè)網(wǎng)頁(yè)中都有一些“本報(bào)記者”，“相關(guān)評(píng)論”等一些非內(nèi)容文本）。　　確認(rèn)領(lǐng)域語(yǔ)料是否充分。　　自動(dòng)分詞與抽取詞匯

57、;　　分詞和詞性標(biāo)注。　　抽取詞匯，同時(shí)統(tǒng)計(jì)出這些詞匯在各領(lǐng)域和總的頻率。　　從詞匯表中移除數(shù)字、標(biāo)點(diǎn)符號(hào)、和專(zhuān)有名詞。　　規(guī)則抽詞　　計(jì)算詞表（無(wú)詞性）

58、標(biāo)記下的總數(shù)量（約35000）小于50000，采用規(guī)則輔助分詞、人工校對(duì)的方法抽取了約3000個(gè)詞：　　觀察語(yǔ)料，抽取規(guī)則　　檢驗(yàn)每一條規(guī)則：用該規(guī)則從一段文本中抽取部分詞匯，檢驗(yàn)其正確率。剔除一些準(zhǔn)確率較低的規(guī)則。最后得到共39條規(guī)則。　　用這39條規(guī)則從原始文本中抽取詞匯

59、，然后手工校正這部分詞匯，最后得到3534個(gè)新增詞匯。　　從原始語(yǔ)料中統(tǒng)計(jì)出這些詞匯在各領(lǐng)域和總的頻率。　　通用詞匯的數(shù)量：最終收集的通用詞匯的數(shù)量如下表所示　　表2－6 通用詞匯的數(shù)量　　通用詞匯的形式：&l

60、t;p>　　詞總體育/游戲新聞財(cái)經(jīng)文化/娛樂(lè)消費(fèi)信息個(gè)人交流　　的1124287261676211699156988150346192932150646　　是283576705933912035205430524192653680　　在275370838235

61、949332817329953725328989　　通用詞匯的標(biāo)注　　通用詞匯主要包括兩種標(biāo)注信息：詞性標(biāo)注和拼音標(biāo)注。標(biāo)注步驟及說(shuō)明如下。　　通用詞匯的詞性標(biāo)注　　分詞軟件分詞的同時(shí)也進(jìn)

62、行了詞性的標(biāo)注，所以抽取通用詞表的時(shí)候，實(shí)際上可以抽取出兩個(gè)詞表，帶詞性的詞表和不帶詞性的詞表。但是由于我們的分詞軟件采用的是973的標(biāo)注體系，不同于LC-STAR的標(biāo)注規(guī)范，所以要將詞性進(jìn)行轉(zhuǎn)換，值得慶幸的是，觀察兩者的詞性定義后可以發(fā)現(xiàn)973的標(biāo)注體系和LC-Star的體系有一個(gè)非常好的對(duì)應(yīng)關(guān)系，所以只要我們建立一個(gè)詞性轉(zhuǎn)換對(duì)應(yīng)表，就可以將詞性標(biāo)注轉(zhuǎn)換稱(chēng)LC-STAR的標(biāo)注體系。LC-STAR的詞性標(biāo)記說(shuō)明見(jiàn)附錄1。</p&g

63、t;　　通用詞匯的注音　　給詞表標(biāo)注漢語(yǔ)拼音　　手工校正多音字　　根據(jù)詞性，校正詞的注音　　建立拼音到SAMPA-C注音規(guī)范的轉(zhuǎn)換表（注

64、意：轉(zhuǎn)音情況），將拼音轉(zhuǎn)化為SAMPA-C的注音　　根據(jù)SAMPA-C注音后的詞表反生成拼音注音并排序的詞表，因?yàn)樯鲜鲎⒁暨^(guò)程中手工校正了一些錯(cuò)誤，所以為了保證詞表的一致性，需要反生成拼音注音并排序的詞表。　　封閉詞匯集　　各種語(yǔ)言都有一些功能詞如：代詞、介詞、連詞等，它們構(gòu)

65、成了語(yǔ)言相對(duì)封閉的一個(gè)詞匯集，所以叫做封閉詞匯集。這些詞經(jīng)常出現(xiàn)在各個(gè)領(lǐng)域的語(yǔ)料中，但不是所有的功能詞都能在語(yǔ)料中發(fā)現(xiàn)。所以有必要手工加入功能詞。根據(jù)LC-STAR項(xiàng)目文件和漢語(yǔ)的特點(diǎn)，我們確定下面這些詞類(lèi)為漢語(yǔ)的功能詞（括號(hào)中為對(duì)應(yīng)的功能詞的數(shù)量）：人稱(chēng)代詞（26），物主代詞（37），指示代詞（49），前置詞（介詞）和后置詞（186），連詞（326），問(wèn)答詞（31），情態(tài)動(dòng)詞（21），量詞（547）。[郭先珍，2002]，[黃檗容，1

66、997],[劉丹青,2003],[呂叔湘，1996]，[張斌，2001].　　專(zhuān)有名詞的收集　　對(duì)于語(yǔ)音識(shí)別和語(yǔ)音合成系統(tǒng)來(lái)說(shuō),一個(gè)非常重要的問(wèn)題就是如何處理各種語(yǔ)音系統(tǒng)中常見(jiàn)的專(zhuān)有名詞。通常很難決定他們的發(fā)音，特別是對(duì)于一些外來(lái)的專(zhuān)有名詞。而另一方面確定他們的準(zhǔn)確發(fā)音,對(duì)于語(yǔ)音識(shí)別和語(yǔ)音合成系統(tǒng)來(lái)說(shuō)又是必需的。因此

67、,我們從各個(gè)領(lǐng)域收集了57528個(gè)專(zhuān)有名詞，并對(duì)它們進(jìn)行了注音和詞性標(biāo)注工作。　　專(zhuān)有領(lǐng)域的確定　　根據(jù)12國(guó)的討論決定，最終確定主要從以下幾個(gè)領(lǐng)域及對(duì)應(yīng)的子領(lǐng)域來(lái)收集專(zhuān)有名詞，見(jiàn)表2－7。　　表2－7 專(zhuān)有名詞的領(lǐng)域及子領(lǐng)域<

68、b>　　專(zhuān)有名詞的收集　　根據(jù)12個(gè)合作伙伴討論決定，專(zhuān)有名詞領(lǐng)域至少應(yīng)當(dāng)包括45000個(gè)詞條，三個(gè)大領(lǐng)域每個(gè)領(lǐng)域的詞條數(shù)目所占總詞條數(shù)目的百分比均應(yīng)限制在10％ - 50％之間，當(dāng)然三個(gè)領(lǐng)域詞條數(shù)目之和應(yīng)當(dāng)?shù)扔诳偟膶?zhuān)有名詞數(shù)。詞形相同的專(zhuān)有名詞和通用詞匯認(rèn)為是兩個(gè)不同的詞條。　　專(zhuān)有名詞的來(lái)源主要有以下幾個(gè)方面：超星數(shù)字圖書(shū)館

69、、網(wǎng)上黃頁(yè)、世界地圖集。專(zhuān)有名詞收集時(shí)都選擇該詞最常用的形式，如“IBM”就保持這種形式，不會(huì)用其全稱(chēng)“International Business Machines”。因?yàn)閷?zhuān)有名詞的收集面向的語(yǔ)音識(shí)別和語(yǔ)音合成，所以收集時(shí)盡量采用其口語(yǔ)性較強(qiáng)的形式，比如盡量采用用戶(hù)手冊(cè)上的公司名稱(chēng)，而不是證券市場(chǎng)上登記的公司名稱(chēng)。同樣道理在線資源也比較適合用來(lái)收集。　　專(zhuān)有名詞的標(biāo)注<

70、/b>　　專(zhuān)有名詞的詞性標(biāo)注　　專(zhuān)有名詞收集的時(shí)候是分類(lèi)收集的，所以其詞性本身已經(jīng)確定，不需要專(zhuān)門(mén)使用標(biāo)注軟件進(jìn)行詞性標(biāo)注。　　專(zhuān)有名詞的詞性說(shuō)明：PER（人名）；GEO（各國(guó)地理名詞）；COU（國(guó)家）；CIT：（城市：國(guó)內(nèi)城市、國(guó)際著名城市、各國(guó)首都）；STR（國(guó)內(nèi)著

71、名街道）；COM（公司組織：盈利和非盈利組織、國(guó)際國(guó)內(nèi)公司）；BRA（品牌名稱(chēng)）；TOU（國(guó)內(nèi)著名的文化歷史景點(diǎn)）。　　專(zhuān)有名詞的注音　　給詞表標(biāo)注漢語(yǔ)拼音　　手工校正多音字&

72、lt;p>　　根據(jù)詞性校正詞的注音　　將拼音轉(zhuǎn)化為SAMPA-C的注音：這是因?yàn)镾AMPA-C的注音體系是為了便于國(guó)際交流，專(zhuān)門(mén)為漢語(yǔ)注音設(shè)定的一套注音符號(hào)。它與漢語(yǔ)拼音有一個(gè)完整的對(duì)應(yīng)，根據(jù)對(duì)應(yīng)表我們可以將拼音轉(zhuǎn)化SAMPA-C的注音體系。其間需要增加對(duì)數(shù)字和括號(hào)的注音，同時(shí)還發(fā)現(xiàn)了詞表的一些錯(cuò)誤，需要手工校正。　　根據(jù)SAMPA-C注音后的詞表

73、反生成拼音注音并排序的詞表　　設(shè)計(jì)了英語(yǔ)音標(biāo)到SAMPA-C符號(hào)的對(duì)應(yīng)表對(duì)專(zhuān)有名詞中的外來(lái)詞匯進(jìn)行注音。（手工完成）　　專(zhuān)有名詞的數(shù)量和形式　　最終得到的專(zhuān)有名詞的數(shù)量如下：　　表2－8 專(zhuān)有名詞各領(lǐng)域詞數(shù)及所占比例<b&g

74、t;　　專(zhuān)有詞表的形式：　　阿迪達(dá)斯BRA　　阿庫(kù)拉BRA　　阿勒錦BRA　　專(zhuān)用詞匯的收集&

75、lt;/p>　　為了滿(mǎn)足與“語(yǔ)音驅(qū)動(dòng)”密切相關(guān)的幾個(gè)應(yīng)用領(lǐng)域的要求，我們收集了約5000個(gè)專(zhuān)用詞，他們都與其所屬的領(lǐng)域密切相關(guān)。有些詞在書(shū)面語(yǔ)料中不常出現(xiàn)，但是對(duì)于真實(shí)的語(yǔ)音應(yīng)用來(lái)說(shuō)卻是必需的。建立專(zhuān)用詞表的目的就在于保證在最終的詞典包含有這些詞。　　詞表主要包括兩部分：數(shù)詞和其他領(lǐng)域密切相關(guān)的專(zhuān)用詞匯。數(shù)詞由我們給出；其他詞匯首先由合作伙伴從限定的應(yīng)用領(lǐng)域中抽取，并

76、以英語(yǔ)的形式給出詞和詞性，對(duì)于動(dòng)詞還會(huì)用英語(yǔ)給出例句和場(chǎng)景說(shuō)明。我們的工作就是將這些詞匯翻譯成漢語(yǔ)詞匯，并給出動(dòng)詞的例句。　　專(zhuān)用領(lǐng)域的確定　　經(jīng)過(guò)LC-STAR項(xiàng)目12國(guó)合作伙伴討論最終將專(zhuān)用領(lǐng)域確定為7大領(lǐng)域、47子領(lǐng)域，共5000多個(gè)詞條，具體見(jiàn)附錄2。

77、;　　專(zhuān)用詞匯的來(lái)源　　數(shù)據(jù)源/媒體沒(méi)有特別的指定，總的來(lái)說(shuō)有下面幾種：詞典、技術(shù)文檔、出版社提供的基本詞匯，除此之外電子資源當(dāng)然還是最方便的方式。數(shù)字應(yīng)當(dāng)是從詞典或者其他資源中獲取的，所有不能用組合規(guī)則得到的數(shù)字都應(yīng)當(dāng)包括在詞表中。所有用于日期和星期的序數(shù)詞都必須被提供。　　專(zhuān)用詞匯的數(shù)量和形式<p&g

78、t;　　最終我們收集的專(zhuān)用詞匯為7521個(gè)，包括每個(gè)詞的領(lǐng)域信息、詞性、例句（針對(duì)動(dòng)詞）、注釋等，具體形式見(jiàn)表2－9。　　表2－9 專(zhuān)用詞表的形式　　說(shuō)明：ID －領(lǐng)域代號(hào)，Nr― 該條目在其所屬領(lǐng)域的序號(hào)，英文術(shù)語(yǔ)―術(shù)語(yǔ)的英語(yǔ)形式，詞性―詞性，翻譯― 術(shù)語(yǔ)的漢語(yǔ)翻譯，舉例―對(duì)于動(dòng)詞術(shù)語(yǔ)需要列舉1～2個(gè)例句，注釋－其他需要說(shuō)明的&l

79、t;/p>　　專(zhuān)用詞匯的形式說(shuō)明：每一個(gè)詞條都應(yīng)當(dāng)對(duì)應(yīng)唯一的ID值，翻譯的基礎(chǔ)是每一行的“英文術(shù)語(yǔ)”欄。每個(gè)英文術(shù)語(yǔ)盡量翻譯成一個(gè)漢語(yǔ)詞匯，翻譯結(jié)果存放在表中“翻譯”欄。如果有英文術(shù)語(yǔ)對(duì)應(yīng)的漢語(yǔ)詞匯不止一個(gè)，為每個(gè)漢語(yǔ)詞匯單列一行。采用領(lǐng)域內(nèi)序號(hào)（Nr）后面按順序添加字母的方式來(lái)區(qū)別不同的翻譯結(jié)果。例如　　如果某個(gè)詞在目標(biāo)語(yǔ)言中不存在，就用一個(gè)近似詞或短語(yǔ)代替，如果這

80、樣的詞也不能找到，那就在注釋欄標(biāo)記“NE”。每個(gè)領(lǐng)域至少要有500個(gè)詞條。需要為每個(gè)動(dòng)詞術(shù)語(yǔ)列舉1～2個(gè)例句。　　專(zhuān)用詞匯的標(biāo)注　　專(zhuān)用詞匯的標(biāo)注同專(zhuān)有詞匯的標(biāo)注過(guò)程。　　注音　　我們首先為每個(gè)詞

81、條標(biāo)注了拼音，然后根據(jù)拼音到SAMPA-C 符號(hào)的轉(zhuǎn)換關(guān)系，將拼音轉(zhuǎn)換成SAMPA-C注音符號(hào)。SAMPA-C注音符號(hào)是專(zhuān)門(mén)針對(duì)普通話(huà)的發(fā)音特點(diǎn)設(shè)定的一套語(yǔ)音標(biāo)注系統(tǒng)，其發(fā)音符號(hào)及對(duì)應(yīng)的說(shuō)明見(jiàn)附錄3。　　漢語(yǔ)中，每個(gè)音節(jié)單個(gè)出現(xiàn)的時(shí)候都有一個(gè)缺省音調(diào)。但是，在連續(xù)口語(yǔ)中，由于連續(xù)變調(diào)的影響，一個(gè)漢字的實(shí)際音調(diào)可能會(huì)不同于其缺省音調(diào)。連續(xù)變調(diào)指的是決定音調(diào)根據(jù)前后音節(jié)而變化的一組規(guī)則。最重要的規(guī)則

82、是當(dāng)兩個(gè)上聲相連時(shí)，前一個(gè)上聲將變成陽(yáng)平。例如： “五<wu3> 百<bai3>”的實(shí)際發(fā)音應(yīng)當(dāng)是“wu2 bai3”。這里“wu3”是缺省發(fā)音，因?yàn)楹竺娓钠匆粢彩巧下?，所以“wu”的發(fā)音變調(diào)為陽(yáng)平。注音時(shí)可以注為：“wu32”，這樣缺省音調(diào)和實(shí)際音調(diào)都可表示出來(lái)。附錄4列舉出了常見(jiàn)的連續(xù)變調(diào)規(guī)則。根據(jù)LC-STAR成員討論后，對(duì)注音做以下約定。　　音調(diào)標(biāo)記采用以下形式

83、：_0、_1、_2、_3、_4 分別代表輕音、陰平、陽(yáng)平、上聲、去聲。　　連字號(hào)(-)也被用作音節(jié)標(biāo)記。　　多音字首先標(biāo)注出所有的讀音，然后根據(jù)詞性手工校正注音。（因?yàn)閷?duì)應(yīng)于不同的詞性，詞的注音是不同的）。　　外來(lái)詞的注音。為了統(tǒng)一標(biāo)注符號(hào)，我們建立了從英語(yǔ)音素到SAMPA-C的對(duì)應(yīng)表，從而外來(lái)詞的標(biāo)注也可以采用

84、SAMPA-C標(biāo)注體系，英語(yǔ)因素到SAMPC－C音素的映射見(jiàn)附錄5。　　詞典形式　　最終我們將幾部分詞：通用詞表（包括封閉詞匯）、專(zhuān)有名詞、專(zhuān)用名詞，合并成一個(gè)總詞數(shù)超過(guò)10M的總詞表，并以國(guó)際上通用的數(shù)據(jù)交換格式XML文檔的形式給出，當(dāng)然詞性、注音、和領(lǐng)域信息也是包含在這個(gè)詞表中的。<

85、p>　　XML格式說(shuō)明　　因?yàn)閄ML標(biāo)記語(yǔ)言具有清晰，明確，易讀性強(qiáng)等特點(diǎn)，所以項(xiàng)目約定采用它來(lái)描述語(yǔ)言信息。采用XML標(biāo)記語(yǔ)言也便于合作者之間的信息交流。使用的XML解析器應(yīng)當(dāng)能夠處理任何1.0版本的XML文檔和UTF-16編碼。　　詞典由很多“條目組”元素構(gòu)成。

86、“條目組”指詞表的一個(gè)類(lèi)條目。每個(gè)條目組必須包含以下元素：　　正詞法　　0個(gè)或者更多的其他拼寫(xiě)形式　　一個(gè)或者更多的“條目”（復(fù)合詞或者縮寫(xiě)詞）子元素　　“條目”指“類(lèi)條目”的一個(gè)特定的語(yǔ)法/詞形信息。每個(gè)條目必須包含以下子元素：&l

87、t;/p>　　詞性以及相應(yīng)的屬性（漢語(yǔ)詞匯沒(méi)有屬性）。在一個(gè)條目組中使用多個(gè)條目來(lái)表示多標(biāo)記或者多屬性。　　詞形。指于對(duì)應(yīng)于條目的一個(gè)詞形的字符串，使用多條目來(lái)表示多詞形的情況。　　注音。包括注音和音節(jié)標(biāo)記。如果有多個(gè)發(fā)音，要表示在同一個(gè)條目組下的不同條目中。　　應(yīng)用詞。每個(gè)應(yīng)用詞都要

88、指定一個(gè)“APP”標(biāo)記?！癆PP”標(biāo)記的結(jié)構(gòu)如下：　　Subdomain_type1 No_of_entry 1 　　… 　　Subdomain_typeN No_of_entryN　　復(fù)合條目包括下面這些元素：

89、　　注音；　　兩個(gè)或更多的相互聯(lián)系的條目元素。每一個(gè)條目元素必須包含一個(gè)正字法和詞性標(biāo)注以及與詞性標(biāo)記相對(duì)應(yīng)的屬性。　　縮寫(xiě)：應(yīng)用詞中的縮寫(xiě)必須有“ABB”標(biāo)注以及一個(gè)或更多的擴(kuò)展標(biāo)注。此外還要包括以下內(nèi)容：　　該縮寫(xiě)實(shí)際的擴(kuò)展形式。

90、　　一個(gè)條目或者復(fù)合條目元素。　　屬性：每個(gè)屬性有一個(gè)預(yù)設(shè)值“NS”（沒(méi)有指定），這個(gè)值在DTD文檔中總是可選的。當(dāng)指定語(yǔ)言中沒(méi)有該屬性時(shí)標(biāo)注該屬性為“NS”。　　附錄6中是部分詞條的邏輯結(jié)構(gòu)及其對(duì)應(yīng)的XML文件部分。　　詞典劃分&

91、lt;p>　　根據(jù)項(xiàng)目要求，我們將詞典分成兩部分：專(zhuān)有詞典和通用詞典。這兩部分需要進(jìn)一步分成更小的容易處理的文件。而且劃分必須建立在字母排序的基礎(chǔ)上。 　　通用詞匯、專(zhuān)用詞表中的HLD和PUN應(yīng)當(dāng)包括在通用詞表中（從LEXIC08－LEXIC13）。專(zhuān)用詞表中的專(zhuān)有名詞、專(zhuān)有名詞應(yīng)當(dāng)包括在專(zhuān)有詞典中（從LEXIC000－LEXIC07）。這兩部分詞典中首先按照拼音排序，再把包含有外來(lái)詞匯的

92、詞放在其他詞的前面。　　DTD文檔描述　　文檔類(lèi)型定義（DTD）是為XML文檔正式指定的語(yǔ)法。這種語(yǔ)法包括自動(dòng)確認(rèn)工作中規(guī)定的所有語(yǔ)言信息。LC-STAR所有語(yǔ)言的詞典使用共同的DTD文檔，這個(gè)文檔已上載到該項(xiàng)目的主頁(yè)上。每個(gè)合作伙伴可以根據(jù)其語(yǔ)言的特點(diǎn)修改該DTD文檔，建立復(fù)合自身語(yǔ)言特點(diǎn)的DTD文檔。</p

93、>　　DTD文檔（LEXICON.DTD）見(jiàn)附錄7。　　大規(guī)模平衡語(yǔ)料的分析[陳克利，2003]　　在LC-STAR項(xiàng)目的基礎(chǔ)上，我們對(duì)收集的通用語(yǔ)料進(jìn)行了用詞特點(diǎn)的初步分析。分析的目的在于比較不同領(lǐng)域常用詞匯量和各種詞類(lèi)使用頻率的差異性，量化的分析各領(lǐng)域之間用詞特點(diǎn)的不同。從而為基于內(nèi)容的分類(lèi)研究提供理論依據(jù)。</p&

94、gt;　　語(yǔ)料和詞表說(shuō)明　　本項(xiàng)研究的基礎(chǔ)是我們（中科院自動(dòng)化所）與諾基亞（中國(guó)）研究中心合作為歐盟項(xiàng)目（LC-STAR）建設(shè)的3087萬(wàn)字的漢語(yǔ)語(yǔ)料庫(kù)[Hu et al, 2002；Cao et al, 2002]。語(yǔ)料主要來(lái)源于五大中文網(wǎng)站（新浪網(wǎng)、人民網(wǎng)、中青論壇網(wǎng)、三九健康網(wǎng)、科學(xué)時(shí)報(bào)網(wǎng)），收集策略以綜合網(wǎng)站為主、專(zhuān)業(yè)網(wǎng)站為輔；

95、時(shí)間上主要集中在近五年以?xún)?nèi)，盡量涵蓋了這幾年出現(xiàn)的一些新領(lǐng)域，時(shí)間和覆蓋面上都具有相當(dāng)?shù)膹V泛性和代表性。目前我們將語(yǔ)料主要分成六大領(lǐng)域：體育、娛樂(lè)和游戲、財(cái)經(jīng)、新聞、個(gè)人交流和消費(fèi)信息。其中消費(fèi)信息領(lǐng)域包括三個(gè)方面：健康、大眾科學(xué)、消費(fèi)科技；個(gè)人交流主要是從網(wǎng)上論壇收集的；新聞包括國(guó)內(nèi)和國(guó)際兩個(gè)方面。每個(gè)領(lǐng)域的語(yǔ)料都在300萬(wàn)字以上。　　從這些語(yǔ)料中共抽取了42923個(gè)詞（除去分詞、標(biāo)注錯(cuò)誤，覆

96、蓋率達(dá)到了99.62%），建立了總詞表、各領(lǐng)域詞表、各領(lǐng)域常用詞表、各領(lǐng)域?qū)Ｓ迷~表共四個(gè)詞表。這里首先說(shuō)明幾個(gè)我們約定的術(shù)語(yǔ)：　　詞頻：某詞在所統(tǒng)計(jì)范圍中出現(xiàn)的次數(shù)除以該統(tǒng)計(jì)范圍所有詞的次數(shù)之和。　　詞表覆蓋率：詞表對(duì)所統(tǒng)計(jì)范圍的覆蓋率，等于該詞表中所有詞在所統(tǒng)計(jì)范圍內(nèi)的詞頻之和。　　各領(lǐng)域常用詞表：從各領(lǐng)域詞表

97、中按照頻率從高到低取詞建立的覆蓋率達(dá)90%的詞表。　　各領(lǐng)域?qū)Ｓ迷~表：由本領(lǐng)域內(nèi)出現(xiàn)頻率大于等于0.0005%，在其他領(lǐng)域出現(xiàn)頻率之和小于等于0.0001%的詞構(gòu)成的詞表。　　在下文中，我們使用下面幾個(gè)符號(hào)代替這六個(gè)領(lǐng)域：SPO代表體育領(lǐng)域；ENT代表娛樂(lè)和游戲領(lǐng)域；FIN代表財(cái)經(jīng)領(lǐng)域；NEW代表新聞?lì)I(lǐng)域；PER代表個(gè)人交流領(lǐng)域；CON代表消費(fèi)信息領(lǐng)域。

98、　　統(tǒng)計(jì)結(jié)果　　各領(lǐng)域詞匯量的分布　　表1中，列出了各領(lǐng)域詞匯量、常用詞匯量、專(zhuān)用詞匯量、專(zhuān)用詞匯覆蓋率的統(tǒng)計(jì)結(jié)果。　　表2－10 各領(lǐng)域詞匯量的分布

99、從表1各領(lǐng)域詞匯量的統(tǒng)計(jì)結(jié)果可以看出：　　各領(lǐng)域所用到的詞匯量差別很大。詞匯量最大的PER（共34879）是最小的NEW（11299）的詞匯量的三倍還要多。這主要是因?yàn)镻ER實(shí)際上是一個(gè)綜合領(lǐng)域，它包括很多主題，所以用到的詞匯量很大。但是該領(lǐng)域又不完全等同于其他幾個(gè)領(lǐng)域的簡(jiǎn)單相加，因?yàn)樗褂玫脑~匯更具有口語(yǔ)的特性，而其他幾個(gè)領(lǐng)域以書(shū)面用語(yǔ)為主。除了PER以外，詞匯量較大的是CON，這是因?yàn)樗?/p>

100、三個(gè)子領(lǐng)域，涉及范圍很廣。從上面的比較可以看出與人們?nèi)粘Ｉ?、日常交流?lián)系越緊密、涉及的范圍越廣的領(lǐng)域詞匯量就越大，反之，詞匯量就越小。　　相比各領(lǐng)域詞匯量而言，各領(lǐng)域常用詞匯量之間的差別雖然不是很大，但也是很明顯的，詞匯量最大的PER（6352）比最小的SPO（3737）也多出70%。　　各領(lǐng)域?qū)Ｓ迷~匯量的比例是很低的。從表中可以看出每個(gè)領(lǐng)域?qū)Ｓ迷~匯量

101、都不是很大，最多也只有460個(gè)，領(lǐng)域覆蓋率只有0.7949%，而且這類(lèi)詞在各領(lǐng)域中出現(xiàn)的頻率普遍比較低，所以在領(lǐng)域劃分時(shí)不能過(guò)分倚重這類(lèi)詞。　　各領(lǐng)域詞類(lèi)分布的比較　　統(tǒng)計(jì)了領(lǐng)域詞匯量以后，我們又對(duì)領(lǐng)域詞類(lèi)的分布進(jìn)行了統(tǒng)計(jì)。在我們的工作中，漢語(yǔ)詞類(lèi)分為如下幾類(lèi)：數(shù)詞（NUM）、名詞（NOM）、介詞（ADP）、形容詞（ADJ）、副詞（ADV）、代詞（PRO

102、）、連詞（CON）、動(dòng)詞（VER）、量詞（MEW）、輔助詞（AUW）、其他詞（OTHERS）。各領(lǐng)域詞類(lèi)及常用詞類(lèi)分布如圖1、圖2所示。　　從詞類(lèi)分布可以看出各領(lǐng)域的用詞特點(diǎn)，如：名詞在消費(fèi)信息領(lǐng)域（CON）中使用頻率最高，在個(gè)人交流領(lǐng)域（PER）中使用頻率最低。主要因?yàn)榍罢哂腥齻€(gè)子領(lǐng)域：健康、大眾科學(xué)、消費(fèi)科技，所以要涉及到很多疾病、新產(chǎn)品、新技術(shù)的名稱(chēng)。相對(duì)而言后者涉及到更多的口語(yǔ)，名詞使用

103、率要低一些。同樣個(gè)人交流領(lǐng)域（PER）代詞的使用率（6.80%）是財(cái)經(jīng)領(lǐng)域（FIN）代詞使用率（2.39%）的兩倍還要多。這也很容易理解，因?yàn)閭€(gè)人交流中我、你、她等代詞的使用頻率是相當(dāng)高的，但是財(cái)經(jīng)領(lǐng)域（FIN）使用這種詞匯的幾率顯然要小的多。常用詞表各種詞類(lèi)的分布情況和總詞表大致相同。　　結(jié)論　　從上面的統(tǒng)計(jì)結(jié)果可

104、以看出，不同領(lǐng)域之間詞匯量、常用詞匯量、專(zhuān)用詞匯量、專(zhuān)用詞匯覆蓋率等都有很大的不同。同一詞類(lèi)的分布特性也因領(lǐng)域各異。從統(tǒng)計(jì)學(xué)上，我們可以選取“詞”作為文本分類(lèi)的特征，建立基于內(nèi)容的文本分類(lèi)系統(tǒng)。這也是現(xiàn)在大多數(shù)基于內(nèi)容的文本分類(lèi)系統(tǒng)的選擇“詞”來(lái)作為分類(lèi)特征的原因。　　第三章基于大規(guī)模真實(shí)語(yǔ)料的文本分類(lèi)方法　　自動(dòng)文本分類(lèi)技術(shù)是在給定分類(lèi)體系下，根據(jù)文

105、本內(nèi)容確定其所屬類(lèi)別。隨著網(wǎng)絡(luò)和信息時(shí)代的到來(lái)，人們獲取信息的手段越來(lái)越豐富，可供選擇的信息量也成指數(shù)級(jí)膨脹，尤其是以網(wǎng)絡(luò)為代表的信息傳播方式。數(shù)據(jù)信息的增長(zhǎng)帶來(lái)了兩方面的結(jié)果，一方面：為人們進(jìn)行各種活動(dòng)提供了充分的資源，而且通過(guò)網(wǎng)絡(luò)相當(dāng)?shù)谋憬?；另一方面：要從浩如云煙的結(jié)果中找到自己真正需要的信息也越來(lái)越困難，除非能夠以一種自動(dòng)的方式讓計(jì)算機(jī)幫助去查找。而一個(gè)好的查找系統(tǒng)，首先最關(guān)鍵的是要對(duì)千差萬(wàn)別的各種來(lái)源的文本進(jìn)行合理的分類(lèi)和整理。

106、這就是文本分類(lèi)技術(shù)一個(gè)最重要的應(yīng)用――信息檢索。　　自動(dòng)文本分類(lèi)技術(shù)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要課題。除了上面提到的信息檢索以外，文本分類(lèi)還可以應(yīng)用在許多方面，如：信息過(guò)濾、文檔索引、數(shù)字圖書(shū)館的分類(lèi)和管理、詞義消歧、主題識(shí)別、語(yǔ)料庫(kù)建設(shè)、元數(shù)據(jù)生成以及其他需要組織文檔的方面。　　信息過(guò)濾實(shí)際上就是一個(gè)分類(lèi)問(wèn)題，而且很多時(shí)候過(guò)濾的依據(jù)也是信息的內(nèi)容。而網(wǎng)

107、絡(luò)上絕大部分信息都是以文本的形式傳播的，所以好的自動(dòng)文本分類(lèi)技術(shù)可以大大提高過(guò)濾的準(zhǔn)確性。　　語(yǔ)料庫(kù)的建設(shè)和數(shù)字圖書(shū)館的分類(lèi)中都需要給文檔建立索引，而如果完全靠手工的方式將數(shù)以百萬(wàn)記的文檔分類(lèi)、索引，不但費(fèi)時(shí)費(fèi)力，而且準(zhǔn)確率也很難保證。最好的辦法是訓(xùn)練一個(gè)自動(dòng)分類(lèi)系統(tǒng)，以自動(dòng)分類(lèi)為主，手工校正為輔，不但可以大大節(jié)省人力和時(shí)間，而且也可以保證分類(lèi)的正確率。

108、　　眾所周知，詞義消歧是機(jī)器翻譯、信息檢索、語(yǔ)音識(shí)別、語(yǔ)音合成等研究領(lǐng)域的一個(gè)難點(diǎn)，而詞義的一個(gè)非常明顯的特點(diǎn)就是往往具有領(lǐng)域相關(guān)性，所以只要能夠根據(jù)上下文信息確定所屬領(lǐng)域，詞義就可以限定在一個(gè)較小的范圍之內(nèi)甚至完全確定。而根據(jù)文本信息確定領(lǐng)域恰恰正式文本分類(lèi)的任務(wù)。　　信息資源元數(shù)據(jù)的常見(jiàn)元素：主題識(shí)別、描述、類(lèi)型等的生成，也都與基于內(nèi)容的文本分類(lèi)密切相關(guān)。<p&

109、gt;　　已有的文本分類(lèi)方法簡(jiǎn)介　　文本分類(lèi)的研究歷史比較長(zhǎng)，最早的研究可以追溯到20世紀(jì)60年代。直到上世紀(jì)80年代，最有效的分類(lèi)方法還是基于知識(shí)工程的方法，通常是由領(lǐng)域?qū)＜腋鶕?jù)語(yǔ)料特點(diǎn)和分類(lèi)體系總結(jié)出一套規(guī)則，基于這些規(guī)則建立自動(dòng)分類(lèi)器。這種分類(lèi)器的建立費(fèi)時(shí)費(fèi)力，而且由于規(guī)則往往具有語(yǔ)料相關(guān)性，任務(wù)語(yǔ)料改變了，分類(lèi)器的規(guī)則就要重新建立。　　進(jìn)入90年

110、代以來(lái)，隨著網(wǎng)絡(luò)和信息技術(shù)的發(fā)展，大批的在線語(yǔ)料觸手可得，計(jì)算機(jī)技術(shù)的應(yīng)用也加快了計(jì)算相關(guān)技術(shù)的發(fā)展，這一切都促進(jìn)了基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)的產(chǎn)生和發(fā)展，并逐漸取代了知識(shí)工程的方法。[Sebastiani, 1999]. 這種方法通常依據(jù)一定的數(shù)學(xué)公式，從預(yù)分類(lèi)的訓(xùn)練語(yǔ)料中學(xué)習(xí)參數(shù)自動(dòng)建立分類(lèi)器。由于參數(shù)是自動(dòng)學(xué)習(xí)的，所以大大節(jié)省了人力和時(shí)間，而且往往也不需要太多的專(zhuān)家知識(shí)。最常見(jiàn)的基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法有：純貝葉斯方法、Roc

111、chio方法、k近鄰算法、支持向量機(jī)、決策樹(shù)算法、神經(jīng)網(wǎng)絡(luò)算法[Aas, 1999]、LLSF（線性最小二乘擬和）[Yang, 1999]、最大墑方法[Nigam, 1999].　　純貝葉斯方法　　純貝葉斯方法是一種基于最大似然估計(jì)的方法。根據(jù)貝葉斯理論：

112、　　(公式3-1)　　其中，是類(lèi)Ci在文檔d時(shí)的條件概率（文檔d屬于類(lèi)Ci的概率）；是文檔d在類(lèi)Ci下的條件概率；是類(lèi)Ci的概率；是文檔d的概率。在比較文檔d分別屬于幾個(gè)類(lèi)別的概率時(shí)，分母是相同的，所以只要比較分子的大小。　　和可以通過(guò)下面的公式得到：　　其中，是訓(xùn)練語(yǔ)料中屬于類(lèi)Ci的文件數(shù)；

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【碩士論文】大規(guī)模平衡語(yǔ)料的收集分析及文本分類(lèi)方法研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載