版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 分類號(hào) 密級(jí) </p><p> UDC 編號(hào) </p><p><b> 中國(guó)科學(xué)院研究生院</b>&l
2、t;/p><p><b> 碩士學(xué)位論文</b></p><p> 大規(guī)模平衡語(yǔ)料的收集分析及文本分類方法研究</p><p><b> 陳克利</b></p><p> 指導(dǎo)教師 宗成慶 研究員 博士 中科院自動(dòng)化所 </p><p> 申請(qǐng)學(xué)位級(jí)別 工
3、程碩士 學(xué)科專業(yè)名稱 模式識(shí)別與智能系統(tǒng) </p><p> 論文提交日期 2004年6月 論文答辯日期 2004年6月 </p><p> 培養(yǎng)單位 中國(guó)科學(xué)院自動(dòng)化研究所 </p><p> 學(xué)位授予單位 中國(guó)科學(xué)院研究生院 </p><
4、p> 答辯委員會(huì)主席 </p><p> Dissertation Submitted to</p><p> Institute of Automation, Chinese Academy of Sciences</p><p> in partial fulfillment of the requirements<
5、;/p><p> for the degree of</p><p> Master of Engineering</p><p><b> by</b></p><p><b> Keli Chen</b></p><p> (Pattern Recognition
6、and Intelligence System)</p><p> Dissertation Supervisor: Professor Chengqing Zong</p><p><b> 摘 要</b></p><p> 語(yǔ)料庫(kù)和詞典是進(jìn)行自然語(yǔ)言處理研究的重要資源。語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為依據(jù),語(yǔ)言現(xiàn)象的復(fù)雜性決定了要全面的
7、了解其特點(diǎn)必須有大規(guī)模語(yǔ)料庫(kù)的支持,否則只能是無(wú)源之水,無(wú)本之木。尤其是隨著統(tǒng)計(jì)模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,大規(guī)模語(yǔ)料庫(kù)的作用更加突出,無(wú)論對(duì)于語(yǔ)言現(xiàn)象本身的研究,還是對(duì)于信息檢索、機(jī)器翻譯、文本分類、自動(dòng)分詞等應(yīng)用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語(yǔ)言處理研究的基礎(chǔ)性工作,也是字典編纂、語(yǔ)言教學(xué)等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語(yǔ)料的收集和分析工作,以及在該工作基礎(chǔ)上開展的文本分類技術(shù)研究,
8、具有重要的理論意義和實(shí)用價(jià)值。</p><p> 本文首先在歐共體項(xiàng)目(LC-STAR)的資助下,開展了大規(guī)模漢語(yǔ)平衡語(yǔ)料的收集與分析工作,其主要目的是建立一個(gè)反映現(xiàn)代漢語(yǔ)語(yǔ)言特點(diǎn)的、適用于漢語(yǔ)語(yǔ)言分析、語(yǔ)音識(shí)別和語(yǔ)音合成的漢語(yǔ)標(biāo)注語(yǔ)料庫(kù),并以此為基礎(chǔ)建立相應(yīng)的信息詞典。該工作主要包括:(1)在對(duì)大規(guī)模漢語(yǔ)平衡語(yǔ)料的收集方法進(jìn)行調(diào)研和分析的基礎(chǔ)上,收集并標(biāo)注了規(guī)模達(dá)3087萬(wàn)字的漢語(yǔ)平衡語(yǔ)料;(2)以收集的語(yǔ)料
9、為基礎(chǔ),建立了一個(gè)大規(guī)模(10多萬(wàn)詞)的現(xiàn)代漢語(yǔ)信息詞典,詞條標(biāo)注信息包括詞性、注音、詞頻和專用詞的領(lǐng)域信息等。</p><p> 以上述工作為基礎(chǔ),我們對(duì)文本分類方法進(jìn)行了深入的研究,主要?jiǎng)?chuàng)新包括:</p><p> 在特征權(quán)重計(jì)算方面,通過對(duì)常見特征權(quán)重算法的分析和比較,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV變量的處理方法,使得該算法的F1-Measure測(cè)
10、度分別提高了4~5%。</p><p> 類似于上面的處理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV變量,使得該算法的F1-Measure測(cè)度分別提高了12.28%。</p><p> 在特征向量抽取方面,在Rocchio分類器上對(duì)常見的特征向量抽取方法進(jìn)行了全面對(duì)比,然后提出了將TF*IDF算法用于特征抽取的處理方法,并通過實(shí)驗(yàn)證明,該方法在不同數(shù)目關(guān)鍵詞下的分類
11、效果均優(yōu)于其它常見的特征向量抽取算法。</p><p> 關(guān)鍵詞:平衡語(yǔ)料,語(yǔ)料庫(kù),文本分類,特征抽取</p><p><b> Abstract</b></p><p> Corpus and lexicon are important linguistic resource for Natural Language Processin
12、g. Linguistic research should be based on linguistic facts, and large-scale corpus is necessary for probing into linguistic research because of its complexity. Especially, along with wide application of statistical model
13、 in Natural Language Processing, large-scale corpus is playing a more important role. Large-scale copus is important to not only research of linguistic phenomena,but also system for Information Ret</p><p>
14、Our work supported by European Union’s project of LC-STAR, which includes collection and analysis of a large-scale balance-corpus, aims to build a Chinese tagged corpus and an information lexicon for Speech Recognition a
15、nd Speech Systhesis. The main work can be conluded as: (1) After investigating and analyzing the strategies for large-scale Chinese balance-corpus, we have collected and tagged a Chinese corpus consisting of 30.87M Chine
16、se characters; (2) Based on the collected corpus, we have cr</p><p> We have done some research work on Text Classification based on all the above. Our inovation in Text Classification can be concluded as f
17、ollows: </p><p> About feature weighting, we have analyzed the advantages and disadvantages of common feature weighting algorithms, and introduced two improvements into TF*IDF which is among common feature
18、weighting alogrithms. The two improvements are replacing TF with its nth root and introducing DBV into the expression. F1-M of classifier has been improved by 4~5%, so the effectiveness has been proved. </p><p
19、> Similarly, we have introduced the two improvements into TF*IWF feature weighting algorithm, resulting in 12.28% improvement of F1-M.</p><p> About feature extraction, we have compared several common f
20、eature extraction algorithms, and presented to introduce TF*IDF algorithm for feature extraction. Our comsequent expriments have proved this algorithm more effective than other ones.</p><p> Keywords: Balan
21、ce Corpus, Corpora, Text Categorization, Feature Extraction</p><p><b> 目 錄</b></p><p><b> 摘 要I</b></p><p> AbstractIII</p><p><b> 第一
22、章緒 言1</b></p><p> 第二章大規(guī)模平衡語(yǔ)料的收集分析3</p><p> 2.1研究背景3</p><p> 2.2國(guó)內(nèi)外語(yǔ)料庫(kù)概況[馮志偉,2000]3</p><p> 2.2.1國(guó)內(nèi)語(yǔ)料庫(kù)概況3</p><p> 2.2.2國(guó)內(nèi)語(yǔ)料庫(kù)概況4</p
23、><p> 2.3大規(guī)模平衡語(yǔ)料的收集分析5</p><p> 2.3.1通用語(yǔ)料的收集和通用詞匯的抽取5</p><p> 2.3.2專有名詞的收集11</p><p> 2.3.3專用詞匯的收集14</p><p> 2.3.4注音16</p><p> 2.3.
24、5詞典形式16</p><p> 2.3.6大規(guī)模平衡語(yǔ)料的分析[陳克利,2003]18</p><p> 第三章基于大規(guī)模真實(shí)語(yǔ)料的文本分類方法22</p><p> 3.1已有的文本分類方法簡(jiǎn)介22</p><p> 3.1.1純貝葉斯方法23</p><p> 3.1.2Rocch
25、io 算法24</p><p> 3.1.3k近鄰算法25</p><p> 3.1.4支持向量機(jī)算法(SVM)25</p><p> 3.1.5決策樹算法27</p><p> 3.1.6其他分類算法27</p><p> 3.2特征向量的權(quán)重算法28</p><p
26、> 3.2.1常用的特征權(quán)重算法29</p><p> 3.2.2特征權(quán)重算法的改進(jìn)32</p><p> 3.3特征向量的抽取35</p><p> 3.4評(píng)價(jià)函數(shù)38</p><p> 3.4.1微平均和宏平均38</p><p> 3.4.2F-Measure39<
27、/p><p> 3.4.3Break-even point [Aas, 1999].39</p><p> 3.4.411-point average precision [Taghva, 2004]39</p><p> 3.5閥值函數(shù)41</p><p><b> 3.6實(shí)驗(yàn)41</b></
28、p><p> 3.6.1實(shí)驗(yàn):TF*IWF算法和改進(jìn)后的TF*IWF*DBV算法的比較41</p><p> 3.6.2實(shí)驗(yàn): DBV和DBV2的比較46</p><p> 3.6.3實(shí)驗(yàn): TF*IDF算法和TF*IDF*DBV算法的對(duì)比47</p><p> 3.6.4實(shí)驗(yàn): 不同特征選取方法的對(duì)比51</p&g
29、t;<p> 第四章結(jié)束語(yǔ)54</p><p><b> 參考文獻(xiàn)56</b></p><p><b> 第一章緒 言</b></p><p> 語(yǔ)料庫(kù)和詞典是進(jìn)行自然語(yǔ)言處理研究的重要資源。語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為依據(jù),語(yǔ)言現(xiàn)象的復(fù)雜性決定了要全面的了解其特點(diǎn)必須有大規(guī)模語(yǔ)料庫(kù)的支持,
30、否則只能是無(wú)源之水、無(wú)本之木。尤其是隨著統(tǒng)計(jì)模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,大規(guī)模語(yǔ)料庫(kù)的作用更加突出,無(wú)論對(duì)于語(yǔ)言現(xiàn)象本身的研究,還是對(duì)于信息檢索、機(jī)器翻譯、文本分類、自動(dòng)分詞等應(yīng)用系統(tǒng)的研究和開發(fā),都具有非常重要的意義。同樣,詞典開發(fā)不僅是自然語(yǔ)言處理研究的基礎(chǔ)性工作,也是字典編纂、語(yǔ)言教學(xué)等工作的重要環(huán)節(jié)。因此,本論文從事的大規(guī)模平衡語(yǔ)料的收集和分析工作,具有重要的理論意義和實(shí)用價(jià)值。</p><p> 自
31、動(dòng)文本分類技術(shù)是在給定分類體系下,根據(jù)文本內(nèi)容確定其所屬類別[Kjersti et al., 1999]。隨著網(wǎng)絡(luò)和信息時(shí)代的到來(lái),人們獲取信息的手段越來(lái)越豐富,可供選擇的信息量也成指數(shù)級(jí)膨脹。數(shù)據(jù)量的增長(zhǎng)一方面為人們進(jìn)行各種活動(dòng)提供了充分的信息資源,另一方面也增加了人們選擇有用信息的難度,如何才能從浩如煙云的結(jié)果中找到自己需要的信息成為擺在人們面前一個(gè)新課題,最好的方式是讓計(jì)算機(jī)以一種自動(dòng)的方式代替人去搜索,而一個(gè)好的搜索系統(tǒng),首先必
32、須能對(duì)千差萬(wàn)別、來(lái)源各異的文本合理的分類和索引,這就是文本分類技術(shù)一個(gè)最重要的應(yīng)用—信息檢索。</p><p> 自動(dòng)文本分類技術(shù)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要課題。除了上面提到的信息檢索以外,文本分類還應(yīng)用在其他許多方面,如:信息過濾、文檔索引、數(shù)字圖書館的分類和管理、詞義消歧、主題識(shí)別、語(yǔ)料庫(kù)建設(shè)、元數(shù)據(jù)生成等。</p><p> 本文主要包括三部分內(nèi)容。</p>&l
33、t;p> 第二章是大規(guī)模平衡語(yǔ)料的收集分析,主要介紹LC-STAR詞典和語(yǔ)料建設(shè)項(xiàng)目,并以此為基礎(chǔ),比較和分析了不同領(lǐng)域的用詞特點(diǎn)。這一部分又可以分成兩大部分,第一部分主要是介紹與LC-STAR項(xiàng)目相關(guān)的語(yǔ)料收集和詞典建設(shè)工作,包括通用語(yǔ)料的收集和各種詞表(包括通用詞表、專有名詞、專用詞表、總詞表等)的抽取、詞性標(biāo)注、注音等一系列工作。第二部分依據(jù)生成的詞表對(duì)不同詞類在各領(lǐng)域的分布情況從兩方面(詞匯量和各種詞類所占比例)進(jìn)行了比
34、較分析。</p><p> 第三章是基于大規(guī)模真實(shí)語(yǔ)料的文本分類研究。根據(jù)第二章的分析我們知</p><p> 道不同領(lǐng)域各種詞類的分布差別比較大,所以我們選取詞作為文本分類的特征進(jìn)行分類的研究。在這一部分,我們主要做了三方面的工作,第一部分介紹了現(xiàn)有的一些特征權(quán)重算法,比較了其優(yōu)劣,并提出了我們的改進(jìn)算法;第二部分介紹了現(xiàn)有的一些特征抽取算法,并在對(duì)這些算法分析后,提出了我們的特征抽
35、取算法;第三部分設(shè)計(jì)了五個(gè)實(shí)驗(yàn),對(duì)上述提到的算法進(jìn)行了對(duì)比,從實(shí)驗(yàn)上證明了改進(jìn)算法的有效性。</p><p> 最后一章對(duì)全文進(jìn)行了總結(jié)。</p><p> 第二章大規(guī)模平衡語(yǔ)料的收集分析</p><p> 鑒于大規(guī)模平衡語(yǔ)料和大規(guī)模漢語(yǔ)詞典的重要性,中科院自動(dòng)化所參加了由Sabanci大學(xué)、IBM、UPC、RWT、NSC、NOK、SIE、AudiTech、
36、Maribor大學(xué)參加的涉及到12國(guó)語(yǔ)言的語(yǔ)料和詞典建設(shè)項(xiàng)目(LC-STAR),該項(xiàng)目全稱是面向口語(yǔ)-口語(yǔ)翻譯技術(shù)的語(yǔ)料和詞典建設(shè)。主要目的是建立一個(gè)符合現(xiàn)代漢語(yǔ)語(yǔ)言行為的,適用于語(yǔ)音識(shí)別和語(yǔ)音合成的漢語(yǔ)標(biāo)注語(yǔ)料和信息詞典。</p><p><b> 研究背景</b></p><p> 本項(xiàng)研究的基礎(chǔ)是中科院自動(dòng)化所與諾基亞(中國(guó))研究中心合作的歐盟項(xiàng)目(LC-S
37、TAR)(中文部分). 本論文的研究工作得到如下項(xiàng)目資助:</p><p> [1]國(guó)家自然科學(xué)基金項(xiàng)目“語(yǔ)音、圖像與視覺計(jì)算”(項(xiàng)目編號(hào):60121302)</p><p> [2]歐共體國(guó)際合作項(xiàng)目(LC-STAR項(xiàng)目)“面向口語(yǔ)翻譯的詞匯處理”</p><p> LC-STAR(Lexica and Corpora for Speech-to-Speec
38、h Translation Technologies)(面向口語(yǔ)-口語(yǔ)翻譯技術(shù)的詞典和語(yǔ)料庫(kù)建設(shè)) 是由歐盟發(fā)起的,面向12國(guó)語(yǔ)言的資源建設(shè)項(xiàng)目.其目的是為加泰羅尼亞語(yǔ)、芬蘭語(yǔ)、德語(yǔ)、希臘語(yǔ)、希伯來(lái)語(yǔ)、意大利語(yǔ)、漢語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、標(biāo)準(zhǔn)阿拉伯語(yǔ)、土耳其語(yǔ)和美式英語(yǔ)等12國(guó)語(yǔ)言,建立適用于語(yǔ)音識(shí)別、語(yǔ)音合成以及口語(yǔ)-口語(yǔ)翻譯的大規(guī)模標(biāo)注語(yǔ)料庫(kù)和信息詞典(主要是詞性和注音信息)。</p><p> 國(guó)內(nèi)外語(yǔ)料庫(kù)概
39、況[馮志偉,2000]</p><p> 最初的語(yǔ)料庫(kù)的建設(shè)比較困難,需要大量的手工工作,隨著計(jì)算機(jī)在語(yǔ)言學(xué)研究領(lǐng)域的廣泛應(yīng)用,這種狀況才得以改變,尤其是近年來(lái),國(guó)內(nèi)外涌現(xiàn)出了很多標(biāo)注詳細(xì)、加工深入、適合用于語(yǔ)言學(xué)研究的大規(guī)模語(yǔ)料庫(kù)。</p><p><b> 國(guó)內(nèi)語(yǔ)料庫(kù)概況</b></p><p> 美國(guó)Brown大學(xué)建立的BROWN語(yǔ)
40、料庫(kù),英國(guó)Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了LOB語(yǔ)料庫(kù)。歐美學(xué)者利用這兩個(gè)語(yǔ)料庫(kù)開展了大規(guī)模的研究,并對(duì)這兩個(gè)語(yǔ)料庫(kù)系統(tǒng)的部分語(yǔ)料進(jìn)行了自動(dòng)標(biāo)注。</p><p> 此外比較著名的還有,London-Lund口語(yǔ)語(yǔ)料庫(kù)、AHI語(yǔ)料庫(kù)、OTA牛津文本檔案庫(kù)、BNC英語(yǔ)國(guó)家語(yǔ)料庫(kù)、LDC語(yǔ)言數(shù)據(jù)聯(lián)合會(huì)、RWC日語(yǔ)語(yǔ)料庫(kù)、亞洲各語(yǔ)種對(duì)譯作文語(yǔ)料庫(kù)。</p><p
41、><b> 國(guó)內(nèi)語(yǔ)料庫(kù)概況</b></p><p> 國(guó)內(nèi)早期的語(yǔ)料庫(kù)建設(shè)規(guī)模比較小,不是機(jī)器可讀的,比較大規(guī)?,F(xiàn)代機(jī)器可讀語(yǔ)料庫(kù)的建設(shè)是從1979年開始的,早期的機(jī)器可讀語(yǔ)料庫(kù)有:漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)(武漢大學(xué),1979年,527萬(wàn)字)、現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(北京航空航天大學(xué),1983年,2000萬(wàn)字)、中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)(北京師范大學(xué),1983年,106萬(wàn)字)、現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料
42、庫(kù)(北京語(yǔ)言學(xué)院,1983年,182萬(wàn)字)。其中北京語(yǔ)言學(xué)院的現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)進(jìn)行了語(yǔ)料切分和詞頻統(tǒng)計(jì),共統(tǒng)計(jì)出31159各不同單詞,統(tǒng)計(jì)結(jié)果編成《現(xiàn)代漢語(yǔ)頻率詞典》</p><p> 1991年,國(guó)家語(yǔ)言文字工作委員會(huì)開始建立國(guó)家級(jí)的大型漢語(yǔ)語(yǔ)料庫(kù),以推進(jìn)漢語(yǔ)的語(yǔ)法、句法、語(yǔ)義和語(yǔ)用的研究,同時(shí)也為中文信息處理的研究提供語(yǔ)言資源,計(jì)劃其規(guī)模將達(dá)7000萬(wàn)漢字。這個(gè)語(yǔ)料庫(kù)在時(shí)間上、文化上、使用領(lǐng)域上都有限
43、制。</p><p> 1992年以來(lái),許多進(jìn)行中文信息處理研究的機(jī)構(gòu)都建立了自己的大規(guī)模真實(shí)文本語(yǔ)料庫(kù)如:《人民日?qǐng)?bào)》光盤數(shù)據(jù)庫(kù)、北京大學(xué)計(jì)算語(yǔ)言學(xué)計(jì)算所、北京語(yǔ)言文化大學(xué)、清華大學(xué)、山西大學(xué)、上海師范大學(xué)、北京郵電大學(xué)、香港城市理工大學(xué)、東北大學(xué)、哈爾濱工業(yè)大學(xué)、中科院軟件研究所、中科院自動(dòng)化所、北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心、臺(tái)灣中央研究院語(yǔ)言研究所。下面重點(diǎn)介紹其中的幾個(gè)語(yǔ)料庫(kù)。</p>&
44、lt;p> 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所與富士通公司合作建立了現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù),加工了2700萬(wàn)字的《人民日?qǐng)?bào)》語(yǔ)料庫(kù),加工項(xiàng)目包括詞語(yǔ)切分、詞性標(biāo)注、專有名詞標(biāo)注。還有多音字注音。北大語(yǔ)料庫(kù)的特點(diǎn)是:</p><p> 規(guī)模大:2700萬(wàn)字的熟語(yǔ)料</p><p> 加工深:不僅做了切分和詞性標(biāo)注,而且部分語(yǔ)料還進(jìn)行了短語(yǔ)結(jié)構(gòu)分析,建立了樹庫(kù),并對(duì)人名、地名和專有名詞進(jìn)行了短語(yǔ)
45、結(jié)構(gòu)標(biāo)注。</p><p> 覆蓋面廣:涉及社會(huì)科學(xué)和自然科學(xué)多個(gè)領(lǐng)域</p><p> 正確率高:在自動(dòng)加工的基礎(chǔ)上進(jìn)行了大量的人工加工,采用人機(jī)結(jié)合的策略,正確率達(dá)到了相當(dāng)高的水平。</p><p> 北京語(yǔ)言文化大學(xué)建立了一系列中文語(yǔ)料庫(kù),(共約5億字)共10個(gè)語(yǔ)料庫(kù),主要是從《當(dāng)代中國(guó)叢書》、《中華人民共和國(guó)年鑒》、《新聞出版報(bào)》、《人民日?qǐng)?bào)》、《經(jīng)濟(jì)
46、日?qǐng)?bào)》等書籍報(bào)刊中抽取的語(yǔ)料。</p><p> 清華大學(xué)也建立了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù):1998年已達(dá)1億漢字,現(xiàn)在生語(yǔ)料已達(dá)7-8億字。他們還進(jìn)行了分詞技術(shù)的深入研究,編制了信息處理用現(xiàn)代漢語(yǔ)分詞詞表,作為分詞重要的語(yǔ)言資源。對(duì)該語(yǔ)料進(jìn)行了切分和標(biāo)注,部分語(yǔ)料進(jìn)行了語(yǔ)塊庫(kù)的人工標(biāo)注。</p><p> 臺(tái)灣中央研究院建立了平衡語(yǔ)料庫(kù)和樹圖語(yǔ)料庫(kù),兩個(gè)都是標(biāo)記語(yǔ)料庫(kù),有一定的加工深度。語(yǔ)料庫(kù)
47、規(guī)模為500萬(wàn)字。</p><p> 中科院自動(dòng)化所建立的面向旅游信息領(lǐng)域的口語(yǔ)對(duì)話語(yǔ)料庫(kù)。</p><p> 社科院語(yǔ)言所建立的現(xiàn)代自然口語(yǔ)語(yǔ)料庫(kù)[馮志偉,2000]。</p><p> 除上述語(yǔ)料庫(kù)以外,國(guó)內(nèi)外還有很多大學(xué)和研究機(jī)構(gòu)建立了自己的語(yǔ)料庫(kù),這里就不再一一陳述。</p><p> 大規(guī)模平衡語(yǔ)料的收集分析</p&g
48、t;<p> LC-STAR項(xiàng)目主要包括兩部分任務(wù):語(yǔ)料的收集和詞表的抽取。我們收集了3087萬(wàn)字的通用語(yǔ)料,并進(jìn)行了詞性標(biāo)注和注音,最后從這些語(yǔ)料中抽取了約40000個(gè)通用詞匯。最終的詞表包括三部分,除了上面提到的通用詞匯外,還抽取了50000多個(gè)專有名詞和7000多個(gè)專用詞匯。詞表中包括了詞性、注音信息和專用詞匯的領(lǐng)域信息,所有這些信息最終都包括在一部xml詞典中。</p><p> 語(yǔ)料和
49、詞表的編碼格式采用的是GB2312字符編碼格式</p><p> 通用語(yǔ)料的收集和通用詞匯的抽取</p><p><b> 通用領(lǐng)域的確定</b></p><p> 為了確定通用領(lǐng)域的范圍,我們對(duì)國(guó)內(nèi)外一些著名的語(yǔ)料庫(kù)進(jìn)行了分析,這其中包括the Surrey of English Usage(SEU) Corpus,the Brown
50、Corpus, the Longman/Lancaster English Language Corpus(LLELC),the British National Corpus (BNC),以及清華大學(xué)的人工標(biāo)注語(yǔ)料庫(kù)HanYu等等。此外,對(duì)一些網(wǎng)站的材料也進(jìn)行了統(tǒng)計(jì)和研究如:人民網(wǎng)(www.people.com.cn) 3月20日至3月26日這一周之內(nèi)的材料和內(nèi)容的統(tǒng)計(jì)結(jié)果[Hu, 2002]:</p><p>
51、; 表2-1 人民網(wǎng)語(yǔ)料統(tǒng)計(jì)結(jié)果</p><p> 聯(lián)合早報(bào)網(wǎng)(www.zaobao.com.sg)的統(tǒng)計(jì)結(jié)果(3月20日至3月26日):</p><p> 表2-2 聯(lián)合早報(bào)網(wǎng)語(yǔ)料統(tǒng)計(jì)結(jié)果</p><p> 結(jié)合以上統(tǒng)計(jì)結(jié)果和12國(guó)合作伙伴的建議,下面這些領(lǐng)域被選擇作為通用領(lǐng)域。</p><p> 表2-3 通用領(lǐng)域的劃分<
52、/p><p><b> 通用語(yǔ)料的收集</b></p><p><b> 語(yǔ)料限制</b></p><p> 因?yàn)檎Z(yǔ)料結(jié)構(gòu)和出現(xiàn)時(shí)間對(duì)最終抽取的詞表有較大的影響,12國(guó)合作伙伴最終討論決定對(duì)對(duì)語(yǔ)料做如下限制:(1)語(yǔ)料結(jié)構(gòu):為了確保每個(gè)領(lǐng)域的語(yǔ)料都足夠充分,至少1M詞的領(lǐng)域語(yǔ)料是必需的。另外由于個(gè)人交流領(lǐng)域的語(yǔ)料收集起來(lái)
53、比較麻煩,所以該領(lǐng)域的詞的最小數(shù)量限制在0.5M。通用詞匯、專有名詞和專用詞匯之間盡量避免重復(fù)以獲取較多數(shù)量的總詞匯。如果重復(fù)出現(xiàn),要增加詞匯以保證最終得到不少于10M詞條;(2)語(yǔ)料時(shí)間:為了提高詞表的實(shí)用性,詞表應(yīng)充分體現(xiàn)近幾年詞匯使用的特點(diǎn)。所有語(yǔ)料都必須是1990年以后,而且至少有50%的語(yǔ)料在1997年以后[Moreno, A. 2004]。</p><p><b> 語(yǔ)料來(lái)源:</b
54、></p><p> 最快捷,最方便的語(yǔ)料來(lái)源無(wú)疑是電子數(shù)據(jù)形式的語(yǔ)料:在線雜志、網(wǎng)站新聞、網(wǎng)上論壇、網(wǎng)上圖書館等。需要注意,無(wú)論什么來(lái)源的數(shù)據(jù)應(yīng)當(dāng)盡量避免“專業(yè)化詞匯”。具體來(lái)說,我們從以下幾個(gè)網(wǎng)站得到了我們的通用語(yǔ)料:</p><p> 表2-4 通用語(yǔ)料的來(lái)源網(wǎng)站</p><p><b> 語(yǔ)料規(guī)模</b></p>
55、<p> 表2-5 通用語(yǔ)料在各領(lǐng)域的分布</p><p><b> 通用詞匯的抽取</b></p><p> 通用詞匯是從收集的通用語(yǔ)料中抽取出來(lái)的,通用詞匯是指除去了專有名詞、各種標(biāo)點(diǎn)符號(hào)、數(shù)字以后的詞匯,</p><p> 通用詞匯的抽取步驟:</p><p><b> 網(wǎng)頁(yè)下載與
56、處理:</b></p><p><b> 從以上網(wǎng)站下載網(wǎng)頁(yè)</b></p><p> 半自動(dòng)的移除網(wǎng)頁(yè)中的“垃圾文字”(每個(gè)網(wǎng)頁(yè)中都有一些“本報(bào)記者”,“相關(guān)評(píng)論”等一些非內(nèi)容文本)。</p><p> 確認(rèn)領(lǐng)域語(yǔ)料是否充分。</p><p><b> 自動(dòng)分詞與抽取詞匯</b>
57、;</p><p><b> 分詞和詞性標(biāo)注。</b></p><p> 抽取詞匯,同時(shí)統(tǒng)計(jì)出這些詞匯在各領(lǐng)域和總的頻率。</p><p> 從詞匯表中移除數(shù)字、標(biāo)點(diǎn)符號(hào)、和專有名詞。</p><p><b> 規(guī)則抽詞</b></p><p> 計(jì)算詞表(無(wú)詞性)
58、標(biāo)記下的總數(shù)量(約35000)小于50000,采用規(guī)則輔助分詞、人工校對(duì)的方法抽取了約3000個(gè)詞:</p><p><b> 觀察語(yǔ)料,抽取規(guī)則</b></p><p> 檢驗(yàn)每一條規(guī)則:用該規(guī)則從一段文本中抽取部分詞匯,檢驗(yàn)其正確率。剔除一些準(zhǔn)確率較低的規(guī)則。最后得到共39條規(guī)則。</p><p> 用這39條規(guī)則從原始文本中抽取詞匯
59、,然后手工校正這部分詞匯,最后得到3534個(gè)新增詞匯。</p><p> 從原始語(yǔ)料中統(tǒng)計(jì)出這些詞匯在各領(lǐng)域和總的頻率。</p><p> 通用詞匯的數(shù)量:最終收集的通用詞匯的數(shù)量如下表所示</p><p> 表2-6 通用詞匯的數(shù)量</p><p><b> 通用詞匯的形式:</b></p>&l
60、t;p> 詞總體育/游戲新聞財(cái)經(jīng)文化/娛樂消費(fèi)信息個(gè)人交流</p><p> 的1124287261676211699156988150346192932150646</p><p> 是283576705933912035205430524192653680</p><p> 在275370838235
61、949332817329953725328989</p><p><b> 通用詞匯的標(biāo)注</b></p><p> 通用詞匯主要包括兩種標(biāo)注信息:詞性標(biāo)注和拼音標(biāo)注。標(biāo)注步驟及說明如下。</p><p><b> 通用詞匯的詞性標(biāo)注</b></p><p> 分詞軟件分詞的同時(shí)也進(jìn)
62、行了詞性的標(biāo)注,所以抽取通用詞表的時(shí)候,實(shí)際上可以抽取出兩個(gè)詞表,帶詞性的詞表和不帶詞性的詞表。但是由于我們的分詞軟件采用的是973的標(biāo)注體系,不同于LC-STAR的標(biāo)注規(guī)范,所以要將詞性進(jìn)行轉(zhuǎn)換,值得慶幸的是,觀察兩者的詞性定義后可以發(fā)現(xiàn)973的標(biāo)注體系和LC-Star的體系有一個(gè)非常好的對(duì)應(yīng)關(guān)系,所以只要我們建立一個(gè)詞性轉(zhuǎn)換對(duì)應(yīng)表,就可以將詞性標(biāo)注轉(zhuǎn)換稱LC-STAR的標(biāo)注體系。LC-STAR的詞性標(biāo)記說明見附錄1。</p&g
63、t;<p><b> 通用詞匯的注音</b></p><p><b> 給詞表標(biāo)注漢語(yǔ)拼音</b></p><p><b> 手工校正多音字</b></p><p> 根據(jù)詞性,校正詞的注音</p><p> 建立拼音到SAMPA-C注音規(guī)范的轉(zhuǎn)換表(注
64、意:轉(zhuǎn)音情況),將拼音轉(zhuǎn)化為SAMPA-C的注音</p><p> 根據(jù)SAMPA-C注音后的詞表反生成拼音注音并排序的詞表,因?yàn)樯鲜鲎⒁暨^程中手工校正了一些錯(cuò)誤,所以為了保證詞表的一致性,需要反生成拼音注音并排序的詞表。</p><p><b> 封閉詞匯集</b></p><p> 各種語(yǔ)言都有一些功能詞如:代詞、介詞、連詞等,它們構(gòu)
65、成了語(yǔ)言相對(duì)封閉的一個(gè)詞匯集,所以叫做封閉詞匯集。這些詞經(jīng)常出現(xiàn)在各個(gè)領(lǐng)域的語(yǔ)料中,但不是所有的功能詞都能在語(yǔ)料中發(fā)現(xiàn)。所以有必要手工加入功能詞。根據(jù)LC-STAR項(xiàng)目文件和漢語(yǔ)的特點(diǎn),我們確定下面這些詞類為漢語(yǔ)的功能詞(括號(hào)中為對(duì)應(yīng)的功能詞的數(shù)量):人稱代詞(26),物主代詞(37),指示代詞(49),前置詞(介詞)和后置詞(186),連詞(326),問答詞(31),情態(tài)動(dòng)詞(21),量詞(547)。[郭先珍,2002],[黃檗容,1
66、997],[劉丹青,2003],[呂叔湘,1996],[張斌,2001].</p><p><b> 專有名詞的收集</b></p><p> 對(duì)于語(yǔ)音識(shí)別和語(yǔ)音合成系統(tǒng)來(lái)說,一個(gè)非常重要的問題就是如何處理各種語(yǔ)音系統(tǒng)中常見的專有名詞。通常很難決定他們的發(fā)音,特別是對(duì)于一些外來(lái)的專有名詞。而另一方面確定他們的準(zhǔn)確發(fā)音,對(duì)于語(yǔ)音識(shí)別和語(yǔ)音合成系統(tǒng)來(lái)說又是必需的。因此
67、,我們從各個(gè)領(lǐng)域收集了57528個(gè)專有名詞,并對(duì)它們進(jìn)行了注音和詞性標(biāo)注工作。</p><p><b> 專有領(lǐng)域的確定</b></p><p> 根據(jù)12國(guó)的討論決定,最終確定主要從以下幾個(gè)領(lǐng)域及對(duì)應(yīng)的子領(lǐng)域來(lái)收集專有名詞,見表2-7。</p><p> 表2-7 專有名詞的領(lǐng)域及子領(lǐng)域</p><p><
68、b> 專有名詞的收集</b></p><p> 根據(jù)12個(gè)合作伙伴討論決定,專有名詞領(lǐng)域至少應(yīng)當(dāng)包括45000個(gè)詞條,三個(gè)大領(lǐng)域每個(gè)領(lǐng)域的詞條數(shù)目所占總詞條數(shù)目的百分比均應(yīng)限制在10% - 50%之間,當(dāng)然三個(gè)領(lǐng)域詞條數(shù)目之和應(yīng)當(dāng)?shù)扔诳偟膶S忻~數(shù)。詞形相同的專有名詞和通用詞匯認(rèn)為是兩個(gè)不同的詞條。</p><p> 專有名詞的來(lái)源主要有以下幾個(gè)方面:超星數(shù)字圖書館
69、、網(wǎng)上黃頁(yè)、世界地圖集。專有名詞收集時(shí)都選擇該詞最常用的形式,如“IBM”就保持這種形式,不會(huì)用其全稱“International Business Machines”。因?yàn)閷S忻~的收集面向的語(yǔ)音識(shí)別和語(yǔ)音合成,所以收集時(shí)盡量采用其口語(yǔ)性較強(qiáng)的形式,比如盡量采用用戶手冊(cè)上的公司名稱,而不是證券市場(chǎng)上登記的公司名稱。同樣道理在線資源也比較適合用來(lái)收集。</p><p><b> 專有名詞的標(biāo)注<
70、/b></p><p><b> 專有名詞的詞性標(biāo)注</b></p><p> 專有名詞收集的時(shí)候是分類收集的,所以其詞性本身已經(jīng)確定,不需要專門使用標(biāo)注軟件進(jìn)行詞性標(biāo)注。</p><p> 專有名詞的詞性說明:PER(人名);GEO(各國(guó)地理名詞);COU(國(guó)家);CIT:(城市:國(guó)內(nèi)城市、國(guó)際著名城市、各國(guó)首都);STR(國(guó)內(nèi)著
71、名街道);COM(公司組織:盈利和非盈利組織、國(guó)際國(guó)內(nèi)公司);BRA(品牌名稱);TOU(國(guó)內(nèi)著名的文化歷史景點(diǎn))。</p><p><b> 專有名詞的注音</b></p><p><b> 給詞表標(biāo)注漢語(yǔ)拼音</b></p><p><b> 手工校正多音字</b></p>&
72、lt;p> 根據(jù)詞性校正詞的注音</p><p> 將拼音轉(zhuǎn)化為SAMPA-C的注音:這是因?yàn)镾AMPA-C的注音體系是為了便于國(guó)際交流,專門為漢語(yǔ)注音設(shè)定的一套注音符號(hào)。它與漢語(yǔ)拼音有一個(gè)完整的對(duì)應(yīng),根據(jù)對(duì)應(yīng)表我們可以將拼音轉(zhuǎn)化SAMPA-C的注音體系。其間需要增加對(duì)數(shù)字和括號(hào)的注音,同時(shí)還發(fā)現(xiàn)了詞表的一些錯(cuò)誤,需要手工校正。</p><p> 根據(jù)SAMPA-C注音后的詞表
73、反生成拼音注音并排序的詞表</p><p> 設(shè)計(jì)了英語(yǔ)音標(biāo)到SAMPA-C符號(hào)的對(duì)應(yīng)表對(duì)專有名詞中的外來(lái)詞匯進(jìn)行注音。(手工完成)</p><p> 專有名詞的數(shù)量和形式</p><p> 最終得到的專有名詞的數(shù)量如下:</p><p> 表2-8 專有名詞各領(lǐng)域詞數(shù)及所占比例</p><p><b&g
74、t; 專有詞表的形式:</b></p><p><b> 阿迪達(dá)斯BRA</b></p><p><b> 阿庫(kù)拉BRA</b></p><p><b> 阿勒錦BRA</b></p><p><b> 專用詞匯的收集</b>&
75、lt;/p><p> 為了滿足與“語(yǔ)音驅(qū)動(dòng)”密切相關(guān)的幾個(gè)應(yīng)用領(lǐng)域的要求,我們收集了約5000個(gè)專用詞,他們都與其所屬的領(lǐng)域密切相關(guān)。有些詞在書面語(yǔ)料中不常出現(xiàn),但是對(duì)于真實(shí)的語(yǔ)音應(yīng)用來(lái)說卻是必需的。建立專用詞表的目的就在于保證在最終的詞典包含有這些詞。</p><p> 詞表主要包括兩部分:數(shù)詞和其他領(lǐng)域密切相關(guān)的專用詞匯。數(shù)詞由我們給出;其他詞匯首先由合作伙伴從限定的應(yīng)用領(lǐng)域中抽取,并
76、以英語(yǔ)的形式給出詞和詞性,對(duì)于動(dòng)詞還會(huì)用英語(yǔ)給出例句和場(chǎng)景說明。我們的工作就是將這些詞匯翻譯成漢語(yǔ)詞匯,并給出動(dòng)詞的例句。</p><p><b> 專用領(lǐng)域的確定</b></p><p> 經(jīng)過LC-STAR項(xiàng)目12國(guó)合作伙伴討論最終將專用領(lǐng)域確定為7大領(lǐng)域、47子領(lǐng)域,共5000多個(gè)詞條,具體見附錄2。</p><p><b>
77、; 專用詞匯的來(lái)源</b></p><p> 數(shù)據(jù)源/媒體沒有特別的指定,總的來(lái)說有下面幾種:詞典、技術(shù)文檔、出版社提供的基本詞匯,除此之外電子資源當(dāng)然還是最方便的方式。數(shù)字應(yīng)當(dāng)是從詞典或者其他資源中獲取的,所有不能用組合規(guī)則得到的數(shù)字都應(yīng)當(dāng)包括在詞表中。所有用于日期和星期的序數(shù)詞都必須被提供。</p><p> 專用詞匯的數(shù)量和形式</p><p&g
78、t; 最終我們收集的專用詞匯為7521個(gè),包括每個(gè)詞的領(lǐng)域信息、詞性、例句(針對(duì)動(dòng)詞)、注釋等,具體形式見表2-9。</p><p> 表2-9 專用詞表的形式</p><p> 說明:ID - 領(lǐng)域代號(hào),Nr― 該條目在其所屬領(lǐng)域的序號(hào),英文術(shù)語(yǔ)―術(shù)語(yǔ)的英語(yǔ)形式,詞性―詞性,翻譯― 術(shù)語(yǔ)的漢語(yǔ)翻譯,舉例―對(duì)于動(dòng)詞術(shù)語(yǔ)需要列舉1~2個(gè)例句,注釋 - 其他需要說明的&l
79、t;/p><p> 專用詞匯的形式說明:每一個(gè)詞條都應(yīng)當(dāng)對(duì)應(yīng)唯一的ID值,翻譯的基礎(chǔ)是每一行的“英文術(shù)語(yǔ)”欄。每個(gè)英文術(shù)語(yǔ)盡量翻譯成一個(gè)漢語(yǔ)詞匯,翻譯結(jié)果存放在表中“翻譯”欄。如果有英文術(shù)語(yǔ)對(duì)應(yīng)的漢語(yǔ)詞匯不止一個(gè),為每個(gè)漢語(yǔ)詞匯單列一行。采用領(lǐng)域內(nèi)序號(hào)(Nr)后面按順序添加字母的方式來(lái)區(qū)別不同的翻譯結(jié)果。例如</p><p> 如果某個(gè)詞在目標(biāo)語(yǔ)言中不存在,就用一個(gè)近似詞或短語(yǔ)代替,如果這
80、樣的詞也不能找到,那就在注釋欄標(biāo)記“NE”。每個(gè)領(lǐng)域至少要有500個(gè)詞條。需要為每個(gè)動(dòng)詞術(shù)語(yǔ)列舉1~2個(gè)例句。</p><p><b> 專用詞匯的標(biāo)注</b></p><p> 專用詞匯的標(biāo)注同專有詞匯的標(biāo)注過程。</p><p><b> 注音</b></p><p> 我們首先為每個(gè)詞
81、條標(biāo)注了拼音,然后根據(jù)拼音到SAMPA-C 符號(hào)的轉(zhuǎn)換關(guān)系,將拼音轉(zhuǎn)換成SAMPA-C注音符號(hào)。SAMPA-C注音符號(hào)是專門針對(duì)普通話的發(fā)音特點(diǎn)設(shè)定的一套語(yǔ)音標(biāo)注系統(tǒng),其發(fā)音符號(hào)及對(duì)應(yīng)的說明見附錄3。</p><p> 漢語(yǔ)中,每個(gè)音節(jié)單個(gè)出現(xiàn)的時(shí)候都有一個(gè)缺省音調(diào)。但是,在連續(xù)口語(yǔ)中,由于連續(xù)變調(diào)的影響,一個(gè)漢字的實(shí)際音調(diào)可能會(huì)不同于其缺省音調(diào)。連續(xù)變調(diào)指的是決定音調(diào)根據(jù)前后音節(jié)而變化的一組規(guī)則。最重要的規(guī)則
82、是當(dāng)兩個(gè)上聲相連時(shí),前一個(gè)上聲將變成陽(yáng)平。例如: “五<wu3> 百<bai3>”的實(shí)際發(fā)音應(yīng)當(dāng)是“wu2 bai3”。這里“wu3”是缺省發(fā)音,因?yàn)楹竺娓钠匆粢彩巧下?,所以“wu”的發(fā)音變調(diào)為陽(yáng)平。注音時(shí)可以注為:“wu32”,這樣缺省音調(diào)和實(shí)際音調(diào)都可表示出來(lái)。附錄4列舉出了常見的連續(xù)變調(diào)規(guī)則。根據(jù)LC-STAR成員討論后,對(duì)注音做以下約定。</p><p> 音調(diào)標(biāo)記采用以下形式
83、:_0、_1、_2、_3、_4 分別代表輕音、陰平、陽(yáng)平、上聲、去聲。</p><p> 連字號(hào)(-)也被用作音節(jié)標(biāo)記。</p><p> 多音字首先標(biāo)注出所有的讀音,然后根據(jù)詞性手工校正注音。(因?yàn)閷?duì)應(yīng)于不同的詞性,詞的注音是不同的)。</p><p> 外來(lái)詞的注音。為了統(tǒng)一標(biāo)注符號(hào),我們建立了從英語(yǔ)音素到SAMPA-C的對(duì)應(yīng)表,從而外來(lái)詞的標(biāo)注也可以采用
84、SAMPA-C標(biāo)注體系,英語(yǔ)因素到SAMPC-C音素的映射見附錄5。</p><p><b> 詞典形式</b></p><p> 最終我們將幾部分詞:通用詞表(包括封閉詞匯)、專有名詞、專用名詞,合并成一個(gè)總詞數(shù)超過10M的總詞表,并以國(guó)際上通用的數(shù)據(jù)交換格式XML文檔的形式給出,當(dāng)然詞性、注音、和領(lǐng)域信息也是包含在這個(gè)詞表中的。</p><
85、p><b> XML格式說明</b></p><p> 因?yàn)閄ML標(biāo)記語(yǔ)言具有清晰,明確,易讀性強(qiáng)等特點(diǎn),所以項(xiàng)目約定采用它來(lái)描述語(yǔ)言信息。采用XML標(biāo)記語(yǔ)言也便于合作者之間的信息交流。使用的XML解析器應(yīng)當(dāng)能夠處理任何1.0版本的XML文檔和UTF-16編碼。</p><p> 詞典由很多“條目組”元素構(gòu)成。</p><p>
86、“條目組”指詞表的一個(gè)類條目。每個(gè)條目組必須包含以下元素:</p><p><b> 正詞法</b></p><p> 0個(gè)或者更多的其他拼寫形式</p><p> 一個(gè)或者更多的“條目”(復(fù)合詞或者縮寫詞)子元素</p><p> “條目”指“類條目”的一個(gè)特定的語(yǔ)法/詞形信息。每個(gè)條目必須包含以下子元素:&l
87、t;/p><p> 詞性以及相應(yīng)的屬性(漢語(yǔ)詞匯沒有屬性)。在一個(gè)條目組中使用多個(gè)條目來(lái)表示多標(biāo)記或者多屬性。</p><p> 詞形。指于對(duì)應(yīng)于條目的一個(gè)詞形的字符串,使用多條目來(lái)表示多詞形的情況。</p><p> 注音。包括注音和音節(jié)標(biāo)記。如果有多個(gè)發(fā)音,要表示在同一個(gè)條目組下的不同條目中。</p><p> 應(yīng)用詞。每個(gè)應(yīng)用詞都要
88、指定一個(gè)“APP”標(biāo)記?!癆PP”標(biāo)記的結(jié)構(gòu)如下:</p><p> Subdomain_type1 No_of_entry 1 </p><p><b> … </b></p><p> Subdomain_typeN No_of_entryN</p><p> 復(fù)合條目包括下面這些元素:</p>
89、<p><b> 注音;</b></p><p> 兩個(gè)或更多的相互聯(lián)系的條目元素。每一個(gè)條目元素必須包含一個(gè)正字法和詞性標(biāo)注以及與詞性標(biāo)記相對(duì)應(yīng)的屬性。</p><p> 縮寫:應(yīng)用詞中的縮寫必須有“ABB”標(biāo)注以及一個(gè)或更多的擴(kuò)展標(biāo)注。此外還要包括以下內(nèi)容:</p><p> 該縮寫實(shí)際的擴(kuò)展形式。</p>
90、<p> 一個(gè)條目或者復(fù)合條目元素。</p><p> 屬性:每個(gè)屬性有一個(gè)預(yù)設(shè)值“NS”(沒有指定),這個(gè)值在DTD文檔中總是可選的。當(dāng)指定語(yǔ)言中沒有該屬性時(shí)標(biāo)注該屬性為“NS”。</p><p> 附錄6中是部分詞條的邏輯結(jié)構(gòu)及其對(duì)應(yīng)的XML文件部分。</p><p><b> 詞典劃分</b></p>&
91、lt;p> 根據(jù)項(xiàng)目要求,我們將詞典分成兩部分:專有詞典和通用詞典。這兩部分需要進(jìn)一步分成更小的容易處理的文件。而且劃分必須建立在字母排序的基礎(chǔ)上。 </p><p> 通用詞匯、專用詞表中的HLD和PUN應(yīng)當(dāng)包括在通用詞表中(從LEXIC08-LEXIC13)。專用詞表中的專有名詞、專有名詞應(yīng)當(dāng)包括在專有詞典中(從LEXIC000-LEXIC07)。這兩部分詞典中首先按照拼音排序,再把包含有外來(lái)詞匯的
92、詞放在其他詞的前面。</p><p><b> DTD文檔描述</b></p><p> 文檔類型定義(DTD)是為XML文檔正式指定的語(yǔ)法。這種語(yǔ)法包括自動(dòng)確認(rèn)工作中規(guī)定的所有語(yǔ)言信息。LC-STAR所有語(yǔ)言的詞典使用共同的DTD文檔,這個(gè)文檔已上載到該項(xiàng)目的主頁(yè)上。每個(gè)合作伙伴可以根據(jù)其語(yǔ)言的特點(diǎn)修改該DTD文檔,建立復(fù)合自身語(yǔ)言特點(diǎn)的DTD文檔。</p
93、><p> DTD文檔(LEXICON.DTD)見附錄7。</p><p> 大規(guī)模平衡語(yǔ)料的分析[陳克利,2003]</p><p> 在LC-STAR項(xiàng)目的基礎(chǔ)上,我們對(duì)收集的通用語(yǔ)料進(jìn)行了用詞特點(diǎn)的初步分析。分析的目的在于比較不同領(lǐng)域常用詞匯量和各種詞類使用頻率的差異性,量化的分析各領(lǐng)域之間用詞特點(diǎn)的不同。從而為基于內(nèi)容的分類研究提供理論依據(jù)。</p&
94、gt;<p><b> 語(yǔ)料和詞表說明</b></p><p> 本項(xiàng)研究的基礎(chǔ)是我們(中科院自動(dòng)化所)與諾基亞(中國(guó))研究中心合作為歐盟項(xiàng)目(LC-STAR)建設(shè)的3087萬(wàn)字的漢語(yǔ)語(yǔ)料庫(kù)[Hu et al, 2002;Cao et al, 2002]。語(yǔ)料主要來(lái)源于五大中文網(wǎng)站(新浪網(wǎng)、人民網(wǎng)、中青論壇網(wǎng)、三九健康網(wǎng)、科學(xué)時(shí)報(bào)網(wǎng)),收集策略以綜合網(wǎng)站為主、專業(yè)網(wǎng)站為輔;
95、時(shí)間上主要集中在近五年以內(nèi),盡量涵蓋了這幾年出現(xiàn)的一些新領(lǐng)域,時(shí)間和覆蓋面上都具有相當(dāng)?shù)膹V泛性和代表性。目前我們將語(yǔ)料主要分成六大領(lǐng)域:體育、娛樂和游戲、財(cái)經(jīng)、新聞、個(gè)人交流和消費(fèi)信息。其中消費(fèi)信息領(lǐng)域包括三個(gè)方面:健康、大眾科學(xué)、消費(fèi)科技;個(gè)人交流主要是從網(wǎng)上論壇收集的;新聞包括國(guó)內(nèi)和國(guó)際兩個(gè)方面。每個(gè)領(lǐng)域的語(yǔ)料都在300萬(wàn)字以上。</p><p> 從這些語(yǔ)料中共抽取了42923個(gè)詞(除去分詞、標(biāo)注錯(cuò)誤,覆
96、蓋率達(dá)到了99.62%),建立了總詞表、各領(lǐng)域詞表、各領(lǐng)域常用詞表、各領(lǐng)域?qū)S迷~表共四個(gè)詞表。這里首先說明幾個(gè)我們約定的術(shù)語(yǔ):</p><p> 詞頻:某詞在所統(tǒng)計(jì)范圍中出現(xiàn)的次數(shù)除以該統(tǒng)計(jì)范圍所有詞的次數(shù)之和。</p><p> 詞表覆蓋率:詞表對(duì)所統(tǒng)計(jì)范圍的覆蓋率,等于該詞表中所有詞在所統(tǒng)計(jì)范圍內(nèi)的詞頻之和。</p><p> 各領(lǐng)域常用詞表:從各領(lǐng)域詞表
97、中按照頻率從高到低取詞建立的覆蓋率達(dá)90%的詞表。</p><p> 各領(lǐng)域?qū)S迷~表:由本領(lǐng)域內(nèi)出現(xiàn)頻率大于等于0.0005%,在其他領(lǐng)域出現(xiàn)頻率之和小于等于0.0001%的詞構(gòu)成的詞表。</p><p> 在下文中,我們使用下面幾個(gè)符號(hào)代替這六個(gè)領(lǐng)域:SPO代表體育領(lǐng)域;ENT代表娛樂和游戲領(lǐng)域;FIN代表財(cái)經(jīng)領(lǐng)域;NEW代表新聞?lì)I(lǐng)域;PER代表個(gè)人交流領(lǐng)域;CON代表消費(fèi)信息領(lǐng)域。
98、</p><p><b> 統(tǒng)計(jì)結(jié)果</b></p><p><b> 各領(lǐng)域詞匯量的分布</b></p><p> 表1中,列出了各領(lǐng)域詞匯量、常用詞匯量、專用詞匯量、專用詞匯覆蓋率的統(tǒng)計(jì)結(jié)果。</p><p> 表2-10 各領(lǐng)域詞匯量的分布</p><p>
99、從表1各領(lǐng)域詞匯量的統(tǒng)計(jì)結(jié)果可以看出:</p><p> 各領(lǐng)域所用到的詞匯量差別很大。詞匯量最大的PER(共34879)是最小的NEW(11299)的詞匯量的三倍還要多。這主要是因?yàn)镻ER實(shí)際上是一個(gè)綜合領(lǐng)域,它包括很多主題,所以用到的詞匯量很大。但是該領(lǐng)域又不完全等同于其他幾個(gè)領(lǐng)域的簡(jiǎn)單相加,因?yàn)樗褂玫脑~匯更具有口語(yǔ)的特性,而其他幾個(gè)領(lǐng)域以書面用語(yǔ)為主。除了PER以外,詞匯量較大的是CON,這是因?yàn)樗?/p>
100、三個(gè)子領(lǐng)域,涉及范圍很廣。從上面的比較可以看出與人們?nèi)粘I?、日常交流?lián)系越緊密、涉及的范圍越廣的領(lǐng)域詞匯量就越大,反之,詞匯量就越小。</p><p> 相比各領(lǐng)域詞匯量而言,各領(lǐng)域常用詞匯量之間的差別雖然不是很大,但也是很明顯的,詞匯量最大的PER(6352)比最小的SPO(3737)也多出70%。</p><p> 各領(lǐng)域?qū)S迷~匯量的比例是很低的。從表中可以看出每個(gè)領(lǐng)域?qū)S迷~匯量
101、都不是很大,最多也只有460個(gè),領(lǐng)域覆蓋率只有0.7949%,而且這類詞在各領(lǐng)域中出現(xiàn)的頻率普遍比較低,所以在領(lǐng)域劃分時(shí)不能過分倚重這類詞。</p><p> 各領(lǐng)域詞類分布的比較</p><p> 統(tǒng)計(jì)了領(lǐng)域詞匯量以后,我們又對(duì)領(lǐng)域詞類的分布進(jìn)行了統(tǒng)計(jì)。在我們的工作中,漢語(yǔ)詞類分為如下幾類:數(shù)詞(NUM)、名詞(NOM)、介詞(ADP)、形容詞(ADJ)、副詞(ADV)、代詞(PRO
102、)、連詞(CON)、動(dòng)詞(VER)、量詞(MEW)、輔助詞(AUW)、其他詞(OTHERS)。各領(lǐng)域詞類及常用詞類分布如圖1、圖2所示。</p><p> 從詞類分布可以看出各領(lǐng)域的用詞特點(diǎn),如:名詞在消費(fèi)信息領(lǐng)域(CON)中使用頻率最高,在個(gè)人交流領(lǐng)域(PER)中使用頻率最低。主要因?yàn)榍罢哂腥齻€(gè)子領(lǐng)域:健康、大眾科學(xué)、消費(fèi)科技,所以要涉及到很多疾病、新產(chǎn)品、新技術(shù)的名稱。相對(duì)而言后者涉及到更多的口語(yǔ),名詞使用
103、率要低一些。同樣個(gè)人交流領(lǐng)域(PER)代詞的使用率(6.80%)是財(cái)經(jīng)領(lǐng)域(FIN)代詞使用率(2.39%)的兩倍還要多。這也很容易理解,因?yàn)閭€(gè)人交流中我、你、她等代詞的使用頻率是相當(dāng)高的,但是財(cái)經(jīng)領(lǐng)域(FIN)使用這種詞匯的幾率顯然要小的多。常用詞表各種詞類的分布情況和總詞表大致相同。</p><p><b> 結(jié)論</b></p><p> 從上面的統(tǒng)計(jì)結(jié)果可
104、以看出,不同領(lǐng)域之間詞匯量、常用詞匯量、專用詞匯量、專用詞匯覆蓋率等都有很大的不同。同一詞類的分布特性也因領(lǐng)域各異。從統(tǒng)計(jì)學(xué)上,我們可以選取“詞”作為文本分類的特征,建立基于內(nèi)容的文本分類系統(tǒng)。這也是現(xiàn)在大多數(shù)基于內(nèi)容的文本分類系統(tǒng)的選擇“詞”來(lái)作為分類特征的原因。</p><p> 第三章基于大規(guī)模真實(shí)語(yǔ)料的文本分類方法</p><p> 自動(dòng)文本分類技術(shù)是在給定分類體系下,根據(jù)文
105、本內(nèi)容確定其所屬類別。隨著網(wǎng)絡(luò)和信息時(shí)代的到來(lái),人們獲取信息的手段越來(lái)越豐富,可供選擇的信息量也成指數(shù)級(jí)膨脹,尤其是以網(wǎng)絡(luò)為代表的信息傳播方式。數(shù)據(jù)信息的增長(zhǎng)帶來(lái)了兩方面的結(jié)果,一方面:為人們進(jìn)行各種活動(dòng)提供了充分的資源,而且通過網(wǎng)絡(luò)相當(dāng)?shù)谋憬?;另一方面:要從浩如云煙的結(jié)果中找到自己真正需要的信息也越來(lái)越困難,除非能夠以一種自動(dòng)的方式讓計(jì)算機(jī)幫助去查找。而一個(gè)好的查找系統(tǒng),首先最關(guān)鍵的是要對(duì)千差萬(wàn)別的各種來(lái)源的文本進(jìn)行合理的分類和整理。
106、這就是文本分類技術(shù)一個(gè)最重要的應(yīng)用――信息檢索。</p><p> 自動(dòng)文本分類技術(shù)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要課題。除了上面提到的信息檢索以外,文本分類還可以應(yīng)用在許多方面,如:信息過濾、文檔索引、數(shù)字圖書館的分類和管理、詞義消歧、主題識(shí)別、語(yǔ)料庫(kù)建設(shè)、元數(shù)據(jù)生成以及其他需要組織文檔的方面。</p><p> 信息過濾實(shí)際上就是一個(gè)分類問題,而且很多時(shí)候過濾的依據(jù)也是信息的內(nèi)容。而網(wǎng)
107、絡(luò)上絕大部分信息都是以文本的形式傳播的,所以好的自動(dòng)文本分類技術(shù)可以大大提高過濾的準(zhǔn)確性。</p><p> 語(yǔ)料庫(kù)的建設(shè)和數(shù)字圖書館的分類中都需要給文檔建立索引,而如果完全靠手工的方式將數(shù)以百萬(wàn)記的文檔分類、索引,不但費(fèi)時(shí)費(fèi)力,而且準(zhǔn)確率也很難保證。最好的辦法是訓(xùn)練一個(gè)自動(dòng)分類系統(tǒng),以自動(dòng)分類為主,手工校正為輔,不但可以大大節(jié)省人力和時(shí)間,而且也可以保證分類的正確率。</p><p>
108、 眾所周知,詞義消歧是機(jī)器翻譯、信息檢索、語(yǔ)音識(shí)別、語(yǔ)音合成等研究領(lǐng)域的一個(gè)難點(diǎn),而詞義的一個(gè)非常明顯的特點(diǎn)就是往往具有領(lǐng)域相關(guān)性,所以只要能夠根據(jù)上下文信息確定所屬領(lǐng)域,詞義就可以限定在一個(gè)較小的范圍之內(nèi)甚至完全確定。而根據(jù)文本信息確定領(lǐng)域恰恰正式文本分類的任務(wù)。</p><p> 信息資源元數(shù)據(jù)的常見元素:主題識(shí)別、描述、類型等的生成,也都與基于內(nèi)容的文本分類密切相關(guān)。</p><p&
109、gt; 已有的文本分類方法簡(jiǎn)介</p><p> 文本分類的研究歷史比較長(zhǎng),最早的研究可以追溯到20世紀(jì)60年代。直到上世紀(jì)80年代,最有效的分類方法還是基于知識(shí)工程的方法,通常是由領(lǐng)域?qū)<腋鶕?jù)語(yǔ)料特點(diǎn)和分類體系總結(jié)出一套規(guī)則,基于這些規(guī)則建立自動(dòng)分類器。這種分類器的建立費(fèi)時(shí)費(fèi)力,而且由于規(guī)則往往具有語(yǔ)料相關(guān)性,任務(wù)語(yǔ)料改變了,分類器的規(guī)則就要重新建立。</p><p> 進(jìn)入90年
110、代以來(lái),隨著網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,大批的在線語(yǔ)料觸手可得,計(jì)算機(jī)技術(shù)的應(yīng)用也加快了計(jì)算相關(guān)技術(shù)的發(fā)展,這一切都促進(jìn)了基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的產(chǎn)生和發(fā)展,并逐漸取代了知識(shí)工程的方法。[Sebastiani, 1999]. 這種方法通常依據(jù)一定的數(shù)學(xué)公式,從預(yù)分類的訓(xùn)練語(yǔ)料中學(xué)習(xí)參數(shù)自動(dòng)建立分類器。由于參數(shù)是自動(dòng)學(xué)習(xí)的,所以大大節(jié)省了人力和時(shí)間,而且往往也不需要太多的專家知識(shí)。最常見的基于機(jī)器學(xué)習(xí)的文本分類方法有:純貝葉斯方法、Roc
111、chio方法、k近鄰算法、支持向量機(jī)、決策樹算法、神經(jīng)網(wǎng)絡(luò)算法[Aas, 1999]、LLSF(線性最小二乘擬和)[Yang, 1999]、最大墑方法[Nigam, 1999].</p><p><b> 純貝葉斯方法</b></p><p> 純貝葉斯方法是一種基于最大似然估計(jì)的方法。根據(jù)貝葉斯理論:</p><p><b>
112、 (公式3-1)</b></p><p> 其中,是類Ci在文檔d時(shí)的條件概率(文檔d屬于類Ci的概率);是文檔d在類Ci下的條件概率;是類Ci的概率;是文檔d的概率。在比較文檔d分別屬于幾個(gè)類別的概率時(shí),分母是相同的,所以只要比較分子的大小。</p><p> 和可以通過下面的公式得到:</p><p> 其中,是訓(xùn)練語(yǔ)料中屬于類Ci的文件數(shù);
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大規(guī)模層次文本分類解決方案
- 基于機(jī)器學(xué)習(xí)的大規(guī)模文本分類.pdf
- 大規(guī)模文本分類的若干問題研究.pdf
- 大規(guī)模層次文本分類的解決方案.pdf
- 大規(guī)模異構(gòu)環(huán)境下的文本分類算法研究及應(yīng)用.pdf
- 大規(guī)模Web信息抽取與文本分類研究.pdf
- 大規(guī)模短文本的分類過濾方法研究.pdf
- 基于支持向量機(jī)的大規(guī)模文本分類研究與設(shè)計(jì).pdf
- 基于大規(guī)模人工神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展文本分類算法研究.pdf
- 文本分類方法及應(yīng)用研究.pdf
- 短文本分類方法研究.pdf
- 面向大規(guī)模短文本的分類技術(shù)研究.pdf
- 文本分類的特征選擇和分類方法研究.pdf
- 規(guī)模豬場(chǎng)豬瘟免疫效果分析及防治技術(shù)研究碩士論文
- 層次化文本分類方法的研究.pdf
- 基于TAN的文本分類方法研究.pdf
- 文本分類特征選擇方法研究.pdf
- 文本分類語(yǔ)料庫(kù)自動(dòng)構(gòu)建系統(tǒng)的研究與改進(jìn).pdf
- 大規(guī)模語(yǔ)料庫(kù)分詞質(zhì)量評(píng)價(jià)方法研究.pdf
- 大規(guī)模不均衡數(shù)據(jù)分類方法研究.pdf
評(píng)論
0/150
提交評(píng)論