漢語詞匯統(tǒng)計研究_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1漢語詞匯統(tǒng)計研究漢語詞匯統(tǒng)計研究王惠新加坡國立大學中文系1、詞匯統(tǒng)計概說、詞匯統(tǒng)計概說詞匯統(tǒng)計研究是漢語詞匯學的一個重要方面,它可以通過對漢語詞匯的各種現(xiàn)象的量的描述得出質(zhì)的評價,從而揭示漢語詞匯的各種統(tǒng)計特性。這種統(tǒng)計研究可以由人來做,也可以由計算機來做。從詞匯研究的角度來看,詞匯統(tǒng)計研究已有很長的歷史了。古印度語言學家在研究婆羅門教的經(jīng)典《吠陀經(jīng)》時,就進行過單詞數(shù)目的統(tǒng)計。1898年德國學者F.W.Kaeding編制了世界上第一

2、部頻率詞典《德語頻率詞典》。1944年,英國數(shù)學家G.U.Yule發(fā)表了《文學詞語的統(tǒng)計研究》,大規(guī)模地使用概率和統(tǒng)計方法來研究語言。1949年,法國學者R.Michea提出建立“統(tǒng)計詞匯學”。1965年,德國學者R.D.Keil把詞頻統(tǒng)計與現(xiàn)代統(tǒng)計學結(jié)合起來,提出了“詞匯計量學(lexicometric)”。近40年來,由于語言統(tǒng)計研究中廣泛地采用計算機,逐漸改變了傳統(tǒng)的手工查頻、手工統(tǒng)計的辦法,提高了統(tǒng)計的效率和精度,詞匯統(tǒng)計學在國

3、際上有了巨大的發(fā)展。我國也早在20世紀20年代就進行過漢語詞匯的統(tǒng)計研究。70年代末以來,我國開始利用計算機進行漢語詞匯的統(tǒng)計研究,除了統(tǒng)計字、詞頻度以外,還以此為基礎建立了漢語的語料庫,編制了各種頻率詞典、詞表,并對現(xiàn)代漢語的常用字、常用詞、構(gòu)詞規(guī)則等進行了多方面的研究,取得了可觀的成績。2、二三十年代的漢語基本詞匯統(tǒng)計、二三十年代的漢語基本詞匯統(tǒng)計在漢語教學中,究竟應該選擇哪些字最先教給學生?哪些字是最常用的?哪些是次常用的?一個人

4、至少要掌握多少字,才可以完成基本的閱讀與寫作?所有這些,無疑是語文教學首先就遇到的問題。因此,編選常用字表給學生學習使用就成了中國語文教育的傳統(tǒng)?!肚ё治摹罚?000字)、《三字經(jīng)》(1248字)是古代漢語教學的重要模式。我國第一個進行現(xiàn)代意義上的字頻統(tǒng)計分析,是語言學家黎錦熙在1922年發(fā)表的《國語基本語詞的統(tǒng)計研究》(《國文學會叢刊》1卷1號)。其后,教育學家陳鶴琴根據(jù)6類材料55萬漢字,歷時兩三年,選出了4261常用字,1928年

5、6月完成了《語體文應用字匯》。此外,王文新也編寫過《小學分級字匯研究》一書。1934年,彭仁山對三民主義用詞作了一些統(tǒng)計與分析1。1946年,四川省教育科學院頒發(fā)了《常用字選》,收錄2000個字。這些統(tǒng)計都是手工查頻,材料零星分散,而且統(tǒng)計單位只限于漢字。3、五六十年代常用字詞的統(tǒng)計、五六十年代常用字詞的統(tǒng)計建國以后為了推廣普通話、普及文化知識,首先就要編寫識字教材。為了避免漢語教學大綱設計和教材編寫的主觀盲目性,提高教學效率,中央人民

6、政府和各省的教育部門都很重1彭仁山,三民主義用詞統(tǒng)計與分析,《教育研究》第52期,1934年34.2詞頻統(tǒng)計由于書面漢語不是按詞分寫的,而是以漢字為單位逐個書寫的,詞與詞之間的界限以及詞和語素、詞組的劃分,都缺少明顯的依據(jù)。詞的定義成為長期以來困擾著漢語詞匯學界的一道難題。因此,漢語大規(guī)模的統(tǒng)計研究多年來一直停留在以字為單位的階段上。比起常用字來,常用詞的統(tǒng)計起步晚,難度更大。直到80年代以后,隨著漢語詞匯研究的深入和中文信息處理技術(shù)的

7、進步,我國在詞頻統(tǒng)計方面才開始大規(guī)模地開展工作。進行詞頻統(tǒng)計,首先要從連續(xù)的漢字串中把詞且分出來。切詞的方式有人工切詞和計算機自動切詞兩種。在現(xiàn)有的詞頻統(tǒng)計中,大多數(shù)采用人工切詞,憑借人的詞匯、語法知識和對上下文的理解,使詞與詞只間留出空白。從1979年末至1986年,北京語言學院語言教學研究所把“現(xiàn)代漢語詞匯統(tǒng)計研究”列為重點項目,對不同體裁的200萬字語料進行了人工切詞和抽樣統(tǒng)計,不僅對詞頻進行統(tǒng)計,而且同時兼顧字頻、組詞能力和詞長

8、的統(tǒng)計分析。統(tǒng)計結(jié)果分別列成:⑴按音節(jié)排列的頻率詞表;⑵使用度最高的前8000詞詞表;⑶頻率最高的前8000詞詞表;⑷使用度最低的詞語單位表;⑸按報刊政論、科普書刊、日??谡Z、文學作品分別列出的頻率最高的4000詞表(4個表);⑹按遞降順序排列的漢字頻率表;⑺漢字在詞首、詞間和詞末的構(gòu)詞能力分析;⑻其它附表。該項目的成果編成《現(xiàn)代漢語頻率詞典》一書出版。這是我國最早的一部字詞統(tǒng)計兼顧的頻率辭典。統(tǒng)計結(jié)果具有很高的客觀性、準確性1。此外,

9、該項目組成員還與中國社會科學院語言研究所合作,統(tǒng)計了全國中小學統(tǒng)一使用的十年制語文課本,出版了《漢語詞匯的統(tǒng)計與分析》。他們發(fā)現(xiàn),總字520934個字的課本中共包含的不同的詞18177個,平均詞長為1.98個漢字。頻率最高的1000詞,共出現(xiàn)278448次,占全部語料詞次總數(shù)的74%強。這些詞由731個漢字組成,其中頻率最高的前10個是“的、一、了、我、是、在、不、們、人、有”,它們占全部語料總字數(shù)的14.9%,前100個漢字占全部語料

10、總字數(shù)的41.1%,731個漢字全部語料總字數(shù)的63.9%,其常用程度和重要性顯而易見?;谶@些數(shù)據(jù),課題組對731個漢字的構(gòu)詞能力進行了進一步的研究。他們還根據(jù)不同音節(jié)的詞的數(shù)量與覆蓋率的對比提出:在靜態(tài)的環(huán)境中,單音節(jié)詞占的比例較小,但在使用語言的動態(tài)過程中,單音節(jié)詞所占的比例則比雙音節(jié)的比例大得多。這為漢語詞匯教學和研究提供了有價值的基礎資料。北京師范大學現(xiàn)代化教育技術(shù)研究所,也利用計算機進行了中小學教材的詞頻統(tǒng)計工作。在對106

11、.8萬的語料人工切詞的基礎上,建立了一個含有39601個詞的頻度詞表。在704841個總詞次中,單音節(jié)詞占52.7%,雙音節(jié)詞占43.8%,三音節(jié)詞占2.6%,四音節(jié)以上的詞占0.9%??梢?,在語言使用過程中,單音節(jié)詞仍比雙音節(jié)詞占優(yōu)勢。這一階段中,規(guī)模最大的漢語詞頻統(tǒng)計應是1982年國家標準局下達的“現(xiàn)代漢語詞頻統(tǒng)計工程”項目,由北航等10家單位聯(lián)合攻關,從1919~1982年的社會科學和自然科學的3億漢字的材料中抽樣2500萬字的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論