語(yǔ)篇分析中基于關(guān)鍵詞分析的數(shù)據(jù)驅(qū)動(dòng)方法.pdf_第1頁(yè)
已閱讀1頁(yè),還剩73頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目前語(yǔ)料庫(kù)語(yǔ)言學(xué)用于語(yǔ)言學(xué)研究的方法主要是基于語(yǔ)料庫(kù)的(corpus-based)方法和語(yǔ)料庫(kù)驅(qū)動(dòng)的(corpus-driven)方法。基于語(yǔ)料庫(kù)的方法使用語(yǔ)料主要是為了解釋、檢測(cè)或例示傳統(tǒng)語(yǔ)言理論(的正確性)。語(yǔ)料庫(kù)驅(qū)動(dòng)的方法則認(rèn)為傳統(tǒng)語(yǔ)言理論與語(yǔ)言事實(shí)之間存在差異,基于語(yǔ)料庫(kù)的方法不著眼挑戰(zhàn)已有語(yǔ)言描敘或語(yǔ)言理論,沒有充分利用語(yǔ)料的潛能,從而不能對(duì)豐富的語(yǔ)言事實(shí)做出理想的解釋。語(yǔ)料庫(kù)驅(qū)動(dòng)的方法主張:語(yǔ)言理論不應(yīng)先于語(yǔ)言事實(shí),而只能由

2、之直接產(chǎn)生,同時(shí)還要要完整地反映所觀測(cè)到的語(yǔ)言事實(shí)(Tognini-Bonelli2001)。 Rayson(2002)則另外提出了一種用于語(yǔ)言學(xué)研究的數(shù)據(jù)驅(qū)動(dòng)(data-driven)的方法。通過(guò)對(duì)以往研究的調(diào)查,他認(rèn)為在確定待研究的語(yǔ)言特征方面前兩種方法均存在不足之處,那就是研究問(wèn)題通常先于語(yǔ)言研究,差別只在于證實(shí)與質(zhì)疑,從而有可能遮蔽其他更普遍的語(yǔ)言特征的發(fā)現(xiàn)。Rayson的方法是運(yùn)用頻率凸現(xiàn)(frequencyprofi

3、ling)和檢索(concordance)這兩個(gè)語(yǔ)料庫(kù)研究手段對(duì)經(jīng)過(guò)語(yǔ)義標(biāo)注的語(yǔ)料先進(jìn)行宏觀分析,然后微觀分析,從而發(fā)現(xiàn)凸現(xiàn)的候選研究問(wèn)題。他把這個(gè)語(yǔ)言發(fā)現(xiàn)過(guò)程概括為“建庫(kù)—標(biāo)注—抽取—問(wèn)題—闡釋(build-annotate-retrieve-question-interpret)”。這種數(shù)據(jù)驅(qū)動(dòng)方法產(chǎn)生的問(wèn)題然后通過(guò)前兩種方法進(jìn)行分析。 本文和Rayson同樣認(rèn)為基于語(yǔ)料和語(yǔ)料驅(qū)動(dòng)的方法各有適用的領(lǐng)域,無(wú)優(yōu)劣之別,但在確定語(yǔ)

4、言研究問(wèn)題時(shí)需要先宏觀,后微觀,從而能夠發(fā)現(xiàn)以前被忽略的語(yǔ)言現(xiàn)象。和Rayson不同的是,本文提出的基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的宏觀發(fā)現(xiàn)過(guò)程不是基于語(yǔ)義的對(duì)比,而是基于詞匯的對(duì)比。提出這種方法的一個(gè)原因是語(yǔ)義標(biāo)注在國(guó)內(nèi)還不成熟,另一個(gè)原因是已有語(yǔ)料庫(kù)研究初步顯示基于詞匯和基于語(yǔ)義的語(yǔ)料庫(kù)研究都能對(duì)同一語(yǔ)料作出相似發(fā)現(xiàn)(ArcherandRayson2004;BakerandMcEnery2004;DeeganandShort2004)。

5、 基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的語(yǔ)言發(fā)現(xiàn)過(guò)程是“建庫(kù)—抽取—問(wèn)題—闡釋”,亦即是,首先建立目標(biāo)語(yǔ)料庫(kù)作為要進(jìn)行語(yǔ)言特征發(fā)現(xiàn)的對(duì)象,然后通過(guò)語(yǔ)料庫(kù)語(yǔ)言學(xué)的統(tǒng)計(jì)方法對(duì)目標(biāo)語(yǔ)料庫(kù)進(jìn)行分析,在這個(gè)步驟中發(fā)現(xiàn)潛在的可供進(jìn)一步分析的語(yǔ)言特征,最后提出相關(guān)問(wèn)題并進(jìn)行闡釋,闡釋的語(yǔ)言理論既可以是從分析中歸納得來(lái)的,也可以是傳統(tǒng)語(yǔ)言理論。其中“抽取”過(guò)程由三個(gè)子步驟構(gòu)成:第一步,提取關(guān)鍵詞;第二步(可選項(xiàng)),對(duì)關(guān)鍵詞進(jìn)行搭配詞分析;第三步,對(duì)關(guān)鍵詞或其

6、搭配詞進(jìn)行檢索。 本文的主要理論假設(shè)是:1)關(guān)鍵詞代表了目標(biāo)語(yǔ)料庫(kù)中顯著的語(yǔ)言現(xiàn)象(CollinsandScott1997),2)詞的意義主要由其上下文決定(Tognini-Bonelli2001)。 為了檢測(cè)基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的可行性,本文對(duì)西方經(jīng)濟(jì)學(xué)者所報(bào)道的中國(guó)經(jīng)濟(jì)進(jìn)行了上述方法的一次個(gè)案分析。分析初步表明,在輔助語(yǔ)言特征發(fā)現(xiàn)方面,該方法是可行的。發(fā)現(xiàn)的主要問(wèn)題是語(yǔ)言特征分類問(wèn)題和語(yǔ)言特征的選擇問(wèn)題。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論