2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩129頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、經(jīng)典的機(jī)器學(xué)習(xí)算法大都是針對(duì)特定數(shù)據(jù)類型設(shè)計(jì)的,例如,ID3算法適用于離散型數(shù)據(jù)、BP算法適用于連續(xù)型數(shù)據(jù)。而在實(shí)際的學(xué)習(xí)問題中,學(xué)習(xí)數(shù)據(jù)與學(xué)習(xí)算法不匹配的情形不可避免地經(jīng)常出現(xiàn)。通常的解決方案是通過屬性轉(zhuǎn)換使數(shù)據(jù)與算法的類型一致,這一模式被稱為“面向算法的學(xué)習(xí)”(Algorithm Oriented Learning,AOL)。然而,實(shí)驗(yàn)表明AOL并不是一種有效的學(xué)習(xí)模式,一些重要的數(shù)據(jù)信息可能會(huì)在屬性轉(zhuǎn)換中被破壞,進(jìn)而影響學(xué)習(xí)的效果

2、。
   本文以基于結(jié)構(gòu)的屬性分類和算法分類觀點(diǎn),深入分析了信息在屬性轉(zhuǎn)換中損失的本質(zhì),并在此基礎(chǔ)上提出了“面向結(jié)構(gòu)的學(xué)習(xí)”(Structure Oriented Learning,SOL),該模式引入了具有一定結(jié)構(gòu)復(fù)雜性的中間結(jié)構(gòu),并以此作為聯(lián)系數(shù)據(jù)與算法的紐帶--SOL要求數(shù)據(jù)和算法都轉(zhuǎn)換成與中間結(jié)構(gòu)一致的類型。
   中間結(jié)構(gòu)的選擇在SOL模式中是非常重要的。中間結(jié)構(gòu)必須有一定的普遍性,使其能定義在大多數(shù)的屬性集合

3、上;又必須有一定的描述力,使其能對(duì)其他結(jié)構(gòu)進(jìn)行合理的解釋?!案瘛闭沁@樣一個(gè)合適的、具有一定結(jié)構(gòu)復(fù)雜度的、既簡(jiǎn)單又復(fù)雜的結(jié)構(gòu)。
   本文主題就是以“格”為中間結(jié)構(gòu)的機(jī)器學(xué)習(xí)。
   在討論具體的“面向格的機(jī)器學(xué)習(xí)”實(shí)例之前,本文梳理了“學(xué)習(xí)”的一般過程,提出了“機(jī)器學(xué)習(xí)機(jī)”的六元組表示,并在此基礎(chǔ)上給出了“學(xué)習(xí)”相關(guān)概念的形式化定義。
   至此,本文的前半部分回答了以下三個(gè)問題,“什么是學(xué)習(xí)?”,“什么是面向

4、結(jié)構(gòu)的學(xué)習(xí)?”,“什么是面向格的學(xué)習(xí)?”。
   而本文的后半部分則回答了“怎樣進(jìn)行面向格的學(xué)習(xí)?”,這里討論了兩個(gè)“面向格的機(jī)器學(xué)習(xí)”的實(shí)例。
   本文討論的第一個(gè)實(shí)例是基于格的規(guī)則歸納。本文首先提出了基于認(rèn)知的帶例外規(guī)則(rule with exception,RE)學(xué)習(xí)框架--CBREL,以及該框架下的CBREL-CBL算法和CBREL-ID3算法;接著,通過兩種不同的方法分別將兩個(gè)算法轉(zhuǎn)換為SOL模式下“格”類

5、算法,最后,本文通過大量實(shí)驗(yàn)比較了AOL模式與SOL模式運(yùn)用于混合類型數(shù)據(jù)分類問題的學(xué)習(xí)效果。實(shí)驗(yàn)結(jié)果表明,“格嵌入+格算法”的分類結(jié)果明顯好于“離散化+離散型算法”的分類結(jié)果,而沒有表現(xiàn)出對(duì)“連續(xù)化+連續(xù)型算法”的優(yōu)勢(shì)。分析認(rèn)為離散化是復(fù)雜結(jié)構(gòu)向簡(jiǎn)單結(jié)構(gòu)的轉(zhuǎn)換,這一過程存在信息損失;連續(xù)化是簡(jiǎn)單結(jié)構(gòu)向復(fù)雜結(jié)構(gòu)的轉(zhuǎn)換,這一過程沒有信息損失。以上結(jié)論也驗(yàn)證了本文提出的關(guān)于信息損失因?yàn)榈挠^點(diǎn)。
   本文討論的第二個(gè)實(shí)例是基于半格的

6、LDA類模型學(xué)習(xí)。LDA是應(yīng)用于語(yǔ)料的主題模型,它將主題表示為詞上的一種分布,而文檔則是各種主題的隨機(jī)混合。LDA類模型是LDA模型及其變形的統(tǒng)稱。LDA類模型一般適用于未標(biāo)注的語(yǔ)料(unannotated corpus),此時(shí),模型的訓(xùn)練過程可以被看作是離散型數(shù)據(jù)上的聚類過程。本文討論了如何在面向半格的學(xué)習(xí)模式下,將LDA類模型運(yùn)用于由分析樹屬性(parser tree attribute)構(gòu)成的標(biāo)注語(yǔ)料(annotated corp

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論