神經(jīng)網(wǎng)絡作為分類器的算法研究及在信息檢索中的應用.pdf_第1頁
已閱讀1頁,還剩119頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本文以統(tǒng)計理論為基礎,主要討論在計算機上用軟件模擬實現(xiàn)的神經(jīng)網(wǎng)絡分類器。在綜述了神經(jīng)網(wǎng)絡作為分類器的研究現(xiàn)狀及存在問題的基礎上,著重對構造性學習方法中的覆蓋算法進行深入的探討和改進,以達到縮短學習時間、簡化網(wǎng)絡結構、提高分類精度的目的。主要的研究內容及創(chuàng)新如下: (1)提出了覆蓋算法的概率模型,并利用有限混合模型的極大似然擬合,用期望最大化算法對覆蓋算法進行優(yōu)化處理。將用原覆蓋算法所得到的覆蓋結果看作是一個預處理,將覆蓋某一類樣

2、本的覆蓋數(shù)看作是有限混合模型中的分量數(shù)目,解決了有限混合模型中分量數(shù)目難以估計這一難題,而不是主觀地去估計分量的數(shù)目。某一類樣本有多少個覆蓋,就認為有限混合模型中的分量數(shù)目是多少,將覆蓋某一類樣本的每個覆蓋看成一個Gauss分布,利用混合模型的極大似然擬合,用期望最大化算法來對覆蓋算法進行優(yōu)化處理。擴大了覆蓋算法的應用范圍,模擬結果表明新算法提高了測試精度。 (2)對覆蓋算法中的參數(shù)與測試精度的關系進行了研究。得出的結論如下:當

3、原空間的k維樣本向特征空間的k+1維投影時,超球半徑的大小R與測試精度、拒識樣本數(shù)之間幾乎沒有關系;對覆蓋半徑中參數(shù)n的取值與測試精度關系進行了研究,當n=1/2(即覆蓋半徑取同類樣本中的最大距離與異類樣本中的最小距離的算術平均)時測試精度達到了最高,這相當于SVM中的最優(yōu)超平面;對覆蓋算法中樣本的學習順序與網(wǎng)絡性能的關系進行了分析實驗,實驗結果表明將樣本按類別排序后所得到的網(wǎng)絡,其性能比未排序時所得到的網(wǎng)絡有不同程度的提高。

4、(3)研究了覆蓋算法中覆蓋半徑的大小與識別精度之間的關系。 本文提出通過擴大覆蓋半徑和加入異類點,來減少覆蓋數(shù)目和隱層神經(jīng)元個數(shù),在網(wǎng)絡規(guī)模盡可能小的情況下,雖然增加了有限的學習時間,但提高了學習的精度。實驗證明PBCA對神經(jīng)網(wǎng)絡的訓練是有效的。 在網(wǎng)絡結構上,提出了由前饋網(wǎng)絡和反饋網(wǎng)絡組成的神經(jīng)網(wǎng)絡的混合結構。前饋網(wǎng)絡完成樣本的第一次分類,用反饋網(wǎng)絡對邊界樣本或拒識樣本進行第二次分類。 對處于“邊界”情況的測試

5、樣本,現(xiàn)有的分類方法一般用“就近原則”進行再分類,或是用“概率最大原則”進行再分類。當最大概率α很低時,按“概率最大原則”進行再分類的錯誤率=1-α將是很大的。而PBCA則體現(xiàn)了概率分布思想,克服了這種缺點,提高了分類的精度。 (4)對覆蓋算法CA、PBCA和FMMCA的應用進行了研究。將它們應用于信息檢索中的中文文本分類。分別用上述三個算法對由復旦大學計算機信息與技術系國際數(shù)據(jù)庫中心自然語言處理小組提供的包含10個類別內容的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論