版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、Internet上數(shù)據(jù)量急劇膨脹使其成為企業(yè)競爭情報獲取的重要來源,然而如何從這個信息海洋中找到企業(yè)所需要的情報成為困擾企業(yè)競爭情報獲取的難題。商業(yè)信息抽取作為解決這一難題的重要手段,其抽取結果的好壞對最終競爭情報的形成有著重要的影響。
本文對Web環(huán)境上的商業(yè)信息抽取技術進行了研究,主要關注兩個方面:商業(yè)信息中的關系抽取和實體抽取。針對抽取對象的不同特征,研究不同的技術方法,以提高抽取的召回率和準確率。其中關系信息抽取以
2、職位關系抽取為例,分析了職位關系實例在網(wǎng)頁中的呈現(xiàn)特征,設計了基于結構特征的職位關系抽取算法;實體抽取以機構名識別為例,基于語言學中語法對語義的依賴關系和共生性詞場兩個觀點,提出了語義隱馬爾可夫模型的機構名識別算法。兩個算法有效改善了商業(yè)信息抽取效果,同時也為其它商業(yè)信息抽取提供了參考。本文的主要貢獻主要有:
(1)提出了基于Web的職位關系抽取算法。職位關系反映了一個人在一個組織所占據(jù)的職位,是一種重要的競爭情報。本文分
3、析了網(wǎng)頁中職位關系實例的特征,并利用結構化系數(shù)和結構化文件片斷對這些特征進行描述,最后利用模式匹配的方法從結構化文件片斷中抽取出職位關系。實驗結果表明算法達到了準確率超過96%、召回率超過87%的較好結果。
(2)提出了基于語義隱馬爾可夫模型的中文機構名識別算法。語義隱馬爾可夫模型的構建以語言學中的語法對語義的依賴關系和共生性詞場兩個重要觀點為理論依據(jù)。一個句子可以看作是一個詞的序列,這個序列背后隱含著一個語義序列,且語義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Internet的信息抽取技術研究.pdf
- 歐美商業(yè)信息ppt模板
- 網(wǎng)絡群對商業(yè)信息傳播的影響.pdf
- 小型商業(yè)信息管理系統(tǒng)的開發(fā)與研究.pdf
- 寧波房產(chǎn)公司商業(yè)信息綜合管理系統(tǒng).pdf
- 基于信息抽取技術的商業(yè)社會網(wǎng)絡創(chuàng)建研究.pdf
- 82051.微博用戶轉發(fā)商業(yè)信息的動機研究
- 基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn).pdf
- 大學生位置商業(yè)信息服務用戶采納的影響因素研究.pdf
- 基于本體的Web信息抽取.pdf
- 基于實例的Web信息抽取.pdf
- 基于XML的網(wǎng)頁信息抽取.pdf
- 基于本體的信息抽取研究.pdf
- 基于XPath的網(wǎng)頁信息抽取.pdf
- 基于表格的Web信息抽取.pdf
- 基于文檔信息抽取的信息泄漏檢測.pdf
- 基于內(nèi)容冗余的Web信息抽取.pdf
- 基于Web的競爭信息抽取研究.pdf
- 基于Agent的Web信息抽取研究.pdf
- 基于網(wǎng)頁版面分析的信息抽取.pdf
評論
0/150
提交評論