基于文本挖掘的綜合學(xué)術(shù)研究論文分析.pdf_第1頁
已閱讀1頁,還剩156頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、由于網(wǎng)上有海量的學(xué)術(shù)論文,所以要找到與研究課題相關(guān)的文章是一個(gè)艱巨的任務(wù)。人們做研究需要搜索、閱讀和分析很多論文,電子書以及其他文件,然后確定它們的主要研究?jī)?nèi)容并從中挖掘知識(shí)。海量的可用資源都以非結(jié)構(gòu)化的長(zhǎng)文本頁面格式提供,這需要很長(zhǎng)的時(shí)間來處理、搜索、閱讀和分析??紤]到大量的研究以及網(wǎng)上越來越多的信息,很難既快速又準(zhǔn)確地找到所需的信息。作為這類問題的解決方案,將大量的信息組織成有意義的屬于某一個(gè)類別的集群/類就變得非常重要。許多在線科

2、學(xué)論文庫,比如期刊和會(huì)議,他們根據(jù)出版年份,卷數(shù)和刊號(hào)來排版已出版的研究論文,這樣很難找到我們要找的相關(guān)論文。許多期刊和會(huì)議在谷歌學(xué)術(shù)搜索(許多研究人員最常用的搜索引擎)中沒有索引或文摘,這可能會(huì)使得我們更難找到相關(guān)論文。使用谷歌學(xué)術(shù)搜索意味著要找到相關(guān)論文,讀者或研究者必須知道期刊的鏈接,然后進(jìn)入鏈接搜索他們的出版物,卷數(shù)和刊號(hào),這要消耗一定的時(shí)間。有一些雜志要求作者在提交手稿時(shí)選擇論文主題所屬的類別,然后在論文發(fā)表時(shí)根據(jù)類別進(jìn)行分類

3、。在這些期刊當(dāng)中,有些可能只提供一個(gè)主題選項(xiàng),有些則提供了多個(gè)選項(xiàng)。對(duì)于那些只為作者提供一個(gè)主題選項(xiàng)的期刊,它意味著一篇論文只屬于一個(gè)主題領(lǐng)域,然而這是不正確的,因?yàn)榭茖W(xué)論文可以解決多個(gè)領(lǐng)域的問題,出現(xiàn)在論文中的關(guān)鍵字反映了論文所強(qiáng)調(diào)的主體內(nèi)容。這種根據(jù)文章的主體內(nèi)容來總結(jié)和組織論文排版的方法可以簡(jiǎn)化文章的搜索和檢索過程。論文推薦系統(tǒng)也被提出來幫助研究人員搜索他們感興趣的論文或與他們研究領(lǐng)域相關(guān)的論文。文本分析和文本挖掘技術(shù)已經(jīng)成為研究

4、人員的感興趣的兩大重要主題。文本挖掘是從文本中提取高質(zhì)量的有用信息的過程。首先從文本文件中提取信息(事實(shí)和事件),然后采用傳統(tǒng)的數(shù)據(jù)挖掘和數(shù)據(jù)分析方法進(jìn)行處理。在本文中,我們?cè)噲D解決這個(gè)問題并找到該問題的解決方案,然后使用下一代文本挖掘技術(shù)來組織那些學(xué)術(shù)研究論文,使他們能夠被更易于搜索和檢索。應(yīng)用高效的文本挖掘技術(shù),如文本摘要,信息提取,文本聚類以及文本分類方法等,它幫助我們提出新的基于文本挖掘的方法,然后應(yīng)用到科學(xué)研究論文2,以從中發(fā)

5、現(xiàn)有用的信息或知識(shí),造福讀者或研究人員。我們提出了一種基于文本挖掘技術(shù)的科學(xué)論文綜合分析方法。通過我們的方法,科學(xué)論文通過信息提取的方式從非結(jié)構(gòu)化格式轉(zhuǎn)換為對(duì)應(yīng)的結(jié)構(gòu)化格式。關(guān)于根據(jù)主題組織論文的排版并簡(jiǎn)化搜索和檢索過程的不同方法也被提出來了。圖1顯示了本文提出的文本挖掘方法的主要任務(wù)。
  圖1.通過文本挖掘技術(shù)進(jìn)行的學(xué)術(shù)研究論文分析的結(jié)構(gòu)示意圖
  除此之外,我們還運(yùn)用文本挖掘的方法根據(jù)讀者正在閱讀的或者感興趣的論文向他

6、們推薦相關(guān)論文。
  上述方法可以在論文搜索、閱讀和分析過程中提供幫助。實(shí)際上論文推薦系統(tǒng)可以幫助研究人員記錄他們的研究領(lǐng)域。本文針對(duì)前文提到的問題提出了四種解決方案,根據(jù)學(xué)術(shù)研究論文文本挖掘過程中信息提取、學(xué)術(shù)論文聚類、分類和推薦(相關(guān)論文根據(jù)讀者正在閱讀的文章被推薦)關(guān)鍵技術(shù)進(jìn)行總結(jié)。
  第一種解決方案是通過信息提取的方式對(duì)學(xué)術(shù)論文進(jìn)行摘要提取,這使得論文可以被快速的訪問和閱讀。這種方法也包含了從非結(jié)構(gòu)化文本格式向結(jié)構(gòu)

7、化的文本格式的轉(zhuǎn)換,便于進(jìn)一步處理。人們做研究必須要讀很多文章,這樣他們可以看到別人都做了什么,然后可以考慮他們是否可以對(duì)現(xiàn)有方法進(jìn)行改進(jìn)或提出新的方法。他們可以對(duì)自己感興趣的領(lǐng)域進(jìn)行一項(xiàng)調(diào)查,看在一段時(shí)間內(nèi)有多少篇相關(guān)的論文被發(fā)表,或者某一位特定作者發(fā)表了多少論文。許多學(xué)術(shù)研究論文,特別是期刊論文的編寫都采用文本頁面,一般都要很多頁,這需要很長(zhǎng)的時(shí)間來進(jìn)行處理、搜索、閱讀和分析。因?yàn)樽x者要閱讀導(dǎo)其研究領(lǐng)域相關(guān)的所有文章,所以這可能需要

8、花費(fèi)很長(zhǎng)時(shí)間。
  在第二種解決方案中,我們將無監(jiān)督學(xué)習(xí)方法應(yīng)用于類似的研究論文分組中,便于檢索和訪問。我們提出一種新的方法來研究論文的組織和檢索,服從相近研究論文和交織在一起的研究主題。它是基于主題分析提取和聚類的科學(xué)分析方法,目的是組織研究論文。信息提取技術(shù)再次應(yīng)用于從全文中提取其它感興趣的信息,這種技術(shù)可以促進(jìn)集群技術(shù)的應(yīng)用,這也是這種技術(shù)第一次貢獻(xiàn)的擴(kuò)展。這是一種非結(jié)構(gòu)化文檔格式到結(jié)構(gòu)化文檔格式的轉(zhuǎn)換,這種轉(zhuǎn)換提取的信息可

9、以用來挖掘和查詢。研究背后的動(dòng)機(jī)是,當(dāng)讀者在閱讀學(xué)術(shù)論文時(shí),他們會(huì)有不同的閱讀興趣。比如:致力于研究科學(xué)計(jì)量的研究人員(他們無需知道論文的內(nèi)容,對(duì)于他們知道論文的主題就已足夠)可能感興趣于搜索哪些研究主題更活躍,哪一個(gè)是最近的研究主題,哪些過時(shí)一點(diǎn),還有在一個(gè)特定的領(lǐng)域哪一個(gè)研究剛剛開始。這就為什么是在數(shù)據(jù)庫中存儲(chǔ)研究論文信息可以很容易獲取需要信息的原因。一個(gè)新的研究者可能對(duì)哪一類研究主題更感興趣,他可以從我們的方法獲益,因?yàn)閷W(xué)術(shù)論文按

10、照他們的主題分類被存儲(chǔ)在數(shù)據(jù)庫中。擁有聚類技術(shù)的信息提取技術(shù)被首次應(yīng)用,用這種方法,研究論文就可以被安排和分組在主題和客戶最接近的論文中。
  第三種解決方案是對(duì)研究論文監(jiān)督文本學(xué)習(xí)方法的應(yīng)用,這種方式可以輕松地搜索和檢索,是一種基于質(zhì)心和搜索科學(xué)論文的分類。許多在線的科技論文資料庫,如期刊和會(huì)議記錄,根據(jù)年發(fā)布量來決定他們的論文發(fā)表,這使得很難找到相關(guān)的論文。在谷歌學(xué)術(shù)(對(duì)于許多研究人員最常用的搜索引擎)中收錄這些科技論文資料,

11、可以使得找到相關(guān)的論文更容易,而許多這些期刊和會(huì)議都沒有在谷歌學(xué)術(shù)中收錄,這意味著,要找到這些論文,讀者或者研究人員不得不知道期刊的鏈接,然后可以通過出版、卷和數(shù)字來搜索它們。有些期刊要求在出版時(shí)寫上作者,提交他們的出版內(nèi)容是屬于哪個(gè)主題的,這樣可以用來論文分類。在這些刊物上,有的提供了一種選擇的主題,有的提供了許多選擇的主題。對(duì)于有些期刊只給作者提供一種選擇的主題,也就是說該論文只能屬于一類主題區(qū)域,這樣是不對(duì)的,原因如下所述:在基于

12、論文題目的句子、相關(guān)的標(biāo)題、關(guān)鍵句子中提取的名詞句子以及在剩余部分頻繁出現(xiàn)的句子,我們可以發(fā)現(xiàn)一套主題。提取的主題當(dāng)他們?cè)谡撐闹谐霈F(xiàn)的時(shí)候,多是同時(shí)出現(xiàn)的,這種語義要著重對(duì)待。頻繁多次共同出現(xiàn)的術(shù)語主題提取(FCTTE)方法被提出來查找論文的主要語義主題。它是基于短語的文件標(biāo)題。我們提出了一種新的方法用來提取研究論文的語意主題:
  1.加上論文的標(biāo)題、關(guān)鍵字、參考文獻(xiàn)的句子。
  2.在提取的部分中,關(guān)鍵句子中的名詞句子。

13、
  3.在剩余部分中,頻繁相鄰的詞語。
  基于在一定頻繁次數(shù)中提取的質(zhì)心分類,信息提取技術(shù)隨后會(huì)被用在該分類上。該方法僅把頻繁出現(xiàn)的多詞組作為主題,這意味著它們更趨向于出現(xiàn)在原文中,從而語義得以保持。
  提出的三種語意主題提取算法根據(jù)論文中的不同部分應(yīng)用:第一種方法是基于論文標(biāo)題的句子、關(guān)鍵字以及參考文獻(xiàn);第二種方法是基于在提取的關(guān)鍵部分中的名詞句子;最后一種方法是基于論文的其余部分中找到的頻繁相鄰多字不包括從屬

14、關(guān)系,表格,圖形,公式,符號(hào)和腳注,致謝,頁腳,標(biāo)題等。
  提取的主題被用在基于每個(gè)分類中頻繁提取主題的質(zhì)心分類中。在許多現(xiàn)有的文本分類方法中,為了區(qū)分一個(gè)新的文檔,相似性度量和概率(貝葉斯)被用來計(jì)算?;谒稣Z意內(nèi)容,相似度函數(shù)和概論都沒有計(jì)算在內(nèi),而不是:
  1.從兩個(gè)類質(zhì)心的主題比較。
  2.類質(zhì)心主題從新的論文中搜索分類,以判斷或預(yù)測(cè)新論文的分類。
  3.換句話說,提取主題代表新的論文與質(zhì)心分類

15、中的論文進(jìn)行比較,并且論文被分在他們最相似的分類中。如果至少兩個(gè)提取主題是存在于類質(zhì)心中,新的論文是類似于質(zhì)心分類。接著,如果主題在論文中有分類,新的搜索會(huì)在新的論文中被檢查。如果質(zhì)心分類的主題在新的論文中有體現(xiàn),這篇論文就被認(rèn)為是另一個(gè)類。簡(jiǎn)單講,每個(gè)質(zhì)心分類在新的論文中被搜索以進(jìn)行分類,如果它的質(zhì)心主題在新的論文中至少被找到兩次,這篇論文就被認(rèn)為是屬于其它類的。由于沒有相似的矩陣與新的進(jìn)行比較,這將導(dǎo)致快速的分類。這比線性搜索需要更

16、多的執(zhí)行時(shí)間。多限關(guān)鍵字命令(MTAKO)模型被認(rèn)同和修改以滿足我們的需求。沒有必要使用相似函數(shù),因?yàn)樗潜黄渌椒ㄊ褂玫摹?br>  本文最后的解決方法或貢獻(xiàn)是學(xué)術(shù)論文推薦。對(duì)于研究人員推薦系統(tǒng)是非常有用的應(yīng)用。例如:它可以幫助研究人員保持他所研究領(lǐng)域的跟蹤,根據(jù)他們的喜好推薦相關(guān)論文。對(duì)研究人員推薦論文,已經(jīng)有很多方法被提出。個(gè)性化推薦是一種主動(dòng)的服務(wù)技術(shù),在服務(wù)器收集和分析用戶信息,了解他們的行為和感興趣點(diǎn),建立一個(gè)模型,并提供滿

17、足個(gè)性化興趣模型的服務(wù)。在過濾中,有兩種主要的方法:協(xié)同過濾(CF)和基于內(nèi)容過濾(CBF)。
  我們所提出的方法與現(xiàn)有的兩種相關(guān)辦法中得到使用的功能和效果方面進(jìn)行比較。相較于之前提出解決類似問題的方法,實(shí)驗(yàn)結(jié)果表明了該方法的有效性。
  我們所提出的方法優(yōu)于先前所示的實(shí)驗(yàn)結(jié)果。我們的論文推薦方法的最佳性能是基于最新一代的查詢方法,考慮到全文內(nèi)容,或長(zhǎng)或短的查詢和優(yōu)秀論文的排名方法,考慮候選論文全部?jī)?nèi)容。總之,所有提出的這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論