-
簡介:碩士學位論文碩士學位論文DISSERTATIONFMASTER’SDEGREE工程碩士工程碩士MASTEROFENGINEERING關(guān)聯(lián)數(shù)據(jù)驅(qū)動的文檔注釋系統(tǒng)的設(shè)計與實現(xiàn)關(guān)聯(lián)數(shù)據(jù)驅(qū)動的文檔注釋系統(tǒng)的設(shè)計與實現(xiàn)DESIGNIMPLEMENTATIONOFALINKEDDATADRIVENDOCUMENTANNOTATIONSYSTEM曹瑞恒曹瑞恒2013年9月UNIVERSITEBDEAUX1CLASSIFIEDINDEXTP311UDC681DISSERTATIONFTHEMASTER’SDEGREEINENGINEERINGDESIGNIMPLEMENTATIONOFALINKEDDATADRIVENDOCUMENTANNOTATIONSYSTEMCIDATECAORUIHENGSUPERVISWANGZHONGJIEASSOCIATESUPERVISDAVIDCHENINDUSTRIALSUPERVISFRANCESCOTAGLINOACADEMICDEGREEAPPLIEDFMASTEROFENGINEERINGSPECIALITYSOFTWAREENGINEERINGAFFILIATIONSCHOOLOFSOFTWAREDATEOFDEFENCESEPTEMBER2013DEGREECONFERRINGINSTITUTIONHARBININSTITUTEOFTECHNOLOGY
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 94
大?。?5.88(MB)
子文件數(shù):
-
簡介:伴隨著信息技術(shù)、計算機網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,文件檔案已不再以單一的紙質(zhì)形式存在,應(yīng)運而生的電子文件檔案以下稱電子文檔以數(shù)碼的形式存儲于磁、電、光等介質(zhì)中,依賴計算機等數(shù)字設(shè)備閱讀、操作,并可在通信網(wǎng)絡(luò)上傳送。傳統(tǒng)的電子文檔安全管理和傳輸觀念開始受到了挑戰(zhàn)和動搖。例如電子文檔的組織管理、電子文檔的安全防護、電子文檔的安全傳輸?shù)纫幌盗袉栴},均值得研究和探討。本課題來源于浙江省科技廳的重大科技攻關(guān)項目“會議電子文檔展示系統(tǒng)研究與開發(fā)”。針對傳統(tǒng)會議電子化信息化的發(fā)展需求,本文以會議電子文檔安全管理與傳輸系統(tǒng)的設(shè)計與開發(fā)作為選題方向,在對當前文檔安全存儲技術(shù)、安全分發(fā)技術(shù)和權(quán)限控制技術(shù)進行深入調(diào)研和分析的基礎(chǔ)上開發(fā)出了一套會議電子文檔安全管理與安全傳輸?shù)脑拖到y(tǒng)。開展的工作包括以下幾方面1、研究了基于會議電子化的文檔安全管理模式,提出了一種集中式分級管理和分散式授權(quán)管理相結(jié)合的文檔安全管理模型,實現(xiàn)了系統(tǒng)權(quán)限配置的靈活性和安全性;2、研究了適用于會議模式的訪問控制技術(shù),提出了一種適用于會議系統(tǒng)的“四權(quán)分立”和“四次過濾”的權(quán)限控制方案,進一步加強了系統(tǒng)的安全控制。3、研究了會議電子文檔安全分發(fā)技術(shù),提出了一種基于BITTRENT協(xié)議改進的P2P文檔快速安全分發(fā)方案,保證了文檔在網(wǎng)絡(luò)傳輸過程中的安全性;4、設(shè)計開發(fā)出了一套適用于會議電子化運作模式的文檔安全管理與傳輸平臺。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 80
大?。?4.12(MB)
子文件數(shù):
-
簡介:隨著計算機在信息領(lǐng)域的廣泛應(yīng)用,特別是互聯(lián)網(wǎng)技術(shù)的日趨成熟,電子文檔已成為當今信息的最重要載體。在任何文檔處理系統(tǒng)中,預(yù)處理過程特別是灰度圖像二值化都是極為重要的,其效果的好壞會極大地影響其它模塊的工作。但是隨著排版和印刷技術(shù)的發(fā)展,文檔樣張的形式越來越豐富多彩,文檔中的背景、文字都不再是單一顏色,而常常具有各種紋理和多變的色彩。本文首先對完整的文檔處理系統(tǒng)及其預(yù)處理模塊作了簡要,然后把重點放在二值化問題上,給出圖像閾值化方法的綜述,并就已有的全局閾值化、局部動態(tài)閾值化等方法及其應(yīng)用效果作了分析和比較。隨后針對灰度變化比較復(fù)雜的文檔圖像,諸如彩頁雜志、學術(shù)論文等,作了分析并提出了一種改進的動態(tài)閾值化算法,并通過仿真實驗和以往的全局方法進行比較,來證實新方法的可行性。同時針對該方法在實際應(yīng)用中的局限性作出簡要分析,提出解決方法的基本原則。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 48
大?。?1.55(MB)
子文件數(shù):
-
簡介:隨著計算機和互聯(lián)網(wǎng)的迅速普及,人類進入了信息時代,各種信息資源呈現(xiàn)出了爆炸式地增長。在大量的信息中幫助用戶更加準確地找到他們想要的信息就成為了信息檢索的重要任務(wù)。然而傳統(tǒng)的信息檢索技術(shù)大部分都是基于字符串匹配的,他們已經(jīng)很難滿足用戶越來越個性化的需求。為了解決這一問題,本文從個性化的動機出發(fā),嘗試了實現(xiàn)個性化搜索引擎的不同的技術(shù),主要分成以下三個方面的研究1個性化潛力分析。在本章中,我們首先從數(shù)量的角度證實了在網(wǎng)頁搜索引擎的查詢?nèi)罩局胁煌c其他用戶的點擊數(shù)量要多遠于被重復(fù)的點擊數(shù)量。然后我們引入KAPPA統(tǒng)計量對在同一個查詢下的不同用戶的點擊的一致程度進行了度量。KAPPA值的分布顯示用戶的點擊的一致程度是很難用“一刀切”的網(wǎng)頁搜索引擎滿足的。最后我們引入了“個性化潛力”指標給出了大概什么樣的查詢能夠從個性化中獲益更多。2基于參考文檔模型的個性化WEB檢索。本章中我們引入了參考文檔模型對用戶的歷史點擊文檔進行建模并以反饋的方式個性化不同用戶相同查詢的搜索結(jié)果。我們分別在向量空間和概率空間下對參考文檔模型的性能進行了實驗。實驗結(jié)果表明,不論是在向量空間還是在概率空間下,參考文檔模型都能夠從用戶的歷史點擊的文檔中對用戶的個性進行很好地建模,并將這種個性很好地融入檢索過程當中。3基于多信息融合的查詢推薦。本章中我們就如何使用查詢?nèi)罩局杏涗浀挠脩羧航M的歷史來實現(xiàn)個性化的查詢進行了研究。具體地說,我們首先通過對美國在線的查詢?nèi)罩镜姆治鲵炞C了將其他查詢歷史相似的用戶的查詢進行相互推薦的可行性,然后使用了機器學習算法對多種用戶查詢歷史序列的相似度指標進行了融合,并根據(jù)融合后的相似度找出查詢歷史最相近的用戶將他們的查詢推薦出來。在搜狗的查詢?nèi)罩局械膶嶒灲Y(jié)果證實了這種方法確實能夠有效地將相似的用戶的查詢排在了前面。此外,我們還對基于用戶群組的點擊推薦進行了一定的探索。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 70
大?。?2.34(MB)
子文件數(shù):
-
簡介:作為一種全新的網(wǎng)絡(luò)應(yīng)用,社會化標注系統(tǒng)(SOCIALBOOKMARKINGSYSTEM)通過WEB20技術(shù)為普通用戶提供了便利的網(wǎng)絡(luò)資源的標注機制,由此收集到了大量用戶標注資源標簽(USERTAG),并形成了一種全新的信息分類模式分眾分類法(FOLKSONOMY)。由于受到不完整與錯誤的用戶標注行為的影響,標簽的可重用性問題成為影響社會化標注系統(tǒng)數(shù)據(jù)質(zhì)量的關(guān)鍵問題。該問題在一定程度上影響了社會化標注系統(tǒng)的信息索引能力,并降低了標簽數(shù)據(jù)作為信息資源的可用性。因此,如何在不影響用戶使用體驗與標注積極性的前提下,解決標簽的可重用性問題,成為了社會化標注系統(tǒng)中一個亟待解決的關(guān)鍵性技術(shù)問題。針對標簽的可重用性問題,標簽自動標注技術(shù)基于對用戶的歷史行為及待標注網(wǎng)絡(luò)資源的深入分析與學習,作為一種輔助機制被提出并得到了廣泛的關(guān)注。該技術(shù)可以自動篩選出與待標注資源相關(guān)的優(yōu)質(zhì)標簽并實時的將其推薦給用戶;通過標簽自動標注技術(shù),社會化標注系統(tǒng)可以在降低用戶標注門檻的同時,鼓勵用戶貢獻更多標簽,并通過自動的質(zhì)量控制策略,引導(dǎo)用戶提供質(zhì)量更高的標簽,從而形成一個良性的自反饋學習系統(tǒng),逐步提高標簽的可重用性。本文針對大規(guī)模文檔的標簽自動標注技術(shù)展開了相關(guān)研究,研究內(nèi)容包括以下四個方面第一,通過對文本對象的深入分析,結(jié)合傳統(tǒng)的信息推薦技術(shù),將產(chǎn)生式的理論框架融入標簽自動標注技術(shù)之中,提出了一種基于統(tǒng)計語言模型的文檔標簽排序標注框架(LANGUAGEMODELFTAGRANKING,LMTR),使得標簽自動標注技術(shù)能夠更為精確地描述標簽集與文本對象之間的關(guān)系,并據(jù)此提出了兩種排序標注語言模型,在隨后的實驗中,驗證了上述模型的標注性能。第二,針對LMTR模型所存在的標注效率問題,就大規(guī)模文檔的標注效率優(yōu)化問題展開了研究。通過分析影響LMTR模型標注效率的相關(guān)因素,提出了一種基于候選標簽生成策略的大規(guī)模文檔自動標注系統(tǒng)框架,以及基于向量空間模型、標簽共現(xiàn)理論以及信息抽取理論的三種候選標簽生成算法,并對上述算法進行了實驗驗證。第三,針對標簽排序推薦技術(shù)所面臨的優(yōu)質(zhì)標簽詞典的構(gòu)建問題,就標簽質(zhì)量評估問題展開了研究,提出了基于明晰度和分類特征的標簽質(zhì)量度量方法,并通過實驗驗證了上述方法的性能。隨后,通過排序融合算法就標簽質(zhì)量對LMTR算法的影響進行了實驗探索。第四,基于對用戶行為與社會化標注系統(tǒng)的深入觀察,提出了最小描述標簽集(MINMUMDEIONTAGSETMDT)的定義,并據(jù)此提出了一種全新標簽自動標注框架基于最小描述標簽集的自動標注框架(MDT框架),通過將自動標注系統(tǒng)的標注目標從單個標簽擴展至最小描述標簽集,更為泛化、形式化地描述了標簽集與實體之間在特定用戶偏好下的依賴關(guān)系。為解決MDT框架所面臨的尋找最小描述標簽集的問題,提出了一種基于貪心算法的標簽集尋優(yōu)算法,并使用語言模型對面向文檔的描述函數(shù)進行了建模。實驗結(jié)果表明,MDT框架展現(xiàn)出了與期望相符的標注性能。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 121
大?。?2.83(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大?。?2.4(MB)
子文件數(shù):
-
簡介:華中科技大學碩士學位論文屬性基加密的研究及其在文檔安全系統(tǒng)中的應(yīng)用姓名曾飛申請學位級別碩士專業(yè)計算機技術(shù)指導(dǎo)教師崔永泉20110527II華中科技大學碩士學位論文ABSTRACTATTRIBUTEBASEDENCRYPTIONABEMAKESTHEKEYMANAGEMENTINPKIEASIERIDENTITYINIDENTITYBASEDENCRYPTIONIBEISCHANGEDWITHSOMEATTRIBUTESATTRIBUTECANBEMEFLEXIBLEWHENCOMETOSOMEPROBLEMPOLICYIT’SWHYMERESEARCHERSFOCUSONITADOCUMENTSPROTECTSYSTEMUSINGABEISDEVELOPEDUNDERCERTAINNEEDSDATAINTHEBEGINOFDOCUMENTMARKSWHETHERADOCUMENTISASECURITYDOCUMENTINTHEENDOFDOCUMENTGIVESTHEAUTHIZEINFMATIONWHENAUSERTRYTOOPENAFILEHEMUSTHAVETHERIGHTATTRIBUTESCOMPARINGTHEAUTHIZEINFMATIONROLEBASEDACCESSCONTROLISPREVAILINGNOWADAYSROLEISEXTENDEDTOATTRIBUTESISN’TTHEONLYELEMENTINACCESSSTRUCTUREEVERYUSERINTHESYSTEMHAVESOMEATTRIBUTESINCLUDEDEPARTMENTROLENAMETHISATTRIBUTESALSOCOLLECTEDTURNEDTOASPECIALSTRUCTUREWHENCOMPAREDTODOCUMENTAUTHIZEINFMATIONLOGICALACCESSSTRUCTUREDEVELOPEDBASEDONCERTAINNEEDSKEYMANAGEMENTISANIMPTANTPROBLEMINSECURITYSYSTEMTHEKEY’SFUNCTIONKEYMANAGEMENTINCLUDINGROMIZEDDOCUMENTKEYNAMINGKFSECONDARYDOCUMENTKEYKNFATTRIBUTEPUBLICKEYKAATTRIBUTEPRIVATEKEYKASSETTINGAMULTILEVELKEYSTRUCTUREKEYWDSATTRIBUTEBASEDENCRYPTIONACCESSSTRUCTUREKEYMANAGEMENT
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 50
大?。?2.46(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 65
大小: 1.94(MB)
子文件數(shù):
-
簡介:博士學位論文博士學位論文動態(tài)多文檔文摘建模方法研究RESEARCHONDYNAMICMULTIDOCUMENTSUMMARIZATIONMODELINGMETHOD劉美玲劉美玲哈爾濱工業(yè)大學哈爾濱工業(yè)大學2012年6月CLASSIFIEDINDEXTP3912UDC681324DISSERTATIONFTHEDOCTALDEGREEINENGINEERINGRESEARCHONDYNAMICMULTIDOCUMENTSUMMARIZATIONMODELINGMETHODCIDATELIUMEILINGSUPERVISPROFZHAOTIEJUNACADEMICDEGREEAPPLIEDFDOCTOFENGINEERINGSPECIALITYCOMPUTERAPPLICATIONTECHNOLOGYAFFILIATIONSCHOOLOFCOMPUTERSCIENCETECHNOLOGYDATEOFDEFENCEFEBRUARY2012DEGREECONFERRINGINSTITUTIONHARBININSTITUTEOFTECHNOLOGY
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 114
大?。?1.46(MB)
子文件數(shù):
-
簡介:手寫漢字識別是指將用戶在設(shè)備上的書寫筆跡記錄并轉(zhuǎn)化成最終漢字內(nèi)碼的過程其中涉及到信息規(guī)整、模式識別等過程。手寫漢字識別的難度主要體現(xiàn)在漢字集的龐大、用戶各異的書寫習慣及相似字的判別上。由于龐大的數(shù)據(jù)集在對漢字的判別上識別系統(tǒng)需要花費大量時間進行判別。而傳統(tǒng)的手寫識別主要集中在單一設(shè)備上,設(shè)計人員受到設(shè)備資源的限制如較低級的處理器、較小的內(nèi)存空間等需要在識別速度及準確率上做出一定的協(xié)調(diào)這就導(dǎo)致在單機上識別率很難得到進一步的提升。針對這種識別率及識別速度的平衡問題我們采用一種并行化的在線手寫識別方法。這種方法秉承瘦客戶端的優(yōu)勢將計算量最大的識別部分集中在一個服務(wù)端集群利用并行化加快識別過程最終將識別結(jié)果返回給用戶。這樣解決了客戶端計算能力不足的問題并且能夠在服務(wù)集群上利用并行化加快識別速度既提高了識別率又提高了識別速度。在總結(jié)手寫識別算法的基礎(chǔ)上,本文的研究工作主要包含以下幾個方面1在改進的二次判別函數(shù)基礎(chǔ)上,使用其變形公式實現(xiàn)數(shù)據(jù)的獨立性從而實現(xiàn)線性并行化并利用加速比進行實驗分析。2利用神經(jīng)網(wǎng)絡(luò)實現(xiàn)字符識別采用平行并行化和垂直并行化兩種并行化方式實現(xiàn)神經(jīng)網(wǎng)絡(luò)的并行化。經(jīng)實驗測試本文提出的并行化識別方法在不影響識別精度的前提下極大的降低了字符識別時間單字識別加速比達到27。實現(xiàn)的并行化在線識別系統(tǒng)能夠達到用戶自由書寫并且流暢識別的需求。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 59
大?。?1.26(MB)
子文件數(shù):
-
簡介:跨文檔指代消解是自然語言處理的重點和難點之一是信息檢索信息抽取多文檔摘要等應(yīng)用系統(tǒng)的重要組成部分。在數(shù)十年中指代消解的研究只是局限于單篇文檔內(nèi)的研究。隨著研究的深入跨文檔指代消解越來越受到青睞因為它在篇章之間也構(gòu)建了多條指代鏈不僅可以獲得關(guān)于某個實體更詳細的信息而且能將一些很有價值的信息反饋到指代消解的研究中使指代消解取得突破性的進展。由于中文跨文檔指代消解的研究尚且處于起步階段。本文深入分析現(xiàn)有的英文跨文檔指代消解技術(shù)設(shè)計了中文跨文檔指代消解的系統(tǒng)該系統(tǒng)包括中文人名跨文檔指代消解和中文地名跨文檔指代消解兩部分。對于中文人名跨文檔指代消解提出兩步實現(xiàn)的方案首先抽取傳記信息、相容信息對指代鏈進行簡單的合并、分離和標記形成初始的指代鏈集合。然后采用基于向量空間模型VSM的聚類方法對指代鏈進行聚類形成最終的指代鏈集合。對于中文地名跨文檔指代消解提出通過文檔層信息的抽取與基于VSM的聚類相結(jié)合的策略來實現(xiàn)。此外由于中文跨文檔指代消解語料庫的缺乏我們從搜索引擎上搜集和整理了113篇具有相同人名“張偉”的文檔和30篇具有相同地名“通州”的文檔對這些文檔進行預(yù)處理、人工校對和核對后作為中文人名和地名的語料庫。本文采用BCUBED算法對系統(tǒng)進行評估在中文人名語料庫上其F值最高為9571%對應(yīng)的準確率和召回率為9241%和9925%。在中文地名語料庫上其F最高為8930%對應(yīng)的準確率和召回率為100%年118066%。特別是本文系統(tǒng)深入研究了不同的特征與特征的組合不同的相似度計算方法不同的閾值取值間隔傳記信息、相容信息和文檔層信息加入與否對系統(tǒng)性能的影響同時還研究了中文指代消解與中文跨文檔指代消解的關(guān)系。通過對比實驗結(jié)果檢查實驗錯誤分析了中文跨文檔指代消解的錯誤類型和解決方案為接下來的工作奠定了基礎(chǔ)。實驗表明本文的中文跨文檔指代消解系統(tǒng)性能良好。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 64
大?。?2.09(MB)
子文件數(shù):
-
簡介:數(shù)據(jù)文件的安全是信息安全領(lǐng)域里研究的重要內(nèi)容,防止文件泄密的有效手段是對文件進行加密存儲,而傳統(tǒng)的用戶層加密軟件由于改變了用戶的使用習慣而給用戶的普遍使用帶來了不便。論文以微過濾驅(qū)動模型為基礎(chǔ),分析了透明加密技術(shù)和微過濾驅(qū)動模型的原理,設(shè)計并實現(xiàn)了基于微過濾驅(qū)動透明加密技術(shù)的文檔安全系統(tǒng)。論文研究設(shè)計了文檔安全系統(tǒng)的方案和結(jié)構(gòu),系統(tǒng)主要由微過濾驅(qū)動透明加密內(nèi)核和用戶態(tài)的控制程序構(gòu)成,內(nèi)核態(tài)和用戶態(tài)之間以端口通信機制進行消息傳遞。在內(nèi)核態(tài),以微過濾驅(qū)動模型為基礎(chǔ),研究并且實現(xiàn)了透明加密驅(qū)動,在無需更改現(xiàn)有文件系統(tǒng)的前提下,實現(xiàn)了對WINDOWSNT操作系統(tǒng)的內(nèi)核級透明加解密支持。在用戶態(tài),研究設(shè)計了與內(nèi)核層相對應(yīng)的驅(qū)動控制程序,該程序提供微過濾驅(qū)動運行信息配置功能、文檔密鑰管理功能、局域網(wǎng)安全共享功能、移動磁盤的訪問控制功能和文檔密鑰的恢復(fù)功能。系統(tǒng)實現(xiàn)了密鑰與數(shù)據(jù)分離存放,提高了數(shù)據(jù)的安全性,實現(xiàn)了敏感數(shù)據(jù)共享在安全性和共享靈活性之間自由切換機制,還實現(xiàn)了對移動磁盤的訪問控制,使未經(jīng)授權(quán)的移動磁盤無法以明文形式拷貝敏感數(shù)據(jù),提供了USBKEY丟失或者損壞情況下文檔密鑰的恢復(fù)機制。論文在內(nèi)核和應(yīng)用層實現(xiàn)了對文檔的保護,最后進行了測試,達到了預(yù)期目標。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 74
大?。?8.67(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 34
大?。?1.65(MB)
子文件數(shù):
-
簡介:目前互聯(lián)網(wǎng)中越來越多的數(shù)據(jù)以XML的格式進行傳輸和操作XML結(jié)構(gòu)的靈活性使復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù)的交換更加方便。但是在實際工作中如傳感器噪聲數(shù)據(jù)、信息抽取時包含錯誤數(shù)據(jù)的數(shù)據(jù)源以及圖像處理等用XML描述的半結(jié)構(gòu)化數(shù)據(jù)會存在一些不確定性。作為不確定性數(shù)據(jù)研究領(lǐng)域的核心內(nèi)容概率XML能夠以明確的方式表示不確定性數(shù)據(jù)它是不確定性數(shù)據(jù)的結(jié)構(gòu)化描述語言。由于概率XML文檔內(nèi)數(shù)據(jù)的不確定性通過傳統(tǒng)的XMI查詢語言已不能夠準確地查詢出用戶期望的信息。因此在研究以往XML文檔的關(guān)鍵字檢索算法的基礎(chǔ)上本文提出了一個概率XML文檔TOPK關(guān)鍵字檢索模型該模型主要包括概率XML文檔分區(qū)處理、概率XML文檔關(guān)鍵字索引構(gòu)建以及概率XML文檔TOPK關(guān)鍵字檢索三個部分。當進行概率XML大文檔中關(guān)鍵字檢索時檢索時間效率會明顯降低本文引入普通XML文檔的分區(qū)技術(shù)XMLPARTITION將概率XML文檔分區(qū)分別存儲在相互獨立的服務(wù)器節(jié)點中對各分區(qū)節(jié)點并行執(zhí)行關(guān)鍵字檢索。為了在概率XML文檔關(guān)鍵字索引結(jié)構(gòu)中體現(xiàn)分布結(jié)點類型信息本文擴展了傳統(tǒng)關(guān)鍵字索引編碼方法DEWEY編碼設(shè)計了一種符合概率XML文檔結(jié)構(gòu)特點的關(guān)鍵字索引編碼方法。在此基礎(chǔ)上本文設(shè)計了概率XML文檔TOPK關(guān)鍵字檢索PTKSPROBABILISTICXMLTOPKKEYWDSEARCH算法并實現(xiàn)了原型系統(tǒng)。實驗結(jié)果表明PTKS算法具有良好的時間效率特別是針對復(fù)雜結(jié)構(gòu)的概率XML文檔的關(guān)鍵字檢索時間效率提升更加顯著。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 84
大?。?2.25(MB)
子文件數(shù):
-
簡介:目前,學術(shù)的發(fā)展日新月異,學術(shù)活動和交流也日益頻繁,文獻的數(shù)量急劇膨脹,在大量的文獻和學者數(shù)據(jù)等異構(gòu)的學術(shù)數(shù)據(jù)中高效準確地搜索到用戶所需要的學術(shù)專家信息來用于學術(shù)的研究,這是一個新的課題,專家搜索也正是基于此提出的,并且學術(shù)專家搜索也漸漸地成為了研究者所關(guān)注的一個新熱點?,F(xiàn)有常用的專家搜索是依賴于文本的文獻檢索,這種檢索方法通過用戶輸入查詢詞搜索相關(guān)的文獻。一般無法直接判斷文獻的作者是否為某領(lǐng)域的學術(shù)專家,且每個人對專家的理解不同,故對專家的認定存在不同的意見,只能依賴于網(wǎng)站或?qū)W術(shù)圈的推薦。目前成熟的專家搜索模型包括概率主題模型、語言模型和PAGERANK,這些方法是基于文本或鏈接的文獻搜索。然而,隨著學術(shù)的發(fā)展,學術(shù)之間關(guān)系的發(fā)展趨向多樣化,僅僅從文本內(nèi)容或鏈接關(guān)系的角度出發(fā)進行專家搜索會存在很大局限性,因為文本檢索需要有文獻數(shù)據(jù)才可以進行,然而,學者之間的相互關(guān)系也隱含著學者的地位和權(quán)威,所以我們不僅能夠從文獻的角度進行專家搜索,而且可以從學者的角度進行專家評測。針對現(xiàn)有方法沒有全面考慮學術(shù)社會網(wǎng)絡(luò)數(shù)據(jù)的缺陷,提出一種基于學術(shù)社會網(wǎng)絡(luò)特征的專家搜索算法ANF。該文將社會網(wǎng)絡(luò)分析和數(shù)據(jù)挖掘方法相結(jié)合,充分考慮了引文網(wǎng)絡(luò)、合著關(guān)系和論文內(nèi)容三種異構(gòu)數(shù)據(jù)。ANF從引文網(wǎng)絡(luò)的論文引用次數(shù)、共引率和權(quán)威值來衡量學者的重要性,從合著網(wǎng)絡(luò)的全局和局部分析學者的中心性,結(jié)合文本挖掘方法計算文獻與用戶查詢的相似度,并采用BP神經(jīng)網(wǎng)絡(luò)確定專家排名,并通過實驗進一步驗證基于學術(shù)社會網(wǎng)絡(luò)特征的專家搜索算法的有效性,繪制出學術(shù)社會拓撲圖,得到相關(guān)研究領(lǐng)域?qū)<遗琶透餮芯恐黝}熱點詞匯,并通過與傳統(tǒng)專家搜索方法對比,證明了該方法能夠提高專家搜索的準確率。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 59
大?。?8.07(MB)
子文件數(shù):