垂直搜索主題詞典構(gòu)建-文獻(xiàn)_第1頁(yè)
已閱讀1頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  垂直搜索引擎主題詞典構(gòu)建方法的研究綜述</p><p><b>  瑞玲 白濤</b></p><p>  摘要:為提升垂直搜索引擎的性能,文中敘述了垂直搜索引擎的工作原理,主要研究主題詞典構(gòu)建的方法對(duì)垂直搜索引擎在檢索速度上的影響。簡(jiǎn)述了垂直搜索引擎的發(fā)展現(xiàn)狀,概述了結(jié)合哈希函數(shù)和二分查找的SHSEG詞典,展望垂直搜索引擎的未來(lái)發(fā)展趨勢(shì),最

2、后進(jìn)行了小結(jié)。</p><p>  關(guān)鍵詞:垂直搜索引擎;中文分詞;主題詞典</p><p>  Vertical search engine dictionary of the building method of the research topics were reviewed</p><p>  Rui Ling Bai Tao</p>&

3、lt;p>  Abstract:To enhance the performance of the vertical search engine, the paper describes the working principle of the vertical search engine, the main research topics of building up the dictionary method of verti

4、cal search engine in the influence of the retrieval speed. Briefly vertical search engine development present situation, this paper Outlines the combined with hash function and binary search SHSEG dictionary, looking to

5、the future of the vertical search engine development trend, the summar</p><p>  Keywords: vertical search engine; The Chinese word segmentation; Theme dictionary</p><p>  隨著因特網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息資源的數(shù)量迅速增

6、加,傳統(tǒng)的搜索引擎已經(jīng)不足以滿足用戶的特定需求。而垂直搜索引擎的出現(xiàn)正是針對(duì)不同行業(yè)提供更加精確的行業(yè)服務(wù)模式。它不同于通用搜索引擎,是通過(guò)一種計(jì)算機(jī)程序?qū)W(wǎng)頁(yè)庫(kù)中某類專門信息進(jìn)行一次結(jié)構(gòu)化數(shù)據(jù)的整合,定向分字段抽取出需要的數(shù)據(jù),并將該數(shù)據(jù)進(jìn)行組織和處理后為用戶提供檢索服務(wù)[1]。其基本特點(diǎn)是抓取的數(shù)據(jù)來(lái)源于它本身所關(guān)注的行業(yè),且抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)與元數(shù)據(jù),搜索行為也是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索。而主體詞典的構(gòu)建對(duì)垂直搜

7、索引擎的分詞效率和檢索速度都有重要的影響。因此如何構(gòu)建主題詞典自然而然的成為提高垂直搜索引擎性能的指標(biāo)之一。筆者認(rèn)為用于提高主題詞典構(gòu)建的方法主要有基于關(guān)系數(shù)據(jù)庫(kù)和純文本方式的結(jié)合。此方法的構(gòu)建對(duì)垂直搜索引擎檢索速度有相對(duì)提高。</p><p>  1 垂直搜索引擎的發(fā)展現(xiàn)狀</p><p>  搜索引擎從上世紀(jì)90年代初發(fā)展到現(xiàn)在,從Archie到Excite、Yahoo、Google再

8、到元搜索直到現(xiàn)在的智能檢索的產(chǎn)生,垂直搜索引擎是搜索引擎領(lǐng)域發(fā)展過(guò)程中的一個(gè)鏈接,未來(lái)搜索引擎的發(fā)展趨勢(shì)也有可能是垂直搜索引擎出現(xiàn)更加精確的細(xì)分。在搜索行業(yè)中,機(jī)器人搜索引擎適用于檢索難以查找和模糊的信息,但返回的信息過(guò)多,必須進(jìn)行篩選。目錄式搜索引擎使用戶可通過(guò)瀏覽目錄中的分類來(lái)縮小搜索范圍,提高檢索的準(zhǔn)確性,但人工方式限制其更新速度和容量。元搜索引擎返回的結(jié)果信息量更大,更全,也就意味著需要作更多的篩選。智能化搜索引擎是結(jié)合多Age

9、nt機(jī)制設(shè)計(jì)的一個(gè)基于多Agent協(xié)作的智能搜索引擎系統(tǒng)[2]。而垂直搜索引擎是2006年后才逐步興起的一類搜索引擎,主要專注于特定的搜索領(lǐng)域和搜索需求。相比通用搜索引擎的數(shù)千臺(tái)檢索服務(wù)器,垂直搜索引擎所需的硬件成本低、用戶需求特定、查詢方式多樣。例如:企業(yè)庫(kù)搜索、供求信息搜索、購(gòu)物搜索、房產(chǎn)信息搜索、人才搜索、地圖搜索;還涉及多媒體的搜索,如MP3搜索、視屏搜索等。現(xiàn)在國(guó)內(nèi)比較有代表性的垂直搜索引擎有:搜商網(wǎng)、亨者電子商務(wù)搜索引擎、紡

10、織搜索、一呼百應(yīng)、去哪兒等</p><p>  2 垂直搜索引擎的工作原理</p><p>  垂直搜索引擎在工作原理上與通用搜索引擎基本相同,主要有網(wǎng)絡(luò)蜘蛛模塊、信息處理模塊、信息索引與檢索模塊[3]。</p><p>  2.1 垂直網(wǎng)絡(luò)蜘蛛</p><p>  網(wǎng)絡(luò)蜘蛛程序的功能是從信息源中抓取數(shù)據(jù)。通用搜索引擎的網(wǎng)絡(luò)蜘蛛不會(huì)關(guān)注采集的

11、信息是否滿足用戶的需求,它試圖對(duì)Web中整個(gè)拓?fù)鋱D的每個(gè)節(jié)點(diǎn)都進(jìn)行遍歷。而垂直網(wǎng)絡(luò)蜘蛛在搜索網(wǎng)頁(yè)時(shí),先通過(guò)一定的網(wǎng)頁(yè)分析算法判斷網(wǎng)頁(yè)的主題相關(guān)性,然后對(duì)URL進(jìn)行分析,將與主題相關(guān)的有用鏈接保留并放入等待抓取的網(wǎng)頁(yè)URL隊(duì)列中。之后根據(jù)一定的搜索策略從列隊(duì)中選擇下一步要抓取的網(wǎng)頁(yè)URL,如此循環(huán),直到達(dá)到系統(tǒng)的某一條件。垂直網(wǎng)絡(luò)蜘蛛的遍歷方式與網(wǎng)絡(luò)蜘蛛基本相同:即深度優(yōu)先、廣度優(yōu)先和兩種遍歷方式混合的遍歷方式。 </p>

12、<p>  2.2 信息處理模塊</p><p>  信息處理模塊是對(duì)垂直網(wǎng)絡(luò)蜘蛛提取的網(wǎng)頁(yè)信息進(jìn)行處理。首先對(duì)采集的網(wǎng)頁(yè)信息進(jìn)行過(guò)濾,去掉頁(yè)面中的廣告、導(dǎo)航鏈接等頁(yè)面干擾信息。其次用中文分詞的方法提取頁(yè)面的信息關(guān)鍵字,用以判斷該頁(yè)面是否符合特定的主題,并提出關(guān)鍵字進(jìn)行分類、去重和分詞等處理,存入索引信息庫(kù)。Web信息抽取技術(shù)也有多種分類,根據(jù)抽取信息時(shí)采用的原理不同,還可分為4類:基于自然語(yǔ)言理解的方

13、式、基于包裝器歸納的方式、基于Ontology的方式和基于HTML結(jié)構(gòu)的方式[3]。</p><p>  2.3 信息索引與檢索</p><p>  該模塊主要包含信息索引子模塊和檢索子模塊。信息索引子模塊是對(duì)采集的頁(yè)面信息建立索引,存入索引信息庫(kù)。并隨著新信息的入庫(kù)對(duì)原索引信息進(jìn)行維護(hù),并根據(jù)用戶的需求在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,輸出查詢

14、結(jié)果。檢索子模塊則是對(duì)前兩個(gè)過(guò)程的檢驗(yàn)。首先分析用戶需求,得出用戶可能感興趣的條件區(qū)域,提交給信息索引子模塊,根據(jù)信息索引子模塊返回的結(jié)果顯示給用戶。</p><p>  垂直搜索引擎中信息的抽取大多采用中文分詞方法進(jìn)行分詞,因而中文分詞效率直接影響了垂直搜索引擎的搜索速度。</p><p><b>  3 中文分詞方法</b></p><p>

15、;  詞是人類語(yǔ)言中有含義、可獨(dú)立運(yùn)用的最小單位。英文的單詞與單詞之間存在著明顯的分詞標(biāo)記,容易區(qū)分。而漢語(yǔ)是一種無(wú)明顯詞間間隔的語(yǔ)言,所以存在如何分詞的問(wèn)題,即分詞技術(shù)[2]。在垂直搜索系統(tǒng)中,主題詞典的結(jié)構(gòu)與分詞算法的準(zhǔn)確度有著緊密的關(guān)系?,F(xiàn)有的分詞方法可分為三大類:基于字符串的匹配法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。由于基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法運(yùn)用的范疇分別是自然語(yǔ)言處理和統(tǒng)計(jì)詞頻,所以這里重點(diǎn)介紹基于字符串

16、匹配的分詞方法。</p><p>  3.1 基于字符串匹配的分詞方法</p><p>  基于字符串匹配的分詞方法又叫做機(jī)械分詞方法,它是按照一定的策略將需要分析的字符串與一個(gè)機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功[2]。常用的幾種機(jī)械分詞方法有:正向最大匹配法、逆向最大匹配法、最少切分。</p><p>  3.1.1 正向最大匹配法&l

17、t;/p><p>  正向最大匹配法又叫MM法。其目的是將最長(zhǎng)的復(fù)合詞分離出來(lái)。它采用機(jī)械式匹配算法的原理,通過(guò)建立詞典并進(jìn)行正向最大匹配,對(duì)中文進(jìn)行分詞。首先假定最大復(fù)合詞長(zhǎng)度為L(zhǎng)進(jìn)行匹配,如果詞典里有這樣的字,則匹配成功。否則去掉最后一個(gè)詞,繼續(xù)匹配,直到成功為止[2]。最大匹配法必須首先設(shè)定一個(gè)匹配詞長(zhǎng)的初始值,否則詞長(zhǎng)過(guò)短, 長(zhǎng)詞就會(huì)被切錯(cuò);詞長(zhǎng)過(guò)長(zhǎng), 效率就比較低。其次需掩蓋分詞歧義[4]。</p&g

18、t;<p>  3.1.2 逆向最大匹配法</p><p>  逆向最大匹配法也叫PMM法。由于漢語(yǔ)言中的偏正結(jié)構(gòu)較多,故可從后向前匹配,從而提高精度。而算法卻與正向最大匹配法相同,但匹配失敗時(shí),去掉的是第一個(gè)詞。</p><p>  3.1.3 最少切分</p><p>  最小切分是指使用某種分詞策略使每個(gè)句子中切出的詞數(shù)最小。</p>

19、<p>  一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高分詞的準(zhǔn)確率。</p><p>  3.2 基于理解的分詞方法</p><p&g

20、t;  這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解

21、的分詞系統(tǒng)還處在試驗(yàn)階段。</p><p>  3.3 基于統(tǒng)計(jì)的分詞方法</p><p>  基于統(tǒng)計(jì)的分詞方法就是對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有

22、一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。</p><p>  對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法。由于主題詞典的構(gòu)建對(duì)中文分詞效率和檢索速度都有重大的影響,在垂直搜索引擎的檢索中,主題詞典的構(gòu)建無(wú)疑是提高用戶檢索信息速度的間接保證。</p><p>  4 主題詞典的構(gòu)建方法<

23、;/p><p>  主題詞典構(gòu)建的研究是信息處理中基礎(chǔ)工作,它在文本的自動(dòng)分詞、檢索等諸多領(lǐng)域都有重要的應(yīng)用價(jià)值。本文中介紹的主題詞典的構(gòu)建方法是一種根據(jù)漢字的內(nèi)碼建立Hash函數(shù),把Hash函數(shù)的值依照升序存入到數(shù)組中去,并采用二分法進(jìn)行分詞詞典的查找,即SHSEG詞典(Simple and High Efficient Segmentation)[7]。</p><p>  4.1 SHS

24、EC分詞詞典</p><p>  散列(Hash) 是一種重要的存儲(chǔ)方法,也是一種常見(jiàn)的查找方法。它的基本思想是:以結(jié)點(diǎn)的關(guān)鍵字為自變量,通過(guò)一個(gè)確定的函數(shù)關(guān)系,計(jì)算出關(guān)鍵字對(duì)應(yīng)結(jié)點(diǎn)的存儲(chǔ)地址,并將結(jié)點(diǎn)存入所指的存儲(chǔ)位置上。查找時(shí)再根據(jù)要查找的關(guān)鍵字用同樣的函數(shù)計(jì)算地址,然后到相應(yīng)的單元里去提取要找的結(jié)點(diǎn)。</p><p>  SHSEG分詞詞典構(gòu)建的方法是:首先把文本形式存貯的字典讀入到

25、關(guān)系數(shù)據(jù)庫(kù)中,在關(guān)系數(shù)據(jù)庫(kù)中以詞條的機(jī)內(nèi)碼進(jìn)行索引排序,然后按順序讀數(shù)據(jù)庫(kù)中的記錄。遇到單個(gè)漢字時(shí)建立新的鏈表,根據(jù)該漢字的機(jī)內(nèi)碼計(jì)算出其在二維數(shù)組的下標(biāo);把隨后的記錄添加到該鏈表一直到下一個(gè)單字。查找時(shí)先計(jì)算待查字串的首字機(jī)內(nèi)碼,利用Hash算法求出其在內(nèi)存中的地址,然后找出所有以該字為鏈表頭的鏈表,在鏈表里進(jìn)行二分查找[7]。</p><p>  5 垂直搜索引擎的展望</p><p>

26、;  隨著網(wǎng)絡(luò)的發(fā)展和信息的不斷遞增,搜索引擎的經(jīng)濟(jì)價(jià)值隨用戶群的增長(zhǎng)逐步顯現(xiàn)。目前的研究、開發(fā)十分活躍,除了繼續(xù)提高原有的查詢結(jié)果的精度,提高檢索的有效性;采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能;提高智能檢索的功能等方面的研究外,垂直搜索引擎在其技術(shù)上還有很大的發(fā)展空間。垂直搜索引擎技術(shù)在發(fā)展中應(yīng)該為用戶提供更優(yōu)化的檢索結(jié)果,并在主題詞典構(gòu)建、自然語(yǔ)言處理、P2P對(duì)等網(wǎng)絡(luò)搜索和人工智能技術(shù)上有所突破。</p><p&

27、gt;<b>  6 小結(jié)</b></p><p>  國(guó)內(nèi)有關(guān)垂直搜索引擎的研究主要集中在網(wǎng)頁(yè)信息抽取等方面,研究方法主要有Web網(wǎng)頁(yè)的信息抽取技術(shù),有關(guān)主題詞典構(gòu)建的研究較少,而針對(duì)主題詞典構(gòu)建的研究在提高分詞效率方面有重要的意義,需要深入的探索。</p><p><b>  參考文獻(xiàn):</b></p><p>  [

28、1] 印鑒,陳億群,張鋼.搜索引擎技術(shù)研究與發(fā)展[J].計(jì)算機(jī)工程,2005,(14).</p><p>  [2] 李志蜀,李果.中文搜索引擎的原理剖析及開發(fā)實(shí)現(xiàn)技術(shù)[J].計(jì)算機(jī)應(yīng)用研究,2001,(11):96-99.</p><p>  [3] 周純.垂直搜索引擎技術(shù)進(jìn)展[J].知識(shí)經(jīng)濟(jì),2011,(9):103.</p><p>  [4] 劉件,魏程.中

29、文分詞算法研究[J]. 微計(jì)算機(jī)應(yīng)用,2008,29(8):11-16.</p><p>  [5] 邊新志.搜索引擎原理分析及實(shí)現(xiàn)[M].農(nóng)機(jī)化研究,2005,(1):248-253.</p><p>  [6] 余艷.搜索引擎的原理剖析及其技術(shù)發(fā)展[J].圖書館學(xué)刊,2004,26(1):58-60.</p><p>  [7] 程傳鵬.一種簡(jiǎn)單高效的中文分詞方

30、法[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版),2006,(8):88-90</p><p>  [8] 左羽.搜索引擎的原理及技術(shù)分析研究[M].福建電腦,2005,(8):65-66.</p><p>  [9] 陳建秋,鄧飛其.智能化搜索引擎分析與探討[J].廣州大學(xué)學(xué)報(bào):自然科學(xué)版,2002,(3).</p><p>  [10] 陳鑫,常致全.智能化搜索引擎的

31、原理及實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2003,(s2):191-193.</p><p>  [11] 王林.搜索引擎原理和發(fā)展[M].圖書館理論與實(shí)踐,2004,(04):37-38.</p><p>  [12] 陳晶.元搜索引擎實(shí)現(xiàn)技術(shù)[J].情報(bào)雜志,2005,(5):79-81.</p><p>  [13] 林端宜,陳榕虎.搜索引擎研究新技術(shù)[J].情報(bào)探索,

32、2005,(3).</p><p>  [14] 楊麗杰.搜索引擎的原理與利用[J].研究現(xiàn)代情報(bào),2004,(2).</p><p>  [15] 俞立文,趙政.搜索引擎的工作機(jī)制[J].微型機(jī)與應(yīng)用,2002,(9):31-33.</p><p>  [16] 郭琳.多Agent協(xié)作的智能搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)檢索,2005,(7).</p&

33、gt;<p>  [17] 曾福興.搜索引擎[J].情報(bào)學(xué)報(bào),1999,(18).</p><p>  [18] 胡國(guó)晴.垂直搜索引擎中Web信息抽取技術(shù)研究[D].中南大學(xué),2008.</p><p>  [19] 岳清.淺析搜索引擎的原理及發(fā)展前景[M].大眾科技,2005,(5):58-60.</p><p>  [20] 王建勇,單松巍,雷鳴,

34、謝正茂,李曉明.Web search engine:characteristics of user behaviors and their implication.中國(guó)科學(xué):F輯-信息科學(xué)(英文版),2001,(5).</p><p>  [21] Zhang Weifeng,Xu Baowen,ZhouXiaoyu.Scheduling in a Meta Search Engine by GeneticAlg

35、orithm.Wuhan University Journal of Natural Sciences,2001,(Z1).</p><p>  [22] 張利,邵世煌,曾獻(xiàn)輝,尹美華.A Case Study of Search Engine on World Wide Web for Chemical Fiber Engineering. Journal of DonghuaUniversity,2001,(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論