版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p> 模糊數(shù)學(xué)在信息檢索中的應(yīng)用</p><p> 摘 要:本文從模糊集出發(fā),以信息檢索為應(yīng)用背景,逐步引入模糊數(shù)學(xué)理論,并以提高信息檢索的準(zhǔn)確率和檢索效率為目的,提出以下思想方法: </p><p> (1)為了提高檢索準(zhǔn)確率,根據(jù)模糊集理論,提出了基于文檔和查詢詞的模糊集表示法.</p><p> ?。?)通過利用模糊聚類分析理論,研究了基
2、于模糊集文檔的模糊聚類方法,并得到了分類的文檔簇,同時研究了文檔簇的模糊集表示法,為后續(xù)研究做鋪墊.</p><p> (3)為了提高檢索效率,可以通過縮小檢索范圍來實現(xiàn),據(jù)此提出了基于文檔簇的模糊信息檢索模型,從而得到滿足條件的文檔簇.</p><p> ?。?)為了對滿足條件的文檔簇中的文檔進(jìn)行排序,提出了基于文檔的模糊信息檢索模型,從而完成了檢索的剩余工作,并形成完整的檢索過程.&
3、lt;/p><p> ?。?)通過提出算例,分兩種情況進(jìn)行了分析:當(dāng)文檔集和查詢項都是用模糊集表示的,分析了基于模糊集的模糊信息檢索模型;當(dāng)文檔集是模糊集表示,查詢項是確定的布爾類型,分析了基于模糊集的擴(kuò)展布爾檢索模型.</p><p> 關(guān)鍵詞:模糊集;聚類分析;信息檢索;檢索模型;布爾檢索</p><p> Fuzzy mathematics applicati
4、on in information retrieval</p><p> Abstract: For improving the information retrieval accuracy and efficiency of searching, this paper, which puts information retrieval as application background and gradual
5、ly introduces the fuzzy mathematical theory, puts forward the following thoughts and methods: </p><p> (1) In order to improve retrieval accuracy, this paper, according to the fuzzy sets theory, put forward
6、 the fuzzy sets representations, based on both the inquiry word and the document. </p><p> (2) Through fuzzy clustering analysis theory, we study the fuzzy clustering analysis method based on the document c
7、luster and acquire the classification of the cluster. And we also study the representation of the document classification, based on the fuzzy sets. It is laying groundwork for the follow-up study. </p><p>
8、(3) In order to improve the search efficiency, we can do it through narrowing the searching range. So the paper puts forward the fuzzy information retrieval model, which is based on the document cluster. Then we get meet
9、 the satisfied document clusters. </p><p> (4) In order to sort the satisfied document clusters, we put forward the fuzzy information retrieval model, which is based on the document. Thus we complete the su
10、rplus work of retrieval, forming a complete search process. </p><p> (5) By presenting examples, two cases were analyzed: when the sets of documents and query terms are represented by fuzzy sets, we analyze
11、 the fuzzy information retrieval model based on the fuzzy sets; when the set of documents is fuzzy set and the set of the query terms is the Boolean sets, we analyze the Boolean information retrieval model based on the f
12、uzzy sets.</p><p> Keywords: fuzzy sets;clustering analysis;information retrieval;retrieval model;Boolean retrieval</p><p><b> 目 錄</b></p><p><b> 1 緒論1</b
13、></p><p> 1.1 論文研究的背景及意義1</p><p> 1.1.1 論文研究的背景及目的1</p><p> 1.1.2 國內(nèi)外研究現(xiàn)狀1</p><p> 1.1.3 論文研究的意義1</p><p> 1.1.4 論文研究采用的方法及理論依據(jù)2</p>
14、<p> 1.2 論文構(gòu)成及研究內(nèi)容2</p><p> 1.3 模糊集的基本概念2</p><p> 1.4 模糊理論的數(shù)學(xué)基礎(chǔ)2</p><p> 1.4.1 經(jīng)典集合2</p><p> 1.4.2 模糊集合3</p><p> 1.4.3 歸屬函數(shù)3</p
15、><p> 1.5 模糊子集及其運(yùn)算3</p><p> 1.5.1 模糊集的相關(guān)定義4</p><p> 1.5.2 模糊集的運(yùn)算5</p><p> 1.5.3 模糊集的其他運(yùn)算5</p><p> 1.6 模糊集的基本定理6</p><p> 2模糊聚類檢索策
16、略7</p><p> 2.1 相關(guān)概念7</p><p> 2.2 模糊聚類分析7</p><p> 2.2.1 選擇模糊聚類方法8</p><p> 2.2.2 詞頻矩陣8</p><p> 2.3 基于編網(wǎng)法的模糊聚類分析模型9</p><p> 2.3.
17、1 構(gòu)造模糊相似矩陣9</p><p> 2.3.2 模糊聚類之編網(wǎng)法10</p><p> 2.3.3 基于文檔集合的模糊聚類編網(wǎng)法的應(yīng)用10</p><p> 2.4 文檔簇的模糊表示法11</p><p> 3 模糊概念網(wǎng)絡(luò)12</p><p> 3.1 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu)12&
18、lt;/p><p> 3.2 基于文檔的模糊概念網(wǎng)絡(luò)的構(gòu)建12</p><p> 3.3 基于文檔簇的模糊概念網(wǎng)絡(luò)的構(gòu)建14</p><p> 4 基于文檔簇和文檔的信息檢索模型15</p><p> 4.1 基于文檔簇的模糊信息檢索模型15</p><p> 4.1.1 文檔簇和查詢項的模糊集
19、表示15</p><p> 4.1.2 相關(guān)性15</p><p> 4.1.3 檢索方法17</p><p> 4.2 基于文檔的模糊信息檢索模型18</p><p> 4.2.1 文檔和查詢項的模糊集表示18</p><p> 4.2.2 相關(guān)性18</p><p
20、> 4.3 檢索方法18</p><p> 4.3.1 基于模糊集的擴(kuò)展布爾檢索18</p><p> 4.3.2 基于模糊集的模糊檢索20</p><p> 5模糊信息檢索模型實例分析23</p><p> 5.1 基于模糊集的擴(kuò)展布爾檢索實例分析23</p><p> 5.2
21、 基于模糊集的模糊檢索實例分析24</p><p><b> 6 結(jié)論26</b></p><p><b> 參考文獻(xiàn)28</b></p><p><b> 致 謝29</b></p><p><b> 1 緒論</b></p&
22、gt;<p> 1.1 論文研究的背景及意義</p><p> 1.1.1 論文研究的背景及目的</p><p> 自從美國著名控制論專家、加利福尼亞大學(xué)L.A.Zadeh教授1965年建立模糊集理以來,在各國學(xué)者的共同努力和不斷探索下,模糊集理論及其應(yīng)用的研究成果已非常豐富.它不僅發(fā)展和擴(kuò)充了經(jīng)典數(shù)學(xué)的研究領(lǐng)域,使數(shù)學(xué)學(xué)科的研究體系發(fā)生了重大變革,而且能有效地解決
23、經(jīng)典數(shù)學(xué)難以解決的大系的復(fù)雜性問題,以及在自然界和日常生活中普遍存在而無法解決的模糊性問題,比如信息檢索.</p><p> 模糊數(shù)學(xué)理提出后,信息檢索領(lǐng)域的學(xué)者就嘗試將其應(yīng)用于信息檢索中,并且取得了長足的發(fā)展,產(chǎn)生了一大批優(yōu)秀的模糊信息檢索應(yīng)用理論,為模糊數(shù)學(xué)的應(yīng)用開拓了新的領(lǐng)域,比如:模糊聚類分析在信息檢索中的應(yīng)用、模糊集在信息檢索中的應(yīng)用、模糊推理在信息檢索中的應(yīng)用等.總體來看,這些應(yīng)用理論為模糊數(shù)學(xué)發(fā)展
24、開辟了新的空間,增添了新的活力.</p><p> 本文以模糊數(shù)學(xué)理論為基礎(chǔ),提出了一套新的信息檢索應(yīng)用方法.此方法的提出主要希望達(dá)到一下目的: </p><p> ?。?) 為了提高信息檢索的準(zhǔn)確性,提出了基于模糊集的信息檢索模型; </p><p> ?。?) 為了提高信息檢索的效率,提出了基于文檔簇的模糊信息檢索模型,并將“基于模糊聚類分析的檢索策略”應(yīng)用到
25、模型上.</p><p> 1.1.2 國內(nèi)外研究現(xiàn)狀</p><p> 目前,信息檢索發(fā)展迅速,并產(chǎn)生了優(yōu)秀的檢索模型:向量空間模型,概率模型,語言模型,推理網(wǎng)路模型,布爾檢索,LSI,神經(jīng)網(wǎng)絡(luò)方法,遺傳算法,模糊集檢索模型等.同時,也促進(jìn)了提高模型性能的檢索策略的探索和發(fā)展,常用的檢索策略:相關(guān)反饋,聚類,基于片段的檢索,語言解析,n元語法,同義詞表,n元語法,語義網(wǎng)路,回歸分析
26、.</p><p> 由于檢索效率及穩(wěn)定性的瓶頸,使得模糊信息檢索實際應(yīng)用發(fā)展緩慢,其在信息檢索領(lǐng)域的應(yīng)用還比較有限.從國外來看,模糊數(shù)學(xué)應(yīng)用到信息檢索的案例還很少,大多數(shù)相關(guān)應(yīng)用都處于實驗階段;從國內(nèi)來看,模糊數(shù)學(xué)的信息檢索應(yīng)用案例幾乎沒有.總體來看,都是由于其不穩(wěn)定及效率問題決定的,所以實現(xiàn)效率及穩(wěn)定性的突破就顯的很重要了.</p><p> 1.1.3 論文研究的意義</
27、p><p> 模糊數(shù)學(xué)自身的理論研究進(jìn)展迅速.我國模糊數(shù)學(xué)自身的理論研究仍占模糊數(shù)學(xué)及其應(yīng)用學(xué)科的主導(dǎo)地位,所取得的研究成果在《模糊數(shù)學(xué)》、《模糊系統(tǒng)與數(shù)學(xué)》等數(shù)十種學(xué)術(shù)期刊和全國高校學(xué)報中經(jīng)??梢?,模糊聚類分析理論、模糊神經(jīng)網(wǎng)絡(luò)理論和各種新的模糊定理及算法不斷取得進(jìn)展.</p><p> 通過研究模糊數(shù)學(xué)在信息檢索中的應(yīng)用,提出一種新的方法,來提高模糊信息檢索的效率.同時,使得模糊數(shù)學(xué)的
28、應(yīng)用分支更豐富.</p><p> 1.1.4 論文研究采用的方法及理論依據(jù)</p><p> ?。?)通過提出模糊集和模糊聚類分析理論,首先將樣本文檔表示成模糊集,并利用模糊聚類分析方法對文檔模糊集進(jìn)行模糊聚類,同時提出了分類文檔簇的模糊集表示方法,從而建立了文檔簇的模糊集.</p><p> ?。?)通過基于詞項概念和文檔簇的模糊概念網(wǎng)圖,為建立模糊信息檢索
29、模型,提供了直觀的檢索對象關(guān)系圖.</p><p> ?。?)通過建立基于文檔類簇的模糊信息檢索模型,得到滿足條件的文檔簇,從而為后續(xù)處理縮小檢索范圍,這在一定程度上提高了檢索效率.</p><p> ?。?)針對得到的文檔簇集中的文檔,建立基于文檔的模糊信息檢索模型,從而得到排序的檢索結(jié)果.</p><p> ?。?)為了直觀描述模糊信息檢索模型,添加了模型的實例
30、分析.</p><p> 1.2 論文構(gòu)成及研究內(nèi)容</p><p> 論文主要內(nèi)容主要包括:1.介紹了模糊數(shù)學(xué)的信息檢索應(yīng)用現(xiàn)狀,研究該課題的意義、目的、提出的方法及實現(xiàn)模型;初步闡述了模糊數(shù)學(xué)在信息檢索的應(yīng)用;2.介紹模糊聚類檢索策略,根據(jù)制定的閾值,將樣本文檔分為一些類簇,并且為滿足條件的文檔簇建立其模糊量集度量方法,為下面的研究做鋪墊;3.介紹模糊概念網(wǎng)絡(luò)圖的建立,使得研究變
31、的更加直觀;4.介紹基于文檔類簇的模糊信息檢索模型,從而得到簇類的檢索結(jié)果,減小了檢索的范圍,在一定程度上提高了檢索效率;5.介紹基于文檔的模糊信息檢索模型的實例分析.</p><p> 1.3 模糊集的基本概念</p><p> 模糊理論是為了解決真實世界中普遍存在的模糊現(xiàn)象而發(fā)展的一門學(xué)問.模糊理論以模糊集合為基礎(chǔ),基本精神是接受模糊性現(xiàn)象存在的事實,而以處理概念模糊不確定的事物
32、為其研究目標(biāo),并積極地將其嚴(yán)密量化成計算機(jī)處理可以處理的信息.實際上,模糊理論是模糊集合,模糊關(guān)系,模糊邏輯,模糊控制,模糊測量等理論的泛稱,我們通常稱之為模糊數(shù)學(xué).</p><p> 1.4 模糊理論的數(shù)學(xué)基礎(chǔ)</p><p> 1.4.1 經(jīng)典集合</p><p> 模糊理論的基礎(chǔ)是模糊集合和歸屬函數(shù),所謂集合是一些具有某種共同特質(zhì)事物匯總起來的組織,
33、用來歸納一群具有相同特征事物.一般而言,傳統(tǒng)意義上的集合具有下列共同的特點(diǎn):同一集合中的元素具有某種相同的性質(zhì);集合是元素組成的整體,元素之間可以互相區(qū)別;集合里的元素是確定的.然而經(jīng)典集合具有兩條基本屬性:元素彼此相異,即無重復(fù)性;范圍邊界分明,即一個元素x要么屬于集合A(記作xA),要么不屬于集合(記作xA),二者必居其一.</p><p> 1.4.2 模糊集合</p><p>
34、 模糊數(shù)學(xué)是研究和處理模糊性現(xiàn)象的數(shù)學(xué)方法.眾所周知,經(jīng)典數(shù)學(xué)是以精確性為特征的.但與精確形相悖的模糊性并不完全是消極的,沒有價值的.甚至可以說,有時模糊性比精確性還要好.</p><p> 例如我們要給“偶數(shù)”這個集和下定義時,我們很明確的知道這個集合中的每個元素,對于任何給定的數(shù)值,我們都清楚的知道它是否屬于這個集合.但是當(dāng)我們?yōu)椤爸心耆恕边@個集合下定義時,多少會遇到困難,因為具體的所謂中年,指的是幾歲到
35、幾歲?相信每個人對中年的定義都是不同,假定從滿35歲起到滿55歲為止定義為中年,那么34歲的人還未邁入中年,只要增加一歲的那個瞬間就馬上變成中年.另外,過完55歲邁入56歲生日的瞬間又已不再是中年人.基本上,這是相當(dāng)不合理的方式.前述“中年”定義之所以會不自然,是因其界線太過清楚所致,當(dāng)界線緩和一些,則不自然會消失.因此,如果以“中年程度”來考慮或許會比較適當(dāng).譬如說30歲的中年程度是0.6,35歲的中年程度是0.65,隨著不同年齡,
36、其程度也徐徐變化,而此問題也就能獲得根本上的解決.</p><p> 此種重新擴(kuò)張定義的集合,由L.A.Zadeh教授提出,稱之為模糊集合.</p><p> 1.4.3 歸屬函數(shù)</p><p> 把傳統(tǒng)的集合論特征函數(shù)從非0即1的二值選擇,推廣為可從0到1之間的任何值來做出選擇,此新型的特征函數(shù),稱之為歸屬函數(shù).歸屬函數(shù)是模糊理論中最基本的概念,而我們可
37、以用歸屬函數(shù)來表示模糊集合:在域上的模糊集合,由歸屬函數(shù)來表征,在區(qū)間中取值,值的大小反映了元素對于模糊集合的歸屬程度.的值越接近1,就表示元素屬于的程度越高.當(dāng)就是上限,表示完全屬于.反之,若的值越接近0,就表示屬于的程度越低.當(dāng)就是下限,表示完全不屬于.對于來說,距離“完全屬于”和“完全不屬于”最遠(yuǎn),所以它的模糊度也最高.因此,模糊集合也被定義為元素與歸屬函數(shù)的組成集合.</p><p> 1.5 模糊子
38、集及其運(yùn)算</p><p> 模糊集最早出現(xiàn)于文獻(xiàn)[1,12-18].模糊集提出了使用隸屬函數(shù)來標(biāo)明元素在集合中的隸屬度,而不是假設(shè)元素是某個集合的成員.對于信息檢索,模糊集是非常有效的,因為它可以描述一篇文檔是“關(guān)于”什么內(nèi)容的.描述文檔關(guān)于什么內(nèi)容的一組元素的集合本身就具有不確定性.關(guān)于“交通”且與訴訟之間間接相關(guān)的文檔,或許可能是關(guān)于“交通事故”的文檔.盡管將“交通事故”作為集合的一個元素實際上并不精確,
39、但是將其從集合中排除掉也是不精確的.模糊集就是一種隸屬度,其中每個元素的隸屬力度本來就精確.在這個例子中,描述文檔概念的集合的形式如下: </p><p> 由于每個元素還附帶其隸屬度,所以集合C是一個模糊集.在模糊集中包含的概念可以形式化地表示為:</p><p> 其中:表示隸屬函數(shù),用于標(biāo)識集合中元素的隸屬度.對于有限集合,模糊集表示為: .</p><p&g
40、t; 接下來我們給出了模糊集的基本操作:求交集和并集.從根本上說,求交集的方法是取相同元素的兩個隸屬度函數(shù)的最小值,并集就是取相同元素的兩個隸屬函數(shù)的最大值.模糊集的交集、并集和補(bǔ)集的定義: </p><p> 1.5.1 模糊集的相關(guān)定義</p><p> 定義1 論域上的一個模糊集合是由上的一個隸屬函數(shù)來表示,其中(有時用表示)表示元素隸屬于模糊集合的程度.一般地,如果論域是
41、有限集合或可數(shù)集合,那么一個模糊集可以表示為:.</p><p> 定義2 主導(dǎo)隸屬度函數(shù)關(guān)系:當(dāng)且僅當(dāng)對于所有.</p><p> 定義3 設(shè)是論域,稱映射 確定了一個上的模糊子集,映射稱為的隸屬函數(shù),它表示對的隸屬程度.使的點(diǎn)稱為的過渡點(diǎn),此點(diǎn)最具模糊性.當(dāng)映射只取0或1時,模糊子集就是經(jīng)典子集,而就是它的特征函數(shù).可見經(jīng)典子集是模糊子集的特殊情形.</p>&l
42、t;p> 例 設(shè)論域(單位:)表示人的身高,那么上的一個模糊子集的隸屬函數(shù)可定義為</p><p> 也可用Zadeh表示法:</p><p> 1.5.2 模糊集的運(yùn)算</p><p> 模糊集的并、交、余運(yùn)算性質(zhì)</p><p><b> 冪等律:</b></p><p>
43、<b> 交換律:</b></p><p><b> 結(jié)合律:</b></p><p><b> 吸收律:</b></p><p><b> 分配律:</b></p><p><b> 還原律:</b></p>
44、<p><b> 對偶律:</b></p><p> 模糊集的運(yùn)算性質(zhì)基本上與經(jīng)典集合一致,除了排中律以外,即</p><p><b> ,</b></p><p> 1.5.3 模糊集的其他運(yùn)算</p><p> 模糊集不再具有非此即彼的特點(diǎn),這正是模糊性帶來的本質(zhì)特征.&
45、lt;/p><p><b> 相等:</b></p><p><b> 包含:</b></p><p> 并:的隸屬函數(shù)為 </p><p> 交:的隸屬函數(shù)為 </p><p> 余:的隸屬函數(shù)為 </p><p> 例 設(shè)論域(
46、商品集),在上定義兩個模糊集:=“商品質(zhì)量好”,=“商品質(zhì)量壞”,并設(shè)</p><p> 則 =“商品質(zhì)量不好”,=“商品質(zhì)量不壞”,</p><p><b> =</b></p><p><b> 可見</b></p><p><b> 又 </b></p&
47、gt;<p> 1.6 模糊集的基本定理</p><p> 定理1 模糊集的基本定理 -截集 </p><p> 模糊集的-截集是一個經(jīng)典集合,由隸屬度不小于的成員構(gòu)成.</p><p> 若論域(學(xué)生集),他們的成績依次為50,60,70,80,90,95,=“學(xué)生成績好的學(xué)生”的隸屬度分別為0.5,0.6,0.7,0.8,0.9,0
48、.95.</p><p> 則 (90分以上者)=,(60分以上者)=.</p><p> 性質(zhì):設(shè)(是論域的兩個模糊子集),,于是對-截集有:(1) </p><p><b> ?。?) </b></p><p><b> ?。?) ,</b></p><p> 定理
49、2 (分解定理) 設(shè),,則</p><p> 定理3 (擴(kuò)張原理) 設(shè)映射:,定義</p><p><b> 模糊聚類檢索策略</b></p><p> 所謂聚類分析是根據(jù)事物間的不同特征,親疏程度和相似性等關(guān)系,對它們進(jìn)行分類的一種數(shù)學(xué)方法,其數(shù)學(xué)基礎(chǔ)是數(shù)理統(tǒng)計中的多元分析.模糊聚類分析就是建立在模糊數(shù)學(xué)理論基礎(chǔ)上的聚類分析,模糊聚
50、類分析的方法有好幾種(模糊傳遞閉包法,直接聚類法,最大樹法,編網(wǎng)法),根據(jù)信息檢索的特征,此處介紹的是利用模糊相似矩陣和編網(wǎng)法進(jìn)行聚類的方法,其特點(diǎn)是能在分類數(shù)不確定的情況下進(jìn)行分類,可以根據(jù)不同的要求對事物,文檔進(jìn)行聚類,而且結(jié)果直觀、簡捷.</p><p><b> 2.1 相關(guān)概念</b></p><p> 為了描述信息檢索的模糊聚類分析模型,我們使用以下
51、術(shù)語以及記號.</p><p> ?。?)標(biāo)引詞,這是由若干個標(biāo)引詞組成的集合;</p><p> ?。?)文獻(xiàn)信息,其中是標(biāo)引詞在該文獻(xiàn)中出現(xiàn)的頻率,使用統(tǒng)計分析可以計算出標(biāo)引詞的隸屬度.</p><p> ?。?)文獻(xiàn)信息庫可表示為:;</p><p> ?。?)分類文獻(xiàn)信息集,這是將要被分類的文獻(xiàn)信息集;</p><
52、p> ?。?)相似度,其中按照它描述文獻(xiàn)信息和之間的相關(guān)程度,這里選用最大,最小法貼近度來表示和</p><p> 的相關(guān)程度,則其嚴(yán)格貼近度為</p><p><b> ?。?-1) </b></p><p> 其中“∧”表示“取小”運(yùn)算,“∨”表示“取大運(yùn)算”.</p><p> ?。?)模糊相似矩陣,其中
53、是相似度.相似矩陣是以分類文獻(xiàn)信息集中和之間的相似度構(gòu)造出來的,它刻畫的是信息之間相關(guān)程度.</p><p> 2.2 模糊聚類分析</p><p> 在實際課題中,不同的數(shù)據(jù)可能有不同的量綱.為了不使不同量綱的數(shù)據(jù)也能進(jìn)行比較,需要對數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q,根據(jù)模糊矩陣的要求將數(shù)據(jù)壓縮到區(qū)間[0,1].</p><p> 數(shù)據(jù)變換:設(shè)論域為被分類的對象,每個元
54、素又由個數(shù)據(jù)表示,對第個元素有 .</p><p><b> ?。?)標(biāo)準(zhǔn)差變換</b></p><p><b> ?。?-2)</b></p><p><b> ?。?-3)</b></p><p> 經(jīng)過變換后,每個變量的均值為0,標(biāo)準(zhǔn)差為1,并可以消除量綱的影響,但不
55、一定在[0,1]區(qū)間上.</p><p><b> ?。?)級差變換</b></p><p><b> ?。?-4)</b></p><p> 經(jīng)過級差變換后有,且消除了量綱的影響.</p><p> 2.2.1 選擇模糊聚類方法</p><p> 聚類可以分為兩種,
56、一種是模糊等價矩陣聚類.它有兩種方法,傳遞閉包法和布爾矩陣法.另一種是直接聚類,它包括直接聚類法、最大樹法和編網(wǎng)法.在實際的聚類問題中,通過建立上的模糊關(guān)系,常常是模糊相似的關(guān)系.因為論域是有限集,這個模糊相似關(guān)系可表示為一個模糊相似矩陣,即對角線上的元素為1的對稱模糊方陣.</p><p> 可以選擇的模糊聚類方法通常有四種(由文獻(xiàn)[5,23-36]可知):模糊傳遞閉包法、直接聚類法、最大樹法和編網(wǎng)法.模糊傳
57、遞閉包法是從模糊相似矩陣出發(fā),構(gòu)造一個新的模糊等價矩陣(即模糊相似矩陣的傳遞閉包),該矩陣滿足自反性、對稱性、以及傳遞性三個性質(zhì).因此,可以根據(jù)模糊等價矩陣進(jìn)行聚類.直接聚類法不計算模糊相似矩陣的傳遞閉包,而是直接用模糊相似矩陣進(jìn)行聚類,具體步驟如下 :</p><p> 將模糊相似矩陣中的所有不同元素從大到小的順序編排,設(shè)為</p><p><b> .</b>
58、</p><p> ?。?) 以為置信水平,選取,直接在模糊相似矩陣上找出水平上的相似類,并進(jìn)行歸并,即得到水平上的等價分類.尋找相似類和歸并的原則:若,則將和分為一類.設(shè)是水平上的兩個類,若,則稱它們是相似的.將所有相似的類合并成一類,最后得到的分類就是水平上的等價分類.</p><p> 2.2.2 詞頻矩陣</p><p> 為確定一組相關(guān)文本間的相關(guān)度
59、,建立文本間的模糊相似關(guān)系,首先要構(gòu)造一個詞頻矩陣,它是一個二維表,表示關(guān)鍵詞在文檔中出現(xiàn)的次數(shù),假設(shè)這一組數(shù)據(jù)中有個文檔和個關(guān)鍵詞,則是一個的矩陣,將每一個關(guān)鍵字視為一個維空間上的一個向量,的個坐標(biāo)是一個數(shù)字,表示第個文本與所給的關(guān)鍵字間的相關(guān)度,當(dāng)文檔不含有該詞時,其值為零,否則設(shè)為一個非零的正值,定義為為文檔中關(guān)鍵詞出現(xiàn)的次數(shù)(即頻率),再利用絕對值減數(shù)法建立模糊相似矩陣,當(dāng)時,;否則,當(dāng)時,,其中,為一常數(shù),可根據(jù)實際情況選定,
60、使得,由該定義可知,為一主對角元均為1的對稱陣.</p><p> 2.3 基于編網(wǎng)法的模糊聚類分析模型</p><p> 在一個合適的分類中,同一類中的對象應(yīng)該自反性、對稱性以及傳遞性三個性質(zhì).模糊數(shù)學(xué)的理論告訴我們,如果相似度選擇合適,相似矩陣具有自反性和對稱性,但是大多數(shù)相似矩陣一般不具備傳遞性.因此,僅依賴相似矩陣來對分類文檔信息集進(jìn)行分類是不夠的.模糊聚類分析就是根據(jù)相似矩
61、陣來尋找一個等價關(guān)系進(jìn)行分類,其主要步驟如下:</p><p> 2.3.1 構(gòu)造模糊相似矩陣 </p><p> 聚類是按某種標(biāo)準(zhǔn)來鑒別中元素之間的接近程度,把彼此接近的對象歸為一類.為此,我們用中的數(shù)來表示中的元素和的接近或相似程度,稱為相似系數(shù).相似系數(shù)構(gòu)成的模糊矩陣是上的模糊關(guān)系.確定相似系數(shù)的方法很多,可以分為三類:1.相似系數(shù)法 2.距離法 3.主觀評分法.</p&
62、gt;<p> 最常見的是距離法中的貼近度法.</p><p> 不妨假定,如若不然,</p><p><b> 可以通過公式:</b></p><p><b> ?。?-5)</b></p><p> (其中分別是各個的第個特征的最大、最小值)</p><
63、p> 將轉(zhuǎn)換為.當(dāng)時,,可以認(rèn)為是一個模糊向量,也就是可以看成以個特征指標(biāo)構(gòu)成的集合為論域的模糊集,于是的貼近度可以作為它們的相似程度.即.當(dāng)取距離貼近度時,</p><p><b> ?。?-6)</b></p><p> 把所有的組成的矩陣為模糊相似矩陣,命名為.</p><p> 針對的分類文獻(xiàn)集,選擇一個計算相似度的算法,可
64、以計算出相似矩陣.</p><p> 2.3.2 模糊聚類之編網(wǎng)法 </p><p> 編網(wǎng)法是由我國學(xué)者趙汝懷提出的,其特點(diǎn)是在模糊相似矩陣的截集上直接進(jìn)行聚類.因此,使用起來更為直觀簡單.具體步驟如下:</p><p> ?。?)適當(dāng)選取,求出截矩陣,且去掉的主對角線右上半部分的所有元素;</p><p> ?。?)將主對角線上的“
65、1”對應(yīng)地用其對象的標(biāo)號來代替;</p><p> ?。?)將主對角線左下方的“0”去掉,而用“*”代替“1”,稱* 所在的位置為結(jié)點(diǎn); </p><p> ?。?)用豎直線與橫直線將結(jié)點(diǎn)與對角線上的序號連接,即編網(wǎng).通過如此打結(jié)而連接的對象歸為同一類,從而實現(xiàn)了等價分類.</p><p> ?。?)畫出動態(tài)聚類圖.</p><p> 通過
66、以上步驟即可完成對文檔集的分類.</p><p> 2.3.3 基于文檔集合的模糊聚類編網(wǎng)法的應(yīng)用 </p><p> 如果我們現(xiàn)在要檢索混凝土斷裂方面的文獻(xiàn),可選關(guān)鍵詞有多個,且利用每個關(guān)鍵詞都可以得上百篇文獻(xiàn),檢索過程中,每篇文獻(xiàn)都詳細(xì)閱讀是不貼實際的,因此我們需要通過聚類篩選出相關(guān)度高的幾篇或者幾十篇文獻(xiàn).</p><p> 設(shè)標(biāo)引詞集為:{混凝土、斷
67、裂韌度、尺度效應(yīng)、虛擬裂縫模型}同時設(shè)D為某信息庫,從該信息庫中選出5篇文檔進(jìn)行分析,則.根據(jù)各關(guān)鍵詞在相應(yīng)文獻(xiàn)中的出現(xiàn)頻率,使用模糊統(tǒng)計分析可計算出每個關(guān)鍵詞的隸屬度.從而每篇文獻(xiàn)在檢索中的表示記為: </p><p> 故根據(jù)(2-1)可得模糊相似矩陣為</p><p> 對R中的元素進(jìn)行排序為: </p><p> 1>0.82>0.8>
68、;0.67>0.43>0.33</p><p> 從而,的截矩陣為截矩陣為</p><p><b> 這時U被分為3類:</b></p><p> 2.4 文檔簇的模糊表示法</p><p> 通過上節(jié)的模糊聚類分析方法,可得到分類的文檔簇,本部分將介紹一種模糊度量方法來量化這些文檔簇.</p
69、><p> 任意一篇文檔可表示為,則文獻(xiàn)集的度量可表示為,則文獻(xiàn)集的度量可表示為</p><p><b> (2-7)</b></p><p> 通過以上討論,得到了文檔簇的模糊表示法,這為之后的討論提供了基礎(chǔ)依據(jù),且對應(yīng)于文檔集的文檔簇集可表示為:,其中為聚類數(shù).從而.</p><p><b> 3 模
70、糊概念網(wǎng)絡(luò)</b></p><p> 3.1 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu)</p><p> 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu)是由節(jié)點(diǎn)和弧構(gòu)成.網(wǎng)絡(luò)包括兩種類型的節(jié)點(diǎn):概念節(jié)點(diǎn)和文檔節(jié)點(diǎn).連接節(jié)點(diǎn)的弧表達(dá)了節(jié)點(diǎn)之間的相關(guān)關(guān)系,并用模糊權(quán)值對關(guān)系的強(qiáng)弱進(jìn)行量化.設(shè)概念節(jié)點(diǎn)集合C=(c,c,…..c),文檔節(jié)點(diǎn)集合D=(,,…..) .</p><p> 表示和的相關(guān)度權(quán)重
71、為,也可表示為表示和概念的相關(guān)權(quán)重為,也可表示為,)=.</p><p> 規(guī)則1 如果存在節(jié)點(diǎn),和,其,且的關(guān)系權(quán)值為.</p><p> 規(guī)則2 如果節(jié)點(diǎn)和之間存在多條路徑連接,和間的關(guān)系值為最大的路徑權(quán)重.</p><p> 圖3-1如下,給出了一個典型模糊概念網(wǎng)絡(luò)實例.其中節(jié)點(diǎn)和相關(guān)關(guān)系權(quán)重為.</p><p> 圖3-1
72、模糊概念網(wǎng)路實例</p><p> 3.2 基于文檔的模糊概念網(wǎng)絡(luò)的構(gòu)建</p><p> 模糊概念網(wǎng)絡(luò)可以通過領(lǐng)域?qū)<沂止そ?,但需要大量的手工勞動,并受限于領(lǐng)域?qū)<业膫€人水平.為了突破這種限制,文獻(xiàn)[2]提出了模糊概念網(wǎng)絡(luò)的自動構(gòu)建方法,本部分將對此作以詳細(xì)闡述.</p><p> 將一個文檔表示成關(guān)鍵詞集.統(tǒng)計詞表中每個關(guān)鍵詞在正文、標(biāo)題、關(guān)鍵詞、超鏈
73、、超鏈描述中出現(xiàn)的概率,表示為 ,, 和.關(guān)鍵詞頻率計算公式為</p><p> 其中,,,和是調(diào)整系數(shù).計算特征詞在文檔中的權(quán)重公式為: </p><p><b> ?。?-1)</b></p><p> 其中,表示關(guān)鍵詞的文檔數(shù)目,N表示總的文檔數(shù).詞是概念的表現(xiàn)方式,同一個概念節(jié)點(diǎn)可能包含多個對應(yīng)詞.設(shè)概念節(jié)點(diǎn)對應(yīng)的詞夠構(gòu)成集表
74、示成向量形式,其中表示關(guān)鍵詞在概念節(jié)點(diǎn)中的權(quán)重.計算文檔d與概念之間的相關(guān)度為</p><p><b> ?。?-2)</b></p><p> 式中,表示在中的權(quán)重,表示文檔d中所有關(guān)鍵詞的權(quán)重之和,表示概念節(jié)點(diǎn)包含的關(guān)鍵詞的權(quán)重之和.</p><p> 統(tǒng)一文檔中包含的詞語之間存在語義上的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系從形式上表現(xiàn)為詞與詞的共現(xiàn)
75、.利用這些現(xiàn)象,挖掘概念之間的相關(guān)關(guān)系.選取部分樣本構(gòu)成樣本集S,,M為文檔樹.設(shè)概念節(jié)點(diǎn)集合計算樣本中文檔與概念節(jié)點(diǎn)之間的相關(guān)度.對于概念節(jié)點(diǎn),它與文檔的相關(guān)度可以表示成向量形式:,表示文檔與概念節(jié)點(diǎn)的相關(guān)度.概念節(jié)點(diǎn)和之間的相關(guān)度的計算公式為</p><p><b> ?。?-3) </b></p><p> 模糊概念網(wǎng)絡(luò)中概念節(jié)點(diǎn)的產(chǎn)生,可以通過兩種方式:聚類
76、方法和逐步添加方法,這里主要介紹聚類方法.采用聚類方法時,初始階段每個關(guān)鍵詞對應(yīng)獨(dú)立的概念節(jié)點(diǎn).計算概念節(jié)點(diǎn)的相關(guān)度,根據(jù)設(shè)定的閾值,相關(guān)度超過特定閾值的概念節(jié)點(diǎn)被合并為新的節(jié)點(diǎn).</p><p> 3.3 基于文檔簇的模糊概念網(wǎng)絡(luò)的構(gòu)建</p><p> 通過3.2節(jié)的介紹,可知模糊概念網(wǎng)絡(luò)的構(gòu)建方法,但其是基于概念節(jié)點(diǎn)和文檔節(jié)點(diǎn),而本節(jié)將引入基于概念節(jié)點(diǎn)和文檔簇節(jié)點(diǎn)的模糊概念網(wǎng)絡(luò)
77、,如下圖3-2所示:</p><p> 圖3-2 基于模糊簇的模糊概念網(wǎng)絡(luò)</p><p> 從而可得到模糊集簇和概念之間的模糊概念網(wǎng)絡(luò),其建立了文檔簇和概念之間的相關(guān)關(guān)系,從而使得檢索所需處理的文檔數(shù)從整體上減少,可以提高檢索的效率.同時,通過模糊概念網(wǎng)絡(luò)圖的建立,使得文檔的檢索原理更加直觀,為后續(xù)處理提供了方便. </p><p> 4 基于文檔簇和文
78、檔的信息檢索模型</p><p> 通過以上的討論,我們得到由文檔簇和概念組成的模糊概念網(wǎng)絡(luò),其為建立基于</p><p> 文檔簇的模糊信息檢索模型提供了方便.基于文檔簇的模糊信息檢索模型,在效率上有明顯的優(yōu)勢,其從整體上減少了檢索中所涉及的文檔數(shù)量.其需要完成兩個步驟: </p><p> ?。?)通過基于文檔簇的信息檢索,選出滿足條件的文檔簇; </
79、p><p> ?。?)針對選出的文檔簇,再次使用模糊信息檢索模型,對該文檔簇的文檔進(jìn)行排序,將其作為檢索結(jié)果輸出.</p><p> 4.1 基于文檔簇的模糊信息檢索模型</p><p> 4.1.1 文檔簇和查詢項的模糊集表示</p><p> 通過的以上的討論,我們可以得到文檔簇的模糊集表示方法: </p><p
80、> 設(shè)查詢項的模糊集表示為: </p><p> 其中的為查詢項的相關(guān)程度,其是通過頻率及統(tǒng)計方法計算得到的詞項隸屬度.即得到了文檔簇和查詢項的模糊集表示,從而為后面的討論奠定了基礎(chǔ).</p><p> 4.1.2 相關(guān)性 </p><p> 為了比較查詢項和文檔簇的相似度,人們提出了很多比較查詢模糊向量和文檔簇模糊向量的方法,這些方法都經(jīng)過了證明.
81、以下我們做以快速回顧: </p><p> ?。?)最常見的方法是余弦方法,也就是計算查詢向量和文檔簇向量之間的余弦值:</p><p><b> (4-1)</b></p><p> 因為在計算每篇文檔時都會出現(xiàn),向量內(nèi)積除以文檔向量大小后,余弦系數(shù)應(yīng)該給出相同的相關(guān)性結(jié)果.我們注意到余弦方法通過考慮文檔長度來歸一化結(jié)果.通過內(nèi)及方法,一
82、個較長的文檔可能會得到一個比較高的分?jǐn)?shù),僅僅因為文檔比較長,因此有更多的機(jī)會包含查詢詞——并一定因為文檔是相關(guān)的.</p><p> Die系數(shù)定義為: </p><p> (4-2) </p><p> Jaccard系數(shù)定義為: </p><p><b> (4-3)</b></p>
83、<p> 余弦方法通過將向量內(nèi)積除以文檔向量的長度來實現(xiàn)不同文檔長度的歸一化.余弦方法中假定文檔長度對查詢沒有影響.排除歸一化因素,較長的文檔更容易被認(rèn)定為相關(guān)的,僅僅因長文檔包含的詞多,所以增加了包含查詢詞的可能性.除以文檔向量長度就是不考慮文檔長度.</p><p> ?。?)模糊集之間的貼近度</p><p> Chebyshev貼近度</p><p
84、><b> (4-4)</b></p><p> Hamming貼近度</p><p><b> (4-5)</b></p><p><b> Euclid貼近度</b></p><p><b> (4-6)</b></p>
85、<p> Minkowski貼近度</p><p><b> (4-7) </b></p><p> Lambert貼近度</p><p><b> (4-8)</b></p><p><b> 絕對和差貼近度</b></p><p>
86、;<b> (4-9)</b></p><p><b> 最大最小貼近度 </b></p><p><b> (4-10)</b></p><p><b> 算術(shù)平均最小貼近度</b></p><p><b> (4-11)</b
87、></p><p><b> 幾何平均最小貼近度</b></p><p><b> (4-12)</b></p><p> 4.1.3 檢索方法</p><p> 在4.1.2中,我們討論了衡量文檔簇和查詢項相近度的兩種方法,因此利用這兩種方法可以得到文檔簇和查詢項的相近度度量方法.
88、這樣就可以得到文檔簇和查詢項相似度,利用相似度可以對查詢結(jié)果進(jìn)行排序.同時,在排序過程中,選擇合適的相似度閾值,滿足該閾值的文檔簇進(jìn)行排序,不滿足閾值的文檔不排序,這樣可以提供檢索效率,具體實現(xiàn)步驟如下: </p><p> ?。?)求出各個文檔簇和查詢項之間的相似度或者貼近度; </p><p> ?。?)選出符合指定閾值的文檔簇; </p><p> ?。?)將
89、滿足要求的文檔簇按照相關(guān)性大小進(jìn)行排序. </p><p> 4.2 基于文檔的模糊信息檢索模型</p><p> 通過4.1的討論,我們得到了滿足相似度要求的文檔簇集.這樣就縮小了檢索的文檔范圍,從而提高了檢索效率,下面將闡述基于文檔的模糊檢索.</p><p> 4.2.1 文檔和查詢項的模糊集表示 </p><p> 類似于
90、4.1.1中的文檔簇和查詢項的模糊集表示,我們可以得到文檔的模糊集表示方法: </p><p> 查詢項的模糊集表示為: </p><p> 其中的為查詢項的相關(guān)程度,其是通過頻率及統(tǒng)計方法計算得到的詞項隸屬度.</p><p> 4.2.2 相關(guān)性 </p><p> 為了比較查詢項和文檔簇的相似度,人們提出了很多比較查詢模糊向量
91、和文檔簇模糊向量的方法,這些方法都經(jīng)過了證明.以下我們做以快速回顧: </p><p> 最常見的方法是余弦方法,也就是計算查詢向量和文檔簇向量之間的余弦值:</p><p> 因為在計算每篇文檔時都會出現(xiàn),向量內(nèi)積除以文檔向量大小后,余弦系數(shù)應(yīng)該給出相同的相關(guān)性結(jié)果.我們注意到余弦方法通過考慮文檔長度來歸一化結(jié)果.通過內(nèi)及方法,一個較長的文檔可能會得到一個比較高的分?jǐn)?shù),僅僅因為文檔比
92、較長,因此有更多的機(jī)會包含查詢詞——并一定因為文檔時相關(guān)的.</p><p><b> 4.3 檢索方法</b></p><p> 通過計算各個文檔的相似度或者貼近度,并根據(jù)相關(guān)性進(jìn)行排序,最后將排序結(jié)果作為檢索結(jié)果輸出. </p><p> 4.3.1 基于模糊集的擴(kuò)展布爾檢索</p><p> 在20世紀(jì)
93、70年代末期,研究人員對布爾檢索進(jìn)行了擴(kuò)展,提出了模糊集檢索.我們可以將文檔中的詞看成模糊集來計算布爾的相似度,這是因為這些詞在文檔中出現(xiàn)的頻率可視為隸屬度.</p><p> 下面我們考慮有文檔集中所有文檔組成的集合.模糊集可以看作描述所有包含詞的文檔的集合.這個集合可以記作=.這表明文檔包含詞,且其隸屬度為0.8;文檔包含詞且其隸屬度為0.5. </p><p> 類似地,集合可以
94、定義為所有包含詞的文檔.這個集合可以記作:</p><p> 計算需要計算(計算需要計算).這些計算可以通過使用并集的最大值和交集的最小值實現(xiàn).因此: </p><p> 我們可以通過應(yīng)用這些操作的結(jié)果來構(gòu)造更復(fù)雜的布爾表達(dá)式.最終,我們可以得到包含文檔及其相似度的一個集合.</p><p> 這種方法的一個問題是,這種模型不僅允許我們給查詢詞賦予權(quán)重.我們可
95、以通過在集合中每個元素的隸屬度上乘以查詢詞權(quán)重從而在模型中引入查詢詞權(quán)重. 另外一個問題是權(quán)重很低的詞匯決定相似度.隸屬度很低的詞最終是相似度計算的唯一因素.比如下面這種情況,文檔1包含詞s和詞t,并且詞s的隸屬度為0.0001,詞t的隸屬度為0.5 .在請求查詢時,文檔1的得分就是0.0001 .特別是查詢中包含較多關(guān)鍵詞項時,這種低隸屬度的詞決定了整個相似度的權(quán)重.這個問題的一種解決方法是定義一個閾值,當(dāng)其值低于時,隸屬度函數(shù)值就變
96、為0. 為了克服布爾檢索系統(tǒng)的主要限制,有一些學(xué)者提出構(gòu)想,希望擴(kuò)充布爾檢索系統(tǒng)的功能,而其中Radecki便利用部分匹配原理,定量估算出所檢索文件與查詢語句間的相關(guān)程度,也有一些加權(quán)(Weights)觀念的檢索系統(tǒng)被提出.在其中,文件是以關(guān)鍵詞的加權(quán)來表示,查詢語句也將傳統(tǒng)布爾檢索系統(tǒng)之查詢語句加入權(quán)數(shù),而經(jīng)過匹配處理,可以在所檢索出的每一件文件中,相對地得出一個檢索狀態(tài)值(Retrieval Status Value,RSV).RS
97、V值可用來評估所檢索出文件與加權(quán)查詢語句間的相關(guān)程度.</p><p> 然而加權(quán)布爾檢索系統(tǒng)仍有其限制,如其查詢語句無法處理不明確之查詢,而不明確概念通常卻是檢索者在查詢之常有的現(xiàn)象,也是最直接的想法.另外即使加權(quán)布爾檢索系統(tǒng)加以處理的情形,如查詢語句:“模糊集合[0.6],語意模式[0.8] ”,其所表示的即為找出有關(guān)關(guān)鍵詞“模糊集合”重要性占六成,關(guān)鍵詞“語意模式”重要性占八成的文件,而對于以上之重要性成
98、數(shù),也十分難以認(rèn)定.對于關(guān)鍵詞加權(quán)后的語意表示什么?又檢索出的文件,其RSV值是以一臨界值來界定,是否也有可議之處?因此,便引用了能夠解決上述問題的模糊語意法,來擴(kuò)展布爾檢索系統(tǒng)之功能.</p><p> 以上討論中,提出了文檔的模糊表示方法,而檢索項依然是確定的布爾表示類型,所以還有完善的余地,下面將從這點(diǎn)出發(fā),引出改進(jìn)的方法. </p><p> 4.3.2 基于模糊集的模糊檢索
99、</p><p> 在基于模糊集的擴(kuò)展布爾檢索中,雖然文檔集使用模糊集表示,但是檢索項依然是確定的布爾表示項,而實際中檢索項更多是模糊的,所以提出檢索項和文檔均可模糊表示的方法就顯得很重要了.</p><p> 文檔的信息檢索過程實際上的涉及文檔集的表示、用戶查詢的表示、相似性匹配及其排序三部分.首先,文中用戶查詢和文檔集的表示均采用下列方式表示:對于文檔集中的為從檢索詞論域中提取出來
100、的能夠代表整個文檔意思的檢索詞集,為提取出來的檢索詞屬于該集合的隸屬度,可以理解為每個檢索詞的權(quán)重.對于用戶查詢中的的解釋同文檔集中的,其中的同樣可以理解為權(quán)重,或者是該檢索詞的興趣度.其次,基于上述給出的主導(dǎo)隸屬度函數(shù)關(guān)系可知,只要查詢中的檢索詞隸屬度小于文檔中的檢索詞隸屬度,那么查詢檢索詞集就包含于文檔集,通過這一點(diǎn)就能找出包含某一查詢檢索詞集的所有文檔,這就是文檔和查詢的匹配.也就是說當(dāng)給出了某查詢檢索詞集,通過包含度定理計算其包
101、含于文檔的程度,根據(jù)這個包含度的大小來檢索出來的文檔進(jìn)行排序.</p><p> 由上述基于包含度的信息檢索,可以得到其基本算法如下:</p><p><b> 輸入:用戶查詢條件</b></p><p><b> 文檔集</b></p><p> 輸出:按照用戶查詢的權(quán)重排序的查詢結(jié)果文檔
102、集.</p><p> 第一步:用戶輸入其查詢條件中每個檢索詞的權(quán)重或興趣度,從而得到用戶查詢 的表示形式;</p><p> 第二步:對中所有文檔抽取若干標(biāo)引詞,用這些標(biāo)引詞的集合來</p><p> 代表原文檔,并將標(biāo)引詞在文檔中出現(xiàn)的頻率作為其權(quán)重,從而得到所有文檔</p><p><b> 的表現(xiàn)形式;</b&
103、gt;</p><p> 第三步:初始化空集合用于存放查詢結(jié)果;</p><p> 第四步:根據(jù)公式計算和的包含度;</p><p> 第五步:如果為0,則去除該文檔;如果不為0,則比較文檔集的包含度</p><p> ,按從大到小的順序排列這些文檔集,并放入;</p><p><b> 第六步:輸
104、出.</b></p><p><b> 實例分析:</b></p><p> 假設(shè)用戶查詢,文檔集,如表4-1所示:</p><p><b> 表4-1 文檔集</b></p><p> 表4-1給出的文檔集中的文檔包含了所有的情況:有完全包含查詢的的,也有部分包含的,也有不包
105、含的.計算結(jié)果如表4-2所示:</p><p> 表4-2 查詢結(jié)果</p><p> 由表4-2得到的文檔序列:.</p><p><b> 結(jié)果分析</b></p><p> 1. 從、可知:當(dāng)查詢中的所有檢索詞均在、中,并且滿足(即、中檢索詞權(quán)重均大于等于中檢索詞權(quán)重)時,是完全含于文檔集、的,此時從到,
106、檢索詞的權(quán)重增大或減?。ǎ?,但是相對于查詢,其中,含度不變的始終為1.</p><p> 2. 從、可知:當(dāng)查詢中的所有檢索詞均在、中,平且滿足(即、中檢索詞權(quán)重均大于等于中檢索詞權(quán)重)時,由公式計算其包含度得出到,隨著檢索詞權(quán)重不斷增大(),包含度也是不斷增大的.</p><p> 3. 從、可知:當(dāng)查詢中的檢索詞有的在、中,有的不在、中是,并且滿足(即、中檢索詞權(quán)重均大于等于中檢索
107、詞權(quán)重)時,從到可知:同事包含在查詢、、的檢索詞在、中,不管權(quán)重是增大還是減?。ū3郑?,但是相對于查詢,其包含度是不變的;此時若減小查詢中不包含在、中的檢索詞的權(quán)重,其包含度家就會曾大.</p><p> 4. 從、、可知:當(dāng)查詢中的檢索詞有的在、、中,有的不在、、中時,滿足(即、、中檢索詞權(quán)重均大于等于中檢索詞權(quán)重)時,從到可知:同時包含在查詢、、的檢索詞在、中,隨著權(quán)重的增加(保持),包含度也是增加的;從到
108、可知,若增加包含在、中但不包含在查詢中的檢索詞的權(quán)重,其包含度不變化;此時若減小查詢中不包含在、、中的檢索詞的權(quán)重,其包含度就會增加.</p><p> 5. 從、可知:查詢中所有檢索詞不在、中時,盡管改變、中檢索詞的權(quán)重股,其中包含度始終是0.</p><p> 因此,當(dāng)文檔中的檢索詞始終包含查詢中的檢索詞,并且檢索詞在文檔中的權(quán)重比較大,那么該文檔被檢索出來的可能性就增大,當(dāng)文檔檢
109、索詞權(quán)重增加到一定程度(),其包含度就保持為1,即始終都是包含查詢中的某些檢索詞,同理,當(dāng)這些檢索詞在文檔中的權(quán)重較大時,被檢索出來的可能性就不再增加;當(dāng)文檔中的所有檢索詞權(quán)重增加到一定程度,包含度就不在增加;當(dāng)文檔中的所有檢索詞均不在查詢中,即表示該文檔與該查詢無關(guān),此時該文檔的包含度就為0,被檢索出來的可能性為0,即不被檢索出來.由此及上例可知,被檢索出來的結(jié)果是復(fù)核實際給出的查詢需要的. </p><p>
110、 模糊信息檢索模型實例分析</p><p> 下面考慮一個固定的查詢和文檔集,包含一個查詢Q和三篇文檔組成的文檔集:</p><p> ?。骸癵old silver truck”. </p><p> ?。骸癝hipment of gold damaged in a fire”. </p><p> ?。骸癉elivery of silv
111、er arrived in a silver truck”.</p><p> ?。骸癝hipment of gold arrived in a truck”. </p><p> 這里使用文檔中的詞頻和文檔長度的比率作為每個詞項的隸屬度.從而,查詢和文檔集對應(yīng)的模糊集的集合為: </p><p> 在本文中,我們提出了基于模糊集的擴(kuò)展布爾檢索和基于模糊集的模糊
112、檢索,這里利用這兩種方法分別討論.</p><p> 5.1 基于模糊集的擴(kuò)展布爾檢索實例分析</p><p> 我們就將查詢詞作為布爾檢索查詢項處理.也就是計算,我們查找包含這些詞的文檔.“gold”在文檔和文檔中出現(xiàn),其隸屬度分別為0.125和0.143 .應(yīng)用最大的集合隸屬度來實現(xiàn)模糊操作OR,我們得到: </p><p> 接下來根據(jù)每一篇文檔的隸屬
113、度,文檔的排序結(jié)果是,,.考慮查詢:.對于這個查詢,我們確定和—我們將這兩個集合記作集合和集合. </p><p> 我們依然采用前面的方法計算,取每篇文檔中出現(xiàn)的詞的隸屬度</p><p> 最大值.從前面的計算中,我們可以得到:</p><p> 我們采用隸屬度的最小值來計算集合和集合的交集.這樣我們可以得到:</p><p>
114、此時,我們還沒有引入任何查詢權(quán)重.現(xiàn)在我們修改例子,在每一個隸屬度上乘以每一個查詢詞項的idf.我們使用下面的查詢詞權(quán)重: </p><p> 現(xiàn)在我們計算.文檔僅包括“gold”,其隸屬度為0.143.“gold”的查詢詞項權(quán)重為0.176,所以的權(quán)重化后的隸屬度變?yōu)?文檔中包括“silver”和“truck”.“silver”的隸屬度為0.25,權(quán)重為0.477,所以權(quán)重化的隸屬度為.類似地,對于“truc
115、k”,權(quán)重化的隸屬度為.由于是在求并集,所以取最大值,于是的隸屬度為0.119.</p><p> 對于文檔,“gold”和“truck”都出現(xiàn)了,而且隸屬度都為0.143,并且其權(quán)重都為0.176.因此,權(quán)重化的隸屬度為.</p><p><b> 模糊集</b></p><p> 對于查詢,我們需要再次確定和.使用權(quán)重化的隸屬度,得到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)設(shè)計(論文)模糊數(shù)學(xué)在聚類分析中的應(yīng)用
- 模糊控制在鍋爐汽溫系統(tǒng)中的應(yīng)用畢業(yè)論文
- 高等數(shù)學(xué)在中學(xué)教學(xué)中的應(yīng)用畢業(yè)論文
- 教學(xué)評價在信息技術(shù)教學(xué)中的應(yīng)用畢業(yè)論文
- 信息技術(shù)在電子商務(wù)中的應(yīng)用畢業(yè)論文
- 數(shù)學(xué)歸納法在中學(xué)數(shù)學(xué)中的應(yīng)用畢業(yè)論文
- 向量法在高中數(shù)學(xué)中的應(yīng)用畢業(yè)論文
- plc在彩燈控制中的應(yīng)用畢業(yè)論文
- rtk在工程測量中的應(yīng)用畢業(yè)論文
- 模糊數(shù)學(xué)在綜合評價中的應(yīng)用.pdf
- gps在工程測量中的應(yīng)用畢業(yè)論文
- 權(quán)及其在模糊數(shù)學(xué)中的應(yīng)用.pdf
- 歸納與類比在中學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用畢業(yè)論文
- 組合數(shù)學(xué)在數(shù)學(xué)競賽中的應(yīng)用畢業(yè)論文
- 模糊數(shù)學(xué)的應(yīng)用
- plc在舞臺吊桿中的應(yīng)用畢業(yè)論文
- 卡爾曼濾波在gps中的應(yīng)用畢業(yè)論文
- 導(dǎo)數(shù)在不等式中的應(yīng)用畢業(yè)論文
- 全站儀在測量中的應(yīng)用畢業(yè)論文
- 倉儲管理在xx企業(yè)中的應(yīng)用畢業(yè)論文
評論
0/150
提交評論