版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,網(wǎng)絡(luò)信息資源 的特點(diǎn)及其利用 黃曉斌 中山大學(xué)資訊管理系 2009年11月21日,擬介紹的問(wèn)題,網(wǎng)絡(luò)信息資源定義 網(wǎng)絡(luò)信息資源的類型網(wǎng)絡(luò)信息資源的特點(diǎn)網(wǎng)絡(luò)信息資源的結(jié)構(gòu)網(wǎng)絡(luò)信息資源利用的內(nèi)涵網(wǎng)絡(luò)信息資源利用的方式網(wǎng)絡(luò)信息資源利用的策略,網(wǎng)絡(luò)信息資源其他稱謂,網(wǎng)絡(luò)信息資源尚沒有統(tǒng)一的
2、定義類似的名稱很多,如:“因特網(wǎng)信息資源”“電子信息資源”“聯(lián)機(jī)信息”“萬(wàn)維網(wǎng)資源”“數(shù)字信息資源”,網(wǎng)絡(luò)信息資源定義,網(wǎng)絡(luò)信息資源可以理解為通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)可以利用的各種信息資源的總和。網(wǎng)絡(luò)信息資源是從計(jì)算機(jī)技術(shù)、通信技術(shù)、多媒體技術(shù)相互融合而形成的網(wǎng)絡(luò)上可查找的資源。,網(wǎng)絡(luò)信息資源類型,從內(nèi)容上網(wǎng)絡(luò)信息資源幾乎涵蓋了人類所有的重要活動(dòng)對(duì)網(wǎng)絡(luò)信息資源進(jìn)行了類型化和體系化研究,產(chǎn)生了不同的分類方案目的是便于更好地認(rèn)識(shí)、組
3、織、檢索、管理和利用。,網(wǎng)絡(luò)信息資源的劃分 ——按應(yīng)用工具方式分,電子郵件用戶組遠(yuǎn)程登錄文件傳輸WWWGopherWAIS,網(wǎng)絡(luò)應(yīng)用的新形式 Web2.0,博客(BLOG)播客 (PODCASTING) 書簽(Tag)真正簡(jiǎn)易聚合(RSS)即時(shí)通訊(Instant Messenger,簡(jiǎn)稱IM),典型代表為MSN和QQ。社會(huì)性網(wǎng)絡(luò)軟件(Social Network Software,簡(jiǎn)稱SNS
4、)WIKI(維基),網(wǎng)絡(luò)信息資源的劃分 ——按信息交流的方式,非正式出版信息。如電子郵件、專題討論小組和論壇電子會(huì)議、電子布告板新聞等。半非正式出版物。從各種單位的網(wǎng)址或主頁(yè)上, 可以查詢正式出版物系統(tǒng)所無(wú)法得到的“灰色”信息。正式出版物。各種數(shù)據(jù)庫(kù)聯(lián)機(jī)雜志和電子雜志、電子版工具書、報(bào)紙、專利信息等。因特網(wǎng)將多類型和多層次的信息是融為一體。,網(wǎng)絡(luò)信息資源的劃分 ——按網(wǎng)絡(luò)信息
5、資源的層次分,指示信息即一個(gè)信息單元的地址。 信息單元可以指示信息表達(dá)的最小信息單元。信息集合指相互關(guān)聯(lián)的信息集合。是由若干相關(guān)信息及其中特定的信息單元和指示信息所組成的。信息系統(tǒng)指一組相關(guān)的、經(jīng)過(guò)標(biāo)引和建立了交互參見的信息資源的集合。,網(wǎng)絡(luò)信息資源的劃分 ——按信息資源的來(lái)源,政府研究機(jī)構(gòu)事業(yè)單位公司企業(yè)社會(huì)團(tuán)體個(gè)人,網(wǎng)絡(luò)信息資源的劃分 ——按信息資源的內(nèi)容主題
6、,政治性文件學(xué)術(shù)研究報(bào)告經(jīng)濟(jì)活動(dòng)的信息 (廣告、企業(yè)情況 )歷史文獻(xiàn)資料教育公共性(社區(qū)信息)娛樂(lè)性,網(wǎng)絡(luò)信息資源的劃分—從網(wǎng)絡(luò)信息載體分,文本圖像圖形動(dòng)畫聲音視頻組合媒體,虛擬現(xiàn)實(shí)技術(shù),虛擬現(xiàn)實(shí)VR(Virtual Reality )技術(shù)是利用計(jì)算機(jī)生成一種模擬環(huán)境通過(guò)多種專用設(shè)備使用戶“投入”到該環(huán)境中實(shí)現(xiàn)用戶與該環(huán)境直接進(jìn)行自然交互的一門嶄新的綜合性信息技術(shù)。,虛擬現(xiàn)實(shí)技術(shù)的特點(diǎn),多感知性(Multi
7、-Sensory)臨場(chǎng)感(Immersion)交互性(Interactivity)構(gòu)想性(Imagination),一些虛擬現(xiàn)實(shí)的設(shè)備,〓 頭戴式顯示器 〓,〓 數(shù)據(jù)手套 〓,〓 軌跡球 〓,VRML,VRML(Virtual Reality Modeling language即虛擬現(xiàn)實(shí)建模語(yǔ)言)在WWW上建立3D虛擬空間的工具它使WWW的頁(yè)面不再局限于二維空間,使網(wǎng)上的三維世界動(dòng)了起來(lái)。VRML瀏覽器可以瀏覽Web上的三維
8、實(shí)境。,VRML 的應(yīng)用,教學(xué)培訓(xùn)廣告科研軍事娛樂(lè)其他,國(guó)家圖書館虛擬現(xiàn)實(shí),,網(wǎng)絡(luò)信息資源的特點(diǎn),數(shù)量巨大類型多樣變化頻繁結(jié)構(gòu)復(fù)雜傳播快捷共享性好質(zhì)量不一,數(shù)量巨大,網(wǎng)絡(luò)信息量大,內(nèi)容豐富。網(wǎng)絡(luò)信息增長(zhǎng)較快。隨著計(jì)算機(jī)硬件、軟件技術(shù)的不斷發(fā)展,特別是海量存儲(chǔ)等技術(shù)為大容量、高速度的網(wǎng)絡(luò)服務(wù)器提供了條件;計(jì)算機(jī)的信息處理能力不斷增強(qiáng),許多形式的信息都可以在網(wǎng)絡(luò)中存儲(chǔ)和傳遞??梢钥隙ňW(wǎng)絡(luò)信息資源將進(jìn)一步激增,
9、HOW MUCH INFORMATION in Internet in 2003?,The size of the Internet in terabytes. Medium 2002 Terabytes Surface Web 167Deep Web 91,850Email (originals) 440,606Instant messaging
10、 274TOTAL 532,897 Source: How much information 2003,2009年中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查,從2008 年底到2009 年6 月,中國(guó)的IPv4 地址數(shù)量半年增長(zhǎng)2,375 萬(wàn)個(gè)截至2009 年6 月,中國(guó)域名的總數(shù)為1,626 萬(wàn)個(gè),其中CN 域名1,296 萬(wàn)個(gè)。中國(guó)網(wǎng)站數(shù)量為306.1 萬(wàn)個(gè),其中CN 下網(wǎng)站數(shù)占78.7%。
11、中國(guó)國(guó)際出口帶寬為747,541.4Mbps,半年增長(zhǎng)16.8%。 資料來(lái)源: 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心《第24次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,上網(wǎng)計(jì)算機(jī)總數(shù)變化,,中國(guó)大陸網(wǎng)站規(guī)模變化,歷年網(wǎng)頁(yè)字節(jié)數(shù)及發(fā)展情況,,類型多樣,內(nèi)容包羅萬(wàn)象,覆蓋了不同學(xué)科、不同領(lǐng)域、不同地域、不同語(yǔ)言的信息資源。不僅有題錄、摘要,而且還有不少全文。載體包括文本、圖像、聲音等。多媒體、多語(yǔ)種、多類型信息的混合體。形式上既有公開出版、又有非公開發(fā)行
12、的包括會(huì)議文獻(xiàn)、學(xué)位論文、內(nèi)部資料,最貴網(wǎng)頁(yè)http://www.milliondollarhomepage.com,變化頻繁,網(wǎng)絡(luò)信息資源是一個(gè)動(dòng)態(tài)系統(tǒng)。網(wǎng)絡(luò)信息更新迅速,網(wǎng)頁(yè)增加、刪除、更換地址經(jīng)常發(fā)生。網(wǎng)絡(luò)信息的資源時(shí)效性強(qiáng)。網(wǎng)頁(yè)更新周期縮短,有關(guān)的內(nèi)容處于一種動(dòng)態(tài)的變化之中。在網(wǎng)上能得到最新的資料以及某個(gè)學(xué)科或某項(xiàng)科研的最新動(dòng)態(tài),能檢索到最近出版的文獻(xiàn)。,結(jié)構(gòu)復(fù)雜,網(wǎng)絡(luò)信息分別存儲(chǔ)在不同國(guó)家、不同地區(qū)的服務(wù)器上。對(duì)信
13、息資源的組織管理沒有統(tǒng)一標(biāo)準(zhǔn),百花齊放不同的服務(wù)器采用不同的操作系統(tǒng)及數(shù)據(jù)結(jié)構(gòu)從整體上來(lái)看,基本處在無(wú)序的狀態(tài)。不少的服務(wù)器還用中間件與其他數(shù)據(jù)庫(kù)連接起來(lái)在管理和利用方面比較復(fù)雜。 結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù) 非結(jié)構(gòu)化數(shù)據(jù),質(zhì)量參差,網(wǎng)上信息發(fā)布具有很大的自由度和隨意性缺乏必要的過(guò)濾、質(zhì)量控制和管理機(jī)制。網(wǎng)絡(luò)信息具有不同的層次與效用既有科學(xué)前沿研究報(bào)告,也有大眾通俗讀物;既有已經(jīng)加工整理的信息,也有無(wú)序的原始信息;
14、既有較大參考價(jià)值的信息,也可能混有毫無(wú)用處的“信息垃圾”,甚至還有不少有害的信息。良莠不齊有的可以帶來(lái)極大的效益,有的可能會(huì)造成不良后果,利用的價(jià)值差異較大,假冒的中國(guó)銀行網(wǎng)站,,,網(wǎng)絡(luò)信息污染,信息污染是指信息資源中混入了一些干擾性、欺騙性、有害信息的現(xiàn)象影響了人們對(duì)有用信息的利用, 甚至造成對(duì)人類的危害。網(wǎng)絡(luò)環(huán)境下信息污染主要是指網(wǎng)絡(luò)信息對(duì)用戶造成不良的后果,或?qū)φ5男畔⒗脦?lái)負(fù)面的影響。,網(wǎng)絡(luò)信息污染的形式,冗余信息
15、失效信息污穢信息網(wǎng)絡(luò)病毒虛假信息 信息文化侵蝕,荊州市商務(wù)局的網(wǎng)站被黑,,,用戶差異大,網(wǎng)絡(luò)用戶類別多樣;用戶群體也表現(xiàn)出多樣性的特點(diǎn);各種用戶之間的需求類型差異很大;用戶信息需求變化頻率加快;用戶需求日趨向個(gè)性化、特殊化部分用戶需求更加趨向?qū)iT性。,中國(guó)網(wǎng)民規(guī)模,截至2009年6月30日,中國(guó)網(wǎng)民規(guī)模達(dá)到3.38億人,普及率達(dá)到25.5%。寬帶網(wǎng)民規(guī)模達(dá)到3.2億人,占網(wǎng)民總體的94.3%。中國(guó)手機(jī)網(wǎng)民規(guī)模為1.
16、55億人,占整體網(wǎng)民的45.9%我國(guó)網(wǎng)民規(guī)模、寬帶網(wǎng)民數(shù)、國(guó)家頂級(jí)域名注冊(cè)量三項(xiàng)指標(biāo)仍然穩(wěn)居世界第一中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)《第24次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,中國(guó)網(wǎng)民人數(shù)增長(zhǎng)情況,,,網(wǎng)民年齡結(jié)構(gòu),,,網(wǎng)民學(xué)歷結(jié)構(gòu),,,網(wǎng)民職業(yè)結(jié)構(gòu),,,網(wǎng)民收入結(jié)構(gòu),,,網(wǎng)民通常使用互聯(lián)網(wǎng)的時(shí)間,歷次調(diào)查網(wǎng)民平均每周上網(wǎng)時(shí)數(shù),網(wǎng)民上網(wǎng)經(jīng)常使用的網(wǎng)絡(luò)服務(wù),傳播快捷,互聯(lián)網(wǎng)對(duì)社會(huì)熱點(diǎn)事件的反應(yīng)速度之快是前所未有的網(wǎng)絡(luò)越來(lái)越多地主導(dǎo)
17、了輿論的方向。網(wǎng)民們也樂(lè)于在互聯(lián)網(wǎng)上發(fā)表自己對(duì)當(dāng)前社會(huì)熱點(diǎn)事件的見解。幾乎每一個(gè)社會(huì)熱點(diǎn)出現(xiàn),就會(huì)導(dǎo)致一個(gè)網(wǎng)絡(luò)流行語(yǔ)的產(chǎn)生。,為什么“做俯臥撐”很快火了起來(lái),“三個(gè)俯臥撐”之所以成為熱點(diǎn),貴州省省公安廳對(duì)“甕安6.28嚴(yán)重打砸搶燒突發(fā)性事件新聞發(fā)布會(huì)”上的說(shuō)明。其中在說(shuō)明“關(guān)于李樹芬溺水死亡事件的事實(shí)”時(shí),有這樣的描述:“劉見李樹芬心情平靜下來(lái),便開始在橋上做俯臥撐。當(dāng)劉做到第三個(gè)俯臥撐的時(shí)候,聽到李樹芬大聲說(shuō)‘我走了’,便跳下河
18、中……”很快,描述的這一細(xì)節(jié)中的三個(gè)俯臥撐就成為互聯(lián)網(wǎng)上網(wǎng)民關(guān)注的熱點(diǎn),在網(wǎng)民惡搞之下,“三個(gè)俯臥撐”很快火了起來(lái)。,滿網(wǎng)盡是俯臥撐,1. 給我做三下俯臥撐,我也能推動(dòng)地球?!⒒椎?#160; 2.如果我曾經(jīng)看得遠(yuǎn)一點(diǎn),是因?yàn)槲冶葎e人多做了三下俯臥撐?!nD 3. 做俯臥撐時(shí)運(yùn)動(dòng)速度大小,取決于你選取的參照物。——愛因斯坦4. 天才就是百分之九十九的汗水加上三個(gè)俯臥撐?!獝鄣仙?#160;
19、160; 5.俯臥撐即合理?!诟駹?#160; 6.做俯臥撐還是立臥撐,這是個(gè)問(wèn)題?!防滋?#160; 7.俯臥撐尚未完成,同志們?nèi)孕枧??!獙O中山 8.我撐故我在?!芽?#160; 9.俯臥撐已經(jīng)做三下了,勝利還會(huì)遠(yuǎn)嗎?——雪萊 10.世界上本來(lái)是沒有路的,做俯臥撐的人多了,也就成了路。——魯迅 11.做自己的俯臥撐,讓別人說(shuō)去吧!——但丁,網(wǎng)絡(luò)信息資源的結(jié)構(gòu),網(wǎng)
20、絡(luò)信息資源 來(lái)源廣泛、結(jié)構(gòu)多元、分布復(fù)雜網(wǎng)絡(luò)信息資源的結(jié)構(gòu)可以分為:內(nèi)容結(jié)構(gòu)、表述結(jié)構(gòu)、組織結(jié)構(gòu)、分布結(jié)構(gòu)和傳播結(jié)構(gòu)。,網(wǎng)絡(luò)信息資源的分布,地域分布時(shí)間分布行業(yè)分布內(nèi)容分布,我國(guó)網(wǎng)絡(luò)資源的地域分布,全國(guó)域名數(shù)約為 259.2萬(wàn)個(gè),廣東(16.8%)、北京(13.8%)、福建(9.5%)位列全國(guó)前三名。 全國(guó)CN域名數(shù)約為 109.7萬(wàn)個(gè),北京(17.8%)、廣東(15.6%)、福建(9.7%)位列全國(guó)前三名。 全
21、國(guó)網(wǎng)站數(shù)約為69.4萬(wàn)個(gè), 北京(18.6%)、廣東(16.6%)和浙江(9.7%)位列全國(guó)前三位。 全國(guó)網(wǎng)頁(yè)總數(shù)約為24億個(gè),北京、上海、廣東和浙江是擁有網(wǎng)頁(yè)數(shù)量和網(wǎng)頁(yè)總字節(jié)數(shù)最多的四個(gè)省市。,我國(guó)網(wǎng)絡(luò)資源的地域分布(域名),我國(guó)網(wǎng)絡(luò)資源的地域分布(網(wǎng)站),我國(guó)網(wǎng)絡(luò)資源的行業(yè)分布,企業(yè)網(wǎng)站數(shù)的比例最大,占網(wǎng)站總體的60.4%,其次為個(gè)人網(wǎng)站,占21.9%,第三是教育科研類網(wǎng)站,占5.1%,隨后依次為政府網(wǎng)站占4.4%,其他公
22、益性網(wǎng)站占3.8%,商業(yè)網(wǎng)站占3.5%,其它網(wǎng)站占0.9%。,我國(guó)網(wǎng)絡(luò)資源的行業(yè)分布,我國(guó)網(wǎng)絡(luò)資源的內(nèi)容分布,政府網(wǎng)站提供較多的信息服務(wù)為“友情鏈接(91.3%)”、“法律法規(guī)/政策/文件(85.9%)”、“部門介紹(84.8%)”等; 政府網(wǎng)站提供最多的服務(wù)為“留言板(65.2%)”和“政府信箱(64.1%)”;通過(guò)網(wǎng)站發(fā)布信息比例超過(guò)60%的網(wǎng)站占全部政府網(wǎng)站的44.5%; 政府日常辦公事務(wù)與網(wǎng)站相關(guān)服務(wù)結(jié)合比較緊密和非常
23、緊密的政府網(wǎng)站比例為65.2%。,我國(guó)網(wǎng)絡(luò)資源的內(nèi)容分布,絕大部分企業(yè)網(wǎng)站提供“企業(yè)介紹(97.0%)”和“產(chǎn)品/服務(wù)介紹(92.9%)”;68.5%的企業(yè)網(wǎng)站提供“產(chǎn)品查詢”;45.6%的企業(yè)網(wǎng)站提供 “在線咨詢/投訴”; 超過(guò)60%的信息通過(guò)網(wǎng)站進(jìn)行了發(fā)布的企業(yè)網(wǎng)站比例為28.5%;企業(yè)業(yè)務(wù)與網(wǎng)站結(jié)合比較緊密和非常緊密的企業(yè)網(wǎng)站比例為48.7%。,我國(guó)網(wǎng)絡(luò)資源的內(nèi)容分布,商業(yè)網(wǎng)站中提供“網(wǎng)站/網(wǎng)頁(yè)瀏覽”的比例最高,占到了70
24、.4%,其次是“網(wǎng)上購(gòu)物(B2C/ C2C)”(46.5%)和“BBS論壇/網(wǎng)上社區(qū)/討論組等”(45.1%);在各種信息服務(wù)的商業(yè)網(wǎng)站中,提供“產(chǎn)品信息”的網(wǎng)站比例最高,為85.9%;其次是提供“企業(yè)信息”的網(wǎng)站,為66.2%。,網(wǎng)絡(luò)信息資源的時(shí)間分布,(1)網(wǎng)站成立時(shí)間 根據(jù)2005年中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告,2005年成立的網(wǎng)站占網(wǎng)站總數(shù)的47%,2000年及以前成立的網(wǎng)站占網(wǎng)站總數(shù)的7%,截至2005年,國(guó)內(nèi)
25、大部分網(wǎng)站是在2004年和2005年成立的。,網(wǎng)絡(luò)信息資源的時(shí)間分布,(2)網(wǎng)頁(yè)更新周期 從網(wǎng)頁(yè)更新周期情況看,2001年到2005年更新周期在一月以上的網(wǎng)頁(yè)數(shù)量在當(dāng)年更新網(wǎng)頁(yè)總數(shù)中的百分比分別為:881%、9369%、 915%、628%、6414%;更新周期在一周以內(nèi)的網(wǎng)頁(yè)數(shù)量所占比率分別為:689%、181%、28%、104%、1762%。2001年至2005年更新周期在一月以上的網(wǎng)頁(yè)數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)更新周
26、期在一周以內(nèi)的網(wǎng)頁(yè)數(shù)量。反映了國(guó)內(nèi)網(wǎng)頁(yè)的更新周期普遍較長(zhǎng),更新頻率低。,網(wǎng)絡(luò)信息資源的時(shí)間分布,(3)在線數(shù)據(jù)庫(kù)更新比例大部分?jǐn)?shù)據(jù)庫(kù)的更新比例在1%-5%和1%以下,更新比例在20%以上的數(shù)據(jù)庫(kù)比率只占10%-20%。從在線數(shù)據(jù)庫(kù)更新比例來(lái)看,記錄的更新比例仍比較低。大部分網(wǎng)站是在2004年和2005年成立的說(shuō)明隨著我國(guó)信息化進(jìn)程的加快,信息資源數(shù)量在迅猛增長(zhǎng);,網(wǎng)絡(luò)信息資源的時(shí)間分布,國(guó)內(nèi)網(wǎng)站的更新周期普遍在一個(gè)月以上說(shuō)明
27、信息更新不夠及時(shí),信息資源的時(shí)效性差;在數(shù)據(jù)庫(kù)更新比例上,國(guó)內(nèi)在線數(shù)據(jù)庫(kù)的更新比例普遍在1%-5%,這同樣說(shuō)明了國(guó)內(nèi)信息資源的時(shí)效性不高。過(guò)時(shí)、陳舊的信息內(nèi)容使信息資源質(zhì)量下降,網(wǎng)絡(luò)信息資源的分布規(guī)律,網(wǎng)絡(luò)信息資源的集中與分散規(guī)律布拉得福定律齊夫定律洛特卡定律普賴斯定律網(wǎng)絡(luò)信息資源的時(shí)間分布規(guī)律指數(shù)增長(zhǎng)率老化規(guī)律網(wǎng)絡(luò)信息資源的空間分布規(guī)律擴(kuò)散的多向性傳遞的密度遞減法則,網(wǎng)絡(luò)信息資源利用,網(wǎng)絡(luò)信息檢索網(wǎng)絡(luò)信息過(guò)濾
28、網(wǎng)絡(luò)信息評(píng)價(jià)網(wǎng)絡(luò)信息挖掘,網(wǎng)絡(luò)信息檢索Network Information Retrieval,,搜索引擎的概念,搜索引擎是一類網(wǎng)站主要任務(wù)是主動(dòng)搜索其他Web 站點(diǎn)中的信息并對(duì)其自動(dòng)索引其索引內(nèi)容存儲(chǔ)在可供查詢的大型數(shù)據(jù)庫(kù)中當(dāng)用戶利用關(guān)鍵字查詢時(shí),該網(wǎng)站會(huì)告訴用戶包括該關(guān)鍵字信息的所有網(wǎng)址提供通向該網(wǎng)站的鏈接。,當(dāng)前搜索引擎存在的主要問(wèn)題,搜索引擎的覆蓋率在整體上呈下降搜索引擎缺乏統(tǒng)一的技術(shù)標(biāo)準(zhǔn)搜索引擎之間的檢索
29、體系存在一定的差異性,難于相互兼容搜索引擎檢索效率比較差搜索引擎檢準(zhǔn)確比較差漢語(yǔ)語(yǔ)義的復(fù)雜性尚難解決語(yǔ)句中隱含的貶義更是搜索引擎難以判斷的多義性的句子搜索引擎也難以判別使用某一關(guān)鍵詞進(jìn)行檢索而沒使用同義詞檢索,漏檢率高,隱性WEB搜索模式,“不可見”或“深層”網(wǎng)正在超過(guò)表層網(wǎng)人們熟悉的交互式數(shù)據(jù)庫(kù)信息資源就是其中最重要的一部分。隱性WEB類搜索引擎有很多種,有的以導(dǎo)航服務(wù)為主, 有的以信息搜索服務(wù)為主,用戶行為分析的模式
30、,跟蹤用戶對(duì)檢索結(jié)果行為用以前的用戶檢索行為來(lái)對(duì)以后的相似檢索進(jìn)行優(yōu)化,幫助用戶盡快發(fā)現(xiàn)自己需要的信息。對(duì)用戶的行為進(jìn)行跟蹤和統(tǒng)計(jì), 發(fā)現(xiàn)這個(gè)用戶的喜好和對(duì)檢索結(jié)果的期待,從而產(chǎn)生專門針對(duì)該用戶的檢索結(jié)果。通過(guò)日志的統(tǒng)計(jì)分析得到用戶檢索的分布,用戶檢索的規(guī)律,熱點(diǎn)站點(diǎn)的分布等數(shù)據(jù)。,趨勢(shì)搜索,趨勢(shì)搜索是利用數(shù)據(jù)利用情況進(jìn)行分析用戶使用行為掌握當(dāng)前熱點(diǎn)預(yù)測(cè)將來(lái)變化趨勢(shì)搜索是知識(shí)檢索的一種,,,GOOGLE趨勢(shì)的原理,Googl
31、e 趨勢(shì)會(huì)分析一部分 字詞被搜索的次數(shù),并將其隨時(shí)間推移的搜索總量相比較??梢杂枚禾?hào)隔開同時(shí)比較最多5個(gè)關(guān)鍵詞的統(tǒng)計(jì)數(shù)據(jù)。用圖表顯示結(jié)果,按線性比例繪制的搜索量圖表。,,,,,,,,,用“Google趨勢(shì)”預(yù)測(cè)美國(guó)大選,百度指數(shù),百度指數(shù)是以百度網(wǎng)頁(yè)搜索和百度新聞搜索為基礎(chǔ)的免費(fèi)海量數(shù)據(jù)分析服務(wù)用以反映不同關(guān)鍵詞在過(guò)去一段時(shí)間里的“用戶關(guān)注度”和“媒體關(guān)注度”??梢园l(fā)現(xiàn)、共享和挖掘互聯(lián)網(wǎng)上最有價(jià)值的信息和資訊,直接、客觀地反映社
32、會(huì)熱點(diǎn)、網(wǎng)民的興趣和需求。,,,,,CNKI學(xué)術(shù)趨勢(shì)檢索,CNKI學(xué)術(shù)趨勢(shì)是依托于cnki中國(guó)知識(shí)資源總庫(kù)中的用戶的使用情況提供的學(xué)術(shù)趨勢(shì)分析服務(wù)。通過(guò)關(guān)鍵詞在過(guò)去一段時(shí)間的“學(xué)術(shù)關(guān)注指數(shù)”可以知道所在的研究領(lǐng)域隨著時(shí)間的變化被學(xué)術(shù)界所關(guān)注的情況;可以知道在相關(guān)領(lǐng)域不同時(shí)間段內(nèi)哪些重要文獻(xiàn)被最多的同行所研讀。,,,,,,,,向本土化搜索方向發(fā)展,許多搜索引擎都以英語(yǔ)為基礎(chǔ)各國(guó)的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對(duì)網(wǎng)站內(nèi)容的搜索要
33、求上也就存在差異。完全按他們的思維方式和觀點(diǎn)檢索資料,這對(duì)于不同國(guó)家的用戶顯然是不適合的。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?,搜索引擎就必須本土?,,雅虎本地搜索,,,多語(yǔ)言搜索引擎,隨著因特網(wǎng)的國(guó)際化,網(wǎng)上各種語(yǔ)言的信息都逐漸豐富隨著信息交流的國(guó)際化,用戶有時(shí)往往同時(shí)處理幾種語(yǔ)言的信息。許多搜索引擎為了占領(lǐng)國(guó)際市場(chǎng),都開始支持多種語(yǔ)言的搜索,多語(yǔ)言搜索引擎,目前網(wǎng)絡(luò)上有160種語(yǔ)言的信息,而搜索引擎可以支持的語(yǔ)言有40種。如果用
34、戶同時(shí)在幾種語(yǔ)言之間切換提問(wèn)詞,必定加大用戶搜索的困難??缯Z(yǔ)言綜合搜索引擎 可以不同語(yǔ)言提問(wèn)之間的翻譯和不同搜索引擎檢索結(jié)果的集成。,,,,,向可視化方向發(fā)展,可視化是將數(shù)據(jù)庫(kù)中不可見的語(yǔ)義關(guān)系用圖像形式顯示,并表達(dá)用戶檢索過(guò)程??梢暬畔z索好處:對(duì)文獻(xiàn)或檢索式內(nèi)部語(yǔ)義關(guān)系的理解有助于用戶判斷檢索中的相關(guān)文獻(xiàn);透明的檢索過(guò)程使檢索更容易、更有效;可視化的環(huán)境為用戶展示更豐富、更直觀的信息; 在可視化檢索中則指檢索結(jié)果之間的相
35、關(guān)度;減少了理解檢索結(jié)果的時(shí)間; 可以對(duì)相關(guān)信息進(jìn)行聚類分析。,,可視化檢索技術(shù)致力于實(shí)現(xiàn)的目標(biāo)可以方便地構(gòu)造一個(gè)有效的檢索式。 檢索過(guò)程透明化。 檢索結(jié)果的多維顯示。 更為有效的結(jié)果集排序機(jī)制。提供有效的用戶反饋機(jī)制,增強(qiáng)用戶與系統(tǒng)間的交互作用。,可視化在信息檢索中的應(yīng)用,在檢索前的應(yīng)用——檢索需求的可視化。 在檢索界面適當(dāng)設(shè)置一些可視化元素或圖標(biāo)提供更豐富的對(duì)話內(nèi)容與手段,使用戶與檢索系統(tǒng)的
36、交互更加方便、快捷 。在檢索過(guò)程中的應(yīng)用——將檢索過(guò)程(黑箱)進(jìn)行透明化處理,便于用戶的跟蹤與控制。 在檢索結(jié)果中的應(yīng)用——將檢索結(jié)果進(jìn)行可視化處理而不是采用單純的線性排列。,Vis Web,Vis Web是 WWW環(huán)境下對(duì) Web頁(yè)面及其鏈接的可視化檢索系統(tǒng)。它通過(guò)抽取頁(yè)面的重要屬性,如 URL、網(wǎng)頁(yè)摘要、超鏈接等利用形狀、顏色、線條等視覺屬性來(lái)實(shí)現(xiàn)頁(yè)面的圖形化描述,用戶可以就顯示的形狀進(jìn)行動(dòng)態(tài)調(diào)整。實(shí)現(xiàn)了對(duì)搜索引擎檢索命
37、中結(jié)果及與命中結(jié)果有鏈接關(guān)系的頁(yè)面的可視化顯示.,清華大學(xué)網(wǎng)站可視圖,,清華,北京科技大,北京郵電大學(xué),Hyperbolic Tree,,向語(yǔ)義檢索方向發(fā)展,目前基于關(guān)鍵詞層面檢索從概念意義層次上來(lái)認(rèn)識(shí)和處理檢索用戶的請(qǐng)求。模糊語(yǔ)義查詢技術(shù),當(dāng)用戶提交一個(gè)關(guān)鍵詞后,系統(tǒng)還可以使用這個(gè)關(guān)鍵詞的同義詞、近義詞等查詢,從而使查詢更加準(zhǔn)確。這種引擎充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時(shí)使查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高,概念檢索,
38、概念是關(guān)于具有共同屬性的一組對(duì)象、事件或符號(hào)的知識(shí)。同一個(gè)概念可以有多個(gè)抽象元素來(lái)表達(dá),這些描述元素在此概念的約束下構(gòu)成了同義關(guān)系,它們?cè)诖艘饬x上可以等同起來(lái)。概念檢索就是在檢索時(shí)對(duì)于這些描述元素自動(dòng)歸并為同一概念不僅僅能檢索出包含這個(gè)具體詞匯的結(jié)果,還能檢索出包含那些與該詞同屬一類概念的詞匯的結(jié)果。,自然語(yǔ)言查詢,允許用戶采用自然語(yǔ)言進(jìn)行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。自然語(yǔ)言查詢的優(yōu)勢(shì)體現(xiàn)在:由于自然語(yǔ)言查
39、詢具有智能分詞功能, 使得查詢變得更為簡(jiǎn)單、易于操作。采用概念檢索技術(shù),明確和縮小了搜索范圍,減少了對(duì)無(wú)用信息的搜索。,自然語(yǔ)言答詢,可以輸入簡(jiǎn)單的疑問(wèn)句,比如“how can kill virus of computer?”自然語(yǔ)言的優(yōu)勢(shì)一是使網(wǎng)絡(luò)交流更加人性化二是使查詢變得更加方便、直接、有效。如果用關(guān)鍵詞查詢,多半人會(huì)用“virus”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息自然語(yǔ)言
40、搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。,自然語(yǔ)言搜索引擎的特點(diǎn),更高的易用性查準(zhǔn)率更高搜索范圍定位合適搜索過(guò)程交互智能搜索結(jié)果綜合性強(qiáng),問(wèn)答檢索系統(tǒng),麻省理工(MIT) 開發(fā)的一個(gè)問(wèn)答系統(tǒng)Start可以回答一些有關(guān)地理、歷史、文化、科技、娛樂(lè)等方面的簡(jiǎn)單問(wèn)題。AnswerBus 是個(gè)多語(yǔ)種的自動(dòng)問(wèn)答系統(tǒng)。BAQS。在銀行個(gè)人業(yè)務(wù)應(yīng)用領(lǐng)域內(nèi),成功地解決了自然語(yǔ)言理解的語(yǔ)言歧義問(wèn)題。,新浪愛問(wèn),2004年7月正
41、式推出愛問(wèn)的定位是使之成為一項(xiàng)真正能幫助廣大網(wǎng)民解決問(wèn)題的服務(wù)用戶可以在這個(gè)平臺(tái)上無(wú)所不問(wèn),而愛問(wèn)的最終訴求則是能做到有問(wèn)必答?;?dòng)問(wèn)答平臺(tái)彌補(bǔ)了傳統(tǒng)技術(shù)在搜索界面上智慧性和互動(dòng)性的不足。通過(guò)調(diào)動(dòng)網(wǎng)民參與提問(wèn)與回答,能匯集千萬(wàn)網(wǎng)民的智慧,讓用戶彼此分享知識(shí)與經(jīng)驗(yàn)。,新浪愛問(wèn),,,百度知道,2005年6月誕生,作為一個(gè)互動(dòng)問(wèn)答式搜索產(chǎn)品直接有效的答案的提問(wèn)式搜索,象“廣州有哪些有特色的地方吃飯?”“為什么廣州話里說(shuō)看中了某個(gè)人叫
42、‘生滋貓入眼’?這種問(wèn)題就可能在提問(wèn)式搜索中由網(wǎng)友提供答案。通過(guò)用戶和搜索引擎的相互作用,將其所累積的知識(shí)數(shù)據(jù)可以直觀反映到搜索結(jié)果中,并最終實(shí)現(xiàn)搜索引擎的社區(qū)化。,,,向集成化發(fā)展--元搜索引擎,元搜索引擎即是在搜索引擎之上的搜索引擎用戶只需提交一次檢索請(qǐng)求, 并以統(tǒng)一格式提供給用戶.這樣的搜索結(jié)果比較全面和比較可靠,比分別只使用一個(gè)搜索引擎更為有效。元搜索引擎可以一次讓多個(gè)搜索引擎并發(fā)查詢,因此它往往能夠獲得較高的查全率。
43、元搜索引擎不需要維護(hù)龐大的網(wǎng)頁(yè)標(biāo)引數(shù)據(jù)庫(kù),大大降低了工程的復(fù)雜度。 元搜索引擎根據(jù)用戶要求對(duì)搜索信息進(jìn)行過(guò)濾,提高查詢的精度。,,,,,,,,向智能化搜索方向發(fā)展,智能型搜索引擎可以充分理解搜索者的意圖搜索結(jié)果更具有準(zhǔn)確性、相關(guān)性和實(shí)用性搜索引擎具有學(xué)習(xí)功能可跟蹤分析提過(guò)的所有問(wèn)題使以后同類問(wèn)題得到更好的回答。,智能化搜索例子,用戶給出“中秋節(jié)”一詞 ,智能型搜索引擎就能自動(dòng)輸出月餅資訊網(wǎng)和月餅公司等相關(guān)信息。用戶給出孫中
44、山一詞,搜索引擎除了提供“孫中山先生”的文獻(xiàn)外,還會(huì)提供“宋慶齡”的有關(guān)信息。,專題搜索引擎,專題搜索引擎是以某一學(xué)科、某一行業(yè)或某一種載體為對(duì)象的檢索工具。專題搜索引擎可以使用與特定專業(yè)相適應(yīng)的檢索語(yǔ)言和標(biāo)引方法,檢索比較深入。專業(yè)搜索引擎符合人們的認(rèn)知規(guī)律和檢索習(xí)慣專業(yè)引擎是特色的引擎,起到一般引擎起不到的作用。,,,,,,,,,向序列化方向發(fā)展,針對(duì)同一術(shù)語(yǔ)在不同學(xué)科有不同意義,如果設(shè)計(jì)出不同的學(xué)科版,對(duì)可能產(chǎn)生的誤解術(shù)語(yǔ)細(xì)
45、化,不僅便于查找到準(zhǔn)確的結(jié)果,節(jié)約檢索時(shí)間,而且能夠推動(dòng)各學(xué)科術(shù)語(yǔ)的規(guī)范化。為適應(yīng)不同層次用戶需求,還可以推出同一專業(yè)不同版本的檢索工具 ,如普通版、專業(yè)版、圖像版等搜索工具兒童、成年版等供不同水平用戶使用。,垂直搜索引擎的優(yōu)勢(shì),垂直搜索引擎的搜索器只搜索特定的主題信息,按預(yù)先已定義好的專題有選擇地收集相關(guān)的網(wǎng)頁(yè)。由于所收學(xué)科領(lǐng)域小,信息量相對(duì)較少,可采用“專門分類標(biāo)引”的方法對(duì)搜集到的信息進(jìn)行組織整理進(jìn)一步提高信息的質(zhì)量,建立
46、起一個(gè)高質(zhì)量的專業(yè)信息收集全的索引數(shù)據(jù)庫(kù)。,,,向個(gè)性化信息服務(wù)發(fā)展,將搜索建立在個(gè)性化的搜索環(huán)境之下通過(guò)對(duì)用戶的不斷了解、分析,使得個(gè)性化搜索更符合用戶的需求。個(gè)性化信息服務(wù)是一種面向用戶深層需求的信息服務(wù)。具有智能化更新個(gè)人數(shù)字信息資源特色庫(kù)的能力。提供多層次的個(gè)性化信息服務(wù)模板。,,,,,,,,,向多媒體方向發(fā)展,多媒體檢索系統(tǒng)有著廣泛的應(yīng)用前景電子會(huì)議、遠(yuǎn)程教學(xué)、遠(yuǎn)程醫(yī)療、數(shù)字圖書館、電子商務(wù)、地理信息系統(tǒng)、文化娛樂(lè)等
47、方面。多媒體信息檢索能對(duì)以文本信息為代表的離散媒體和以圖象、聲音等為代表的連續(xù)媒體的內(nèi)容進(jìn)行檢索。,,基于內(nèi)容的信息檢索 基于內(nèi)容的信息檢索 (content-based retrieval)是對(duì)文本、圖像、音頻、視頻等媒體對(duì)象進(jìn)行內(nèi)容語(yǔ)義的分析和特征的提取 基于這些特征進(jìn)行相似性匹配的信息檢索技術(shù).,基于內(nèi)容檢索的原理,基于內(nèi)容的檢索主要是利用媒體對(duì)象的語(yǔ)義、媒體的視覺和聽覺特征來(lái)進(jìn)行檢索圖像中的顏色、紋理、形狀視頻
48、中的鏡頭、場(chǎng)景、鏡頭的運(yùn)動(dòng)聲音中的音調(diào)、響度、音色等。,,,,,,Shape,AverageColor,ColorMixture,Texture,Position,Image Query,,,,,,"Show me more like this",圖象內(nèi)容查詢,,,基于內(nèi)容檢索的特點(diǎn),從媒體內(nèi)容中提取信息線索。直接對(duì)圖像、視頻、音頻內(nèi)容進(jìn)行分析,抽取特征和語(yǔ)義利用這些內(nèi)容特征建立索引,并進(jìn)行檢索?;趦?nèi)容
49、的檢索是一種近似匹配。逐步求精,以獲得查詢結(jié)果,是一個(gè)迭代過(guò)程。采用以示例查詢 外部圖例 內(nèi)部圖例 草圖大型數(shù)據(jù)庫(kù)的快速檢索 能滿足多層次的檢索要求,從媒體內(nèi)容中提取信息線索,CBIR: Content-Based Image Retrieval,Color,,Shape,Texture,Template,,,,,,網(wǎng)絡(luò)信息過(guò)濾Network Information Filtering,,網(wǎng)絡(luò)信息過(guò)濾概念,網(wǎng)絡(luò)信息過(guò)濾就是根據(jù)
50、一定的標(biāo)準(zhǔn)運(yùn)用一定的工具從動(dòng)態(tài)的網(wǎng)絡(luò)信息流中選取用戶需要的信息或剔除用戶不需要的信息的方法和過(guò)程。它的內(nèi)涵包括:信息過(guò)濾的目的是要滿足特定用戶的信息需求;信息過(guò)濾的依據(jù)是信息與特定用戶信息需求相關(guān)性;信息過(guò)濾的對(duì)象是動(dòng)態(tài)的網(wǎng)絡(luò)信息流;信息過(guò)濾不僅從信息流中選取需要的信息,也從中剔除不需要的信息。,,,,,,結(jié)構(gòu) 基于內(nèi)容的過(guò)濾協(xié)作過(guò)濾用戶需求模板上游過(guò)濾下游過(guò)濾作用推薦系統(tǒng)阻擋系統(tǒng) 通過(guò)設(shè)置條件剔除用戶不需要
51、的信息,而其它的信息用戶可以獲取,網(wǎng)絡(luò)信息過(guò)濾的分類,,網(wǎng)絡(luò)信息過(guò)濾的分類,根據(jù)過(guò)濾的不同應(yīng)用分類專門過(guò)濾軟件網(wǎng)絡(luò)應(yīng)用程序其他過(guò)濾工具 如防火墻、代理服務(wù)器,信息過(guò)濾與信息檢索共同點(diǎn),目的相同 原理基本相同 檢索的技術(shù)方法廣泛應(yīng)用于過(guò)濾系統(tǒng)中效率的評(píng)價(jià)趨同 過(guò)濾正確率 = 被正確過(guò)濾的信息 / 應(yīng)該過(guò)濾的信息 * 100%過(guò)濾錯(cuò)誤率 = 被錯(cuò)誤過(guò)濾的信息 / 不應(yīng)該過(guò)濾的信息 * 100% 濾準(zhǔn)率 =
52、 過(guò)濾得到的用戶需要的信息 / 過(guò)濾得到的信息 * 100% 濾全率 = 過(guò)濾得到的用戶需要的信息 / 用戶需要的所有信息 * 100%,信息過(guò)濾的應(yīng)用,改善網(wǎng)絡(luò)查詢技術(shù)提供個(gè)性化信息服務(wù)實(shí)現(xiàn)有害信息的過(guò)濾信息中介開展網(wǎng)絡(luò)增值服務(wù),信息過(guò)濾的意義與局限性,信息過(guò)濾的意義減輕認(rèn)知壓力的減壓閥 開展個(gè)性化信息服務(wù)的推動(dòng)者 保持網(wǎng)絡(luò)暢順的把關(guān)人 清除不良信息的凈化器信息過(guò)濾的局限性涉及個(gè)人隱私限制認(rèn)知 影響網(wǎng)
53、速,網(wǎng)絡(luò)信息的集成,Network Information Integration,網(wǎng)絡(luò)信息集成的含義,集成是指將分散的部分形成一個(gè)有機(jī)整體。集合將不同分布地的信息資源通過(guò)現(xiàn)代技術(shù)鏈接在一起,運(yùn)用信息技術(shù)和應(yīng)用軟件,形成信息集成服務(wù)的環(huán)境。組成將所集合的各種信息資源, 通過(guò)各種信息技術(shù)和手段,進(jìn)行規(guī)范科學(xué)地組織 ,以方便快捷地利用。,網(wǎng)絡(luò)信息資源整合,網(wǎng)絡(luò)信息集成的產(chǎn)生背景,網(wǎng)絡(luò)環(huán)境下信息資源必然是分布的傳統(tǒng)的信息服務(wù)模式
54、多為集中式或分散式這兩種服務(wù)模式已不能滿足用戶的信息需求。用戶希望可以通過(guò)“一站到位”的計(jì)算機(jī)界面,獲得動(dòng)態(tài)的、在時(shí)間和空間上一致的面向主題的信息服務(wù)。知識(shí)信息資源共享需要。,網(wǎng)絡(luò)化信息集成的必要性,網(wǎng)絡(luò)數(shù)字化資源的多元性網(wǎng)絡(luò)數(shù)字化資源的分散性信息系統(tǒng)的異構(gòu)用戶需求的變化 信息服務(wù)的變化網(wǎng)絡(luò)信息增值的需要,網(wǎng)絡(luò)信息的集成方法,虛擬法實(shí)體法,虛擬法,在虛擬情況下,集成系統(tǒng)充當(dāng)用戶和信息源之間的接口。數(shù)據(jù)仍然保存在網(wǎng)絡(luò)的
55、信息源。系統(tǒng)能夠自動(dòng)將集成模式的查詢請(qǐng)求轉(zhuǎn)換成對(duì)Web信息源的查詢。不需要重復(fù)儲(chǔ)存大量的數(shù)據(jù)并且能夠查到新的數(shù)據(jù),比較適合于高度自治的、集成數(shù)量多、更新變化快的信息源集成。在查詢時(shí),由于需要訪問(wèn)數(shù)據(jù)源,所以響應(yīng)查詢一般比較費(fèi)時(shí)。,虛擬法,實(shí)體法,實(shí)體法是建立一個(gè)存儲(chǔ)倉(cāng)庫(kù),將參加集成的各信息源的數(shù)據(jù)裝入存儲(chǔ)倉(cāng)庫(kù),然后對(duì)這個(gè)存儲(chǔ)倉(cāng)庫(kù)提供查詢機(jī)制。當(dāng)信息源發(fā)生變化時(shí),存儲(chǔ)倉(cāng)庫(kù)中的數(shù)據(jù)要作相應(yīng)的修改。這種方式查詢不再需要訪問(wèn)源數(shù)據(jù),
56、所以響應(yīng)查詢一般比較快捷缺點(diǎn)是數(shù)據(jù)更新不及時(shí),數(shù)據(jù)重復(fù)儲(chǔ)存。具體的操作和維護(hù)工作的代價(jià)也高。,實(shí)體法,網(wǎng)絡(luò)信息的集成方式,基于虛擬數(shù)據(jù)庫(kù)的網(wǎng)絡(luò)信息集成基于XML的網(wǎng)絡(luò)信息集成基于Web數(shù)據(jù)倉(cāng)庫(kù)的網(wǎng)絡(luò)信息集成基于智能代理的網(wǎng)絡(luò)信息的集成基于本體的網(wǎng)絡(luò)信息的集成基于網(wǎng)格的網(wǎng)絡(luò)信息的集成,實(shí)例:強(qiáng)大的在線詞典---OneLook,OneLook具有龐大的在線詞典數(shù)據(jù)庫(kù),收錄955部詞典和詞匯表,單詞6百多萬(wàn)個(gè)。分為普通語(yǔ)言詞典
57、、藝術(shù)詞典、商業(yè)詞典、計(jì)算機(jī)詞典、醫(yī)學(xué)詞典、綜合性詞典、宗教詞典、科學(xué)詞典、俚語(yǔ)詞典、體育詞典、工程技術(shù)詞典等11大類各類詞典可列表瀏覽,在每部詞典名稱下均有諸如收詞量、版本、主頁(yè)網(wǎng)址、類型、特點(diǎn)、收錄日期等簡(jiǎn)要介紹。,,,,,網(wǎng)絡(luò)信息資源評(píng)價(jià),Evaluation of Network Information resources,網(wǎng)絡(luò)信息資源評(píng)價(jià)的必要性,網(wǎng)絡(luò)信息資源數(shù)量巨大網(wǎng)絡(luò)信息資源質(zhì)量不一網(wǎng)絡(luò)信息資源整序的需要網(wǎng)絡(luò)信息服
58、務(wù)的基本要求網(wǎng)絡(luò)信息與用戶利用的矛盾,評(píng)價(jià)網(wǎng)絡(luò)信息資源的目的,了解網(wǎng)上信息的分布及質(zhì)量水平等情況為有關(guān)信息的取舍提供判斷依據(jù)掌握各領(lǐng)域中的優(yōu)秀網(wǎng)站,形成各領(lǐng)域優(yōu)秀網(wǎng)站、 網(wǎng)頁(yè)群 指導(dǎo)人們方便、快捷而且有效地選擇和獲得有價(jià)值的信息資源節(jié)約大量寶貴的時(shí)間提高網(wǎng)絡(luò)信息傳播能力,網(wǎng)絡(luò)信息資源的內(nèi)容評(píng)價(jià),內(nèi)容是評(píng)價(jià)與選擇的核心,從中可以反映網(wǎng)絡(luò)信息資源的本質(zhì)。完備性針對(duì)性可靠性權(quán)威性原創(chuàng)性新穎性,網(wǎng)絡(luò)信息資源的形式評(píng)價(jià),
59、美觀性條理性查檢性 快捷性 穩(wěn)定性低耗性易用性,網(wǎng)站評(píng)價(jià)要求,體現(xiàn)內(nèi)容質(zhì)量第一要有科學(xué)性注意客觀評(píng)價(jià)與主觀評(píng)價(jià)相結(jié)合各指標(biāo)之間互相補(bǔ)充具有動(dòng)態(tài)變化特征,網(wǎng)絡(luò)信息的評(píng)價(jià)模式,排行榜模式動(dòng)態(tài)監(jiān)測(cè)市場(chǎng)調(diào)查專家評(píng)估定性與定量相結(jié)合,實(shí)例:WWW.a(chǎn)lexa.com,WWW.a(chǎn)lexa.com創(chuàng)建于1996年4月,現(xiàn)在已經(jīng)成長(zhǎng)為最著名的網(wǎng)站評(píng)價(jià)Web站點(diǎn)Alexa通過(guò)數(shù)百萬(wàn)Alexa工具欄用戶分析網(wǎng)站的使用度來(lái)計(jì)算流
60、量等級(jí)這些信息經(jīng)過(guò)匿名提交、詳細(xì)審查、計(jì)算、儲(chǔ)存最后提供在Alexa的服務(wù)中。,,,,,網(wǎng)絡(luò)信息挖掘,Web mining,網(wǎng)絡(luò)信息挖掘的含義,網(wǎng)絡(luò)信息挖掘就是利用數(shù)據(jù)挖掘技術(shù)自動(dòng)地從網(wǎng)絡(luò)文檔以及服務(wù)信息中發(fā)現(xiàn)和抽取知識(shí)的過(guò)程。從概念及相關(guān)因素的延伸比較上找出用戶需要的深層次的信息,網(wǎng)絡(luò)信息挖掘的類型,網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Web structure mining)網(wǎng)絡(luò)用法挖掘(We
61、b usage mining),Web挖掘的分類,,Web 挖掘,Web結(jié)構(gòu)挖掘,Web內(nèi)容挖掘,Web使用記錄挖掘,Web頁(yè)內(nèi)容挖掘,搜索結(jié)果挖掘,一般模式追蹤,個(gè)人使用模式追蹤,,,,,,,,網(wǎng)絡(luò)結(jié)構(gòu)挖掘,從網(wǎng)頁(yè)等的結(jié)構(gòu)和鏈接關(guān)系中發(fā)現(xiàn)知識(shí)。由于網(wǎng)頁(yè)文檔之間的互連,Web能夠提供除文檔內(nèi)容之外的鏈接信息可對(duì)頁(yè)面進(jìn)行排序,發(fā)現(xiàn)重要的頁(yè)面??捎糜诰W(wǎng)頁(yè)歸類,并且由此獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。,網(wǎng)頁(yè)鏈接挖掘分析的意
62、義,鏈接是Web網(wǎng)頁(yè)的普遍現(xiàn)象只有通過(guò)與其他的網(wǎng)頁(yè)及其本身內(nèi)容的鏈接,網(wǎng)頁(yè)才能相互交換信息,擴(kuò)大使用價(jià)值。網(wǎng)頁(yè)的不同鏈接體現(xiàn)了不同的信息功能,具有不同的特征和規(guī)律。,網(wǎng)頁(yè)鏈接挖掘分析的意義,分析和評(píng)價(jià)網(wǎng)頁(yè)的質(zhì)量 指導(dǎo)網(wǎng)絡(luò)資源的組織建設(shè) 應(yīng)用于網(wǎng)絡(luò)資源檢索和利用 有利于分析和掌握學(xué)科發(fā)展?fàn)顩r 有利于開發(fā)和應(yīng)用智能超文本鏈接,Web鏈接機(jī)制分析的局限性,Web鏈接分析范圍更廣鏈接載體類型多,包括文本、聲音、圖像、動(dòng)畫等;鏈接
63、的動(dòng)態(tài)性強(qiáng),網(wǎng)頁(yè)變化大、常常處于不斷的變化當(dāng)中。Web有些鏈接是為其它目的而創(chuàng)建的,網(wǎng)絡(luò)信息的結(jié)構(gòu)挖掘的應(yīng)用,指導(dǎo)網(wǎng)頁(yè)采集幫助結(jié)果排序檢索結(jié)果聚類查找相關(guān)網(wǎng)頁(yè)消除重復(fù)網(wǎng)頁(yè)識(shí)別社區(qū)幫助資源自動(dòng)分類確定Web影響因子,基于鏈接挖掘的超文本優(yōu)化,網(wǎng)站內(nèi)鏈接的結(jié)構(gòu)優(yōu)化 網(wǎng)站外鏈接的結(jié)構(gòu)優(yōu)化 超文本鏈接的動(dòng)態(tài)優(yōu)化 超文本鏈接的數(shù)量?jī)?yōu)化,核心網(wǎng)站,核心網(wǎng)站是指某一網(wǎng)站所發(fā)表的有關(guān)專業(yè)信息量在其所發(fā)布的所有信息中占有極大的比例,
64、而且有較高的學(xué)術(shù)及實(shí)用價(jià)值從中可以反映該學(xué)科、專業(yè)主題領(lǐng)域的最高研究水平、最新研究成果和發(fā)展動(dòng)態(tài),而且具有較高的相對(duì)穩(wěn)定性和專業(yè)人士訪問(wèn)率。,確定核心網(wǎng)站,將所有鏈接到樣本網(wǎng)站的網(wǎng)址匯總統(tǒng)計(jì),將這一組數(shù)據(jù)作為測(cè)定核心網(wǎng)站的依據(jù)。將樣本網(wǎng)站之間相互鏈接的次數(shù)作為網(wǎng)站被鏈接的次數(shù)。將其他網(wǎng)站指向樣本網(wǎng)站的數(shù)量作為網(wǎng)站被鏈接的頻次。計(jì)算網(wǎng)站的Web—IF根據(jù)所獲得數(shù)據(jù)從高到低進(jìn)行排序,將出現(xiàn)頻次最高的一組網(wǎng)站確定為核心網(wǎng)站。,網(wǎng)絡(luò)信
65、息的內(nèi)容挖掘,從網(wǎng)上信息的數(shù)據(jù)內(nèi)容或與之相連的信息數(shù)據(jù)庫(kù)的內(nèi)容中發(fā)現(xiàn)有關(guān)的知識(shí)可以分為對(duì)文本文檔挖掘和對(duì)多媒體文檔的挖掘。網(wǎng)絡(luò)信息信息的多樣性決定了內(nèi)容挖掘任務(wù)的多樣性,根據(jù)處理對(duì)象的不同而異。Web內(nèi)容的挖掘是對(duì)Web中包含的文本、圖像、視頻等數(shù)據(jù)元素進(jìn)行挖掘。,文本挖掘,目前網(wǎng)上大多數(shù)的信息表現(xiàn)形式為文本文本挖掘是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的知識(shí)。處理的對(duì)象主要是大量的、無(wú)結(jié)構(gòu)的文本數(shù)據(jù)。目的是從不同格式文本中發(fā)現(xiàn)有用知
66、識(shí)。,文本挖掘的方法,文本的特征表示 文本特征抽取法文本總結(jié)文本分類文本聚類關(guān)聯(lián)分析法,多媒體挖掘,把數(shù)據(jù)挖掘的基本理論和方法與對(duì)多媒體特性的分析結(jié)合起來(lái)利用多媒體的時(shí)間、空間、視覺特性、視聽對(duì)象、運(yùn)動(dòng)特性挖掘出有價(jià)值的隱含的信息線索和知識(shí),網(wǎng)絡(luò)使用記錄的挖掘,從 Web的訪問(wèn)記錄中抽取具有意義的模式。個(gè)性化的使用記錄的追蹤。通過(guò)分析使用記錄來(lái)了解用戶訪問(wèn)模式和傾向,以改進(jìn)站點(diǎn)的組織結(jié)構(gòu);個(gè)性化的使用記錄追蹤分析個(gè)別
67、用戶的偏好,目的是根據(jù)不同用戶的訪問(wèn)模式,為用戶提供定制的服務(wù)。,使用記錄挖掘的作用,為網(wǎng)絡(luò)服務(wù)提供有效的決策依據(jù)增加網(wǎng)絡(luò)的個(gè)性化服務(wù)發(fā)現(xiàn)潛在的用戶 用戶群體分析和聚類改進(jìn)站點(diǎn)的設(shè)計(jì) 發(fā)現(xiàn)網(wǎng)絡(luò)信息傳播交流的規(guī)律,使用記錄挖掘的數(shù)據(jù)源,Web服務(wù)器日志注冊(cè)信息客戶端數(shù)據(jù)曲奇(Cookie)數(shù)據(jù)記錄代理服務(wù)器和包偵測(cè),日志文件的內(nèi)容,202.116.64.1-[27/Sep/2001:10:36:48+0800] “GE
68、T/chinese/info/network/book.htmHTTP/1.1” 200 6266202.116.79.111—〔27/Sep/2001:10:36:55+0800〕“GET/chinese/infosrv/pubinfo/whatisnew/004.htmHTTP/1.0”,使用記錄挖掘的內(nèi)容,統(tǒng)計(jì)分析路徑分析聚類分析關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)序列模式的發(fā)現(xiàn)分類規(guī)則的發(fā)現(xiàn),網(wǎng)絡(luò)信息挖掘應(yīng)用方面,科學(xué)研究市場(chǎng)營(yíng)銷金
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論