2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息檢索,信息檢索研究室 秦兵qinb@ir.hit.edu.cn2007,我們所使用的Web搜索系統(tǒng),,,,我們將學(xué)到什么內(nèi)容?,基本內(nèi)容信息檢索概述及評價信息檢索模型檢索的改進信息過濾Web信息檢索高級話題文本分類和聚類問答系統(tǒng)及自動文摘,參考書,Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addi

2、son-Wesley. 1999.W. B. Frakes and R. Baeza-Yates, Information Retrieval: Data Structures & Algorithms, Englewood Cliffs, NJ: Prentice Hall. 1992.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze,

3、 Introduction to Information Retrieval, Cambridge University Press. 2007. 李曉明,閆宏飛等。搜索引擎原理,技術(shù)與系統(tǒng),信息檢索的概述,,在這一部分我們將了解到:,信息檢索概念及意義信息檢索體系結(jié)構(gòu)歷史、現(xiàn)狀與困難發(fā)展趨勢國內(nèi)外主要搜索引擎信息檢索的應(yīng)用,信息檢索的概念及意義,信息檢索定義,信息檢索:從非結(jié)構(gòu)化的文檔集中找出與用戶需求相關(guān)的信息和其它相

4、關(guān)技術(shù)的區(qū)別和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù), IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。 和情報檢索的區(qū)別情報檢索介紹如何利用信息檢索工具,典型的信息檢索任務(wù),給定條件自然語言的文檔集合用戶的提問(Query)查找結(jié)果和query相關(guān)的經(jīng)過排序(Rank)的文檔子集,信息檢索任務(wù)進一步劃分為:,信息或數(shù)據(jù)的檢索和瀏覽拉出(pulling)行為集合中的文獻相對靜止信息過濾信息過濾的

5、變通方式-路由選擇推送(filtering)行為用戶查詢相對靜止,用戶需求:Query 及 Profile 形式,關(guān)鍵詞帶布爾操作的關(guān)鍵詞自由文本事例文檔...,信息檢索樣例,信息過濾(推送)樣例,信息檢索系統(tǒng),IRSystem,信息檢索處理的對象,非結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù):新聞、科技論文等網(wǎng)頁:HTML、XML多媒體數(shù)據(jù):圖像、視頻、圖形、音頻目前最主要的處理對象是互聯(lián)網(wǎng)文字圖片,基于內(nèi)容的圖像查詢,,,用戶的提

6、問,,搜索引擎,基于文本的圖像查詢,,信息存在的形式,在非結(jié)構(gòu)化信息中,包括文本信息和多媒體信息以文本檢索方式為主,例如:目前Google的圖片檢索技術(shù)采用的是利用圖片周圍的文字信息進行的大多數(shù)信息都是文本形式的,沒有預(yù)先定義的格式(例如:郵件、新聞等)在企業(yè)信息化領(lǐng)域,有人統(tǒng)計認(rèn)為80%的信息是非結(jié)構(gòu)化的在信息管理向知識管理轉(zhuǎn)變的過程中,文本信息非常關(guān)鍵,信息檢索的重要性,由信息匱乏到信息爆炸,需要有效的檢索方式傳統(tǒng)管理軟

7、件需要嵌入IR技術(shù)在SQL數(shù)據(jù)庫中已采用文本檢索技術(shù)select * from Employee where Name like ’%Lee%’.在Lotus Notes辦公平臺上同樣也已采用文本檢索技術(shù)互聯(lián)網(wǎng)數(shù)據(jù)的增長和在線文檔(如聯(lián)機用戶手冊等)的增長,向IR技術(shù)提出迫切需求,檢索無處不在,智能計算:從人機交互到內(nèi)容管理,人機交互解決信息錄入和呈現(xiàn)的問題在大量信息進入虛擬世界以后,更重要的問題在于如何對這些信息資源進行

8、有效的管理使用戶能夠方便快捷地找到想要的信息使信息保值增值產(chǎn)生新知競爭不在于擁有多少信息,而在于能夠利用多少有價值的信息,因此內(nèi)容管理至關(guān)重要,信息檢索系統(tǒng)體系結(jié)構(gòu),,信息檢索系統(tǒng)的體系結(jié)構(gòu),分詞刪除停用詞Stemming(提取詞干),為文檔建立倒排索引表,根據(jù)倒排索引表檢索出與提問相關(guān)的文檔,將檢索出的文檔根據(jù)相關(guān)性排序,Query輸入和文檔輸出相關(guān)反饋結(jié)果的可視化,對query進行變換,以改進檢索結(jié)果,Web搜索,將

9、IR技術(shù)應(yīng)用于World Wide Web上的HTML網(wǎng)頁和純文本相比,網(wǎng)頁的特點如下:必須通過在網(wǎng)上“爬行”搜集網(wǎng)頁可以開發(fā)結(jié)構(gòu)布局信息文檔的更新是不可控的可以開發(fā)網(wǎng)頁之間的鏈接結(jié)構(gòu),Web搜索系統(tǒng),IR系統(tǒng),,IR的歷史與現(xiàn)狀,,IR的歷史,1960-70’s:最初的信息檢索系統(tǒng)面向小型的科學(xué)文摘數(shù)據(jù)庫、法律和商業(yè)文檔檢索模型為基本的布爾模型和向量空間模型Cornell University的Prof. Salton

10、和他的學(xué)生成為這個領(lǐng)域的先驅(qū),IR歷史,1980’s:IR技術(shù)出現(xiàn)在大型文檔數(shù)據(jù)庫中Lexis-Nexis美國LEXIS-NEXIS公司創(chuàng)始于1973年,其數(shù)據(jù)庫內(nèi)容很廣,其中法規(guī)法律方面的數(shù)據(jù)庫是LEXIS-NEXIS的特色信息源,具有非常大的影響力,尤其在法律業(yè)界具有很高知名度Dialog目前世界上最大的聯(lián)機檢索檢索系統(tǒng)之一,包括各學(xué)科數(shù)據(jù)庫600多種,可查詢研究動態(tài),SCI,EI收錄以及專利等情況MEDLINEMED

11、LINE是美國國家醫(yī)學(xué)圖書館的文獻數(shù)據(jù)庫,IR歷史,1990’s:在互聯(lián)網(wǎng)上進行對FTP文檔進行搜索ArchieArchie是Internet上用來查找其標(biāo)題滿足特定條件的所有文檔的自動搜索服務(wù)的工具。 WAIS代表“廣域信息服務(wù)”(Wide Area Information Service)。Wais作為Internet一項服務(wù), 是唯一由三個商業(yè)公司(Apple、Thinking Machines和Dow Jones )啟

12、動的研究計劃促成的服務(wù)。,IR歷史,1990’s (續(xù)) :在World Wide Web上進行搜索Yahoo雅虎成立于1994年,是網(wǎng)上最老的“分類目錄”,也是目前最重要的搜索服務(wù)網(wǎng)站,在全部互聯(lián)網(wǎng)搜索應(yīng)用中所占份額高達36%左右。 AltavistaAltaVista是網(wǎng)上最早的爬行搜索引擎。AltaVista搜索技術(shù)從純文本搜索技術(shù)開始,發(fā)布于1995年;1997年,其搜索能力擴展到25種語言搜索;1999年開始多媒體文

13、件的搜索;2001年首次推出網(wǎng)上免費新聞搜索,2003年AltaVista被Overture收購。,IR 歷史,1990’s (續(xù)):有組織地進行評測美國標(biāo)準(zhǔn)與技術(shù)研究所NIST和國防部高級研究規(guī)劃局DARPA共同發(fā)起TREC,1992年開始智能推薦系統(tǒng)(個性化推薦,良好的互動性,適應(yīng)性)RingoAmazon(亞馬遜網(wǎng)絡(luò)售書)NetPerceptions自動文本分類和聚類系統(tǒng),IR 歷史,2000’s為Web搜索服務(wù)的

14、鏈接分析Google自動信息抽取WhizbangFetchBurning Glass問答系統(tǒng)TREC Q/A track,近期的IR,2000’s :多媒體IR圖像(Image)視頻(Video)聲音(speech)和音頻(Audio)音樂(music)跨語言檢索Cross-Language IRDARPA Tides項目智能化、個性化IR,互聯(lián)網(wǎng)發(fā)展?fàn)顩r,中國互聯(lián)網(wǎng)信息中心(CNNIC)于2005年7月發(fā)

15、布的第16次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計》國內(nèi)上網(wǎng)用戶已達1.03億用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)/功能:電子郵箱(91.3%)瀏覽新聞(79.4%)搜索引擎(64.5%)搜索引擎是用戶在互聯(lián)網(wǎng)上獲取信息的最常用的方法(58.2%),IR的困難,,難點所在,分析技術(shù)亟待更新,否則很難有質(zhì)的突破很難獲取非結(jié)構(gòu)化文本的語義信息“select * from Employee where Salary > 100,000”“找出所

16、有關(guān)于公司購并的新聞”“找出所有和互聯(lián)網(wǎng)公司購并相關(guān)的新聞”上述三個問題,一個比一個難資源檢索是在非受限域(unrestricted domains)文檔集上進行的很難對文檔的類別事先定義或分類,難點所在(續(xù)),用戶不同的用戶基礎(chǔ)提問的意圖、文檔的意圖均很難捕獲不斷有新的需求提出(搜索引擎的第2維,第3維)用戶的耐心不足系統(tǒng)網(wǎng)頁是分布式的和相互連接的從什么地方開始搜索?信息是如何相互關(guān)聯(lián)的?效率(effici

17、ency)和效果(effectiveness)在有限的資源內(nèi),只能把效率和效果提高到有限的水平提高效率常常損失效果,反之亦然,新的資源和需求刺激新的技術(shù)突破,新的信息資源 Document -> page, blog, Web image, …新的媒體類型Text -> image, video, speech, music, map, …新的架構(gòu)Plain text file -> hypertext

18、, P2P, semantic Web, …新的應(yīng)用Crawler, email spam filter, MP3 search, mobile search, … 主要的沖擊已不再來自于IR技術(shù)的突破,Web 搜索的事實是怎樣的?,短的query 英文: 2.35 words (Altavista, 1998)中文: 3.55 chars (1999)偏精確率的檢索用戶常常瀏覽第一頁的結(jié)果,每個查詢的詞數(shù):,Refere

19、nceAmanda Spink & Bernard J. Jansen (2004). Web Search: Public Searching of the Web. Springer.,每個用戶的查詢次數(shù):,,每個用戶查詢的網(wǎng)頁:,可以看到:,Query,Document,,,Similarity,,,A huge number of pages with matched query termson the Web

20、,Query = “information retrieval”,經(jīng)過文本相似度計算獲得的排序?qū)τ诙蘍uery有些力不從心,導(dǎo)致檢索結(jié)果不盡人意,短 Query & 檢索,Query,Document,QuerySpace,DocSpace,,,Similarity,,,Query = “information retrieval”,用戶需求 & 文檔的權(quán)威性,Query,Document,QuerySpace,

21、DocSpace,,,Similarity,,,Concept:“IR book ““IR systems”, “SIGIR Web sites”,Authority:,Query = “information retrieval”,Representative IR book,傳統(tǒng) IR的通常包含這樣的假定,Query 較長 TREC對主題(查詢)描述平均15個詞評價考慮精確率和召回率對前1000個返回結(jié)果計算平均精確

22、率和召回率,多數(shù)檢索系統(tǒng)是基于關(guān)鍵詞的搜索,最簡單的概念就是關(guān)鍵詞在文檔中逐字出現(xiàn)稍微嚴(yán)格一點的定義是:提問中的關(guān)鍵詞在文檔中頻繁出現(xiàn),并且不考慮順序,基于關(guān)鍵詞搜索存在的問題,可能找不到同義詞“PRC” vs. “China”“電腦”vs. “計算機”可能檢索到一些不相關(guān)的多義詞“bat” (baseball vs. mammal)“Apple” (company vs. fruit)保安(地名 vs. 保護安全的人員)

23、,解決方案:智能信息檢索,考慮詞匯的意義(meaning)考慮詞匯的順序(order)根據(jù)直接或間接的反饋適應(yīng)用戶的需求考慮信息來源的權(quán)威性(authority),用戶體驗:檢索結(jié)果的呈現(xiàn),檢索結(jié)果的表現(xiàn)Web 檢索結(jié)果是很長的列表,用戶很難在概念層瀏覽結(jié)果檢索結(jié)果分門別類信息進一步優(yōu)化,,,,DEF,,,Books,,,Tools,新課題——檢索結(jié)果聚類,,檢索結(jié)果聚類,,檢索結(jié)果聚類,,從呈現(xiàn)形式到內(nèi)容的變化——聚類文檔

24、的內(nèi)容整合,信息抽取美國科學(xué)家目前正在研究一種新型“搜索引擎”—搜得,表示它能像拖網(wǎng)一樣“撈到”所需資料網(wǎng)頁,然后以目錄表格形式將其進行整理信息融合單文檔文摘多文檔文摘,發(fā)展趨勢,,發(fā)展歷程,以雅虎初期為代表的第一代搜索引擎以人工目錄分類為基礎(chǔ)的網(wǎng)站搜索開辟了一個時代第一代搜索引擎指主要依靠人工分揀的分類目錄搜索,這種方式是被動的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已經(jīng)退出搜索舞臺。,發(fā)展歷程,以Google為代表

25、的第二代搜索引擎以超鏈分析技術(shù)為基礎(chǔ)的大規(guī)模網(wǎng)頁搜索,根據(jù)關(guān)鍵詞的分布情況對頁面進行分類和排序優(yōu)點:只要網(wǎng)頁上出現(xiàn)了某個關(guān)鍵詞,就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁查出來不足:返回的無用信息太多原因:僅采用機械的關(guān)鍵詞匹配來實現(xiàn),信息檢索的目標(biāo),全:互聯(lián)網(wǎng)數(shù)據(jù)搜索的范圍更廣泛準(zhǔn):數(shù)據(jù)定位更準(zhǔn)確快:用戶應(yīng)用更簡潔便利,個性化,智能化,信息檢索,信息檢索,,數(shù)據(jù)庫,,并行處理,,,,網(wǎng)絡(luò),信息安全,數(shù)據(jù)挖掘,自然語言處理,

26、知識管理,,,,,操作系統(tǒng),,圖像、視頻、語音,下一代搜索引擎,由相關(guān)性檢索向智能化檢索過渡海量信息的存儲,解析,索引應(yīng)用新的搜索工具,搜索任意關(guān)聯(lián)因素根據(jù)關(guān)鍵詞所在的網(wǎng)塊位置,自動調(diào)整網(wǎng)頁的重要性與呈現(xiàn)的優(yōu)先級優(yōu)化查詢結(jié)果由互聯(lián)網(wǎng)搜索向互聯(lián)網(wǎng)挖掘過渡數(shù)據(jù)挖掘,智能搜索引擎,以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,能夠?qū)崿F(xiàn)分詞技術(shù)、同

27、義詞技術(shù)、概念搜索、短語識別以及機器翻譯技術(shù)等 允許用戶采用自然語言進行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。一般包括人工智能、模式識別、語義分析、神經(jīng)網(wǎng)絡(luò)等智能搜索,新的 IR 主題,搜索行業(yè)的主題 Web搜索,移動搜索,垃圾郵件過濾,垂直搜索,元搜索,…其他行業(yè)的主題 多媒體檢索(Multimedia) 文本挖掘 (Data Mining, NLP applications)數(shù)字圖書館Digital Libr

28、arySIGIR(情報檢索專業(yè))主題基于語言模型的信息檢索,問答系統(tǒng),跨語言信息檢索,話題檢測與跟蹤,檢索結(jié)果聚類, …,元搜索引擎-信息中介,元搜索引擎(Meta-search engine)是在前述搜索引擎基礎(chǔ)上建立的可以同時查詢多個搜索引擎的WWW站點,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎元搜索就是本身并不存儲網(wǎng)頁數(shù)據(jù),只是提供一個接口,針對用戶的搜索關(guān)鍵字在其他搜索引擎中獲取結(jié)果,再對結(jié)果進行

29、加工處理最后將結(jié)果顯示給用戶.按照搜索機制劃分,元搜索引擎包括并行式和串行式兩類元搜索引擎依賴其他獨立搜索引擎而存在,可以收到事半功倍的效果,但是會惹上官司?,垂直搜索,垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖

30、搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進一步細化成各類的垂直搜索引擎。,垂直搜索,Google宗旨是盡快讓用戶離開google,垂直搜索應(yīng)該是粘住用戶方式的變化,檢索方法沒有質(zhì)的變化垂直搜索實例奇虎酷訊(KOOXOO),,,國內(nèi)外主要搜索引擎,,中國搜索引擎市場,關(guān)于搜索引擎的新聞,2003年底以前,中國搜索引擎市場的格局是:雅虎和Google都提供中文搜索服務(wù),但沒有正式進入中國。中國本土的搜索引擎服務(wù)商主

31、要是百度、3721、中國搜索(慧聰搜索)。然而,這一切在2004年發(fā)生了徹底的變化。2003年11月21日,雅虎中國收購3721公司。3721的搜索服務(wù)成為了YHAOO中國的重要組成,YHAOO正式進軍中國搜索引擎服務(wù)市場。2004年6月15日,Google與其他七家共同投資者一起,收購了有全球最大中文搜索引擎之稱的百度的部分股份。Google在上市前終于有了中國搜索的概念。 2004年6月21日,雅虎中國除了堅固其門戶搜索、37

32、21之外,推出了專門的中文搜索門戶網(wǎng)站“一搜(www.yisou.com)”。2004年7月1日,微軟公司董事長比爾·蓋茨在北京含蓄地表示,要加強MSN搜索開拓中國市場的力度。,關(guān)于搜索引擎的新聞,2005年12月,Google閃電雇傭李開復(fù),正式進軍中國。2006年3月,Yahoo!頻繁變臉。目前,越來越多的專業(yè)搜索引擎。7月19日,雅虎中國、雅虎全球、阿里巴巴三方聯(lián)合推出一個具有智能模糊匹配功能的搜索引擎雅虎Ima

33、tch,貼近用戶的實際需求。 由此可見,搜索市場一直是令人垂涎三尺高速成長的市場,新技術(shù)和新概念的出現(xiàn)可以隨時讓搜索市場發(fā)生巨大改變。正因此,百度的李彥宏常警醒員工:“百度離破產(chǎn)只有30天?!?……更多的精彩新聞等待我們發(fā)現(xiàn)和創(chuàng)造!,搜索引擎成功樣例:全球最大搜索引擎——Google,據(jù)預(yù)計,全球搜索市場3到5年后將達70億美元以上,Google在各種搜索引擎中排名第一。Google網(wǎng)址:www.google.com技術(shù)創(chuàng)業(yè)

34、六年成長史創(chuàng)始人是兩位斯坦福大學(xué)學(xué)生,而立之年即成為百億富翁每個月有數(shù)億人使用走向壟斷?參股百度左右網(wǎng)民的價值取向受商業(yè)利益驅(qū)使,未來很難保證客觀公正性,競價排名,Google,其它主要英文搜索引擎,AOL search.aol.comAltaVista www.altavista.comAskJeeves www.askjeeves.comMSN Search search.msn.comL

35、ookSmart www.looksmart.comYahoo www.yahoo.com,中文搜索引擎,百度百度網(wǎng)址:www.baidu.com北大計算機系學(xué)生創(chuàng)辦百度的“知道”北京大學(xué)李曉明教授繼續(xù)研究“天網(wǎng)”,沒有商業(yè)化天網(wǎng) pccms.pku.edu.cn 中搜http://www.chinasearch.com.cn/全名“中國搜索”,原名“慧聰”搜狗http://www.sogou.co

36、m新浪:愛問,搜索引擎的現(xiàn)狀,隨著百度上市和Google正式進入中國,國內(nèi)搜索引擎市場競爭格局將發(fā)生變化。2005年各大搜索引擎廠商營收穩(wěn)步上升,而各主流廠商的用戶市場占有率分別為百度37%,Google23%,Yahoo(及3721)21%,對比各搜索引擎結(jié)果: 輸入“和服”,Google的檢索結(jié)果排在前30位的網(wǎng)頁絕大多數(shù)為日本的“和服”,說明Google進行了有效的分詞百度基本正確搜狗基本正確,部分錯誤結(jié)果,[1]

37、重慶“偵探”商標(biāo)注冊成功 邦德公司獲工商認(rèn)可...冊范圍,將原42類商品和服務(wù)商標(biāo)注冊擴大...[2]新潮實業(yè):“亞麻”龍頭 箭在弦上由于所有紡織品和服裝配額都將于今年底以前完全取消,近期4元左右的低價紡織股表,分詞效果不佳!,IR相關(guān)領(lǐng)域,,相關(guān)領(lǐng)域-借鑒和融合,數(shù)據(jù)庫管理圖書和情報科學(xué)人工智能自然語言處理機器學(xué)習(xí),數(shù)據(jù)庫管理,專注于研究結(jié)構(gòu)化數(shù)據(jù),比如關(guān)系表,而不是自由文本專注于處理定義好了的查詢式,如SQL查詢式

38、和數(shù)據(jù)的語義都非常清晰近來有向半結(jié)構(gòu)化數(shù)據(jù)(XML)發(fā)展的趨勢,和IR越來越接近,圖書館和情報科學(xué),研究信息檢索中和人類使用者相關(guān)的內(nèi)容 (人機交互、可視化)關(guān)心對人類知識的有效分類關(guān)心引用(citation)分析和文獻計量學(xué)(bibliometrics)信息的結(jié)構(gòu)化最近的數(shù)字圖書館研究使它和IR距離更近,人工智能,研究知識表示、推理和智能行為知識和查詢式的形式化:一階謂詞邏輯貝葉斯網(wǎng)絡(luò)最近在Web本體論(Ontolog

39、y)和智能信息代理(Intelligent Information Agents)的研究,使它與IR更接近,從數(shù)據(jù)到知識,數(shù)據(jù)(Data)未經(jīng)組織的數(shù)字、詞語、聲音、圖像等信息(Information)以有意義的形式加以排列和處理的數(shù)據(jù)知識(Knowledge)用于生產(chǎn)的信息(有意義的信息)信息經(jīng)過加工處理、應(yīng)用于生產(chǎn),才能轉(zhuǎn)變成知識智慧(Wisdom)應(yīng)用知識的能力,創(chuàng)新能力,自然語言處理,研究自然語言文本的句法、語義

40、和語用使檢索能夠在意義層面而不是僅僅在關(guān)鍵詞層面進行,自然語言處理:IR的方向,根據(jù)上下文決定 歧義詞的意義:詞義消歧(word sense disambiguation).識別文本中特殊的信息片斷 (information extraction).從文本中回答特殊的用自然語言提出的問題,詞義消歧,機器學(xué)習(xí),研究能夠通過經(jīng)驗改進自身性能的計算系統(tǒng)有指導(dǎo)的學(xué)習(xí)(supervised learning)通過從人工標(biāo)注好的訓(xùn)練樣例中

41、學(xué)習(xí)概念來實現(xiàn)對樣本的自動分類無指導(dǎo)的學(xué)習(xí)(unsupervised learning)事先不經(jīng)過的人工標(biāo)注,將樣本自動聚為有意義的組,機器學(xué)習(xí):IR的方向,文本分類自動層次聚類(Yahoo)自適應(yīng)/推送/推薦垃圾郵件過濾文本聚類檢索結(jié)果的自動聚類自動形成層次體系信息抽取文本挖掘,信息檢索的應(yīng)用,,數(shù)字圖書館,自動分類根據(jù)國圖分類法,對文本進行自動分類自動標(biāo)引自動給出文本的主題詞,包括抽詞標(biāo)引和賦詞標(biāo)引兩種自

42、動文摘根據(jù)不同比例以及用戶的不同需求自動編寫文摘定題服務(wù)面向確定主題的情報服務(wù)個性化新聞根據(jù)用戶的興趣偏好,為用戶定制新聞,內(nèi)容安全,垃圾郵件過濾包括廣告、黃色和反動郵件的過濾和分析垃圾短信過濾,企業(yè)商業(yè)秘密防泄露監(jiān)測從企業(yè)內(nèi)部發(fā)出的郵件,封殺包含企業(yè)機密的郵件聊天室和BBS監(jiān)控過濾黃色話題或反動言論垃圾短信過濾,商務(wù)智能,自助呼叫中心以自動問答的方式,從企業(yè)提供的大量技術(shù)支持資料中自動獲取答案,滿足用戶的需求

43、減少呼叫中心的人力服務(wù)費用用戶投訴信的自動分類和匯總系統(tǒng)將用戶的投訴信自動分發(fā)給企業(yè)的不同部門去處理自動發(fā)現(xiàn)投訴信中的焦點問題,協(xié)助企業(yè)決策競爭情報定制關(guān)于互聯(lián)網(wǎng)上關(guān)于競爭對手的各種情報并匯總,電子政務(wù),首長辦公系統(tǒng)自動匯總來自各下屬部門的文件,并提取重要內(nèi)容提供給領(lǐng)導(dǎo)閱讀政務(wù)自動咨詢系統(tǒng)市民通過互聯(lián)網(wǎng),以問答的方式咨詢政府的政策和辦事流程等投訴自動匯總分析系統(tǒng)將市民的投訴自動分類匯總,以資政府決策行政簡報自動編

44、寫系統(tǒng)定期自動編寫簡報,在政府部門內(nèi)交流,遠程教育,自動答疑系統(tǒng)用戶遠程提問,系統(tǒng)根據(jù)用戶的問題收集教材中的相關(guān)內(nèi)容,匯總后提供給用戶,學(xué)生情況調(diào)查分析根據(jù)學(xué)生的提問情況,自動分析學(xué)生的主要問題所在,以便對癥下藥地改進教學(xué)內(nèi)容,移動計算,短信定制服務(wù)包括新聞、股市資訊等,,短信匯總服務(wù)電視臺或廣播電臺常常提供在線的短信參與活動,大量短信發(fā)送到電視臺需要及時地分類匯總,以便主持人作出反應(yīng),比如概括出大多數(shù)用戶最關(guān)心的問題等。,軍

45、事情報,國外軍事情報的跟蹤匯總重點針對國外互聯(lián)網(wǎng)進行過濾跟蹤,對重要資料進行分析匯總,輔助軍事決策,,國內(nèi)軍事情報的反泄露發(fā)現(xiàn)和攔截泄露軍事情報的郵件隱藏于普通文本中的軍事情報的過濾技術(shù)文本水印,主要研究機構(gòu),國外CMU:http://www.cs.cmu.edu/~callan/IRGroup/Stanford:http://nlp.stanford.edu/UMass: http://ciir.cs.umass.edu

46、/國內(nèi)哈工大:http://ir.hit.edu.cn清華復(fù)旦:http://www.cs.fudan.edu.cn/mcwil/irnlp/,會議,ACM SIGIR Annual International Conference on Research and Development in Information Retrieval (1978-)ACM Conference on Information Knowledg

47、e Management (CIKM)Text Retrieval Conference (TREC)全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,期刊,ACM Transactions on Information SystemsInformation Processing and ManagementJournal of the American Society for Information ScienceJournal of Doc

48、umentationInformation SystemsInformation RetrievalKnowledge and Information Systems,參考書,Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley. 1999.W. B. Frakes and R. Baeza-Yate

49、s, Information Retrieval: Data Structures & Algorithms, Englewood Cliffs, NJ: Prentice Hall. 1992.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridg

50、e University Press. 2007. 李曉明,閆宏飛等。搜索引擎原理,技術(shù)與系統(tǒng),本章小結(jié),介紹了信息檢索的定義以及與相關(guān)領(lǐng)域的區(qū)別與聯(lián)系介紹了信息檢索的體系結(jié)構(gòu)介紹了信息檢索的難點與發(fā)展趨勢,實驗室主頁:http://ir.hit.edu.cn,哈工大信息檢索研究室,研究室主頁和論壇,2007年1月1日,發(fā)布“信息檢索開放實驗室”網(wǎng)站,論壇注冊用戶超過5700人!,語言技術(shù)平臺,目前已有國內(nèi)外80余家學(xué)術(shù)機構(gòu)和我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論