版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、三大中文數(shù)據(jù)庫與搜索引擎使用介紹,姚中平 副教授 zpyao@shmtu.edu.cn,提要,常用的信息檢索技術三大中文數(shù)據(jù)庫使用介紹搜索引擎使用介紹檢索的體會,一、常用的信息檢索技術,布爾邏輯算符位置算符通配符限定字段限制檢索檢索式編寫與調(diào)整,(一)、布爾邏輯算符 簡單概念用單概念詞表達,復雜概念用簡單概念進行組配表達。 1. 邏輯“或”(OR;+
2、)算符 用于并列概念的組配。,,B,,,,,,,,,,,,,,,,,,,,,,,A,運 載 工 具(28條記錄),海 上 運 輸(20條記錄),A + B = 運載工具+海上運輸 = 40 條記錄,*計算機通過“或”運算將運載工具文獻和海上運輸文獻共40條記錄輸出。邏輯“或”可擴大檢索范圍,提高查全率。,2. 邏輯“與”(AND;*)算符,用于交叉概念或限定關系的組配。,A,B,,,,,C,,,,,,,,保 險 理
3、 賠(288條記錄),海 上 貨 運(108條記錄),海運貨物保險理賠(38條記錄),,A*B=C=保險理賠*海上貨運=海運貨物保險理賠(38條記錄),*計算機通過“或”運算將A、B兩概念中共有的海運貨物保險理賠復雜概念共38條記錄輸出。 邏輯“與”可縮小檢索范圍,提高查準率。,3. 邏輯“非”(NOT;-)算符,用于從原來檢索范圍中排除不需要概念的組配。,,,,,,,,,,,,,,A,B,,,,,,,A*B=C,
4、,C,船 舶 市 場(98條記錄),VLCC 船 舶(36條記錄),“A”,,,除VLCC船舶市場外其他船舶市場(80條記錄),A-B=“A”=除VLCC船舶市場外其他船舶市場(80條記錄),*計算機通過“非”運算將除VLCC船舶外的其他船舶市場80條記錄輸出。 邏輯“非”可縮小檢索范圍,提高查準率,但運算要慎重,否則會把有用的文獻排除,造成漏檢。,注意:,邏輯算符的優(yōu)先順序是:先NOT,后AND,最后OR,使用括號“(
5、 )”可改變順序,即先括號內(nèi),后括號外。,檢索式,查新課題:港口鐵路集疏運系統(tǒng)規(guī)劃及優(yōu)化方法研究 ((港口+碼頭+口岸+港區(qū))*(鐵路+鐵道))*集疏運 (((港前+港區(qū)+港口+碼頭+口岸)*(鐵路+鐵道))*(優(yōu)化+協(xié)調(diào)+規(guī)劃))*(DEA+數(shù)據(jù)包絡技術),,,,,,,(二)位置算符 用來規(guī)定檢索詞相互間的鄰里關系
6、,包括在記錄中出現(xiàn)的順序和相對位置。,1.:(W):“With” 的縮寫。此符左右連接兩個檢索詞且詞序不能顛倒,其間不得插入任何詞,但可有空格或標點。例如:Radar(W)Plotting 可檢索出含有 Radar plotting 一詞組的文獻。,2.:(nW): “n With” 的縮寫。含義同上,但詞間可插入n(n=1,2,...正整數(shù))個詞。,3.:(N)和(nN): 含義同上兩個算符,但兩檢索詞的詞序可以顛倒。,(
7、三)截詞符“ ?”,“屏蔽”或“截去”檢索詞中某些字符,利用檢索詞詞干或不完整詞形進行檢索。,1.非限制型截詞:在檢索詞后加一個“ ?”可查同詞干的所有派生詞。例如:檢索Ship?,可檢索到 Ship、Shipping、Shipment、Shipper 等詞。,2.限制性截詞:a.詞干后跟兩個“ ? ?”期間夾一空格,表示同詞干后最多加一個字符。b.詞干后跟幾個連續(xù)的“??… ”表示同詞干后可增加等于問號個數(shù)的字符數(shù)。如:檢索
8、“Ship????”可得Shipping、Shipment。c.用問號“ ?”代替檢索詞中可以變化的字母。如:檢索 computeri?ation 可得 computerization、computerisation兩詞。,檢索式,查新課題: Planning and Optimizing Railway System of Collecting and Dispatching in Port(港口鐵路集疏運系統(tǒng)規(guī)劃及優(yōu)化方法研究
9、) ((port?? or terminal?? or whar??? or pier?? or dock?? or harbor?? or jetty or seaport) and rail????)/ti and (Collect???? Or gather????)(3n)distribut????(port?? or terminal?? or whar??? or pier?? or dock?? or harbor??
10、 or jetty or seaport) and rail???? and (plan? ? or planning?? Or program????? or Optimiz????? Optimal??? or optimum or Coordinat???? Or Co()ordinat????) and (DEA or Data()Envelopment()Analysis)/ti,主題概念間的正確組配主題概念之間的邏輯組配
11、邏輯與 AND *邏輯或 OR +邏輯非 NOT -,,總結:布爾算符,,運算順序依次為:NOT>AND>OR(非>與>或)可靈活運用括號“()”改變優(yōu)先級,括號內(nèi)的邏輯式優(yōu)先執(zhí)行,二、三大中文數(shù)據(jù)庫使用介紹,中國知網(wǎng)—CNKI維普資訊— VIP:中文科技期刊全文數(shù)據(jù)庫萬方數(shù)字資源,三大中文期刊全文數(shù)據(jù)庫的比較,1.中
12、國知網(wǎng)—CNKI,中國知識基礎設施工程,簡稱CNKI工程,是以實現(xiàn)全社會知識信息資源共享為目標的國家信息化重點工程,被國家科技部等五部委確定為“國家級重點新產(chǎn)品重中之重”項目。主辦單位:清華大學行政主管部門:國家教育部行業(yè)主管部門:國家新聞出版總署利用互聯(lián)網(wǎng)發(fā)行與信息服務的門戶網(wǎng)站--“中國知網(wǎng)(WWW.CNKI.NET)”,向全球提供全面的信息服務與技術服務。,,,,資源整合,,信息推送,,,,,,,,,,,,,細致專業(yè)的學科
13、分類,,整合了多種類型的資源,,可以進行跨庫統(tǒng)一檢索,,一站式將各種文獻資源查找出來,全面系統(tǒng)的調(diào)研,提高檢索效率。,,按學科類別分組可以查看檢索結果所屬的更細的學科專業(yè),進一步進行篩選,找到所關注的文獻。,,,多種分組方式,,按中文關鍵詞分組展示了知識系統(tǒng),幫助學習者獲得領域的全局知識結構;關鍵詞將文獻/知識進行聚類,把知識組織成簇,揭示了知識的背景,方便學習和研究;關鍵詞分組比學科導航更細,更深入,更具有時效性,使得文獻選擇更精細,
14、更準確。,,,用戶通過研究層次分組可以查到相關的國家政策研究,工程技術應用成果,行業(yè)技術指導等,實現(xiàn)對整個學科領域全局的了解。,,,按文獻作者分組可以幫助研究者找到學術專家,學術榜樣;幫助研究人員跟蹤自己已知學者的發(fā)文情況,發(fā)現(xiàn)未知的有潛力學者。,,,按作者單位分組幫助學者找有價值的研究單位,全面了解研究成果在全國的全局分布,跟蹤重要研究機構的成果,也是選擇文獻的重要手段。,,,按文獻出版來源分組可以幫助科研人員查到好的刊物,因為好文獻
15、大部分都發(fā)表在好刊上;可以從總體上判斷這一領域期刊的質(zhì)量,對學者投稿也是很有幫助的。,,,通過按“研究獲得資助”分組,可以了解國家對這一領域的科研投入如何;研究人員可以對口申請課題;國家科研管理人員也可以對某個基金支持科研的效果進行定量分析、評價和跟蹤。,,,按文獻發(fā)文年度分組,幫助學者了解某一主題每一年度發(fā)文的多少,掌握該主題研究成果隨時間變化趨勢,進一步分析出所查課題的未來研究熱度走向。,,,按來源數(shù)據(jù)庫分組可以獲取不同類型的文獻。
16、因為數(shù)字出版平臺通過自動翻譯實現(xiàn)了跨語言檢索,所以這也是獲取英文文獻的有效途徑。,,,相關度反映了結果文獻與用戶輸入的檢索詞相關的程度,越相關越排前,通過相關度排序可找到文獻內(nèi)容與用戶檢索詞最相關的文獻,,,多種排序方式,,,根據(jù)文獻發(fā)表的時間先后排序??梢詭椭鷮W者評價文獻的新舊,找到最新文獻,找到庫中最早出版的文獻,實現(xiàn)學術跟蹤,進行文獻的系統(tǒng)調(diào)研。,,,,,,,知網(wǎng)節(jié)作用,1 一本系統(tǒng)的專題教科書,2 一個強大的檢索平臺,,,,發(fā)展
17、歷史,研究背景,目前進展,研究現(xiàn)狀,發(fā)展方向,后繼研究,,,,,,,一本系統(tǒng)的專題教科書,,,,一個強大的檢索平臺,脈,專業(yè)圖書館設計理念,CNKI收錄的所有文獻,均按《中國圖書分類法》分成3000多個專業(yè)數(shù)字圖書館。 讀者選擇進入某學科專業(yè)領域的數(shù)字圖書館:既可縱覽本學科全部文獻內(nèi)容,又可涉獵本學科相關領域。 各館一目了然地詳細揭示本學科及其邊緣和交叉學科的重要研究成果、進展與動態(tài),并可使您了解、掌握重要項目和相關研
18、究人員與機構的研究歷史和最新動向。,,,,,,,,,,,,,,,,2.維普資訊— VIP:中文科技期刊全文數(shù)據(jù)庫,重慶維普資訊有限公司是科學技術部西南信息中心下屬的一家大型的專業(yè)化數(shù)據(jù)公司,是中文期刊數(shù)據(jù)庫建設事業(yè)的奠基人,主要致力于對海量的報刊數(shù)據(jù)進行科學嚴謹?shù)难芯?、分析、采集、加工等深層次開發(fā)和推廣應用。1989年,維普資訊開發(fā)建設了我國第一個期刊數(shù)據(jù)庫——《中文科技期刊數(shù)據(jù)庫》。今天,《中文科技期刊數(shù)據(jù)庫》收錄期刊12000余
19、種,文獻總量超過1700萬篇,廣泛被我國高等院校、公共圖書館、科研機構所采用,成為文獻保障系統(tǒng)的重要組成部分,科技工作者進行科技查新和科技查證的必備數(shù)據(jù)庫。目前,該數(shù)據(jù)庫在全國已經(jīng)擁有2000余家大型機構用戶。,,高級檢索,,,點擊 按鈕即可進入高級檢索頁面。高級檢索提供兩種方式供讀者選擇使用:向?qū)綑z索、直接輸入檢索式檢索。 向?qū)綑z索為讀者提供分欄式檢索詞輸入方法??蛇x擇邏輯運算、檢索項、匹配
20、度外,還可以進行相應字段擴展信息的限定,最大程度的提高了檢準率。,高級檢索界面,如何利用數(shù)據(jù)庫特殊檢索功能—同義詞、同名作者,提高查全率和查準率呢?,下面我們來舉例說明,同義詞:由于學術用語的多樣化造成作者在發(fā)表論文提取關鍵詞時不會完全統(tǒng)一一致,如關于土豆的論文,也可以提取關鍵詞為馬鈴薯、洋芋等。這種情形會導致檢索這如果僅輸入一個關鍵詞進行檢索,會造成漏檢。為此,《中刊庫》以《漢語主題詞表》為基礎,參考各個學科的主題詞表,通過多年的標引
21、實踐,編制了規(guī)范的關鍵詞用代詞表(同義詞庫),實現(xiàn)高質(zhì)量的同義詞檢索,提高查全率。 同名作者:同樣姓名的作者從事不同領域的研究,提交檢索請求后,檢索結果并不精確,這為檢索者帶來了不便。為此,《中文科技期刊數(shù)據(jù)庫》開發(fā)了同名作者檢索功能,提高查準率。,,(同義詞功能圖示),例如:勾選同義詞功能,在關鍵詞字段輸入“CAD”并點擊“檢索”按鈕,可查看到“CAD”的同義詞,勾選“CAD系統(tǒng)”并點擊“確定”按鈕,即可得到“關鍵詞=CAD+CA
22、D系統(tǒng)”的檢索結果。,同義詞,,(同名作者功能圖示),例如:勾選頁面左上角的同名作者,選擇檢索入口為作者(或第一作者),輸入檢索詞“張三”,點擊“檢索”按鈕,即可找到作者名為“張三”的作者單位列表,用戶可以查找需要的信息以做進一步選擇。,同名作者庫,,同義詞功能只適用于三個檢索字段: 關鍵詞、題名或題名與關鍵詞 同名作者功能只適用于兩個檢索字段:
23、 作者、第一作者,注 意,擴展功能,,,您可以在 的旁邊進行相關的同義詞、同名作者、分類表、相關機構和變更情況的擴展功能的查詢(請注意,在進行這些信息的查詢時,必須在前面輸入相應的檢索詞,否則不能進行操作)。查看同義詞:點擊查看同義詞,即可檢索出該檢索詞的同義詞,以擴大搜索范圍。查看同名作者:點擊查看同名作者,即可以列表形式顯示不同單位同名作者,用戶可以選擇作者單位來限制同名作者范圍。 最多勾選數(shù)據(jù)不
24、超過5個。查查看分類表:讀者可以直接點擊按鈕,會彈出分類表頁,操作方法同分類檢索。查看相關機構:點擊查看相關機構,即可顯示以該機構為主辦(管)機構的所屬期刊社列表。 最多勾選數(shù)據(jù)不超過5個。期刊導航:點擊進行期刊檢索,可以查看該期刊的詳細信息,如曾用刊名記錄等,使用戶可以獲得更多的信息。,擴展檢索條件,,,“擴展檢索條件”功能,可以進一步的減小搜索范圍,獲得符合檢索需求的檢索結果。點擊按鈕,彈出對話框,在“擴展檢索功能”部分,用戶
25、可以根據(jù)需要以時間條件、專業(yè)限制、期刊范圍進一步限制檢索范圍。,,讀者在選定限制分類,并輸入檢索詞檢索后,頁面自動跳轉(zhuǎn)到搜索結果頁面,后面的檢索操作同快速檢索。,,讀者可在檢索框中直接輸入邏輯運算符、檢索代碼等,點擊“擴展檢索條件”并對相關檢索條件進行限制后點擊“檢索”按鈕即可。,,檢索式輸入有錯時檢索后會返回“查詢表達式語法錯誤”的提示,看見此提示后請使用瀏覽器的【后退】按鈕返回檢索界面重新輸入正確的檢索表達式。擴展檢索條件:與“
26、向?qū)綑z索”中的“擴展檢索條件”同,直接輸入檢索式檢索,,分類檢索,通過專業(yè)的學科分類表,可以選擇不同的學科范圍進行檢索。分類檢索相當于傳統(tǒng)檢索的分類導航限制檢索,這里采用的是《中國圖書館分類法》(第四版)的原版分類體系,分類細化到最小一級分類,滿足讀者對分類細化的不同要求。,,,,,,,分類檢索的操作步驟,,,學科類別選擇直接在左邊的分類列表中按照學科類別逐級點開查找運用左邊方框中的搜索框?qū)W科類別進行查找定位。這里采用的是模糊
27、查找,如果檢索結果有多個,則定位在第一個類別上。 學科類別選中在目標學科前的 中打上“√”,并點 按鈕將類別移到右邊的方框中,即完成該學科類別的選中。 在所選類別中搜索在選中學科類別以后,在頁面上放的檢索框處選擇檢索入口、輸入檢索條件,即可進行在選中學科范圍內(nèi)的檢索操作。,3.萬方數(shù)字資源,兩個信息系統(tǒng)(科技信息系統(tǒng)、商務信息系統(tǒng))(文摘型)六個全文(學位論文、會議論文、
28、法規(guī)全文、標準全文、數(shù)字期刊、專利全文)一個外文文獻(NSTL,外文文獻、外文會議),,,,根據(jù)不同字段輸入框輸入檢索詞查找,檢索結果與初始檢索結果一致,也可進行二次檢索,,,,檢索詞輸入框,,,根據(jù)字段限定輸入檢索詞查找,檢索結果與初始檢索結果一致,也可進行二次檢索,,,采用布爾邏輯式進行檢索,輸入格式參考檢索詞輸入框下的示例,,,期刊論文,學位論文,會議論文,專利文獻,標準文獻,科技成果,,不同類型文獻檢索方法一致,其中期刊論文、
29、學位論文、會議論文、專利文獻、標準文獻等數(shù)據(jù)庫可以查看文摘及全文??萍汲晒麛?shù)據(jù)庫只能查看文摘。,,三、搜索引擎使用介紹,Google(www.google.com)百度(www.baidu.com) 雅虎中國(http://cn.yahoo.com),常用搜索引擎,搜索引擎使用技巧,1. Google,基本檢索:(布爾檢索功能)邏輯“與”:檢索框中的兩個關鍵詞之間用空格隔開則默認為是“AND”(“與”運算)連接。邏輯“非”:用“
30、—”(減號)表示,同時要求在減號前保留一個空格。邏輯“或”:用“OR”表示。雙引號、連字號、斜線、問號、等號、省略號都可以作為短語的連接符號查找名言或?qū)S忻~。指定網(wǎng)域:利用site:xxxx.com可以在某個特定的網(wǎng)站或域中進行搜索。指定文件類型:filetype:文件類型,可以在一類文件中進行搜索,比如,filetype:pdf, filetype:ppt等。,搜索引擎及舉要,Google,邏輯與功能,搜索引擎及舉要,Goo
31、gle,邏輯或功能,搜索引擎及舉要,Google,邏輯非功能,搜索引擎及舉要,Google,詞組檢索,搜索引擎及舉要,Google,指定網(wǎng)域,搜索引擎及舉要,Google,指定文件類型,搜索引擎及舉要,Google其它檢索語法搜索的關鍵詞包含在URL鏈接中:inurl:搜索的關鍵詞包含在網(wǎng)頁標題中:intitle:搜索所有鏈接到某個URL的網(wǎng)頁:link:,搜索引擎及舉要,Google高級檢索功能可以排除某個特定站點的網(wǎng)頁(限定
32、網(wǎng)域)可以對檢索結果頁面的語言類型進行限制(限定語種)可以限定檢索結果的時間范圍(更新日期)可以限定關鍵詞出現(xiàn)的位置(字詞位置)可以檢索鏈向某一個網(wǎng)頁的所有頁面(鍵連功能)可以檢索與某一個網(wǎng)頁相關的所有網(wǎng)頁(相似網(wǎng)頁檢索),,,搜索引擎及舉要,,Google,,,,高級檢索,搜索引擎及舉要,Google,高級檢索檢索結果,例:高級檢索查找2007年我國農(nóng)村互聯(lián)網(wǎng)普及率包含全部字詞:2007 農(nóng)村包含以下完整字句:互聯(lián)網(wǎng)
33、普及率為 網(wǎng)域: 僅 cnnic.net.cn(僅在CNNIC網(wǎng)站中搜索)信息需求類型:直接查找具體數(shù)值,權威發(fā)布源,Google 高級檢索實例,復旦大學文獻檢索教研室,94,04/15/09,Google 網(wǎng)頁高級搜索界面,,,,復旦大學文獻檢索教研室,95,04/15/09,Google網(wǎng)頁高級檢索結果,,,,搜索引擎及舉要,Google,學術搜索,例:檢索2000-2007年有關生物芯片在藥物研究領域應用的文獻,Goog
34、le Scholar 學術搜索,,,,,中文搜索結果,相關文章/網(wǎng)頁檢索,該文獻多個原文鏈接網(wǎng)址,被引用次數(shù),文獻出處及全文網(wǎng)址,,,聯(lián)合目錄查詢?nèi)珖鴪D書館收藏情況,在普通網(wǎng)頁中查找論文,運用論文的題名特征中國人在撰寫論文時傾向于在題名中使用特定的詞語,如“論”、“淺論”、“探討”、“談談”、“芻議”、“試析”等,這些詞語構成了漢語論文的第一類特征詞:題名特征詞。通過在檢索式中加入題名特征詞,可將檢索范圍縮小,使論文的命中率提高。例
35、:在GOOGLE中輸入“論科技查新”,,,在普通網(wǎng)頁中查找論文,運用論文格式特征看過論文的都知道,一般的論文,都有一定的格式,除了標題、正文、附錄,還需要有論文關鍵詞,論文摘要等。其中, “關鍵詞”和“摘要”是論文的特征詞匯。而論文主題,通常會出現(xiàn)在網(wǎng)頁標題中。例:關鍵詞 摘要 intitle:科技查新 作用,,,google翻譯,,,,,,2.百度,最大的中文搜索引擎百度,百度的高級搜索,,3.雅虎中國,網(wǎng)絡目錄舉要雅虎中國(
36、http://cn.yahoo.com) 雅虎中國既支持目錄檢索,也支持詞語檢索。它對網(wǎng)站信息按主題建立分類索引,按字母順序列出大類,大類下設二級類目,各子類下有大量相關網(wǎng)站信息。這些類目是人工建立的,標引比較準確,因此查準率較高。,,,,網(wǎng)絡目錄舉要雅虎中國(http://cn.yahoo.com),搜索引擎與目錄索引互相滲透,目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Goo
37、gle就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。,Google的網(wǎng)頁目錄查詢,http://www.google.com/dirhp?hl=zh-CN,四、檢索的體會,1.檢索思維:完成一項檢索流程的思考分析問題:從有限的信息中提取一些有價值的信息確定檢索詞和檢索工具:選擇合適的檢索詞和工具檢索結果的分析:是否是我所需要的調(diào)整檢索詞、檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論