2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩94頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、TRS 全文檢索系統(tǒng) 應用培訓,TRS 培訓部 2003年,內(nèi)容安排,TRS全文檢索系統(tǒng)介紹TRS數(shù)據(jù)庫服務器及管理員工具的安裝及卸載TRS數(shù)據(jù)庫服務器啟動及關閉方法TRS數(shù)據(jù)庫系統(tǒng)各種對象概念及其屬性TRS數(shù)據(jù)庫的各種字段類型、索引類型和索引策略等TRS數(shù)據(jù)庫各級權限機制,權限管理和權限檢查的規(guī)則等數(shù)據(jù)加載的方法以及數(shù)據(jù)文件的格式說明數(shù)據(jù)庫檢索表達式的語法規(guī)則以及運算符、函數(shù)、鍵值等,系統(tǒng)概述(1),TRS(

2、Text Retrieval System)信息發(fā)布檢索系統(tǒng)是由TRS公司開發(fā)的一個體系結構先進、功能強大的面向文本數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),廣泛地用于各種信息數(shù)據(jù)庫、以及信息門戶的建設。TRS全文數(shù)據(jù)庫服務器的核心技術為全文檢索,它為各種格式文檔的存儲、管理和檢索提供動力。它的主要功能和性能如下: 1. “零”空間膨脹率(-10%至20%)。  2.基于成本優(yōu)化的查詢算法(索引分區(qū)技術, 多線程并行運算技術

3、,面向全文檢索的Cache技術), 使得G級數(shù)據(jù)庫查詢速度達到亞秒級,并支持大量并發(fā)用戶的同時訪問。  3. 多線程設計,支持SMP體系結構。  4.支持跨平臺計算:支持NT4.0, Linux, Sun Solaris, IBM AIX, HP-UX, Compaq True Unix, SGI IRIX, SCO Unix。 5. 除了提供規(guī)范的C/C++ API外,還提供COM和JavaBea

4、ns組件, 可以使用符合工業(yè)標準的開發(fā)工具進行快速開發(fā)(ASP和JSP)。 6.支持Unicode(WCS2)。,系統(tǒng)概述(2),7.采用開放的數(shù)據(jù)存貯管理機制,通過TRS for RDBMS Gateway,可以透明地連接oracle、db2、sql server、sybase和informix五個主流的數(shù)據(jù)庫管理系統(tǒng)。 8.領先的中文信息處理技術:內(nèi)嵌漢語自動分詞系統(tǒng),支持按詞索引、按字索引、按關鍵詞索引、二元組索引,

5、大大提高檢索的準確性和響應時間。 9.檢索信息快、準而且全:允許使用文中的任意字、詞、句和片段進行檢索,提供了基于文獻內(nèi)容而不僅僅是文獻外部特征的全文檢索手段。TRS所提供的按詞和按用戶自定義關鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能,滿足了特殊應用領域的高查準率和高查全率的要求。  10.檢索功能強大:全方位檢索手段,提供了多達48種檢索運算符。包括外部特征與正文內(nèi)容的各種邏輯組合檢索、位置檢索、二

6、次檢索、漸進檢索、歷史檢索、詞根檢索、大小寫敏感檢索、概念檢索、對檢索結果按與檢索表達式的相關性和重要性程度排序等。 11.安全性好: 具有系統(tǒng)級、數(shù)據(jù)庫級、記錄級和字段級四級安全控制機制。 12.提供功能強大的TRS管理員工具: 數(shù)據(jù)庫維護、數(shù)據(jù)庫的安全性控制、數(shù)據(jù)的完整性和一致性、數(shù)據(jù)庫備份和恢復、用戶管理等功能。,人民日報:www.peopledaily.com.cn水利網(wǎng):www.chinawater.com.

7、cn吉大圖書館:http://www.lib.jlu.edu.cn/北京市衛(wèi)生部:http://www.moh.gov.cn更多實例請參照TRS公司網(wǎng)站: http://www.trs.com.cn,應用實例,,Cel轉(zhuǎn)換,體系結構,安裝目錄結構及作用啟動和關閉,TRS數(shù)據(jù)庫服務器,硬件及軟件環(huán)境l運行中文版Microsoft Windows NT Server 4.0(Service Pack3)以上版本操

8、作系統(tǒng)的小型機、服務器、工作站、Pentium及其兼容機。 l 內(nèi)存 64MB 以上,建議使用128MB內(nèi)存。l一個可用空間在100 MB 以上的獨立硬盤或分區(qū)用于安裝服務器。l 操作系統(tǒng)可使用的對換空間最好在100MB以上。局域網(wǎng)連接設備。,服務器在Windows下安裝,運行安裝介質(zhì)上setup.exe 產(chǎn)生目錄:\TRS4 安裝過程中需要: -輸入產(chǎn)品的key -設定服務器缺省端口號

9、 -選擇將服務器登記到WindowsNT系統(tǒng)服務中 -選擇服務器啟動方式等操作,安裝步驟,產(chǎn)品KEY,在[序列號]中輸入產(chǎn)品鍵值。產(chǎn)品鍵值是由廠家根據(jù)您的機器號生成的,所以這時您需要與廠家聯(lián)系,將上面對話框中顯示的機器號告訴廠家以獲得相應的產(chǎn)品鍵值。,服務器網(wǎng)絡端口號,知識詞典和示例數(shù)據(jù)庫加載完成后,安裝程序顯示如圖所示的對話框,要求你輸入服務器的網(wǎng)絡端口號。默認為8888,此時可以修改。,登錄NT服務及選擇啟動方式,T

10、RS Server 目錄結構,TRSHome 目錄,bin,system,dict,ibase,temp,,,,,,,,oem,,目錄結構相關說明,bin:存放服務器所有可執(zhí)行程序、動態(tài)連接庫及版本信息文件。system:存放數(shù)據(jù)詞典、系統(tǒng)配置及KEY文件,該目錄下的文件是服務器的核心文件,不能破壞,否則服務器將無法正常啟動和運行。除配置文件以及KEY文件外,其他文件均由服務器自動維護。ibase:服務器存放數(shù)據(jù)庫的缺省目錄,包括數(shù)

11、據(jù)庫的全部數(shù)據(jù)和索引。TRS允許用戶設置并使用其他的目錄來存儲數(shù)據(jù)庫。dict:存放服務器缺省的知識詞典及用戶定義的詞典。oem:主要用來存放為TRS系統(tǒng)配置的OEM產(chǎn)品。用于文本過濾。temp:系統(tǒng)的臨時文件公用區(qū)。,,,T40hostid.exe:獲得安裝機器的ID,用于產(chǎn)生服務器運行時所必須的KEY。T40server.exe/t40shutdown.exe:啟動/關閉服務器的程序。T40master.exe:服務器管理

12、員 -list:查看當前登錄用戶的相關信息; -password:查看系統(tǒng)管理員(system)的口令T40service.exe:將TRS服務器作為一個NT服務時,用于管理該服務的命令行程序。T40console.exe:將TRS服務器作為一個NT服務時,用于管理該服務的圖形界面程序,即TRS控制臺。,Bin目錄下系統(tǒng)命令,服務器的啟動/關閉(1),TRS服務器啟動后,占用TCP/IP的8888端口,用戶在啟動時可

13、指定端口號(必須大于1024)。方法: 1.命令行直接啟動/關閉 啟動:執(zhí)行/bin/t40server.exe [端口號] 關閉:執(zhí)行/bin/t40shutdown.exe [端口號],,,服務器的啟動/關閉(2),方法: 2.命令行啟動/關閉做為NT系統(tǒng)服務的TRS服務器 啟動:執(zhí)行trshome\bin\t40service -start 前提條件: 一:操作

14、系統(tǒng)必須是Windows NT/2000; 二:在操作系統(tǒng)文件 ‘NT目錄\system32\drivers\etc\services’中已經(jīng)加入‘trs4 xxxx/tcp’這個服務端口; 三:TRS服務器已經(jīng)作為NT系統(tǒng)服務進行了注冊。 關閉:執(zhí)行trshome/bin/t40service -stop,,,服務器的啟動/關閉(3),方法: 3.用TRS控制臺啟動/關閉作為NT系

15、統(tǒng)服務的TRS服務器 啟動:在TRS控制臺的菜單中選取“啟動服務”功能。 關閉: 在TRS控制臺的菜單中選取“關閉服務”功能。 4.在操作系統(tǒng)啟動時自動引導 首先登記TRS服務到NT系統(tǒng)服務中,并將啟動方式設置為“自動”。每次重新啟動時,操作系統(tǒng)將自動啟動TRS 服務器。 【說明】 無論是用哪一種方式關閉服務器,所使用的端口號必須與啟動服務器時的端口號一致。服務器關閉

16、時并不是立即退出,它必須等待所有正在執(zhí)行的服務請求完成后才徹底結束,但是這時服務器不再響應新的服務請求。如果系統(tǒng)中已沒有任何名為t40server的進程時,則表示服務器正式關閉。 有時候需要強制“殺死”TRS服務器,雖然可以用任務管理器完成,但是還需手工清除TRS服務器所創(chuàng)建的共享內(nèi)存映射文件等。用命令‘t40shutdown –kill 端口號’可自動完成所有這些操作,當系統(tǒng)文件‘NT目錄\system32\driv

17、ers\etc\services’中存在‘trs4 xxxx/tcp’時,其中的端口號可以省略。,服務器升級,要求: (1)服務器升級包中包含的文件(參見手冊)必須放在同一目錄下。  (2)在進行服務器升級前,注意先備份原來的數(shù)據(jù),然后關閉服務器。再運行安裝包下t40update即可完成TRS服務器系統(tǒng)文件的自動更新。 (3)如果所運行的t40update處在服務器的bin目錄下,則只會進行數(shù)據(jù)詞典的更新,而不會進

18、行服務器系統(tǒng)文件的復制。,服務器在Unix下安裝,安裝前準備工作(1),確定是否使用支持大文件的安裝包 如果你要求TRS服務器支持大文件(即largefile,有的系統(tǒng)稱超過2G的文件為大文件,而有的系統(tǒng)則認為超過1G的文件就是大文件),則必須使用支持大文件的安裝包進行安裝,同時還必須保證用來存儲數(shù)據(jù)庫文件的文件系統(tǒng)允許大文件的讀寫,即清除文件系統(tǒng)本身對大文件的“人為”限制,例如:SUN Solaris要用mount

19、_ufs命令的largefiles選項mount文件系統(tǒng),無論操作系統(tǒng)是64位的,還是32位的;IBM AIX要將系統(tǒng)的/etc/security/limits配置文件中的fsize參數(shù)設為-1,并用smit工具將文件系統(tǒng)的屬性設置成“Large File Enabled”,無論操作系統(tǒng)是64位的,還是32位的。,安裝前準備工作(2),確定服務器的用戶帳號 TRS服務器的各種文件必須駐留在操作系統(tǒng)的一個用戶帳號之

20、下,因此在安裝之前要首先為TRS服務器確定一個操作系統(tǒng)用戶,以下簡稱為服務器帳號。操作系統(tǒng)中已有的任意一個用戶帳號都可作為服務器帳號,但最好還是專門創(chuàng)建一個用戶帳號作為服務器帳號。服務器帳號所在的硬盤或分區(qū)的可用空間應在100MB以上,對服務器帳號在硬盤空間使用上的限制不能小于100MB。,安裝包命名說明,安裝包的命名有下列四種形式: TRS4.nnBxxxxGB.MACHINE.OS.tar TRS4.nnBx

21、xxxBIG5. MACHINE.OS.tar TRS4DEMO.nnBxxxxGB. MACHINE.OS.tar TRS4DEMO.nnBxxxxBIG5. MACHINE.OS.tar 其中:‘TRS4’表示該安裝包是一個TRS4服務器的正式發(fā)行包;‘TRS4DEMO’表示該安裝包是一個TRS服務器的演示包(只有一個License,自安裝日起一個月內(nèi)有效);‘nn’是編譯環(huán)境的機器字位數(shù),如‘

22、64’,‘L32’表示在32位環(huán)境下支持64位文件;‘Bxxxx’是該服務器的生產(chǎn)批號,如‘B1000’;‘GB’表示該服務器使用以簡體中文內(nèi)碼(GB2312、GBK、GB18030)為主體(缺?。┳址?;‘BIG’表示該服務器使用以繁體中文內(nèi)碼為主體(缺?。┳址?。‘MACHINE’表示該服務器運行所需硬件環(huán)境,一般指機器的CPU名稱;‘OS’表示該服務器運行所需軟件環(huán)境,即操作系統(tǒng)及其版本號;‘tar’表示該包是用‘tar’命令歸檔

23、而成的。如:TRS4.64B1000GB.RS6000.AIX43.tar。,安裝相關說明,安裝請具體參照用戶手冊“服務器在Unix下的安裝”進行。安裝成功后可以在trs服務器帳號下執(zhí)行bin目錄下的t40server/t40shutdown [端口號]啟動和關閉trs服務器。也可以在root帳號下啟動。因為即使此時TRS服務器是由root啟動的,服務器運行時的實際用戶帳號和用戶組仍然是服務器帳號和它所在的用戶組,而不是root。另外

24、,對于核心版本在2.2以下的Linux操作系統(tǒng),服務器要求在root賬號下啟動,雖然在服務器帳號也能成功啟動服務器,但其運行效率遠不及由root啟動時高。有時候需要強制“殺死”TRS服務器,雖然可以用‘kill’命令完成,但是比較煩瑣,并且還要手工清除TRS服務器所創(chuàng)建的IPC資源(如共享內(nèi)存、信號量等)。用命令‘t40shutdown –kill 端口號’可自動完成所有這些操作,當系統(tǒng)文件‘etc/services’中存在‘trs4

25、 xxxx/tcp’時,其中的端口號可以省略。,小結,,,必須記住產(chǎn)品序列號,可以備份SYSTEM\KEY文件。在使用TRS信息檢索系統(tǒng)之前,必須保證先啟動TRS服務器。掌握TRS服務器的啟動和關閉方法。熟悉TRS服務器的目錄結構。,TRS管理員(ADMIN),作用安裝與卸載啟動與退出基本概念:TRS對象及對象屬性使用,,,ADMIN 作用,TRS管理員是TRS信息發(fā)布檢索系統(tǒng)的客戶端管理工具,主要用于對各種TRS對象進

26、行管理、設計和維護等,并具備完整的檢索、瀏覽和維護功能。,,,安裝與卸載,軟件需求:中文Windows95/98/nt/2000;TRS數(shù)據(jù)庫服務器;IE4.0以上版本安裝:執(zhí)行安裝介質(zhì)中的setup.exe卸載從菜單選擇卸載程序進行目錄結構:\TRS4\TRSAdmin\bin:存放可執(zhí)行文件、動態(tài)連接庫和幫助文件等。\TRS4\TRSAdmin\Navigate:存放數(shù)據(jù)庫/視圖的導航文件。\TRS4\TRSAdmin\

27、Temp:存放TRS管理員執(zhí)行過程中生成的臨時文件。,,,啟動與退出,[前提條件] :TRS服務器處于啟動狀態(tài)雙擊桌面上“TRS管理員4.0”圖標輸入:TRS 服務器地址端口號用戶帳號名口令字第一次進入用系統(tǒng)默認管理員帳號名(system) 和口令字(manager)登錄可退出登錄并用其他用戶的身份重新登陸,,,用戶組 用戶 數(shù)據(jù)庫(數(shù)據(jù)庫字段) 視圖(視圖字段) 詞典 文件格式,TRS基本概念:對象,用戶組,

28、TRS具有獨立于操作系統(tǒng)的用戶組管理機制,使系統(tǒng)方便實現(xiàn)數(shù)據(jù)安全的措施之一。 TRS系統(tǒng)的用戶組是各種類型用戶的集合; TRS系統(tǒng)可支持多達65535個用戶/用戶組。 系統(tǒng)安裝時,將自動創(chuàng)建兩個用戶組/用戶: administrator/system/和guest/pub。 用戶組名與用戶組名之間,以及用戶組名與用戶名

29、之間不能重復。 創(chuàng)建用戶時如果沒有給用戶指定組,則默認放在系統(tǒng)的匿名組中。,用 戶,TRS具有獨立于操作系統(tǒng)的用戶管理機制。要訪問TRS系統(tǒng),必須首先擁有一個用戶帳號,用戶帳號是實現(xiàn)系統(tǒng)和數(shù)據(jù)安全的主要手段。 SYSTEM: system屬于Administraor組,是系統(tǒng)的超級用戶,不能修改名稱,不能被注銷,可由自己修改口令。 PUB: PUB屬于Guest

30、組,是公共用戶,不能修改名稱,不允許設置口令,能被System注銷,擁有登錄權限(CONNECT用戶)。,,,用戶級權限,用戶級權限對應于用戶的類型。TRS系統(tǒng)有五種類型的用戶級權限: 超級用戶(SYSTEM) –系統(tǒng)中只有一個    系統(tǒng)數(shù)據(jù)庫管理員(DBA)    用戶組數(shù)據(jù)庫管理員(GDA) 

31、;   系統(tǒng)資源用戶(RESOURCE)    系統(tǒng)登錄用戶(CONNECT) 超級用戶只能是SYSTEM,在建新用戶時不可選。,超級用戶SYSTEM所擁有的權限,維護系統(tǒng)配置。 創(chuàng)建和注銷用戶組,維護所有用戶組的屬性。 創(chuàng)建和注銷用戶,維護所有用戶的屬性。

32、創(chuàng)建文件格式,維護文件格式的屬性。 蘊涵系統(tǒng)數(shù)據(jù)庫管理員的所有權限。,,,系統(tǒng)數(shù)據(jù)庫管理員(DBA)所擁有的權限 不經(jīng)授權就可對系統(tǒng)中的所有數(shù)據(jù)庫、視圖以及詞典對象進行所有操作。(但不能創(chuàng)建用戶、用戶組、文件格式) 蘊涵用戶組數(shù)據(jù)庫管理員的所有權限。 用戶組數(shù)據(jù)庫管理員(GBA)所擁有的權限       

33、 不經(jīng)授權就可對系統(tǒng)中與該用戶處在同一用戶組的用戶所擁有的所有數(shù)據(jù)庫、視圖,以及詞典對象進行所有操作。 蘊涵系統(tǒng)資源用戶的所有權限。,,用戶級權限(1),系統(tǒng)資源用戶(RESOURCE)所擁有的權限 有權在系統(tǒng)中創(chuàng)建數(shù)據(jù)庫、視圖,以及詞典對象。蘊涵系統(tǒng)登錄用戶的所有權限。 系統(tǒng)登錄用戶(CONNECT)所擁有的權限       

34、 有權登錄到系統(tǒng)中。        經(jīng)過授權,可對系統(tǒng)中其他用戶所擁有的數(shù)據(jù)庫、視圖,以及詞典對象進行相應的操作。,,,用戶級權限(2),數(shù)據(jù)庫對象,創(chuàng)建、修改TRS數(shù)據(jù)庫對象加載數(shù)據(jù)庫記錄,掌握記錄入庫格式檢索數(shù)據(jù)庫,掌握檢索表達式的寫法維護數(shù)據(jù)庫對象 ,掌握數(shù)據(jù)庫的復制、記錄的復制、數(shù)據(jù)庫優(yōu)化等,數(shù)據(jù)庫,數(shù)據(jù)庫是TRS系統(tǒng)中的主要數(shù)據(jù)對象,

35、它物理地存儲了用戶加載到系統(tǒng)中的所有數(shù)據(jù)資料。每個TRS系統(tǒng)可管理多達數(shù)十億個數(shù)據(jù)庫。 數(shù)據(jù)庫實際上是一個數(shù)據(jù)表,表的每一行是一個數(shù)據(jù)記錄,每一列則是一個數(shù)據(jù)字段,行列的交叉點即為字段值。,,,數(shù)據(jù)庫規(guī)模,數(shù)據(jù)庫的規(guī)模主要指兩個方面:能夠容納的最大記錄數(shù)和數(shù)據(jù)庫文件的最大容量。如果是64位文件系統(tǒng)和64位操作系統(tǒng),則最多可容納40多億條記錄。如果采用64位文件系統(tǒng),則單個文件的容量實際上沒有限制。

36、 另外,理論上TRS允許每個記錄的最大長度為256M字節(jié),每個字段值的最大長度為16M字節(jié)(如以ALONE方式存儲字段值的長度不受此限制)。但在實際中,如果一個記錄(或字段值)太長,會引起操作系統(tǒng)忙于虛擬內(nèi)存的交換,使機器性能急劇下降,所以系統(tǒng)人為地限制一個記錄的最大長度為機器物理內(nèi)存兆字節(jié)數(shù)的64的倍數(shù)(最小為1)兆字節(jié),如物理內(nèi)存為128M,則允許的最大記錄長度為2M字節(jié)。,數(shù)據(jù)庫對象的創(chuàng)建,【說明】必須是具有Resou

37、rce及以上權限的用戶才可以創(chuàng)建數(shù)據(jù)庫。進入創(chuàng)建數(shù)據(jù)庫對話框有三種方法: 方法一:選擇“文件|新建”命令,在“新建”對話框里雙擊數(shù)據(jù)庫圖標;方法二:在對象管理窗口里切換到“數(shù)據(jù)庫”標簽,然后按工具欄上的按鈕;方法三:在對象管理窗口里切換到“數(shù)據(jù)庫”標簽,然后在對象管理框按鼠標右鍵,出現(xiàn)菜單后選擇新建。 【注】數(shù)據(jù)庫名稱必須填寫,數(shù)據(jù)庫級權限,數(shù)據(jù)庫權限、視圖權限和詞典權限統(tǒng)稱數(shù)據(jù)庫級權限。 數(shù)據(jù)

38、庫權限共有五種: 記錄檢索權(SELECT):擁有這種權限的用戶,能夠?qū)?shù)據(jù)庫進行檢索操作。 數(shù)據(jù)更新權(UPDATE):擁有這種權限的用戶,能夠?qū)?shù)據(jù)庫進行數(shù)據(jù)加載、記錄插入和修改操作。 數(shù)據(jù)索引權(INDEX):擁有這種權限的用戶,能夠?qū)?shù)據(jù)庫的索引進行創(chuàng)建、刪除和驗證操作。 數(shù)據(jù)庫結構修改權(ALTER):擁有這種權限的用戶,能夠?qū)?shù)據(jù)

39、庫的屬性及結構進行修改操作,包括增加和刪除字段,以及修改字段的屬性。 數(shù)據(jù)庫刪除權(DROP):擁有這種權限的用戶,能夠刪除數(shù)據(jù)庫。,,,數(shù)據(jù)庫屬性,數(shù)據(jù)庫存放的路徑:必須是系統(tǒng)配置中的數(shù)據(jù)和索引路徑之一, 缺省為系統(tǒng)配置中的第一個數(shù)據(jù)路徑。存放位置:有一類應用:TRS系統(tǒng)只管理和維護索引,而數(shù)據(jù)存儲 在其它系統(tǒng)中就是通過此項設置的。此項如果不為空,內(nèi)容是存儲服務器的有關信息的字符

40、串,如“ORACLE”,則表明實際數(shù)據(jù)集中存儲在一個數(shù)據(jù)宿主服務器中,TRS系統(tǒng)只管理和維護索引。如果為空,則表明由TRS系統(tǒng)負責管理數(shù)據(jù)庫的數(shù)據(jù)存放的位置。缺省值為空。詞典:數(shù)據(jù)庫所用詞典,缺省為系統(tǒng)配置中的缺省分詞及停用詞 典名。,,,詞典,TRS的全文檢索不單是一種快速的字串匹配系統(tǒng),要獲得良好的檢索效果,必須使用一系列知識詞典。詞典對象是TRS系統(tǒng)中非常重要的基礎資源,是按詞索引和檢索技術的根本依據(jù)。

41、 按用途劃分,TRS系統(tǒng)有八種類型的詞典: 分詞詞典(SEGMENT)    附加分詞詞典(SEGMENTEX) 停用詞典(STOP)   附加停用詞典(STOPEX) 稀疏詞典(SPARSE)     主題詞典(THESAURUS) 同義詞

42、典(SYNONYM) 反義詞典(ANTONYM) 其中,分詞詞典、附加分詞詞典、停用詞典、附加停用詞典和稀疏詞典是用來建立數(shù)據(jù)庫的索引并進行查詢的詞典,統(tǒng)稱為索引詞典;主題詞典、同義詞典和反義詞典是用于智能擴展檢索的詞典,統(tǒng)稱為輔助知識詞典。,,索引類型及索引策略,索引類型 TRS系統(tǒng)有兩種類型的數(shù)據(jù)庫索引:B+樹索引和倒排(INVERT)索引。這兩種類型的索引相輔相成,互為補充。(詳見手冊)索引

43、策略 對于英文數(shù)據(jù)庫,TRS系統(tǒng)采用按詞索引的固定模式。 對于中文數(shù)據(jù)庫,TRS系統(tǒng)則有四種類型的索引策略:按中文詞檢索的索引策略、按中文字檢索的索引策略、按用戶自定義關鍵詞的索引策略,以及二元組索引策略。在實際應用中,采用何種索引策略主要取決于數(shù)據(jù)的特點、檢索的需求和系統(tǒng)的資源等。不同的索引策略,所需的索引詞典也不盡相同。(見下頁),,索引策略與詞典的關系,,策略,詞典,按詞索引策略,TRS內(nèi)嵌的漢語自動分詞系統(tǒng)是

44、TRS的領先技術,使得TRS在國內(nèi)外同類全文檢索系統(tǒng)中獨具特色。對大多數(shù)中文全文檢索應用來說,按詞索引是首選的索引策略。(其余策略介紹詳見手冊) 其中內(nèi)嵌的分詞系統(tǒng)是采用以詞典為基礎的分詞算法。分詞詞典用于漢語自動分詞,由若干個漢語詞匯組成,詞典中的英文詞匯不起作用。每部分詞詞典可容納多達10萬條詞匯,每個詞匯的最大長度為20個字節(jié),即10個漢字。 TRS系統(tǒng)提供的缺省分詞詞典的每個詞匯具有語法屬

45、性,以提高分詞的準確性。用戶定義的分詞詞典或增加的詞匯則沒有屬性。該分詞詞典是經(jīng)過加密處理的,用戶可以瀏覽詞典的詞匯,但不能瀏覽其屬性。,數(shù)據(jù)庫字段(1),TRS數(shù)據(jù)庫有六種類型的字段: 日期型(DATE) ; 數(shù)值型(NUMBER);字符串型(CHAR)短語型(PHRASE);全文型(DOCUMENT);二進制型(BIT) 我們可以對CHAR,DATE,NUMBER進行字段級檢索,對PHRASE和D

46、OCUMENT進行全文檢索,但對BIT字段不進行檢索,系統(tǒng)規(guī)定BIT字段始終不建索引。 所有的查詢操作都是在一定的字段上進行的。每個數(shù)據(jù)庫可定義1到1023個字段。,,,◎日期型字段(DATE)日期型字段只能用來存儲“年月日時分秒”這類表示日期的數(shù)據(jù)。◎數(shù)值型字段(NUMBER)數(shù)值型字段只能用來存儲整數(shù)或?qū)崝?shù)。對于實數(shù),可以限制其小數(shù)位的長度,在數(shù)據(jù)庫加載時將忽略多余的小數(shù)位數(shù)。整數(shù)或?qū)崝?shù)不能超出機器的單精

47、度浮點數(shù)所能表示的范圍,可以使用科學計數(shù)法表示這些數(shù)據(jù)?!蜃址妥侄?CHAR)字符串型字段可以用來存儲任何形式的字符串。最大長度不能超過255個字符。,數(shù)據(jù)庫字段(2),◎短語型字段(PHRASE) 可以用來存儲任何形式、任意長度的文本數(shù)據(jù),最適合作為“標題”這樣的字段。短語型字段與字符串型字段的最大差別在于短語型字段支持自動分詞,而字符串型字段不支持自動分詞,其字段值整體是一個索引鍵值。 主要特點:

48、沒有長度限制;沒有缺省值;沒有取值范圍;不允許多值;加載時不進行字段值的唯一性檢查;加載時允許空值;允許建立索引;支持自動分詞,倒排索引屬性固定(只有位置);字段值必須是文本數(shù)據(jù);數(shù)據(jù)集中存儲。,,,數(shù)據(jù)庫字段(3),◎全文型字段(DOCMENT) 既可以用來存儲任何形式、任意長度的文本數(shù)據(jù),也可以用來存儲其它格式類型的多媒體數(shù)據(jù)。全文型字段區(qū)別于短語型字段的關鍵所在有三點: 1、全文型字段的數(shù)

49、據(jù)有多種存儲方式。系統(tǒng)通常是集中存儲短語型字段字段的數(shù)據(jù),而分類存儲全文型字段的數(shù)據(jù),這樣有助于提高大規(guī)模數(shù)據(jù)庫的檢索結果的概覽(不包括全文型字段和二進制型字段)速度。 2、全文型字段的字段值可以附加一個源格式數(shù)據(jù)。 3、全文型字段的倒排索引屬性可以任意指定。 綜合起來,這類字段的主要特點是: 沒有長度限制;沒有缺省值; 沒有取值范圍;不允許多值,但允許

50、附加一個源格式數(shù)據(jù);加載時不進行字段值的唯一性檢查;加載時允許空值;允許建立索引;支持自動分詞,倒排索引屬性可任意定義;字段值可以是多媒體數(shù)據(jù);數(shù)據(jù)有多種存儲方式。,數(shù)據(jù)庫字段(4),◎二進制型字段 可以用來存儲任何格式類型的多媒體數(shù)據(jù),主要特點是: 沒有長度限制; 沒有缺省值; 沒有取值范圍; 允許多值; 加載時不進行字段值的唯一性檢查;

51、 加載時允許空值; 不建立索引; 字段值可以是任何多媒體數(shù)據(jù); 數(shù)據(jù)有多種存儲方式;,數(shù)據(jù)庫字段(5),允許多值:一條記錄的某字段可存多個值。 PHRASE、DOCUMENT字段不允許多值。值唯一性:使用此屬性可除去重復記錄,僅對 CHAR,DATE,NUMBER字段有效。禁止空值:控制該字段是否允許空值。

52、 僅對DATE、NUMBER、CHAR字段有效。 索引屬性: BIT字段始終不建索引。公共檢索:選中表示所有用戶均可對本數(shù)據(jù)庫字段進行檢索。(實現(xiàn)字段級權限控制),,,字段小結,字段權限,字段級權限包括數(shù)據(jù)庫字段權限和視圖字段權限。 字段級權限只有一種,即:字段檢索權(SELECT),擁有這 種權限的用戶,能夠在該字段上進行檢索操作。練習: 1、創(chuàng)建自己的數(shù)據(jù)庫,理解不同字段的屬性和數(shù)據(jù)庫級權限。

53、2、創(chuàng)建一個帶多值的數(shù)據(jù)庫 ,并在相關字段上做唯一性檢查。,,,數(shù)據(jù)庫記錄加載及數(shù)據(jù)入庫格式,數(shù)據(jù)庫建好以后,就可以把數(shù)據(jù)裝庫。數(shù)據(jù)裝庫有兩種方式: 聯(lián)機錄入和批量數(shù)據(jù)加載。 聯(lián)機錄入:雙擊打開數(shù)據(jù)庫 點擊‘記錄’菜單項?‘添加記錄’ (見演示),批量數(shù)據(jù)加載,步驟: 1、選定目標數(shù)據(jù)庫。 2、準備加載文件。包括  數(shù)據(jù)文件:格式見下頁。其中對于多媒體文

54、件在DOCUMENT字段和BIT字段的加載有特殊的格式。 數(shù)據(jù)文件實際上是由一個或多個記錄數(shù)據(jù)組成的TRS標記文件,統(tǒng)稱為TRS格式文件。包括:標準格式、字段內(nèi)部標識號標記格式、字段順序號標記格式、無字段標記格式和全文格式。單個TRS格式文件的大小不能超過2G字節(jié)。 TRS系統(tǒng)的數(shù)據(jù)加載,除了支持以上五種TRS格式外,還支持ISO2709和XML格式文件的直接入庫。(詳見手冊)  

55、; 控制文件:用來控制數(shù)據(jù)的加載過程的配置文件。(一般用默認),創(chuàng)建數(shù)據(jù)文件,,TRS標準裝庫文件格式,數(shù)據(jù)記錄文件實際上是由一個或多個記錄數(shù)據(jù)組成的TRS置標文本文件。每個記錄都以標記“”開始,如下(其中n =字段值1…… =字段值2…… =字段值n…… =字段值1…… =字段值2…… =字段值n……可以在寫字板中或者trs管理員工具中直接編輯。,日期數(shù)據(jù)

56、書寫格式,日期的書寫格式有四種: 通用格式: 2001.07.10 10:10:20 AM 2001/07/10 10:10:20 AM 英文格式: 07,10,2001 10:10:20 AM 07-10-2001 10:10:20 AM 無分隔符格式 20010710101020 AM 中文格式 2001年7月10日10時10分2

57、0秒上午,,,日期函數(shù),系統(tǒng)支持$DATE和$TIME特殊日期的入庫 $DATE()取當前日期 $TIME()取當前時間 $DATE(+7)取當前日期往后推七天的日期 $DATE(-7)取當前日期往前推七天的日期 $TIME(+60)取當前時間往后推60秒的時間 $TIME(-60)取當前時間往前推60秒的時間,,,多媒體格式文件的加載,多媒體數(shù)據(jù)可加載到Docume

58、nt字段和Bit字段格式如: =@c:\temp\test.doc^word =@c:\temp\test.xml^word =@c:\temp\test.jpg^jpeg【注】 對文本格式和HTML(XML)格式的數(shù)據(jù)入庫后可以直接進行檢索。其他格式象word、pdf類型的數(shù)據(jù),需要使用后臺的OEM插件。(OEM配置見手冊),,,數(shù)據(jù)庫對象的修改,對某個數(shù)據(jù)庫做修改或刪除操作時必須具備相應的權限才

59、可以執(zhí)行。數(shù)據(jù)庫建立后,一般不允許對數(shù)據(jù)庫的結構或者屬性進行修改。當數(shù)據(jù)庫記錄不為空而確有必要修改時,可先把數(shù)據(jù)庫中數(shù)據(jù)存儲成裝庫格式文件,然后按要求建立新的數(shù)據(jù)庫后再把原始數(shù)據(jù)裝入,最后刪除原數(shù)據(jù)庫。,數(shù)據(jù)庫檢索,一般檢索 實現(xiàn):在工具欄的輸入框里輸入檢索表達式。 最常見的邏輯運算符(+ - * ^)和通配符(%,?): *:與 ; ^ :異或 ;- :非 ;+ :或(具體見幫助)

60、 “?”表示一個英文字符或漢字,用“%”表示0到多個英文字符或漢字。建立和使用導航樹檢索 通過建立導航分類樹進行分類檢索。高級檢索 通過對話框生成復雜的檢索表達式檢索。,,,一般檢索例,輸入“中國*北京” 表示在默認字段(正文)查詢中國和北京同時出現(xiàn)的記錄。輸入“中華%” 表示在默認字段查詢出現(xiàn)“中華……”的記錄,這里%為通配符。輸入“日期>1997.01.01 *作者=王%”表示查詢?nèi)掌跒?9

61、97年1月1日以后(不含)并且作者是姓王的記錄。輸入“作者=%國慶”將檢索出所有作者為“張國慶”、“歐陽國慶”、“國慶”等的記錄。輸入“作者=張%”將檢索出所有作者為“張國慶”、“張三”、“張”等的記錄。輸入“中國^北京”將檢索出默認字段或者出現(xiàn)北京或者出現(xiàn)中國的紀錄,即兩個值只出現(xiàn)其一的紀錄。輸入“作者=張?慶”將檢索出所有作者為“張國慶”、“張大慶”等的記錄,而作者為“張慶”的記錄不會被檢索出來。,,,數(shù)據(jù)庫維護,索引維護

62、 由于非正常操作等原因,導致索引文件被破壞,不能進行檢索,需要重新對數(shù)據(jù)庫建索引。數(shù)據(jù)優(yōu)化 對數(shù)據(jù)庫的數(shù)據(jù)文件和索引文件進行優(yōu)化重組。數(shù)據(jù)復制/恢復 指兩個庫之間數(shù)據(jù)的復制。數(shù)據(jù)庫備份 注意:首先需要在備份設備的提示框里輸入備份的文件名,如:c:\trs4\trshome\temp\data.bak數(shù)據(jù)庫結構備份/恢復 選擇“文件”菜單“導入/導出”項。數(shù)據(jù)庫記錄的導

63、入/導出 打開數(shù)據(jù)庫記錄瀏覽窗口,選擇“文件”菜單->“另存為”。,,,視圖,視圖是TRS系統(tǒng)中的一種輔助數(shù)據(jù)對象。TRS系統(tǒng)支持對數(shù)據(jù)庫記錄和字段進行直接的授權機制來實現(xiàn)數(shù)據(jù)的安全保密性控制,但有時顯得有些煩瑣。通過視圖來限制某些用戶對數(shù)據(jù)庫字段和記錄的查詢,就可以用一種簡便的方式間接地完成對數(shù)據(jù)庫記錄和字段查詢權的控制。 視圖實際上是一個邏輯數(shù)據(jù)表,它是邏輯地從一個或多

64、個數(shù)據(jù)庫中抽取一個或多個字段并滿足指定條件的記錄。視圖并不物理地存儲數(shù)據(jù),只是描述了組成該視圖的數(shù)據(jù)所遵循的邏輯。每個TRS系統(tǒng)可管理多達數(shù)十億個視圖,每個視圖中可包含1到128個數(shù)據(jù)庫。,,,視圖字段及視圖權限,視圖字段類型(六種) DATE,NUMBER,CHAR,PHRASE,DOCUMENT,BIT,對視圖字段只有檢索權限。視圖權限(三種) ◎記錄檢索權(SELECT):擁有這種權限的用戶,能夠?qū)σ晥D進行檢索

65、操作。 ◎視圖結構修改權(ALTER):擁有這種權限的用戶,能夠?qū)σ晥D的屬性及結構進行修改操作,包括增加和刪除字段,以及修改字段的屬性。 ◎視圖刪除權(DROP):擁有這種權限的用戶,能夠刪除視圖。練習:在DEMO2數(shù)據(jù)庫上創(chuàng)建一個視圖,要求該視圖中只包括日期=1997.1的數(shù)據(jù)。,,,文件格式,文件格式用來說明多媒體數(shù)據(jù)的格式類型。在數(shù)據(jù)庫加載時,TRS系統(tǒng)將根據(jù)數(shù)據(jù)格式確定相應的數(shù)據(jù)存儲方式,使用相應的分詞

66、方法;在數(shù)據(jù)輸出時,TRS系統(tǒng)將根據(jù)數(shù)據(jù)格式對數(shù)據(jù)進行相應的處理,便于瀏覽。每個TRS系統(tǒng)可管理多達1023個文件格式對象。 TRS系統(tǒng)在安裝時,將自動創(chuàng)建常用的數(shù)據(jù)格式對象。(見手冊)   TRS系統(tǒng)允許用戶自己定義新的數(shù)據(jù)格式,或者修改已有的數(shù)據(jù)格式。數(shù)據(jù)格式一旦定義,就不允許刪除,所以必須謹慎,只有超級用戶(即SYSTEM用戶)有權創(chuàng)建新的數(shù)據(jù)格式。,系統(tǒng)配置(1),系統(tǒng)路徑

67、: 在建庫時,庫及詞典相關的存放路徑。物理內(nèi)存:服務器的物理內(nèi)存總量,以兆字節(jié)計算。最長空閑:允許一個用戶實例(TRS系統(tǒng)為每一次登錄都分配一個 獨立的許可證 )最長的空閑時間。以分計,超時將自 動Logout。最小有效:一個用戶應該保持的最小有效時間(除非退出登錄), 以秒計。在此期間內(nèi)不允許自動退出登錄。檢索歷史:系統(tǒng)缺省的最大檢索歷史步數(shù)。最長檢索:一次檢索操作

68、的最長執(zhí)行時間,以秒計算。最大下載:系統(tǒng)允許的一次最大下載記錄數(shù)。這個配置項只有在前端應用程序使用時,才發(fā)生作用。,系統(tǒng)配置(2),維護起始/維護終止 起始時間和終止時間之間的小時數(shù)為TRS系統(tǒng)進入空閑狀態(tài)的檢測窗口,如果不限定終止時間,則檢測窗口為一小時。如果機器的當前系統(tǒng)時間在檢測窗口內(nèi),并且已有一段時間(比如至少10分鐘)沒有任何用戶訪問TRS系統(tǒng),則TRS系統(tǒng)進入空閑狀態(tài)。在空閑狀態(tài)下,系統(tǒng)可以進行一系列的自

69、動維護任務,如優(yōu)化數(shù)據(jù)庫,整理用戶實例等。當系統(tǒng)完成一個自動維護任務時,如果機器的當前系統(tǒng)時間仍處在“空閑狀態(tài)起始時間”和“空閑狀態(tài)終止時間”之間,則系統(tǒng)會啟動一個新的自動維護任務。這個兩個配置項改變后,需要重新啟動TRS系統(tǒng)才有效。 最大排序 對檢索結果進行排序的最大記錄數(shù),為零表示不限制。建議使用系統(tǒng)默認值。,,,TRS對象:TRS系統(tǒng)中的對象包括: 用戶組(GROUP) ;用戶(USER);數(shù)據(jù)庫(DATABASE

70、);數(shù)據(jù)庫字段(BASECOL) ;視圖(VIEW);視圖字段(VIEWCOL);詞典(DICTIONARY) 文件格式(FORMAT) 所有這些對象都具有一致的命名規(guī)則: 對象名可以是中文,英文或中英文的組合,最長為31個字符。 對象名內(nèi)英文字母的大小寫無關。 只能包括A-Z,a-z,0-9,_,或漢字。 除數(shù)據(jù)格式外,對象名不能用TRS保留字(關鍵詞)。 屬于同一個域內(nèi)的對象不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論