版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、三大功能:三大功能:對(duì)未來數(shù)字化古籍的期待未來數(shù)字化古籍的期待王兆鵬王兆鵬中文古籍的數(shù)字化,近幾年發(fā)展迅猛,種類之多,數(shù)量之大,功能之強(qiáng),都出乎我們的意料。古籍的數(shù)字化,不僅可以給我們提供強(qiáng)大的檢索功能,還可以幫助我們發(fā)現(xiàn)問題。數(shù)字化古籍,怎么能夠發(fā)現(xiàn)問題呢?我舉兩個(gè)例子。一是《全宋詞》中,有許多互見詞,也就是一首詞被收錄在不同作者名下,由于史料的缺乏,有的難以判斷這些互見詞的真正作者。為慎重起見,我的老師唐圭璋先生在編《全宋詞》時(shí),根
2、據(jù)相關(guān)文獻(xiàn),把這些互見的同一首詞編列于不同作者的名下。唐先生生前,曾經(jīng)耗費(fèi)大量的精力,做過《宋詞互見考》,能斷是非的就作判斷,不能斷是非的就存疑。我原以為唐先生已經(jīng)將這一工作窮盡了。前幾年一次偶然的機(jī)會(huì),卻發(fā)現(xiàn)《全宋詞》中還有些互見詞,老師并未發(fā)現(xiàn)。那是我要統(tǒng)計(jì)《全宋詞》中相互唱和的詞作,請(qǐng)一個(gè)朋友幫我設(shè)計(jì)一個(gè)軟件,將《全宋詞》中用韻相同或相近的詞作全部列出目錄。他用了四個(gè)小時(shí),在《全宋詞》數(shù)據(jù)庫里加寫了一個(gè)程序,經(jīng)計(jì)算機(jī)自動(dòng)運(yùn)算處理,
3、最終用Excel幫我列出了我所需要的相關(guān)資料和數(shù)據(jù)。如果讓我手工在計(jì)算機(jī)上查詢2萬多首詞哪些是屬于唱和次韻之作,恐怕沒有一年半載的時(shí)間難以做到,他卻只花了一個(gè)晚上的時(shí)間就幫我搞定了。這使我相信,古籍的數(shù)字化,只有我們想不到的,沒有做不到的。我們利用古籍做研究的人,需要數(shù)字化古籍庫提供什么功能,都應(yīng)該可以解決。我在統(tǒng)計(jì)結(jié)果時(shí),意外地發(fā)現(xiàn),有許多用韻完全相同的詞,有的屬于同一首詞,而見于不同作者名下,即屬互見詞。其中不少互見詞,我的老師沒能
4、發(fā)現(xiàn)。這并不是我比老師高明,而是電腦可以窮盡式地處理資料數(shù)據(jù),而手工和記憶,畢竟會(huì)有遺漏。不是這個(gè)數(shù)據(jù)庫,我既不可能準(zhǔn)確地統(tǒng)計(jì)出《全宋詞》中唱和詞的情況,也無法發(fā)現(xiàn)《全宋詞》中還有一些互見詞有待考定。這是數(shù)字化古籍幫我發(fā)現(xiàn)的第一個(gè)問題。第二個(gè)問題是,前年我做《全明詞》和《全清詞》研究。由于明清之際的詞人,時(shí)代的劃分不易處理,屬明屬清,都有道理。于是,有的詞人,這兩本書都予收錄。為了弄清楚這兩本書究竟收錄了哪些共同的詞人和詞作,我讓門下研
5、究生做了一個(gè)數(shù)據(jù)庫,將這兩本書所收錄的詞人、詞作和收錄的來源文獻(xiàn),用Excel做了一個(gè)表格。結(jié)果意外地發(fā)現(xiàn),同一位詞人,兩本書收錄的作品數(shù)量、篇目并不一樣,有的甚至相差二、三百篇。這主要是因?yàn)閮杀緯罁?jù)的文獻(xiàn)不一樣。利用這個(gè)數(shù)據(jù)庫,我寫了一系列的《全明詞》和《全清詞》的研究論文,其中發(fā)現(xiàn)并指出了《全清詞》應(yīng)收而未收的詞作有1600首之多。如果用人工比對(duì),而不用數(shù)據(jù)庫處理,花的時(shí)間多不己的需要,增加相關(guān)條件后,就可以動(dòng)態(tài)地智能化地檢索。二
6、、自動(dòng)化的統(tǒng)計(jì)功能二、自動(dòng)化的統(tǒng)計(jì)功能定量分析,今后可能是古代文學(xué)研究中常用的一種手段和方法。定量分析,需要大量的統(tǒng)計(jì)數(shù)據(jù)。如果數(shù)字化古籍能實(shí)現(xiàn)這個(gè)功能,那就更為便利。比如,我想在《國學(xué)寶典》里統(tǒng)計(jì)歷代評(píng)論李白和杜甫的數(shù)據(jù),從一個(gè)角度比較說明,歷史上是李白更受推崇還是杜甫更受尊敬?目前的《國學(xué)寶典》,我不知道能不能做到。因?yàn)?,在《國學(xué)寶典》里,即使我們從不同的角度用不同的組合方式查到所有李白和杜甫的資料,但《國學(xué)寶典》不能自動(dòng)識(shí)別哪些是
7、評(píng)論資料,哪些是記載生平的歷史資料,更無法識(shí)別資料中對(duì)李杜的評(píng)價(jià)是褒還是貶,是揚(yáng)還是抑。所以無法自動(dòng)統(tǒng)計(jì)和生成我們所需要的評(píng)論數(shù)據(jù)。再比如,我想統(tǒng)計(jì)唐詩在歷代文獻(xiàn)中入選和被稱引或被評(píng)點(diǎn)的資料。這個(gè)數(shù)據(jù),也比較復(fù)雜。原因是,有些詩歌,在題下署了作者的名字,有的沒署。沒署名怎么自動(dòng)識(shí)別是哪位作者的?即使署了名,有的署名,有的署字,有的署別號(hào),又怎樣自動(dòng)識(shí)別哪些名、字、號(hào)是同一位詩人?有的僅征引了詩中的一句或幾句,又怎樣自動(dòng)識(shí)別這幾句是哪位詩
8、人的哪一首詩?體裁上,怎樣自動(dòng)識(shí)別是古體還是近體,是七律還是五律?我目前做的唐詩數(shù)據(jù)庫,是將歷代唐詩選本一一錄入,設(shè)置一些項(xiàng)目,如詩題、作者、文獻(xiàn)來源、體裁等等。然后再分類統(tǒng)計(jì)。有沒有可能,利用現(xiàn)有的大型數(shù)字化古籍,加上一些識(shí)別的條件,讓它自動(dòng)識(shí)別和生成我所需要的數(shù)據(jù)呢?技術(shù)上也許是可能的。我的這個(gè)數(shù)據(jù)庫,目前只含近百種古今唐詩選本,遠(yuǎn)遠(yuǎn)沒有窮盡古今所有的唐詩選本,更沒有包含類書和相關(guān)典籍諸如詩話、筆記、別集、小說中的唐詩資料。數(shù)字化古
9、籍,統(tǒng)計(jì)字頻比較容易,《國學(xué)》網(wǎng)上已公布了《國學(xué)寶典》中單字字頻的數(shù)據(jù)。雖然詞頻統(tǒng)計(jì)相對(duì)復(fù)雜和困難,但已經(jīng)獲得了解決。如果能夠根據(jù)研究者不同的需要,數(shù)字化古籍能自動(dòng)統(tǒng)計(jì)各種數(shù)據(jù),那該多么令人神往!三、多元化的對(duì)比功能三、多元化的對(duì)比功能有比較才有鑒別,有比較才有發(fā)現(xiàn)。科學(xué)研究是從發(fā)現(xiàn)問題開始的。數(shù)字化古籍的對(duì)比功能,用于古籍整理和研究最有優(yōu)勢(shì)。數(shù)字化古籍可進(jìn)行哪些項(xiàng)目的對(duì)比呢?1版本對(duì)比在超大型數(shù)字化古籍庫中,可以考慮同時(shí)收錄同一古籍文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 古籍?dāng)?shù)字化的保真原則
- 淺議古籍?dāng)?shù)字化建設(shè)
- 古籍?dāng)?shù)字化課程閱讀材料
- 農(nóng)業(yè)古籍?dāng)?shù)字化整理研究.pdf
- 數(shù)字化過程中的古籍保護(hù)問題
- 免疫的三大功能
- 古籍?dāng)?shù)字化對(duì)學(xué)術(shù)的影響及其發(fā)展方向
- 10819.廣西地區(qū)特色古籍資源數(shù)字化研究
- 10級(jí)古典文獻(xiàn)專業(yè)古籍?dāng)?shù)字化復(fù)習(xí)要點(diǎn)
- 數(shù)字化中醫(yī)古籍的理想模式及其相關(guān)問題研究.pdf
- 古籍文獻(xiàn)數(shù)字化學(xué)科建設(shè)探究
- 六重自我數(shù)字化未來的衍生物
- 未來數(shù)字化家庭餐廚空間的初探.pdf
- 大功率脈沖電解電源的數(shù)字化設(shè)計(jì).pdf
- 淺析檔案管理數(shù)字化的現(xiàn)狀與未來發(fā)展
- 多功能數(shù)字化胃腸講訴
- 數(shù)字化網(wǎng)絡(luò)時(shí)代酒店如何把握商業(yè)未來
- 淺析檔案管理數(shù)字化的現(xiàn)狀與未來發(fā)展
- 全數(shù)字化三相大功率逆變器及并聯(lián)運(yùn)行.pdf
- 數(shù)字化論文數(shù)字化設(shè)計(jì)論文
評(píng)論
0/150
提交評(píng)論