【資料下載】學(xué)習(xí)資源語義特征自動提取研究_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2013.11中國電化教育總第322期74學(xué)習(xí)資源學(xué)習(xí)資源語義特征自動提取研究楊現(xiàn)民1,余勝泉2(1.江蘇師范大學(xué)教育研究院,江蘇徐州221116;2.北京師范大學(xué)現(xiàn)代教育技術(shù)研究所,北京100875)摘要:語義化學(xué)習(xí)資源的設(shè)計與建設(shè)已經(jīng)成為eLearning領(lǐng)域研究的熱點。該文提出一種“語義基因”的概念來表征學(xué)習(xí)資源的語義特征,并對語義基因的自動提取方法進行了研究。語義基因反映了學(xué)習(xí)資源背后的內(nèi)在知識結(jié)構(gòu),形式上表現(xiàn)為基于本體描述的帶

2、有權(quán)重的概念集合(包括核心概念以及概念間的關(guān)系)。語義基因在促進資源動態(tài)語義關(guān)聯(lián)、資源檢索、資源分類與聚類、資源進化等方面具有重要應(yīng)用價值。實驗表明,本研究提出的學(xué)習(xí)資源語義基因自動提取方法較之傳統(tǒng)的詞頻法具有較高的召回率和準(zhǔn)確率。關(guān)鍵詞:學(xué)習(xí)資源;語義特性;語義基因;領(lǐng)域本體中圖分類號:G434文獻標(biāo)識碼:A一、引言語義Web技術(shù)正在從實驗室慢慢走向商用,各種語義化的產(chǎn)品和智能應(yīng)用不斷出現(xiàn)(如Powerset、Hakia、Twine)

3、。語義Web的基本思想是用機器可處理的語義元數(shù)據(jù)描述Web資源,使得機器能對Web資源進行自動化處理,并智能地提供語義Web服務(wù)[1]。本體和推理作為語義Web體系架構(gòu)的核心技術(shù),引起了eLearning領(lǐng)域研究者的極大關(guān)注,國內(nèi)外眾多研究機構(gòu)和學(xué)者開始借助本體和推理技術(shù)來解決當(dāng)前eLearning領(lǐng)域存在的資源重復(fù)建設(shè)、檢索效率低、個性化支持不足等問題?;诒倔w的教育資源具有權(quán)威性、規(guī)范性、可共享性等特點,借助本體技術(shù)可以促進數(shù)字教育

4、資源的大范圍共享,提升資源管理的效率和質(zhì)量,實現(xiàn)資源的適應(yīng)性推薦和遞送。本體技術(shù)正在改變著數(shù)字化學(xué)習(xí)資源的組織方式,國內(nèi)外出現(xiàn)了大量應(yīng)用本體技術(shù)實現(xiàn)數(shù)字資源有效組織與管理的研究,主要集中在資源標(biāo)注[2][3]、資源共享[4]、資源檢索[5][6]、資源推薦[7][8]等方面。從維基到語義維基[9],從學(xué)習(xí)對象到語義學(xué)習(xí)對象[10],語義化學(xué)習(xí)資源的設(shè)計與建設(shè)已經(jīng)成為eLearning領(lǐng)域研究的熱點。當(dāng)前大多數(shù)學(xué)習(xí)資源仍采用靜態(tài)元數(shù)據(jù)的方

5、式描述學(xué)習(xí)資源的語義信息,難以實現(xiàn)機器的自動理解和智能處理。學(xué)習(xí)資源是構(gòu)建智慧學(xué)習(xí)環(huán)境的核心要素,而資源的語義化表征和組織是實現(xiàn)個性化資源推薦和適應(yīng)性學(xué)習(xí)的重要前提。如何從語義層面表征學(xué)習(xí)資源的核心內(nèi)容,如何實現(xiàn)學(xué)習(xí)資源語義特征的自動提取,是當(dāng)前eLearning領(lǐng)域?qū)W習(xí)資源進行語義化改造亟待解決的重要問題。學(xué)習(xí)資源的語義特征是指對能夠表征學(xué)習(xí)資源核心內(nèi)容的關(guān)鍵概念及其概念間的語義關(guān)系,采用本體技術(shù)進行語義化表示。本文在分析文本特征提取

6、和語義特征提取方面已有研究的基礎(chǔ)上,提出“語義基因”的概念,可用于描述資源的語義特征。本文對語義基因的概念進行了界定,提出一種學(xué)習(xí)資源語義基因的自動提取方法,并對提取的效果進行了初步檢驗。二、相關(guān)研究當(dāng)前,有關(guān)資源語義特征提取的研究主要集中在語言學(xué)、圖像視頻處理、數(shù)據(jù)挖掘等領(lǐng)域。語言學(xué)領(lǐng)域的語義特征分析與提取研究[1113]的主要目的是從語義學(xué)的角度準(zhǔn)確把握詞匯、句法和語法所表達的語義信息。圖像與視頻語義特征提取研究[1417]的主要目

7、的是用于圖像和視頻的檢索,即通過對高層語義特征信息的提取,提高檢索的召回率和準(zhǔn)確率。上述研究雖說是語義特征提取研究,但實際上在語義特征的表述方面并未涉及到領(lǐng)域本體庫,即未采用規(guī)范的、語義化的方式表征資源的語義信息。目前,大多是將圖像和視頻中的信息通本文系江蘇省高校哲學(xué)社會科學(xué)基金項目“服務(wù)終身教育的泛在學(xué)習(xí)環(huán)境研究”(項目編號:2013SJB880033)和“移動學(xué)習(xí)”教育部—中國移動聯(lián)合實驗室開放課題“泛在學(xué)習(xí)資源的動態(tài)生成與協(xié)同進化

8、機制研究”(項目編號:HX201307)的階段性研究成果。文章編號:1006—9860(2013)11—0074—072013.11中國電化教育總第322期76學(xué)習(xí)資源語義基因,如圖2所示。需要說明的是語義基因的提取有特定的設(shè)計思路和實現(xiàn)算法(詳見下文),這里僅從形式上描述樣例文本的語義基因:CS=建構(gòu)主義,教學(xué)設(shè)計,學(xué)習(xí)環(huán)境,自主學(xué)習(xí)策略,自主建構(gòu),WS=0.35,0.25,0.1,0.15,0.15RS=,,。四、語義基因的自動提取

9、語義基因的自動化提取(SemanticGeneExtractionSGE)類似Web數(shù)據(jù)挖掘中的文本特征提取(TextFeatureExtractionTFE),都要從文本中提取最具代表性的文本特征,但又不同于TFE。TFE經(jīng)常采用基于統(tǒng)計的方法提取文本中的關(guān)鍵詞集,并通過構(gòu)造評估函數(shù)計算特征詞的權(quán)重,常用于文本的自動分類和聚類。SGE更加側(cè)重于提取學(xué)習(xí)資源所傳達知識的核心概念及概念間的關(guān)系,是語義層面的資源特征描述,而非統(tǒng)計學(xué)意義上的

10、簡單關(guān)鍵詞集。SGE除了可以提高文本自動分類和聚類的準(zhǔn)確度,還是實現(xiàn)學(xué)習(xí)資源動態(tài)語義關(guān)聯(lián)的基礎(chǔ),通過語義特征詞集合領(lǐng)域本體,可以計算出更加豐富的資源間的關(guān)系。此外,SGE還可以作為學(xué)習(xí)資源進化發(fā)展的“內(nèi)在控制因子”,控制資源進化的方向。舉個例子,一篇關(guān)于“建構(gòu)主義教學(xué)設(shè)計”的文章,如果有用戶試圖將關(guān)于“一元二次方程解法”的內(nèi)容加進去,該文章的“語義基因”便可以拒絕此次內(nèi)容修改,從而在一定程度上控制資源的質(zhì)量。1.總體技術(shù)框架提取學(xué)習(xí)資源

11、語義基因的前提條件是領(lǐng)域本體庫的建立,語義基因本質(zhì)上是基于本體的資源內(nèi)容特征項,即用標(biāo)準(zhǔn)化的本體數(shù)據(jù)來表征資源的核心內(nèi)容。關(guān)于語義基因的設(shè)置主要有兩種方式:一種是手動設(shè)置,即讓資源的創(chuàng)建者手動添加語義基因,從領(lǐng)域本體庫中選擇能夠準(zhǔn)確表征資源內(nèi)容的本體類,并賦予不同的權(quán)重;二是自動提取,即通過語義基因提取代理自動從資源的文本內(nèi)容中提煉出核心的語義特征項(概念)及關(guān)系,并通過一定的規(guī)則為每個語義特征項賦予不同的權(quán)重。本研究重點研究的是自動化

12、的語義基因提取方法,總體技術(shù)框架如圖3所示。為了從學(xué)習(xí)資源的內(nèi)容中提取語義基因,首先需要將資源實體進行結(jié)構(gòu)化表征。這里可以將學(xué)習(xí)資源實體用四元組表示Res=,Title表示資源的標(biāo)題,Tag表示資源上附加的標(biāo)簽,Content表示資源的具體內(nèi)容,SemanticData表示附加在資源上的基于本體的語義描述信息。Title、Tag、Content和SemanticData為語義基因提取的四種重要來源,在表征資源核心內(nèi)容方面具有不同的重要程

13、度。一般而言,資源的語義描述信息最為重要,SemanticData采用規(guī)范化的本體對資源內(nèi)容進行描述,是獲取語義基因非常重要的數(shù)據(jù)來源;其次,資源的標(biāo)題也很重要,通過Title可以大體判斷資源概念集合CS概念權(quán)重集合WS語義基因概念關(guān)系集合RS包含包含包含圖1語義基因的結(jié)構(gòu)要素內(nèi)容標(biāo)題語義信息學(xué)習(xí)資源標(biāo)簽特征項提取本體映射領(lǐng)域本體庫應(yīng)用特征評價函數(shù)計算權(quán)重基于Jena框架提取概念關(guān)系語義基因圖3語義基因提取的總體技術(shù)框架建構(gòu)主義0.35

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論