-
簡(jiǎn)介:計(jì)算機(jī)和互聯(lián)網(wǎng)的誕生引發(fā)了信息技術(shù)革命,使得大量電子文檔涌現(xiàn)出來,實(shí)現(xiàn)了信息交換的高速化、信息的海量存儲(chǔ)和信息檢索,同時(shí)也使得信息的長(zhǎng)期保存得以實(shí)現(xiàn)。相對(duì)于傳統(tǒng)的紙張文檔而言,電子文檔具有占用存儲(chǔ)空間小、檢索方便、傳輸快捷、更新簡(jiǎn)便等優(yōu)點(diǎn),而且電子文檔還可以進(jìn)行必要的保密編碼,提高其可靠性。在海量圖像庫中檢索用戶所需要的圖像,成為當(dāng)前的研究熱點(diǎn)。文檔圖像有別于一般的自然圖像,它以文字為主,其中夾雜圖像、表格的一類特殊的圖像。一般是以工作文件的形式存在的,應(yīng)用十分廣泛。因此文檔圖像檢索得到了廣泛關(guān)注。紙質(zhì)文檔經(jīng)過掃描生成文檔圖像之后,需要經(jīng)過字符識(shí)別工具識(shí)別其中有用的信息。光學(xué)字符識(shí)別OCROPTICALACTERRECOGNITION技術(shù)的出現(xiàn)及成熟使得電子文檔的使用和處理得到廣泛的應(yīng)用,提高了文檔處理的效率。作為印刷體文字識(shí)別系統(tǒng)重要組成部分的文檔版面分析,具有與字符識(shí)別同樣重要的地位。OCR技術(shù)是模式識(shí)別中開展比較早的一個(gè)領(lǐng)域。經(jīng)過幾十年的發(fā)展,已經(jīng)比較成熟。版面分析是OCR系統(tǒng)進(jìn)入自動(dòng)化階段的首要步驟,版面分析結(jié)果的有效性直接影響到文字識(shí)別模塊的運(yùn)行,進(jìn)而影響整個(gè)系統(tǒng)的效率,因此設(shè)計(jì)高效的版面分析系統(tǒng),對(duì)提高整個(gè)OCR系統(tǒng)的質(zhì)量,起著十分重要的作用。詳細(xì)的來說,版面分析是指對(duì)版面內(nèi)的圖形、圖像信息和結(jié)構(gòu)關(guān)系所進(jìn)行的自動(dòng)分析、識(shí)別和理解的過程。圖像檢索的過程包括提取圖像的特征,對(duì)提取的特征進(jìn)行特征匹配,利用距離度量方法比較圖像的相似度,根據(jù)相似度對(duì)檢索出的結(jié)果進(jìn)行降序排列,將符合條件的結(jié)果輸出給用戶。其中特征提取和特征匹配是檢索技術(shù)的關(guān)鍵。文檔圖像具有諸如標(biāo)題,段落,行等版面特征。在不使用昂貴的OCR技術(shù)方法進(jìn)行文字識(shí)別,直接作用在圖像數(shù)據(jù)的情況下,我們借鑒圖像的版面特征的分析方法,將此方法用于傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)上來,提出了從文檔圖像的文本區(qū)域的版面中提取出行特征,將提取出的版面行特征作為索引項(xiàng),進(jìn)行圖像的特征匹配和相似性度量工作,從而形成了一個(gè)新的檢索特征的檢索算法,將算法實(shí)際應(yīng)用于圖像匹配和識(shí)別上,并有一定的識(shí)別效果。本文操作的對(duì)象是文本區(qū)域,因此在提取特征之前,利用版面分析方法分析文檔中是否含有圖像、表格等非文本區(qū)域,通過非文本區(qū)域?yàn)V波方式將這些區(qū)域進(jìn)行過濾,保留文本區(qū)域。正因?yàn)槿绱讼拗屏舜朔椒ǖ倪m用范圍。對(duì)于復(fù)雜版面的文檔圖像沒有涉及,如含有橫排、豎排,以及橫排和豎排混合的版面,應(yīng)用范圍相對(duì)比較窄。匹配技術(shù)是文檔圖像檢索技術(shù)中的核心技術(shù),它主要是從文檔數(shù)據(jù)庫中給出輸入圖像的最佳匹配。匹配技術(shù)建立在特征定義及其提取基礎(chǔ)之上。衡量?jī)蓚€(gè)版面相似性度量的距離度量方法有很多。本文的特征匹配使用點(diǎn)模式匹配,建立在行特征基礎(chǔ)之上,將行線抽象為空間中的點(diǎn),點(diǎn)的灰度值定義為行線的長(zhǎng)度。使用中心點(diǎn)加權(quán)平均方式找出圖像的中心點(diǎn),然后計(jì)算其相對(duì)坐標(biāo)。使用差異能量來進(jìn)行圖像的相似性匹配。所用的點(diǎn)模式匹配時(shí)間復(fù)雜度相對(duì)比較高,還需要進(jìn)一步改進(jìn)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 54
大小: 1.43(MB)
子文件數(shù):
-
簡(jiǎn)介:跨文檔共指消解CROSSDOCUMENTCEFERENCECDC是以分散在不同文本來源中的相同名詞實(shí)體為對(duì)象通過信息抽取、信息表示和聚類等技術(shù)最終判定這些名詞實(shí)體與客觀概念之間的共指關(guān)系的過程。CDC的研究涉及信息抽取、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域其是文本信息融合的核心技術(shù)是文本信息理解的研究基礎(chǔ)。隨著信息社會(huì)的不斷發(fā)展對(duì)于高效獲取和組織信息的技術(shù)需求日益迫切CDC研究的重要性也日益凸顯。在目前CDC的相關(guān)研究中傳統(tǒng)的文本挖掘方法依然占據(jù)核心地位。然而隨著對(duì)CDC技術(shù)研究的逐漸深入傳統(tǒng)的文本挖掘方法已經(jīng)很難適應(yīng)當(dāng)前CDC應(yīng)用的要求。例如文本本身的復(fù)雜性、文本邊界的束縛、相關(guān)信息的抽取以及領(lǐng)域和先驗(yàn)知識(shí)的匱乏都已經(jīng)嚴(yán)重地影響到了CDC技術(shù)的發(fā)展與應(yīng)用。CDC相關(guān)研究的難題其本質(zhì)上都是由于自然語言文本中信息的復(fù)雜性和相關(guān)性所導(dǎo)致的。自然語言文本中信息的復(fù)雜性和相關(guān)性歸根結(jié)底是源于人的思維的復(fù)雜性和相關(guān)性。這種復(fù)雜性和相關(guān)性是由于人對(duì)復(fù)雜的客觀事物具備了更為深入的認(rèn)知能力、推理能力和表述刻畫能力。然而這也是計(jì)算機(jī)在獲取、組織和理解文本信息的過程存在著諸多難題的根源。因此若能降低自然語言文本信息的復(fù)雜性充分利用現(xiàn)有的數(shù)據(jù)挖掘、模式識(shí)別技術(shù)識(shí)別和處理其相關(guān)性并且在此基礎(chǔ)上大膽創(chuàng)新探索出適用于CDC問題的計(jì)算機(jī)技術(shù)處理方案將能夠極大的推動(dòng)CDC研究的發(fā)展。利用模式識(shí)別和數(shù)據(jù)挖掘技術(shù)的重要方法貝葉斯理論和圖理論對(duì)自然語言文本信息進(jìn)行定量的轉(zhuǎn)化與表示。作者將這些理論引入CDC問題的研究當(dāng)中用以拋磚引玉為CDC技術(shù)的進(jìn)一步發(fā)展提供更新的技術(shù)路線與解決方案。本文的主要研究?jī)?nèi)容如下①基于非參數(shù)貝葉斯模型的跨文檔共指消解方案以往的跨文檔共指消解方案都是采用文檔內(nèi)部共指鏈或者信息窗口的方法對(duì)待消解名詞實(shí)體的相關(guān)信息域進(jìn)行劃分并抽取信息特征進(jìn)行信息表示。在本方案中首先考慮到主題在文本中的分布情況假設(shè)主題在待消解名詞實(shí)體相關(guān)信息域中的分布是相同的以文檔中的句子為對(duì)象通過分層DIRICHLET過程HIERARCHICALDIRICHLETPROCESSHDP模型計(jì)算句子中各個(gè)主題所占的成分再利用DIRICHLET過程混合模型DIRICHLETPROCESSMIXTUREMODELDPMM對(duì)句子進(jìn)行聚類將包含待消解名詞實(shí)體的劃分句子集作為待消解名詞實(shí)體的相關(guān)信息域隨后采用HDP模型重新計(jì)算各信息域內(nèi)主題所占的成分從而對(duì)各個(gè)待消解名詞實(shí)體的相關(guān)信息域進(jìn)行信息表示最后通過現(xiàn)有研究中常用的聚類算法對(duì)方案性能進(jìn)行評(píng)估評(píng)估結(jié)果表明該方案較現(xiàn)有的方法具有更好的消解效果。此外本文還論證了非參數(shù)聚類方法在方案中使用的局限性。②基于圖理論的跨文檔共指消解方案方案首先采用圖理論的信息表示方法信息圖對(duì)待消解名詞實(shí)體的信息域進(jìn)行了表示。該信息表示方法可以很好的體現(xiàn)各名詞實(shí)體之間的關(guān)系同時(shí)又對(duì)文本中的信息進(jìn)行了有效篩選其次方案通過將信息圖進(jìn)行相似性度量獲得各個(gè)待消解名詞實(shí)體的信息圖之間的相似關(guān)系從而構(gòu)建各個(gè)待消解名詞實(shí)體的關(guān)系網(wǎng)絡(luò)最后通過采用有權(quán)的社交網(wǎng)絡(luò)社團(tuán)劃分方法對(duì)整個(gè)關(guān)系網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分得到社團(tuán)結(jié)構(gòu)即為各個(gè)待消解名詞實(shí)體的共指關(guān)系劃分。該方案通過在常用公共數(shù)據(jù)集上的性能評(píng)估證明方案在不借助任何先驗(yàn)知識(shí)和領(lǐng)域知識(shí)的情況下較以往的方法在性能上有一定的提升且方案具有較好的普適性具有很好的實(shí)用價(jià)值。③擴(kuò)充的基于圖理論跨文檔共指消解方案雖然基于圖理論的跨文檔的共指消解方案已經(jīng)具有了較好的消解性能和很好的實(shí)用價(jià)值但是圖的信息表示方法還具有可以挖掘的潛力?;谏鲜隹紤]提出了基于圖理論擴(kuò)展的跨文檔共指消解方案。該方案主要從以下兩點(diǎn)對(duì)同模型進(jìn)行擴(kuò)展1通過信息圖的拓?fù)涮匦詫?duì)信息圖進(jìn)行有權(quán)化擴(kuò)展計(jì)算得到了信息圖中的節(jié)點(diǎn)權(quán)重向量和邊權(quán)重向量2對(duì)信息圖進(jìn)行了合理的向量轉(zhuǎn)化使其可以通過向量的相似性度量算法計(jì)算各信息圖之間的相似度從而構(gòu)建了各個(gè)待消解名詞實(shí)體的關(guān)系網(wǎng)絡(luò)。擴(kuò)展的效果通過社交網(wǎng)絡(luò)的社團(tuán)劃分方法進(jìn)行了性能評(píng)估結(jié)果顯示相較于基本的圖理論信息表示方法該方案在信息量較大的文本數(shù)據(jù)中可以有一定的性能提升但是在信息量相對(duì)較少的文本數(shù)據(jù)中效果差別不大。經(jīng)過分析出現(xiàn)這種結(jié)果的主要原因在于文本信息量越大其名詞節(jié)點(diǎn)之間的關(guān)系越復(fù)雜擴(kuò)展后的有權(quán)信息圖可以對(duì)其更好的刻畫然而信息量較少的文本生成的信息圖結(jié)構(gòu)相對(duì)簡(jiǎn)單對(duì)其有權(quán)化的意義不大。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 125
大?。?3.73(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 44
大?。?1.09(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著因特網(wǎng)和通信技術(shù)的迅猛發(fā)展,校園網(wǎng)建設(shè)的不斷深入,高校管理的網(wǎng)絡(luò)化、信息化、規(guī)范化已經(jīng)逐漸應(yīng)用到學(xué)校的各個(gè)部門,成為當(dāng)今社會(huì)的一種發(fā)展趨勢(shì)。電子科技期刊是西安電子科技大學(xué)主辦的學(xué)術(shù)、技術(shù)類專業(yè)期刊,是國(guó)家級(jí)A類期刊,陜西省優(yōu)秀期刊。由于電子科技期刊編輯部目前仍采用EMAIL的投稿方式,使編輯部的工作負(fù)擔(dān)非常重,稿件管理的效率也非常低,影響了編輯部在同行業(yè)中的競(jìng)爭(zhēng)力。因此,學(xué)術(shù)期刊管理系統(tǒng)的開發(fā)和建立對(duì)電子科技期刊編輯部是十分必要的。本文是在對(duì)編輯部的工作內(nèi)容進(jìn)行了深入研究的基礎(chǔ)上,通過分析該領(lǐng)域的用戶需求,確定了基于WEB的學(xué)術(shù)期刊管理系統(tǒng)的功能和目標(biāo),并對(duì)其進(jìn)行開發(fā)與實(shí)現(xiàn)。通過對(duì)CS和BS體系結(jié)構(gòu)的詳細(xì)比較,本系統(tǒng)采用相對(duì)先進(jìn)的基于BS的三層體系結(jié)構(gòu)。在該模式下,采用開發(fā)技術(shù),C#開發(fā)語言,MICROSOFTSQLSERVER數(shù)據(jù)庫,保證了系統(tǒng)的穩(wěn)定性和實(shí)用性。此外,本文也對(duì)期刊管理系統(tǒng)的需求、工作流程進(jìn)行了分析,為系統(tǒng)劃分了作者投遞稿件模塊、專家評(píng)審稿件模塊、編輯管理稿件模塊和管理員主編總體管理四個(gè)模塊,并根據(jù)模塊功能需求對(duì)各個(gè)模塊分別進(jìn)行功能設(shè)計(jì)以及數(shù)據(jù)庫設(shè)計(jì),使整個(gè)系統(tǒng)具有界面友好、可擴(kuò)展性強(qiáng)、便于維護(hù)等優(yōu)點(diǎn)。最后還從系統(tǒng)實(shí)現(xiàn)方面對(duì)系統(tǒng)設(shè)計(jì)進(jìn)行了詳細(xì)的說明和介紹。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁數(shù): 69
大小: 4.7(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著互聯(lián)網(wǎng)的普及互聯(lián)網(wǎng)上包含著海量的并且時(shí)刻在增加的信息。針對(duì)用戶輸入的一個(gè)簡(jiǎn)單查詢搜索引擎一般會(huì)返回用戶可能需要的一系列經(jīng)過排序的網(wǎng)頁其中有大量不相關(guān)的、重復(fù)的數(shù)據(jù)需要用戶耗費(fèi)很多精力來自己查找有用的結(jié)果。面向查詢的多文檔自動(dòng)文摘技術(shù)將大量的查詢相關(guān)文檔中的內(nèi)容提煉、重組為一定長(zhǎng)度的簡(jiǎn)短摘要加速用戶的信息獲取通常要求摘要的內(nèi)容簡(jiǎn)潔、組織良好、冗余低、滿足個(gè)性化需求。面向查詢的多文檔自動(dòng)文摘技術(shù)能夠減小從海量數(shù)據(jù)中獲取信息的難度提高信息獲取及理解的速度進(jìn)而提高用戶獲取以及利用信息的效率提高使用者在信息社會(huì)中的競(jìng)爭(zhēng)實(shí)力。云模型是李德毅院士提出的一種處理不確定性概念中模糊性、隨機(jī)性及其關(guān)聯(lián)性的定性定量轉(zhuǎn)換模型。云模型從研究自然語言概念的不確定性入手展開對(duì)不確定性人工智能的研究。雖然云模型發(fā)端于自然語言中的概念但遺憾的是就目前搜集到的論文情況看來將云模型直接應(yīng)用在自然語言處理領(lǐng)域本身的工作還比較少見。本論文針對(duì)中文語料中的面向查詢多文檔自動(dòng)文摘展開了研究首先構(gòu)建可以用于公開評(píng)測(cè)的評(píng)測(cè)語料、人工摘要在此基礎(chǔ)上利用云模型進(jìn)行文摘內(nèi)容選取、句子修剪、句子排序力圖生成滿足用戶需求的聚焦度高、內(nèi)容精練、可讀性好的連貫摘要最后采用修改后的ROUGE工具進(jìn)行中文文摘自動(dòng)評(píng)測(cè)。本文主要研究工作和研究成果概括如下一、提出了一種基于云模型的文摘單元選取方法利用云模型全面考慮文摘單元的隨機(jī)性和模糊性提高面向查詢的多文檔自動(dòng)文摘系統(tǒng)的性能。首先計(jì)算文摘單元和查詢條件的相關(guān)性將文摘單元和各個(gè)查詢?cè)~的相關(guān)度看成云滴通過對(duì)云的不確定性的計(jì)算找出與查詢條件真正意義相關(guān)的文摘單元。隨后利用文檔集合重要度對(duì)查詢相關(guān)的結(jié)果進(jìn)行修正將文摘句和其他各文摘句的相似度看成云滴利用云的數(shù)字特征計(jì)算句子重要度找出能夠概括盡可能多的文檔集合內(nèi)容的句子避免片面地只從某一個(gè)方面回答查詢問題。為了證明文摘單元選取方法的有效性在英文大規(guī)模公開語料上進(jìn)行了實(shí)驗(yàn)并參加了國(guó)際自動(dòng)文摘公開評(píng)測(cè)取得了較好的成績(jī)。二、構(gòu)建了中文自動(dòng)文摘評(píng)測(cè)語料庫及中文自動(dòng)評(píng)測(cè)工具并以此為基礎(chǔ)構(gòu)建了一種基于云模型的中文面向查詢多文檔自動(dòng)文摘系統(tǒng)。中文自動(dòng)文摘評(píng)測(cè)語料庫由1000篇文檔、100個(gè)文檔集合和查詢條件、400篇人工摘要構(gòu)成通過修改英文文摘評(píng)測(cè)工具ROUGE的源程序?qū)崿F(xiàn)了中文自動(dòng)文摘的ROUGE自動(dòng)評(píng)測(cè)。首先將50個(gè)文檔集合作為訓(xùn)練語料采用哈工大最新共享的語言技術(shù)平臺(tái)進(jìn)行句子切分、分詞隨后利用中文自動(dòng)評(píng)測(cè)工具在測(cè)試語料中進(jìn)行參數(shù)訓(xùn)練最后采用基于云模型的文摘單元選取方法生成中文摘要就此搭建了中文云摘要系統(tǒng)三、提出了一種基于多維云和依存分析的中文句子修剪方法進(jìn)一步提高文摘質(zhì)量。首先制定基于依存分析的句子修剪規(guī)則對(duì)每個(gè)候選文摘句進(jìn)行句子修剪從而產(chǎn)生多候選句隨后利用多維云綜合考慮詞語在句子、文檔集合中的分布以及和查詢條件的相關(guān)性對(duì)各修剪句進(jìn)行打分在云的疊加過程中實(shí)現(xiàn)了不確定性的有效傳遞最后選取那些包含信息量最大、長(zhǎng)度最短的修剪句替換候選文摘句構(gòu)成自動(dòng)摘要從而使文摘包含更多的有效信息。四、提出了一種基于云模板的文摘句排序方法使生成的中文云摘要更加連貫。云模板的方法將文檔集合中的每一篇文檔都看成模板利用云模型將各篇文檔的排序結(jié)果綜合到一起既避免了單一模板方法對(duì)于單個(gè)文檔的依賴也避免了多數(shù)次序方法只能兩兩排序的缺點(diǎn)。首先利用基于復(fù)雜網(wǎng)絡(luò)的自適應(yīng)增量聚類方法對(duì)文檔集合進(jìn)行聚類找出那些包含有一個(gè)或多個(gè)文摘句的子主題隨后將文檔集合中的每一篇文檔都看作模板利用這些模板構(gòu)成的云確定子主題和文摘句在模板中的相對(duì)位置最后依次對(duì)子主題以及對(duì)子主題內(nèi)部的句子進(jìn)行排序從而生成連貫性更好、可讀性更強(qiáng)的自動(dòng)摘要。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 152
大?。?14.74(MB)
子文件數(shù):
-
簡(jiǎn)介:CEBXCOMMONEDOCUMENTOFBLENDINGXML,基于混合XML的公共電子文檔是一種同時(shí)支持版式和流式的文檔格式。CEBX格式文檔既擁有在不同環(huán)境下高保真的顯示效果又可以很好的解決在移動(dòng)終端閱讀時(shí)版式文檔顯示不完全的問題。該格式的文檔能夠詳細(xì)記錄整篇文檔所有的邏輯信息,利用這些邏輯結(jié)構(gòu)信息能夠在需要的時(shí)候?qū)⑽臋n的顯示效果轉(zhuǎn)換成流式顯示,并且可以使用CEBX文檔編輯器APANCARBON30提供的邏輯信息插件更改邏輯信息來任意更改流式文檔中字體大小、顏色、背景等閱讀樣式和流式顯示效果。本文中描述的邏輯信息插件的設(shè)計(jì)改進(jìn)了以往邏輯信息編輯功能的缺點(diǎn),進(jìn)行了更加方便用戶操作的改進(jìn),該插件能夠?qū)崿F(xiàn)版式文檔視圖和流式文檔視圖同步顯示,此外還能夠?qū)崿F(xiàn)自動(dòng)智能提取文檔流式信息;對(duì)版式文檔的段落進(jìn)行標(biāo)記并根據(jù)該標(biāo)記修改流式下的段落排序或者刪除流式下該段落內(nèi)容;能夠使用戶直接對(duì)流式排版進(jìn)行編輯,修改流式文檔樣式,改變文檔自適應(yīng)重排后的顯示效果。本人在邏輯信息的插件開發(fā)中獨(dú)立完成以下工作基于APABICARBON30主工程搭建邏輯信息插件工程,智能提取功能的開發(fā),版流式同步功能的開發(fā),段落排序功能的開發(fā),參與流式編輯功能中部分功能的開發(fā)。在進(jìn)行開發(fā)工作的同時(shí)還對(duì)插件的功能進(jìn)行了測(cè)試。本文詳細(xì)描述了基于ADFAPABIDESKTOPFOUNDATION軟件開發(fā)框架、使用C程序設(shè)計(jì)語言實(shí)現(xiàn)的跨平臺(tái)軟件APABICARBON30中邏輯信息插件的設(shè)計(jì)和開發(fā)流程。內(nèi)容包括CEBX文檔標(biāo)準(zhǔn),ADF軟件開發(fā)框架的背景知識(shí),APABICARBON30的架構(gòu)介紹,邏輯信息編輯功能需求的確定,插件中類的設(shè)計(jì),插件中各個(gè)功能的設(shè)計(jì)流程,以及最終實(shí)現(xiàn)的功能的測(cè)試等。邏輯信息插件對(duì)電子書制作中的關(guān)鍵工作進(jìn)行抽象提取,設(shè)計(jì)了更加人性化的操作方式,提高了電子書的制作效率。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 62
大?。?6.25(MB)
子文件數(shù):
-
簡(jiǎn)介:該文由七章組成第一章簡(jiǎn)述XML的基本概念及其與數(shù)據(jù)庫的關(guān)系第二章介紹XML的模式概念及其正規(guī)數(shù)據(jù)模型第三章按照XML查詢語言的要求對(duì)現(xiàn)有的幾種查詢語言進(jìn)行比較指出其共同點(diǎn)和不同之處說明為何選擇XMLQL作為該文的藍(lán)本第四章具體描述XMLQL語言提出一種有效的實(shí)現(xiàn)方式其中也介紹訪問XML文檔的API文檔對(duì)象模式DOCUMENTOBJECTMODELDMO和簡(jiǎn)單應(yīng)用編程接口SIMPLEAPIFXMLSAX第五章討論XML查詢的優(yōu)化處理主要著眼于基于DTD信息的優(yōu)化、路徑索引和代數(shù)優(yōu)化第六章討論如何將XML模式主要是DTD轉(zhuǎn)換成數(shù)據(jù)庫模式并把該模式所對(duì)應(yīng)的文檔存入數(shù)據(jù)庫第七章是對(duì)XML數(shù)據(jù)處理的總結(jié)和展望
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 79
大小: 2.05(MB)
子文件數(shù):
-
簡(jiǎn)介:企業(yè)在信息化進(jìn)程中,內(nèi)部信息總量也在快速增加,信息的管理強(qiáng)度和難度也在增強(qiáng)。如CAD軟件的運(yùn)用,使圖檔的保存、管理和高效利用問題日益顯現(xiàn),所以對(duì)于CAD軟件文檔信息數(shù)據(jù)提取和管理的研究很有必要。本課題主要針對(duì)三維CAD軟件文檔關(guān)鍵信息數(shù)據(jù)的來源、應(yīng)用、提取進(jìn)行研究,以AUTODESKINVENT軟件為例,分析了零部件模型文檔屬性信息的創(chuàng)建方法及流向,工程圖中標(biāo)題欄、明細(xì)欄、參數(shù)表中數(shù)據(jù)信息來源,資源庫中標(biāo)準(zhǔn)件的信息傳遞等。運(yùn)用面向?qū)ο蟮亩伍_發(fā)技術(shù),利用插件與學(xué)徒服務(wù)器的應(yīng)用程序接口訪問方式,有效的解決了零部件文檔特性的快速生成、標(biāo)題欄的國(guó)標(biāo)化、明細(xì)欄的國(guó)標(biāo)化、參數(shù)表的快速生成及標(biāo)題欄、明細(xì)欄的信息提取與管理。完善了CAD軟件用戶界面功能,彌補(bǔ)了工程圖中對(duì)自由表格處理不便的缺陷,提高了表格對(duì)象的繪制效率,同時(shí)便于為PDM管理系統(tǒng)提供源數(shù)據(jù),方便實(shí)現(xiàn)文檔、圖檔的管理和物料清單的打印輸出等,有利于企業(yè)信息化管理水平的提高。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 69
大?。?4.37(MB)
子文件數(shù):
-
簡(jiǎn)介:論文分析了文檔圖像的特點(diǎn)指出文檔圖像是由一些具有特定性質(zhì)的區(qū)域塊組合而成通常包括文字塊、線圖、連續(xù)色調(diào)圖像真彩色圖和半色調(diào)圖像帶調(diào)色板的圖借鑒1997年國(guó)際電信同盟ITU提出的文檔圖像層分割的建議標(biāo)準(zhǔn)并結(jié)合目前的分割算法論文提出了一種優(yōu)化的文檔圖像分割模型在文檔圖像的優(yōu)化分割模型的基礎(chǔ)上為了解決多尺度聚類層分割算法中尺度選擇的問題論文進(jìn)一步研究了基于BAYESIAN模型的多尺度分割算法以樹狀結(jié)構(gòu)表示圖像像素以及特征空間之間的依賴關(guān)系采用基于馬爾可夫隨機(jī)場(chǎng)的BAYES方法進(jìn)行圖像的層分割以獲得更準(zhǔn)確的文檔圖像的層分割結(jié)果論文的最后完成了優(yōu)化模型的分割實(shí)驗(yàn)并給出了示例圖像的分割效果并對(duì)分割的結(jié)果與單一的塊分割和層分割的分割結(jié)果進(jìn)行了比較
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 54
大?。?1.94(MB)
子文件數(shù):
-
簡(jiǎn)介:因特網(wǎng)的飛速發(fā)展使得以電子形式存在的信息資源越來越多。對(duì)于繁多紛雜的信息資源通過人工篩選來獲取所需的信息已是不可能的,信息檢索可以幫助人們從浩瀚的信息資源中找到所需的信息。由于在自然語言理解上目前還未取得重大突破,大多數(shù)信息檢索系統(tǒng)都是基于關(guān)鍵字或詞的機(jī)械式的符號(hào)匹配的方式進(jìn)行檢索的。反饋技術(shù)能夠?qū)τ脩舻牟樵冞M(jìn)行重造,目的是使檢索結(jié)果更好地滿足用戶的信息需求。相關(guān)反饋能夠非常有效地提高檢索性能,但需要用戶判斷哪些符合自己的意圖,并將它們標(biāo)識(shí)出來,在很多IR系統(tǒng)中的實(shí)現(xiàn)效率都不太高。偽相關(guān)反饋不需要用戶的參與,系統(tǒng)默認(rèn)自己檢索結(jié)果的前N篇文檔是相關(guān)文檔,但是某些情況下這種假設(shè)是不成立的。本文旨在語言模型的框架下提出一種能夠在無需用戶參與的情況下,全自動(dòng)的實(shí)現(xiàn)接近相關(guān)反饋效果的一種模型,我們稱為FWN模型。信息檢索系統(tǒng)的檢索結(jié)果列表中,相關(guān)文檔間的相似度普遍較高,不相關(guān)文檔間的相似度較低,特征分布也相對(duì)松散。文檔排名越靠前,文檔是相關(guān)文檔的可能性越高,故可對(duì)檢索結(jié)果前N篇文檔先進(jìn)行聚類分析,去除一部分不相關(guān)的文檔。然后應(yīng)用相關(guān)反饋算法進(jìn)行查詢?cè)~的擴(kuò)展和概率值的重新分配來增強(qiáng)反饋效果,最后用產(chǎn)生的新查詢進(jìn)行檢索。為了驗(yàn)證FWN模型,本文在TREC測(cè)試集上進(jìn)行了一系列的實(shí)驗(yàn)。實(shí)驗(yàn)的結(jié)果顯示出這個(gè)模型的檢索性能比原查詢和偽相關(guān)反饋模型都有顯著提升,證明了本模型是非常有效的。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 64
大小: 5.3(MB)
子文件數(shù):
-
簡(jiǎn)介:可擴(kuò)展標(biāo)記語言XMLEXTENSIBLEMARKUPLANGUAGE是一門新興的面向INTEMET應(yīng)用的標(biāo)記語言。它是W3CWLDWIDEWEBCONSTIUM互聯(lián)網(wǎng)聯(lián)盟提出的一套用于WEB網(wǎng)絡(luò)上的數(shù)據(jù)和文檔結(jié)構(gòu)的通用標(biāo)記語言。XML實(shí)際上是一種定義語言,即使用者可以自行定義標(biāo)記來描述文件中的數(shù)據(jù)元素,從而突破了HTML固定標(biāo)記集合的約束。XML不僅提供數(shù)據(jù)自身的信息,而且可以用來描述數(shù)據(jù)的結(jié)構(gòu)。XML的迅速發(fā)展使其成為WEB發(fā)展和數(shù)據(jù)交換的一種新標(biāo)淮。WEB上大量XML數(shù)據(jù)的使用引起了諸多問題,其中之一即為如何有效地對(duì)XML數(shù)據(jù)進(jìn)行存儲(chǔ)與管理。利用關(guān)系數(shù)據(jù)庫存儲(chǔ)XML數(shù)據(jù),最大的優(yōu)勢(shì)在于可以利用關(guān)系數(shù)據(jù)庫現(xiàn)有的存儲(chǔ)管理、并發(fā)控制、恢復(fù)、版本機(jī)制等技術(shù)有效地管理數(shù)據(jù)。所以研究XML數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中的存儲(chǔ)成為XML研究的一個(gè)熱點(diǎn)。當(dāng)XML數(shù)據(jù)存儲(chǔ)到關(guān)系數(shù)據(jù)庫時(shí),需要將樹狀結(jié)構(gòu)的XML文檔映射成平面的行和列,這樣不僅增加了轉(zhuǎn)換的時(shí)間,而且破壞了文檔本身的結(jié)構(gòu),從而降低了數(shù)據(jù)處理的速度。本文主要研究XML文檔在關(guān)系數(shù)據(jù)庫中的存儲(chǔ)問題。通過查閱大量文獻(xiàn),作者介紹了XML的相關(guān)技術(shù),并對(duì)各種XML文檔的存儲(chǔ)方法作了一個(gè)簡(jiǎn)單的比較。作者對(duì)XML文檔的各種存儲(chǔ)方法進(jìn)行分析。同時(shí)對(duì)XMLSCHEMA的基本語義進(jìn)行分析,引入B_SCHEMABASICXMLSCHEMA的概念,提出一個(gè)基于B_SCHEMA的XML文檔存儲(chǔ)方法。主要內(nèi)容如下B_SCHEMA是XMLSCHEMA的一種等價(jià)形式。B_SCHEMA可以被直接映射為關(guān)系模式。B_SCHEMA由XMLSCHEMA生成,采用DOM樹表示。引入分級(jí)節(jié)點(diǎn)的概念,分級(jí)節(jié)點(diǎn)可以直接映射為關(guān)系。代價(jià)模型結(jié)合B_SCHEMA中的統(tǒng)計(jì)信息,對(duì)B_SCHEMA進(jìn)行代價(jià)估計(jì)。引入一組改寫規(guī)則對(duì)B_SCHEMA進(jìn)行改寫。B_SCHEMA的改寫主要集中在兩個(gè)方面內(nèi)聯(lián)改寫和CHOICE合并改寫。引入一種搜索算法進(jìn)行優(yōu)化處理。該算法利用改寫規(guī)則得到一組等價(jià)的B_SCHEMA集合,對(duì)B_SCHEMA進(jìn)行代價(jià)估計(jì)、比較,迭代得到代價(jià)最小的B_SCHEMA。同時(shí),為了加快搜索速度,引入代價(jià)優(yōu)化指數(shù)作為搜索算法的結(jié)束條件。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 63
大?。?1.94(MB)
子文件數(shù):
-
簡(jiǎn)介:南京理工大學(xué)碩士學(xué)位論文文檔版面分析的研究姓名郭麗申請(qǐng)學(xué)位級(jí)別碩士專業(yè)模式識(shí)別與智能控制指導(dǎo)教師楊靜宇200031文檔版面分析的研究ABSTRACTTHISPAPERISMAINLYABOUTDOCUMENTANALYSIS,THEPROCESSBYWHICHFLSCANNEDPAGEISDIVIDEDINTOCOLUMNSANDBLOEKSWHICHARCTHELLCLASSIFIEDASHALFTONES,GRAPHICS,ORTEXTTHISPAPERUSESPROJECTIONPOLYTOMYMETHODBASEDONPROJECTIONANDCONNECTIVITYSEGMENTATIONMETHODBASEDONEDGEDETECTIONTOSEGMENTDOCUMENTIMAGES,THEPROCESSINGEFFECTISVERYGOODTHECONNEETIVITYSEGMENTATIONMETHODCARLDEALSWITILNOTONLYTHEREGULARRECTANGLELAYOUT,ANDALSONONMANHATTANLAYOUTTHEREGIONRECOGNITIONPROCESSUSESPROJECTIONPERIODICITY,ANDTHERECOGNITIONRATEIS95%KEYWORDDOCUMENTANALYSIS,DOCUMENTSEGMENTATION,REGIONRECOGNITION,PROJECTIONPOLYTOMY,CONNECTIVITYSEGMENTATION,SKEWCORRECTION,CROSSCORRELATION南京理丁人學(xué)碩L論文第1I頁
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 80
大?。?3(MB)
子文件數(shù):
-
簡(jiǎn)介:文檔碎片的實(shí)際破碎狀況具有很大的隨意性和復(fù)雜性,加之當(dāng)今在這一方面上的研究與復(fù)原技術(shù)還不很完善和成熟,因此,目前有關(guān)碎片的拼接和復(fù)原研究,尤其是多數(shù)量下的研究和處理,是一項(xiàng)極其耗時(shí)、極其費(fèi)工的棘手問題。在歷史也存在著很多這樣的例子,像前東德國(guó)安全部的文件復(fù)原工作就是一個(gè)代表性的事例,它反映出破碎文檔的拼接和復(fù)原工作的實(shí)現(xiàn)意義。另外破碎文檔的拼接和復(fù)原在很多的領(lǐng)域,像刑事偵查中的取證、司法中的物證復(fù)原、歷史文獻(xiàn)研究中的修復(fù)和補(bǔ)救、文物考古中的復(fù)原等各個(gè)領(lǐng)域中有著不可替代的作用。本文對(duì)二維空間上任意多邊形且具有字符特征的文檔碎片的拼接復(fù)原問題進(jìn)行了研究,主要介紹了文檔碎片的數(shù)字化預(yù)處理,提出了一類文檔碎片邊緣特征點(diǎn)提取的方法,并著重研究了文檔碎片邊緣特征數(shù)據(jù)鏈的構(gòu)造,建立了邊緣特征點(diǎn)的匹配集,提出了具有獨(dú)創(chuàng)性的匹配算法,將碎片形狀和字符留置在碎片邊緣上的特征一起考慮進(jìn)來,以此作為拼接的重要依據(jù)。借助計(jì)算機(jī)和MATLAB數(shù)學(xué)軟件,驗(yàn)證和仿真了文章提出的匹配算法,實(shí)現(xiàn)了一類碎片文檔的計(jì)算機(jī)拼接和復(fù)原。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 65
大小: 2.28(MB)
子文件數(shù):
-
簡(jiǎn)介:學(xué)術(shù)期刊是科研學(xué)者進(jìn)行學(xué)術(shù)交流的工具,是科學(xué)進(jìn)步的記錄。對(duì)學(xué)術(shù)期刊進(jìn)行評(píng)價(jià),對(duì)促進(jìn)學(xué)術(shù)公平具有十分重要的意義。學(xué)術(shù)期刊定量評(píng)價(jià)主要有兩類方法單一指標(biāo)評(píng)價(jià)法和多指標(biāo)綜合評(píng)價(jià)法。前者使用期刊文獻(xiàn)計(jì)量指標(biāo)對(duì)期刊進(jìn)行比較,如影響因子、特征因子值、SJR等指標(biāo)后者則是綜合使用多種文獻(xiàn)計(jì)量指標(biāo)對(duì)期刊進(jìn)行綜合評(píng)價(jià),比如因子分析法等。在眾多的學(xué)術(shù)期刊評(píng)價(jià)的文獻(xiàn)中,學(xué)者認(rèn)為后者可以避免單一指標(biāo)評(píng)價(jià)帶來的片面性同時(shí)也指出使用多指標(biāo)綜合評(píng)價(jià)方法對(duì)期刊進(jìn)行評(píng)估,評(píng)價(jià)過程比較復(fù)雜,涉及到評(píng)價(jià)指標(biāo)的選取、數(shù)據(jù)歸一化處理以及評(píng)價(jià)方法的選擇等多個(gè)研究領(lǐng)域,因而對(duì)同一期刊會(huì)得出不同的評(píng)價(jià)的結(jié)果。在面對(duì)多種評(píng)價(jià)結(jié)果時(shí),學(xué)術(shù)界為了綜合利用不同評(píng)價(jià)方法的結(jié)果,提出了“組合評(píng)價(jià)”方法。本文使用基本科學(xué)指標(biāo)數(shù)據(jù)庫ESI的經(jīng)濟(jì)與商學(xué)ECONOMICSBUSINESS領(lǐng)域的期刊為評(píng)價(jià)對(duì)象,以同行審議期刊列表FT50期刊以評(píng)價(jià)依據(jù),對(duì)多種期刊評(píng)價(jià)方法進(jìn)行評(píng)估,用以選取比較有效的期刊評(píng)價(jià)方法。評(píng)價(jià)研究發(fā)現(xiàn),在眾多的評(píng)價(jià)方法中,對(duì)經(jīng)濟(jì)與商學(xué)領(lǐng)域的期刊評(píng)價(jià),最有效的方法是期刊H指數(shù)。本文的研究表明,期刊評(píng)價(jià)方法并非是評(píng)價(jià)指標(biāo)越多、評(píng)價(jià)方法越復(fù)雜就越有效。本文主要有六章,各章的研究?jī)?nèi)容如下第一章介紹本文的研究背景,闡述研究目的和研究意義。本章也介紹了本文的研究?jī)?nèi)容和研究方法,并對(duì)研究的創(chuàng)新點(diǎn)進(jìn)行了清晰的說明。第二章介紹與研究有關(guān)的期刊評(píng)價(jià)理論基礎(chǔ)和相關(guān)文獻(xiàn)綜述。本章詳細(xì)介紹了期刊評(píng)價(jià)的兩類方法定性評(píng)價(jià)和定量評(píng)價(jià)。定性評(píng)價(jià)主要是同行對(duì)期刊進(jìn)行評(píng)議,而學(xué)術(shù)期刊定量評(píng)價(jià)與文獻(xiàn)數(shù)據(jù)庫的選擇、學(xué)科的設(shè)定、期刊評(píng)價(jià)方法等密切相關(guān)。第三章是期刊的單一指標(biāo)評(píng)價(jià)。運(yùn)用來自不同數(shù)據(jù)庫的8個(gè)文獻(xiàn)計(jì)量指標(biāo)對(duì)期刊進(jìn)行評(píng)價(jià),并分別介紹了評(píng)價(jià)指標(biāo)的優(yōu)缺點(diǎn)。然后以FT50期刊為評(píng)價(jià)依據(jù),選擇出評(píng)價(jià)效果較好的評(píng)價(jià)指標(biāo)。第四章是期刊的多指標(biāo)綜合評(píng)價(jià)。本章使用熵權(quán)TOPSIS法、灰色關(guān)聯(lián)分析法、因子分析法和密切值法等綜合評(píng)價(jià)方法對(duì)期刊進(jìn)行評(píng)價(jià)。然后以FT50期刊為評(píng)價(jià)依據(jù),選擇出評(píng)價(jià)效果較好的多指標(biāo)綜合評(píng)價(jià)方法。第五章是期刊的組合評(píng)價(jià)。為綜合利用不同綜合評(píng)價(jià)方法的結(jié)果,采用“組合評(píng)價(jià)”的思路,運(yùn)用不同的組合評(píng)價(jià)方法。以FT50期刊為評(píng)價(jià)依據(jù),選擇出評(píng)價(jià)效果較好的組合評(píng)價(jià)法然后綜合評(píng)估所有的期刊評(píng)價(jià)方法,選擇期刊評(píng)價(jià)效果最好的期刊評(píng)價(jià)方法。第六章是本文的總結(jié)。本章總結(jié)了本文的主要研究工作和創(chuàng)新之處,并在分析本文的不足之處的基礎(chǔ)上,指出了期刊評(píng)價(jià)未來的研究方向。本文的創(chuàng)新點(diǎn)有1以同行審議期刊列表FT50期刊為評(píng)價(jià)依據(jù),對(duì)多種期刊評(píng)價(jià)方法進(jìn)行評(píng)估,找出最為有效的期刊評(píng)價(jià)方法。本文的研究結(jié)果表明,期刊H指數(shù)在評(píng)價(jià)經(jīng)濟(jì)學(xué)與商學(xué)領(lǐng)域中的期刊最為有效,而眾多的綜合指標(biāo)評(píng)價(jià)方法和組合評(píng)價(jià)法的效果并不理想2使用基本科學(xué)指標(biāo)數(shù)據(jù)庫ESI期刊的學(xué)科分類方法,未采用WEBOFSCIENCE或SCOPUS等的學(xué)科分類方法。主要原因是后者的學(xué)科分類方法中存在一份期刊屬于多種學(xué)科的情形3將多種綜合評(píng)價(jià)方法的評(píng)價(jià)結(jié)果組合起來,對(duì)期刊進(jìn)行組合評(píng)價(jià)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁數(shù): 122
大?。?6.9(MB)
子文件數(shù):
-
簡(jiǎn)介:電子文檔在辦公自動(dòng)化環(huán)境中應(yīng)用廣泛,具備易編輯、易復(fù)制、易傳輸?shù)戎T多優(yōu)點(diǎn)。同時(shí)也帶來了訪問控制、版權(quán)保護(hù)、日志跟蹤等安全相關(guān)的問題?,F(xiàn)有的解決方案雖然提供電子文檔安全保護(hù)的相關(guān)功能,但是無法滿足企業(yè)個(gè)性化需求。為此,本文將對(duì)企業(yè)中電子文檔保護(hù)展開研究,并利用插件技術(shù)實(shí)現(xiàn)滿足企業(yè)個(gè)性化需求的文檔保護(hù)功能擴(kuò)展,本文主要完成以下工作(1)分析了企業(yè)電子文檔安全管理的個(gè)性化需求,包括文檔用戶的管理、文檔的訪問權(quán)限、文檔內(nèi)容整體或部分加密保護(hù)、完整性驗(yàn)證、版權(quán)保護(hù)及日志跟蹤等需求。(2)根據(jù)企業(yè)電子文檔管理的個(gè)性化需求,分別設(shè)計(jì)了基于角色的用戶身份管理,基于用戶數(shù)字證書的文檔訪問權(quán)限控制,基于可擴(kuò)展權(quán)利描述語言定義用戶對(duì)文檔內(nèi)容的編輯權(quán)限,基于密碼算法的文檔內(nèi)容的加密保護(hù),基于消息HASH的文檔完整性驗(yàn)證,探索使用基于漢字特征的文本分組水印算法保護(hù)電子文檔的版權(quán),基于HOOK技術(shù)文檔日志。(3)認(rèn)真研究了基于COM組件的插件技術(shù),在OFFICE應(yīng)用程序上實(shí)現(xiàn)了電子文檔安全管理功能的擴(kuò)展,擴(kuò)展包括于角色的用戶權(quán)限管理功能,文檔用戶驗(yàn)證功能,電子文檔的離線控制,離線日志創(chuàng)建使之與在線日志協(xié)同工作,使用基于漢字特征的文本分組水印算法保護(hù)OFFICE文檔的版權(quán)信息。本文對(duì)企業(yè)中電子文檔的安全管理問題進(jìn)行了深入的研究,詳細(xì)分析了文檔在安全保護(hù)過程中需要解決的問題,提供了相關(guān)的解決方案,在此研究基礎(chǔ)上,利用插件技術(shù)在OFFICE應(yīng)用程序上實(shí)現(xiàn)了電子文檔安全保護(hù)功能的擴(kuò)展。下一步作者希望通過認(rèn)真研究數(shù)字版權(quán)保護(hù)技術(shù),解決電子文檔的多用戶共享使用問題。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁數(shù): 58
大?。?1.21(MB)
子文件數(shù):