版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、人工智能在自動文本分類系統(tǒng)中的應(yīng)用研究摘要:摘要:人工智能與信息社會人工智能研究的就是怎樣利用機(jī)器模仿人腦從事推理規(guī)劃、設(shè)計(jì)、思考、學(xué)習(xí)等思維活動。文本分類是指在給定分類體系下根據(jù)文本內(nèi)容(自動)確定文本類別的過程。該文闡述了自動文本分類分類在利用人工智能技術(shù)設(shè)計(jì)時(shí)的必要性和重要性通過對當(dāng)前具有代表性的分類算法原理進(jìn)行分析、比較總結(jié)出每種算法的性能特征既便于使用者了解掌握各種分類算法、更好地選擇合適的算法又便于研究者對算法進(jìn)行研究改進(jìn)提
2、出性能更好的分類算法。關(guān)鍵詞:關(guān)鍵詞:人工智能;分類文本分類分類方法1引言引言數(shù)據(jù)的豐富帶來了對強(qiáng)有力的數(shù)據(jù)分析工具的需求大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富但信息貧乏”。快速增長的海量數(shù)據(jù)收集、存放在大型和大量的數(shù)據(jù)庫中沒有強(qiáng)有力的工具理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。人工智能的一個(gè)重要支柱是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘一開始只是一種從大規(guī)模數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的科學(xué)方法。它讓人們有能力最終認(rèn)識數(shù)據(jù)的真正價(jià)值即數(shù)據(jù)中潛在的可用信息和
3、知識。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的核心步驟它研究的主要目標(biāo)是發(fā)展有關(guān)的方法論、理論工具以支持從大量數(shù)據(jù)中提取有用的和讓人們感興趣的知識、模式和規(guī)則。其主要研究內(nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、知識表示方法、知識分類算法、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等而分類作為數(shù)據(jù)挖掘的一種模式可以用于提取描述重要數(shù)據(jù)的模型通常是預(yù)測分類標(biāo)號(或離散值)。例如可以建立一個(gè)分類模型對銀行貸款的安全或風(fēng)險(xiǎn)
4、進(jìn)行分類。許多分類的方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)方面的研究者提出。文本自動分類技術(shù)是自然語言處理的一個(gè)重要的應(yīng)用領(lǐng)域是替代傳統(tǒng)的繁雜人工分類方法的有效手段和必然趨勢特別是隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展網(wǎng)絡(luò)成為人們進(jìn)行信息交互和處理的最有效的平臺各種數(shù)字化的信息每天以極高的速度增長面對如此巨大的信息人工分類選擇已經(jīng)無能為力計(jì)算機(jī)自動分類已成為網(wǎng)絡(luò)時(shí)代的必然選擇通過利用先進(jìn)的計(jì)算機(jī)技術(shù)、人工智能技術(shù)不僅可以實(shí)現(xiàn)方便快捷的分類效果節(jié)省
5、大量的人力物力并且可以進(jìn)一步進(jìn)行更深層次的信息挖掘處理提高信息的利用效率。文本分類處理的研究是計(jì)算機(jī)、信息處理領(lǐng)域的重要內(nèi)容特別是隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展這種應(yīng)用也變得更加迫切。2基本概念基本概念2.1人工智能效果然而該方法具有分類規(guī)則制定困難、推廣性差的缺點(diǎn)很難大規(guī)模推廣應(yīng)用;進(jìn)入90年代以來隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展文檔自動分類的研究也進(jìn)入了一個(gè)新的階段各種分類方法相繼得到了發(fā)展包括機(jī)器學(xué)習(xí)技術(shù)為主的信息分類技術(shù)逐漸取代了基于知識工程的
6、方法成為文本自動分類研究的主要形式如NaveBayes、DecisionTree、LinearClassifiers、神經(jīng)網(wǎng)絡(luò)等等1998年Dtmund大學(xué)的T.Joachimes探討了支持向量機(jī)方法進(jìn)行文本分類取得了很好的效果。此外一些學(xué)者還采用Boosting方法來探討提高分類處理的方法。國內(nèi)許多研究院所也對中文信息分類技術(shù)進(jìn)行了大量的研究在具體分類算法上與國外是相同的只是由于中文的詞與詞之間一沒有明顯的分割因此需要首先進(jìn)行切詞處理
7、。根據(jù)目前對于文本分類技術(shù)的研究大多數(shù)研究者的精力主要放在各種不同分類的方法探索與改進(jìn)上。然而根據(jù)目前的結(jié)果表明雖然不同的分類方法在進(jìn)行分類處理時(shí)性能上確實(shí)存在一些差異但并非是唯一因素而且單純從算法上進(jìn)一步提高文本分類的效果已經(jīng)相當(dāng)困難。事實(shí)表明分類系統(tǒng)作為一個(gè)復(fù)雜系統(tǒng)其它因素對分類性能的影響也是非常大的包括文檔集的選擇、特征詞的處理等等對于具體文本分類技術(shù)的應(yīng)用需要從文本分類處理的多個(gè)環(huán)節(jié)著手用綜合的方法來改善和提高分類的性能。3文本
8、分類的特性文本分類的特性文本分類的基本原理是將待處理文本集D=d1d2…,dn按照一定的規(guī)則劃分到預(yù)定義的類別C=c1c2…ck中的過程其基本處理流程如圖1。從具體處理上分為訓(xùn)練與分類兩個(gè)階段因此文本分類是一種有監(jiān)督的學(xué)習(xí)過程在訓(xùn)練階段需要人工提供大量的進(jìn)行了類別標(biāo)記的事例文檔進(jìn)行學(xué)習(xí)在此之間需要首先進(jìn)行文檔的向量化即將文檔用其特征組成的向量來表示。總體來講文檔分類處理具有以下特點(diǎn):文本分類需要先訓(xùn)練再使用因此訓(xùn)練樣本的質(zhì)量對分類有較大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工智能在自動排課中的應(yīng)用與研究.pdf
- 人工智能在自動化學(xué)科中的應(yīng)用
- 人工智能在醫(yī)療中的應(yīng)用
- 人工智能在電氣自動化控制中的應(yīng)用
- 人工智能在電廠廠級監(jiān)控信息系統(tǒng)中的應(yīng)用研究
- 人工智能在直接轉(zhuǎn)矩控制中的應(yīng)用研究.pdf
- 人工智能在現(xiàn)代控制系統(tǒng)中的應(yīng)用
- 人工智能在機(jī)械系統(tǒng)中的應(yīng)用
- 人工智能在電氣自動化控制中應(yīng)用探究
- 人工智能在電氣自動化控制中的應(yīng)用分析
- 淺析人工智能在電氣自動化控制中的應(yīng)用
- 人工智能在電氣工程自動化中的應(yīng)用
- 人工智能在電廠廠級監(jiān)控信息系統(tǒng)中的應(yīng)用研究.pdf
- 人工智能在糖尿病診斷中的應(yīng)用研究.pdf
- 人工智能在游戲開發(fā)中的應(yīng)用.pdf
- 人工智能在隧道工程中的應(yīng)用論述
- 人工智能在汽車發(fā)動機(jī)中的應(yīng)用研究.pdf
- 探討人工智能在電氣自動化控制中的應(yīng)用
- 人工智能在計(jì)算機(jī)自動排課算法中的應(yīng)用.pdf
- 人工智能在容性設(shè)備在線監(jiān)測中的應(yīng)用研究.pdf
評論
0/150
提交評論