版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、伴隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量已經(jīng)成爆炸式增長,文本信息的規(guī)模正在以指數(shù)形式急速擴大。豐富多彩的互聯(lián)網(wǎng)為人們提供了海量的信息,Web是Internet上最重要的信息來源,且已經(jīng)成為人們?nèi)粘I?、工作中不可少的一部分。Web上的信息不僅僅只包含正文信息,還包含許多干擾信息,這樣會降低Web信息的可利用性。如何在浩瀚如海的文本信息當中及時地獲取有價值的信息,已經(jīng)成為當今信息獲取中亟待解決的問題。充分的利用數(shù)據(jù)挖掘和文本分類技術(shù)
2、,能夠很好的解決這一類問題。
Web信息提取技術(shù)和短文本分類技術(shù)是文本信息挖掘領(lǐng)域中非常重要的研究內(nèi)容。Web信息提取技術(shù),首先對Web進行區(qū)域劃分,然后利用算法從不同的區(qū)域間找到正文內(nèi)容,最后將正文內(nèi)容準確的提取出來。為了能夠自動化提取Web信息,該類提取技術(shù)不應(yīng)該需要大量的訓練,而且應(yīng)該具有較好的靈活性和正確率。在Web信息提取處理后,短文本分類處理是一個文本處理的重要步驟,經(jīng)過短文本分類的處理,才能更好的給用戶提供對其有
3、價值的信息,保證工作的正確率和效率。
本文介紹了Web信息提取技術(shù)和短文本分類技術(shù)的研究背景、研究意義、國內(nèi)外研究現(xiàn)狀、相關(guān)的理論知識。本文在總結(jié)了前輩們關(guān)于Web信息提取技術(shù)和短文本分類技術(shù)研究的基礎(chǔ)上,分別提出了Web信息提取技術(shù)和短文本分類技術(shù)的新方法,具體的工作主要包括以下兩個方面:
提出了一種能夠準確并且高效的Web文本信息提取方法,并且該方法可以將獲取的文本信息按照原文的意思正確的分段。首先,該方法利用網(wǎng)
4、頁布局標簽
評論
0/150
提交評論