版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、伴隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量已經(jīng)成爆炸式增長(zhǎng),文本信息的規(guī)模正在以指數(shù)形式急速擴(kuò)大。豐富多彩的互聯(lián)網(wǎng)為人們提供了海量的信息,Web是Internet上最重要的信息來(lái)源,且已經(jīng)成為人們?nèi)粘I?、工作中不可少的一部分。Web上的信息不僅僅只包含正文信息,還包含許多干擾信息,這樣會(huì)降低Web信息的可利用性。如何在浩瀚如海的文本信息當(dāng)中及時(shí)地獲取有價(jià)值的信息,已經(jīng)成為當(dāng)今信息獲取中亟待解決的問(wèn)題。充分的利用數(shù)據(jù)挖掘和文本分類(lèi)技術(shù)
2、,能夠很好的解決這一類(lèi)問(wèn)題。
Web信息提取技術(shù)和短文本分類(lèi)技術(shù)是文本信息挖掘領(lǐng)域中非常重要的研究?jī)?nèi)容。Web信息提取技術(shù),首先對(duì)Web進(jìn)行區(qū)域劃分,然后利用算法從不同的區(qū)域間找到正文內(nèi)容,最后將正文內(nèi)容準(zhǔn)確的提取出來(lái)。為了能夠自動(dòng)化提取Web信息,該類(lèi)提取技術(shù)不應(yīng)該需要大量的訓(xùn)練,而且應(yīng)該具有較好的靈活性和正確率。在Web信息提取處理后,短文本分類(lèi)處理是一個(gè)文本處理的重要步驟,經(jīng)過(guò)短文本分類(lèi)的處理,才能更好的給用戶(hù)提供對(duì)其有
3、價(jià)值的信息,保證工作的正確率和效率。
本文介紹了Web信息提取技術(shù)和短文本分類(lèi)技術(shù)的研究背景、研究意義、國(guó)內(nèi)外研究現(xiàn)狀、相關(guān)的理論知識(shí)。本文在總結(jié)了前輩們關(guān)于Web信息提取技術(shù)和短文本分類(lèi)技術(shù)研究的基礎(chǔ)上,分別提出了Web信息提取技術(shù)和短文本分類(lèi)技術(shù)的新方法,具體的工作主要包括以下兩個(gè)方面:
提出了一種能夠準(zhǔn)確并且高效的Web文本信息提取方法,并且該方法可以將獲取的文本信息按照原文的意思正確的分段。首先,該方法利用網(wǎng)
4、頁(yè)布局標(biāo)簽
評(píng)論
0/150
提交評(píng)論