版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 本科畢業(yè)論文</p><p> 基于數(shù)據(jù)挖掘的納稅人預(yù)警監(jiān)控系統(tǒng)——預(yù)處理模塊和 X-Means 算法改進(jìn)</p><p> Early-warning Supervisory System of Taxpayers Based on Data Mining</p><p> ——Implementation of Data P
2、re-processing Module and Improvement of the X-Means Algorithm</p><p><b> 姓名: </b></p><p><b> 學(xué)號(hào): </b></p><p><b> 學(xué)院:軟件學(xué)院</b></p><
3、;p><b> 系:軟件工程</b></p><p><b> 專(zhuān)業(yè):軟件工程</b></p><p><b> 年級(jí): </b></p><p><b> 指導(dǎo)教師: </b></p><p> 二〇XX 年 X 月</p>
4、;<p><b> 摘要</b></p><p> 許多國(guó)家和地區(qū)每年都會(huì)因?yàn)榧{稅人的偷稅漏稅問(wèn)題而損失大量的財(cái)政收</p><p> 入,稅務(wù)稽查部門(mén)一直以來(lái)都致力于解決這方面的問(wèn)題??萍嫉陌l(fā)展使得一些先</p><p> 進(jìn)的數(shù)據(jù)庫(kù)和信息存儲(chǔ)工具用于稅收數(shù)據(jù)的錄入、存儲(chǔ)、統(tǒng)計(jì)和檢索等。隨著稅</p>&
5、lt;p> 收信息化工作的深入,稅務(wù)部門(mén)積累了海量的業(yè)務(wù)明細(xì)數(shù)據(jù),這其中包含著大量</p><p> 對(duì)決策有價(jià)值的信息。但沒(méi)有強(qiáng)有力的分析工具,理解這些存放在大型和大量數(shù)</p><p> 據(jù)庫(kù)中的海量數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類(lèi)的能力,很有可能會(huì)使這些系統(tǒng)和數(shù)據(jù)變</p><p> 成一個(gè)個(gè)“信息孤島”和“數(shù)據(jù)墳?zāi)埂薄?因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于對(duì)納稅人
6、</p><p> 進(jìn)行預(yù)警和監(jiān)控這一全新的領(lǐng)域,對(duì)稅務(wù)系統(tǒng)中積累的海量數(shù)據(jù)進(jìn)行挖掘,從中</p><p> 提取對(duì)決策有價(jià)值的信息,解決數(shù)據(jù)和信息之間的鴻溝,將“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)換成</p><p> 知識(shí)“金塊”就顯得很有必要。</p><p> 本文首先對(duì)課題的研究背景及實(shí)際意義、國(guó)內(nèi)外研究現(xiàn)狀以及存在的問(wèn)題本文的研究?jī)?nèi)容以及特色等
7、做了介紹,并簡(jiǎn)單說(shuō)明了論文的組織結(jié)構(gòu)。然后,本文闡述了納稅人預(yù)警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求,對(duì)用于挖掘工作的原始數(shù)據(jù)作了詳細(xì)說(shuō)明,并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu)。接著,詳細(xì)闡述了數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn)過(guò)程,包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設(shè)計(jì)和實(shí)現(xiàn)。進(jìn)而,本文介紹了 X-Means 算法的思想,對(duì)其做了改進(jìn),并且分析了算法在不同數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘以及算法改進(jìn)前后所得挖掘結(jié)果的不同。</p><p&
8、gt; 采用改進(jìn)后的 X-Means 算法對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行挖掘,得到的結(jié)果能清楚的把那些有購(gòu)電,但 XSE=0 且 SE=0 的有重大偷稅嫌疑的納稅戶(hù);有偷稅漏稅嫌疑,但嫌疑不重大的納稅戶(hù);納稅記錄優(yōu)良、納稅額高于同行業(yè)平均水平,需要提供適當(dāng)稅收扶持的納稅戶(hù)和沒(méi)有嚴(yán)重納稅指標(biāo)異常,只需進(jìn)行日常征管的納稅戶(hù)分離出來(lái),這些納稅戶(hù)分別占總量的 1%、6%、0%和 93%。關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;X-Means 算法</p&
9、gt;<p><b> Abstract</b></p><p> Many countries and regions bear significant loss of fiscal revenue because of the taxpayer's tax evasion every year. Tax inspection departments have b
10、een committed to solve this problem. The development of technology makes some of the advanced databases and information storage tools used in the entry, storage, statistic and retrieval of tax datas. As the deepening of
11、taxation information, The tax department has accumulated vast amounts of detailed business data, which includes a large number of </p><p> Firstly, this thesis illustrated the background and significance of
12、 this research, the status quo and existing problems of related researches at home and abroad. The main contents and characters as well as the arrangements of the thesis were presented after that. Then, the thesis introd
13、uced the requirement of the Taxpayer’s early-warning and monitoring system and the data mining subsystem. Explained the raw data we used for our mining process in detail, and then analysised the structure of the d</p&
14、gt;<p> Using the improved X-Means algorithm to mining the pre-processed data, we can</p><p> classified the taxpayers needed to be focus on, spot check, support, administrate as usual clearly. Thes
15、e types of taxpayers separately account for 1%, 6%, 0% and 93% of the total.</p><p> Key words: Data Mining; Data Pre-processing; X-Means Algorithm</p><p> 4.3.4算法改進(jìn)后的挖掘結(jié)果分析71</p><
16、;p> 4.4 本章小結(jié)75</p><p> 第五章總結(jié)與展望76</p><p><b> 參考文獻(xiàn)77</b></p><p><b> 致謝79</b></p><p><b> CONTENTS</b></p><p>
17、; 4.3.2Analysis of result after Pre-process64</p><p> 4.3.3Analysis of result without algorithm improvement68</p><p> 4.3.4Analysis of result after algorithm improvement71</p>&l
18、t;p> 4.4 Summary75</p><p> Chapter 5: Conclusions and future works76</p><p> References77</p><p> Acknowledgements79</p><p><b> 緒 論</b></p>
19、;<p><b> 第一章緒論</b></p><p> 1.1 研究背景及選題意義</p><p> 世界各地許多國(guó)家每年都會(huì)因?yàn)榧{稅人的偷稅漏稅問(wèn)題而損失大量的財(cái)政收入,稅務(wù)稽查部門(mén)一直以來(lái)都致力于解決這方面的問(wèn)題。在沒(méi)有引入進(jìn)算計(jì)工具和數(shù)據(jù)挖掘技術(shù)之前,這方面的工作在很大程度上是依靠專(zhuān)業(yè)的稽查人員根據(jù)以往的工作經(jīng)驗(yàn)和某些直覺(jué)上的判斷來(lái)圈定那
20、些不法納稅人的特征。雖然這種方法在稅務(wù)稽查初期可能會(huì)有很大的幫助,但是隨著經(jīng)濟(jì)的發(fā)展、稅務(wù)體制的改革 ,自然而然會(huì)引起稅源和稅種的增加,這時(shí),如果再使用以往那種憑稽查人員的經(jīng)驗(yàn)和直覺(jué)的稽查方法去區(qū)分判斷違法納稅人,勢(shì)必會(huì)導(dǎo)致稽查效率低下和稽查效果不明顯。</p><p> 在過(guò)去的十幾年中,一些先進(jìn)的數(shù)據(jù)庫(kù)技術(shù)大大推動(dòng)了稅務(wù)部門(mén)的稅收應(yīng)用,使得大量數(shù)據(jù)庫(kù)和信息存儲(chǔ)工具用于稅收數(shù)據(jù)的錄入、存儲(chǔ)、統(tǒng)計(jì)和檢索等 。隨
21、著稅收信息化工作的深入,稅務(wù)部門(mén)積累了海量的業(yè)務(wù)明細(xì)數(shù)據(jù),這其中包含著大量對(duì)決策有價(jià)值的信息。但由于這些數(shù)據(jù)多以不同的數(shù)據(jù)結(jié)構(gòu)存放在不同的數(shù)據(jù)庫(kù)中,分布存放、備份文件格式各異,所以很難從中抽取出有價(jià)值的信息。同時(shí),隨著數(shù)據(jù)的不斷豐富,帶來(lái)了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,沒(méi)有強(qiáng)有力的分析工具,理解這些存放在大型和大量數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了人類(lèi)的能力,很有可能會(huì)使這些系統(tǒng)和數(shù)據(jù)變成一個(gè)個(gè)“信息孤島”和“數(shù)據(jù)墳?zāi)埂?。因此,人們迫切?/p>
22、要一種能夠去粗取精、對(duì)數(shù)據(jù)進(jìn)行深層次加工的自動(dòng)化技術(shù),而這正是數(shù)據(jù)挖掘技術(shù)——從海量的數(shù)據(jù)中提取知識(shí)和信息的技術(shù)的用武之地[1]。</p><p> 數(shù)據(jù)挖掘 DM(Data Mining)是指借助于人工智能和高級(jí)統(tǒng)計(jì)方法技術(shù),</p><p> 運(yùn)用聚類(lèi)分析、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、決策樹(shù)等技術(shù),從大量數(shù)據(jù)中提取隱含</p><p> 的、全面的和有用的信息,
23、該信息可以揭示數(shù)據(jù)的不明顯的模式、趨勢(shì)或規(guī)則[2]。</p><p> 數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的,它不僅面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢(xún)調(diào)用,而且</p><p> 要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以知道實(shí)際</p><p> 問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)</p><p>
24、;<b> 1</b></p><p><b> 緒 論</b></p><p> 行預(yù)測(cè)[3]。而稅務(wù)部門(mén)可以充分利用數(shù)據(jù)挖掘的這種功能,對(duì)既有數(shù)據(jù)進(jìn)行全面</p><p> 的分析,對(duì)納稅人未來(lái)的納稅狀況進(jìn)行預(yù)警和監(jiān)控。比如,可以通過(guò)了解各稅種</p><p> 的稅源戶(hù)數(shù)基本信息及其
25、變化、各時(shí)期納稅申報(bào)的基本情況、稅款入庫(kù)情況及其</p><p> 分析、稅源調(diào)查及發(fā)展趨勢(shì)預(yù)測(cè)等信息,為納稅人預(yù)警監(jiān)控提供充分的依據(jù)。還</p><p> 可以通過(guò)分析各稅種在全部稅收任務(wù)中所占的比例以及某一稅種中各行業(yè)稅收</p><p> 占總額的百分比,來(lái)預(yù)測(cè)未來(lái)的財(cái)政收入,并制定合理的稅收政策以充分發(fā)揮稅</p><p>&l
26、t;b> 收的經(jīng)濟(jì)調(diào)節(jié)作用。</b></p><p> 鑒于以上所述情況,將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于納稅人進(jìn)行預(yù)警和監(jiān)控這</p><p> 一全新的領(lǐng)域,對(duì)稅務(wù)系統(tǒng)中積累的海量數(shù)據(jù)進(jìn)行挖掘,從中提取對(duì)決策有價(jià)值</p><p> 的信息,解決數(shù)據(jù)和信息之間的鴻溝,建設(shè)基于數(shù)據(jù)倉(cāng)庫(kù)、應(yīng)用數(shù)據(jù)挖掘技術(shù)的</p><p>
27、; 納稅人預(yù)警監(jiān)控系統(tǒng),將“數(shù)據(jù)墳?zāi)埂鞭D(zhuǎn)換成知識(shí)“金塊”就顯得很有必要。</p><p> 1.2 研究現(xiàn)狀及存在問(wèn)題</p><p> 目前,致力于數(shù)據(jù)挖掘算法研究的學(xué)術(shù)團(tuán)體、會(huì)議和組織有很多,其中比較著名的有 ACM SIGKDD、IEEE ICDM、SDM、PAKDD、VLDB、FSKD、MLDM等。到目前為止,由美國(guó)人工智能協(xié)會(huì)主辦的 KDD 國(guó)際研討會(huì)已經(jīng)召開(kāi)了 18 次,
28、規(guī)模由原來(lái)的專(zhuān)題討論會(huì)發(fā)展到國(guó)際學(xué)術(shù)大會(huì),研究重點(diǎn)也組建從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透 ,如近年來(lái)注重對(duì) Bayes(貝葉斯)方法以及 Boosting 方法的研究和提高;傳統(tǒng)的統(tǒng)計(jì)學(xué)回歸法在 KDD 中的應(yīng)用等[4]。</p><p> 與國(guó)外相比,國(guó)內(nèi)對(duì)數(shù)據(jù)挖掘的研究稍晚,還沒(méi)有形成整體力量[5]。1993年國(guó)家自然科學(xué)基金首次支持對(duì)該領(lǐng)域的研究項(xiàng)目。目前,
29、國(guó)內(nèi)的許多科研單位和高等院校競(jìng)相展開(kāi)數(shù)據(jù)挖掘的基礎(chǔ)理論及其應(yīng)用研究,包括清華大學(xué)、中科院計(jì)算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。</p><p> 在稅務(wù)應(yīng)用方面,隨著數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)挖掘平臺(tái)的不斷成熟,通過(guò)建立基于數(shù)據(jù)挖掘的決策支持系統(tǒng)來(lái)從海量數(shù)據(jù)中提取有價(jià)值的信息作為決策者的參考,從而提高管理者效率和稅收征管質(zhì)量已經(jīng)不再是不可能的事。澳大利亞哦稅務(wù)部門(mén)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于稅收征管,系統(tǒng)經(jīng)過(guò)三年
30、的運(yùn)行,投入回報(bào)率高達(dá) 1:15;2002 年美國(guó)華盛頓國(guó)家稅務(wù)局通過(guò)建立數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘工作進(jìn)行</p><p><b> 2</b></p><p><b> 緒 論</b></p><p> 稽查選案,大大提高了對(duì)稽查選案時(shí)的準(zhǔn)確性和稽查額度,節(jié)約了稽查成本并使稽查成果得到了大幅度提高[6]。</p&g
31、t;<p> 相比國(guó)外而言,我國(guó)國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)在稅務(wù)方面的應(yīng)用還處在淺層次的應(yīng)用階段中,金稅工程二期的實(shí)施使得全國(guó)建立了總局、省、地市、縣四級(jí)稅務(wù)廣域網(wǎng),稅務(wù)部門(mén)以四級(jí)網(wǎng)絡(luò)為依托,實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)省級(jí)集中,積累了大量分布在各個(gè)應(yīng)用系統(tǒng)中的涉稅信息,是稅務(wù)部門(mén)進(jìn)行稅收分析的重要依據(jù)。國(guó)家的宏觀政策上已經(jīng)在金稅三期的工程里提到用數(shù)據(jù)挖掘方法來(lái)解決目前困擾稅務(wù)機(jī)關(guān)的納稅評(píng)估和稽查選案兩大問(wèn)題,而且也有一部分地市作為帶頭人開(kāi)始使
32、用數(shù)據(jù)挖掘工具。作為預(yù)警監(jiān)控和決策支持系統(tǒng)的一個(gè)重要組成部分,數(shù)據(jù)挖掘已經(jīng)越來(lái)越成為近年來(lái)稅務(wù)部門(mén)關(guān)注的焦點(diǎn)之一。</p><p> 稅務(wù)應(yīng)用中用到的數(shù)據(jù)挖掘算法有關(guān)聯(lián)分析、序列模式分析、分類(lèi)分析、聚類(lèi)分析、預(yù)測(cè)分析和回歸分析 6 種[7]:</p><p> 1、關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則挖掘算法可以有效的識(shí)別出數(shù)據(jù)中不同字段之間內(nèi)在的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)分析的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,
33、在給定一組 Item 和一個(gè)記錄集合后,通過(guò)分析記錄集合,推導(dǎo)出 Item 間的相關(guān)性[8]。</p><p> 山東科技大學(xué)設(shè)計(jì)了一種稅務(wù)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘系統(tǒng),研究了 OLAP 技術(shù)以及數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型,并利用數(shù)據(jù)倉(cāng)庫(kù)的理論來(lái)指導(dǎo)整個(gè)項(xiàng)目的設(shè)計(jì)和開(kāi)發(fā),針對(duì)如何從已有的大量稅收征管數(shù)據(jù)中發(fā)現(xiàn)其中隱含的對(duì)決策有用的信息這一問(wèn)題,主要運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,提取出供稅務(wù)機(jī)關(guān)各級(jí)領(lǐng)導(dǎo)分析和決策的信息[9]。但是
34、這個(gè)系統(tǒng)只實(shí)現(xiàn)了關(guān)聯(lián)規(guī)則算法,數(shù)據(jù)分析工具不完備,同時(shí)數(shù)據(jù)獲取成本較高。</p><p> 2、序列模式分析:序列模式用于預(yù)測(cè)一個(gè)具有時(shí)間先后順序的動(dòng)作序列。比如,在購(gòu)物的交易數(shù)據(jù)庫(kù)中,可能會(huì)發(fā)現(xiàn)“用戶(hù)在購(gòu)買(mǎi)了電腦以后一段時(shí)間內(nèi) ,一定會(huì)去購(gòu)買(mǎi)打印機(jī)”這樣的規(guī)則。</p><p> 華中科技大學(xué)提出了一種基于數(shù)據(jù)挖掘、 OLAP(On-Line Analytical Processin
35、g)以及 XML 的稅收決策支持系統(tǒng)的設(shè)計(jì)方案。論文討論了 OLAP、數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)在稅收決策支持系統(tǒng)上的應(yīng)用,結(jié)合 XML 技術(shù)和多維數(shù)據(jù)模式設(shè)計(jì)的思想勾畫(huà)了一個(gè)稅收決策支持系統(tǒng)的架構(gòu)[2]。但對(duì)于挖掘過(guò)程和結(jié)果的展示,如分析預(yù)測(cè)功能的實(shí)現(xiàn)、多維分析模型或數(shù)據(jù)挖掘統(tǒng)計(jì)模型的發(fā)布等沒(méi)有</p><p><b> 3</b></p><p><b>
36、緒 論</b></p><p> 進(jìn)行深入的討論及應(yīng)用。</p><p> 3、分類(lèi)分析:分類(lèi)方法是一種有指導(dǎo)的學(xué)習(xí),類(lèi)別必須明確,并且必須有一定的己經(jīng)獲取到分類(lèi)結(jié)果的數(shù)據(jù)用以創(chuàng)建分類(lèi)模型,然后可以采用這個(gè)分類(lèi)模型對(duì)新的數(shù)據(jù)進(jìn)行分類(lèi)。</p><p> 浙江臨海市地稅局 2002 年開(kāi)發(fā)了地稅征管系統(tǒng),該系統(tǒng)運(yùn)用分類(lèi)規(guī)則等數(shù)據(jù)挖掘技術(shù)提取了與地稅有
37、關(guān)的信息,并且獲得了稅種收入同比增與稅收總收入同比增的關(guān)系規(guī)則,為稅收預(yù)測(cè)和各級(jí)地稅管理層決策提供了科學(xué)的幫助,對(duì)提高臨海地稅征管質(zhì)量和管理者效率有較好的促進(jìn)作用[10]。但是此系統(tǒng)只是在現(xiàn)有數(shù)據(jù)庫(kù)上進(jìn)行簡(jiǎn)單的數(shù)據(jù)挖掘,還處于嘗試階段,不能滿足新時(shí)期的管理需求 。</p><p> 4、聚類(lèi)分析:聚類(lèi)就是將數(shù)據(jù)對(duì)象分組成為多個(gè)類(lèi),在同一個(gè)類(lèi)中的對(duì)象之間具有較高的相似度,而不同類(lèi)中的對(duì)象差別較大。相異度是根據(jù)描述
38、對(duì)象的屬性值來(lái)計(jì)算的。距離是經(jīng)常采用的度量方式。</p><p> 天津大學(xué)分析了目前廣泛應(yīng)用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法在財(cái)務(wù)預(yù)警時(shí)存在的局限,提出了基于粗糙集屬性約簡(jiǎn)的模糊神經(jīng)網(wǎng)絡(luò)預(yù)警模型,并且提出了兩種聚類(lèi)方法,一種是基于粒子群優(yōu)化的模糊聚類(lèi)算法,一種是基于粗糙集的 K-Means 聚類(lèi)算法,為把聚類(lèi)算法引入財(cái)務(wù)預(yù)警研究領(lǐng)域提供了一種新的嘗試[11]。雖然此系統(tǒng)提出的三種方法可以從不同角度去研究財(cái)務(wù)預(yù)警,但是對(duì)在哪
39、種情況下使用哪種方法具有更好的預(yù)測(cè)效果并沒(méi)有做出確切的結(jié)論,需要由研究人員根據(jù)經(jīng)驗(yàn)和數(shù)據(jù)的現(xiàn)有狀況去判斷。</p><p> 5、預(yù)測(cè)分析(也稱(chēng)時(shí)間序列分析):根據(jù)按照時(shí)間順序的一定數(shù)量的連續(xù)的歷史數(shù)據(jù),對(duì)于未來(lái)一個(gè)時(shí)間點(diǎn)或者幾個(gè)時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。預(yù)測(cè)分析是被經(jīng)常采用的分析手段,對(duì)于一些數(shù)值型的屬性,經(jīng)常采用這種分析手段來(lái)獲取未來(lái)的發(fā)展趨勢(shì),并且根據(jù)預(yù)測(cè)結(jié)果進(jìn)行預(yù)警分析等應(yīng)用。</p><
40、;p> 6、回歸分析:回歸分析用來(lái)分析兩個(gè)或者兩個(gè)以上的變量相互影響的程度,可以通過(guò)一個(gè)或者多個(gè)屬性的值來(lái)預(yù)測(cè)另一個(gè)變量的值。比如,在商品流通領(lǐng)域 ,經(jīng)常用回歸分析來(lái)分析商品價(jià)格與商品需要量之間的關(guān)系,以便對(duì)商品的價(jià)格和需求量進(jìn)行控制。</p><p> 南京地稅建立的預(yù)警系統(tǒng),利用 BP 神經(jīng)網(wǎng)絡(luò)、多元回歸和組合預(yù)測(cè)模型,探討了多元回歸模型中經(jīng)濟(jì)變量的篩選問(wèn)題,但其實(shí)現(xiàn)的功能單一,不能滿足稅</
41、p><p><b> 4</b></p><p><b> 緒 論</b></p><p> 收各個(gè)層面的管理需要[12]。</p><p> 雖然各單位在把數(shù)據(jù)挖掘應(yīng)用到稅務(wù)系統(tǒng)中都取得了一定的效果,但是數(shù)</p><p> 據(jù)、數(shù)據(jù)挖掘任務(wù)和數(shù)據(jù)挖掘方法的多樣性仍然
42、給數(shù)據(jù)挖掘提出了許多挑戰(zhàn):</p><p> 1、數(shù)據(jù)挖掘準(zhǔn)確性的提高,由于數(shù)據(jù)挖掘所處理的數(shù)據(jù)規(guī)模通常十分龐大</p><p> 并且在稅務(wù)應(yīng)用中數(shù)據(jù)類(lèi)型復(fù)雜、變化迅速,現(xiàn)有系統(tǒng)無(wú)法保證挖掘結(jié)果的準(zhǔn)確</p><p><b> 性。</b></p><p> 2、現(xiàn)有系統(tǒng)一般無(wú)法提供對(duì)所使用算法的有效性和科學(xué)性
43、的證明,對(duì)在何</p><p> 種情況下使用何種方法效果更好不能給出確切的結(jié)論,需要由研究人員根據(jù)經(jīng)驗(yàn)</p><p> 和數(shù)據(jù)的現(xiàn)有狀況去判斷。</p><p> 3、目前大多數(shù)基于數(shù)據(jù)挖掘的稅務(wù)系統(tǒng)實(shí)現(xiàn)的功能都比較單一,不能滿足</p><p> 稅收各個(gè)層面的管理需要。</p><p> 1.3 主要
44、研究?jī)?nèi)容及特色</p><p> 我們的研究?jī)?nèi)容是基于納稅人預(yù)警監(jiān)控系統(tǒng)的數(shù)據(jù)挖掘。在對(duì)原始數(shù)據(jù)進(jìn)行多次預(yù)處理后,轉(zhuǎn)化成 csv 格式導(dǎo)入 Weka,然后以 Weka 作為數(shù)據(jù)挖掘平臺(tái),對(duì) Simple K-Means、X-Means、DBScan 等聚類(lèi)算法進(jìn)行改進(jìn)和實(shí)現(xiàn),最后對(duì)挖掘結(jié)果進(jìn)行分析。具體來(lái)講,研究?jī)?nèi)容包括以下幾個(gè)方面:</p><p> 1、數(shù)據(jù)預(yù)處理,由于原始數(shù)據(jù)分布
45、在不同的表中,并且存在許多字段冗余,因此,需要在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的集成和選擇,將分布在多個(gè)表中的原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)組合,提取與分析任務(wù)相關(guān)的屬性和數(shù)據(jù);由于所要挖掘的原始數(shù)據(jù)存在大量缺失值和不合理數(shù)據(jù),我們對(duì)原始數(shù)據(jù)做了清理,對(duì)缺失值根據(jù)數(shù)據(jù)的特點(diǎn)采用 Hot deck 插補(bǔ)、最大頻數(shù)或最近鄰域插補(bǔ)法處理,對(duì)噪音數(shù)據(jù)采用鄰域插補(bǔ)法進(jìn)行平滑;由于我們采用 Weka 作為數(shù)據(jù)挖掘的平臺(tái),還要把經(jīng)過(guò)預(yù)處理的數(shù)據(jù)轉(zhuǎn)化成其所能識(shí)別的格式導(dǎo)入 Wek
46、a,然后做進(jìn)一步的預(yù)處理,如不相關(guān)屬性數(shù)據(jù)的清除、數(shù)據(jù)規(guī)范化處理等。</p><p> 2、聚類(lèi)過(guò)程,以 Weka 作為數(shù)據(jù)挖掘平臺(tái),對(duì) K-Means、X-Means、DBScan</p><p> EM 等數(shù)據(jù)挖掘算法進(jìn)行改進(jìn),并且把改進(jìn)的算法作為 Weka 平臺(tái)的插件來(lái)對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),使整個(gè)挖掘子系統(tǒng)能夠以 Weka 作為平臺(tái)來(lái)流暢的運(yùn)行,并且能夠更有針對(duì)性的滿足我們的需求。&l
47、t;/p><p><b> 5</b></p><p><b> 緒 論</b></p><p> 3、聚類(lèi)結(jié)果的分析和比較,對(duì)同一種數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)前后挖掘結(jié)果進(jìn)行縱向?qū)Ρ群头治?,?duì)不同數(shù)據(jù)挖掘算法挖掘所得結(jié)果進(jìn)行橫向的對(duì)比,以評(píng)估所采用的算法的效果。</p><p> 本文主要研究預(yù)處理
48、算法,并對(duì) X-Means 算法做了改進(jìn)。其主要特點(diǎn)如下 :</p><p> 1、通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行多種預(yù)處理,減弱了缺失值和不合理數(shù)據(jù)對(duì)數(shù)據(jù)挖</p><p> 掘過(guò)程的影響,使挖掘結(jié)果盡可能準(zhǔn)確。</p><p> 2、通過(guò)對(duì) X-Means 算法的改進(jìn),把實(shí)例個(gè)數(shù)少于 10 的簇單獨(dú)返回進(jìn)行分析,并對(duì)其余實(shí)例重新進(jìn)行聚類(lèi),這樣消除了少數(shù)噪聲點(diǎn)的干擾,使
49、聚類(lèi)結(jié)果更具有實(shí)際參考價(jià)值。</p><p> 3、提供對(duì)數(shù)據(jù)預(yù)處理前后以及算法改進(jìn)前后的對(duì)比分析,以驗(yàn)證本文所采用的算法的效果。</p><p> 1.4 論文組織結(jié)構(gòu)</p><p> 本文重點(diǎn)探討預(yù)處理模塊的實(shí)現(xiàn),同時(shí)對(duì) X-Means 算法做了一些改進(jìn),并對(duì)結(jié)果進(jìn)行了對(duì)比分析??偣卜譃槲逭拢緸榈慕M織結(jié)構(gòu)和各章的主要內(nèi)容如下 :</p>
50、<p> 第一章 緒論,介紹了課題研究背景及實(shí)際意義、國(guó)內(nèi)外研究現(xiàn)狀以及存在的問(wèn)題、本文的研究?jī)?nèi)容以及特色等,并對(duì)本文的組織結(jié)構(gòu)進(jìn)行了概述;</p><p> 第二章 需求分析與系統(tǒng)結(jié)構(gòu),闡述了納稅人預(yù)警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求,對(duì)用于挖掘工作的原始數(shù)據(jù)作了詳細(xì)說(shuō)明,并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu);</p><p> 第三章 數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn),對(duì) Weka 做
51、了簡(jiǎn)單的描述并著重介紹了 Weka 平臺(tái)下預(yù)處理模塊的結(jié)構(gòu)和包含的算法。分析了用于數(shù)據(jù)挖</p><p> 掘的原始數(shù)據(jù)中存在的問(wèn)題、預(yù)處理的功能和主要方法以及本系統(tǒng)中所用到的數(shù)據(jù)預(yù)處理方法。詳細(xì)闡述了數(shù)據(jù)預(yù)處理模塊的實(shí)現(xiàn)過(guò)程,包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設(shè)計(jì)和實(shí)現(xiàn);第四章 X-Means 算法改進(jìn)和結(jié)果分析,闡述了 X-Means 算法的思想,對(duì)其做了改進(jìn),并且分析了算法在不同數(shù)據(jù)源上進(jìn)行數(shù)
52、據(jù)挖掘以及算法改進(jìn)前后所得挖掘結(jié)果的不同,以評(píng)估本研究所采用算法的效果;</p><p><b> 6</b></p><p><b> 緒 論</b></p><p> 第五章 總結(jié)與展望,對(duì)本文和本系統(tǒng)研究的結(jié)果進(jìn)行了概括和總結(jié),分析</p><p> 了其尚待優(yōu)化之處,并對(duì)下一步研究進(jìn)
53、行展望。</p><p><b> 7</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 第二章需求分析與系統(tǒng)結(jié)構(gòu)</p><p> 稅收是一個(gè)古老的經(jīng)濟(jì)學(xué)范疇,在人類(lèi)發(fā)展歷程中,稅收隨著國(guó)家的形成而</p><p> 產(chǎn)生,我國(guó)在吸
54、收西方稅收理論研究成果的基礎(chǔ)上,強(qiáng)調(diào)了稅收的法律特征,形</p><p> 成了對(duì)稅收本質(zhì)的基本認(rèn)識(shí),即:稅收是國(guó)家為了實(shí)現(xiàn)其職能,憑借政治權(quán)力參</p><p> 與社會(huì)產(chǎn)品分配,依照法律法規(guī)向經(jīng)濟(jì)單位和個(gè)人無(wú)償征收實(shí)物或貨幣所形成的</p><p> 特殊分配關(guān)系[13]。</p><p> 從稅收的本質(zhì)可以看出,稅收是收入從納稅
55、人向國(guó)家單方面的、無(wú)償?shù)霓D(zhuǎn)移 。</p><p> 納稅人本能上會(huì)排斥這種使自身收入減少的稅收活動(dòng)。為了使稅收征繳活動(dòng)能夠</p><p> 順利實(shí)施,就迫切需要通過(guò)科學(xué)的管理手段來(lái)維持這種國(guó)家與納稅人之間的特殊</p><p> 分配關(guān)系,以確保稅收的征繳得以實(shí)現(xiàn)。</p><p> 本章將對(duì)納稅人預(yù)警監(jiān)控系統(tǒng)的需求和數(shù)據(jù)挖掘子系統(tǒng)
56、的需求進(jìn)行分析,并</p><p> 且給出詳細(xì)的原始數(shù)據(jù)說(shuō)明和系統(tǒng)結(jié)構(gòu)流程說(shuō)明。</p><p> 2.1 納稅人預(yù)警監(jiān)控系統(tǒng)</p><p> 2.1.1系統(tǒng)概述</p><p> 當(dāng)今社會(huì),隨著科技日新月異的發(fā)展,現(xiàn)代化的信息技術(shù)在包括稅務(wù)征管在</p><p> 內(nèi)的各個(gè)社會(huì)層面得到了廣泛運(yùn)用,對(duì)社
57、會(huì)生活生活正在并且將持續(xù)產(chǎn)生深遠(yuǎn)的</p><p> 影響。現(xiàn)代社會(huì)對(duì)信息技術(shù)的需求和依賴(lài)愈發(fā)強(qiáng)烈,稅務(wù)征管系統(tǒng)也不例外。發(fā)</p><p> 展稅務(wù)征管系統(tǒng)是充分發(fā)揮稅務(wù)機(jī)關(guān)的職能作用。它包括以下三個(gè)職能[14]:</p><p> 1、信息職能:是指根據(jù)科學(xué)稅收分析預(yù)測(cè)指標(biāo)體系和方法,為各級(jí)領(lǐng)導(dǎo)科學(xué)</p><p> 決策和管理采
58、集、處理、傳遞、存儲(chǔ)和提供大量綜合反映稅務(wù)工作和社會(huì)經(jīng)濟(jì)信</p><p><b> 息;</b></p><p> 2、咨詢(xún)職能:是指利用已經(jīng)掌握的稅務(wù)信息資源,運(yùn)用科學(xué)的分析預(yù)測(cè)方法 ,</p><p> 開(kāi)展稅收分析預(yù)測(cè)和專(zhuān)題研究,為各級(jí)稅務(wù)部門(mén)領(lǐng)導(dǎo)決策和管理提供各種可供選</p><p> 擇的咨詢(xún)建議與
59、對(duì)策方案;</p><p> 3、監(jiān)督職能:是指根據(jù)稅收分析預(yù)測(cè),及時(shí)、準(zhǔn)確地從總體上反映稅務(wù)管理</p><p><b> 8</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 活動(dòng)和社會(huì)經(jīng)濟(jì)運(yùn)行狀態(tài),并對(duì)其實(shí)行全面、系統(tǒng)的定量檢查、監(jiān)測(cè)和預(yù)警,以使稅務(wù)管理活
60、動(dòng)充分發(fā)揮職能作用,促進(jìn)國(guó)民經(jīng)濟(jì)和社會(huì)事業(yè)按照客觀規(guī)律的要求持續(xù)穩(wěn)定協(xié)調(diào)的發(fā)展。</p><p> 雖然數(shù)據(jù)挖掘技術(shù)在稅務(wù)征管系統(tǒng)中的應(yīng)用已經(jīng)取得很大進(jìn)展,但是研究人員所側(cè)重的應(yīng)用目標(biāo)、挖掘的類(lèi)型、采用的算法等均有所不同,互有優(yōu)劣。由于稅法和稅收政策的差異,以及具體業(yè)務(wù)流程的特點(diǎn),導(dǎo)致了各個(gè)系統(tǒng)的功能和側(cè)重點(diǎn)都不盡相同,因此需要針對(duì)具體的情況設(shè)計(jì)解決方案。</p><p> 我們的納稅
61、人預(yù)警監(jiān)控系統(tǒng)的主要目標(biāo)是建立一個(gè)納稅人稅收指標(biāo)預(yù)警監(jiān)控模型,對(duì)已有的納稅人的違法事實(shí)與稅收異常行為進(jìn)行相關(guān)分析,應(yīng)用所獲取的知識(shí),將有相似納稅行為的納稅人歸類(lèi),并遴選處于離群點(diǎn)位置的、有偷漏稅行為的潛在違法嫌疑的納稅人,實(shí)施重點(diǎn)監(jiān)控和稽查,提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p> 系統(tǒng)的開(kāi)發(fā)環(huán)境如下:</p><p> 開(kāi)發(fā)工具: 基于 Eclipse3
62、.2(MyEclipse 5.5.1GA 插件)</p><p> 數(shù)據(jù)庫(kù)環(huán)境:Oracle10g</p><p> 數(shù)據(jù)挖掘平臺(tái):WEKA3.6</p><p> 操作系統(tǒng): Windows XP</p><p> 運(yùn)行設(shè)備:后臺(tái) PC 服務(wù)器、前端臺(tái)式機(jī)</p><p> 2.1.2系統(tǒng)功能</p
63、><p> 目前,金稅工程以總局、省、地市、縣四級(jí)稅務(wù)廣域網(wǎng)為依托,實(shí)現(xiàn)了業(yè)</p><p> 務(wù)數(shù)據(jù)省級(jí)集中,但技術(shù)方面仍停留在建立數(shù)據(jù)倉(cāng)庫(kù)、實(shí)現(xiàn)報(bào)表、查詢(xún)和多維分</p><p> 析上,系統(tǒng)運(yùn)行效率不高,分析功能不多,抽取的有價(jià)值的信息有限。而隨著經(jīng)</p><p> 濟(jì)的發(fā)展和科學(xué)的進(jìn)步,許多不法企業(yè)游走在偷逃稅款的灰色地帶,利用
64、各種方</p><p> 法弄虛作假,隱瞞應(yīng)納稅額,蒙蔽執(zhí)法機(jī)關(guān),稅務(wù)部門(mén)需要一種更先進(jìn)更有效的</p><p> 稽查手段對(duì)其進(jìn)行監(jiān)控。顯然,基于傳統(tǒng)事務(wù)處理的查詢(xún)、報(bào)表工具是無(wú)法完成</p><p><b> 這一任務(wù)的。</b></p><p> 因此,納稅人預(yù)警監(jiān)控系統(tǒng)應(yīng)當(dāng)滿足以下功能:</p>
65、;<p> (1)建立數(shù)據(jù)倉(cāng)庫(kù)。由于各系統(tǒng)中數(shù)據(jù)格式不一致,且有可能存在大量重</p><p><b> 9</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 復(fù)數(shù)據(jù),在完成系統(tǒng)整合之后還需要對(duì)數(shù)據(jù)進(jìn)行整合集中,消除冗余數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,建立一體化的數(shù)據(jù)存儲(chǔ)環(huán)境。<
66、;/p><p> ?。?)數(shù)據(jù)預(yù)處理(缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理)。數(shù)據(jù)的質(zhì)量直接決定數(shù)據(jù)挖掘效果的好壞,數(shù)據(jù)質(zhì)量不高會(huì)給后續(xù)的加工和分析帶來(lái)很大的困難,因此,應(yīng)當(dāng)摸索缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理的可行方法。</p><p> (3)運(yùn)用數(shù)據(jù)挖掘技術(shù),通過(guò)聚類(lèi)分析(基于K-Means或DBSCAN等 )、相關(guān)性分析等方法,建立一個(gè)納稅人稅收指標(biāo)預(yù)警監(jiān)控模型,對(duì)已有的
67、納稅人的違法事實(shí)與稅收異常行為進(jìn)行相關(guān)分析,應(yīng)用所獲取的知識(shí),遴選處于離群點(diǎn)位置的、有類(lèi)似行為的潛在違法嫌疑的納稅人,實(shí)施重點(diǎn)監(jiān)控和稽查,提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p> 同時(shí),納稅人預(yù)警監(jiān)控系統(tǒng)應(yīng)當(dāng)滿足以下特性:1、實(shí)用性,系統(tǒng)應(yīng)該符合稅收工作實(shí)際要求,滿足領(lǐng)導(dǎo)決策需要。2、準(zhǔn)確性,得出的預(yù)警監(jiān)控模型應(yīng)有較高的置信度,可以明顯地提高稅務(wù)</p><p&
68、gt; 機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p> 3、可伸縮性,能夠適應(yīng)大規(guī)模數(shù)據(jù)對(duì)象的處理,運(yùn)行時(shí)間隨數(shù)據(jù)的規(guī)模以近似線性的方式遞增。</p><p> 4、可擴(kuò)展性,設(shè)計(jì)的系統(tǒng)應(yīng)該具備良好的擴(kuò)展能力。5、可視化,具有良好的展現(xiàn)界面,有助于領(lǐng)導(dǎo)更簡(jiǎn)潔、更方便地理解數(shù)據(jù)</p><p> 含義、在較高的抽象層次上觀察數(shù)據(jù),做出決策。&l
69、t;/p><p> 2.1.3數(shù)據(jù)說(shuō)明</p><p> 系統(tǒng)采集的數(shù)據(jù)是廣西省國(guó)稅局 2008 年 1 月 1 日到 12 月 31 日的稅收</p><p> 征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)。數(shù)據(jù)庫(kù)版本是 Oracle10g,字符集是 US7ASCII。</p><p> 從稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)中可以得到納稅人登記信息表(基礎(chǔ)表和<
70、/p><p> 擴(kuò)展表,包括納稅人的登記信息:經(jīng)營(yíng)范圍、所屬行業(yè)代碼,所屬稅務(wù)機(jī)關(guān)</p><p> 代碼等)、代碼表(行業(yè)代碼、行業(yè)明細(xì)代碼、稅務(wù)機(jī)關(guān)代碼)、增值稅納稅</p><p> 申報(bào)表(其中包括銷(xiāo)售收入、已納稅額、所屬期等信息)和所得稅納稅申報(bào)</p><p> 表等六張表。表之間的 E-R 關(guān)系圖為:</p>
71、<p><b> 10</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 圖 2-1稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù) E-R 圖</p><p> 各個(gè)表的結(jié)構(gòu)說(shuō)明如下:</p><p><b> 11</b></p>
72、<p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 12</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 表 2-2dj_nsrxx_kz(登記_納稅人信息_擴(kuò)展表)</p><p><b>
73、13</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 14</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 15</b></p><p&
74、gt;<b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 16</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 納稅人信息表(包括基本標(biāo)和擴(kuò)展表)包含了大約 68 萬(wàn)條數(shù)據(jù),詳盡且全面的描述了屬于廣西省國(guó)稅局征管范圍內(nèi)的所有納稅人的信息,包括納稅人名
75、稱(chēng)、代碼、經(jīng)營(yíng)內(nèi)容、所屬行業(yè)等。我們可以提取出納稅人識(shí)別號(hào)作為聚類(lèi)分析所用結(jié)果事實(shí)表的主鍵,如果通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)需要進(jìn)行重點(diǎn)稽查的用戶(hù),我們可以根據(jù)納稅人識(shí)別號(hào)與這兩張表中所提供的信息進(jìn)行對(duì)應(yīng),對(duì)納稅人進(jìn)行了解和找出進(jìn)行稽查工作所需要的信息如納稅人的名稱(chēng)、所處經(jīng)營(yíng)地、聯(lián)系方式等。</p><p> 表 2-3dm_hymx(代碼_行業(yè)明細(xì)表)</p><p> 表 2-4dm_hy
76、(代碼_行業(yè)表)</p><p><b> 17</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 表 2-5dm_swjg(代碼_稅務(wù)機(jī)關(guān)表)</p><p><b> 18</b></p><p><b&
77、gt; 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 代碼表(包括代碼_行業(yè)明細(xì)表、代碼_行業(yè)表和代碼_稅務(wù)機(jī)關(guān)表)包</p><p> 含了納稅人所屬行業(yè)和稅務(wù)機(jī)關(guān)的信息,只有處于同一行業(yè)同一地區(qū)的納稅</p><p> 人所申報(bào)的銷(xiāo)售額和納稅額等與稅務(wù)管理和稽查相關(guān)的參考數(shù)據(jù)才有相互</p><p> 比較的價(jià)值,也
78、只有當(dāng)同等條件下一個(gè)納稅人的銷(xiāo)售額與納稅額相比同一地</p><p> 區(qū)同種行業(yè)的其他納稅人而言明顯偏低或偏高時(shí),才應(yīng)當(dāng)引起稅務(wù)稽查部門(mén)</p><p> 的注意。不同地區(qū)或不同行業(yè)的納稅人相互比較是沒(méi)有意義的,我們用于數(shù)</p><p> 據(jù)挖掘工作的結(jié)果事實(shí)表通過(guò)稅負(fù)差異率(即納稅人的稅負(fù)水平與行業(yè)平均</p><p> 稅負(fù)水
79、平之間的差異)來(lái)反映出這一點(diǎn)。</p><p> 表 2-6sb_zzs_2003_ybnsr(申報(bào)_增值稅_2003 版_一般納稅人表)</p><p><b> 19</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 20</b&g
80、t;</p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 納稅申報(bào)表是我們的核心表之一,共包含 28 萬(wàn)條數(shù)據(jù),描述了納稅人稅收申報(bào)的信息。在稅收業(yè)務(wù)中,都是納稅人先自行申報(bào)收入,繳納稅款,如果稅務(wù)機(jī)關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑,才會(huì)去稽查,稽查發(fā)現(xiàn)有問(wèn)題,再補(bǔ)繳稅款并予以處罰的。因此,納稅人申報(bào)表對(duì)稅務(wù)機(jī)關(guān)進(jìn)行稅收預(yù)測(cè)和各級(jí)地稅管理層制定決策具有重
81、要參考價(jià)值。也是我們進(jìn)行數(shù)據(jù)挖掘,實(shí)現(xiàn)為管</p><p><b> 21</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 理層做出科學(xué)的決策提供幫助、提高稅收征管的質(zhì)量和效率這一目的的過(guò)程中所需要特別重視的。</p><p> 2.2 數(shù)據(jù)挖掘子系統(tǒng)的需求分
82、析</p><p> 2.2.1數(shù)據(jù)挖掘子系統(tǒng)概述</p><p> 在實(shí)際的稅收征管過(guò)程中,針對(duì)不同情況的納稅人所采取的監(jiān)控措施是不一樣的。因此,在進(jìn)行深層次的挖掘分析之前,需要先對(duì)納稅人進(jìn)行歸類(lèi)處理,將具有相似行為的納稅人集中到一起,以方便后續(xù)的分析工作。我們的數(shù)據(jù)挖掘子系統(tǒng)主要集中在對(duì)原始數(shù)據(jù)的預(yù)處理和聚類(lèi)挖掘、結(jié)果分析上。</p><p> 預(yù)處理方
83、面,我們的原始數(shù)據(jù)來(lái)自廣西省國(guó)稅局 2008 年 1 月 1 日到 12 月 31 日的業(yè)務(wù)數(shù)據(jù)。盡管在核心應(yīng)用系統(tǒng)運(yùn)行前,稅務(wù)部門(mén)對(duì)歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作,盡可能避免錄入問(wèn)題數(shù)據(jù),但是業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)質(zhì)量問(wèn)題依然普遍存在,包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問(wèn)題數(shù)據(jù)的來(lái)源既有歷史導(dǎo)入的,也有前臺(tái)錯(cuò)誤錄入的,還有后臺(tái)誤修改或修改不完整導(dǎo)致的。數(shù)據(jù)質(zhì)量不高給后續(xù)加工分析帶來(lái)很大的困難,因此要摸索缺失 、冗
84、余、不一致、噪聲數(shù)據(jù)的判定和處理的可行方法。</p><p> 聚類(lèi)挖掘是根據(jù)納稅人與納稅行為有關(guān)的各種屬性,按照某個(gè)特定標(biāo)準(zhǔn)(一般為距離準(zhǔn)則)把所給的數(shù)據(jù)集分割成不同的類(lèi)或簇(Cluster),使得在同一簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能的大,同時(shí)不同簇中的數(shù)據(jù)對(duì)象的差異性也盡可能的大。也就是說(shuō),聚類(lèi)后同一類(lèi)別的數(shù)據(jù)盡可能的聚集在一起,而不同的數(shù)據(jù)盡量分離。</p><p> 因?yàn)樵趯?shí)際應(yīng)
85、用中,不同聚類(lèi)算法產(chǎn)生的結(jié)果會(huì)隨著應(yīng)用數(shù)據(jù)的不同而產(chǎn)生變化,并不是所有數(shù)據(jù)挖掘的結(jié)果都是準(zhǔn)確并且有意義的,有些挖掘結(jié)果是沒(méi)有意義甚至是與實(shí)際情況相違背的,這就需要對(duì)聚類(lèi)結(jié)果進(jìn)行分析,包括對(duì)不同算法產(chǎn)生的結(jié)果的對(duì)比以及同種算法在進(jìn)行改進(jìn)前后的對(duì)比等,從而選擇出最合適的聚類(lèi)結(jié)果,為稅收稽查人員按照不同類(lèi)別對(duì)納稅人進(jìn)行有針對(duì)性的監(jiān)控管理提供可靠依據(jù)。</p><p><b> 22</b><
86、;/p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 2.2.2數(shù)據(jù)挖掘子系統(tǒng)的需求</p><p> 稅務(wù)稽查的經(jīng)驗(yàn)表明,納稅人的某種違法行為發(fā)生前,總有一系列的稅收異常行為。如稅負(fù)指標(biāo)反映了納稅人的實(shí)際稅收負(fù)擔(dān)水平,如果納稅人的稅負(fù)明顯低于同行業(yè)其他納稅人,說(shuō)明納稅人實(shí)際繳納的稅款遠(yuǎn)低于同行業(yè)的平均水平,而納稅人又沒(méi)有
87、正當(dāng)理由能夠解釋?zhuān)瑒t納稅人很可能有偷稅漏稅的違法行為 ;又如納稅人每月納稅申報(bào)數(shù)字為零,但發(fā)票的購(gòu)買(mǎi)量、使用量卻很大,這往往是納稅人虛開(kāi)增值稅專(zhuān)用發(fā)票犯罪的征兆;再如納稅人明明可以享受增值稅進(jìn)項(xiàng)稅款抵扣的優(yōu)惠,卻長(zhǎng)期不去稅務(wù)部門(mén)認(rèn)證、沖抵稅款,這很可能是納稅人故意隱瞞進(jìn)項(xiàng),進(jìn)而隱瞞銷(xiāo)項(xiàng),掩蓋其現(xiàn)金交易、收入長(zhǎng)期不入帳,不申報(bào)納稅的偷稅犯罪。因此,數(shù)據(jù)挖掘子系統(tǒng)應(yīng)當(dāng)能夠通過(guò)對(duì)多個(gè)指標(biāo)進(jìn)行考察,從多個(gè)方面綜合判斷納稅人是否存在偷漏稅行為。若
88、異常指標(biāo)出現(xiàn)的數(shù)量越多,納稅人偷逃稅款的嫌疑就越大。</p><p> 在稅收實(shí)踐中,通常還需要根據(jù)納稅人行為異常的程度將納稅人劃分為不同類(lèi)別,設(shè)定不同監(jiān)控等級(jí),并采取重點(diǎn)稽查、一般抽查、日常征管等相應(yīng)的監(jiān)控措施。比如一小部分企業(yè)的銷(xiāo)售額巨大,同時(shí)出現(xiàn)了較多的異常指標(biāo),這部分納稅人不多,但涉及的稅額巨大,說(shuō)明他們有很大偷逃稅款的嫌疑,一旦確認(rèn)出現(xiàn)偷逃稅款的違法行為將對(duì)國(guó)家財(cái)產(chǎn)造成重大損失,應(yīng)當(dāng)加大力度對(duì)其進(jìn)行重
89、點(diǎn)監(jiān)控和稽查。如果納稅人有出現(xiàn)異常指標(biāo),但異常指標(biāo)出現(xiàn)的數(shù)量較少,說(shuō)明納稅人有可能存在輕微的偷漏稅違法行為,需要對(duì)這部分納稅人進(jìn)行抽查以示警告,避免其偷逃稅款情節(jié)的加重,導(dǎo)致更大的違法犯罪行為。對(duì)于沒(méi)有明顯異常行為的納稅人,則按照日常征管的方式進(jìn)行監(jiān)控。因此,聚類(lèi)分析子系統(tǒng)還應(yīng)該能夠判斷納稅人的監(jiān)控級(jí)別,以便稅務(wù)工作人員對(duì)其實(shí)施相應(yīng)的征管監(jiān)控措施,提高管理針對(duì)性。</p><p> 根據(jù)上述分析,并綜合稅收部門(mén)
90、多年的稽查經(jīng)驗(yàn),我們的數(shù)據(jù)挖掘子系統(tǒng)擬使用以下四個(gè)指標(biāo)作為判斷納稅人類(lèi)別的標(biāo)準(zhǔn):銷(xiāo)售額(XSE)、購(gòu)電銷(xiāo)售比差異率(GDXSBCYL)、稅負(fù)差異率(SFCYL)、稅收彈性(SSTX)。我們的數(shù)據(jù)挖掘子系統(tǒng)也是從以上四個(gè)維度進(jìn)行挖掘。包含這四個(gè)維度的結(jié)果事實(shí)表稱(chēng)為分戶(hù)維度表(FHWDB),其結(jié)構(gòu)如下:</p><p><b> 23</b></p><p><b
91、> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 銷(xiāo)售額維購(gòu)電銷(xiāo)售比差異</p><p><b> 率維</b></p><p><b> 分戶(hù)維度表</b></p><p><b> 稅收彈性維</b></p><p>&
92、lt;b> 稅負(fù)差異率維</b></p><p> 圖 2-2數(shù)據(jù)挖掘的維度說(shuō)明</p><p> 1、銷(xiāo)售額(XSE)維:</p><p> 銷(xiāo)售額是指企業(yè)自行申報(bào)的銷(xiāo)售額。銷(xiāo)售額越大,涉及的稅款越多,越需要重點(diǎn)監(jiān)控。</p><p> 2、購(gòu)電銷(xiāo)售比差異率(GDXSBCYL)維:</p><
93、;p> 購(gòu)電銷(xiāo)售比是指單位銷(xiāo)售額的用電數(shù)量,反映企業(yè)的能耗情況,而企業(yè)的能耗情況又可以間接反映其生產(chǎn)情況。購(gòu)電銷(xiāo)售比差異率大于 0,表明企業(yè)用電多,申報(bào)的銷(xiāo)售收入低于行業(yè)平均水平;購(gòu)電銷(xiāo)售比差異率小于 0,表明企業(yè)用電少,申報(bào)的銷(xiāo)售收入高于行業(yè)平均水平。購(gòu)電銷(xiāo)售比越高,說(shuō)明可能存在隱瞞銷(xiāo)售收入從而達(dá)到其偷逃稅款的目的,納稅人偷漏稅的嫌疑越大。</p><p> 3、稅負(fù)差異率(SFCYL)維:</
94、p><p> 稅負(fù)是指納稅人的納稅額與銷(xiāo)售額之比,稅負(fù)差異率表明了納稅人的稅</p><p> 負(fù)水平與行業(yè)平均稅負(fù)水平之間的差異。稅負(fù)差異率大于 0,表明納稅人的</p><p> 稅負(fù)低于同行業(yè)其他納稅人;稅負(fù)差異率小于 0,表明納稅人的稅負(fù)重于同</p><p> 行業(yè)的其他納稅人。稅負(fù)差異率越大,表明納稅人的稅負(fù)越輕,納稅人偷漏&
95、lt;/p><p><b> 稅的嫌疑越大。</b></p><p> 4、稅收彈性(SSTX)維:</p><p><b> 24</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 稅收彈性系數(shù)是指納稅人納稅增長(zhǎng)的比
96、率與收入增長(zhǎng)的比率之比,即稅額的同比增長(zhǎng)率/銷(xiāo)售額的同比增長(zhǎng)率,理想情況下應(yīng)為 1。稅收彈性小于 0,表明納稅人納稅絕對(duì)值減少;大于 0,表明納稅人納稅絕對(duì)值增加;稅收彈性在 0 到 1 之間,表明納稅的增長(zhǎng)滯后于其收入的增長(zhǎng);大于 1,表明納稅增長(zhǎng)快于收入的增長(zhǎng)。稅收彈性越小,稅額與銷(xiāo)售額相比增長(zhǎng)的越慢,偷漏稅的嫌疑越大。</p><p> 數(shù)據(jù)挖掘子系統(tǒng)的目標(biāo)就是根據(jù)以上四個(gè)指標(biāo),采用不同的算法對(duì)所給數(shù)據(jù)集
97、進(jìn)行聚類(lèi),并且對(duì)聚類(lèi)結(jié)果進(jìn)行分析。目的是盡可能準(zhǔn)確的判斷數(shù)據(jù)集中所包含的記錄哪些應(yīng)該重點(diǎn)稽查,哪些應(yīng)該一般抽查或日常征管,從而為稅收稽查人員按照聚類(lèi)所產(chǎn)生的不同類(lèi)別對(duì)納稅人進(jìn)行有針對(duì)性的監(jiān)控管理提供可靠依據(jù),提高稅務(wù)機(jī)關(guān)征管預(yù)警監(jiān)控的能力和稽查選案的工作效率。</p><p> 2.2.3數(shù)據(jù)說(shuō)明</p><p> 通過(guò)采集工業(yè)企業(yè)一般納稅人稅收征管業(yè)務(wù)多個(gè)表關(guān)聯(lián)后的結(jié)果數(shù)據(jù),我們得
98、到稅收彈性表、工業(yè)用電表和稅負(fù)表共三張表。各個(gè)表的結(jié)構(gòu)說(shuō)明如下:</p><p> 表 2-7SSB_SSTX(事實(shí)表_稅收彈性)</p><p><b> 25</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 通過(guò)這張表中的字段,我們可以得出納稅人的稅收彈
99、性系數(shù)(SSTX),計(jì)算公式為:</p><p> SSTX = ( SE2 ? SE1) / ( XSE2 ? XSE1 )</p><p><b> SE1XSE1</b></p><p> 稅收彈性系數(shù)含義是納稅人納稅增長(zhǎng)的比率與收入增長(zhǎng)的比率之比,即稅額的同比增長(zhǎng)率/銷(xiāo)售額的同比增長(zhǎng)率,理想情況下應(yīng)為 1。在同等條件下 ,稅收
100、彈性越小表明納稅人偷稅漏稅的可能性越高。</p><p> 表 2-8SSB_GYYD(事實(shí)表_工業(yè)用電)</p><p> 通過(guò)這張表中的字段,我們可以得出納稅人的購(gòu)電銷(xiāo)售比差異率(GDXSBCYL),計(jì)算公式為:</p><p><b> HYXSE</b></p><p> 購(gòu)電銷(xiāo)售比是指單位銷(xiāo)售額的用電
101、數(shù)量,企業(yè)能耗情況,可以間接反映</p><p> 其生產(chǎn)情況。購(gòu)電銷(xiāo)售比偏高,反映可能存在隱瞞銷(xiāo)售收入,從而達(dá)到其偷</p><p> 逃稅款的目的。因此,在同等條件下,稅收彈性越小表明納稅人偷稅漏稅的</p><p><b> 可能性越高。</b></p><p><b> 26</b>
102、</p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 在稅收業(yè)務(wù)中,都是納稅人先自行申報(bào)收入,繳納稅款,如果稅務(wù)機(jī)關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑,才會(huì)去稽查,稽查發(fā)現(xiàn)有問(wèn)題,再補(bǔ)繳稅款并予以處罰的。但 GDXSBCYL 中的企業(yè)用電情況,是從第三方獲得的數(shù)據(jù)(即不是納稅人自行申報(bào)的),因此購(gòu)電銷(xiāo)售比差異率(GDXSBCYL)相對(duì)更加準(zhǔn)確可靠。</
103、p><p> 表 2-9SSB_SF(事實(shí)表_稅負(fù))</p><p> 通過(guò)這張表中的字段,我們可以得出納稅人的稅負(fù)差異率(SFCYL),其計(jì)算公式為:</p><p> SFCYL = (HYSF-QYSF) / HYSF</p><p> 稅負(fù)差異率反映納稅人的稅負(fù)情況與同行業(yè)平均水平相比的差異度,稅</p><
104、p> 負(fù)是即稅收負(fù)擔(dān),是指納稅人的納稅額與銷(xiāo)售額之比,計(jì)算公式為:</p><p> 納稅人稅負(fù)= 納稅人納稅額納稅人銷(xiāo)售額</p><p> 稅負(fù)指標(biāo)反映了納稅人的實(shí)際稅收負(fù)擔(dān)水平。稅負(fù)差異率大于 0,表明</p><p> 納稅人稅負(fù)低于同行業(yè)其他納稅人;稅負(fù)差異率小于 0,表明納稅人稅負(fù)重</p><p> 于同行業(yè)的其
105、他納稅人。在同等條件下,稅負(fù)差異率越大表明納稅人偷稅漏</p><p><b> 27</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p><b> 稅的可能性越大。</b></p><p> 對(duì)以上原始數(shù)據(jù)表中的字段進(jìn)行提成和選擇,根據(jù)特定的
106、轉(zhuǎn)換規(guī)則對(duì)原</p><p> 始數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行計(jì)算和轉(zhuǎn)換,可以得到用于數(shù)據(jù)挖掘工作的結(jié)果集:</p><p> 分戶(hù)維度表(FHWDB)。分戶(hù)維度表的結(jié)構(gòu)如下:</p><p> 表 2-10FHWDB(分戶(hù)維度表)</p><p> 我們的數(shù)據(jù)挖掘子系統(tǒng)就是根據(jù)以上四個(gè)指標(biāo),對(duì)采用不同的桔類(lèi)算法</p><
107、;p> 對(duì)所給經(jīng)過(guò)預(yù)處理的分戶(hù)維度表(FHWDB)中的數(shù)據(jù)進(jìn)行聚類(lèi),并且對(duì)聚</p><p> 類(lèi)結(jié)果進(jìn)行分析。目的是盡可能準(zhǔn)確的對(duì)結(jié)果事實(shí)表中所包含的記錄進(jìn)行分</p><p> 類(lèi),判斷哪些納稅人應(yīng)該重點(diǎn)稽查,哪些應(yīng)該一般抽查或日常征管,從而為</p><p> 稅收稽查人員按照聚類(lèi)所產(chǎn)生的結(jié)果對(duì)納稅人進(jìn)行有針對(duì)性的監(jiān)控管理提</p>
108、<p><b> 供可靠依據(jù)。</b></p><p> 2.3 數(shù)據(jù)挖掘子系統(tǒng)的結(jié)構(gòu)</p><p> 聚類(lèi)分析子系統(tǒng)的主要功能是根據(jù)異常指標(biāo)實(shí)現(xiàn)納稅人的自動(dòng)聚類(lèi),并允</p><p> 許用戶(hù)以交互的方式設(shè)置一些算法運(yùn)行時(shí)的參數(shù)。</p><p> 聚類(lèi)分析子系統(tǒng)的運(yùn)行流程如下圖所示:</
109、p><p><b> 28</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 根據(jù)數(shù)據(jù)挖掘子系統(tǒng)的目標(biāo)和以上系統(tǒng)流程,我們把數(shù)據(jù)挖掘子系統(tǒng)分為四個(gè)層面:原始數(shù)據(jù)層、信息整合層、數(shù)據(jù)挖掘?qū)雍徒Y(jié)果分析層。</p><p><b> 1、原始數(shù)據(jù)層:</b
110、></p><p> 本數(shù)據(jù)挖掘子系統(tǒng)的原始數(shù)據(jù)來(lái)源于廣西省國(guó)稅局 2008 年 1 月 1 日到 12 月 31 日的稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)。從稅收征管業(yè)務(wù)原始系統(tǒng)數(shù)據(jù)文件導(dǎo)入后,一共有 6 張表:dj_nsrxx(登記_納稅人信息表)、dj_nsrxx_kz(登記_納稅人信息_擴(kuò)展表)、dm_hymx(代碼_行業(yè)明細(xì)表)、dm_hy(代碼_行業(yè)表)、dm_swjg(代碼_稅務(wù)機(jī)關(guān))和 sb_zzs_
111、2003_ybnsr(申報(bào)_增值稅_2003 版_一般納稅人表 ),其中核心表(sb_zzs_2003_ybnsr)中包含 28 萬(wàn)條數(shù)據(jù),納稅人信息表(dj_nsrxx及 dj_nsrxx_kz)中包含 68 萬(wàn)條數(shù)據(jù),結(jié)果表中單月大約有 1.5 萬(wàn)條數(shù)據(jù)。從工業(yè)企業(yè)一般納稅人稅收征管業(yè)務(wù)多個(gè)表關(guān)聯(lián)后的結(jié)果數(shù)據(jù)文件導(dǎo)入后,一共有</p><p> 張表:SSB_SSTX(事實(shí)表_稅收彈性)、SSB_GYYD(
112、事實(shí)表_工業(yè)用電)和 SSB_SF (事實(shí)表_稅負(fù)),每張表中包含 6745 戶(hù)工業(yè)一般納稅人數(shù)據(jù)。</p><p> 圖 2-3數(shù)據(jù)挖掘子系統(tǒng)流程圖</p><p><b> 29</b></p><p><b> 需求分析與系統(tǒng)結(jié)構(gòu)</b></p><p> 盡管在核心應(yīng)用系統(tǒng)運(yùn)行前,
113、稅務(wù)部門(mén)對(duì)歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作,盡可能避免錄入問(wèn)題數(shù)據(jù),但是業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)質(zhì)量問(wèn)題依然普遍存在,包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問(wèn)題數(shù)據(jù)的來(lái)源既有歷史導(dǎo)入的,也有前臺(tái)錯(cuò)誤錄入的,還有后臺(tái)誤修改或修改不完整導(dǎo)致的。</p><p><b> 2、信息整合層:</b></p><p> 如果說(shuō)原始數(shù)據(jù)層是完成對(duì)基礎(chǔ)數(shù)據(jù)的管理和
114、存儲(chǔ),那么信息整合層則是不同來(lái)源的基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、清洗、加工、將基礎(chǔ)數(shù)據(jù)從面向應(yīng)用轉(zhuǎn)變?yōu)槊嫦蛑黝}的一個(gè)高效數(shù)據(jù)加工工廠。該層根據(jù)元數(shù)據(jù)庫(kù)中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對(duì)異地異構(gòu)數(shù)據(jù)源進(jìn)行清理、轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行重新組織和加工,最后轉(zhuǎn)化成 Weka 數(shù)據(jù)挖掘平臺(tái)所能識(shí)別的格式導(dǎo)入 Weka,以便進(jìn)行后續(xù)的挖掘工作。</p><p> 在本文中,信息整合層就是將稅務(wù)信息系統(tǒng)的數(shù)據(jù)進(jìn)行有機(jī)的整合集成
115、而實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用信息數(shù)據(jù)共享的過(guò)程。利用信息整合技術(shù),可以有效地消除信息孤島,合理地整合現(xiàn)有及未來(lái)的稅收應(yīng)用系統(tǒng)的信息數(shù)據(jù)。</p><p><b> 3、數(shù)據(jù)挖掘?qū)樱?lt;/b></p><p> 數(shù)據(jù)挖掘能夠從大量的數(shù)據(jù)中挖掘出有趣的知識(shí)。在稅務(wù)信息系統(tǒng)中,存放的信息主要包括納稅戶(hù)的基本情況、納稅戶(hù)申報(bào)、繳納稅款等信息。我們通過(guò)對(duì) Weka 數(shù)據(jù)挖掘平臺(tái)下聚類(lèi)算法
116、的改進(jìn)來(lái)對(duì)納稅人的納稅情況進(jìn)行考察,查看納稅人的繳納稅款情況,對(duì)納稅人進(jìn)行歸類(lèi)處理,將具有相似行為的納稅人集中到一起,作為稅務(wù)機(jī)關(guān)下一步稽查工作的參考。</p><p><b> 4、結(jié)果分析層:</b></p><p> 我們的數(shù)據(jù)挖掘子系統(tǒng)允許用戶(hù)在聚類(lèi)過(guò)程中設(shè)定一些運(yùn)行時(shí)的參數(shù),不同的參數(shù)設(shè)置會(huì)產(chǎn)生不同的結(jié)果;由于我們對(duì)算法進(jìn)行了一系列的改進(jìn),算法改進(jìn)前后也
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預(yù)警監(jiān)控系統(tǒng)——子空間聚類(lèi)改進(jìn)
- 畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預(yù)警監(jiān)控系統(tǒng)——子空間聚類(lèi)改進(jìn)
- 基于數(shù)據(jù)挖掘的納稅人預(yù)警監(jiān)控系統(tǒng) ——聚類(lèi)算法的實(shí)現(xiàn)與比較---畢業(yè)論文
- 納稅人預(yù)警監(jiān)控系統(tǒng)中數(shù)據(jù)挖掘子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)的研究及數(shù)據(jù)預(yù)處理算法的改進(jìn).pdf
- 基于數(shù)據(jù)預(yù)處理和回歸分析技術(shù)的數(shù)據(jù)挖掘算法及其應(yīng)用研究.pdf
- 基于云計(jì)算的改進(jìn)K-means算法草原羊群軌跡數(shù)據(jù)挖掘研究.pdf
- 畢業(yè)論文--數(shù)據(jù)挖掘k均值算法實(shí)現(xiàn)
- 字符預(yù)處理及分割算法實(shí)現(xiàn)——畢業(yè)論文
- 數(shù)據(jù)挖掘之分類(lèi)算法的研究畢業(yè)論文
- 畢業(yè)論文--數(shù)據(jù)挖掘k均值算法實(shí)現(xiàn)
- 基于臨床數(shù)據(jù)的數(shù)據(jù)挖掘軟件開(kāi)發(fā)——分類(lèi)分析模塊及關(guān)聯(lián)規(guī)則模塊設(shè)計(jì)---畢業(yè)論文
- 基于Web的一般納稅人監(jiān)測(cè)預(yù)警系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于無(wú)線傳感網(wǎng)的森林火情預(yù)警監(jiān)控系統(tǒng)實(shí)現(xiàn)及其定位算法研究.pdf
- 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘-畢業(yè)論文
- 基于大數(shù)據(jù)的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘-畢業(yè)論文
- 納稅人須知
- Web日志挖掘中數(shù)據(jù)預(yù)處理算法的研究.pdf
- 基于數(shù)據(jù)挖掘算法的電力負(fù)荷預(yù)測(cè)系統(tǒng)的改進(jìn).pdf
- 基于UML的網(wǎng)上辦稅系統(tǒng)(納稅人端).pdf
評(píng)論
0/150
提交評(píng)論