版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中國是農(nóng)業(yè)大國,雖然農(nóng)業(yè)產(chǎn)值占GDP的比重不到10%,但農(nóng)業(yè)就業(yè)人口仍占到了總就業(yè)人口的28.3%,農(nóng)業(yè)仍舊是國民經(jīng)濟和社會發(fā)展的基礎(chǔ)。在科學(xué)研究中,農(nóng)業(yè)經(jīng)濟以及農(nóng)業(yè)管理的研究仍是必要和重要的,而這些農(nóng)業(yè)經(jīng)濟管理研究很多都需要開展農(nóng)業(yè)經(jīng)濟調(diào)查以獲取數(shù)據(jù),然后在數(shù)據(jù)分析的基礎(chǔ)上得到結(jié)論。
跟任何調(diào)查一樣,農(nóng)業(yè)經(jīng)濟調(diào)查會遇到一個幾乎無可避免的問題:缺失值,農(nóng)戶的無回答或者調(diào)查人員的疏忽都會讓農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)產(chǎn)生缺失值。但跟其它調(diào)查
2、,如市場調(diào)查、民意調(diào)查不同的是,農(nóng)業(yè)經(jīng)濟調(diào)查有很強的特殊性,比如農(nóng)業(yè)經(jīng)濟調(diào)查仍使用古老的人員訪問方法、調(diào)查問卷中存在大量的開放性問題、能獲得較多輔助信息、隨機性不高但農(nóng)戶調(diào)查配合度較高等等。
結(jié)合農(nóng)業(yè)經(jīng)濟調(diào)查的特點和數(shù)據(jù)缺失的原因,提出本研究特定的假設(shè)條件:調(diào)查數(shù)據(jù)來自一個正態(tài)總體;調(diào)查數(shù)據(jù)是隨機獲得的;變量類型以數(shù)量變量為主;數(shù)據(jù)的缺失模式是單一缺失和一般缺失;數(shù)據(jù)的缺失機制是完全隨機缺失(MCAR)和隨機缺失(MAR)?;?/p>
3、于這些基本假設(shè),本研究提出了農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)的缺失值處理構(gòu)建一套較系統(tǒng)的模型和方法。這套模型其實是一個完整的邏輯體系,但為了敘述方便分成三部分:刪除模型、單一插補模型和多重插補模型,每一個模型又包括很多具體的方法。
本研究的基本邏輯是,根據(jù)假設(shè)和條件提出一個模型,在這個模型中提出基本方法,利用理論分析和模擬分析其缺陷,然后改進提出新的方法;如果假設(shè)和條件改變,又使用新的模型,為新的模型尋求方法并分析改進。
刪除是缺失
4、值處理的最基礎(chǔ)模型。大部分農(nóng)業(yè)經(jīng)濟調(diào)查人員都采取該模型將缺失值當(dāng)作無效數(shù)據(jù)刪除,大部分的數(shù)據(jù)分析軟件也默認刪除缺失值。刪除一般是指成列刪除,也就是刪除所有含缺失值的個案,留下完整數(shù)據(jù)。當(dāng)數(shù)據(jù)的缺失比重很低時,刪除缺失值倒也無所謂,但是當(dāng)數(shù)據(jù)缺失比重較大或者變量很多時,就會導(dǎo)致大量個案被刪除。本文用不同的缺失比例模擬隨機產(chǎn)生農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù),分析發(fā)現(xiàn)當(dāng)變量很少時,缺失比重略高一點刪除比例也不會太高,但當(dāng)變量稍微多一點,哪怕很小的缺失比
5、重都致使大量的數(shù)據(jù)被刪除。
一個可供替代的刪除方法是,如果我們不需要完整數(shù)據(jù),只要使用可用的個案計算參數(shù)估計,這樣就可以盡量減少數(shù)據(jù)刪除,這就是成對刪除。但成對刪除會讓估計量來自不同大小的樣本,造成很多參數(shù)估計麻煩。此外本文的模擬分析發(fā)現(xiàn),其實成對刪除在對缺失農(nóng)業(yè)經(jīng)濟調(diào)查的相關(guān)關(guān)系估計上并沒有顯著超過成列刪除。
當(dāng)數(shù)據(jù)不是完全隨機缺失(MCAR)時,無論是成列刪除還是成對刪除都會產(chǎn)生有偏的估計。可以利用輔助信息將目標(biāo)
6、缺失變量分層,根據(jù)各層的完整觀測數(shù)據(jù)計算各層均值,然后再將各層均值以缺失概率作權(quán)數(shù)加權(quán)平均,這樣就可以一定程度上彌補成列刪除估計的有偏性,這就是加權(quán)調(diào)整的方法。本文通過模擬生成隨機缺失(MAR)下的目標(biāo)缺失變量和與之正相關(guān)的輔助變量,然后加權(quán)調(diào)整方法的獲得的均值估計非常接近真值,而成列刪除的均值估計明顯偏小。
用刪除方法刪掉的數(shù)據(jù)信息也許是有用的,再者對農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)因為缺失值的存在而粗暴地刪除,從心理上也是難以接受的,對數(shù)
7、據(jù)的缺失值進行插補也許是一種更好的模型。插補分為單一插補和多重插補,前者指為缺失值提供單一插補值,后者是指對每一個缺失值,其插補值不止一個。插補的基本思想是根據(jù)數(shù)據(jù)的后驗分布,用數(shù)據(jù)的觀測部分為缺失部分提供合理的填補值。
簡單均值插補是將目標(biāo)缺失變量的觀測部分的均值作為缺失值的插補,是最先能想到的單一插補方法。但簡單均值插補的插補值完全集中于數(shù)據(jù)的中心位置,通過理論分析容易發(fā)現(xiàn)其顯著低估了總體方差。一個解決方法是在其基礎(chǔ)上加上
8、隨機誤差項,這就是隨機均值插補。進一步本文還做了一個模擬研究,那就是模擬產(chǎn)生變量正相關(guān)的農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù)進行均值插補,最后發(fā)現(xiàn)其相關(guān)系數(shù)矩陣和協(xié)方差矩陣中的值明顯小于真實相關(guān)系數(shù)矩陣和協(xié)方差矩陣的值。但無論是簡單均值插補還是隨機均值插補在數(shù)據(jù)非完全隨機(MCAR)的情況下,估計都是有偏的。分層均值插補可以修正這個問題,分層均值插補是指將目標(biāo)缺失變量按照輔助信息分層,然后再各層中進行均值插補,這樣其估計是無偏的。
分層均值插
9、補雖然解決了一般均值插補的估計有偏問題,但插補值仍過于集中,回歸插補可以解決這個問題。簡單回歸插補是指根據(jù)農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù)的后驗分布,利用數(shù)據(jù)的觀測部分產(chǎn)生缺失部分的回歸預(yù)測值,通過理論分析發(fā)現(xiàn)其對總體方差的估計仍偏小,可以加上隨機殘差項,這就是隨機回歸插補。將回歸插補和均值插補對比模擬研究顯示,回歸插補是一個比均值插補更好的方法,尤其是隨機回歸插補有很好的插補效果,而簡單均值插補是最不被推薦的。
如果農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù)
10、沒有明顯的后驗分布,熱平臺插補方法會是更好的選擇。熱平臺方法直接從數(shù)據(jù)的完整部分產(chǎn)生缺失部分的插補值,其插補值一般比較穩(wěn)健,不用擔(dān)心像回歸插補一樣產(chǎn)生異常的插補值。一個簡單的熱平臺插補是從完整觀測數(shù)據(jù)中簡單隨機抽樣產(chǎn)生插補值,這就是簡單隨機插補。如果數(shù)據(jù)是隨機缺失(MAR)的一個更好的方法是利用輔助信息將目標(biāo)缺失變量分層,然后在各層的完整觀測數(shù)據(jù)中隨機產(chǎn)生該層的插補值,這就是分層隨機插補。熱平臺插補還有一個很有效率的方法,就是利用輔助變
11、量,找到缺失值最接近的觀測值作為自己的插補值,這就是最近距離方法。本文的一個針對熱平臺插補和均值插補、回歸插補進行對比的模擬分析發(fā)現(xiàn),在完全隨機缺失(MCAR)下,基于熱平臺的隨機插補效果顯著好于均值插補,但可能比回歸插補略差。
根據(jù)單一插補后的數(shù)據(jù)進行估計檢驗時,其標(biāo)準(zhǔn)誤差常常是被低估的,多重插補是解決這個問題的最有效的模型。多重插補的基本思想是,對同一缺失值產(chǎn)生多個插補值,這樣就產(chǎn)生多個“完整”數(shù)據(jù),然后對每一個“完整”數(shù)
12、據(jù)估計檢驗,最后將其匯總成一個總的估計檢驗結(jié)果。
基于單一缺失的一元正態(tài)模型仍然利用回歸插補產(chǎn)生插補值,但其從兩個角度讓缺失值的不同插補值差異加大,一是跟回歸插補一樣在插補值中加入殘差項,二是讓每一次插補的回歸模型參數(shù)隨機產(chǎn)生。回歸模型參數(shù)的隨機產(chǎn)生方法有兩個,一是根據(jù)回歸模型參數(shù)的后驗分布隨機產(chǎn)生模型參數(shù),這就是貝葉斯方法;二是用數(shù)據(jù)的Bootstrap樣本來產(chǎn)生模型參數(shù),這就是Bootstrap方法。本文首先研究分析了這兩
13、個方法的假設(shè)和理論,然后為了比較這兩個方法的應(yīng)用效果,在完全隨機缺失的假設(shè)下模擬產(chǎn)生缺失數(shù)據(jù),然后分別用貝葉斯法和Bootstrap法進行插補,并跟單一插補進行比較,結(jié)果發(fā)現(xiàn)無論是貝葉斯法還是Bootstrap方法,都有很好的估計檢驗效果,其估計的準(zhǔn)確性顯著超過單一插補。
多元正態(tài)模型是基于一般缺失模式的農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù)的插補。多元正態(tài)模型,由于其缺失模式的復(fù)雜性,為缺失值的插補提出了更大的挑戰(zhàn)。本文研究了其中最為廣泛應(yīng)用
14、的聯(lián)合分布方法以及條件分布方法的假設(shè)和理論。更進一步本文模擬了一個多變量隨機缺失的農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù),然后運用這兩個方法進行插補,結(jié)果顯示兩者都有很好的估計檢驗效果,而且兩者之間差異并不大,都是很好的方法。
在理論和模擬分析的基礎(chǔ)上,本文對一個實際農(nóng)業(yè)經(jīng)濟調(diào)查缺失數(shù)據(jù)進行了應(yīng)用分析并取得較好的效果。通過實際應(yīng)用分析可以得到一個基本的結(jié)論,那就是如果數(shù)據(jù)基本符合缺失值處理模型的假設(shè),多重插補優(yōu)于單一插補,而單一插補又優(yōu)于刪除;如果
15、不符合假設(shè),比如出現(xiàn)極端值,那么基于明確后驗分布的缺失值插補效果會大打折扣,而此時基于熱平臺的插補方法會得到更穩(wěn)健的結(jié)果。
基于本研究,為農(nóng)業(yè)經(jīng)濟管理研究人員在缺失值處理前和缺失值處理中兩個階段分別給出了一定的具體建議。在缺失值處理前建議:調(diào)查前通過良好的問卷設(shè)計減少缺失值產(chǎn)生;調(diào)查中與通過農(nóng)戶良好的溝通減少缺失值產(chǎn)生;及時處理無意義值,以免跟缺失值混淆;不要用不科學(xué)的方法消除缺失值。在缺失值處理中建議:正視缺失值問題;盡量不
16、要刪除缺失值;善于利用分類變量處理缺失值;插補缺失值前對缺失數(shù)據(jù)進行描述考察;單一插補時選擇回歸插補;在數(shù)據(jù)一般缺失時使用多重插補。
本研究可能的創(chuàng)新有:
(1)本文率先關(guān)注了農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)的缺失值處理問題,并基本厘清其學(xué)理。雖然在農(nóng)業(yè)經(jīng)濟調(diào)查中缺失值無可避免,但絕大部分農(nóng)業(yè)經(jīng)濟管理研究人員都將其忽略,更鮮有人對其系統(tǒng)研究,使得該領(lǐng)域的研究特別是國內(nèi)研究基本空白,這也是作者開啟這項研究的重要原因。
(2)
17、本文專門針對中國農(nóng)業(yè)經(jīng)濟調(diào)查的特點模擬缺失數(shù)據(jù)進行分析,具有一定創(chuàng)新性和開創(chuàng)性。本文針對中國農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)的缺失值處理,提出了一整套具體而又可行的模型和方法體系,為了分析這些方法的可行性和使用條件,并對不同模型和方法的效果進行比較,采用了理論分析和模擬分析。而其中的很多模擬分析針對中國農(nóng)業(yè)經(jīng)濟調(diào)查特點、缺失模式、缺失機制進行了專門的設(shè)計。
(3)本文為農(nóng)業(yè)經(jīng)濟調(diào)查數(shù)據(jù)中缺失值實際處理和應(yīng)用自編了一套具體的基于R軟件的程序代碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)經(jīng)濟轉(zhuǎn)型期農(nóng)業(yè)經(jīng)濟發(fā)展學(xué)科的思考
- 農(nóng)業(yè)經(jīng)濟問題的分析方法探討
- 農(nóng)業(yè)經(jīng)濟學(xué)
- 古代中國的農(nóng)業(yè)經(jīng)濟
- 農(nóng)業(yè)經(jīng)濟轉(zhuǎn)型期農(nóng)業(yè)經(jīng)濟管理學(xué)科發(fā)展的認識
- 農(nóng)業(yè)經(jīng)濟與管理試題及答案
- 農(nóng)業(yè)經(jīng)濟學(xué)重點
- 農(nóng)業(yè)經(jīng)濟增長因素探析
- 當(dāng)前我國農(nóng)業(yè)經(jīng)濟的發(fā)展及現(xiàn)狀
- 《農(nóng)業(yè)經(jīng)濟學(xué)》電子教案(全)農(nóng)業(yè)經(jīng)濟學(xué)鐘甫寧
- 《農(nóng)業(yè)經(jīng)濟學(xué)》電子教案全農(nóng)業(yè)經(jīng)濟學(xué)鐘甫寧
- 農(nóng)業(yè)經(jīng)濟管理7
- 農(nóng)業(yè)經(jīng)濟管理題庫
- 農(nóng)業(yè)經(jīng)濟學(xué)習(xí)題
- 農(nóng)業(yè)經(jīng)濟學(xué)試卷
- 農(nóng)業(yè)經(jīng)濟學(xué)習(xí)題
- 淺談農(nóng)業(yè)經(jīng)濟的發(fā)展論文
- 低碳農(nóng)業(yè)經(jīng)濟解析
- 農(nóng)業(yè)經(jīng)濟學(xué)專題
- 非相關(guān)文獻知識發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟學(xué)中的應(yīng)用.pdf
評論
0/150
提交評論