版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、一. 一元數(shù)據(jù)處理方法,二. 多元數(shù)據(jù)處理方法,三.如何寫好建模競賽論文,數(shù)據(jù)處理專題,數(shù)據(jù)處理是指用簡明而嚴(yán)格的方法把獲得的實驗數(shù)據(jù)所代表的事物內(nèi)在的規(guī)律提煉出來,得出結(jié)果的加工過程,包括數(shù)據(jù)記錄、描繪曲線,從帶有誤差的數(shù)據(jù)中提取參數(shù),驗證和尋找經(jīng)驗規(guī)律,外推實驗數(shù)據(jù)等等。本章介紹一些最基本的數(shù)據(jù)處理方法。,1.插值 2.擬合及線性回歸,1. 一元數(shù)據(jù)處理方法,在解決實際問題的生產(chǎn)(或工程)實踐和科學(xué)實驗過程中
2、,通常需要通過研究某些變量之間的函數(shù)關(guān)系來幫助我們認(rèn)識事物的內(nèi)在規(guī)律和本質(zhì)屬性,而這些變量之間的未知函數(shù)關(guān)系又常常隱含在從試驗、觀測得到的一組數(shù)據(jù)之中。因此,能否根據(jù)一組試驗觀測數(shù)據(jù)找到變量之間相對準(zhǔn)確的函數(shù)關(guān)系就成為解決實際問題的關(guān)鍵,例如在工程實踐和科學(xué)實驗中,常常需要從一組試驗觀測數(shù)據(jù)(xi ,yi ) ,i = 0,1,....,n之中找到自變量x與因變量y 之間的函數(shù)關(guān)系,一般可用一個近似函數(shù)y = f (x)來表示。函數(shù)y
3、 = f (x)的產(chǎn)生辦法因觀測數(shù)據(jù)和要求不同而異,通??刹捎脭?shù)據(jù)擬合與函數(shù)插值兩種辦法來實現(xiàn)。 數(shù)據(jù)擬合主要是考慮到觀測數(shù)據(jù)受隨機觀測誤差的影響,進(jìn)而尋求整體誤差最小、能較好反映觀測數(shù)據(jù)的近似函數(shù)y = f (x),此時并不要求所得到的近似函數(shù)y = f (x)滿足yi= f (xi) , i = 0,1,…,n。 函數(shù)插值則要求近似函數(shù)y = f (x)在每一個觀測點 xi 處一定要滿足y i= f (xi) ,
4、 i = 0,1,…,n ,在這種情況下,通常要求觀測數(shù)據(jù)相對比較準(zhǔn)確,即不考慮觀測誤差的影響。,在實際問題中,通過觀測數(shù)據(jù)能否正確揭示某些變量之間的關(guān)系,進(jìn)而正確認(rèn)識事物的內(nèi)在規(guī)律與本質(zhì)屬性,往往取決于兩方面因素。其一是觀測數(shù)據(jù)的準(zhǔn)確性或準(zhǔn)確程度,這是因為在獲取觀測數(shù)據(jù)的過程中一般存在隨機測量誤差,導(dǎo)致所討論的變量成為隨機變量。其二是對觀測數(shù)據(jù)處理方法的選擇,即到底是采用插值方法還是用擬合方法,插值方法之中、擬合方法之中又選用哪一種插
5、值或擬合技巧來處理觀測數(shù)據(jù)。插值問題忽略了觀測誤差的影響,而擬合問題則考慮了觀測誤差的影響。但由于觀測數(shù)據(jù)客觀上總是存在觀測誤差,而擬合函數(shù)大多數(shù)情況下是通過經(jīng)驗公式獲得的,因此要正確揭示事物的內(nèi)在規(guī)律,往往需要對大量的觀測數(shù)據(jù)進(jìn)行分析,尤為重要的是進(jìn)行統(tǒng)計分析。統(tǒng)計分析的方法有許多,如方差分析、回歸分析等。,數(shù)據(jù)擬合雖然較有效地克服了隨機觀測誤差的影響,但從數(shù)理統(tǒng)計的角度看,根據(jù)一個樣本計算出來的擬合函數(shù)(系數(shù)),只是擬合問題的一個點
6、估計,還不能完全說明其整體性質(zhì)。因此,還應(yīng)該對擬合函數(shù)作區(qū)間估計或假設(shè)檢驗,如果置信區(qū)間太大或包含零點,則由計算得到的擬合函數(shù)系數(shù)的估計值就毫無意義。這里所采用的統(tǒng)計分析方法就是所謂的回歸分析。另外還可用方差分析的方法對模型的誤差作定量分析。 對于插值方法,本文簡單介紹最常用的插值法的基本結(jié)論及其Matlab實現(xiàn)問題。由于數(shù)據(jù)擬合問題必須作區(qū)間估計或假設(shè)檢驗,所以除了介紹最基本的數(shù)據(jù)擬合方法——最小二乘法的基本結(jié)論及其Matlab實
7、現(xiàn)問題外,我們專門介紹了對數(shù)值擬合問題進(jìn)行區(qū)間估計或假設(shè)檢驗的統(tǒng)計方法。,即介紹回歸分析方法及其Matlab實現(xiàn)。 數(shù)據(jù)處理問題通常情況下只是某個復(fù)雜實際問題的一個方面或部分內(nèi)容,因而這里所介紹的數(shù)據(jù)處理方法——函數(shù)插值和數(shù)據(jù)擬合的方法(包括回歸分析)通常只能解決實際問題中的部分問題——計算問題。一般來說,對實際問題進(jìn)行數(shù)學(xué)建模需要用到多方面知識,只有很少的情況下可以單獨使用本章所介紹的內(nèi)容,故我們最后以修改后的美國91年數(shù)
8、學(xué)建模A題為例說明如何使用數(shù)值計算知識建立數(shù)學(xué)模型,從而解決實際問題的方法。,1、插 值 法,在生產(chǎn)和實驗中,常常需要根據(jù)一張表格表示的函數(shù)推算該表中沒有的函數(shù)值.解決此類問題的簡單途徑之一利用插值法。,插值在數(shù)學(xué)發(fā)展史上是一個老問題,它是和Gauss, Lagrange, Newton等在著名數(shù)學(xué)家連在一起的。它最初來源于天體計算——由若干觀測值計算人一時刻星球的位置。現(xiàn)在,插值法在工程技術(shù)和數(shù)據(jù)處理有許多直接應(yīng)用,而且也是數(shù)值積分、
9、數(shù)值微分的基礎(chǔ)。,1.1 插值概念與基礎(chǔ)理論,1.1.1 插值問題的提法,對于給定的函數(shù)表,(其中 在[a,b]上連續(xù), x0,x1,…,xn 是 [a,b]上的 n+1個互異的點),在某函數(shù)類{?(x) }中求一個函數(shù)?(x) ,使,?(xi)=yi , (i=0,1,2,…,n) (2),(1),并用函數(shù)?(x) 作為函數(shù) y=f(x) 的近似函數(shù),即
10、y= f(x) ? ?(x) , ( x∈[a,b] ),這類問題稱為插值問題。 [a,b]稱為插值區(qū)間, x0 , x1, ... , xn 稱為插值節(jié)點,(2)稱為插值條件,插值條件是選擇近似函數(shù)的標(biāo)準(zhǔn),滿足此條件的近似函數(shù) ?(x) 稱為插值函數(shù), f(x) 稱為被插值函數(shù)。,函數(shù)類{?(x) }有多種取法,常用的有代數(shù)多項式、三角函數(shù)和有理函數(shù)。,最簡單的插值函數(shù)是代數(shù)多項式,相應(yīng)的插值問題稱為多項式插值。,最簡
11、單的插值函數(shù)是代數(shù)多項式,相應(yīng)的插值問題稱為多項式插值。,,§1.2 插值多項式的求法,在前面討論插值多項式的存在唯一性時,實際上已提供了它的一種求法,即通過求解線性方程組來確定其系數(shù)ai (i=0,1,2,…,n),但是這種方法不僅計算量大,而且因不能獲得簡明的表達(dá)式而給理論和應(yīng)用研究帶來不便。在這里我們學(xué)習(xí)兩種簡便而實用的求答。,1.2.1 拉格朗日插值多項式,在線性代數(shù)中知道,所有次數(shù)不超過n次的多項式構(gòu)成一個n+1維線
12、性空間。其基有各種不同的取法。因此盡管滿足條件(4)的n次插值多項式是唯一的,然而它的表達(dá)式可以有多種不同的形式。如果取滿足條件:,的一組n次多項式,,作為上述,線性空間的基,則容易看出,因此,由n+1個代數(shù)多項式,線性生成的多項式(10)就是滿足插值條件的n次插值多項式。,(10),(9),滿足條件(9)的多項式,稱為n+1個節(jié)點的n次基本插值多項式(或n次基函數(shù)),顯然,求拉格朗日多項式的關(guān)鍵是求n次插值基函數(shù)。,因此,可設(shè),,因為
13、,為n次多項式,且,兩種特殊的Lagrange插值多項式,1.線性插值(兩點插值),最簡單的插值是線性插值(此時n=1), 這時插值問題就是求一次多項式,P1(x)=a0+a1x,使它滿足條件,P1(x0)=y0 , P1(x1)=y1 ,,這時,于是線性插值多項式為,即,它就是通過M0(x0,y0)和M1(x1,y1)兩點的線段.,2.拋物插值,線性插值僅僅用兩個節(jié)點以上的信息,精確度較差。為了提高精確度,我們進(jìn)一步考察以下三點
14、的插值問題(n=2):,這時,由此得到拋物插值多項式,拋物插值又稱三點插值.,,,例1 已知,的函數(shù)表,并估計誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,%lagrange插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j~=kp=p*(
15、z-x0(j))/(x0(k)-x0(j));endends=p*y0(k)+s;endy(i)=s;end,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849,2.5649 2.6391];x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,’+’,x,y),1901年龍格(Runge) 給出一個例子:
16、 定義在區(qū)間[-1,1]上,這是一個光滑函數(shù),它的任意階導(dǎo)數(shù)都存在,對它在[-1,1]上作等距節(jié)點插值時,插值多項式情況,見圖:,從圖中,可見,在靠近-1或1時,余項會隨n值增大而增大,如P12(0.96)=3×6!但f(0.96)=0.25,從圖中,還可發(fā)現(xiàn),在0附近插值效果是好的,即余項較小,另一種現(xiàn)象是插值多項式隨節(jié)點增多而振動更多。 這種插值多項式當(dāng)節(jié)點增加時反而不
17、能更好地接近被插之?dāng)?shù)的現(xiàn)象,稱為龍格現(xiàn)象。,上述現(xiàn)象和定理,告訴我們用高次插值多項式是不妥當(dāng)?shù)模瑥臄?shù)值計算上可解釋為高次插值多項式的計算會帶來舍入誤差的增大,從而引起計算失真。那么如何提高插值精度呢?采用分段插值是一種辦法。實踐上作插值時一般只用一次、二次最多用三次插值多項式。,分段線性插值的構(gòu)造:,設(shè)f(x)是定義在[a,b]上的函數(shù),在[a,b]上節(jié)點 a= x0< x1<x2<…&l
18、t;xn-1<xn=b, 的函數(shù)值為 y0 , y1 ,y2 ,…yn-1 ,yn 。,?(x)在每個子區(qū)間[xi , xi+1](i=0,1,2,???,n-1)上是一次插 值多項式;,這種分段低次插值稱為分段線性插值.在幾何上就是用折線段帶代替曲線,故分段線性插值又稱為折線插值.,1.2.2 分段線性插值,分段線性插值:matalb調(diào)用格式:yi=interp1(x,y,xi,’linear’),x,y
19、為插值節(jié)點,xi為待求節(jié)點,分段線性插值曲線圖:,曲線的光滑性較差,在節(jié)點處有尖點,但如果增加節(jié)點的數(shù)量,減小步長,會改善插值效果,,,例1 已知,的函數(shù)表,并估計誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849 2.5649 2.6391 ];x=10:0.1:15;y1=interp1(x0,y0,x,’linea
20、r’);yy1=interp1(x0,y0,11.5,’linear’); y2=interp1(x0,y0,x,‘cubic');yy2=interp1(x0,y0,11.5,‘cubic');subplot(1,2,1)plot(x0,y0,'+',x,y1,11.5,yy1,’rO’)title('Piecewise linear')subplot(1,2,2)plo
21、t(x0,y0,'+',x,y2,11.5,yy2,’rO’)title('Piecewise cubic'),分段二次插值即:選取跟節(jié)點x最近的三個節(jié)點xi-1,xi, xi+1進(jìn)行二次插值,即在區(qū)間[xi-1, xi+1],?。哼@種分段的低次插值叫分段二次插值,在幾何上就是用分段拋物線代替y=f(x),故分段二次插值又和分段拋物插值。,matlab調(diào)用格式y(tǒng)i=interp1(x,y
22、,xi,’cubic’) %二次多項式插值,什么是樣條:,是 指飛機或輪船等的制造過程中為描繪出光滑的外形曲線(放樣)所用的工具,樣條本質(zhì)上是一段一段的三次多項式拼合而成的曲線,在拼接處,不僅函數(shù)是連續(xù)的,且一階和二階導(dǎo)數(shù)也是連續(xù)的,1946年,Schoenberg將樣條引入數(shù)學(xué),即所謂的樣條函數(shù),1.3 三次樣條插值,,------(1),定義1.,1.4.1、三次樣條插值函數(shù),clearx0=[0 1 2 3];y0=[0
23、0.5 2 1.5];x=0:0.1:3;pp1=csape(x0,y0,’complete’);y3=ppval(pp1,x);%計算插值函數(shù)在x處的值plot(x0,y0,’+’,x,y3,’r’),一維插值總結(jié) 插值函數(shù)一般是已知函數(shù)的線性組合或者稱為加權(quán)平均。在已知數(shù)據(jù)點較少時,插值技術(shù)在工程實踐和科學(xué)實驗中有著廣泛而又十分重要的應(yīng)用。例如在信息技術(shù)中的圖像重建、圖像放大過程中為避免圖像失真、扭曲而增加的插值補點,
24、建筑工程的外觀設(shè)計,化學(xué)工程試驗數(shù)據(jù)與模型分析,天文觀測數(shù)據(jù)、地理信息數(shù)據(jù)的處理,社會經(jīng)濟現(xiàn)象的統(tǒng)計分析等方面,插值技術(shù)的應(yīng)用是不可或缺的。插值技術(shù)(或方法)遠(yuǎn)不止這里所介紹的這些,但在解決實際問題時,對于一位插值問題而言,前面介紹的插值方法已經(jīng)足夠了。剩下的問題關(guān)鍵在于什么情況下使用、怎樣使用和使用何種插值方法的選擇上。拉格朗日插值函數(shù)在整個插值區(qū)間上有統(tǒng)一的解析表達(dá)式,其形式關(guān)于節(jié)點對稱,光滑性好。但缺點同樣明顯,這主要體現(xiàn)在高
25、次插值收斂性差(龍格現(xiàn)象);增加節(jié)點時前期計算作廢,導(dǎo)致計算量大;一個節(jié)點函數(shù)值的微小變化(觀測誤差存在)將導(dǎo)致整個區(qū)間上插值函數(shù)都發(fā)生改變,因而穩(wěn)定性差等幾個方面。因此拉格朗日插值法多用于理論分析,在采用拉格朗日插值方法進(jìn)行插值計算時通常選取n < 7。分段線性插值函數(shù)(僅連續(xù))與三次樣條插值函數(shù)(二階導(dǎo)數(shù)連續(xù))雖然光滑性差,但他們都克服了拉格朗日插值函數(shù)的缺點,不僅收斂性、穩(wěn)定性強,而且方法簡單實用,計算量小。因而應(yīng)用十分廣泛
26、。,2、數(shù) 據(jù) 擬 合,在科學(xué)計算中經(jīng)常要建立實驗數(shù)據(jù)的數(shù)學(xué)模型。給定函數(shù)的實驗數(shù)據(jù),需要用比較簡單和合適的函數(shù)來逼近(或擬合)實驗數(shù)據(jù)。這種逼近的特點是:(a) 適度的精度是需要的;(b) 實驗數(shù)據(jù)有小的誤差;(c) 對于某些問題,可能有某些特殊的信息能夠用來選擇實驗數(shù)據(jù)的數(shù)學(xué)模型。逼近離散數(shù)據(jù)的基本方法就是曲線擬合,常采用最小二乘擬合,曲線擬合問題的數(shù)學(xué)描述是,已知一組(二維)數(shù)據(jù)(xi,yi ) ,i = 1,2,。。。
27、,n(即平面上的n個點(xi, yi ) ,i = 1,2,。。,n), x i 互不相同。尋求一個函數(shù)(曲線) y = f (x),使f (x)在某種準(zhǔn)則下與所有數(shù)據(jù)點最為接近,即曲線擬合得最好。最小二乘擬合分為線性最小二乘擬合和非線性最小二乘擬合。,2.1線性最小二乘擬合(多項式擬合)方法在線性最小二乘擬合中,用的較多的是多項式擬合。如果取{ r1( x), ‥, rm+1( x)} ={1, ‥ ,xm } ,即用m 次多項
28、式擬合給定數(shù)據(jù),則Matlab中有現(xiàn)成的函數(shù) a=polyfit(x0,y0,m),其中輸入?yún)?shù)x0,y0為要擬合的數(shù)據(jù),m為擬合多項式的次數(shù),輸出參數(shù)a為擬合多項式y(tǒng)=amxm+…+a1x+a0系數(shù)a=[ am, …, a1, a0]。多項式在x處的值y可用下面的函數(shù)計算 y=polyval(a,x)。例4 某鄉(xiāng)鎮(zhèn)企業(yè)1990-1996年的生產(chǎn)利潤如下表:,年份 1990 1991
29、1992 1993 1994 1995 1996利潤(萬元) 70 122 144 152 174 196 202試預(yù)測1997年和1998年的利潤。,解 作已知數(shù)據(jù)的的散點圖,x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];plot(x0,y0,'*')發(fā)現(xiàn)該鄉(xiāng)鎮(zhèn)企業(yè)的年生產(chǎn)利潤幾乎直線上升。因此,我們可以用y
30、= a1 x + a0 作為擬合函數(shù)來預(yù)測該鄉(xiāng)鎮(zhèn)企業(yè)未來的年利潤。編寫程序如下:x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];a=polyfit(x0,y0,1)y97=polyval(a,1997)y98=polyval(a,1998)求得a1 = 20 ,a0 = -4.0705×104 ,1997年的生產(chǎn)利潤y
31、97=233.4286,1998年的生產(chǎn)利潤y98=253.9286。,2 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個命令時,都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設(shè)已知xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),cu
32、rvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvefit('fun',x0,xdata,ydata,options);(3)x=c
33、urvefit('fun',x0,xdata,ydata,options, 'grad');(4)[x,options]=curvefit('fun',x0,xdata,ydata,…);(5)[x,options,funval]=curvefit('fun',x0,xdata,ydata,…);(6)[x,options,funval,Jacob]=curvefit
34、('fun',x0,xdata,ydata,…).輸出目標(biāo)函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,3 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個命令時,都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設(shè)已知xdata=(xdata1,xdata
35、2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),curvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvef
36、it('fun',x0,xdata,ydata,options);(3)x=curvefit('fun',x0,xdata,ydata,options, 'grad');輸出目標(biāo)函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,2 leastsq設(shè)已xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,y
37、data2,…,ydatan ),leastsq 用以求含參量x(向量)的向量值函數(shù),輸入格式為:(1)x= leastsq ('fun',x0,options);(2)x= leastsq ('fun',x0,options, 'grad');,例5 用下面一組數(shù)據(jù)擬合函數(shù)c(t) = a + be-0.02kt 中的參數(shù)a,b, k 。,t 1
38、00 200 300 400 500 600 700 800 900 1000cj×103 4.54 4.99 5.35 5.65 5.90 6.10 6.26 6.39 6.50 6.59,1 用命令curvefit。此時 F(x,tdata)=(a+b e-0.02kt1,…,a+be-0.02kt10)T,x=(a,b,k)(1) 編寫M文件curvefun1.mfunction f=cur
39、vefun1(x,tdata)f=x(1)+x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=b;x(3)=k;(2) 輸入命令tdata=100:100:1000cdata=1e03*[4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59];x0=[0.2,0.05,0.005];x=curvefit(‘curvefun1’,x0,tdata,
40、cdata)f=curvefun1(x,tdata)即擬合得a=0.0070,b=-0.0030,k=0.0066,變量之間的關(guān)系,確定性關(guān)系,相關(guān)關(guān)系,確定性關(guān)系,身高和體重,相關(guān)關(guān)系,相關(guān)關(guān)系的特征是:變量之間的關(guān)系很難用一種精確的方法表示出來.,2.1.1 引言,2.2.回歸分析方法,確定性關(guān)系和相關(guān)關(guān)系的聯(lián)系,由于存在測量誤差等原因,確定性關(guān)系在實際問題中往往通過相關(guān)關(guān)系表示出來;另一方面,當(dāng)對事物內(nèi)部規(guī)律了解得更加深
41、刻時,相關(guān)關(guān)系也有可能轉(zhuǎn)化為確定性關(guān)系.,回歸分析——處理變量之間的相關(guān)關(guān)系的一種數(shù)學(xué)方法,它是最常用的數(shù)理統(tǒng)計方法.,回歸分析的任務(wù)——根據(jù)試驗數(shù)據(jù)估計回歸函數(shù);討論回歸函數(shù)中參數(shù)的點估計、區(qū)間估計;對回歸函數(shù)中的參數(shù)或者回歸函數(shù)本身進(jìn)行假設(shè)檢驗;利用回歸函數(shù)進(jìn)行預(yù)測與控制等等.,一元線性回歸,多元線性回歸,,,,回歸分析方法,,,,,,,,數(shù)學(xué)模型及定義,模型參數(shù)估計,檢驗、預(yù)測與控制,可線性化的一元非線性回歸(曲線回歸
42、),,,,,,數(shù)學(xué)模型及定義,模型參數(shù)估計,多元線性回歸中的檢驗與預(yù)測,逐步回歸分析,,2.2一元線性回歸分析,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,以身高x為橫坐標(biāo),以腿長y為縱坐標(biāo)將這些數(shù)據(jù)點(xi,yi)在平面直角坐標(biāo)系上標(biāo)出.,散點圖,,,2.2.1 數(shù)學(xué)模型,一元線性回歸分析的主要任務(wù)是:,、,2.2.2 模型參數(shù)估計,(1)回歸系數(shù)的最小二乘估計,其中,,,,稱Qe為殘差平方和或剩余平方和. 可以證明:,,,2
43、.2.3 回歸方程的顯著性檢驗,F檢驗法,,可以用三種不同方法進(jìn)行檢驗,它們的本質(zhì)是相同的.這里介紹,回歸系數(shù)的置信區(qū)間,線性回歸matlab,b=regress( Y, X ),,,,,1.確定回歸系數(shù)的點估計值:,,b為一元函數(shù)y系數(shù)的估計值,3.畫出殘差及其置信區(qū)間: rcoplot(r,rint),2.求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: [b, bint,r,rint,stats]=regress(Y,X
44、,alpha),,,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regre
45、ss(Y,X);b,bint,statsrcoplot(r,rint)figure(2)z=b(1)+b(2)*x;plot(x,Y,'k+',x,z,'r')F=finv(0.95,1,14)%及求F0.05(1,16-2),,b = -16.0730 0.7194bint = -33.7071 1.5612 0.6047 0.8340st
46、ats = 0.9282 180.9531 0.0000,,,,F0.05(1,16-2)=4.6,1.2.4 預(yù)測與控制,(1)預(yù)測:對固定的x值預(yù)測相應(yīng)的y值,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,請你預(yù)測一下身高為170cm時該女子的腿長應(yīng)該是在什么范圍(置信度為0.05),clearx0=170x=[143 145 146 147 149 150 153 154 155 156 157 158
47、159 160 162 164];y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]&
48、#39;;X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regress(Y,X);x0=170x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];y0=-16.073+0.7194*x0;t=
49、tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],(2)控制,1.3 可線性化的一元非線性回歸曲線回歸,例2 出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕, 容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關(guān) 系.對一鋼包作試驗,測得的數(shù)據(jù)列
50、于下表:,,散點圖,此即非線性回歸或曲線回歸問題(需要配曲線),配曲線的一般方法是:,通常選擇的六類曲線如下:,,二. 多元數(shù)據(jù)處理方法,1、二維插值2、多元回歸分析3、聚類分析4、主成分分析,二維插值的定義,第一種(網(wǎng)格節(jié)點):,,已知 m?n個節(jié)點,第二種(散亂節(jié)點):,注意:最鄰近插值一般不連續(xù)。具有連續(xù)性的最簡單的插值是分片線性插值。,最鄰近插值,二維或高維情形的最鄰近插值,與被插值點最鄰近的節(jié)點的函數(shù)值即為所求。,
51、將四個插值點(矩形的四個頂點)處的函數(shù)值依次簡記為:,分片線性插值,f (xi, yj)=f1,f (xi+1, yj)=f2,f (xi+1, yj+1)=f3,f (xi, yj+1)=f4,插值函數(shù)為:,第二片(上三角形區(qū)域):(x, y)滿足,插值函數(shù)為:,注意:(x, y)當(dāng)然應(yīng)該是在插值節(jié)點所形成的矩形區(qū)域內(nèi)。顯然,分片線性插值函數(shù)是連續(xù)的;,分兩片的函數(shù)表達(dá)式如下:,第一片(下三角形區(qū)域): (x, y)滿足,雙線性插值是
52、一片一片的空間二次曲面構(gòu)成。雙線性插值函數(shù)的形式如下:,其中有四個待定系數(shù),利用該函數(shù)在矩形的四個頂點(插值節(jié)點)的函數(shù)值,得到四個代數(shù)方程,正好確定四個系數(shù)。,雙線性插值,要求x0,y0單調(diào);x,y可取為矩陣,或x取行向量,y取為列向量,x,y的值分別不能超出x0,y0的范圍。,z=interp2(x0,y0,z0,x,y,’method’),用MATLAB作網(wǎng)格節(jié)點數(shù)據(jù)的插值,‘nearest’ 最鄰近插值‘linear’
53、 雙線性插值‘cubic’ 雙三次插值缺省時, 雙線性插值,,例:測得平板表面3*5網(wǎng)格點處的溫度分別為: 82 81 80 82 84
54、 79 63 61 65 81 84 84 82 85 86
55、 試作出平板表面的溫度分布曲面z=f(x,y)的圖形。,輸入以下命令:x=1:5;y=1:3;temps=[82 81 80 82 84;79 63 61 65 81;84 84 82 85 86];mesh(x,y,temps),1.先在三維坐標(biāo)畫出原始數(shù)據(jù),畫出粗糙的溫度分布曲圖.,2.以
56、平滑數(shù)據(jù),在x、y方向上每隔0.2個單位的地方進(jìn)行插值.,再輸入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi',yi,'cubic');mesh(xi,yi,zi)畫出插值后的溫度分布曲面圖.,通過此例對最近鄰點插值、雙線性插值方法和雙三次插值方法的插值效果進(jìn)行比較。,插值函數(shù)griddata格式為:,cz =griddata(x,y,z,cx,c
57、y,‘method’),用MATLAB作散點數(shù)據(jù)的插值計算,要求cx取行向量,cy取為列向量。,‘nearest’ 最鄰近插值‘linear’ 雙線性插值‘cubic’ 雙三次插值'v4'- Matlab提供的插值方法缺省時, 雙線性插值,,例 在某海域測得一些點(x,y)處的水深z由下表給出,船的吃水深度為5英尺,在矩形區(qū)域(75,200)*(-50,150)里的哪些地方船要避免進(jìn)入。,,,,,
58、,4.作出水深小于5的海域范圍,即z=5的等高線.,3、作海底曲面圖,實驗作業(yè),山區(qū)地貌:在某山區(qū)測得一些地點的高程如下表:(平面區(qū)域1200<=x<=4000,1200<=y<=3600),試作出該山區(qū)的地貌圖和等高線圖,并對幾種插值方法進(jìn)行比較。,1.4 多元線性回歸,多元線性回歸在工程上更為有用。,,1.4.1數(shù)學(xué)模型及定義,,,1.4.2模型參數(shù)估計,,解得估計值,1.4.4多元線性回歸中的檢驗與預(yù)測,(
59、殘差平方和),F檢驗法,(2)預(yù)測,(A)點預(yù)測,(B)區(qū)間預(yù)測,1.5 逐步回歸分析,實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題。逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。它是在多元線性回歸的基礎(chǔ)上派生出來的一種算法技巧。,“最優(yōu)”的回歸方程就是包含所有對Y有影響的變量, 而不包含對Y影響不顯著的變量回歸方程。,如果采用的自變量越多,則回歸平方和越大,殘差平
60、方和越小,然而較多的變量來擬合回歸方程,得到的防策劃能夠穩(wěn)定性差,用它作預(yù)測可靠性差,精度低.另一方面,如果采用了y 影響較小的變量而遺漏了重要變量,可導(dǎo)致估計量產(chǎn)生偏崎和不一致性.為此,我們希望得到“最優(yōu)”的回歸方程.,(4)“有進(jìn)有出”的逐步回歸分析。,(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;,(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;,(3)從一個變量開始,把變量逐個引入方程;,選擇“最優(yōu)”的回歸方程有
61、以下幾種方法:,以第四種方法,即逐步回歸分析法在篩選變量方面較為理想.,這個過程反復(fù)進(jìn)行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時為止。,逐步回歸分析法的思想:,從一個自變量開始,視自變量Y作用的顯著程度,從大到小地依次逐個引入回歸方程。,當(dāng)引入的自變量由于后面變量的引入而變得不顯著時,要將其剔除掉。,引入一個自變量或從回歸方程中剔除一個自變量,為逐步回歸的一步。,對于每一步都要進(jìn)行Y值檢驗,以確保每次引入新的
62、顯著性變量前回歸方程中只包含對Y作用顯著的變量。,1.6.1多元線性回歸,b=regress( Y, X ),,,1)確定回歸系數(shù)的點估計值:,1.6 MATLAB統(tǒng)計工具箱中的回歸分析命令,對一元線性回歸,取p=1即可.,3、畫出殘差及其置信區(qū)間: rcoplot(r,rint),2)求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: [b, bint,r,rint,stats]=regres
63、s(Y,X,alpha),,,例1,解:,1、輸入數(shù)據(jù): x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';,2、回歸分
64、析及檢驗: [b,bint,r,rint,stats]=regress(Y,X) b,bint,stats,To MATLAB(liti11),題目,3、殘差分析,作殘差圖: rcoplot(r,rint),從殘差圖可以看出,除第二個數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點均較近,且殘差的置信區(qū)間均包含零點,這說明回歸模型 y=-16.073+0.7194x能較好的符合原始數(shù)據(jù),而第二
65、個數(shù)據(jù)可視為異常點.,4、預(yù)測及作圖:z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r'),返回,To MATLAB(liti12),,1.6.2多 項 式 回 歸,(1)一元多項式回歸,1)確定多項式系數(shù)的命令:[p,S]=polyfit(x,y,m),2)一元多項式回歸命令:polytool(x,y,m),A、回歸:,y=a1xm+a2xm-1+…+amx+am+1,
66、此命令產(chǎn)生一個交互式的畫面,畫面中有擬合曲線和y的置信區(qū)間。通過左下方的Export菜單,可以輸出回歸系數(shù)等。,,一元多項式回歸也可以化為多元線性回歸來解。,法一,直接作二次多項式回歸: t=1/30:1/30:14/30; s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]
67、; [p,S]=polyfit(t,s,2),To MATLAB(liti21),得回歸模型為 :,法二,化為多元線性回歸:t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];T=[ones(14,1) t' (t.^
68、2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats,To MATLAB(liti22),得回歸模型為 :,Y=polyconf(p,t,S) plot(t,s,'k+',t,Y,'r'),預(yù)測及作圖,To MATLAB(liti23),1.6.3多元二項式回歸,命令:rstool(x,y,’model’, alpha),,,,命
69、令rstool產(chǎn)生一個交互式畫面,畫面中有m個圖形,這m個圖形分別給出了一個獨立變量xi(另m-1個變量取固定值)與y的擬合曲線,以及y的置信區(qū)間??梢酝ㄟ^鍵入不同的xi值來獲得相應(yīng)的y值。,例3 設(shè)某商品的需求量與消費者的平均收入、商品價格的統(tǒng)計數(shù) 據(jù)如下,建立回歸模型,預(yù)測平均收入為800、價格為6時 的商品需求量.,解,直接用多元二項式回歸:x1=[1000 600 1200 500 30
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 椅子放平穩(wěn)問題-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 銳得ppt模板-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 利用spss進(jìn)行主成分分析-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 第四講matlab繪圖-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 學(xué)習(xí)資源網(wǎng)站優(yōu)化策略研究--基于學(xué)習(xí)者在線學(xué)習(xí)特征分析.pdf
- eda教學(xué)資源網(wǎng)站的建設(shè)
- 數(shù)學(xué)建模中的回歸分析法
- EDA教學(xué)資源網(wǎng)站的建設(shè)二稿.doc
- EDA教學(xué)資源網(wǎng)站的建設(shè)定稿.doc
- 183jsp教學(xué)資源網(wǎng)站c#+sql
- 臺灣人力資源網(wǎng)站研究.pdf
- 數(shù)學(xué)建模中的回歸分析法
- 基于專題資源網(wǎng)站的學(xué)習(xí)在中學(xué)信息課中應(yīng)用的研究.pdf
- 基于SEO的教學(xué)資源網(wǎng)站設(shè)計與開發(fā).pdf
- 《巖石圈與地表形態(tài)》主題資源網(wǎng)站
- 《巖石圈與地表形態(tài)》主題資源網(wǎng)站
- EDA教學(xué)資源網(wǎng)站的建設(shè)一稿.doc
- “一村一品”主題資源網(wǎng)站設(shè)計.pdf
- 精品課程資源網(wǎng)站的設(shè)計與研究.pdf
- 基于主題資源網(wǎng)站的課堂教學(xué)模式探究.pdf
評論
0/150
提交評論