版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一. 一元數(shù)據(jù)處理方法,二. 多元數(shù)據(jù)處理方法,三.如何寫好建模競(jìng)賽論文,數(shù)據(jù)處理專題,數(shù)據(jù)處理是指用簡(jiǎn)明而嚴(yán)格的方法把獲得的實(shí)驗(yàn)數(shù)據(jù)所代表的事物內(nèi)在的規(guī)律提煉出來(lái),得出結(jié)果的加工過(guò)程,包括數(shù)據(jù)記錄、描繪曲線,從帶有誤差的數(shù)據(jù)中提取參數(shù),驗(yàn)證和尋找經(jīng)驗(yàn)規(guī)律,外推實(shí)驗(yàn)數(shù)據(jù)等等。本章介紹一些最基本的數(shù)據(jù)處理方法。,1.插值 2.擬合及線性回歸,1. 一元數(shù)據(jù)處理方法,在解決實(shí)際問(wèn)題的生產(chǎn)(或工程)實(shí)踐和科學(xué)實(shí)驗(yàn)過(guò)程中
2、,通常需要通過(guò)研究某些變量之間的函數(shù)關(guān)系來(lái)幫助我們認(rèn)識(shí)事物的內(nèi)在規(guī)律和本質(zhì)屬性,而這些變量之間的未知函數(shù)關(guān)系又常常隱含在從試驗(yàn)、觀測(cè)得到的一組數(shù)據(jù)之中。因此,能否根據(jù)一組試驗(yàn)觀測(cè)數(shù)據(jù)找到變量之間相對(duì)準(zhǔn)確的函數(shù)關(guān)系就成為解決實(shí)際問(wèn)題的關(guān)鍵,例如在工程實(shí)踐和科學(xué)實(shí)驗(yàn)中,常常需要從一組試驗(yàn)觀測(cè)數(shù)據(jù)(xi ,yi ) ,i = 0,1,....,n之中找到自變量x與因變量y 之間的函數(shù)關(guān)系,一般可用一個(gè)近似函數(shù)y = f (x)來(lái)表示。函數(shù)y
3、 = f (x)的產(chǎn)生辦法因觀測(cè)數(shù)據(jù)和要求不同而異,通常可采用數(shù)據(jù)擬合與函數(shù)插值兩種辦法來(lái)實(shí)現(xiàn)。 數(shù)據(jù)擬合主要是考慮到觀測(cè)數(shù)據(jù)受隨機(jī)觀測(cè)誤差的影響,進(jìn)而尋求整體誤差最小、能較好反映觀測(cè)數(shù)據(jù)的近似函數(shù)y = f (x),此時(shí)并不要求所得到的近似函數(shù)y = f (x)滿足yi= f (xi) , i = 0,1,…,n。 函數(shù)插值則要求近似函數(shù)y = f (x)在每一個(gè)觀測(cè)點(diǎn) xi 處一定要滿足y i= f (xi) ,
4、 i = 0,1,…,n ,在這種情況下,通常要求觀測(cè)數(shù)據(jù)相對(duì)比較準(zhǔn)確,即不考慮觀測(cè)誤差的影響。,在實(shí)際問(wèn)題中,通過(guò)觀測(cè)數(shù)據(jù)能否正確揭示某些變量之間的關(guān)系,進(jìn)而正確認(rèn)識(shí)事物的內(nèi)在規(guī)律與本質(zhì)屬性,往往取決于兩方面因素。其一是觀測(cè)數(shù)據(jù)的準(zhǔn)確性或準(zhǔn)確程度,這是因?yàn)樵讷@取觀測(cè)數(shù)據(jù)的過(guò)程中一般存在隨機(jī)測(cè)量誤差,導(dǎo)致所討論的變量成為隨機(jī)變量。其二是對(duì)觀測(cè)數(shù)據(jù)處理方法的選擇,即到底是采用插值方法還是用擬合方法,插值方法之中、擬合方法之中又選用哪一種插
5、值或擬合技巧來(lái)處理觀測(cè)數(shù)據(jù)。插值問(wèn)題忽略了觀測(cè)誤差的影響,而擬合問(wèn)題則考慮了觀測(cè)誤差的影響。但由于觀測(cè)數(shù)據(jù)客觀上總是存在觀測(cè)誤差,而擬合函數(shù)大多數(shù)情況下是通過(guò)經(jīng)驗(yàn)公式獲得的,因此要正確揭示事物的內(nèi)在規(guī)律,往往需要對(duì)大量的觀測(cè)數(shù)據(jù)進(jìn)行分析,尤為重要的是進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)分析的方法有許多,如方差分析、回歸分析等。,數(shù)據(jù)擬合雖然較有效地克服了隨機(jī)觀測(cè)誤差的影響,但從數(shù)理統(tǒng)計(jì)的角度看,根據(jù)一個(gè)樣本計(jì)算出來(lái)的擬合函數(shù)(系數(shù)),只是擬合問(wèn)題的一個(gè)點(diǎn)
6、估計(jì),還不能完全說(shuō)明其整體性質(zhì)。因此,還應(yīng)該對(duì)擬合函數(shù)作區(qū)間估計(jì)或假設(shè)檢驗(yàn),如果置信區(qū)間太大或包含零點(diǎn),則由計(jì)算得到的擬合函數(shù)系數(shù)的估計(jì)值就毫無(wú)意義。這里所采用的統(tǒng)計(jì)分析方法就是所謂的回歸分析。另外還可用方差分析的方法對(duì)模型的誤差作定量分析。 對(duì)于插值方法,本文簡(jiǎn)單介紹最常用的插值法的基本結(jié)論及其Matlab實(shí)現(xiàn)問(wèn)題。由于數(shù)據(jù)擬合問(wèn)題必須作區(qū)間估計(jì)或假設(shè)檢驗(yàn),所以除了介紹最基本的數(shù)據(jù)擬合方法——最小二乘法的基本結(jié)論及其Matlab實(shí)
7、現(xiàn)問(wèn)題外,我們專門介紹了對(duì)數(shù)值擬合問(wèn)題進(jìn)行區(qū)間估計(jì)或假設(shè)檢驗(yàn)的統(tǒng)計(jì)方法。,即介紹回歸分析方法及其Matlab實(shí)現(xiàn)。 數(shù)據(jù)處理問(wèn)題通常情況下只是某個(gè)復(fù)雜實(shí)際問(wèn)題的一個(gè)方面或部分內(nèi)容,因而這里所介紹的數(shù)據(jù)處理方法——函數(shù)插值和數(shù)據(jù)擬合的方法(包括回歸分析)通常只能解決實(shí)際問(wèn)題中的部分問(wèn)題——計(jì)算問(wèn)題。一般來(lái)說(shuō),對(duì)實(shí)際問(wèn)題進(jìn)行數(shù)學(xué)建模需要用到多方面知識(shí),只有很少的情況下可以單獨(dú)使用本章所介紹的內(nèi)容,故我們最后以修改后的美國(guó)91年數(shù)
8、學(xué)建模A題為例說(shuō)明如何使用數(shù)值計(jì)算知識(shí)建立數(shù)學(xué)模型,從而解決實(shí)際問(wèn)題的方法。,1、插 值 法,在生產(chǎn)和實(shí)驗(yàn)中,常常需要根據(jù)一張表格表示的函數(shù)推算該表中沒有的函數(shù)值.解決此類問(wèn)題的簡(jiǎn)單途徑之一利用插值法。,插值在數(shù)學(xué)發(fā)展史上是一個(gè)老問(wèn)題,它是和Gauss, Lagrange, Newton等在著名數(shù)學(xué)家連在一起的。它最初來(lái)源于天體計(jì)算——由若干觀測(cè)值計(jì)算人一時(shí)刻星球的位置?,F(xiàn)在,插值法在工程技術(shù)和數(shù)據(jù)處理有許多直接應(yīng)用,而且也是數(shù)值積分、
9、數(shù)值微分的基礎(chǔ)。,1.1 插值概念與基礎(chǔ)理論,1.1.1 插值問(wèn)題的提法,對(duì)于給定的函數(shù)表,(其中 在[a,b]上連續(xù), x0,x1,…,xn 是 [a,b]上的 n+1個(gè)互異的點(diǎn)),在某函數(shù)類{?(x) }中求一個(gè)函數(shù)?(x) ,使,?(xi)=yi , (i=0,1,2,…,n) (2),(1),并用函數(shù)?(x) 作為函數(shù) y=f(x) 的近似函數(shù),即
10、y= f(x) ? ?(x) , ( x∈[a,b] ),這類問(wèn)題稱為插值問(wèn)題。 [a,b]稱為插值區(qū)間, x0 , x1, ... , xn 稱為插值節(jié)點(diǎn),(2)稱為插值條件,插值條件是選擇近似函數(shù)的標(biāo)準(zhǔn),滿足此條件的近似函數(shù) ?(x) 稱為插值函數(shù), f(x) 稱為被插值函數(shù)。,函數(shù)類{?(x) }有多種取法,常用的有代數(shù)多項(xiàng)式、三角函數(shù)和有理函數(shù)。,最簡(jiǎn)單的插值函數(shù)是代數(shù)多項(xiàng)式,相應(yīng)的插值問(wèn)題稱為多項(xiàng)式插值。,最簡(jiǎn)
11、單的插值函數(shù)是代數(shù)多項(xiàng)式,相應(yīng)的插值問(wèn)題稱為多項(xiàng)式插值。,,§1.2 插值多項(xiàng)式的求法,在前面討論插值多項(xiàng)式的存在唯一性時(shí),實(shí)際上已提供了它的一種求法,即通過(guò)求解線性方程組來(lái)確定其系數(shù)ai (i=0,1,2,…,n),但是這種方法不僅計(jì)算量大,而且因不能獲得簡(jiǎn)明的表達(dá)式而給理論和應(yīng)用研究帶來(lái)不便。在這里我們學(xué)習(xí)兩種簡(jiǎn)便而實(shí)用的求答。,1.2.1 拉格朗日插值多項(xiàng)式,在線性代數(shù)中知道,所有次數(shù)不超過(guò)n次的多項(xiàng)式構(gòu)成一個(gè)n+1維線
12、性空間。其基有各種不同的取法。因此盡管滿足條件(4)的n次插值多項(xiàng)式是唯一的,然而它的表達(dá)式可以有多種不同的形式。如果取滿足條件:,的一組n次多項(xiàng)式,,作為上述,線性空間的基,則容易看出,因此,由n+1個(gè)代數(shù)多項(xiàng)式,線性生成的多項(xiàng)式(10)就是滿足插值條件的n次插值多項(xiàng)式。,(10),(9),滿足條件(9)的多項(xiàng)式,稱為n+1個(gè)節(jié)點(diǎn)的n次基本插值多項(xiàng)式(或n次基函數(shù)),顯然,求拉格朗日多項(xiàng)式的關(guān)鍵是求n次插值基函數(shù)。,因此,可設(shè),,因?yàn)?/p>
13、,為n次多項(xiàng)式,且,兩種特殊的Lagrange插值多項(xiàng)式,1.線性插值(兩點(diǎn)插值),最簡(jiǎn)單的插值是線性插值(此時(shí)n=1), 這時(shí)插值問(wèn)題就是求一次多項(xiàng)式,P1(x)=a0+a1x,使它滿足條件,P1(x0)=y0 , P1(x1)=y1 ,,這時(shí),于是線性插值多項(xiàng)式為,即,它就是通過(guò)M0(x0,y0)和M1(x1,y1)兩點(diǎn)的線段.,2.拋物插值,線性插值僅僅用兩個(gè)節(jié)點(diǎn)以上的信息,精確度較差。為了提高精確度,我們進(jìn)一步考察以下三點(diǎn)
14、的插值問(wèn)題(n=2):,這時(shí),由此得到拋物插值多項(xiàng)式,拋物插值又稱三點(diǎn)插值.,,,例1 已知,的函數(shù)表,并估計(jì)誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,%lagrange插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j~=kp=p*(
15、z-x0(j))/(x0(k)-x0(j));endends=p*y0(k)+s;endy(i)=s;end,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849,2.5649 2.6391];x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,’+’,x,y),1901年龍格(Runge) 給出一個(gè)例子:
16、 定義在區(qū)間[-1,1]上,這是一個(gè)光滑函數(shù),它的任意階導(dǎo)數(shù)都存在,對(duì)它在[-1,1]上作等距節(jié)點(diǎn)插值時(shí),插值多項(xiàng)式情況,見圖:,從圖中,可見,在靠近-1或1時(shí),余項(xiàng)會(huì)隨n值增大而增大,如P12(0.96)=3×6!但f(0.96)=0.25,從圖中,還可發(fā)現(xiàn),在0附近插值效果是好的,即余項(xiàng)較小,另一種現(xiàn)象是插值多項(xiàng)式隨節(jié)點(diǎn)增多而振動(dòng)更多。 這種插值多項(xiàng)式當(dāng)節(jié)點(diǎn)增加時(shí)反而不
17、能更好地接近被插之?dāng)?shù)的現(xiàn)象,稱為龍格現(xiàn)象。,上述現(xiàn)象和定理,告訴我們用高次插值多項(xiàng)式是不妥當(dāng)?shù)模瑥臄?shù)值計(jì)算上可解釋為高次插值多項(xiàng)式的計(jì)算會(huì)帶來(lái)舍入誤差的增大,從而引起計(jì)算失真。那么如何提高插值精度呢?采用分段插值是一種辦法。實(shí)踐上作插值時(shí)一般只用一次、二次最多用三次插值多項(xiàng)式。,分段線性插值的構(gòu)造:,設(shè)f(x)是定義在[a,b]上的函數(shù),在[a,b]上節(jié)點(diǎn) a= x0< x1<x2<…&l
18、t;xn-1<xn=b, 的函數(shù)值為 y0 , y1 ,y2 ,…yn-1 ,yn 。,?(x)在每個(gè)子區(qū)間[xi , xi+1](i=0,1,2,???,n-1)上是一次插 值多項(xiàng)式;,這種分段低次插值稱為分段線性插值.在幾何上就是用折線段帶代替曲線,故分段線性插值又稱為折線插值.,1.2.2 分段線性插值,分段線性插值:matalb調(diào)用格式:yi=interp1(x,y,xi,’linear’),x,y
19、為插值節(jié)點(diǎn),xi為待求節(jié)點(diǎn),分段線性插值曲線圖:,曲線的光滑性較差,在節(jié)點(diǎn)處有尖點(diǎn),但如果增加節(jié)點(diǎn)的數(shù)量,減小步長(zhǎng),會(huì)改善插值效果,,,例1 已知,的函數(shù)表,并估計(jì)誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849 2.5649 2.6391 ];x=10:0.1:15;y1=interp1(x0,y0,x,’linea
20、r’);yy1=interp1(x0,y0,11.5,’linear’); y2=interp1(x0,y0,x,‘cubic');yy2=interp1(x0,y0,11.5,‘cubic');subplot(1,2,1)plot(x0,y0,'+',x,y1,11.5,yy1,’rO’)title('Piecewise linear')subplot(1,2,2)plo
21、t(x0,y0,'+',x,y2,11.5,yy2,’rO’)title('Piecewise cubic'),分段二次插值即:選取跟節(jié)點(diǎn)x最近的三個(gè)節(jié)點(diǎn)xi-1,xi, xi+1進(jìn)行二次插值,即在區(qū)間[xi-1, xi+1],?。哼@種分段的低次插值叫分段二次插值,在幾何上就是用分段拋物線代替y=f(x),故分段二次插值又和分段拋物插值。,matlab調(diào)用格式y(tǒng)i=interp1(x,y
22、,xi,’cubic’) %二次多項(xiàng)式插值,什么是樣條:,是 指飛機(jī)或輪船等的制造過(guò)程中為描繪出光滑的外形曲線(放樣)所用的工具,樣條本質(zhì)上是一段一段的三次多項(xiàng)式拼合而成的曲線,在拼接處,不僅函數(shù)是連續(xù)的,且一階和二階導(dǎo)數(shù)也是連續(xù)的,1946年,Schoenberg將樣條引入數(shù)學(xué),即所謂的樣條函數(shù),1.3 三次樣條插值,,------(1),定義1.,1.4.1、三次樣條插值函數(shù),clearx0=[0 1 2 3];y0=[0
23、0.5 2 1.5];x=0:0.1:3;pp1=csape(x0,y0,’complete’);y3=ppval(pp1,x);%計(jì)算插值函數(shù)在x處的值plot(x0,y0,’+’,x,y3,’r’),一維插值總結(jié) 插值函數(shù)一般是已知函數(shù)的線性組合或者稱為加權(quán)平均。在已知數(shù)據(jù)點(diǎn)較少時(shí),插值技術(shù)在工程實(shí)踐和科學(xué)實(shí)驗(yàn)中有著廣泛而又十分重要的應(yīng)用。例如在信息技術(shù)中的圖像重建、圖像放大過(guò)程中為避免圖像失真、扭曲而增加的插值補(bǔ)點(diǎn),
24、建筑工程的外觀設(shè)計(jì),化學(xué)工程試驗(yàn)數(shù)據(jù)與模型分析,天文觀測(cè)數(shù)據(jù)、地理信息數(shù)據(jù)的處理,社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)分析等方面,插值技術(shù)的應(yīng)用是不可或缺的。插值技術(shù)(或方法)遠(yuǎn)不止這里所介紹的這些,但在解決實(shí)際問(wèn)題時(shí),對(duì)于一位插值問(wèn)題而言,前面介紹的插值方法已經(jīng)足夠了。剩下的問(wèn)題關(guān)鍵在于什么情況下使用、怎樣使用和使用何種插值方法的選擇上。拉格朗日插值函數(shù)在整個(gè)插值區(qū)間上有統(tǒng)一的解析表達(dá)式,其形式關(guān)于節(jié)點(diǎn)對(duì)稱,光滑性好。但缺點(diǎn)同樣明顯,這主要體現(xiàn)在高
25、次插值收斂性差(龍格現(xiàn)象);增加節(jié)點(diǎn)時(shí)前期計(jì)算作廢,導(dǎo)致計(jì)算量大;一個(gè)節(jié)點(diǎn)函數(shù)值的微小變化(觀測(cè)誤差存在)將導(dǎo)致整個(gè)區(qū)間上插值函數(shù)都發(fā)生改變,因而穩(wěn)定性差等幾個(gè)方面。因此拉格朗日插值法多用于理論分析,在采用拉格朗日插值方法進(jìn)行插值計(jì)算時(shí)通常選取n < 7。分段線性插值函數(shù)(僅連續(xù))與三次樣條插值函數(shù)(二階導(dǎo)數(shù)連續(xù))雖然光滑性差,但他們都克服了拉格朗日插值函數(shù)的缺點(diǎn),不僅收斂性、穩(wěn)定性強(qiáng),而且方法簡(jiǎn)單實(shí)用,計(jì)算量小。因而應(yīng)用十分廣泛
26、。,2、數(shù) 據(jù) 擬 合,在科學(xué)計(jì)算中經(jīng)常要建立實(shí)驗(yàn)數(shù)據(jù)的數(shù)學(xué)模型。給定函數(shù)的實(shí)驗(yàn)數(shù)據(jù),需要用比較簡(jiǎn)單和合適的函數(shù)來(lái)逼近(或擬合)實(shí)驗(yàn)數(shù)據(jù)。這種逼近的特點(diǎn)是:(a) 適度的精度是需要的;(b) 實(shí)驗(yàn)數(shù)據(jù)有小的誤差;(c) 對(duì)于某些問(wèn)題,可能有某些特殊的信息能夠用來(lái)選擇實(shí)驗(yàn)數(shù)據(jù)的數(shù)學(xué)模型。逼近離散數(shù)據(jù)的基本方法就是曲線擬合,常采用最小二乘擬合,曲線擬合問(wèn)題的數(shù)學(xué)描述是,已知一組(二維)數(shù)據(jù)(xi,yi ) ,i = 1,2,。。。
27、,n(即平面上的n個(gè)點(diǎn)(xi, yi ) ,i = 1,2,。。,n), x i 互不相同。尋求一個(gè)函數(shù)(曲線) y = f (x),使f (x)在某種準(zhǔn)則下與所有數(shù)據(jù)點(diǎn)最為接近,即曲線擬合得最好。最小二乘擬合分為線性最小二乘擬合和非線性最小二乘擬合。,2.1線性最小二乘擬合(多項(xiàng)式擬合)方法在線性最小二乘擬合中,用的較多的是多項(xiàng)式擬合。如果取{ r1( x), ‥, rm+1( x)} ={1, ‥ ,xm } ,即用m 次多項(xiàng)
28、式擬合給定數(shù)據(jù),則Matlab中有現(xiàn)成的函數(shù) a=polyfit(x0,y0,m),其中輸入?yún)?shù)x0,y0為要擬合的數(shù)據(jù),m為擬合多項(xiàng)式的次數(shù),輸出參數(shù)a為擬合多項(xiàng)式y(tǒng)=amxm+…+a1x+a0系數(shù)a=[ am, …, a1, a0]。多項(xiàng)式在x處的值y可用下面的函數(shù)計(jì)算 y=polyval(a,x)。例4 某鄉(xiāng)鎮(zhèn)企業(yè)1990-1996年的生產(chǎn)利潤(rùn)如下表:,年份 1990 1991
29、1992 1993 1994 1995 1996利潤(rùn)(萬(wàn)元) 70 122 144 152 174 196 202試預(yù)測(cè)1997年和1998年的利潤(rùn)。,解 作已知數(shù)據(jù)的的散點(diǎn)圖,x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];plot(x0,y0,'*')發(fā)現(xiàn)該鄉(xiāng)鎮(zhèn)企業(yè)的年生產(chǎn)利潤(rùn)幾乎直線上升。因此,我們可以用y
30、= a1 x + a0 作為擬合函數(shù)來(lái)預(yù)測(cè)該鄉(xiāng)鎮(zhèn)企業(yè)未來(lái)的年利潤(rùn)。編寫程序如下:x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];a=polyfit(x0,y0,1)y97=polyval(a,1997)y98=polyval(a,1998)求得a1 = 20 ,a0 = -4.0705×104 ,1997年的生產(chǎn)利潤(rùn)y
31、97=233.4286,1998年的生產(chǎn)利潤(rùn)y98=253.9286。,2 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個(gè)求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個(gè)命令時(shí),都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設(shè)已知xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),cu
32、rvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvefit('fun',x0,xdata,ydata,options);(3)x=c
33、urvefit('fun',x0,xdata,ydata,options, 'grad');(4)[x,options]=curvefit('fun',x0,xdata,ydata,…);(5)[x,options,funval]=curvefit('fun',x0,xdata,ydata,…);(6)[x,options,funval,Jacob]=curvefit
34、('fun',x0,xdata,ydata,…).輸出目標(biāo)函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,3 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個(gè)求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個(gè)命令時(shí),都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設(shè)已知xdata=(xdata1,xdata
35、2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),curvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvef
36、it('fun',x0,xdata,ydata,options);(3)x=curvefit('fun',x0,xdata,ydata,options, 'grad');輸出目標(biāo)函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,2 leastsq設(shè)已xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,y
37、data2,…,ydatan ),leastsq 用以求含參量x(向量)的向量值函數(shù),輸入格式為:(1)x= leastsq ('fun',x0,options);(2)x= leastsq ('fun',x0,options, 'grad');,例5 用下面一組數(shù)據(jù)擬合函數(shù)c(t) = a + be-0.02kt 中的參數(shù)a,b, k 。,t 1
38、00 200 300 400 500 600 700 800 900 1000cj×103 4.54 4.99 5.35 5.65 5.90 6.10 6.26 6.39 6.50 6.59,1 用命令curvefit。此時(shí) F(x,tdata)=(a+b e-0.02kt1,…,a+be-0.02kt10)T,x=(a,b,k)(1) 編寫M文件curvefun1.mfunction f=cur
39、vefun1(x,tdata)f=x(1)+x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=b;x(3)=k;(2) 輸入命令tdata=100:100:1000cdata=1e03*[4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59];x0=[0.2,0.05,0.005];x=curvefit(‘curvefun1’,x0,tdata,
40、cdata)f=curvefun1(x,tdata)即擬合得a=0.0070,b=-0.0030,k=0.0066,變量之間的關(guān)系,確定性關(guān)系,相關(guān)關(guān)系,確定性關(guān)系,身高和體重,相關(guān)關(guān)系,相關(guān)關(guān)系的特征是:變量之間的關(guān)系很難用一種精確的方法表示出來(lái).,2.1.1 引言,2.2.回歸分析方法,確定性關(guān)系和相關(guān)關(guān)系的聯(lián)系,由于存在測(cè)量誤差等原因,確定性關(guān)系在實(shí)際問(wèn)題中往往通過(guò)相關(guān)關(guān)系表示出來(lái);另一方面,當(dāng)對(duì)事物內(nèi)部規(guī)律了解得更加深
41、刻時(shí),相關(guān)關(guān)系也有可能轉(zhuǎn)化為確定性關(guān)系.,回歸分析——處理變量之間的相關(guān)關(guān)系的一種數(shù)學(xué)方法,它是最常用的數(shù)理統(tǒng)計(jì)方法.,回歸分析的任務(wù)——根據(jù)試驗(yàn)數(shù)據(jù)估計(jì)回歸函數(shù);討論回歸函數(shù)中參數(shù)的點(diǎn)估計(jì)、區(qū)間估計(jì);對(duì)回歸函數(shù)中的參數(shù)或者回歸函數(shù)本身進(jìn)行假設(shè)檢驗(yàn);利用回歸函數(shù)進(jìn)行預(yù)測(cè)與控制等等.,一元線性回歸,多元線性回歸,,,,回歸分析方法,,,,,,,,數(shù)學(xué)模型及定義,模型參數(shù)估計(jì),檢驗(yàn)、預(yù)測(cè)與控制,可線性化的一元非線性回歸(曲線回歸
42、),,,,,,數(shù)學(xué)模型及定義,模型參數(shù)估計(jì),多元線性回歸中的檢驗(yàn)與預(yù)測(cè),逐步回歸分析,,2.2一元線性回歸分析,例1 測(cè)16名成年女子的身高與腿長(zhǎng)所得數(shù)據(jù)如下:,以身高x為橫坐標(biāo),以腿長(zhǎng)y為縱坐標(biāo)將這些數(shù)據(jù)點(diǎn)(xi,yi)在平面直角坐標(biāo)系上標(biāo)出.,散點(diǎn)圖,,,2.2.1 數(shù)學(xué)模型,一元線性回歸分析的主要任務(wù)是:,、,2.2.2 模型參數(shù)估計(jì),(1)回歸系數(shù)的最小二乘估計(jì),其中,,,,稱Qe為殘差平方和或剩余平方和. 可以證明:,,,2
43、.2.3 回歸方程的顯著性檢驗(yàn),F檢驗(yàn)法,,可以用三種不同方法進(jìn)行檢驗(yàn),它們的本質(zhì)是相同的.這里介紹,回歸系數(shù)的置信區(qū)間,線性回歸matlab,b=regress( Y, X ),,,,,1.確定回歸系數(shù)的點(diǎn)估計(jì)值:,,b為一元函數(shù)y系數(shù)的估計(jì)值,3.畫出殘差及其置信區(qū)間: rcoplot(r,rint),2.求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型: [b, bint,r,rint,stats]=regress(Y,X
44、,alpha),,,例1 測(cè)16名成年女子的身高與腿長(zhǎng)所得數(shù)據(jù)如下:,clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regre
45、ss(Y,X);b,bint,statsrcoplot(r,rint)figure(2)z=b(1)+b(2)*x;plot(x,Y,'k+',x,z,'r')F=finv(0.95,1,14)%及求F0.05(1,16-2),,b = -16.0730 0.7194bint = -33.7071 1.5612 0.6047 0.8340st
46、ats = 0.9282 180.9531 0.0000,,,,F0.05(1,16-2)=4.6,1.2.4 預(yù)測(cè)與控制,(1)預(yù)測(cè):對(duì)固定的x值預(yù)測(cè)相應(yīng)的y值,例1 測(cè)16名成年女子的身高與腿長(zhǎng)所得數(shù)據(jù)如下:,請(qǐng)你預(yù)測(cè)一下身高為170cm時(shí)該女子的腿長(zhǎng)應(yīng)該是在什么范圍(置信度為0.05),clearx0=170x=[143 145 146 147 149 150 153 154 155 156 157 158
47、159 160 162 164];y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]&
48、#39;;X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regress(Y,X);x0=170x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];y0=-16.073+0.7194*x0;t=
49、tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],(2)控制,1.3 可線性化的一元非線性回歸曲線回歸,例2 出鋼時(shí)所用的盛鋼水的鋼包,由于鋼水對(duì)耐火材料的侵蝕, 容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關(guān) 系.對(duì)一鋼包作試驗(yàn),測(cè)得的數(shù)據(jù)列
50、于下表:,,散點(diǎn)圖,此即非線性回歸或曲線回歸問(wèn)題(需要配曲線),配曲線的一般方法是:,通常選擇的六類曲線如下:,,二. 多元數(shù)據(jù)處理方法,1、二維插值2、多元回歸分析3、聚類分析4、主成分分析,二維插值的定義,第一種(網(wǎng)格節(jié)點(diǎn)):,,已知 m?n個(gè)節(jié)點(diǎn),第二種(散亂節(jié)點(diǎn)):,注意:最鄰近插值一般不連續(xù)。具有連續(xù)性的最簡(jiǎn)單的插值是分片線性插值。,最鄰近插值,二維或高維情形的最鄰近插值,與被插值點(diǎn)最鄰近的節(jié)點(diǎn)的函數(shù)值即為所求。,
51、將四個(gè)插值點(diǎn)(矩形的四個(gè)頂點(diǎn))處的函數(shù)值依次簡(jiǎn)記為:,分片線性插值,f (xi, yj)=f1,f (xi+1, yj)=f2,f (xi+1, yj+1)=f3,f (xi, yj+1)=f4,插值函數(shù)為:,第二片(上三角形區(qū)域):(x, y)滿足,插值函數(shù)為:,注意:(x, y)當(dāng)然應(yīng)該是在插值節(jié)點(diǎn)所形成的矩形區(qū)域內(nèi)。顯然,分片線性插值函數(shù)是連續(xù)的;,分兩片的函數(shù)表達(dá)式如下:,第一片(下三角形區(qū)域): (x, y)滿足,雙線性插值是
52、一片一片的空間二次曲面構(gòu)成。雙線性插值函數(shù)的形式如下:,其中有四個(gè)待定系數(shù),利用該函數(shù)在矩形的四個(gè)頂點(diǎn)(插值節(jié)點(diǎn))的函數(shù)值,得到四個(gè)代數(shù)方程,正好確定四個(gè)系數(shù)。,雙線性插值,要求x0,y0單調(diào);x,y可取為矩陣,或x取行向量,y取為列向量,x,y的值分別不能超出x0,y0的范圍。,z=interp2(x0,y0,z0,x,y,’method’),用MATLAB作網(wǎng)格節(jié)點(diǎn)數(shù)據(jù)的插值,‘nearest’ 最鄰近插值‘linear’
53、 雙線性插值‘cubic’ 雙三次插值缺省時(shí), 雙線性插值,,例:測(cè)得平板表面3*5網(wǎng)格點(diǎn)處的溫度分別為: 82 81 80 82 84
54、 79 63 61 65 81 84 84 82 85 86
55、 試作出平板表面的溫度分布曲面z=f(x,y)的圖形。,輸入以下命令:x=1:5;y=1:3;temps=[82 81 80 82 84;79 63 61 65 81;84 84 82 85 86];mesh(x,y,temps),1.先在三維坐標(biāo)畫出原始數(shù)據(jù),畫出粗糙的溫度分布曲圖.,2.以
56、平滑數(shù)據(jù),在x、y方向上每隔0.2個(gè)單位的地方進(jìn)行插值.,再輸入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi',yi,'cubic');mesh(xi,yi,zi)畫出插值后的溫度分布曲面圖.,通過(guò)此例對(duì)最近鄰點(diǎn)插值、雙線性插值方法和雙三次插值方法的插值效果進(jìn)行比較。,插值函數(shù)griddata格式為:,cz =griddata(x,y,z,cx,c
57、y,‘method’),用MATLAB作散點(diǎn)數(shù)據(jù)的插值計(jì)算,要求cx取行向量,cy取為列向量。,‘nearest’ 最鄰近插值‘linear’ 雙線性插值‘cubic’ 雙三次插值'v4'- Matlab提供的插值方法缺省時(shí), 雙線性插值,,例 在某海域測(cè)得一些點(diǎn)(x,y)處的水深z由下表給出,船的吃水深度為5英尺,在矩形區(qū)域(75,200)*(-50,150)里的哪些地方船要避免進(jìn)入。,,,,,
58、,4.作出水深小于5的海域范圍,即z=5的等高線.,3、作海底曲面圖,實(shí)驗(yàn)作業(yè),山區(qū)地貌:在某山區(qū)測(cè)得一些地點(diǎn)的高程如下表:(平面區(qū)域1200<=x<=4000,1200<=y<=3600),試作出該山區(qū)的地貌圖和等高線圖,并對(duì)幾種插值方法進(jìn)行比較。,1.4 多元線性回歸,多元線性回歸在工程上更為有用。,,1.4.1數(shù)學(xué)模型及定義,,,1.4.2模型參數(shù)估計(jì),,解得估計(jì)值,1.4.4多元線性回歸中的檢驗(yàn)與預(yù)測(cè),(
59、殘差平方和),F檢驗(yàn)法,(2)預(yù)測(cè),(A)點(diǎn)預(yù)測(cè),(B)區(qū)間預(yù)測(cè),1.5 逐步回歸分析,實(shí)際問(wèn)題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來(lái)建立回歸模型,這就涉及到變量選擇的問(wèn)題。逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。它是在多元線性回歸的基礎(chǔ)上派生出來(lái)的一種算法技巧。,“最優(yōu)”的回歸方程就是包含所有對(duì)Y有影響的變量, 而不包含對(duì)Y影響不顯著的變量回歸方程。,如果采用的自變量越多,則回歸平方和越大,殘差平
60、方和越小,然而較多的變量來(lái)擬合回歸方程,得到的防策劃能夠穩(wěn)定性差,用它作預(yù)測(cè)可靠性差,精度低.另一方面,如果采用了y 影響較小的變量而遺漏了重要變量,可導(dǎo)致估計(jì)量產(chǎn)生偏崎和不一致性.為此,我們希望得到“最優(yōu)”的回歸方程.,(4)“有進(jìn)有出”的逐步回歸分析。,(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;,(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;,(3)從一個(gè)變量開始,把變量逐個(gè)引入方程;,選擇“最優(yōu)”的回歸方程有
61、以下幾種方法:,以第四種方法,即逐步回歸分析法在篩選變量方面較為理想.,這個(gè)過(guò)程反復(fù)進(jìn)行,直至既無(wú)不顯著的變量從回歸方程中剔除,又無(wú)顯著變量可引入回歸方程時(shí)為止。,逐步回歸分析法的思想:,從一個(gè)自變量開始,視自變量Y作用的顯著程度,從大到小地依次逐個(gè)引入回歸方程。,當(dāng)引入的自變量由于后面變量的引入而變得不顯著時(shí),要將其剔除掉。,引入一個(gè)自變量或從回歸方程中剔除一個(gè)自變量,為逐步回歸的一步。,對(duì)于每一步都要進(jìn)行Y值檢驗(yàn),以確保每次引入新的
62、顯著性變量前回歸方程中只包含對(duì)Y作用顯著的變量。,1.6.1多元線性回歸,b=regress( Y, X ),,,1)確定回歸系數(shù)的點(diǎn)估計(jì)值:,1.6 MATLAB統(tǒng)計(jì)工具箱中的回歸分析命令,對(duì)一元線性回歸,取p=1即可.,3、畫出殘差及其置信區(qū)間: rcoplot(r,rint),2)求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型: [b, bint,r,rint,stats]=regres
63、s(Y,X,alpha),,,例1,解:,1、輸入數(shù)據(jù): x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';,2、回歸分
64、析及檢驗(yàn): [b,bint,r,rint,stats]=regress(Y,X) b,bint,stats,To MATLAB(liti11),題目,3、殘差分析,作殘差圖: rcoplot(r,rint),從殘差圖可以看出,除第二個(gè)數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點(diǎn)均較近,且殘差的置信區(qū)間均包含零點(diǎn),這說(shuō)明回歸模型 y=-16.073+0.7194x能較好的符合原始數(shù)據(jù),而第二
65、個(gè)數(shù)據(jù)可視為異常點(diǎn).,4、預(yù)測(cè)及作圖:z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r'),返回,To MATLAB(liti12),,1.6.2多 項(xiàng) 式 回 歸,(1)一元多項(xiàng)式回歸,1)確定多項(xiàng)式系數(shù)的命令:[p,S]=polyfit(x,y,m),2)一元多項(xiàng)式回歸命令:polytool(x,y,m),A、回歸:,y=a1xm+a2xm-1+…+amx+am+1,
66、此命令產(chǎn)生一個(gè)交互式的畫面,畫面中有擬合曲線和y的置信區(qū)間。通過(guò)左下方的Export菜單,可以輸出回歸系數(shù)等。,,一元多項(xiàng)式回歸也可以化為多元線性回歸來(lái)解。,法一,直接作二次多項(xiàng)式回歸: t=1/30:1/30:14/30; s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]
67、; [p,S]=polyfit(t,s,2),To MATLAB(liti21),得回歸模型為 :,法二,化為多元線性回歸:t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];T=[ones(14,1) t' (t.^
68、2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats,To MATLAB(liti22),得回歸模型為 :,Y=polyconf(p,t,S) plot(t,s,'k+',t,Y,'r'),預(yù)測(cè)及作圖,To MATLAB(liti23),1.6.3多元二項(xiàng)式回歸,命令:rstool(x,y,’model’, alpha),,,,命
69、令rstool產(chǎn)生一個(gè)交互式畫面,畫面中有m個(gè)圖形,這m個(gè)圖形分別給出了一個(gè)獨(dú)立變量xi(另m-1個(gè)變量取固定值)與y的擬合曲線,以及y的置信區(qū)間??梢酝ㄟ^(guò)鍵入不同的xi值來(lái)獲得相應(yīng)的y值。,例3 設(shè)某商品的需求量與消費(fèi)者的平均收入、商品價(jià)格的統(tǒng)計(jì)數(shù) 據(jù)如下,建立回歸模型,預(yù)測(cè)平均收入為800、價(jià)格為6時(shí) 的商品需求量.,解,直接用多元二項(xiàng)式回歸:x1=[1000 600 1200 500 30
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 椅子放平穩(wěn)問(wèn)題-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 銳得ppt模板-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 利用spss進(jìn)行主成分分析-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 第四講matlab繪圖-數(shù)學(xué)建模學(xué)習(xí)資源網(wǎng)站
- 學(xué)習(xí)資源網(wǎng)站優(yōu)化策略研究--基于學(xué)習(xí)者在線學(xué)習(xí)特征分析.pdf
- eda教學(xué)資源網(wǎng)站的建設(shè)
- 數(shù)學(xué)建模中的回歸分析法
- EDA教學(xué)資源網(wǎng)站的建設(shè)二稿.doc
- EDA教學(xué)資源網(wǎng)站的建設(shè)定稿.doc
- 183jsp教學(xué)資源網(wǎng)站c#+sql
- 臺(tái)灣人力資源網(wǎng)站研究.pdf
- 數(shù)學(xué)建模中的回歸分析法
- 基于專題資源網(wǎng)站的學(xué)習(xí)在中學(xué)信息課中應(yīng)用的研究.pdf
- 基于SEO的教學(xué)資源網(wǎng)站設(shè)計(jì)與開發(fā).pdf
- 《巖石圈與地表形態(tài)》主題資源網(wǎng)站
- 《巖石圈與地表形態(tài)》主題資源網(wǎng)站
- EDA教學(xué)資源網(wǎng)站的建設(shè)一稿.doc
- “一村一品”主題資源網(wǎng)站設(shè)計(jì).pdf
- 精品課程資源網(wǎng)站的設(shè)計(jì)與研究.pdf
- 基于主題資源網(wǎng)站的課堂教學(xué)模式探究.pdf
評(píng)論
0/150
提交評(píng)論