2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 1 章,資料與統(tǒng)計(jì),本章內(nèi)容,1.1 商業(yè)與經(jīng)濟(jì)上的應(yīng)用1.2 資料1.3 資料來(lái)源1.4 敘述統(tǒng)計(jì)1.5 統(tǒng)計(jì)推論1.6 分析,2,本章內(nèi)容,1.7 大數(shù)據(jù)與資料探勘1.8 電腦與統(tǒng)計(jì)分析1.9 統(tǒng)計(jì)實(shí)務(wù)的倫理守則,3,何謂統(tǒng)計(jì)?,統(tǒng)計(jì) (statistics) 一詞可以稱作數(shù)值資料,如平均值、中位數(shù)、百分比和最大值,有助於我們瞭解各種商業(yè)和經(jīng)濟(jì)狀況。廣義來(lái)說(shuō),統(tǒng)計(jì)學(xué)是一門(mén)蒐集、分析、呈現(xiàn)及解釋資

2、料的藝術(shù)和科學(xué)。,4,第1章 資料與統(tǒng)計(jì) 第3頁(yè),1.1商業(yè)與經(jīng)濟(jì)上的應(yīng)用,會(huì)計(jì)上的應(yīng)用財(cái)務(wù)上的應(yīng)用行銷上的應(yīng)用生產(chǎn)上的應(yīng)用經(jīng)濟(jì)上的應(yīng)用資訊系統(tǒng),第1章 資料與統(tǒng)計(jì) 第3-4頁(yè),5,會(huì)計(jì)上的應(yīng)用,會(huì)計(jì)師事務(wù)所為顧客做帳目稽核時(shí),會(huì)利用統(tǒng)計(jì)抽樣程序。例如,審計(jì)員的一般作法是選擇一部分帳目,稱之為樣本。在檢閱這些樣本帳目的正確性後,審計(jì)員便做出資產(chǎn)負(fù)債表上的應(yīng)收帳款總數(shù)是否可以接受的決定。,6,第1章 資料與統(tǒng)計(jì)

3、第3頁(yè),財(cái)務(wù)上的應(yīng)用,財(cái)務(wù)分析師運(yùn)用各種統(tǒng)計(jì)資訊做為投資建議的依據(jù)。例如,根據(jù)《華爾街日?qǐng)?bào)》的報(bào)導(dǎo),標(biāo)準(zhǔn)普爾500 (S&P 500) 的公司平均股息收益率是 2%。微軟 (Microsoft) 的股息收益率是 1.95%。有關(guān)微軟的相關(guān)資訊可以幫助財(cái)務(wù)分析師針對(duì)微軟之股票,做出買進(jìn)、賣出或繼續(xù)持股的建議。,,,第1章 資料與統(tǒng)計(jì) 第4頁(yè),7,行銷上的應(yīng)用,在行銷研究實(shí)務(wù)中,經(jīng)常利用結(jié)帳櫃臺(tái)的電子掃描器來(lái)蒐集市場(chǎng)資料。例

4、如,在檢閱銷貨資料及促銷活動(dòng)的統(tǒng)計(jì)資料後,品牌經(jīng)理能更瞭解促銷活動(dòng)和銷售量之間的關(guān)係。這樣的分析可以為未來(lái)眾多商品建立更有效的行銷策略。,第1章 資料與統(tǒng)計(jì) 第4頁(yè),8,生產(chǎn)上的應(yīng)用,由於對(duì)品質(zhì)的強(qiáng)調(diào),使得品質(zhì)管理成為統(tǒng)計(jì)學(xué)在生產(chǎn)作業(yè)的重要應(yīng)用之一。琳瑯滿目的統(tǒng)計(jì)品質(zhì)管制圖常被用來(lái)監(jiān)控生產(chǎn)製程的產(chǎn)出。假設(shè)有部機(jī)器用於裝填容量 12 盎司的飲料,生產(chǎn)線上的作業(yè)人員定期抽取罐裝飲料為樣本,並計(jì)算樣本的平均容量。經(jīng)由適當(dāng)?shù)亟忉專?x-b

5、ar 圖可以幫助判斷是否必須修正製程。,第1章 資料與統(tǒng)計(jì) 第4頁(yè),9,經(jīng)濟(jì)上的應(yīng)用,經(jīng)濟(jì)學(xué)家通常要預(yù)測(cè)未來(lái)的經(jīng)濟(jì)狀況或相關(guān)發(fā)展趨勢(shì),他們運(yùn)用許多統(tǒng)計(jì)資訊進(jìn)行這方面的預(yù)測(cè)。例如,經(jīng)濟(jì)學(xué)家運(yùn)用諸如生產(chǎn)者物價(jià)指數(shù)、失業(yè)率和產(chǎn)能使用率等統(tǒng)計(jì)指標(biāo)來(lái)預(yù)估通貨膨脹率。將這些統(tǒng)計(jì)指標(biāo)輸入可以預(yù)測(cè)通貨膨脹率的電腦預(yù)測(cè)模型,以得到預(yù)測(cè)值。,第1章 資料與統(tǒng)計(jì) 第4頁(yè),10,資訊系統(tǒng),各式各樣的統(tǒng)計(jì)資訊可協(xié)助系統(tǒng)管理者評(píng)估電腦網(wǎng)絡(luò)的效能,包括區(qū)域

6、網(wǎng)絡(luò)、廣域網(wǎng)絡(luò)、網(wǎng)段、企業(yè)內(nèi)部網(wǎng)路及其他通訊系統(tǒng)。有助於系統(tǒng)管理者更瞭解電腦網(wǎng)路,也可進(jìn)行更好的管理。,第1章 資料與統(tǒng)計(jì) 第4-5頁(yè),11,1.2 資料,資料(data)是指經(jīng)由蒐集、分析及彙總而得的,做為說(shuō)明與解釋之用的事實(shí)與數(shù)值。為特定研究目的蒐集的所有資料可稱為資料集(data set)。,第1章 資料與統(tǒng)計(jì) 第5頁(yè),12,元素、變數(shù)及觀察值,元素(element)指的是資料蒐集的實(shí)體 (entities)。變數(shù)(v

7、ariable)代表元素中某個(gè)屬性。資料是由研究中所蒐集個(gè)別元素的所有變數(shù)之衡量值,對(duì)特定元素所蒐集的一組衡量值就稱為觀察值(observation)。,第1章 資料與統(tǒng)計(jì) 第5頁(yè),13,衡量尺度,名目尺度(nominal scale)順序尺度(ordinal scale)區(qū)間尺度(interval scale)比例尺度(ratio scale),第1章 資料與統(tǒng)計(jì) 第7頁(yè),14,名目尺度,當(dāng)變數(shù)的資料是用來(lái)表示元素屬性

8、的標(biāo)記或名稱時(shí),稱此衡量尺度是名目尺度(nominal scale)。例如,表 1.1 的變數(shù) WTO 狀態(tài)就是名目尺度的變數(shù),因?yàn)檫@個(gè)變數(shù)的值如「Member」與「Observer」都是標(biāo)記,用來(lái)表示該國(guó)在世界貿(mào)易組織的會(huì)員狀態(tài)。,15,第1章 資料與統(tǒng)計(jì) 第7頁(yè),名目尺度,為了方便蒐集資料,以及日後將資料輸入電腦的方便考量,我們可以用 1 來(lái)表示 WTO 的會(huì)員, 2 表示 WTO 觀察員。即使以數(shù)值符號(hào)形式來(lái)表示資料,但仍是

9、名目尺度。,16,第1章 資料與統(tǒng)計(jì) 第7頁(yè),順序尺度,如果變數(shù)具有名目尺度的特性,而且資料的順序是有意義的,此衡量尺度是順序尺度(ordinal scale)。例如,參考表 1.1的資料,惠譽(yù)國(guó)際信用平等的衡量值就是順序尺度。從 AAA到 F的評(píng)等標(biāo)記可以由表示最佳評(píng)比的 AAA排序到最差的 F。評(píng)等所用的字母標(biāo)記具有名目尺度的特性。,17,第1章 資料與統(tǒng)計(jì) 第7頁(yè),順序尺度,此外,資料還可排序或根據(jù)評(píng)等排出高低,因此,這

10、是順序尺度。請(qǐng)注意,順序尺度的資料常以數(shù)值符號(hào)來(lái)表示。例如,你的班級(jí)在校內(nèi)的評(píng)比。,第1章 資料與統(tǒng)計(jì) 第7頁(yè),18,區(qū)間尺度,如果變數(shù)具有順序尺度的特性,而且觀察值之間的間隔有固定的衡量單位,這個(gè)變數(shù)的衡量尺度是區(qū)間尺度(interval scale)。區(qū)間尺度的資料一定以數(shù)值表示。例如,大學(xué)入學(xué)申請(qǐng)時(shí)的重要參考——學(xué)業(yè)成就測(cè)驗(yàn) (Scholastic Aptitude Test, SAT) 的分?jǐn)?shù)就是區(qū)間尺度的資料。,第1章

11、 資料與統(tǒng)計(jì) 第7頁(yè),19,區(qū)間尺度,例如,三個(gè)學(xué)生的 SAT 分?jǐn)?shù)分別是 620、550 及 470。我們可以由高到低依序排列,所以它們具有順序尺度的特性。同時(shí),分?jǐn)?shù)間的差距也有意義。例如,第一位學(xué)生的成績(jī)高於第二位學(xué)生 70 分 (620-550=70),第二位學(xué)生的成績(jī)高於第三位學(xué)生 80 分 (550-470=80) 。,第1章 資料與統(tǒng)計(jì) 第7頁(yè),20,比例尺度,如果變數(shù)具有區(qū)間尺度的特性,而且觀察值之間的比例是有意義

12、的,則此變數(shù)的衡量尺度是比例尺度(ratio scale)。與距離、高度、重量及時(shí)間有關(guān)的變數(shù)都是使用比例尺度。這種尺度的條件之一是必須包含零值。零值表示在零點(diǎn)時(shí),該變數(shù)不包含任何東西。,第1章 資料與統(tǒng)計(jì) 第7頁(yè),21,比例尺度,例如,汽車成本即是一例。成本為零表示汽車沒(méi)有成本,是免費(fèi)的。此外,如果比較兩部汽車的成本,例如,第一部是 $30,000,第二部是 $15,000,我們可以說(shuō)第一部汽車的成本是第二部汽車的30,000/

13、15,000 = 2倍。,第1章 資料與統(tǒng)計(jì) 第7頁(yè),22,類別及定量資料,資料分成類別資料或定量資料。根據(jù)某特定類別將資料集合成群的稱為類別資料(categorical data) 。類別資料使用名目或順序尺度,可以是數(shù)值也可以是非數(shù)值。使用數(shù)值表示數(shù)量多少的是定量資料 (quantitative data)。定量資料則使用區(qū)間或比例尺度。,第1章 資料與統(tǒng)計(jì) 第8頁(yè),23,類別和定量資料,類別變數(shù)(categorical

14、 variable) 是有類別資料的變數(shù),定量變數(shù)(quantitative variable) 是有定量資料的變數(shù)。對(duì)特定變數(shù)而言的統(tǒng)計(jì)方法,視資料屬性是類別或定量而定。如果是類別變數(shù),可以使用的統(tǒng)計(jì)分析相當(dāng)有限。我們可以將觀察值分類,計(jì)算每個(gè)類別的觀察值個(gè)數(shù),或計(jì)算各個(gè)類別觀察值個(gè)數(shù)占整體觀察值個(gè)數(shù)的比例。,第1章 資料與統(tǒng)計(jì) 第8頁(yè),24,類別和定量資料,即使類別資料以數(shù)值表示,諸如加、減、乘、除等算術(shù)運(yùn)算都沒(méi)有意義。算

15、術(shù)運(yùn)算對(duì)定量變數(shù)是有意義的。例如,可以將定量資料相加,再除以觀察值個(gè)數(shù),即得出平均數(shù)。這個(gè)平均數(shù)通常是有意義的,而且容易解釋。一般而言,資料屬性是定量時(shí),有較多的統(tǒng)計(jì)分析方法可供選擇。,第1章 資料與統(tǒng)計(jì) 第8頁(yè),25,第1章 資料與統(tǒng)計(jì),衡量尺度,類別資料,定量資料,數(shù)值,數(shù)值,非數(shù)值,資料,名目尺度,順序尺度,名目尺度,順序尺度,區(qū)間尺度,比例尺度,,26,橫斷面和時(shí)間序列資料,橫斷面資料 (cross-sectional d

16、ata)是在相同或幾乎相同時(shí)點(diǎn)所蒐集的資料。表 1.1 中的資料是相同時(shí)點(diǎn)的 60 個(gè)世界貿(mào)易組織成員國(guó)的五個(gè)變數(shù)的資料,所以是橫斷面資料。,27,第1章 資料與統(tǒng)計(jì) 第8頁(yè),橫斷面和時(shí)間序列資料,時(shí)間序列資料 (time series data) 則是數(shù)個(gè)不同時(shí)期的資料。圖 1.1 顯示 2009 年到 2014 年間,一般汽油的每加侖平均價(jià)格。2009 年1 月到 2011 年 5 月間的油價(jià)穩(wěn)定上漲,之後價(jià)格有較多波動(dòng),2

17、014 年 10 月每加侖平均價(jià)格 $3.12。,28,第1章 資料與統(tǒng)計(jì) 第8頁(yè),橫斷面和時(shí)間序列資料,第1章 資料與統(tǒng)計(jì) 第9頁(yè),29,評(píng)註,觀察值是資料集的每個(gè)元素的一組測(cè)量值,所以觀察值個(gè)數(shù)一定等於元素個(gè)數(shù)。每一元素的測(cè)量值個(gè)數(shù)等於其變數(shù)個(gè)數(shù)。因此,資料集裡資料值的總個(gè)數(shù)等於資料集的元素個(gè)數(shù)乘上變數(shù)個(gè)數(shù)。定量資料可能是離散 (discrete) 或連續(xù) (continuous) 。定量資料衡量的數(shù)值若是可數(shù) (例如,5

18、 分鐘內(nèi)的來(lái)電數(shù)),就是離散的;定量資料衡量的數(shù)值若為不可數(shù) (例如,重量或時(shí)間),則為連續(xù)的,因?yàn)槿蝺蓚€(gè)可能數(shù)值間都不是斷開(kāi)的,也就是說(shuō)可以在任兩個(gè)數(shù)值間找到其他可能的數(shù)值。,30,第1章 資料與統(tǒng)計(jì) 第9頁(yè),1.3 資料來(lái)源,第1章 資料與統(tǒng)計(jì) 第11頁(yè),31,既有資料,1.3 資料來(lái)源,第1章 資料與統(tǒng)計(jì) 第11頁(yè),32,既有資料,圖1.3 美國(guó)勞工統(tǒng)計(jì)局首頁(yè),第1章 資料與統(tǒng)計(jì) 第12頁(yè),33,觀察研究,在觀察

19、研究 (observational study) 中,只是觀察特定環(huán)境中發(fā)生的事情,對(duì)一個(gè)或更多感興趣的變數(shù)記錄資料,再對(duì)資料進(jìn)行統(tǒng)計(jì)分析。調(diào)查 (survey) 及公共意見(jiàn)民調(diào)也是常見(jiàn)的觀察研究。對(duì)抽菸者與非抽菸者的研究是一種觀察研究,因?yàn)檠芯咳藛T並未決定或控制誰(shuí)是抽菸者或誰(shuí)是非抽菸者。,34,第1章 資料與統(tǒng)計(jì) 第12頁(yè),實(shí)驗(yàn),觀察研究與實(shí)驗(yàn)的關(guān)鍵差異在於實(shí)驗(yàn)必須在控制的條件下進(jìn)行。因此,與既有來(lái)源或觀察研究得到的資料相比,

20、由設(shè)計(jì)良好的實(shí)驗(yàn)得到的資料,通常能提供更多資訊。統(tǒng)計(jì)學(xué)處理的實(shí)驗(yàn)類型,通常是由判定感興趣的變數(shù)開(kāi)始。找出一個(gè)或更多的變數(shù)並加以控制,因此可以得到其他變數(shù)如何影響研究人員感興趣的主要變數(shù)的相關(guān)資料。,第1章 資料與統(tǒng)計(jì) 第12-13頁(yè),35,時(shí)間與成本的議題,想利用資料與統(tǒng)計(jì)分析來(lái)幫助制定決策,必須清楚取得資料所需花費(fèi)的時(shí)間與成本。若時(shí)間緊迫,則利用既有資料較可行。若重要資料無(wú)法得自既有來(lái)源,就必須考慮獲取資料額外所需花費(fèi)的時(shí)間與成

21、本。一般而言,決策者應(yīng)該考慮統(tǒng)計(jì)分析對(duì)決策過(guò)程的貢獻(xiàn)。取得資料與隨之而來(lái)的統(tǒng)計(jì)分析所花費(fèi)的成本,不應(yīng)超過(guò)協(xié)助決策時(shí)所創(chuàng)造的效益。,36,第1章 資料與統(tǒng)計(jì) 第13頁(yè),資料取得的錯(cuò)誤,管理者應(yīng)該隨時(shí)注意統(tǒng)計(jì)研究中資料錯(cuò)誤的可能性。使用錯(cuò)誤資料比完全不使用這些資料來(lái)得更糟。只要取得之資料值與經(jīng)過(guò)正確程序取得的真實(shí)資料值不符合,就發(fā)生資料取得的錯(cuò)誤。此類錯(cuò)誤有幾種可能,例如,訪談員可能記錄錯(cuò)誤,把 24 歲記成 42 歲,或是受訪者誤

22、解題意而做出不切題的回答。有經(jīng)驗(yàn)的資料分析人員會(huì)很謹(jǐn)慎地蒐集與記錄資料,以防止錯(cuò)誤發(fā)生。可藉由特別程序來(lái)檢查資料的內(nèi)部一致性。,第1章 資料與統(tǒng)計(jì) 第13頁(yè),37,1.4敘述統(tǒng)計(jì),以表格、圖形或數(shù)字彙總的資料,稱為敘述統(tǒng)計(jì) (descriptive statistics)。,第1章 資料與統(tǒng)計(jì) 第13頁(yè),38,實(shí)例,表 1.1 的資料集,其中有 60 個(gè)世界貿(mào)易組織成員國(guó)的相關(guān)資料。我們可利用敘述統(tǒng)計(jì)的方法彙總此資料集。例如

23、,變數(shù)之一的惠譽(yù)信用評(píng)等展望是表示該成員國(guó)在未來(lái) 2 年國(guó)家信用評(píng)等的可能走向。惠譽(yù)信用評(píng)等展望可以是負(fù)向、穩(wěn)定或正向。表 1.4 將此變數(shù)的資料以表格形式彙總,相同資料的圖形表示在圖 1.4,稱為長(zhǎng)條圖。以表格與圖形彙總資料可使資料更容易解釋。從表 1.4 與圖 1.4 可以看出,約 65% 的成員國(guó)的惠譽(yù)評(píng)等展望是穩(wěn)定,展望為負(fù)向或正向的國(guó)家則大致相同,各占 18.3% 及 16.7%。,第1章 資料與統(tǒng)計(jì) 第13-14頁(yè),

24、39,實(shí)例,第1章 資料與統(tǒng)計(jì) 第14頁(yè),40,第1章 資料與統(tǒng)計(jì) 第14頁(yè),圖1.4 60個(gè)世界貿(mào)易組織成員國(guó)的惠譽(yù)信用評(píng)等展望的長(zhǎng)條圖,41,第1章 資料與統(tǒng)計(jì) 第14頁(yè),圖1.5 60 個(gè)世界貿(mào)易組織成員國(guó)的平均每人生產(chǎn)毛額的直方圖,42,實(shí)例,表 1.1 的定量變數(shù),即平均每人生產(chǎn)毛額的圖形彙整如圖 1.5,稱為直方圖??梢杂芍狈綀D清楚地看出, 60 個(gè)成員國(guó)的平均每人生產(chǎn)毛額介於 $0 到 $60,000,高度

25、集中於 $10,000 到 $20,000。只有一個(gè)成員國(guó)超過(guò) $50,000。,第1章 資料與統(tǒng)計(jì) 第14-15頁(yè),43,實(shí)例,除了表格與圖形之外,亦常使用數(shù)值的敘述統(tǒng)計(jì)來(lái)彙總資料。最常用的衡量值是平均數(shù)(average 或mean)。我們可以計(jì)算表 1.1 中 60 個(gè)成員國(guó)的平均每人生產(chǎn)毛額,只要加總 60 個(gè)成員國(guó)的平均每人生產(chǎn)毛額後,再除以 60,即可得到 60 個(gè)成員國(guó)的平均每人生產(chǎn)毛額為$21,387 。平均數(shù)可顯示資

26、料集的中央趨勢(shì)或資料集的中央位置。,第1章 資料與統(tǒng)計(jì) 第15頁(yè),44,1.5統(tǒng)計(jì)推論,母體(population)是研究中所有元素所成之集合。樣本(sample)是母體的部分集合。統(tǒng)計(jì)學(xué)的主要貢獻(xiàn)之一是利用由樣本所得的資料對(duì)母體特性做估計(jì)與假設(shè)檢定,這種程序就是統(tǒng)計(jì)推論(statistical inference)。蒐集整個(gè)母體的資料進(jìn)行調(diào)查,稱為普查(census)。蒐集樣本的資料進(jìn)行調(diào)查,稱為抽樣調(diào)查(sample

27、survey)。,,,,第1章 資料與統(tǒng)計(jì) 第15頁(yè),45,圖1.6 以 Norris 電子公司為例的統(tǒng)計(jì)推論過(guò)程,第1章 資料與統(tǒng)計(jì) 第16頁(yè),46,1.6 分析,分析(analytics) 是種科學(xué)程序,將資料轉(zhuǎn)換為制定更佳決策的洞察力。分析工具可由資料創(chuàng)造洞見(jiàn)、提升預(yù)測(cè)能力、幫助量化風(fēng)險(xiǎn)、找出更好的決策方案。一般而言,分析方法分為三大類:敘述分析、預(yù)測(cè)分析,以及規(guī)範(fàn)分析。 敘述分析(descriptive anal

28、ytics) 是描述發(fā)生於過(guò)去的事實(shí)的分析技術(shù),如資料查詢、報(bào)告、敘述統(tǒng)計(jì)、資料可視化、資料儀表板,以及基本的 what-if 工作表模式。預(yù)測(cè)分析(predictive analytics) 的技術(shù)是以模型建構(gòu)過(guò)去資料來(lái)預(yù)測(cè)未來(lái),或評(píng)估一個(gè)變數(shù)對(duì)其他變數(shù)的影響。規(guī)範(fàn)分析(prescriptive analytics) 是一組可以幫助找到最佳行動(dòng)方案的技術(shù)。,第1章 資料與統(tǒng)計(jì) 第16-17頁(yè),47,1.7 資料探勘,借助讀卡

29、機(jī)、條碼掃描器及銷售時(shí)點(diǎn)系統(tǒng),許多公司每天都可以獲取大量統(tǒng)計(jì)資料。即使是運(yùn)用觸控螢?zāi)粊?lái)處理顧客點(diǎn)餐及結(jié)帳的地區(qū)型小餐廳,蒐集到的資料也很可觀。對(duì)大型的零售公司而言,要完成將蒐集的資料概念化,並瞭解如何運(yùn)用這些資料以提升獲利的可能,是一大挑戰(zhàn)。,第1章 資料與統(tǒng)計(jì) 第17頁(yè),48,1.7 大數(shù)據(jù)與資料探勘,諸如沃爾瑪?shù)拇笮土闶鄣辏刻斓慕灰踪Y料有 2000 萬(wàn)到 3000 萬(wàn)筆;電信公司如法國(guó)電信 (France Telecom)

30、及 AT&T,每天則有 3 億筆通信紀(jì)錄;威士卡(Visa)信用卡組織每秒處理的信用卡交易達(dá)6,800 筆,約是每天 6800 萬(wàn)筆紀(jì)錄。,第1章 資料與統(tǒng)計(jì) 第17頁(yè),49,1.7 大數(shù)據(jù)與資料探勘,現(xiàn)在常將較大型且複雜的資料集合稱為大數(shù)據(jù) (big data) 。許多資料分析師將大數(shù)據(jù)定義為具有3V 性質(zhì)的資料:數(shù)量 (volume) 是指可用資料的總量速度 (velocity) 是指蒐集與處理資料的速率多樣性

31、 (variety) 則是指不同的資料類型,50,第1章 資料與統(tǒng)計(jì) 第18頁(yè),1.7 大數(shù)據(jù)與資料探勘,資料倉(cāng)儲(chǔ) (data warehousing) 一詞是指取得、儲(chǔ)存與維護(hù)資料的程序。分析倉(cāng)儲(chǔ)中的資料可能獲得產(chǎn)生新策略,並使組織獲得更高利潤(rùn)的決定。,51,第1章 資料與統(tǒng)計(jì) 第18頁(yè),1.7 大數(shù)據(jù)與資料探勘,資料探勘 (data mining) 是一種方法,可以運(yùn)用在大量資料庫(kù)中以開(kāi)發(fā)出有利決策的資訊運(yùn)用來(lái)自統(tǒng)計(jì)、數(shù)學(xué)

32、及電腦科學(xué)的綜合程序,分析人員「探勘倉(cāng)庫(kù)中的資料」(mine the data),並將之轉(zhuǎn)換成有用的資訊,因此名為資料探勘。雖然使用者只用最一般甚至模糊的提問(wèn),但最有效率的資料探勘系統(tǒng)可運(yùn)用自動(dòng)程序由資料庫(kù)中萃取資訊。而且資料探勘軟體將發(fā)現(xiàn)隱藏的預(yù)測(cè)性資訊的程序予以自動(dòng)化,過(guò)去這些程序需要人員來(lái)進(jìn)行分析。,第1章 資料與統(tǒng)計(jì) 第18頁(yè),52,1.7 大數(shù)據(jù)與資料探勘,資料探勘的主要運(yùn)用者是非常以顧客為中心的公司,例如,零售事業(yè)、

33、金融機(jī)構(gòu)及溝通公司。資料探勘已成功地協(xié)助諸如亞馬遜 (Amazon) 及邦諾書(shū)店 (Barnes & Noble) 找出已購(gòu)買某種商品的顧客可能會(huì)購(gòu)買的其他相關(guān)商品。當(dāng)一名顧客登入公司網(wǎng)站並購(gòu)買商品後,網(wǎng)站使用彈出式視窗提醒顧客可能願(yuàn)意加購(gòu)的商品。另一個(gè)資料探勘的應(yīng)用則是,辨識(shí)出在某特定的購(gòu)物行程中可能花費(fèi)超過(guò) $20 的顧客。這些顧客可能會(huì)收到特別的電子郵件或是定期的郵件折扣優(yōu)惠,以鼓勵(lì)他們?cè)谡劭燮诮Y(jié)束前再次進(jìn)行採(cǎi)購(gòu)。,第

34、1章 資料與統(tǒng)計(jì) 第18頁(yè),53,1.7 大數(shù)據(jù)與資料探勘,資料探勘的技術(shù)相當(dāng)依賴諸如多元迴歸、羅吉斯迴歸及相關(guān)性等統(tǒng)計(jì)方法。但是,它將這些方法與涉及人工智慧和機(jī)器學(xué)習(xí)的資訊科學(xué)做了創(chuàng)造性的整合,使資料探勘變得有效率。要建置由甲骨文 (Oracle)、Teradata 及SAS 等公司開(kāi)發(fā)的商用資料探勘套裝軟體需要投入相當(dāng)?shù)臅r(shí)間與金錢。,第1章 資料與統(tǒng)計(jì) 第18頁(yè),54,1.7 大數(shù)據(jù)與資料探勘,找到一個(gè)適用於某特定統(tǒng)計(jì)

35、樣本的模型,不必然表示此模型也能可靠地適用於其他樣本。評(píng)估模型可靠度的常用統(tǒng)計(jì)方法是將樣本一分為二,分為:訓(xùn)練資料集及檢驗(yàn)資料集。另一方面,關(guān)於資料探勘應(yīng)用的警告是,由於有如此大量的可用資料,會(huì)有過(guò)度配適模型的風(fēng)險(xiǎn),以致出現(xiàn)誤導(dǎo)的關(guān)聯(lián)或因果關(guān)係的結(jié)論。謹(jǐn)慎地解釋資料探勘的結(jié)果,並且進(jìn)行附加的檢驗(yàn)將可避免此一陷阱。,第1章 資料與統(tǒng)計(jì) 第18-19頁(yè),55,1.8 電腦與統(tǒng)計(jì)分析,統(tǒng)計(jì)學(xué)家常使用電腦軟體進(jìn)行需要大量資料的統(tǒng)計(jì)運(yùn)

36、算。例如,計(jì)算 Norris 電子公司 200 個(gè)燈泡的平均壽命 (見(jiàn)表 1.5),如果沒(méi)有電腦的幫忙,計(jì)算過(guò)程相當(dāng)繁瑣。章末的附錄裡會(huì)逐步說(shuō)明如何使用 Excel 進(jìn)行該章所介紹的統(tǒng)計(jì)分析。,第1章 資料與統(tǒng)計(jì) 第19頁(yè),56,1.9 統(tǒng)計(jì)實(shí)務(wù)的倫理守則,在統(tǒng)計(jì)研究中有各種不同形式的不道德行為,包括:不適當(dāng)?shù)某闃硬贿m當(dāng)?shù)馁Y料分析誤導(dǎo)人的圖形不適當(dāng)?shù)膹≌y(tǒng)計(jì)資料統(tǒng)計(jì)結(jié)果的偏差解釋,第1章 資料與統(tǒng)計(jì) 第19頁(yè),57

37、,1.9 統(tǒng)計(jì)實(shí)務(wù)的倫理守則,當(dāng)你開(kāi)始自己的統(tǒng)計(jì)工作時(shí),我們鼓勵(lì)你在蒐集資料、進(jìn)行分析、口頭報(bào)告及書(shū)面報(bào)告時(shí)都能公平、詳盡、客觀和中立。做為統(tǒng)計(jì)資料的消費(fèi)者,你也應(yīng)該能瞭解其他人可能出現(xiàn)的不道德統(tǒng)計(jì)行為。,第1章 資料與統(tǒng)計(jì) 第19頁(yè),58,1.9 統(tǒng)計(jì)實(shí)務(wù)的倫理守則,美國(guó)的最重要的統(tǒng)計(jì)專業(yè)組織——美國(guó)統(tǒng)計(jì)學(xué)會(huì) (American Statistical Association) 建立了名為「統(tǒng)計(jì)實(shí)務(wù)的倫理守則」 (Ethical

38、 Guidelines for Statistical Practice) 的報(bào)告,以協(xié)助統(tǒng)計(jì)實(shí)務(wù)工作者進(jìn)行合乎道德的決策,並協(xié)助學(xué)生學(xué)習(xí)如何負(fù)責(zé)任地執(zhí)行統(tǒng)計(jì)工作。,第1章 資料與統(tǒng)計(jì) 第19頁(yè),59,1.8 統(tǒng)計(jì)實(shí)務(wù)的倫理守則,該報(bào)告包含八大領(lǐng)域的 67 條守則。八大領(lǐng)域包含:專業(yè)主義;對(duì)出資者、客戶及雇主的責(zé)任;對(duì)出版品及證據(jù)的責(zé)任;對(duì)研究主體的責(zé)任;對(duì)研究同僚的責(zé)任;對(duì)其他統(tǒng)計(jì)學(xué)者及統(tǒng)計(jì)工作者的責(zé)任;對(duì)不當(dāng)行為指

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論