版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 學(xué)士學(xué)位論文</b></p><p> 題目:數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用</p><p><b> 摘 要</b></p><p> 介紹數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘方法。如何使用數(shù)據(jù)挖掘技術(shù)分析電子商務(wù)活動(dòng)中的客戶訪問行為,購買行為以及客戶的性別、年齡等特征,從而調(diào)整電子商務(wù)網(wǎng)
2、站的站點(diǎn)結(jié)構(gòu),廣告宣傳,商品推薦,客戶引導(dǎo)以及商品的規(guī)劃等。使電子商務(wù)活動(dòng)更具有針對性,用戶體驗(yàn)更加人性化,以及為電商企業(yè)決策提供數(shù)據(jù)支持。</p><p><b> 關(guān)鍵詞</b></p><p> 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 電子商務(wù) 信息處理 預(yù)測</p><p><b> 第一章 引言</b></p&
3、gt;<p> 目前互聯(lián)網(wǎng)電子商務(wù)行業(yè)猶如雨后春筍遍地開花,如淘寶、京東、當(dāng)當(dāng)、凡客、蘇寧易購、庫巴購物網(wǎng)、拍拍網(wǎng)等。眾多的電商在互聯(lián)網(wǎng)中活躍著,其中有綜合性的電商網(wǎng)站,如淘寶、京東、當(dāng)當(dāng)?shù)?。也有專門性從事某一類商品的電商活動(dòng)的網(wǎng)站,如麥包包專門進(jìn)行箱包類的電商活動(dòng),聚美優(yōu)品則專門進(jìn)行化妝品類商品的網(wǎng)上交易。</p><p> 電子商務(wù)推動(dòng)生產(chǎn)生活方式的發(fā)展,已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對拉動(dòng)經(jīng)濟(jì)
4、增長、促進(jìn)轉(zhuǎn)變有著重要作用。電子商務(wù)服務(wù)業(yè)正在成為現(xiàn)代服務(wù)業(yè)一個(gè)核心產(chǎn)業(yè)。截至2011年底,中國網(wǎng)民規(guī)模突破5億關(guān)口,達(dá)5.13億人。中國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)1.94億人,同比增長20.8%,網(wǎng)購使用率37.8%,未來網(wǎng)絡(luò)購物用戶規(guī)模將持續(xù)增長。網(wǎng)絡(luò)購物用戶對于網(wǎng)絡(luò)購物的依賴性較高,大部分網(wǎng)絡(luò)購物用戶瀏覽網(wǎng)購網(wǎng)站的頻率較高。其中,超過四成網(wǎng)購消費(fèi)者每天瀏覽網(wǎng)購網(wǎng)站一次以上,近六成用戶每天都要進(jìn)行網(wǎng)購網(wǎng)站的瀏覽。而對于絕大多數(shù)(接近95%)
5、的網(wǎng)購用戶來講,每周至少瀏覽一次網(wǎng)購網(wǎng)站。</p><p> 2011年中國電子商務(wù)交易總額為5.8萬億元,同比增長29.2%,其中網(wǎng)絡(luò)購物交易規(guī)模突破7825億元,占社會(huì)消費(fèi)品零售總額比重達(dá)到4.3%。其中,B2B領(lǐng)域,無論是中小企業(yè)、還是規(guī)模較大企業(yè)均加大了網(wǎng)絡(luò)渠道的應(yīng)用,通過互聯(lián)網(wǎng)促成交易的達(dá)成。得益于網(wǎng)購的蓬勃發(fā)展,物流業(yè)市場得到井噴式發(fā)展,年均增長率達(dá)27.23%。2011年底,中國電子商務(wù)服務(wù)企業(yè)突
6、破15萬家,中國網(wǎng)上零售市場成交值達(dá)230億美金,已僅次于美國位列第二,隨著基礎(chǔ)建設(shè)和網(wǎng)上貿(mào)易的發(fā)展,預(yù)計(jì)未來3年內(nèi),中國電子商務(wù)交易額將保持年均29%以上的增長速度。到2015年我國網(wǎng)絡(luò)消費(fèi)用戶數(shù)量將激增至3.29億人。網(wǎng)絡(luò)消費(fèi)支出有望使中國電子商務(wù)市場的規(guī)模超過美國,達(dá)12萬億元人民幣以上,成為全球第一大電子商務(wù)市場。</p><p> 不管是綜合性還是專業(yè)性的電商網(wǎng)站,都存在著非常大的競爭,比如前不久的京
7、東和蘇寧、國美的價(jià)格大戰(zhàn),不僅考驗(yàn)著電商們系統(tǒng)的壓力,也考驗(yàn)了他們的數(shù)據(jù)分析處理能力。同時(shí)各大電商企業(yè)基本都擁有大量的用戶,如何去分析他們的用戶的訪問習(xí)慣,購買行為,以及分析競爭對手的相關(guān)數(shù)據(jù)從而調(diào)整電子商務(wù)網(wǎng)站的站點(diǎn)結(jié)構(gòu),廣告宣傳,商品推薦,客戶引導(dǎo)以及商品的規(guī)劃、潛在用戶的挖掘等。使電子商務(wù)活動(dòng)更具有針對性,用戶體驗(yàn)更加人性化,提高自己的競爭力。</p><p> 在這樣的大數(shù)據(jù)環(huán)境下我們就需要用到數(shù)據(jù)挖掘
8、技術(shù)來幫助企業(yè)進(jìn)行數(shù)據(jù)的分析。數(shù)據(jù)挖掘(Data Mining)是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程。這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等,可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。</p><p> 第二章 數(shù)據(jù)挖掘技術(shù)概述</p><p> 2.1數(shù)據(jù)挖掘定義</p><p&
9、gt; 數(shù)據(jù)挖掘之所以引起信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索。所以,數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果,因而是重要的。那么什么是數(shù)據(jù)挖掘呢?</p><p> 數(shù)據(jù)挖掘開山鼻祖Usama Fayyad: 數(shù)據(jù)挖掘是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛
10、在的,以及最終可理解的模式的非平凡過程。</p><p> Zekulin: 數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前未知的、可理解的、可執(zhí)行的信息,并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。</p><p> Ferruzza: 數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過程,來辨識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。</p><p> John: 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。
11、</p><p> Parsaye: 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過程。</p><p> 數(shù)據(jù)挖掘的定義各一,但他們都有一個(gè)中心的思想就是數(shù)據(jù)的提取和分析,那我們可以從技術(shù)的角度來給數(shù)據(jù)挖掘下一個(gè)定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。<
12、;/p><p> 2.2數(shù)據(jù)挖掘類型</p><p><b> 2.2.1分類</b></p><p> 這是最常見的數(shù)據(jù)挖掘類型,其中數(shù)據(jù)的目標(biāo)數(shù)據(jù)項(xiàng)表示數(shù)據(jù)所代表的對象的類型。例如在醫(yī)學(xué)應(yīng)用中,對象可分為有病和沒病兩類;在金融應(yīng)用中,對象可分為低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)兩類。分類數(shù)據(jù)挖掘先從一個(gè)已分類的數(shù)據(jù)集(訓(xùn)練集)得到一個(gè)模型,這個(gè)模型就包
13、含了從該訓(xùn)練集中得到的知識(shí)。然后應(yīng)用這個(gè)模型(知識(shí))對新的未分類的數(shù)據(jù)進(jìn)行分類。</p><p><b> 2.2.2估計(jì)</b></p><p> 這是一種與分類相類似的類型。分類的目標(biāo)數(shù)據(jù)項(xiàng)是離散化的,而估計(jì)的目標(biāo)數(shù)據(jù)項(xiàng)是連續(xù)的。</p><p><b> 2.2.3預(yù)測</b></p><
14、;p> 通過分析代表對象過去和現(xiàn)在行為的數(shù)據(jù)來預(yù)測對象未來的行為。這實(shí)際上是一種特殊的分類或估計(jì),其目標(biāo)數(shù)據(jù)項(xiàng)就是要預(yù)測的值。</p><p> 2.2.4相似分組或市場籃分析</p><p> 確定哪些對象會(huì)集中在一起,典型的應(yīng)用是確定在超級市場中顧客會(huì)將哪些商品放在一個(gè)購物車或購物籃中,即他們會(huì)同時(shí)購買那些商品。</p><p><b>
15、 2.2.5聚集</b></p><p> 將一組對象分為幾部分,每一部分稱為一個(gè)簇,簇中的對象具有類似的特點(diǎn)。聚集分析通常是其他數(shù)據(jù)挖掘方法的前一步驟。</p><p> 2.3數(shù)據(jù)挖掘過程</p><p> 圖1 數(shù)據(jù)挖掘基本過程</p><p> 2.3.1確定業(yè)務(wù)對象</p><p&g
16、t; 清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。</p><p> 2.3.2數(shù)據(jù)準(zhǔn)備 </p><p> 數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。取得數(shù)據(jù)源。數(shù)據(jù)挖掘最理想的數(shù)據(jù)源是數(shù)據(jù)倉庫
17、。數(shù)據(jù)倉庫由來自多個(gè)數(shù)據(jù)庫的數(shù)據(jù)組成,并消除它們之間的不一致。如數(shù)據(jù)倉庫不可得,則要從各個(gè)數(shù)據(jù)庫中取得數(shù)據(jù)。數(shù)據(jù)挖掘有時(shí)還需要對原有數(shù)據(jù)庫進(jìn)改造以得到可用的數(shù)據(jù)源,例如延長歷史數(shù)據(jù)的保留期。</p><p> 數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型。包括消除來自不同數(shù)據(jù)庫甚至不同類型計(jì)算機(jī)數(shù)據(jù)表示的不一致,在數(shù)據(jù)中加入新的數(shù)據(jù)項(xiàng)(例如對原有數(shù)據(jù)項(xiàng)進(jìn)行有意義的數(shù)學(xué)計(jì)算而
18、得到新的數(shù)據(jù)項(xiàng))以發(fā)現(xiàn)更多的規(guī)律,將數(shù)據(jù)分為訓(xùn)練集和測試集等方面。</p><p> 數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。</p><p> 2.3.3數(shù)據(jù)挖掘</p><p> 對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善和選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地
19、完成。</p><p> 2.3.4分析和同化</p><p> 結(jié)論分析:解釋并評估結(jié)果,其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。</p><p> 知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。</p><p> 2.4數(shù)據(jù)挖掘的常用方法</p><p>
20、2.4.1市場籃分析(Market Basket Analysis)</p><p> 找到在一次交易或活動(dòng)中會(huì)同時(shí)出現(xiàn)的對象,由此得到的模型將給出一組對象同時(shí)出現(xiàn)的可能性。其具體方法是計(jì)算訓(xùn)練集中各種對象組合出現(xiàn)的概率,當(dāng)概率超過一定的閾值時(shí),可以認(rèn)為該對象組合代表了會(huì)同時(shí)出現(xiàn)的對象。</p><p> 2.4.2基于記憶推理(Memory-Based Reason-ing, M
21、BR)</p><p> 這種方法用已知對象的特征(記憶)來估計(jì)未知對象的特征。MBR在已知對象集合中尋找與未知對象最接近的對象,然后將這些對象特征組合起來估計(jì)未知對象的特征。MBR的關(guān)鍵在于正確定義用來尋找最接近對象的距離函數(shù)和組合對象特征的組合函數(shù)。</p><p> 2.4.3聚集分析(Cluster Detection)</p><p> 通過對數(shù)據(jù)
22、的分析將一個(gè)數(shù)據(jù)集分為幾個(gè)特征相同的簇,即把特征相同的數(shù)據(jù)聚集在一起。</p><p> 2.4.4鏈路分析(Link Analysis)</p><p> 它用來分析對象之間的關(guān)系。具體方法是將對象(數(shù)據(jù))看成是圖的節(jié)點(diǎn),它們之間存在的關(guān)系看成是圖的邊(鏈路),然后用圖論的方法進(jìn)行分析。</p><p> 2.4.5決策樹(Decision Tree)&
23、lt;/p><p> 它將訓(xùn)練集中數(shù)據(jù)分為不相交的子集,每個(gè)子集可由一定的規(guī)則來描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu),因此可用樹型數(shù)據(jù)結(jié)構(gòu)來表示,樹上的每個(gè)節(jié)點(diǎn)代表一條規(guī)則。</p><p> 2.4.6神經(jīng)網(wǎng)絡(luò)(Neutral Network)</p><p> 這是最常見的一種數(shù)據(jù)挖掘方法。它是在計(jì)算機(jī)上模擬神經(jīng)元及其連接的方法。神經(jīng)網(wǎng)絡(luò)實(shí)際上完成從已知數(shù)據(jù)項(xiàng)到
24、目標(biāo)數(shù)據(jù)項(xiàng)的一種復(fù)雜的非線性映射,它獲取的知識(shí)就存在于網(wǎng)絡(luò)結(jié)構(gòu)中。神經(jīng)網(wǎng)絡(luò)主要用來進(jìn)行分類、估計(jì)和預(yù)測等有向數(shù)據(jù)挖掘,也可用于聚集等無向數(shù)據(jù)挖掘。</p><p> 2.4.7遺傳算法(Genetic Algorithms)</p><p> 它是一種應(yīng)用遺傳學(xué)原理和自然選擇機(jī)制來搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,它用來尋找實(shí)現(xiàn)分類、估計(jì)和預(yù)測功能的最優(yōu)參數(shù)集。這種方法先產(chǎn)生一組解法,
25、然后用重組、突變和選擇等進(jìn)化過程來得到下一代解法。隨著進(jìn)化過程的繼續(xù),較差解法被拋棄,從而逐步得到最優(yōu)解法。</p><p> 2.4.8Rough集(Rough Set)</p><p> 它所使用的數(shù)據(jù)結(jié)構(gòu)是決策表,決策表中的每一項(xiàng)數(shù)據(jù)由條件屬性和決策屬性構(gòu)成,其目的是通過簡化決策表即去掉某些條件屬性來確定條件屬性和決策屬性的映射關(guān)系,最終得到一組用條件屬性來表示決策屬性的規(guī)則。
26、這種方法用Rough集理論中一些概念和方法來考察決策表中條件屬性的重要性,以確定那些屬性是可以去掉的,那些屬性是要保留的。</p><p> 第三章 電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用</p><p> 3.1電子商務(wù)簡介</p><p> 電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng).目前國內(nèi)已有網(wǎng)上商
27、情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。</p><p> 電子商務(wù)有以下優(yōu)勢:</p><p> ·服務(wù)不受時(shí)間限制,給客戶帶來了極大方便.客戶可以足不出戶、一天二十四小時(shí)地進(jìn)行各種信息查詢、商品查詢、即時(shí)購物等活動(dòng)</p><p> ·全球性資源共享.Internet上的信息容量無比巨大,任何人都
28、可以從中受益</p><p> ·突破了地域的限制,可以直接與全市、全國、甚至全世界的客戶打交道</p><p> ·大大降低了商家的經(jīng)營成本.商家不再需要真正的店鋪,而且可以直接進(jìn)貨、減少倉儲(chǔ),加快資金周轉(zhuǎn),可節(jié)省大量的人力、物力和財(cái)力</p><p> ·商家可以更方便、更直接、更系統(tǒng)地接受客戶反饋,有利于商家做好售后服務(wù)和市
29、場調(diào)查</p><p> ·由于絕大部分信息可以在網(wǎng)上實(shí)時(shí)地發(fā)送,故可以大大降低廣告費(fèi)用和信息發(fā)布費(fèi)用,且能增加時(shí)效性</p><p> ·Internet數(shù)字化、主動(dòng)式、交互性的特點(diǎn)是電話、傳真、電視、報(bào)紙等傳統(tǒng)媒介不能替代、無可比擬的</p><p> ·節(jié)省購物空間.因?yàn)榫W(wǎng)上購物均為無店鋪直銷形式,廠家可直接與消費(fèi)者掛鉤,并
30、通過信息反饋及時(shí)調(diào)整產(chǎn)品供求關(guān)系,買主感覺商店就在身邊,廠家可以避免盲目生產(chǎn)造成的積壓.</p><p> 3.2挖掘客戶的購買行為</p><p> 客戶購買行為的分析是線下銷售和在線電子商務(wù)活動(dòng)中最基礎(chǔ)最常用的數(shù)據(jù)挖掘行為。經(jīng)典的啤酒和尿布案例就是通過分析客戶的購買行為發(fā)現(xiàn)在外國的超市里男人去買尿布的同時(shí)也買走了啤酒,從而決定將尿布和啤酒的擺放位置調(diào)整得更合理,促進(jìn)超市里啤酒的
31、銷量,同時(shí)也省去了尋找啤酒和尿布的時(shí)間,縮短了每客戶購物的時(shí)間,進(jìn)而提高銷售業(yè)績。這是線下超市的一個(gè)經(jīng)典案例,在電子商務(wù)活動(dòng)中也同樣適用。我們可以從網(wǎng)站的數(shù)據(jù)庫中記錄的客戶的購買記錄,可以是一次交易,也可以是一段時(shí)間內(nèi)的交易記錄,去分析客戶在交易中所購買的商品。找出商品與商品之間的聯(lián)系,商品與客戶行為的聯(lián)系,從而調(diào)整電子商務(wù)網(wǎng)站的商品推薦策略、購買建議等。為客戶縮短搜索商品的時(shí)間,簡化操作,增強(qiáng)用戶的購買體驗(yàn)。</p>&
32、lt;p> 2012年4月由IT168和盛拓傳媒主辦的2012數(shù)據(jù)庫技術(shù)大會(huì)上有一場是關(guān)于數(shù)據(jù)挖掘技術(shù)的,他們邀請到了淘寶的數(shù)據(jù)挖掘工程師來進(jìn)行分享。會(huì)上淘寶的工程師分享了這么一個(gè)案例,他們分析了每年的情人節(jié)、七夕、圣誕節(jié)這三個(gè)節(jié)日淘寶上商品的銷售情況。發(fā)現(xiàn)在這三個(gè)節(jié)日,淘寶用戶基本會(huì)購買鮮花和巧克力等商品。這也不奇怪,通常情況下在這些節(jié)日都是男女互贈(zèng)禮物以示愛意,鮮花和巧克力銷量大增也是正常。但是過了大概半月到一月的時(shí)間,他們
33、又對這些在節(jié)日購買了鮮花和巧克力的客戶進(jìn)行了一次購買行為的分析,分析發(fā)現(xiàn),這部分客戶在購買了鮮花或巧克力后的一周到一個(gè)月間大部分的客戶都購買了另一種商品,那就是‘安全套’。而后又分析了每月的‘安全套’交易量,對比了情人節(jié)、七夕、圣誕三個(gè)節(jié)日所在的月和其它月份‘安全套’的交易量。最后得出一個(gè)結(jié)論,客戶在重要的節(jié)日購買鮮花和巧克力后的一周到一個(gè)月時(shí)間內(nèi)很大概率會(huì)購買計(jì)生用品。</p><p> 根據(jù)此項(xiàng)分析結(jié)論淘寶
34、可以在客戶將鮮花或巧克力放入購物車后推薦客戶購買計(jì)生用品,如:xxx客戶您好,80%購買鮮花和巧克力的客戶還購買了以下商品。把計(jì)生用品為客戶做一個(gè)列表展示。</p><p> 合理的商品推薦策略、購買建議可以縮短客戶搜索商品的時(shí)間、簡化客戶的購買操作、同時(shí)也增強(qiáng)了客戶的購買體驗(yàn)。從而縮短每客戶的購物時(shí)間,提高每次交易的商品數(shù)量和交易金額,使電子商務(wù)活動(dòng)更高效。</p><p> 3.3
35、分析客戶對站點(diǎn)的訪問行為</p><p> 電子商務(wù)是通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。這種活動(dòng)都需要基于電子商務(wù)站點(diǎn)進(jìn)行,站點(diǎn)內(nèi)的訪問行為體現(xiàn)的是客戶的購買意向,和感興趣的商品,以及對站點(diǎn)功能使用的熟練程度,如站點(diǎn)的搜索、物品分類等??蛻魧δ硞€(gè)站點(diǎn)的訪問方式體現(xiàn)的是個(gè)人的上網(wǎng)習(xí)慣、對網(wǎng)絡(luò)的使用頻度、對電子商務(wù)(網(wǎng)上交易)的認(rèn)知程度等。</p>&
36、lt;p> 打仗時(shí)知己知彼方能百戰(zhàn)不殆,電子商務(wù)活動(dòng)雖不是打仗,但是越多的了解你的客戶客戶群,掌握他們的習(xí)慣和愛好對開展電子商務(wù)活動(dòng)絕對是至關(guān)重要的,可以更好的去留住客戶和發(fā)展新的客戶,對提高企業(yè)的競爭力非常的重要。使用數(shù)據(jù)挖掘技術(shù)對客戶的站點(diǎn)訪問行為數(shù)據(jù)進(jìn)行分析從而對客戶更深入的了解,制定合適的導(dǎo)航信息、站點(diǎn)內(nèi)部的分類、站點(diǎn)的便捷功能、站點(diǎn)的廣告推廣等。</p><p> 客戶對站點(diǎn)的訪問行為分析分兩
37、類進(jìn)行,一類是分析客戶在站點(diǎn)內(nèi)部的訪問行為記錄。如,客戶首先進(jìn)入主站點(diǎn),而后統(tǒng)計(jì)出進(jìn)入主站點(diǎn)后訪問最多的前三個(gè)或五個(gè)頁面,找到這些頁面后分析這些頁面,找出頁面的特性,分析客戶從主站點(diǎn)直接進(jìn)入該頁面的目的。例如,可以發(fā)現(xiàn),有大部分客戶進(jìn)入主站點(diǎn)后進(jìn)入搜索頁面或者是商品分類頁面,而不是直接進(jìn)入商品的詳細(xì)頁面。這說明,大部分客戶非常明白自己要購買什么商品,目的明確,不是閑逛的,進(jìn)入主站后直接搜索或進(jìn)入所需要的商品的類目進(jìn)行查找。據(jù)此再對此類客
38、戶的購買記錄進(jìn)行分析,看看他們是不是找到了自己需要的商品,并進(jìn)行了購買活動(dòng)。如果客戶進(jìn)行了搜索查找,而成交量卻比較的低,說明存在問題。是客戶找到了商品沒有進(jìn)行購買還是客戶根本就沒有搜索到相關(guān)的商品,此時(shí)就需要去核實(shí)一下站點(diǎn)的搜索功能是否可用、實(shí)用、好用,分類是否合理、便捷等從而對站點(diǎn)進(jìn)行相關(guān)的優(yōu)化,提高性能和體驗(yàn),使客戶在本站點(diǎn)購物簡單愉快。</p><p> 第二類是分析客戶對站點(diǎn)的訪問方式,如直接輸入站點(diǎn)地
39、址進(jìn)行訪問的客戶則可能是經(jīng)常光顧本站,有一定網(wǎng)購經(jīng)驗(yàn),對網(wǎng)絡(luò)比較熟悉甚至依賴。對這類客戶不需要太多的引導(dǎo)和推廣,因?yàn)樗麄円呀?jīng)是老手了。比如還有的是通過百度搜索或者其他的網(wǎng)站鏈接進(jìn)入到站點(diǎn)的,那可以推斷這些客戶并不經(jīng)常在網(wǎng)絡(luò)上活動(dòng),甚至他們需要間接的通過其他站點(diǎn)來訪問我們的電子商務(wù)網(wǎng)站,對這類客戶就需要有一定的引導(dǎo),比如提示他們將我們的站點(diǎn)收藏到IE收藏夾,或者引導(dǎo)他們?nèi)绾斡涀』蛉绾沃苯釉L問到我們的站點(diǎn)。</p><p
40、> 3.4從歷史銷售數(shù)據(jù)中挖掘交易規(guī)律</p><p> 數(shù)據(jù)挖掘基本過程的第一項(xiàng)就是確定業(yè)務(wù)對象,也就是說我們進(jìn)行數(shù)據(jù)挖掘的目標(biāo),數(shù)據(jù)挖掘只作為一種技術(shù),通過此項(xiàng)技術(shù)來實(shí)現(xiàn)或者是驗(yàn)證我們一開始設(shè)定的目標(biāo)。簡單的說就是在進(jìn)行數(shù)據(jù)挖掘前我們先要有一個(gè)猜想,猜想會(huì)有什么樣的規(guī)律或者情況,而后通過數(shù)據(jù)挖掘相關(guān)技術(shù)去驗(yàn)證。</p><p> 電子商務(wù)活動(dòng)中產(chǎn)生的大量的交易數(shù)據(jù)是一類
41、非常有挖掘價(jià)值的數(shù)據(jù),關(guān)鍵在于從什么角度去挖掘,確定什么樣的目標(biāo)。比如可以利用商品的歷史銷售數(shù)據(jù)從時(shí)間(天)、成交量兩個(gè)維度進(jìn)行數(shù)據(jù)挖掘分析得出某類商品是否存在交易的規(guī)律。淘寶的數(shù)據(jù)分析師們也做過這樣的猜測和分析,他們在眾多的交易分析中發(fā)現(xiàn)有一種商品每個(gè)月月初的時(shí)候交易明顯比平常高出好幾倍,是什么呢?‘手機(jī)充值卡’,它的交易是有規(guī)律的,因?yàn)橐苿?dòng)運(yùn)營商一般會(huì)在月初進(jìn)行費(fèi)用結(jié)算,很多人也就在這時(shí)候需要進(jìn)充值。</p><
42、p> 找到商品的交易規(guī)律則可以事先做好庫存的準(zhǔn)備,避免脫銷的現(xiàn)象,就能抓住時(shí)機(jī),達(dá)成最有效的交易。</p><p> 3.5定位客戶的網(wǎng)絡(luò)性別</p><p> 電子商務(wù)活動(dòng)中一般都需要客戶在網(wǎng)站進(jìn)行注冊填寫相關(guān)個(gè)人信息而后才可以進(jìn)行正常的電子商務(wù)活動(dòng)??蛻舻膫€(gè)人信息必須是要保密的不可以隨意的泄露,所以在利用和分析此類信息的時(shí)候需要更多的考慮客戶的信息安全和隱私。其實(shí)單從客
43、戶注冊信息中的性別去判斷或分類客戶是不太準(zhǔn)確的,為什么這么說呢?例如,我們可以做這樣一個(gè)分析,調(diào)取網(wǎng)站注冊信息為男性的客戶的交易記錄進(jìn)行分析,看看這些所謂的男性客戶都買過什么樣的商品,有多少百分比的商品是男性用品。分析大概可以得出結(jié)論是男性注冊用戶其實(shí)有50%左右在購買女性商品,這其實(shí)是一個(gè)普遍的現(xiàn)象,男士在網(wǎng)上購物大多數(shù)情況下其實(shí)不是為自己在消費(fèi),更多的是在替女性進(jìn)行消費(fèi),從整個(gè)電子商務(wù)行業(yè)的調(diào)查來看女性消費(fèi)主體也是大于男性消費(fèi)的,如
44、果我們單純的以用戶的注冊性別來進(jìn)行男女顧客的分類然后進(jìn)行相關(guān)的營銷廣告、商品的推薦策略制定的話那效果是不那么準(zhǔn)確和明顯的。更應(yīng)該結(jié)合客戶的購買記錄進(jìn)行商品的性別分析,從而分析得出客戶在電子商務(wù)活動(dòng)中,在網(wǎng)絡(luò)中的性別。</p><p><b> 3.6路徑分析</b></p><p> 路徑分析可以被用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問的路徑。還有一些其他的有關(guān)
45、路徑的信息通過路徑分析可以得出:</p><p> ·70%的用戶端在訪問/company/product2時(shí),是從/company開始,經(jīng)過/company/new, /company/products,/company/product1。</p><p> ·80%的訪問這個(gè)站點(diǎn)的客戶是從/company/products開始的。</p><
46、p> ·65%的客戶在瀏覽4個(gè)或更少的頁面后就離開了。</p><p> 第一條規(guī)則在/company/product2頁面上有有用的信息,但因?yàn)榭蛻魧φ军c(diǎn)進(jìn)行的是迂回繞行的訪問,所以這個(gè)有用信息并不明顯。第二條規(guī)則說明了客戶對站點(diǎn)的訪問一般不是從主頁開始的,而是從/company/products開始的,如果在這個(gè)頁面上包含一些產(chǎn)品的目錄類型的信息,將是一個(gè)不錯(cuò)的主意。第三條規(guī)則說明了客戶在
47、網(wǎng)站上駐留的時(shí)間。既然客戶在這個(gè)網(wǎng)站上瀏覽一般不超過4個(gè)頁面,就可以把重要的商品信息放在這些頁面中。通過路徑分析,可以改進(jìn)頁面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。</p><p> 3.7關(guān)聯(lián)分析方法的運(yùn)用</p><p> 關(guān)聯(lián)分析可形式化地描述為:設(shè)I= {i1,i2,…,im}是m個(gè)不同項(xiàng)目的集合,D是針對I上的事件的集合,D中每一項(xiàng)事件包含若干項(xiàng)目I’,且I’ I。則關(guān)聯(lián)規(guī)則表示為X Y,其
48、中X,Y I,并且X∩Y=Φ。X稱作規(guī)則的前提,Y是結(jié)果。針對每一條規(guī)則應(yīng)同時(shí)計(jì)算最小支持度和最小置信度,得出的最小支持度和最小置信度必須同時(shí)大于用戶給出的最小支持度和最小置信度閥值,這條規(guī)則才被認(rèn)為有參考的價(jià)值,并被列入分析的結(jié)果。</p><p> 定義1:對于D I,X是包含于D的事件子集,則子集X在集合D上的最小支持度為:support(X)=S(X)/S(D),其中S(X)表示包含項(xiàng)目X的事件個(gè)數(shù),S
49、(D)表示事件D的個(gè)數(shù)。定義2:X Y的最小置信度為:confidence(X Y)=S(X∪Y)/S(X),其中S(X∪Y)表示同時(shí)包含項(xiàng)目X和Y的事件個(gè)數(shù)。</p><p> 關(guān)聯(lián)分析就是要分析I上的事件集合D,針對D中的每一個(gè)項(xiàng)目X,計(jì)算最小支持度,對那些大于用戶給出的最小支持度閥值的X,進(jìn)而計(jì)算其與另一個(gè)項(xiàng)目Y的最小置信度,若得到值大于用戶給出的最小置信度閥值,則認(rèn)為規(guī)則X Y成立,也即斷言項(xiàng)目X、Y在
50、一定程度上發(fā)生關(guān)聯(lián)。下面結(jié)合顧客購買實(shí)例提出一個(gè)可行的關(guān)聯(lián)分析方法。</p><p> 某公司專業(yè)生產(chǎn)化妝用品和沐浴用品,該公司在全國各大城市的各大商場都設(shè)點(diǎn)銷售,公司對一定時(shí)間范圍內(nèi)顧客購買詳細(xì)情況作了收集,情況如表1所示(限于篇幅,僅列出6個(gè)顧客、5種產(chǎn)品為例)。</p><p> 表1 顧客購買情況表</p><p> 針對表1進(jìn)行關(guān)聯(lián)分析,首先構(gòu)造兩種
51、商品間的關(guān)聯(lián)表,如表2所示,表中每一個(gè)數(shù)值表示的是行、列代表的兩種商品同時(shí)被一個(gè)用戶購買的次數(shù)。</p><p> 表2兩種商品間關(guān)聯(lián)表</p><p> 第二步,針對設(shè)定的最小支持度閥值,計(jì)算每一個(gè)X的最小支持度,將大于最小支持度閥值的X列出(本例,設(shè)最小支持度閥值為0.5):support(洗面奶)=0.6; support(晚霜)=0.6; support(洗發(fā)水)=0.8; s
52、upport(沐浴乳)=0.6.第三步,針對設(shè)定的最小置信度閥值和上步列出的X,計(jì)算的最小置信度表,如表3所示:</p><p> 表3 X Y的最小置信度表</p><p> 第四步,將大于最小置信度閥值的列出(本例,設(shè)最小置信度閥值為0.5),即為關(guān)聯(lián)分析所得出的規(guī)則:</p><p> Rule1:晚霜 洗面奶,support=0.6, confiden
53、ce=0.667</p><p> Rule2:洗面奶 晚霜,support=0.6, confidence=0.667</p><p> Rule3:洗發(fā)水 沐浴乳,support=0.8, confidence=0.75</p><p> Rule4:沐浴乳 洗發(fā)水,support=0.6, confidence=1</p><p>
54、; 從上述規(guī)則可以初步得出結(jié)論:(1)購買本公司產(chǎn)品的顧客中相當(dāng)比例的人有晚上用洗面奶洗面,并用晚霜保養(yǎng)皮膚的習(xí)慣(估計(jì)顧客中有一定比例是白領(lǐng)上班族,早上匆忙,晚上空暇)。(2)購買洗發(fā)水的顧客多半會(huì)同時(shí)購買沐浴乳,而購買沐浴乳的顧客則幾乎肯定會(huì)購買洗發(fā)水(因多數(shù)人沐浴時(shí)同時(shí)洗發(fā),并且洗發(fā)次數(shù)多于沐浴)。</p><p> 根據(jù)上述規(guī)則,公司在營銷時(shí)采取了如下措施:(1)將晚霜與洗面奶、洗發(fā)水與沐浴乳放置在一
55、起,方便顧客購買。(2)顧客購買了一種商品后,適當(dāng)推薦另一種商品。(3)在生產(chǎn)與發(fā)貨運(yùn)輸上,將關(guān)聯(lián)產(chǎn)品配套按排。采取這些措施后,顧客的交叉消費(fèi)大為提高。</p><p><b> 第四章 結(jié)束語</b></p><p> 數(shù)據(jù)挖掘綜合了機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫和數(shù)據(jù)分析等多領(lǐng)域的研究成果,目前已經(jīng)普遍應(yīng)用于了很多的領(lǐng)域,利用數(shù)據(jù)挖掘得出決策規(guī)則, 還應(yīng)
56、包括對分析所用到的原始數(shù)據(jù)進(jìn)行清理,濾去數(shù)據(jù)“噪聲”的數(shù)據(jù)整理工作、對得出的規(guī)則進(jìn)行衡量的結(jié)果評價(jià)工作以及對挖掘模型的優(yōu)化工作等等。在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)挖掘成本是不需要考慮的因素,要將數(shù)據(jù)挖掘更好的應(yīng)用到各個(gè)行業(yè)則需要開發(fā)更高效的挖掘算法、研制可視化的挖掘界面、研究基于不同媒體的挖掘、研究如何確定規(guī)則的評價(jià)標(biāo)準(zhǔn)和如何與其他系統(tǒng)集成等。</p><p> 隨著數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,越發(fā)掀起了投資數(shù)據(jù)挖掘項(xiàng)目的
57、高潮.但在實(shí)現(xiàn)這一復(fù)雜、昂貴的技術(shù)同時(shí),也暴露了很多問題.投資者往往對其存有過高期望,低估成本,帶來了極大的風(fēng)險(xiǎn);另外還需要有專門的內(nèi)部專業(yè)技術(shù)人員或咨詢機(jī)構(gòu)解釋、評價(jià)數(shù)據(jù)挖掘結(jié)果,增加了成本.因此信息管理人員和投資者還需充分認(rèn)識(shí)其潛在的問題,要從需求、數(shù)據(jù)、財(cái)力及技術(shù)4個(gè)方面考慮,認(rèn)真進(jìn)行成本/效益分析,避免不必要的開支和風(fēng)險(xiǎn)。</p><p><b> 參考文獻(xiàn)</b></p&g
58、t;<p> [1] Harjinder S Gill.數(shù)據(jù)倉庫—客戶/方服務(wù)器計(jì)算指南.北京:清華大學(xué)出版社,1998</p><p> [2] 王清毅、陳恩紅、蔡慶生.知識(shí)發(fā)現(xiàn)的若干問題及應(yīng)用研究.計(jì)算機(jī)科學(xué),1997Vol.24 No.5</p><p> [3] 孫義、方真.電子商務(wù).北京:北京大學(xué)出版社,2010-8-1</p><p&g
59、t; [4] 周曙東.電子商務(wù)概論.南京:東南大學(xué)出版社,2011-7-1</p><p> [5](加)韓家煒,堪博 著,范明,孟小峰 譯.數(shù)據(jù)挖掘概念與技術(shù)(原書第2版).機(jī)械工業(yè)出版社,2007-3-1</p><p> [6] 鄒顯春、謝 中、周彥暉.電子商務(wù)與Web數(shù)據(jù)挖掘.重慶:西南師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,2001-5</p><p> [
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究畢業(yè)論文
- 數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用.pdf
- 電子商務(wù)畢業(yè)論文--信息安全技術(shù)在電子商務(wù)中的應(yīng)用
- 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用.pdf
- Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用.pdf
- 淺談web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
- web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究
- 畢業(yè)論文----xml在電子商務(wù)中的應(yīng)用
- 畢業(yè)論文--xml在電子商務(wù)中的應(yīng)用
- 電子商務(wù)在高校中的應(yīng)用[畢業(yè)論文]
- 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的商品推薦應(yīng)用.pdf
- 數(shù)據(jù)挖掘與分析在電子商務(wù)中的應(yīng)用
- 數(shù)據(jù)挖掘與分析在電子商務(wù)中的應(yīng)用
- 信息技術(shù)在電子商務(wù)中的應(yīng)用畢業(yè)論文
- 電子商務(wù)畢業(yè)論文-電子商務(wù)在中小外貿(mào)企業(yè)中的應(yīng)用
- 畢業(yè)論文電子商務(wù)在農(nóng)業(yè)中的應(yīng)用
- 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)企業(yè)中的研究與應(yīng)用.pdf
- 口碑營銷在電子商務(wù)中的應(yīng)用[畢業(yè)論文]
- 基于web的數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
- 電子商務(wù)畢業(yè)論文--電子商務(wù)在中小型企業(yè)中的應(yīng)用
評論
0/150
提交評論