

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、金融欺詐是一個(gè)嚴(yán)重的世界性問題。金融欺詐被定義為“一種違反法律、規(guī)章和政策來獲取未經(jīng)授權(quán)的財(cái)務(wù)收益的故意行為”。除了財(cái)務(wù)損失,金融欺詐對世界經(jīng)濟(jì)帶來了不可估量的重創(chuàng),也嚴(yán)重打擊了投資人對股市公正的信心。更為嚴(yán)重的是,美國公司金融欺詐的案例在過去十年間還有明顯上升。
不僅僅是美國公司,中國公司也出現(xiàn)同樣的問題。隨著中國金融改革的不斷深化,許多總部在中國大陸的公司選擇在海外上市。從2010年開始,許多中概股公司被一些市場研究公司(
2、比如渾水公司和香櫞研究)做空。
美國聯(lián)邦調(diào)查局調(diào)查的金融欺詐類型包括公司欺詐、證券商品欺詐、醫(yī)療欺詐、金融機(jī)構(gòu)欺詐、抵押欺詐等。鑒于美國和中概股欺詐公司帶來的慘痛教訓(xùn),公司欺詐識別引來多方關(guān)注。在1997年至2008年期間發(fā)表的49篇有關(guān)金融欺詐識別的文章中,34.75%研究的是關(guān)于公司欺詐的,這是本研究也以公司欺詐作為研究目標(biāo)的原因之一。此外,公司欺詐可以通過財(cái)務(wù)報(bào)表反映出來,因而有充足的數(shù)據(jù),這是本文研究公司欺詐的原因之二
3、。
本研究希望提出新的方法來幫助研究人員和財(cái)務(wù)專家更好的識別金融欺詐。
鑒于財(cái)務(wù)報(bào)表中大部分的內(nèi)容是文本,利用文本挖掘技術(shù)來識別財(cái)務(wù)欺詐的研究依然處于早期階段,現(xiàn)有提取的語言學(xué)特征還有許多問題。下面就現(xiàn)有研究的不足之處提出相應(yīng)的研究問題。
(1)從財(cái)報(bào)的文本中提取的語言學(xué)特征受限于自然語言的復(fù)雜性和模糊性。由于這些語言學(xué)特征的提取需要事先定義,因而不能提取文本的某些潛在特征。另外,現(xiàn)有的語言學(xué)特征多是詞頻統(tǒng)
4、計(jì),詞與詞之間的依賴關(guān)系并沒有被考慮。因此,本文的第一個(gè)研究問題是如何自動(dòng)提取財(cái)報(bào)中的語言學(xué)特征,并且將詞的依賴關(guān)系提取出來。
(2)現(xiàn)有研究基于不同的語言學(xué)和心理學(xué)理論從財(cái)報(bào)的文本中提取了一系列的語言學(xué)特征,然而卻缺少一套專門用于財(cái)報(bào)文本分析和特征提取的指南。因此,本文的第二個(gè)研究問題就是如何設(shè)計(jì)一個(gè)系統(tǒng)的理論性的文本分析框架來指導(dǎo)財(cái)務(wù)欺詐的識別。
(3)現(xiàn)有公司欺詐識別文獻(xiàn)都一成不變的使用財(cái)報(bào)中的數(shù)值和文本來做識
5、別,然而財(cái)報(bào)中的內(nèi)容本質(zhì)上都反映過去的信息,并且僅僅看財(cái)報(bào)無法知道投資人對公司的看法。鑒于金融社交媒體平臺上有大量關(guān)于公司財(cái)務(wù)和運(yùn)營狀況的討論和交流,本文探索金融社交媒體的內(nèi)容是否能用來識別公司欺詐,那么如何通過分析非結(jié)構(gòu)化的社交媒體內(nèi)容來識別財(cái)務(wù)欺詐是本文要解決的第三個(gè)問題。
針對這三大研究問題,本文對應(yīng)設(shè)計(jì)了三個(gè)研究。
研究一建立一個(gè)集成的語言模型來識別財(cái)務(wù)報(bào)表中的欺詐性語言。首先,統(tǒng)計(jì)語言模型通常被用來估計(jì)一段
6、文本出現(xiàn)的概率,在本文中這個(gè)方法被用來識別財(cái)報(bào)中欺詐性語言的策略性使用。統(tǒng)計(jì)語言模型比現(xiàn)有的基于語言學(xué)特征的方法至少在以下兩點(diǎn)有優(yōu)勢。一是不需要提前定義特征,這往往耗時(shí)耗力;二是統(tǒng)計(jì)語言模型能自動(dòng)建模自然語言中詞匯的依賴關(guān)系。然而統(tǒng)計(jì)語言模型本身的一個(gè)不足之處是無法獲取一長段文本之間的關(guān)聯(lián)信息。為了克服這個(gè)問題,本文為統(tǒng)計(jì)語言模型引入一種能夠計(jì)算文檔相似性的潛在語義分析方法。該潛在語義分析方法能夠提取語義特征從而將欺詐樣本和非欺詐樣本區(qū)
7、分開。
研究一的理論貢獻(xiàn)在于提出了一個(gè)集成語言模型來識別財(cái)報(bào)中的欺詐性語言。通過集成潛在語義方法,本文克服了統(tǒng)計(jì)語言模型不能獲取長跨度文字信息的缺點(diǎn),而且又使得統(tǒng)計(jì)語言模型具備提取語義特征的能力,同時(shí)有著兩個(gè)方法的優(yōu)點(diǎn)。通過對海外上市的中國公司數(shù)據(jù)分析發(fā)現(xiàn),本文新提出的集成語言模型對財(cái)務(wù)欺詐識別準(zhǔn)確率比兩個(gè)方法都高。
研究二基于系統(tǒng)性功能語言理論開發(fā)了一套用來識別財(cái)報(bào)中管理層欺詐性語言的文本分析框架。系統(tǒng)性功能語言理
8、論指出語言是帶有目的性的,能夠通過措辭為語言使用者達(dá)到一定目的。那么利用這套理論反過來有助于我們理解欺詐性消息中的策略性語言使用。該理論有三個(gè)功能模塊,概念功能、人際功能和語篇功能。在該研究中這三個(gè)功能模塊被分解為七種信息類型,即話題、意見、情感、情態(tài)、人稱代詞、寫作風(fēng)格、題材。同時(shí),該文本分析框架整合了潛在狄利克雷分布模型、計(jì)算語言學(xué)、詞頻-逆文檔頻率方法,可以為所有信息類型提取詞級以及文檔級的特征。所有的特征都被用作一個(gè)線性支持向量
9、機(jī)分類器的輸入。通過對1610個(gè)美國上市公司年報(bào)樣本的欺詐風(fēng)險(xiǎn)評估,該分析框架在十折交叉驗(yàn)證下的平均預(yù)測準(zhǔn)確率達(dá)82.36%,比采用金融指標(biāo)的計(jì)算方法效果更好。
研究二的理論貢獻(xiàn)在于將系統(tǒng)性功能語言理論引入到財(cái)務(wù)欺詐識別領(lǐng)域,并且設(shè)計(jì)了一套用于欺詐識別的嚴(yán)格的特征選擇過程,這也是文獻(xiàn)中首次提出的系統(tǒng)性的特征集。本文對財(cái)務(wù)欺詐識別研究提了七類構(gòu)念,即話題、意見、情感、情態(tài)、人稱代詞、寫作風(fēng)格、題材。另外,本文基于潛在狄利克雷分布
10、模型、計(jì)算語言學(xué)、詞頻-逆文檔頻率方法提出了一個(gè)新的信息系統(tǒng)工具來識別財(cái)務(wù)欺詐。
研究三首次利用金融社交平臺上的大量用戶生成的內(nèi)容來識別公司財(cái)務(wù)欺詐。金融社交媒體平臺上有大量的知識貢獻(xiàn)者和信息分享者,他們產(chǎn)生大量的關(guān)于公司財(cái)務(wù)和運(yùn)營狀況的討論和交流。鑒于社交媒體信息是及時(shí)的、動(dòng)態(tài)的、交互的并且快速更新的,本文認(rèn)為社交媒體的這些特點(diǎn)將極大的縮減欺詐識別滯后的問題。以網(wǎng)秦移動(dòng)(一家中國的手機(jī)安全公司)為例,渾水公司(一家做空公司)
11、在2013年10月24日發(fā)布了針對網(wǎng)秦移動(dòng)的一份調(diào)研報(bào)告,認(rèn)為該公司是徹頭徹尾的欺詐。這個(gè)報(bào)告一發(fā)出當(dāng)晚就導(dǎo)致網(wǎng)秦的股價(jià)大跌了47%。然而有人發(fā)現(xiàn)早在2013年初,即在網(wǎng)秦移動(dòng)被爆有欺詐的前半年,在雪球網(wǎng)(一個(gè)中國金融社交媒體平臺)上有用戶發(fā)布了一系列的分析報(bào)告質(zhì)疑并認(rèn)為網(wǎng)秦移動(dòng)有欺詐行為。這個(gè)案例說明社交媒體平臺上產(chǎn)生的用戶分析數(shù)據(jù)有助于在公司欺詐被正式公開曝光前提前識別公司欺詐行為。鑒于社交媒體平臺上都是非結(jié)構(gòu)化的數(shù)據(jù),本文基于文本
12、挖掘和信息檢索的理論和方法,提出一個(gè)能夠把社交媒體平臺上非結(jié)構(gòu)化數(shù)據(jù)解析成單詞權(quán)重特征、話題特征、情感特征以及社交網(wǎng)絡(luò)結(jié)構(gòu)特征的新型文本分析框架。
研究三從SeekingAlpha這個(gè)金融投資平臺上獲取公司的數(shù)據(jù),并設(shè)計(jì)了兩個(gè)子研究。首先,本文挑選了149家欺詐公司和149家非欺詐公司在該平臺上的所有數(shù)據(jù),包括分析師的報(bào)告、新聞報(bào)告和公眾討論數(shù)據(jù)。本文采用支持向量機(jī)分類器和十折交叉驗(yàn)證,發(fā)現(xiàn)樣本分類準(zhǔn)確率達(dá)64.66%。這個(gè)結(jié)
13、果比隨機(jī)猜測準(zhǔn)確率高,在某種程度上說明了社交媒體的內(nèi)容中包含了一些有助于識別欺詐的潛在特征。接著我們測試社交媒體特征對公司欺詐的提前預(yù)測能力。本文僅僅使用64個(gè)欺詐公司樣本和64個(gè)非欺詐公司樣本在欺詐曝光之前金融社交平臺上的數(shù)據(jù),通過支持向量機(jī)分類器在十折交叉驗(yàn)證下的樣本平均分類準(zhǔn)確率達(dá)到75.5%。結(jié)果表明社交媒體內(nèi)容對金融財(cái)務(wù)欺詐預(yù)測有超前效應(yīng)。同時(shí),本文在支持向量機(jī)模型中提出欺詐概率指標(biāo),反映一家公司出現(xiàn)財(cái)務(wù)欺詐的概率。鑒于實(shí)際中
14、非欺詐公司的數(shù)量要比欺詐公司多,本文在樣本集中逐步增加非欺詐公司數(shù)量,發(fā)現(xiàn)當(dāng)非欺詐公司數(shù)量增加時(shí)識別準(zhǔn)確率會上升。該分析框架比采用金融指標(biāo)的計(jì)算方法效果更好,也表明社交媒體特征可以作為現(xiàn)有財(cái)務(wù)欺詐識別方法的一個(gè)補(bǔ)充。
研究三的理論貢獻(xiàn)在于首次將金融社交媒體用于欺詐識別,并將非結(jié)構(gòu)化的社交媒體內(nèi)容分解為詞匯權(quán)重特征、話題特征、情感相關(guān)特征和社交網(wǎng)絡(luò)特征,從而將社交媒體內(nèi)容變成了機(jī)器可處理的格式。并且本研究首次驗(yàn)證了金融社交媒體內(nèi)
15、容對欺詐識別存在提前效應(yīng),說明了基于社交媒體的識別方法可以作為現(xiàn)有基于財(cái)務(wù)指標(biāo)識別方法的一個(gè)有效補(bǔ)充。
概括地說,本文開發(fā)了三個(gè)用于公司財(cái)務(wù)欺詐識別的信息系統(tǒng)工具。一是用于財(cái)務(wù)報(bào)表文本分類的統(tǒng)計(jì)語言方法;二是能夠提取用于欺詐識別的有效特征的理論框架;三是可以分解非結(jié)構(gòu)化社交媒體內(nèi)容用于欺詐識別的分析框架。本文總的創(chuàng)新點(diǎn)在于:(1)現(xiàn)有的上市公司財(cái)務(wù)欺詐識別方法通常局限于對財(cái)務(wù)報(bào)告中的數(shù)值指標(biāo)進(jìn)行分析,本文使用自然語言處理技術(shù)對
16、財(cái)務(wù)報(bào)告中的文本進(jìn)行分析并挖掘出有用的指標(biāo)用于欺詐公司識別;并且首次基于系統(tǒng)性功能語言理論提出了一個(gè)最為系統(tǒng)性、全面的專用于公司欺詐識別的指標(biāo)集;本文提出了新的財(cái)報(bào)文本分析方法,比現(xiàn)有的基于財(cái)務(wù)指標(biāo)的方法準(zhǔn)確率高;(2)鑒于社交媒體對欺詐披露的作用越來越明顯,本文抓取一主流金融社交媒體平臺數(shù)據(jù),首次采用文本挖掘技術(shù)從非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)中提取結(jié)構(gòu)化的量化指標(biāo),并取得很好的識別準(zhǔn)確率;并且本文發(fā)現(xiàn)金融社交媒體內(nèi)容對識別欺詐有著領(lǐng)先效應(yīng),社交
17、媒體內(nèi)容可以作為現(xiàn)有基于財(cái)務(wù)指標(biāo)識別方法的一個(gè)補(bǔ)充。
本文的研究成果也具備一定的實(shí)踐指導(dǎo)意義,當(dāng)前公司欺詐識別的滯后問題會得到緩解,由公司欺詐丑聞帶來的對大規(guī)模股東的重大損失以及對金融系統(tǒng)的擾動(dòng)將得到提前預(yù)測和阻止。本研究對于市場監(jiān)管者、政策制定者、審計(jì)師以及投資人有重大幫助。投資人,包括個(gè)人、機(jī)構(gòu)投資者和評級機(jī)構(gòu)等,由于無法接觸和獲取到公司內(nèi)部信息,往往易受到誤導(dǎo)性財(cái)報(bào)的影響。本研究的預(yù)測方法有助于讓他們提前掌握所投資的公司
18、的財(cái)務(wù)風(fēng)險(xiǎn),做出更好的投資決策,從而保證收益,規(guī)避風(fēng)險(xiǎn)。對于審計(jì)師來說,本文的方法可自動(dòng)評估所審計(jì)的財(cái)報(bào)的風(fēng)險(xiǎn),從而提前杜絕有欺詐嫌疑的報(bào)告流向公眾。對于市場監(jiān)管者來說,有效的欺詐識別方法使得他們在投入最小的人力物力基礎(chǔ)上能夠?qū)⒕性谟衅墼p嫌疑的公司上。此外,現(xiàn)有的審計(jì)分析標(biāo)準(zhǔn)SAS56還是三十年前提出的,隨著商務(wù)智能、大數(shù)據(jù)、人工智能技術(shù)逐步應(yīng)用于公司審計(jì),也促使這些條例標(biāo)準(zhǔn)做出修訂。未來的審計(jì)過程應(yīng)更多的關(guān)注對財(cái)報(bào)中的文本分析以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司財(cái)務(wù)報(bào)表的閱讀和分析
- 如何分析公司財(cái)務(wù)報(bào)表
- burberry公司財(cái)務(wù)報(bào)表分析
- 美的公司財(cái)務(wù)報(bào)表分析
- 地產(chǎn)公司財(cái)務(wù)報(bào)表分析
- 騰訊公司財(cái)務(wù)報(bào)表分析
- tcl公司財(cái)務(wù)報(bào)表分析
- D公司財(cái)務(wù)報(bào)表分析.pdf
- 上市公司財(cái)務(wù)報(bào)表欺詐鑒別.pdf
- 上市公司財(cái)務(wù)報(bào)表分析
- 上市公司財(cái)務(wù)報(bào)表分析
- 微軟公司財(cái)務(wù)報(bào)表分析
- 有限公司財(cái)務(wù)報(bào)表分析
- 蘋果公司財(cái)務(wù)報(bào)表分析
- 比亞迪公司財(cái)務(wù)報(bào)表分析論文
- 上市公司財(cái)務(wù)報(bào)表分析
- 上市公司財(cái)務(wù)報(bào)表分析
- 上市公司財(cái)務(wù)報(bào)表的分析
- 煙臺SK公司財(cái)務(wù)報(bào)表分析.pdf
- 公司財(cái)務(wù)報(bào)表分析-財(cái)務(wù)管理開題報(bào)告
評論
0/150
提交評論