關(guān)于本站
人大經(jīng)濟(jì)論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會計、留學(xué)、數(shù)據(jù)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計學(xué)、博弈論、統(tǒng)計年鑒、行業(yè)分析包括等相關(guān)資源。
經(jīng)管之家是國內(nèi)活躍的在線教育咨詢平臺!
經(jīng)管之家新媒體交易平臺
提供"微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點資訊"等虛擬賬號交易,真正實現(xiàn)買賣雙方的共贏!菊堻c擊這里訪問】
TOP熱門關(guān)鍵詞
掃碼加入財會交流群 |
數(shù)據(jù)分析師支招:大數(shù)據(jù)背景下金融產(chǎn)品的購買概率預(yù)測
當(dāng)前社會經(jīng)歷的過程就是數(shù)據(jù)化的過程,并且衣食住行都在逐步數(shù)據(jù)化。服裝品牌公司為了描述自己的服裝而花費巨大,設(shè)計師、模特、燈光、攝影、后期處理、文案表述、數(shù)據(jù)庫、反饋下信息等等。人們出行需要依賴數(shù)據(jù)表達(dá)的地圖,尋找餐館銀行需要依靠數(shù)據(jù)建立的地圖模型。公司決定策略需要詳盡的市場描述,收集巨量的數(shù)據(jù)模擬的模型。借助于物聯(lián)網(wǎng)以及個人設(shè)備;數(shù)據(jù)已經(jīng)成為一種常態(tài)出現(xiàn)在生活中,或許很多人沒意識到而已。而意識到的人就在努力掘金。
本文討論用邏輯回歸模型預(yù)測在金融市場情景下客戶對金融產(chǎn)品的購買概率,以股票購買持倉概率作為研究對象。并探討了TB級百萬特征金融數(shù)據(jù)處理方法。
模型基本假設(shè):客戶每日的持倉,是基于當(dāng)時金融市場情景以及股票屬性作出決策的獨立事件。
該邏輯回歸Logistic Regression模型簡單描述如下:
客戶購買持倉股票概率是指客戶在指定日期購買持有指定股票的概率。表述如下:
http://www.36dsj.com/wp-content/uploads/2016/02/112.png
基礎(chǔ)數(shù)據(jù)請各位不要問我數(shù)據(jù)來源:)
1 客戶數(shù)據(jù)
- 基本特征:
- 客戶交易流水,可提取客戶歷史易特征。
- 客戶交易系統(tǒng)操作記錄,可提取客戶交易系統(tǒng)操作特征.
- 外部客戶數(shù)據(jù),包括客戶畫像其他屬性:信用屬性,消費屬性,興趣愛好,社交信息等,百度的標(biāo)簽體系可為每個人打上24大類,268小類,幾千個標(biāo)簽。
下表為客戶特征:
http://www.36dsj.com/wp-content/uploads/2016/02/42.png
2 股票數(shù)據(jù)
Wind等數(shù)據(jù)提供商提供的股票數(shù)據(jù)包括:基本信息,股本信息,財務(wù),薪酬,關(guān)注度,行情,技術(shù)指標(biāo)等。
新聞信息:目前Wind等數(shù)據(jù)提供商已將新聞主題詞提取并關(guān)聯(lián)相關(guān)股票,還給出了正負(fù)效應(yīng)。
3 市場數(shù)據(jù)
Wind等數(shù)據(jù)提供商提供的市場數(shù)據(jù)包括:利率,匯率,財政,價格指數(shù),國內(nèi)外貿(mào)易,景氣指數(shù)以及新聞等。
4 客戶購買記錄
客戶過去一年每日持倉記錄。
數(shù)據(jù)處理與模型實施數(shù)據(jù)量預(yù)估
- 樣本數(shù):
假設(shè)客戶數(shù)為1000萬,目前A股有2800多股票,取過去1年購買記錄為樣例,大約是250天,那么產(chǎn)生的樣本數(shù)為大約7萬億,但只需記錄持倉信息,假設(shè)人均10只股票,那么需存儲的記錄大約為250億條。負(fù)樣本不用存儲,在模型計算時產(chǎn)生。
- 特征數(shù):
客戶特征關(guān)聯(lián)股票特征再關(guān)聯(lián)市場特征,將產(chǎn)生百萬維以上特征,特征稀疏。
250億條百萬維稀疏矩陣,大約是幾十TB。估計需50臺普通PC服務(wù)器的Hadoop/Spark集群,可滿足數(shù)據(jù)處理和特征提取。對TB級百萬特征邏輯回歸模型運算,我嘗試過國內(nèi)廠商基于Spark的平臺,可以支持。另一條路是針對這個大規(guī)模機(jī)器學(xué)習(xí)的具體問題定制優(yōu)化。我也試用過國內(nèi)一家新興大數(shù)據(jù)公司第四范式公司的數(shù)據(jù)建模產(chǎn)品,他們對高維稀疏矩陣做了深度定制與優(yōu)化,僅在10臺普通PC服務(wù)器就可以處理該數(shù)據(jù)量級別邏輯回歸運算。
金融特征提取
由于我們將每日交易行為作為獨立事件。既假設(shè)股票特征,市場特征在樣本中都是獨立的,而我們在做交易決定時可能更關(guān)心特征在指定區(qū)間內(nèi)的變化如股票中技術(shù)指標(biāo)等。所以市場數(shù)據(jù)以及其他股票數(shù)據(jù)也需要將變化趨勢轉(zhuǎn)換為特征,如變化率,以及以漲跌標(biāo)記變化趨勢,如+代表漲-代表跌,++–表示過去四個周期的一種變化趨勢。
由于二級市場企業(yè)公告的時間周期為季,宏觀市場指標(biāo)有月也有年,而新聞的時間頻率可以為秒,并且客戶特征也是隨著時間變化的。將不同時間周期的數(shù)據(jù)統(tǒng)一歸結(jié)為按日期的特征必須處理有大量數(shù)據(jù)。從而可以保證,樣本是指定客戶在其當(dāng)時的特征下,根據(jù)當(dāng)時的市場特征以及股票特征做出的購買持倉決定。
模型效果評估
這是我很迷惑的部分,這么高維度的特征數(shù)據(jù),如何根據(jù)需求判斷不同參數(shù)的結(jié)果優(yōu)劣。一般評估模型效果都是用AUC (Area under the Curve of ROC) ROC曲線下面積, ROC為接收者操作特征曲線(Receiver Operating Characteristic Curve)。
而我們實際會選擇排序列表作為推薦名單,這時,閥值Threshold的選取就很重要。一些商業(yè)的產(chǎn)品會使用其他參數(shù)來評估。每當(dāng)看到AUC莫名的增長,總是讓人喜悅的,雖然有時會發(fā)現(xiàn)是由于數(shù)據(jù)處理錯誤導(dǎo)致的:
實踐中,我們完全可以用模型預(yù)測過去一段時期的購買持倉,并和實際交易數(shù)據(jù)對比。在類似案例中的測試結(jié)果表明,相對于簡單規(guī)則和隨機(jī)預(yù)測,該模型的準(zhǔn)確率可提供10倍以上。這個結(jié)果也是可以預(yù)期的,在高維數(shù)據(jù),不斷迭代局部優(yōu)化,可以捕抓一些長尾特征。如下圖,可以捕捉那些少數(shù)群體特征。
http://www.36dsj.com/wp-content/uploads/2016/02/32.png
總結(jié)本文討論用邏輯回歸模型預(yù)測在金融市場情景下客戶對指定金融產(chǎn)品的購買概率。認(rèn)為可以假設(shè)客戶每日的持倉,是基于當(dāng)時金融市場情景以及金融產(chǎn)品屬性作出決策的獨立事件。從而可以在客戶特征,金融產(chǎn)品特征以及市場特征三個方面關(guān)聯(lián)作為樣本數(shù)據(jù),并以當(dāng)日購買持倉為標(biāo)記使用邏輯回歸做預(yù)測。另外本文還探討了TB級百萬特征金融數(shù)據(jù)處理的一些方法與經(jīng)驗。
可能的應(yīng)用場景,該模型方法可應(yīng)用于金融產(chǎn)品推薦。
也許有人會疑惑該模型的商業(yè)價值,但難道您就沒看到該模型是在沿著行為金融學(xué)基本問題“基于有限理性的金融資產(chǎn)預(yù)期定價問題” [1]向著“看不見的手”發(fā)起挑戰(zhàn)嗎?
假設(shè)我們可以將人的金融需求特征完成特量化,又將股票特征量化,結(jié)合當(dāng)時市場場景,自動撮合交易。想象下,多么美好,再也沒有泡沫與股災(zāi)。
在Matrix(黑客帝國中的主機(jī))中一切皆有定數(shù)。
以上言論純屬YY,人的行為當(dāng)然不能完全量化:)
免流量費下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟(jì)、管理、金融投資、計量統(tǒng)計、數(shù)據(jù)分析、國貿(mào)、財會等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達(dá)人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟(jì)論壇),跨越高校的圍墻,帶你走進(jìn)經(jīng)管知識的新世界。
掃描下方二維碼下載并注冊APP
本文論壇網(wǎng)址:http://xalimeijing.com/thread-4473346-1-1.html
您可能感興趣的文章
人氣文章
本文標(biāo)題:數(shù)據(jù)分析師支招:大數(shù)據(jù)背景下金融產(chǎn)品的購買概率預(yù)測
本文鏈接網(wǎng)址:http://xalimeijing.com/jg/qikan_qikanku_4473346_1.html
2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,本站對該文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性,不作出任何保證或承若;
3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請作者及時聯(lián)系本站,我們會及時處理。