五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

<center id="8gusu"></center><rt id="8gusu"></rt><menu id="8gusu"><small id="8gusu"></small></menu>

<dd id="8gusu"><s id="8gusu"></s></dd>

簽到
- 蘋果/安卓/wp
- 蘋果/安卓/wp
客戶端
0.0

0.00

人大經(jīng)濟論壇 › 論壇 › 計量經(jīng)濟學(xué)與統(tǒng)計論壇五區(qū) › 計量經(jīng)濟學(xué)與統(tǒng)計軟件 › 8個案例讓數(shù)據(jù)不再撒謊

CDA數(shù)據(jù)分析研究院

商業(yè)數(shù)據(jù)分析與大數(shù)據(jù)領(lǐng)航教育品牌



經(jīng)管云課堂

經(jīng)管/金融/財會/社科/名師公開課



學(xué)術(shù)培訓(xùn)

Stata 空間計量 SSCI Python

貴賓：通行論壇特權(quán)+數(shù)據(jù)庫權(quán)限
+案例庫+下載特權(quán) VIP：論壇特權(quán)+更多下載次數(shù)
+ccerdata數(shù)據(jù)庫+更高閱讀權(quán)限+……

提升主題| 本版置頂| 關(guān)閉主題| 變更主題顏色| 搶沙發(fā)| 頂貼| 顯身卡| 道具中心

樓主: 胖胖小龜寶

2288 6

8個案例讓數(shù)據(jù)不再撒謊 [推廣有獎]

8關(guān)注
1099
粉絲

大師

21%

還不是VIP/貴賓

-

TA的文庫 其他...

龜寶的檔案室

0%

威望: 3 級
論壇幣: 793110 個
通用積分: 22161.1300
學(xué)術(shù)水平: 2211 點
熱心指數(shù): 2133 點
信用等級: 1424 點
經(jīng)驗: 983764 點
帖子: 9998
精華: 25
在線時間: 4757 小時
注冊時間: 2012-7-27
最后登錄: 2020-12-21

樓主

胖胖小龜寶 發(fā)表于 2014-10-12 14:22:45 |只看作者 |壇友微信交流群|倒序 |AI寫論文

是否 +2 論壇幣

k人參與回答

經(jīng)管之家送您一份

應(yīng)屆畢業(yè)生專屬福利!

求職就業(yè)群

趙安豆老師微信：zhaoandou666

經(jīng)管之家聯(lián)合CDA

送您一個全額獎學(xué)金名額~ !

立即領(lǐng)取

感謝您參與論壇問題回答

經(jīng)管之家送您兩個論壇幣！

+2 論壇幣

最近關(guān)于數(shù)據(jù)造假的評論很多,數(shù)據(jù)說謊的情況有兩種,一種是出于某種目的,人為的將公示的數(shù)據(jù)注入一些水分;另一種“假”則是因為對業(yè)務(wù)不了解或經(jīng)驗的不足而在數(shù)據(jù)解讀上的一種誤讀。什么被平均啊，什么統(tǒng)計局這些都是老生常談的案例，EC數(shù)據(jù)分析網(wǎng)重新收錄整理了一些案例供大家參考。

【案例一】通過可控的客戶端采樣監(jiān)測，得到了一定樣本的，包含google搜索url特征的日志記錄，得到google的搜索量；同樣的樣本下，采集到包含google adwords廣告url特征的日志記錄，得到google的廣告點擊數(shù)。那么，理所當然&一廂情愿的用點擊數(shù)/搜索量，得到點擊率。但是，這個點擊率是顯著錯誤的，理由是，google的adwords廣告點擊，并不只發(fā)生在google的搜索結(jié)果中！當時的情況是，點擊率被高估了一倍。（其實已經(jīng)區(qū)分了adsense和adwords廣告點擊的url特征，但是adwords也會出現(xiàn)在其他網(wǎng)站）
對數(shù)據(jù)邏輯及相互關(guān)系的理解不透徹，就會帶來錯誤的解讀。
【案例二】某同事，名校計算機博士，算法達人，做了一條曲線，A和B高度相關(guān)，得到結(jié)論，A會導(dǎo)致B，看一眼結(jié)論我就罵人了，狗屎結(jié)論，實際上是A和B均受C的影響，所謂高度相關(guān)是C的因素帶來的，這是只看數(shù)據(jù)不懂業(yè)務(wù)的典型。
這個不僅僅是不懂業(yè)務(wù)的典型，統(tǒng)計基礎(chǔ)也不牢靠，親，這個時候該試試偏相關(guān)系數(shù)。

【案例三】樣本偏差，特典型的就是沉默的大多數(shù)現(xiàn)象，簡單舉例，去IT論壇，發(fā)個投票，百度好不好，騰訊好不好，多數(shù)人會說不好。但是真正的用戶是不會去IT論壇，更不會參與這種無聊的投票；所以這種投票得到的結(jié)論，你要真信，你就傻了。此外，還有比如送禮品的票選，喜歡這種禮品的用戶，本身就有傾向性，如果票選內(nèi)容與禮品有關(guān)，那么結(jié)論顯然是不可靠的。
諸如此類投票數(shù)據(jù)娛樂成分居多，而對于樣本偏差和偏好性的問題都是在問卷調(diào)查中明確需要規(guī)避的問題。

【案例四】有人提到預(yù)測未來，補充一點，就是用戶不知道自己的未來。這也是普遍做樣本調(diào)查容易產(chǎn)生的誤區(qū)。如果時間前溯10年，你問一個用戶，你會去買蘋果手機嗎？他肯定會說，你是不是瘋了。但是當真的很酷的蘋果手機放到他手上，他才會有感覺。這是有真實案例的，十幾年前，手機還叫大哥大，還是大款們才特有的玩物，真有調(diào)查公司跑到路邊采訪行人，說你需要買手機嗎，行人紛紛表示不需要。他們不知道這玩意對他們?nèi)松母淖冇卸啻蟆?0年前，又有類似的事情，上網(wǎng)當時被認為是不務(wù)正業(yè)的表現(xiàn)，報紙媒體開始憂心忡忡年輕人的網(wǎng)癮和被網(wǎng)絡(luò)的傷害；然后又有媒體去采訪，很多人表示，上不上網(wǎng)無所謂。這些都是當年一些新聞電視里出現(xiàn)過的典型場景。如果你相信，你就真完了。
這里的問題是，用戶不能預(yù)知技術(shù)的發(fā)展和對人類群體乃至自身的改變；當然，有的人能看到，1997年，還在讀書，我一直糾結(jié)大學(xué)畢業(yè)能做什么，第一次接觸到了互聯(lián)網(wǎng)，我堅定，這是改變?nèi)祟惖臇|西，這是我一輩子的職業(yè)。
這個案例涉及的問題就有點多了，一是統(tǒng)計時效性的問題，拿10年前的觀念和今天的觀念對比明顯就不合適了，二是統(tǒng)計環(huán)境的變化會對預(yù)測結(jié)果產(chǎn)生很大的差異，不在同一參照系內(nèi)的對比是毫無意義的。
【案例五】來自斯坦福講義里的一個簡單例子（plato.stanford.edu/entries…）。某大學(xué)歷史系和地理系招生，共有13男13女報名。
                                                                              Men    Women
                                                      History          1/5 < 2/8
                                                   Geography       6/8 < 4/5
                                                   University       7/13 > 6/13
歷史系5男報名錄取1男，8女報名錄取2女。地理系8男報名錄取6男，5女報名錄取4女。分析數(shù)據(jù)，會發(fā)現(xiàn)以下問題：
1）整個學(xué)校統(tǒng)計，男生錄取率（7/13）高于女生錄取率（6/13）。
2）但是，按系統(tǒng)計，每個系的女生的錄取率卻都高于男生錄取率。歷史系女生的錄取率（2/8）大于男生錄取率（1/5）。地理系女生錄取率（4/5）也高于男生錄取率（6/8）
這個案例應(yīng)該叫數(shù)據(jù)錯覺或許更好些，和之前流傳較廣的找零錢的交易類似，“分母”很重要。
【案例六】一個例子是當年Firefox用戶與Mac用戶對支付寶重要與否，單從瀏覽器數(shù)據(jù)統(tǒng)計看，F(xiàn)irefox訪問支付寶的比例太低了。不過因為支付寶不支持Firefox，所以，這個比例不能用作判斷的依據(jù)。Mac用戶也是一樣。再說一個，支付寶當年代繳水電煤的項目改版之后，發(fā)現(xiàn)繳費用戶立刻暴增，產(chǎn)品人員欣喜若狂，后來白鴉同學(xué)分析一下，哦，原來那幾天是每個月水電煤繳費高峰期，周期性的抽風(fēng)。
背景性問題，常識性問題，周期性問題、行業(yè)性問題….又回到了“掃地大媽”的傳奇中，不解釋！

【案例七】選取音樂電臺用戶的一個子集，共2W人；分成AB兩組，每組1W人；對每一組使用不同的推薦算法。統(tǒng)計在一天內(nèi)每一組的用戶一共點擊了多少次喜歡的按鈕和不喜歡的按鈕。計算每組用戶點擊喜歡的按鈕的比例 = 點擊的喜歡個數(shù)/（點擊喜歡的個數(shù)+點擊不喜歡的個數(shù)）理論上這個值越高，說明這組用戶越滿意，也就說明用在這組上的推薦算法更好。
后來發(fā)現(xiàn)這個結(jié)果沒有統(tǒng)計意義…… 因為有些用戶會一天給出上千個喜歡與不喜歡的反饋，這樣的用戶在AB兩組中的分布決定了最終結(jié)果的好壞。
改進方法是：需要去除這些噪音點，或者使用其他的統(tǒng)計值。我們還針對AB兩組用戶分別統(tǒng)計了：平均每個用戶每天點擊喜歡的音樂的個數(shù)。按理說，這個個數(shù)越高，說明推薦算法越好�？墒�，我們又針對AB兩組用戶分別統(tǒng)計了：平均每個用戶每天點擊不喜歡的音樂的個數(shù)。按理說，這個個數(shù)越高，說明推薦算法越差。結(jié)果，發(fā)現(xiàn)在很多情況下，第一個個數(shù)高的算法，第二個個數(shù)也高。于是，使用單一指標也許不能很好的刻畫一個算法。改進方法是：使用更多的指標來進行刻畫，具體問題具體分析，尋找背后的原因。
現(xiàn)在建立了另外一套評估模型，具體效果正在評測中。我的建議是，把眼界放寬，從多個維度、多個角度、多個層次來看數(shù)據(jù)。把分析問題的原因作為目標，不斷的改進自己的評估參數(shù)和方案。
【案例八】游戲中對很多內(nèi)容或操作做數(shù)據(jù)監(jiān)控，然后通過分析數(shù)據(jù)的提高還是降低，去判斷用戶對該內(nèi)容的喜歡程度。但是單獨看數(shù)據(jù)的提高和降低是沒有意義的。例如，我們發(fā)現(xiàn)某項物品最近銷售數(shù)據(jù)在下滑，我們可能就會下結(jié)論：這個物品受歡迎程度在下降。但這個結(jié)論是不準確的，必須結(jié)合著其他的數(shù)據(jù)一塊看，例如DAU。
如果DAU在下降，那么該物品的銷售隨之下降是正常的，如果結(jié)合著比例來看，有可能會發(fā)現(xiàn)雖然銷售數(shù)據(jù)在下降，但是比例數(shù)據(jù)（即銷售數(shù)/DAU）是在上升的。這樣會明白，其實該物品的受歡迎程度并沒有下降了，而是DAU下降了。而在DAU下降的同時，銷售比例在上升，其實該物品的受歡迎程度反倒是提高了。
和前面很多案例一樣，都是單點看問題，這樣往往得到的是以點蓋面的結(jié)論。

二維碼

掃碼加我拉你入群

請注明：姓名-公司-職位

以便審核進群資格，未注明則拒絕

分享0 收藏4 回帖

關(guān)鍵詞：Google搜索 stanford AdWords Adsense History 統(tǒng)計學(xué) 數(shù)據(jù) 分析數(shù)據(jù)欺騙

相關(guān)帖子

回帖推薦

Jeanchy 發(fā)表于5樓查看完整內(nèi)容

數(shù)據(jù)給了我們很多假象，統(tǒng)計有時在欺騙我們，但我們要清醒，仍需要用統(tǒng)計方法看到事物本質(zhì)！

本帖被以下文庫推薦

· 龜寶的檔案室|主題: 153, 訂閱: 257

回復(fù)

使用道具舉報

沙發(fā)

ZHC19811026 發(fā)表于 2014-10-12 14:40:07 |只看作者 |壇友微信交流群

有點意思。

回復(fù)

使用道具舉報

藤椅

揚帆啟航2014 發(fā)表于 2014-10-12 15:20:05 來自手機 |只看作者 |壇友微信交流群

胖胖小龜寶發(fā)表于 2014-10-12 14:22
最近關(guān)于數(shù)據(jù)造假的評論很多,數(shù)據(jù)說謊的情況有兩種,一種是出于某種目的,人為的將公示的數(shù)據(jù)注入一些水分;另 ...

處處都是偽回歸的應(yīng)用

回復(fù)

使用道具舉報

板凳

gaojianwqjk 發(fā)表于 2014-10-12 18:50:58 |只看作者 |壇友微信交流群

回復(fù)

使用道具舉報

報紙

在職認證

發(fā)表于 2014-10-13 08:25:59 |只看作者 |壇友微信交流群

數(shù)據(jù)給了我們很多假象，統(tǒng)計有時在欺騙我們，但我們要清醒，仍需要用統(tǒng)計方法看到事物本質(zhì)！

已有 1 人評分	論壇幣	學(xué)術(shù)水平	熱心指數(shù)	收起理由
胖胖小龜寶	+ 5	+ 1	+ 1	精彩帖子

總評分: 論壇幣 + 5 學(xué)術(shù)水平 + 1 熱心指數(shù) + 1 查看全部評分

回復(fù)

使用道具舉報

地板

在職認證

發(fā)表于 2014-10-13 13:45:40 |只看作者 |壇友微信交流群

都說有圖有真相，現(xiàn)在數(shù)據(jù)要考辨別了

回復(fù)

使用道具舉報

7樓

wuya100 發(fā)表于 2014-11-11 16:59:44 |只看作者 |壇友微信交流群

謝謝分享！�。。。。�！

回復(fù)

使用道具舉報

本版微信群

加好友,備注jltj
拉您入交流群

文房思寶

推廣員渠道開啟
次卡算粒免費用
代理分成可提現(xiàn)

如有投資本站、合作意向或投放廣告，請聯(lián)系：13661292478（劉老師）

聯(lián)系客服

郵箱：service@pinggu.org 投訴或不良信息處理：（010-68466864）

京ICP備16021002-2號京B2-20170662號京公網(wǎng)安備 11010802022788號論壇法律顧問：王進律師知識產(chǎn)權(quán)保護聲明免責(zé)及隱私聲明