五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>
    樓主: 胖胖小龜寶
    2285 6

    8個(gè)案例讓數(shù)據(jù)不再撒謊 [推廣有獎(jiǎng)]

    • 8關(guān)注
    • 粉絲

    大師

    21%

    還不是VIP/貴賓

    -

    TA的文庫  其他...

    龜寶的檔案室

    威望
    3 級(jí)
    論壇幣
    793110 個(gè)
    通用積分
    22161.1300
    學(xué)術(shù)水平
    2211 點(diǎn)
    熱心指數(shù)
    2133 點(diǎn)
    信用等級(jí)
    1424 點(diǎn)
    經(jīng)驗(yàn)
    983644 點(diǎn)
    帖子
    9998
    精華
    25
    在線時(shí)間
    4757 小時(shí)
    注冊(cè)時(shí)間
    2012-7-27
    最后登錄
    2020-12-21

    +2 論壇幣
    k人 參與回答

    經(jīng)管之家送您一份

    應(yīng)屆畢業(yè)生專屬福利!

    求職就業(yè)群
    趙安豆老師微信:zhaoandou666

    經(jīng)管之家聯(lián)合CDA

    送您一個(gè)全額獎(jiǎng)學(xué)金名額~ !

    感謝您參與論壇問題回答

    經(jīng)管之家送您兩個(gè)論壇幣!

    +2 論壇幣
    最近關(guān)于數(shù)據(jù)造假的評(píng)論很多,數(shù)據(jù)說謊的情況有兩種,一種是出于某種目的,人為的將公示的數(shù)據(jù)注入一些水分;另一種“假”則是因?yàn)閷?duì)業(yè)務(wù)不了解或經(jīng)驗(yàn)的不足而在數(shù)據(jù)解讀上的一種誤讀。什么被平均啊,什么統(tǒng)計(jì)局這些都是老生常談的案例,EC數(shù)據(jù)分析網(wǎng)重新收錄整理了一些案例供大家參考。


    【案例一】通過可控的客戶端采樣監(jiān)測(cè),得到了一定樣本的,包含google搜索url特征的日志記錄,得到google的搜索量;同樣的樣本下,采集到包含google adwords廣告url特征的日志記錄,得到google的廣告點(diǎn)擊數(shù)。 那么,理所當(dāng)然&一廂情愿的 用點(diǎn)擊數(shù)/搜索量,得到點(diǎn)擊率。 但是,這個(gè)點(diǎn)擊率是顯著錯(cuò)誤的,理由是,google的adwords廣告點(diǎn)擊,并不只發(fā)生在google的搜索結(jié)果中! 當(dāng)時(shí)的情況是,點(diǎn)擊率被高估了一倍。(其實(shí)已經(jīng)區(qū)分了adsense和adwords廣告點(diǎn)擊的url特征,但是adwords也會(huì)出現(xiàn)在其他網(wǎng)站)
    對(duì)數(shù)據(jù)邏輯及相互關(guān)系的理解不透徹,就會(huì)帶來錯(cuò)誤的解讀。
    【案例二】某同事,名校計(jì)算機(jī)博士,算法達(dá)人,做了一條曲線,A和B高度相關(guān),得到結(jié)論,A會(huì)導(dǎo)致B,看一眼結(jié)論我就罵人了,狗屎結(jié)論,實(shí)際上是A和B均受C的影響,所謂高度相關(guān)是C的因素帶來的,這是只看數(shù)據(jù)不懂業(yè)務(wù)的典型。
    這個(gè)不僅僅是不懂業(yè)務(wù)的典型,統(tǒng)計(jì)基礎(chǔ)也不牢靠,親,這個(gè)時(shí)候該試試偏相關(guān)系數(shù)。


    【案例三】樣本偏差,特典型的就是沉默的大多數(shù)現(xiàn)象,簡(jiǎn)單舉例,去IT論壇,發(fā)個(gè)投票,百度好不好,騰訊好不好,多數(shù)人會(huì)說不好。但是真正的用戶是不會(huì)去IT論壇,更不會(huì)參與這種無聊的投票;所以這種投票得到的結(jié)論,你要真信,你就傻了。 此外,還有比如送禮品的票選,喜歡這種禮品的用戶,本身就有傾向性,如果票選內(nèi)容與禮品有關(guān),那么結(jié)論顯然是不可靠的。
    諸如此類投票數(shù)據(jù)娛樂成分居多,而對(duì)于樣本偏差和偏好性的問題都是在問卷調(diào)查中明確需要規(guī)避的問題。

    【案例四】有人提到預(yù)測(cè)未來,補(bǔ)充一點(diǎn),就是用戶不知道自己的未來。這也是普遍做樣本調(diào)查容易產(chǎn)生的誤區(qū)。如果時(shí)間前溯10年,你問一個(gè)用戶,你會(huì)去買蘋果手機(jī)嗎?他肯定會(huì)說,你是不是瘋了。但是當(dāng)真的很酷的蘋果手機(jī)放到他手上,他才會(huì)有感覺。 這是有真實(shí)案例的,十幾年前,手機(jī)還叫大哥大,還是大款們才特有的玩物,真有調(diào)查公司跑到路邊采訪行人,說你需要買手機(jī)嗎,行人紛紛表示不需要。他們不知道這玩意對(duì)他們?nèi)松母淖冇卸啻蟆?0年前,又有類似的事情,上網(wǎng)當(dāng)時(shí)被認(rèn)為是不務(wù)正業(yè)的表現(xiàn),報(bào)紙媒體開始憂心忡忡年輕人的網(wǎng)癮和被網(wǎng)絡(luò)的傷害;然后又有媒體去采訪,很多人表示,上不上網(wǎng)無所謂。這些都是當(dāng)年一些新聞電視里出現(xiàn)過的典型場(chǎng)景。如果你相信,你就真完了。
    這里的問題是,用戶不能預(yù)知技術(shù)的發(fā)展和對(duì)人類群體乃至自身的改變;當(dāng)然,有的人能看到,1997年,還在讀書,我一直糾結(jié)大學(xué)畢業(yè)能做什么,第一次接觸到了互聯(lián)網(wǎng),我堅(jiān)定,這是改變?nèi)祟惖臇|西,這是我一輩子的職業(yè)。
    這個(gè)案例涉及的問題就有點(diǎn)多了,一是統(tǒng)計(jì)時(shí)效性的問題,拿10年前的觀念和今天的觀念對(duì)比明顯就不合適了,二是統(tǒng)計(jì)環(huán)境的變化會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生很大的差異,不在同一參照系內(nèi)的對(duì)比是毫無意義的。
    【案例五】來自斯坦福講義里的一個(gè)簡(jiǎn)單例子(plato.stanford.edu/entries…)。某大學(xué)歷史系和地理系招生,共有13男13女報(bào)名。
                                                                                     Men     Women
                                                             History           1/5    <    2/8
                                                         Geography        6/8    <    4/5
                                                          University        7/13   >   6/13
    歷史系5男報(bào)名錄取1男,8女報(bào)名錄取2女。地理系8男報(bào)名錄取6男,5女報(bào)名錄取4女。分析數(shù)據(jù),會(huì)發(fā)現(xiàn)以下問題:
    1)整個(gè)學(xué)校統(tǒng)計(jì),男生錄取率(7/13)高于女生錄取率(6/13)。
    2)但是,按系統(tǒng)計(jì),每個(gè)系的女生的錄取率卻都高于男生錄取率。歷史系女生的錄取率(2/8)大于男生錄取率(1/5)。地理系女生錄取率(4/5)也高于男生錄取率(6/8)
    這個(gè)案例應(yīng)該叫數(shù)據(jù)錯(cuò)覺或許更好些,和之前流傳較廣的找零錢的交易類似,“分母”很重要。
    【案例六】一個(gè)例子是當(dāng)年Firefox用戶與Mac用戶對(duì)支付寶重要與否,單從瀏覽器數(shù)據(jù)統(tǒng)計(jì)看,F(xiàn)irefox訪問支付寶的比例太低了。不過因?yàn)橹Ц秾毑恢С諪irefox,所以,這個(gè)比例不能用作判斷的依據(jù)。Mac用戶也是一樣。再說一個(gè),支付寶當(dāng)年代繳水電煤的項(xiàng)目改版之后,發(fā)現(xiàn)繳費(fèi)用戶立刻暴增,產(chǎn)品人員欣喜若狂,后來白鴉同學(xué)分析一下,哦,原來那幾天是每個(gè)月水電煤繳費(fèi)高峰期,周期性的抽風(fēng)。
    背景性問題,常識(shí)性問題,周期性問題、行業(yè)性問題….又回到了“掃地大媽”的傳奇中,不解釋!

    【案例七】選取音樂電臺(tái)用戶的一個(gè)子集,共2W人;分成AB兩組,每組1W人;對(duì)每一組使用不同的推薦算法。統(tǒng)計(jì)在一天內(nèi)每一組的用戶一共點(diǎn)擊了多少次喜歡的按鈕和不喜歡的按鈕。計(jì)算每組用戶點(diǎn)擊喜歡的按鈕的比例 = 點(diǎn)擊的喜歡個(gè)數(shù)/(點(diǎn)擊喜歡的個(gè)數(shù)+點(diǎn)擊不喜歡的個(gè)數(shù))理論上這個(gè)值越高,說明這組用戶越滿意,也就說明用在這組上的推薦算法更好。
    后來發(fā)現(xiàn)這個(gè)結(jié)果沒有統(tǒng)計(jì)意義…… 因?yàn)橛行┯脩魰?huì)一天給出上千個(gè)喜歡與不喜歡的反饋,這樣的用戶在AB兩組中的分布決定了最終結(jié)果的好壞。
    改進(jìn)方法是:需要去除這些噪音點(diǎn),或者使用其他的統(tǒng)計(jì)值。我們還針對(duì)AB兩組用戶分別統(tǒng)計(jì)了:平均每個(gè)用戶每天點(diǎn)擊喜歡的音樂的個(gè)數(shù)。按理說,這個(gè)個(gè)數(shù)越高,說明推薦算法越好?墒,我們又針對(duì)AB兩組用戶分別統(tǒng)計(jì)了:平均每個(gè)用戶每天點(diǎn)擊不喜歡的音樂的個(gè)數(shù)。按理說,這個(gè)個(gè)數(shù)越高,說明推薦算法越差。結(jié)果,發(fā)現(xiàn)在很多情況下,第一個(gè)個(gè)數(shù)高的算法,第二個(gè)個(gè)數(shù)也高。于是,使用單一指標(biāo)也許不能很好的刻畫一個(gè)算法。改進(jìn)方法是:使用更多的指標(biāo)來進(jìn)行刻畫,具體問題具體分析,尋找背后的原因。
    現(xiàn)在建立了另外一套評(píng)估模型,具體效果正在評(píng)測(cè)中。我的建議是,把眼界放寬,從多個(gè)維度、多個(gè)角度、多個(gè)層次來看數(shù)據(jù)。把分析問題的原因作為目標(biāo),不斷的改進(jìn)自己的評(píng)估參數(shù)和方案。
    【案例八】 游戲中對(duì)很多內(nèi)容或操作做數(shù)據(jù)監(jiān)控,然后通過分析數(shù)據(jù)的提高還是降低,去判斷用戶對(duì)該內(nèi)容的喜歡程度。但是單獨(dú)看數(shù)據(jù)的提高和降低是沒有意義的。例如,我們發(fā)現(xiàn)某項(xiàng)物品最近銷售數(shù)據(jù)在下滑,我們可能就會(huì)下結(jié)論:這個(gè)物品受歡迎程度在下降。但這個(gè)結(jié)論是不準(zhǔn)確的,必須結(jié)合著其他的數(shù)據(jù)一塊看,例如DAU。
    如果DAU在下降,那么該物品的銷售隨之下降是正常的,如果結(jié)合著比例來看,有可能會(huì)發(fā)現(xiàn)雖然銷售數(shù)據(jù)在下降,但是比例數(shù)據(jù)(即銷售數(shù)/DAU)是在上升的。這樣會(huì)明白,其實(shí)該物品的受歡迎程度并沒有下降了,而是DAU下降了。而在DAU下降的同時(shí),銷售比例在上升,其實(shí)該物品的受歡迎程度反倒是提高了。
    和前面很多案例一樣,都是單點(diǎn)看問題,這樣往往得到的是以點(diǎn)蓋面的結(jié)論。

    二維碼

    掃碼加我 拉你入群

    請(qǐng)注明:姓名-公司-職位

    以便審核進(jìn)群資格,未注明則拒絕

    關(guān)鍵詞:Google搜索 stanford AdWords Adsense History 統(tǒng)計(jì)學(xué) 數(shù)據(jù) 分析 數(shù)據(jù)欺騙

    回帖推薦

    Jeanchy 發(fā)表于5樓  查看完整內(nèi)容

    數(shù)據(jù)給了我們很多假象,統(tǒng)計(jì)有時(shí)在欺騙我們,但我們要清醒,仍需要用統(tǒng)計(jì)方法看到事物本質(zhì)!

    本帖被以下文庫推薦

    沙發(fā)
    ZHC19811026 發(fā)表于 2014-10-12 14:40:07 |只看作者 |壇友微信交流群
    有點(diǎn)意思。
    藤椅
    揚(yáng)帆啟航2014 發(fā)表于 2014-10-12 15:20:05 來自手機(jī) |只看作者 |壇友微信交流群
    胖胖小龜寶 發(fā)表于 2014-10-12 14:22
    最近關(guān)于數(shù)據(jù)造假的評(píng)論很多,數(shù)據(jù)說謊的情況有兩種,一種是出于某種目的,人為的將公示的數(shù)據(jù)注入一些水分;另 ...
    處處都是偽回歸的應(yīng)用
    板凳
    gaojianwqjk 發(fā)表于 2014-10-12 18:50:58 |只看作者 |壇友微信交流群
    報(bào)紙
    Jeanchy 在職認(rèn)證  發(fā)表于 2014-10-13 08:25:59 |只看作者 |壇友微信交流群
    數(shù)據(jù)給了我們很多假象,統(tǒng)計(jì)有時(shí)在欺騙我們,但我們要清醒,仍需要用統(tǒng)計(jì)方法看到事物本質(zhì)!
    已有 1 人評(píng)分論壇幣 學(xué)術(shù)水平 熱心指數(shù) 收起 理由
    胖胖小龜寶 + 5 + 1 + 1 精彩帖子

    總評(píng)分: 論壇幣 + 5  學(xué)術(shù)水平 + 1  熱心指數(shù) + 1   查看全部評(píng)分

    地板
    weifai@126.com 在職認(rèn)證  發(fā)表于 2014-10-13 13:45:40 |只看作者 |壇友微信交流群
    都說有圖有真相,現(xiàn)在數(shù)據(jù)要考辨別了
    7
    wuya100 發(fā)表于 2014-11-11 16:59:44 |只看作者 |壇友微信交流群
    謝謝分享。。。。。!

    本版微信群
    加好友,備注jltj
    拉您入交流群

    京ICP備16021002-2號(hào) 京B2-20170662號(hào) 京公網(wǎng)安備 11010802022788號(hào) 論壇法律顧問:王進(jìn)律師 知識(shí)產(chǎn)權(quán)保護(hù)聲明   免責(zé)及隱私聲明

    GMT+8, 2024-12-29 16:59