五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>
    樓主: 之彌
    22266 12

    [數(shù)據(jù)挖掘書籍] 數(shù)據(jù)的征服:讀《大數(shù)據(jù)時代》 [推廣有獎]

    • 3關注
    • 21粉絲

    博士生

    64%

    還不是VIP/貴賓

    -

    威望
    0
    論壇幣
    5509 個
    通用積分
    2.2209
    學術水平
    41 點
    熱心指數(shù)
    47 點
    信用等級
    37 點
    經(jīng)驗
    7988 點
    帖子
    139
    精華
    1
    在線時間
    307 小時
    注冊時間
    2013-2-12
    最后登錄
    2022-1-9

    樓主
    之彌 發(fā)表于 2013-3-2 11:37:34 |只看作者 |壇友微信交流群|倒序 |AI寫論文

    +2 論壇幣
    k人 參與回答

    經(jīng)管之家送您一份

    應屆畢業(yè)生專屬福利!

    求職就業(yè)群
    趙安豆老師微信:zhaoandou666

    經(jīng)管之家聯(lián)合CDA

    送您一個全額獎學金名額~ !

    感謝您參與論壇問題回答

    經(jīng)管之家送您兩個論壇幣!

    +2 論壇幣

    谷歌有一個名為“谷歌流感趨勢”的工具,它通過跟蹤搜索詞相關數(shù)據(jù)來判斷全美地區(qū)的流感情況(比如患者會搜索流感兩個字)。近日,這個工具發(fā)出警告,全美的流感已經(jīng)進入“緊張”級別。它對于健康服務產(chǎn)業(yè)和流行病專家來說是非常有用的,因為它的時效性極強,能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實也證明,通過海量搜索詞的跟蹤獲得的趨勢報告是很有說服力的,僅波士頓地區(qū),就有700例流感得到確認,該地區(qū)目前已宣布進入公共健康緊急狀態(tài)。

    這個工具工作的原理大致是這樣的:設計人員置入了一些關鍵詞(比如溫度計、流感癥狀、肌肉疼痛、胸悶等),只要用戶輸入這些關鍵詞,系統(tǒng)就會展開跟蹤分析,創(chuàng)建地區(qū)流感圖表和流感地圖。谷歌多次把測試結果(藍線)與美國疾病控制和預防中心的報告(黃線)做比對,從下圖可知,兩者結論存在很大相關性:

    但它比線下收集的報告強在“時效性”上,因為患者只要一旦自覺有流感癥狀,在搜索和去醫(yī)院就診這兩件事上,前者通常是他首先會去做的。就醫(yī)很麻煩而且價格不菲,如果能自己通過搜索來尋找到一些自我救助的方案,人們就會第一時間使用搜索引擎。故而,還存在一種可能是,醫(yī)院或官方收集到的病例只能說明一小部分重病患者,輕度患者是不會去醫(yī)院而成為它們的樣本的。

    這就是一個典型的“大數(shù)據(jù)”的應用例子,舍恩伯格的這本《大數(shù)據(jù)時代》受到了廣泛的贊譽,他本人也因此書被視為大數(shù)據(jù)領域中的領軍人物。大數(shù)據(jù)起源于數(shù)據(jù)的充裕,舍恩伯格在他的另外一本書《刪除》中,提到了這些源頭。

    1、信息的數(shù)字化,使得所有信息都可以得到一個完美的副本;2、存儲器越來越廉價,大規(guī)模存儲這些數(shù)字信息成本極低;3、易于提。簲(shù)據(jù)庫技術的完善使得這些存儲的信息能夠被輕易按照一定的條件搜索出來;4、全球性覆蓋,網(wǎng)絡是無國界的,a地的數(shù)字信息可以讓遠在天邊的b地調用。

    當我們掌握有大量的數(shù)據(jù)后,便可以開始進行所謂“大數(shù)據(jù)”的操作。大數(shù)據(jù)在舍恩伯格看來,一共具有三個特征:全樣而非抽樣,效率而非精確,相關而非因果。

    第一個特征非常好理解。在過去,由于缺乏獲取全體樣本的手段,人們發(fā)明了“隨機調研數(shù)據(jù)”的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是獲取一個隨機樣本代價極高,而且很費時。人口調查就是典型一例,一個稍大一點的國家甚至做不到每年都發(fā)布一次人口調查,因為隨機調研實在是太耗時耗力了。

    但有了云計算和數(shù)據(jù)庫以后,獲取足夠大的樣本數(shù)據(jù)乃至全體數(shù)據(jù),就變得非常容易了。谷歌可以提供谷歌流感趨勢的原因就在于它幾乎覆蓋了7成以上的北美搜索市場,而在這些數(shù)據(jù)中,已經(jīng)完全沒有必要去抽樣調查這些數(shù)據(jù):數(shù)據(jù)倉庫,所有的記錄都在那里躺著等待人們的挖掘和分析。

    第二點其實建立在第一點的基礎上。過去使用抽樣的方法,就需要在具體運算上非常精確,因為所謂“差之毫厘便失之千里”。設想一下,在一個總樣本為1億人口隨機抽取1000人,如果在1000人上的運算出現(xiàn)錯誤的話,那么放大到1億中會有多大的偏差。但全樣本時,有多少偏差就是多少偏差而不會被放大。諾維格,谷歌人工智能專家,在他的論文中寫道:大數(shù)據(jù)基礎上的簡單算法比小數(shù)據(jù)基礎上的復雜算法更加有效。

    數(shù)據(jù)分析并非目的就是數(shù)據(jù)分析,而是有其它用途,故而時效性也非常重要。精確的計算是以時間消耗為代價的,但在小數(shù)據(jù)時代,追求精確是為了避免放大的偏差而不得已為之。但在樣本=總體的大數(shù)據(jù)時代,“快速獲得一個大概的輪廓和發(fā)展脈絡,就要比嚴格的精確性要重要得多”。

    第三個特征則非常有趣。相關性表明變量A和變量B有關,或者說A變量的變化和B變量的變化之間存在一定的正比(或反比)關系。但相關性并不一定是因果關系(A未必是B的因)。

    亞馬遜的推薦算法非常有名,它能夠根據(jù)消費記錄來告訴用戶你可能會喜歡什么,這些消費記錄有可能是別人的,也有可能是該用戶歷史上的。但它不能說出你為什么會喜歡的原因。難道大家都喜歡購買A和B,就一定等于你買了A之后的果就是買B嗎?未必,但的確需要承認,相關性很高——或者說,概率很大。

    舍恩伯格認為,大數(shù)據(jù)時代只需要知道是什么,而無需知道為什么,就像亞馬遜推薦算法一樣,知道喜歡A的人很可能喜歡B但卻不知道其中的原因。這本書的譯者天才教授周濤則有不同的看法,他認為,“放棄對因果性的追求,就是放棄了人類凌駕于計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落”。

    這個爭議在我看來,雙方討論的可能不是一回事。舍恩伯格在這本書中完全不像他在《刪除》一書中表現(xiàn)得那么有人文關懷,這是一本純商業(yè)的書籍,商業(yè)本來就是以結果為導向的。但周濤談論的卻和“人工智能”有關。

    吳軍在他的《數(shù)學之美》中曾經(jīng)提到,人工智能領域曾經(jīng)走過一個很大的彎路,即人們總是試圖讓計算機理解人類的指令——注意,是理解,不是知道。但折騰了很多年,發(fā)現(xiàn)計算機的理解力實在白癡得比三歲小孩還要弱。最終人工智能放棄了這條途徑,而改為數(shù)據(jù)傳輸和匹配。舉個例子說,你在進行語音輸入的時候,事實上計算機完全不知道你在說什么(或者說,完全不理解你的意思),但不妨礙它能夠準確地把你說的話盡可能地用字符表達出來。蘋果的Siri是很神奇,但它其實并不懂你的意思,而只是你的語音數(shù)據(jù)和它的后臺數(shù)據(jù)一次匹配而已。

    因果關系涉及到“理解”這個范疇,而不是簡單的知道或匹配。舍恩伯格所謂放棄因果而尋求相關,是因為他本來就是寫本商業(yè)書,要具體指導商業(yè)運作的,周濤所謂不可放棄因果,因為他是一名學者,并不完全站在賺錢這個角度上。換而言之,周濤看的是長遠的未來,舍恩伯格討論的是眼下。

    在可以看到的未來中,可能計算機掌握不了三歲小孩的理解力,計算機和人類之間的象棋比賽,一個在思考,一個在做數(shù)據(jù)匹配,兩者雖然都在下棋,路徑卻全然不同。人類可以暫時不用過于擔心計算機來統(tǒng)治人類,因果關系這種理解,還是掌握在人類手中的。

    大數(shù)據(jù)時代是信息社會運作的必然結果,而借由它,人類的信息社會更上一個臺階。農業(yè)社會人們以土地為核心資源,工業(yè)時代轉為能源,信息社會則將變更為數(shù)據(jù)。誰掌握數(shù)據(jù),以及數(shù)據(jù)分析方法,誰就將在這個大數(shù)據(jù)時代勝出,無論是商業(yè)組織,還是國家文明。

    —— 《網(wǎng)絡傳播》 供稿 ——


    二維碼

    掃碼加我 拉你入群

    請注明:姓名-公司-職位

    以便審核進群資格,未注明則拒絕

    關鍵詞:大數(shù)據(jù)時代 大數(shù)據(jù) 數(shù)據(jù)分析方法 結果為導向 數(shù)據(jù)庫技術 波士頓 流行病 關鍵詞 溫度計 谷歌

    已有 3 人評分論壇幣 學術水平 熱心指數(shù) 信用等級 收起 理由
    wuqinqu + 5 + 1 + 1 + 1 精彩帖子
    et2000it1000 + 1 + 1 + 1 分析的有道理
    newfei188 + 1 精彩帖子

    總評分: 論壇幣 + 5  學術水平 + 2  熱心指數(shù) + 3  信用等級 + 2   查看全部評分

    沙發(fā)
    winniegsr 在職認證  發(fā)表于 2013-3-2 11:45:31 |只看作者 |壇友微信交流群
    現(xiàn)在確實是大數(shù)據(jù)時代
    清風無影
    藤椅
    廬陵人 發(fā)表于 2013-3-2 11:50:24 |只看作者 |壇友微信交流群
    板凳
    goldbaodi 發(fā)表于 2013-3-3 13:56:37 |只看作者 |壇友微信交流群
    good    -
    報紙
    美髯客 發(fā)表于 2013-3-12 11:27:33 |只看作者 |壇友微信交流群
    講得好
    地板
    金黃色的風 發(fā)表于 2013-4-16 11:19:05 |只看作者 |壇友微信交流群
    看看
    7
    yongwei820 發(fā)表于 2013-4-17 10:01:56 |只看作者 |壇友微信交流群
    講的真好
    8
    yongwei820 發(fā)表于 2013-4-17 10:02:59 |只看作者 |壇友微信交流群
    最近想寫一篇大數(shù)據(jù)的論文,需要點資料,不知您那有相關資料嗎,謝謝哈 yongwei820@qq.com
    9
    jsf0720 發(fā)表于 2013-4-17 16:36:10 |只看作者 |壇友微信交流群
    這個時代不差數(shù)據(jù),關鍵在于我們看到了什么。
    10
    gui27606 發(fā)表于 2013-10-28 23:55:20 |只看作者 |壇友微信交流群
    不考慮因果關系,換句話說,相關也是偶然
    您需要登錄后才可以回帖 登錄 | 我要注冊

    本版微信群
    加好友,備注cda
    拉您進交流群

    京ICP備16021002-2號 京B2-20170662號 京公網(wǎng)安備 11010802022788號 論壇法律顧問:王進律師 知識產(chǎn)權保護聲明   免責及隱私聲明

    GMT+8, 2024-12-23 21:50