fbpx
维基百科

大數據

大數據[1](英語:big data[2][3][4])又称巨量资料,指的是傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語[5][6]

大數據也可以定義為来自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成廣泛主題的新穎研究。這也導致各種大數據統計方法的發展。大數據並沒有統計學抽樣方法;它只是觀察和追踪發生的事情。因此,大數據通常包含的數據大小超出傳統軟件在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。[7] [3]

概述

截至2012年 (2012-Missing required parameter 1=month!),技術上可在合理時間內分析處理的數據集大小單位為艾位元組EB[8]。在許多領域,由於數據集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學基因組學[9]神經網路體學、複雜的物理模擬[10],以及生物和環境研究[11]。這樣的限制也對網路搜尋金融經濟資訊學造成影響。數據集大小增長的部分原因來自於資訊持續從各種來源被廣泛收集,這些來源包括搭載感測設備的行動裝置、高空感測科技(遥感)、軟體記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網路。自1980年代起,現代科技可儲存數據的容量每40個月即增加一倍[12];截至2012年 (2012-Missing required parameter 1=month!),全世界每天產生2.5艾位元組(2.5×1018位元組)的數據[13]

大數據幾乎無法使用大多數的數據庫管理系統處理,而必須使用「在數十、數百甚至數千台伺服器上同時平行運行的軟體」(電腦叢集是其中一種常用方式)[14]。大數據的定義取決於持有數據組的機構之能力,以及其平常用來處理分析數據的軟體之能力。「對某些組織來說,第一次面對數百GB的數據集可能讓他們需要重新思考數據管理的選項。對於其他組織來說,數據集可能需要達到數十或數百TB才會對他們造成困擾。」[15]

随着大數據被越来越多的提及,有些人惊呼大數據时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大數據”时代已经降临,在商业、经济及其他领域中,决策将日益基于數據和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大數據感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的時髦術語(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。

大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大數據包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(Case of Right to be Forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时勢所趋的潮流。

 
IBM對維基百科使用者:Pearle的編輯紀錄數據進行視覺化的呈現。維基百科上總計數兆位元組的文字和圖片正是大數據的例子之一
 
全球資訊儲存容量成長圖

定義

大數據由巨型數據集英语Data set組成,這些數據集大小常超出人類在可接受時間下的收集英语data acquisition庋用英语data curation、管理和處理能力[16]。大數據的大小經常改變,截至2012年 (2012-Missing required parameter 1=month!),單一數據集的大小從數太位元組(TB)至數十兆億位元組(PB)不等。

在一份2001年的研究與相關的演講中[17],麦塔集团(META Group,現為高德纳)分析員道格·萊尼(Doug Laney)指出數據長的挑戰和機遇有三個方向:量(Volume,數據大小)、速(Velocity,數據输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用3V來描述大數據[18]。高德納於2012年修改對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理[原文 1][19]。」另外,有機構在3V之外定義第4個V:真实性(Veracity)為第四特点[20]

大數據必須藉由計算機對數據進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。

數據探勘(data mining)則是在探討用以解析大數據的方法。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

數據來源類型

大數據取得之來源影響其應用之效益與品質,依照取得的直接程度一般可分為三種[21][22]

  • 第一方數據(First Party Data):為己方單位自己和消費者、用戶、目標客群互動產生的數據,具有高品質、高價值的特性,但易局限於既有顧客數據,如企業蒐集的顧客交易數據、追蹤用戶在APP上的瀏覽行為等,擁有者可彈性地使用於分析研究、行銷推廣等[23]
  • 第二方數據(Second Party Data):取自第一方的數據,通常與第一方具有合作、聯盟或契約關係,因此可共享或採購第一方數據。如:訂房品牌與飛機品牌共享數據,當客人購買某一方的商品後,另一單位即可推薦他相關的旅遊產品;或是已知某單位具有己方想要的數據,透過議定採購,直接從第一方取得數據[24]
  • 第三方數據(Third Party Data):提供數據的來源單位,並非產出該數據的原始者,該數據即為第三方數據。通常提供第三方數據的單位為數據供應商,其廣泛蒐集各式數據,並販售給數據需求者,其數據可來自第一方、第二方與其他第三方數據,如爬取網路公開數據、市調公司所發布的研究調查、經去識別化的交易資訊等[25]

應用範例

大數據的應用範例包括大科学RFID、感測設備網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會數據分析[26]、網際網路文件處理、製作網際網路搜尋引擎索引、通信記錄明細、軍事偵查、金融大數據,醫療大數據,社群網路、通勤時間預測、醫療記錄、照片圖像和影像封存、大規模的電子商務[27]

 
應用於運動界

巨大科學

大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的數據。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊數據後,得到約100次的有用撞擊數據[28][29][30]

將撞擊結果數據過濾處理後僅記錄0.001%的有用數據,全部四個對撞機的數據量複製前每年產生25拍位元組(PB),複製後為200拍位元組。

如果將所有實驗中的數據在不過濾的情況下全部記錄,數據量將會變得過度龐大且極難處理。每年數據量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的數據量。這個數字代表每天實驗將產生相當於500(5×1020)位元組的數據,是全世界所有數據來源總和的200倍。

科學研究

衛生學

國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計數據,跟其他數據交叉比對,例如收入、宗教、能源使用量等。

公共部门

目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。

信息审查

中国政府计划建立全面的个人信用评分体系,其包含不少对个人行为的评定,有关指标会影响到个人贷款工作签证等生活活动。高科技公司在被政治介入为其目的服务,个人的大部分行为和社交关系受掌控,几乎无人可免于被纳入个人信用评价体系的监控[31]。除獲取網絡數據外,中國政府還希望從科技公司獲得分類和分析信息的雲端計算能力,透過城市监控摄像机智能手機、政府數據庫等蒐集數據,以建造智慧城市和安全城市。人權觀察駐香港研究員王松蓮指出,整個安全城市構想無非是一個龐大的監視項目[32]

民間部門

  • 亚马逊公司,在2005年的時點,這間公司是世界上最大的以LINUX為基礎的三大數據庫之一[33]
  • 沃尔玛可以在1小時內處理百万以上顧客的消費處理。相當於美國國會圖書館所藏的書籍之167倍的情報量[34]
  • Facebook,處理500億枚的使用者相片[35]
  • 全世界商業數據的數量,統計全部的企業全体、推計每1.2年會倍增[36]
  • 西雅圖文德米爾不動產英语Windermere Real Estate分析約1億匿名GPS信號,提供購入新房子的客戶從該地點使用交通工具(汽車、腳踏車等)至公司等地的通勤時間估計值[37]
  • 软银,每個月約處理10億件(2014年3月現在)的手機LOG情報,並用其改善手機訊號的訊號強度[38]
  • 大企业对大数据技能需求量大,吸引了许多大学诸如伯克利大学开专门提供受过大数据训练的毕业者的大学部门。硅谷纽约为主《The Data Incubator》公司,2012年成立,焦点是数据科学与大数据企业培训,提供国际大数据培训服务。

社会学

大數據产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接著利用预测程式来即时监视受测者是否出现一般认为具伤害性的行為。

商業

運用數據探勘技術,分析網路聲量,以了解客戶行為、市場需求,做行銷策略參考與商業決策支援,或是應用於品牌管理,經營網路口碑、掌握負面事件等。如電信業者透過品牌的網路討論數據,即時找出負面事件進行處理,減低負面討論在網路擴散後所可能引發的形象危害。[39]

市場

大數據的出現提升了對資訊管理專家的需求,Software AGOracleIBM微軟SAP易安信惠普戴爾已在多間數據管理分析專門公司上花費超過150億美元。在2010年,數據管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍[34]

經濟的開發成長促進了密集數據科技的使用,也促成發展了相對於資訊經濟數據經濟。全世界共有約46億的行動電話用戶,並有10至20億人連結網際網路[34]。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。全世界透過電信網路交換資訊的容量在1986年為281兆億位元組(PB),1993年為471兆億位元組,2000年時增長為2.2艾位元組(EB),在2007年則為65艾位元組[12]。根據預測,在2013年網際網路每年的資訊流量將會達到667艾位元組[34]

相關條目

注释

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

参考文献

  1. ^ http://terms.naer.edu.tw/detail/18482732/
  2. ^ White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 2012-05-10: 3 [2015-12-08]. ISBN 978-1-4493-3877-0. (原始内容于2015-05-12). 
  3. ^ 3.0 3.1 MIKE2.0, Big Data Definition. [2015-12-07]. (原始内容于2018-09-25). 
  4. ^ 大數據與進階分析解決方案. [2017-03-21]. (原始内容于2017-03-22). 
  5. ^ Kusnetzky, Dan. . ZDNet. [2015-12-07]. (原始内容存档于2010-02-21). 
  6. ^ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 2010-04-22 [2015-12-07]. (原始内容于2015-09-08). 
  7. ^ Li, Rita Yi Man. Have Housing Prices Gone with the Smelly Wind? Big Data Analysis on Landfill in Hong Kong, Sustainability 2018, 10(2), 341; doi:10.3390/su10020341. MDPI. [2018-03-18]. (原始内容于2018-03-13). 
  8. ^ Francis, Matthew. Future telescope array drives development of exabyte processing. 2012-04-02 [2012-10-24]. (原始内容于2012-10-10). 
  9. ^ Community cleverness required. Nature. 4 September 2008, 455 (7209): 1 [2015-12-07]. doi:10.1038/455001a. (原始内容于2017-07-09). 
  10. ^ . HPC Projects. 2009-08-04 [2015-12-07]. (原始内容存档于2011-05-11). 
  11. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. Challenges and Opportunities of Open Data in Ecology. Science. 2011, 331 (6018): 703–5. doi:10.1126/science.1197962. 
  12. ^ 12.0 12.1 Hilbert & López 2011
  13. ^ IBM What is big data? — Bringing big data to the enterprise. www.ibm.com. [2013-08-26]. (原始内容于2013-08-24). 
  14. ^ Jacobs, A. The Pathologies of Big Data. ACMQueue. 6 July 2009 [2015-12-07]. (原始内容于2015-12-08). 
  15. ^ Magoulas, Roger; Lorica, Ben. . Release 2.0 (Sebastopol CA: O'Reilly Media). 2009-02, (11) [2015-12-07]. (原始内容存档于2010-06-04). 
  16. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html (页面存档备份,存于互联网档案馆
  17. ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [2001-02-06]. (原始内容 (PDF)于2013-07-23). 
  18. ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [2011-07-13]. (原始内容于2011-07-10). 
  19. ^ Douglas, Laney. . Gartner. [21 June 2012]. (原始内容存档于2020-04-07). 
  20. ^ What is Big Data?. Villanova University. [2015-12-08]. (原始内容于2014-02-20). 
  21. ^ 1st Party Data, 2nd Party Data, 3rd Party Data: What Does It All Mean? (页面存档备份,存于互联网档案馆),LOTAME,2019/8/19
  22. ^ 1st, 2nd and 3rd Party Data – What It All Means? (页面存档备份,存于互联网档案馆),adsquare,Paulina,2017/3/7。
  23. ^ 第一方數據(First-Party Data):企業所需最接近真相的數據分析,謝佳穎 (页面存档备份,存于互联网档案馆),2016/5/19。
  24. ^ 探討廣告數據平台DMP價值 (页面存档备份,存于互联网档案馆),遠見,2014/09/15。
  25. ^ 第三方數據在零售業的創新應用 (页面存档备份,存于互联网档案馆),OpView社群口碑數據庫,2017/7/25。
  26. ^ Erik Cambria; Dheeraj Rajagopal, Daniel Olsher, and Dipankar Das. 13. Big social data analysis. Taylor & Francis. 2013 [2015-12-08]. (原始内容于2016-03-03).  |booktitle=被忽略 (帮助)
  27. ^ Hogan, M. . 2013-06-20 [2018-02-18]. (原始内容存档于2017-07-22). 
  28. ^ LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public.. CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. [20 January 2013]. (原始内容于2019-03-19). 
  29. ^ LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers.. CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. [20 January 2013]. (原始内容于2020-04-07). 
  30. ^ Brumfiel, Geoff. High-energy physics: Down the petabyte highway. Nature 469. 19 January 2011: 282–83 [2015-12-08]. doi:10.1038/469282a. (原始内容于2017-07-30). 
  31. ^ 陈迎竹. 慎防大数据助长独裁. 2017-10-15. (原始内容于2017-10-17). 
  32. ^ 華爾街日報:阿里、騰訊成為政府監視國民的耳目. 立場新聞. 2017-12-01. (原始内容于2017-12-01). 
  33. ^ Layton, Julia. Amazon Technology. Money.howstuffworks.com. [2013-03-05]. (原始内容于2013-02-28). 
  34. ^ 34.0 34.1 34.2 34.3 Data, data everywhere. The Economist. 2010-02-25 [2012-12-09]. (原始内容于2018-05-27). 
  35. ^ Scaling Facebook to 500 Million Users and Beyond. Facebook.com. [2013-07-21]. (原始内容于2013-07-05). 
  36. ^ . Knowwpcarey.com. 2012-05-08 [2013-03-05]. (原始内容存档于2012-06-19). 
  37. ^ Wingfield, Nick. Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com. Bits.blogs.nytimes.com. 2013-03-12 [2013-07-21]. (原始内容于2013-05-29). 
  38. ^ 柴山和久. ビッグデータを利益に変える方法. 幻冬舎. 2014. ISBN 978-4344952393 (日语). 
  39. ^ 楊立偉教授. 大數據分析與應用. 2014. (原始内容于2019-12-11). 

延伸閱讀

  • Big Data for Good (PDF). ODBMS.org. 2012-06-05 [2013-11-12]. (原始内容 (PDF)于2013-10-08). 
  • Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011, 332 (6025): 60–65 [2015-12-07]. PMID 21310967. doi:10.1126/science.1200970. (原始内容于2015-12-24). 
  • The Rise of Industrial Big Data. GE Intelligent Platforms. [2013-11-12]. (原始内容于2013-11-12). 
  • ISBN 978-986-320-191-5 《大數據》
  • ISBN 978-986-241-673-0 《雲端時代的殺手級應用:Big Data大數據分析》
  • . ODBMS.org. 2014-09-07 [2014-09-07]. (原始内容存档于2014-10-20). 

外部連結

  • (《Wired》中文網站)
  • 處理大數據的挑戰(页面存档备份,存于互联网档案馆)(美國麻省理工學院線上課程)

大數據, 英語, data, 又称巨量资料, 指的是傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語, 也可以定義為来自各種來源的大量非結構化或結構化數據, 從學術角度而言, 的出現促成廣泛主題的新穎研究, 這也導致各種統計方法的發展, 並沒有統計學的抽樣方法, 它只是觀察和追踪發生的事情, 因此, 通常包含的數據大小超出傳統軟件在可接受的時間內處理的能力, 由於近期的技術進步, 發布新數據的便捷性以及全球大多數政府對高透明度的要求, 分析在現代研究中越來越突出, 目录, 概述, 定義, 數據來源類型, 應用. 大數據 1 英語 big data 2 3 4 又称巨量资料 指的是傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語 5 6 大數據也可以定義為来自各種來源的大量非結構化或結構化數據 從學術角度而言 大數據的出現促成廣泛主題的新穎研究 這也導致各種大數據統計方法的發展 大數據並沒有統計學的抽樣方法 它只是觀察和追踪發生的事情 因此 大數據通常包含的數據大小超出傳統軟件在可接受的時間內處理的能力 由於近期的技術進步 發布新數據的便捷性以及全球大多數政府對高透明度的要求 大數據分析在現代研究中越來越突出 7 3 目录 1 概述 2 定義 3 數據來源類型 4 應用範例 4 1 巨大科學 4 2 科學研究 4 3 衛生學 4 4 公共部门 4 4 1 信息审查 4 5 民間部門 4 6 社会学 4 7 商業 5 市場 6 相關條目 7 注释 8 参考文献 9 延伸閱讀 10 外部連結概述 编辑截至2012年 2012 Missing required parameter 1 month update 技術上可在合理時間內分析處理的數據集大小單位為艾位元組 EB 8 在許多領域 由於數據集過度龐大 科學家經常在分析處理上遭遇限制和阻礙 這些領域包括氣象學 基因組學 9 神經網路體學 複雜的物理模擬 10 以及生物和環境研究 11 這樣的限制也對網路搜尋 金融與經濟資訊學造成影響 數據集大小增長的部分原因來自於資訊持續從各種來源被廣泛收集 這些來源包括搭載感測設備的行動裝置 高空感測科技 遥感 軟體記錄 相機 麥克風 無線射頻辨識 RFID 和無線感測網路 自1980年代起 現代科技可儲存數據的容量每40個月即增加一倍 12 截至2012年 2012 Missing required parameter 1 month update 全世界每天產生2 5艾位元組 2 5 1018位元組 的數據 13 大數據幾乎無法使用大多數的數據庫管理系統處理 而必須使用 在數十 數百甚至數千台伺服器上同時平行運行的軟體 電腦叢集是其中一種常用方式 14 大數據的定義取決於持有數據組的機構之能力 以及其平常用來處理分析數據的軟體之能力 對某些組織來說 第一次面對數百GB的數據集可能讓他們需要重新思考數據管理的選項 對於其他組織來說 數據集可能需要達到數十或數百TB才會對他們造成困擾 15 随着大數據被越来越多的提及 有些人惊呼大數據时代已经到来了 2012年 纽约时报 的一篇专栏中写到 大數據 时代已经降临 在商业 经济及其他领域中 决策将日益基于數據和分析而作出 而并非基于经验和直觉 但是并不是所有人都对大數據感兴趣 有些人甚至认为这是商学院或咨询公司用来哗众取宠的時髦術語 buzzword 看起来很新颖 但只是把传统重新包装 之前在学术研究或者政策决策中也有海量数据的支撑 大数据并不是一件新兴事物 大数据时代的来临带来无数的机遇 但是与此同时个人或机构的隐私权也极有可能受到冲击 大數據包含各种个人信息数据 现有的隐私保护法律或政策无力解决这些新出现的问题 有人提出 大数据时代 个人是否拥有 被遗忘权 被遗忘权即是否有权利要求数据商不保留自己的某些信息 大数据时代信息为某些互联网巨头所控制 但是数据商收集任何数据未必都获得用户的许可 其对数据的控制权不具有合法性 2014年5月13日欧盟法院就 被遗忘权 Case of Right to be Forgotten 一案作出裁定 判决谷歌应根据用户请求删除不完整的 无关紧要的 不相关的数据以保证数据不出现在搜索结果中 这说明在大数据时代 加强对用户个人权利的尊重才是时勢所趋的潮流 IBM對維基百科使用者 Pearle的編輯紀錄數據進行視覺化的呈現 維基百科上總計數兆位元組的文字和圖片正是大數據的例子之一 全球資訊儲存容量成長圖定義 编辑大數據由巨型數據集 英语 Data set 組成 這些數據集大小常超出人類在可接受時間下的收集 英语 data acquisition 庋用 英语 data curation 管理和處理能力 16 大數據的大小經常改變 截至2012年 2012 Missing required parameter 1 month update 單一數據集的大小從數太位元組 TB 至數十兆億位元組 PB 不等 在一份2001年的研究與相關的演講中 17 麦塔集团 META Group 現為高德纳 分析員道格 萊尼 Doug Laney 指出數據長的挑戰和機遇有三個方向 量 Volume 數據大小 速 Velocity 數據输入輸出的速度 與多變 Variety 多样性 合稱 3V 或 3Vs 高德纳與現在大部份大數據產業中的公司 都繼續使用3V來描述大數據 18 高德納於2012年修改對大數據的定義 大數據是大量 高速 及 或多變的資訊資產 它需要新型的處理方式去促成更強的決策能力 洞察力與最佳化處理 原文 1 19 另外 有機構在3V之外定義第4個V 真实性 Veracity 為第四特点 20 大數據必須藉由計算機對數據進行統計 比對 解析方能得出客觀結果 美國在2012年就開始著手大數據 歐巴馬更在同年投入2億美金在大數據的開發中 更強調大數據會是之後的未來石油 數據探勘 data mining 則是在探討用以解析大數據的方法 大数据需要特殊的技术 以有效地处理大量的容忍经过时间内的数据 适用于特殊大数据的技术 包括大规模并行处理 MPP 数据库 数据挖掘 分布式文件系统 分布式数据库 云计算平台 互联网和可扩展的存储系统 數據來源類型 编辑大數據取得之來源影響其應用之效益與品質 依照取得的直接程度一般可分為三種 21 22 第一方數據 First Party Data 為己方單位自己和消費者 用戶 目標客群互動產生的數據 具有高品質 高價值的特性 但易局限於既有顧客數據 如企業蒐集的顧客交易數據 追蹤用戶在APP上的瀏覽行為等 擁有者可彈性地使用於分析研究 行銷推廣等 23 第二方數據 Second Party Data 取自第一方的數據 通常與第一方具有合作 聯盟或契約關係 因此可共享或採購第一方數據 如 訂房品牌與飛機品牌共享數據 當客人購買某一方的商品後 另一單位即可推薦他相關的旅遊產品 或是已知某單位具有己方想要的數據 透過議定採購 直接從第一方取得數據 24 第三方數據 Third Party Data 提供數據的來源單位 並非產出該數據的原始者 該數據即為第三方數據 通常提供第三方數據的單位為數據供應商 其廣泛蒐集各式數據 並販售給數據需求者 其數據可來自第一方 第二方與其他第三方數據 如爬取網路公開數據 市調公司所發布的研究調查 經去識別化的交易資訊等 25 應用範例 编辑大數據的應用範例包括大科学 RFID 感測設備網路 天文學 大氣學 交通運輸 基因組學 生物學 大社會數據分析 26 網際網路文件處理 製作網際網路搜尋引擎索引 通信記錄明細 軍事偵查 金融大數據 醫療大數據 社群網路 通勤時間預測 醫療記錄 照片圖像和影像封存 大規模的電子商務等 27 應用於運動界 巨大科學 编辑 大型強子對撞機中有1億5000萬個感測器 每秒傳送4000萬次的數據 實驗中每秒產生將近6億次的對撞 在過濾去除99 999 的撞擊數據後 得到約100次的有用撞擊數據 28 29 30 將撞擊結果數據過濾處理後僅記錄0 001 的有用數據 全部四個對撞機的數據量複製前每年產生25拍位元組 PB 複製後為200拍位元組 如果將所有實驗中的數據在不過濾的情況下全部記錄 數據量將會變得過度龐大且極難處理 每年數據量在複製前將會達到1 5億拍位元組 等於每天有近500艾位元組 EB 的數據量 這個數字代表每天實驗將產生相當於500垓 5 1020 位元組的數據 是全世界所有數據來源總和的200倍 科學研究 编辑 衛生學 编辑 國際衛生學教授漢斯 羅斯林使用 Trendalyzer 工具軟體呈現兩百多年以來全球人類的人口統計數據 跟其他數據交叉比對 例如收入 宗教 能源使用量等 公共部门 编辑 目前 发达国家的政府部门开始推广大数据的应用 2012年奥巴马政府投资近两亿美元开始推行 大数据的研究与发展计划 本计划涉及美国国防部 美国卫生与公共服务部门等多个联邦部门和机构 意在通过提高从大型复杂的的数据中提取知识的能力 进而加快科学和工程的开发 保障国家安全 信息审查 编辑 参见 大規模監控和社会信用体系 中国政府计划建立全面的个人信用评分体系 其包含不少对个人行为的评定 有关指标会影响到个人贷款 工作 签证等生活活动 高科技公司在被政治介入为其目的服务 个人的大部分行为和社交关系受掌控 几乎无人可免于被纳入个人信用评价体系的监控中 31 除獲取網絡數據外 中國政府還希望從科技公司獲得分類和分析信息的雲端計算能力 透過城市监控摄像机 智能手機 政府數據庫等蒐集數據 以建造智慧城市和安全城市 人權觀察駐香港研究員王松蓮指出 整個安全城市構想無非是一個龐大的監視項目 32 民間部門 编辑 亚马逊公司 在2005年的時點 這間公司是世界上最大的以LINUX為基礎的三大數據庫之一 33 沃尔玛可以在1小時內處理百万以上顧客的消費處理 相當於美國國會圖書館所藏的書籍之167倍的情報量 34 Facebook 處理500億枚的使用者相片 35 全世界商業數據的數量 統計全部的企業全体 推計每1 2年會倍增 36 西雅圖文德米爾不動產 英语 Windermere Real Estate 分析約1億匿名GPS信號 提供購入新房子的客戶從該地點使用交通工具 汽車 腳踏車等 至公司等地的通勤時間估計值 37 软银 每個月約處理10億件 2014年3月現在 的手機LOG情報 並用其改善手機訊號的訊號強度 38 大企业对大数据技能需求量大 吸引了许多大学诸如伯克利大学开专门提供受过大数据训练的毕业者的大学部门 硅谷纽约为主 The Data Incubator 公司 2012年成立 焦点是数据科学与大数据企业培训 提供国际大数据培训服务 社会学 编辑 大數據产生的背景离不开Facebook等社交网络的兴起 人们每天通过这种自媒体传播信息或者沟通交流 由此产生的信息被网络记录下来 社会学家可以在这些数据的基础上分析人类的行为模式 交往方式等 美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向 该计划从美军退役士兵中拣选受试者 透过Facebook的行动app收集资料 并将用户的活动数据传送到一个医疗资料库 收集完成的数据会接受人工智能系统分析 接著利用预测程式来即时监视受测者是否出现一般认为具伤害性的行為 商業 编辑 運用數據探勘技術 分析網路聲量 以了解客戶行為 市場需求 做行銷策略參考與商業決策支援 或是應用於品牌管理 經營網路口碑 掌握負面事件等 如電信業者透過品牌的網路討論數據 即時找出負面事件進行處理 減低負面討論在網路擴散後所可能引發的形象危害 39 市場 编辑大數據的出現提升了對資訊管理專家的需求 Software AG Oracle IBM 微軟 SAP 易安信 惠普和戴爾已在多間數據管理分析專門公司上花費超過150億美元 在2010年 數據管理分析產業市值超過1 000億美元 並以每年將近10 的速度成長 是整個軟體產業成長速度的兩倍 34 經濟的開發成長促進了密集數據科技的使用 也促成發展了相對於資訊經濟的數據經濟 全世界共有約46億的行動電話用戶 並有10至20億人連結網際網路 34 自1990年起至2005年間 全世界有超過10億人進入中產階級 收入的增加造成了識字率的提升 更進而帶動資訊量的成長 全世界透過電信網路交換資訊的容量在1986年為281兆億位元組 PB 1993年為471兆億位元組 2000年時增長為2 2艾位元組 EB 在2007年則為65艾位元組 12 根據預測 在2013年網際網路每年的資訊流量將會達到667艾位元組 34 相關條目 编辑 信息技术主题 數據探勘 數據科學 數據經濟 數據庫 对象数据库 关系数据库 統計學 商務智能 分布式计算 分布式数据库 分散式檔案系統 分散式運算環境 超级计算机 运筹学 MapReduce 合成作戰中心 工業大數據 云计算注释 编辑 原文 Big data are high volume high velocity and or high variety information assets that require new forms of processing to enable enhanced decision making insight discovery and process optimization 参考文献 编辑 http terms naer edu tw detail 18482732 White Tom Hadoop The Definitive Guide O Reilly Media 2012 05 10 3 2015 12 08 ISBN 978 1 4493 3877 0 原始内容存档于2015 05 12 3 0 3 1 MIKE2 0 Big Data Definition 2015 12 07 原始内容存档于2018 09 25 大數據與進階分析解決方案 2017 03 21 原始内容存档于2017 03 22 Kusnetzky Dan What is Big Data ZDNet 2015 12 07 原始内容存档于2010 02 21 Vance Ashley Start Up Goes After Big Data With Hadoop Helper New York Times Blog 2010 04 22 2015 12 07 原始内容存档于2015 09 08 Li Rita Yi Man Have Housing Prices Gone with the Smelly Wind Big Data Analysis on Landfill in Hong Kong Sustainability 2018 10 2 341 doi 10 3390 su10020341 MDPI 2018 03 18 原始内容存档于2018 03 13 Francis Matthew Future telescope array drives development of exabyte processing 2012 04 02 2012 10 24 原始内容存档于2012 10 10 Community cleverness required Nature 4 September 2008 455 7209 1 2015 12 07 doi 10 1038 455001a 原始内容存档于2017 07 09 Sandia sees data management challenges spiral HPC Projects 2009 08 04 2015 12 07 原始内容存档于2011 05 11 Reichman O J Jones M B Schildhauer M P Challenges and Opportunities of Open Data in Ecology Science 2011 331 6018 703 5 doi 10 1126 science 1197962 12 0 12 1 Hilbert amp Lopez 2011 IBM What is big data Bringing big data to the enterprise www ibm com 2013 08 26 原始内容存档于2013 08 24 Jacobs A The Pathologies of Big Data ACMQueue 6 July 2009 2015 12 07 原始内容存档于2015 12 08 Magoulas Roger Lorica Ben Introduction to Big Data Release 2 0 Sebastopol CA O Reilly Media 2009 02 11 2015 12 07 原始内容存档于2010 06 04 Snijders C Matzat U amp Reips U D 2012 Big Data Big gaps of knowledge in the field of Internet science International Journal of Internet Science 7 1 5 http www ijis net ijis7 1 ijis7 1 editorial html 页面存档备份 存于互联网档案馆 Douglas Laney 3D Data Management Controlling Data Volume Velocity and Variety PDF Gartner 2001 02 06 原始内容存档 PDF 于2013 07 23 Beyer Mark Gartner Says Solving Big Data Challenge Involves More Than Just Managing Volumes of Data Gartner 2011 07 13 原始内容存档于2011 07 10 Douglas Laney The Importance of Big Data A Definition Gartner 21 June 2012 原始内容存档于2020 04 07 What is Big Data Villanova University 2015 12 08 原始内容存档于2014 02 20 1st Party Data 2nd Party Data 3rd Party Data What Does It All Mean 页面存档备份 存于互联网档案馆 LOTAME 2019 8 19 1st 2nd and 3rd Party Data What It All Means 页面存档备份 存于互联网档案馆 adsquare Paulina 2017 3 7 第一方數據 First Party Data 企業所需最接近真相的數據分析 謝佳穎 页面存档备份 存于互联网档案馆 2016 5 19 探討廣告數據平台DMP價值 页面存档备份 存于互联网档案馆 遠見 2014 09 15 第三方數據在零售業的創新應用 页面存档备份 存于互联网档案馆 OpView社群口碑數據庫 2017 7 25 Erik Cambria Dheeraj Rajagopal Daniel Olsher and Dipankar Das 13 Big social data analysis Taylor amp Francis 2013 2015 12 08 原始内容存档于2016 03 03 引文使用过时参数coauthors 帮助 booktitle 被忽略 帮助 Hogan M What is Big Data 2013 06 20 2018 02 18 原始内容存档于2017 07 22 LHC Brochure English version A presentation of the largest and the most powerful particle accelerator in the world the Large Hadron Collider LHC which started up in 2008 Its role characteristics technologies etc are explained for the general public CERN Brochure 2010 006 Eng LHC Brochure English version CERN 20 January 2013 原始内容存档于2019 03 19 LHC Guide English version A collection of facts and figures about the Large Hadron Collider LHC in the form of questions and answers CERN Brochure 2008 001 Eng LHC Guide English version CERN 20 January 2013 原始内容存档于2020 04 07 Brumfiel Geoff High energy physics Down the petabyte highway Nature 469 19 January 2011 282 83 2015 12 08 doi 10 1038 469282a 原始内容存档于2017 07 30 陈迎竹 慎防大数据助长独裁 2017 10 15 原始内容存档于2017 10 17 華爾街日報 阿里 騰訊成為政府監視國民的耳目 立場新聞 2017 12 01 原始内容存档于2017 12 01 Layton Julia Amazon Technology Money howstuffworks com 2013 03 05 原始内容存档于2013 02 28 34 0 34 1 34 2 34 3 Data data everywhere The Economist 2010 02 25 2012 12 09 原始内容存档于2018 05 27 Scaling Facebook to 500 Million Users and Beyond Facebook com 2013 07 21 原始内容存档于2013 07 05 eBay Study How to Build Trust and Improve the Shopping Experience Knowwpcarey com 2012 05 08 2013 03 05 原始内容存档于2012 06 19 Wingfield Nick Predicting Commutes More Accurately for Would Be Home Buyers NYTimes com Bits blogs nytimes com 2013 03 12 2013 07 21 原始内容存档于2013 05 29 柴山和久 ビッグデータを利益に変える方法 幻冬舎 2014 ISBN 978 4344952393 日语 楊立偉教授 大數據分析與應用 2014 原始内容存档于2019 12 11 延伸閱讀 编辑Big Data for Good PDF ODBMS org 2012 06 05 2013 11 12 原始内容存档 PDF 于2013 10 08 Hilbert Martin Lopez Priscila The World s Technological Capacity to Store Communicate and Compute Information Science 2011 332 6025 60 65 2015 12 07 PMID 21310967 doi 10 1126 science 1200970 原始内容存档于2015 12 24 The Rise of Industrial Big Data GE Intelligent Platforms 2013 11 12 原始内容存档于2013 11 12 ISBN 978 986 320 191 5 大數據 ISBN 978 986 241 673 0 雲端時代的殺手級應用 Big Data大數據分析 IEEE Big Data Service ODBMS org 2014 09 07 2014 09 07 原始内容存档于2014 10 20 外部連結 编辑维基共享资源中相关的多媒体资源 大數據查看维基词典中的词条 big data 大數據的相關報導文章 Wired 中文網站 處理大數據的挑戰 页面存档备份 存于互联网档案馆 美國麻省理工學院線上課程 取自 https zh wikipedia org w index php title 大數據 amp oldid 76260446, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。