大数据 ,英文为Big Data 。这个如今耳熟能详的名 是《自然》 Nature 杂志2008 日的专辑 Big Data 中首次提出的
Google在其推动世界范围内的信息整合过程中,极大地推动了大数据技术的创新和发展。
然而 ,到底什么是大数据?它的概念和外延包括哪些?由于大数据是最近新衍生出来的概念,它的内涵和外延也在不断地拓展和变化 ,目前还没有 个业界广泛采纳的明确定义。接下来永信大数据的小编就先为大家简单的解释一下大数据的由来。
20年1 月,麦肯锡全球研究院(MGI 在它的报告《大数据:创新、竞争和生产力的下 个前沿领域》中这样描述:大数据是指无法用传统数据库软件工具对其容进行抓取、管理和处理的大体量数据集合(“ Big data" refers to datasets whose sizeis beyond the ability of typical database so ware tools to capture, store, manage, andanalyze几乎同时, IDC(lnternational Data Corporation)在它编制的年度数字宇宙研究报告《从混吨中提取价值》 Extracting Lue from Chaos 中给大数据下了 一个定义大数据技术是新一代的技术与架构 ,它被设计用于在成本可承受(economically )的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value)(Big data technologies describe a new generation oftechnologies and architectures, designed to economically extract value from very largevolumes of a wide variety of data, by enabling high-velocity capture, discovery, and/oranalysis)。
IDC 定义描述了大数据时代的四大特征 ,即俗称的4V ,而这4V(volumesvelocity variety value)也被广泛地认可为大数据的最基本 内涵。
(1 )海量化(volumes)
数据体量巨大是大数据的首要特征,也是大家最容易发现的特征。全球数据正以前所未有的速度增长着,每天都有数以百万兆字节的数据在互联网上产生。据估计,全球可统计的数据存储量在2011 年约为 l.8ZB, 2015 年超过8ZB 。数据的爆炸式增长引发了数据存储和处理的危机。
(2 )多样化(variety)
数据类型的日趋繁多是大数据的另 个特征 。传统 的数据可以用 二维表的形式存储在数据库中,我们称之为结构化数据。但随着互联网多媒体应用的兴起,图片、声音和视频等非结构化数据成为了数据的主要组成部分,统计显示,目前全世界非结构化数据己占数据总量的90%左右。如何有效地处理非结构化数据,并挖掘出其中蕴含的商业价值和经济社会价值,是大数据技术要解决的问题。
(3 )快速化(velocity)
快速处理是大数据必须满足的要求。经济全球化形势下,企业面临的竞争环境越来越严酷。在此情况下,如何及时把握市场动态,深入洞察行业、市场、消费者的需求,井快速、合理地制定经营策略,就成为企业生死存亡的关键。而对大数据的快速处理分析,是实现这 目标的前提。
(4)价值化(value)
大数据蕴含的整体价值是巨大的,但是由于干扰信息多,导致其价值密度低,这是大数据在价值维度的两个特征。挖掘出大数据的有用价值井加以利用,是数据拥有者的自然目标 但市场形势瞬息万变,因此,如何在海 的、多样化的、低价值密度的数据中快速挖掘出其蕴含的有用价值,是大数据技术的使命虽然后续不断有人增加对“ ”的理解,如veracity (真实和准确),强调真实而准确的数据才能让对数据的管控和治理真正有意义;如vitality (动态性),强调数据体系的动态性等 这些对大数据的内涵都有 定的推动作用,但都不及开始的4V具有广泛性