大数据
时间:2016-02-01
  摘要:大数据的概念出现于1998年,其技术与应用在近年得到了长足的发展。

点题:早在1998年已经就有人提出了大数据的概念,近年在 4G移动通信、移动互联网、云计算、物联网等技术发展的同时,大数据技术与应用均得到了长足的发展。

在我国,国家与地方政府,对大数据的发展均十分重视,20158月,国务院出台了《促进大数据发展行动纲要》;201617日,国家发改委出台了《国家发展改革委办公厅关于组织实施促进大数据发展重大工程的通知》。可以预计2016年,大数据将得到进一步的发展并在经济建设中起到更大的作用。

------------------------------------------------------------------------------------------------

 

一、概念

随着大数据时代的来临,“大数据(BigData)”这个词近年来成为了关注度极高和使用极其频繁的一个热点词汇。然而,与这种热度不太对称的是,人们只是跟随使用,对大数据究竟是什么并没有真正的了解。学术界对大数据的涵义也莫衷一是,很难有一个规范的定义。

大数据究竟是什么意思呢? 从字面来说,所谓大数据就是指规模特别巨大的数据集合,因此从本质上来说,它仍然是属于数据库或数据集合,不过是规模变得特别巨大而已,因此麦肯锡公司将大数据定义为:“大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。”

世界著名的美国权威研究机构Gartner对大数据给出了这样的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资源。”

百度百科则基本引用Gartner对大数据的定义,认为大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

英国大数据权威维克托则在其《大数据时代》一书中这样定义:“大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在数据处理时所能使用的内存量,因此工程师们必须改进处理数据的工具。”、“大数据是人们获得新认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”

大数据技术引入国内之后,我国学者对大数据的理解也一样五花八门,不过跟国外学者的理解比较类似。最早介入并对大数据进行了比较深入研究的三位院士的观点应该具有一定的代表性和权威性。

邬贺铨院士认为:“大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。”李德毅院士则说:“大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TBPBEBZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。”而李国杰院士则引用维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”我国最早介入大数据普及的学者涂子沛在其《大数据:正在到来的数据革命》中,将大数据定义为:“大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。”由于涂子沛的著作发行量比较大,因此他对大数据的这个界定也具有一定的影响力。

从国内外学者对大数据的界定来看,虽然目前没有统一的定义,但基本上都从数据规模、处理工具、利用价值三个方面来进行界定:① 大数据属于数据的集合,其规模特别巨大;② 用一般数据工具难以处理因而必须引入数据挖掘新工具;③ 大数据具有重大的经济、社会价值。

 

(图片源于网络)

 

二、特点

在大数据及其研究领域极具影响力的国际数据公司(IDC)在2011年发布的报告中将大数据定义为:“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。”从这一定义来看,大数据的特点可以总结为具有的3V 特征或4V 特征。

所谓大数据的3V 或4V 特征是指大数据所具有的三个或四个以英文字母V 打头的基本特征。所谓的3V是指Volume(体量)、Variety(多样)、Velocity(速度),这三个V是比较公认的,基本上没有争议。而4V是在3V的基础上再加上一个V,而这个V 究竟是什么,目前有比较大的争议。有人将Value(价值)作为第四个V,而有人将Veracity(真实)当作第四个V。

Volume(数据规模巨大)

大数据给人印象最深的是数据规模巨大,以前也被称为海量,因此大数据的所有定义中必然会涉及大数据的数据规模,而且特别指出其数据规模巨大,这就是大数据的第一个基本特征:数据规模巨大。

Variety(数据类型多样)

大数据并不仅仅表现在数据量的暴增及数据总规模的庞大无比,最为关键的是,在大数据时代,数据的性质发生了重大变化。在小数据时代,数据的涵义和范围是狭义的。所谓数据,其原意是指“数+据”,即由表示大小、多少的数字,加上表示事物性质的属性,即所谓的计量单位。狭义的数据指的是用某种测量工具对某事物进行测量的结果,而且一定是以数字和测量单位联合表征。但在大数据时代,数据的涵义和属性发生了重大变化,数据的范围几乎无所不包,除了传统的“数+据”之外,似乎能被0和1符号表述,能被计算机处理的都被称为数据。也可以说,大数据时代就是信息时代的延续与深入,是信息时代的新阶段。在大数据时代,数据与信息基本上是同义词,任何信息都可以用数据表述,任何数据都是信息。这样数据的范围得到了巨大的扩展,即从狭义的数字扩展到广义的信息。传统的数据属于具有结构的关系型数据,也就是说数据与数据之间具有某种相关关系,数据之间形成某种结构,因此被称为结构型数据。在大数据时代,除了这种具有预定结构的关系数据之外,更多的是属于半结构和无结构数据。结构数据是有限的,而半结构和无结构数据却几乎是无限的。

 

(图片源于网络)

 

Velocity(数据快捷高效)

大数据的第三个特征是数据的快捷性,指的是数据采集、存储、处理和传输速度快、时效高。小数据时代的数据主要是依靠人工采集而来,这些数据因为依靠人工测量,所以测量速度、频次和数据量都受到一定的限制。此外,这些数据的处理往往也是费钱费力的事情。在大数据时代,数据的采集、存储、处理和传输等各个环节都实现了智能化、网络化。由于智能芯片的广泛应用,数据的采集实现了完全智能化和自动化,数据的来源从人工采集走向了自动生成。由于数据采集设备的智能化和自动化,自然界和人类社会的各种现象、思想和行为都被全程记录下来,因此形成了所谓的“全数据模式”,这也是大数据形成的重要原因。此外,数据的存储实现了云存储,数据的处理实现了云计算,数据的传输实现了网络化。因此,所有数据都从原来的静态数据变为动态数据,从离线数据变为在线数据,通过快速的数据采集、传输和计算,系统可以做出快速反馈和及时响应,从而达到即时性。

Veracity(数据客观真实)

大数据的第四个特征是数据的真实性。数据是事物及其状态的记录,但这种记录也因是否真实记录事物及其状态而产生了数据真实性问题。由于小数据时代的数据都是人工观察、实验或调查而来的数据,人的主观性难免被渗透到数据之中,这就是科学哲学中著名的“观察渗透理论”。但在大数据时代,除了人是智能设备的设计和制造者之外,我们人类并没有全程参与到数据的采集过程中,所有的数据都是由智能终端自动采集、记录下来的。这些数据在采集、记录之时,我们并不知道这些数据能用于什么目的。采集、记录数据只是智能终端的一种基本功能,是顺便采集、记录下来的,并没有什么目的。有时候甚至认为这些数据属于数据垃圾或数据尘埃,先记录下来,究竟有什么用,以后再说。也就是说,在大数据时代,我们是先有数据,后有目的。这样,由于数据采集、记录过程中没有了数据采集者的主观意图,这些数据就没有被主体污染,也就是说,大数据中的原始数据并没有渗透理论,因此确保了其客观真实性,真实反映了事物及其状态、行为。

(图片源于网络)

 

三、价值链

业内专家认为大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。

四、大数据分析方法

随着大数据时代的到来,如何快速地从这些海量数据中抽取出关键的信息,为企业和个人带来价值,是各界关注的焦点。目前一些大数据具体处理方法主要有:

1)Bloom Filter(布隆过滤器);

2)Hashing散列法(也叫做Hash法);

3)索引;

4)Trie树,又称为字典树;

5)并行计算。

五、大数据分析模式

由于大数据来源广泛,种类繁多,结构多样且应用于众多不同领域,所以针对不同业务需求的大数据,应采用不同的分析模式。

1)根据实时性,可分为实时分析和离线分析实时分析,多用于电子商务、金融等领域;

2)根据数据规模,可分为内存级、BI级和海量级内存级分析,是指数据总量不超过集群内存的最大值;

3)根据算法复杂度的分类,根据业务数据和业务需求的不同,数据分析算法的时空复杂度存在巨大的差异性。

(图片源于网络)

 

六、大数据分析的关键领域

根据数据的生成方式和结构特点不同,数据分析可划分为6个关键技术领域:

1)结构化数据。一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提供了数据分析功能。

2)文本。是常用的存储文字、传递信息的方式,也是最常见的非结构化数据。

3)Web数据。Web技术的发展,极大地丰富了获取和交换数据的方式,Web数据高速的增长,使其成为大数据的主要来源

4)多媒体数据。随着通讯技术的发展,图片、音频、视频等体积较大的数据,也可以被快速地传播,由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点。

5)社交网络数据。从一定程度上反映了人类社会活动的特征,具有重要的价值。

6)移动数据。与传统的互联网数据不同,具有明显的地理位置信息、用户个体特征等其他信息。

 

(图片源于网络)

 

七、大数据的典型应用

企业内部大数据应用

目前,大数据的主要来源和应用都是来自于企业内部,商业智能(Business intelligence,BI)。企业内部大数据的应用,可以在多个方面提升企业的生产效率和竞争力。具体而言:市场方面,利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式;销售规划方面,通过大量数据的比较,优化商品价格;运营方面,提高运营效率和运营满意度,优化劳动力投入,准确预测人员配置要求,避免产能过剩,降低人员成本;供应链方面,利用大数据进行库存优化、物流优化、供应商协同等工作,可以缓和供需之间的矛盾、控制预算开支,提升服务。

物联网大数据应用

物联网不仅是大数据的重要来源,还是大数据应用的主要市场。在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷。

面向在线社交网络大数据的应用

由于在线社交网络大数据代表了人的各类活动,因此对于此类数据的分析得到了更多关注。在线社交网络大数据分析是从网络结构、群体互动和信息传播3个维度,通过基于数学、信息学、社会学、管理学等多个学科的融合理论和方法,为理解人类社会中存在的各种关系提供的一种可计算的分析方法。目前,在线社交网络大数据的应用包括网络舆情分析、网络情报搜集与分析、社会化营销、政府决策支持、在线教育等。

医疗健康大数据应用

医疗健康数据是持续、高增长的复杂数据,蕴涵的信息价值也是丰富多样。对其进行有效的存储、处理、查询和分析,可以开发出其潜在价值。对于医疗大数据的应用,将会深远的影响人类的健康。

群智感知

随着技术的发展,智能手机和平板电脑等移动设备集成了越来越多的传感器,计算和感知能力也愈发强大。在移动设备被广泛使用的背景下,群智感知开始成为移动计算领域的应用热点。大量用户使用移动智能设备作为基本节点,通过蓝牙、无线网络和移动互联网等方式进行协作,分发感知任务分发,收集、利用感知数据,最终完成大规模的、复杂的社会感知任务。

2.6 智能电网

智能电网,是指将现代信息技术融入传统能源网络构成新的电网,通过用户的用电习惯等信息,优化电能的生产、供给和消耗,是大数据在电力系统上的应用。

八、国内大数据相关政策

 

国内大数据相关政策列表

序号

文件名称

发布日期

发布单位与文号

1

《上海推进大数据研究与发展三年行动计划(2013-2015年)》

2013712

上海市科委

2

《重庆市大数据行动计划》

2013730

重庆市人民政府

渝府发 201362

3

《关于加快大数据产业发展应用若干政策的意见》、《贵州省大数据产业发展应用规划纲要(2014-2020)》的通知

2014 225

贵州省人民政府

黔府发〔20145

4

《大数据产业十三五发展规划》

20155月宣布开始,目前正在制定中

工信部

5

《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》

2015624

国务院办公厅

国办发〔201551

6

加快推进云计算与大数据标准体系建设

20156月宣布开始,目前正在进行中

工信部

7

《促进大数据发展行动纲要》

2015831

国务院

国发〔201550

8

《国家发展改革委办公厅关于组织实施促进大数据发展重大工程的通知》

201617

国家发改委办公厅

发改办高技【201642

9

《贵州省大数据发展应用促进条例》

2016115

贵州省第十二届人民代表大会常务委员会第二十次会议通过

 

(技术研发与网络运维中心摘编)

 


参考来源:

黄欣荣, . 大数据的语义、特征与本质[J/OL]. 长沙理工大学学报(社会科学版), 2015 (06).

张引;陈敏; 廖小飞, . 大数据应用的现状与展望. 计算机研究与发展,2013 ((12).


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

延伸阅读:

 

BAT的互联网大数据应用有何不同?

http://www.leiphone.com/news/201410/iUGJrbnLAQEpu65W.html

2016年最值得关注的大数据领域33大预测

http://www.thebigdata.cn/YeJieDongTai/28806.html

大数据时代的互联网思维

http://www.qstheory.cn/laigao/2014-11/13/c_1113224609.htm

 

========================================================

 

转载声明:凡注明来源的作品,均转载自其它网络媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如转载行为无意中侵犯了来源网站的版权,敬请告之,我们将在第一时间予以删除。