钱林官网博客

当前位置:   网站首页 >> 员工感言

大数据是什么意思?

大数据的定义
  对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。不同的定义基本是从大数据的特征出发通过这些特征的阐述和归纳试图给出其定义。在这些定义中比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)多样性(variety)和高速性(velocity)。除此之外还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一,国际数据公司(International Data Corporation, IDC)认为大数据还应当具有价值性(value),大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

5541c96d3eebe.png

大数据的特征
  3V认为大数据具有规模性、高速性和多样性三大特征,这些特征是传统数据处理方法和工具所无法胜任的。
  2.1规模性(Volume)是指数据量非常庞大,主要体现在数据存储量大和计算量大。根据IDC《数字宇宙膨胀:到2010年全球信息增长预测》中统计的数据,2006年全球每年制造、复制出的数字信息量共计16.1万PB,当年信息产生量大约是历史上图书信息总量的3000倍;至2010年,数字信息总量达98.8万PB。专家指出,2020年年度数据将增加43倍。因此,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
  2.2高速性(Velocity)一方面是指数据在不断更新,增长的速度快,另一方面是指数据存储、传输等处理速度很快。短短60秒,YouTube用户会上传48小时的视频;Google会收到200万次搜索请求并极快地返回结果;Twitter要处理100万条Tweets信息;网购产生27.2万美元的交易;App Store有4.7万次下载;全球新增网页571个。数据处理的速度也要求越来越快,甚至是实时处理,比如灾难的预测,需很快的对灾难发生的程度、影响的区域范围等进行量化。如日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。
  2.3多样性(Variety)指数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛。
具体包括三个方面:
  一是数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如微博、社交网站、传感器等多种来源。
  二是数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中70%-85%的数据是如图片、音频、视频网络日志、链接信息等非结构化和半结构化的数据。
  三是数据之间关联性强,频繁交互。如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有了很强的关联性。


发表我的评论

    验证码(*)

Hi,您需要填写昵称和邮箱!

  • 必填项