首先我们来谈一谈什么叫大数据
大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流的软件工具,在合理时间内达到管理,处理,并整理成为帮助企业经营决策积极目的的资讯。
大数据通常具有以下几种特点:
1、大量:即数据体量庞大,包括采集、存储和计算的量都非常大。
2、高速:要求处理速度快,从各类型的数据中获得高价值的信息
3、多样:数据种类繁多
4、价值:价值密度低,由于数据产生量巨大且速度非常快,必然形成各种有效数据和无效数据错杂的状态,因此数据价值的密度低。
5、在线:数据永远在线,随时能能调用计算
大数据发展历程
1、上世纪末,是大数据的萌芽期,处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被应用。
2、2003年-2006年是大数据发展的突破期,社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统、数据库架构开始重新思考。
3、2006年-2009年,大数据形成并行计算和分布式系统,为大数据发展的成熟期。
4、2010年以来,随着智能手机应用,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。
5、2011年麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》宣传推广,大数据概念开始风靡全球。
6、2013年5月,麦肯锡全球研究所发布了一份名为《颠覆性技术:技术改进生活、商业和全球经济》的研究报告,报告确认了未来12种新兴技术, 而大数据是这其中需求技术的基石。
7、2014年5月,美国发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇,守护价值》。报告鼓励使用数据推动社会进步。
大数据相关技术发展大数据技术发展可以分为六个方向:
1、在大数据采集与预处理方向。这个方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,影响到数据的可用性。
2、大数据存储与管理方向。这个方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数
大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流的软件工具,在合理时间内达到管理,处理,并整理成为帮助企业经营决策积极目的的资讯。
大数据通常具有以下几种特点:
1、大量:即数据体量庞大,包括采集、存储和计算的量都非常大。
2、高速:要求处理速度快,从各类型的数据中获得高价值的信息
3、多样:数据种类繁多
4、价值:价值密度低,由于数据产生量巨大且速度非常快,必然形成各种有效数据和无效数据错杂的状态,因此数据价值的密度低。
5、在线:数据永远在线,随时能能调用计算
1、上世纪末,是大数据的萌芽期,处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被应用。
2、2003年-2006年是大数据发展的突破期,社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统、数据库架构开始重新思考。
3、2006年-2009年,大数据形成并行计算和分布式系统,为大数据发展的成熟期。
4、2010年以来,随着智能手机应用,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。
5、2011年麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》宣传推广,大数据概念开始风靡全球。
6、2013年5月,麦肯锡全球研究所发布了一份名为《颠覆性技术:技术改进生活、商业和全球经济》的研究报告,报告确认了未来12种新兴技术, 而大数据是这其中需求技术的基石。
7、2014年5月,美国发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇,守护价值》。报告鼓励使用数据推动社会进步。
1、在大数据采集与预处理方向。这个方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,影响到数据的可用性。
2、大数据存储与管理方向。这个方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数
