2023年12月3日发(作者:)
-

对大数据的心得体会
早在
XX
年,人类制造的信息量有史以来第一次在理论 上超过可用存储空间总量,近几年两者的剪刀差越来越大。
XX年,全球数字规模首次达到了“
ZB”级别。XX年,淘宝 网每天在线商品数超过
8亿件。XX年底,中国手机网民超过
6
亿户。随着互联网、移动互联网、传感器、物联网、社交 网站、云计算等的兴起,我们这个社会的几乎所有方面都已 数字化,产生了大量新型、实时的数据。无疑,我们已身处 在大数据的海洋。 有两个重要的趋势使得目前的这个时代 与之前有显著的差别:其一,社会生活的广泛数字化,其产 生数据的规模、复杂性及速度都已远远超过此前的任何时代; 其二,人类的数据分析技术和工艺使得各机构、组织和企业 能够以从前无法达到的复杂度、速度和精准度从庞杂的数据 中获得史无前例的洞察力和预见性。
大数据是技术进步的产物,而其中的关键是云技术的进 步。在云技术中, 虚拟化技术乃最基本、 最核心的组成部份。 计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在 数据存储、 挖掘、分析和应用分享等方面不仅在技术上可行, 在经济上也可接受。
在人类文明史上,人类一直执着探索我们处的世界以及 人类自身,一直试图测量、计量这个世界以及人类自身,试 图找到隐藏其中的深刻关联、运行规律及终极答案。大数据 以其人类史上从未有过的庞大容量、极大的复杂性、快速的 生产及经济可得性,使人类第一次试图从总体而非样本,从 混杂性而非精确性,从相关关系而非因果关系来测 量、计量 我们这个世界。人类的思维方式、行为方式及社会生活的诸
多形态正在开始发生新的变化。或许是一场革命性、颠覆性 的变化。从这个意义上讲,大数据不仅是一场技术运动,更 是一次哲学创新。
1
大数据的概述
大数据的概念
大数据是指那些超过传统数据库系统处理能力的数据。 它的数据规模和转输速度要求很高,或者其结构不适合原本 的数据库系统。为了获取大数据中的价值,我们必须选择另 一种方式来处理它。
数据中隐藏着有价值的模式和信息,在以往需要相当的 时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企 业都要付高昂的代价才能从大数据中挖掘信息。而当今的各 种资源,如硬件、云架构和开源软件使得大数据的处理更为 方便和廉价。即使是在车库中创业的公司也可以用较低的价 格租用云服务时间了。
对于企业组织来讲,大数据的价值体现在两个方面:分 析使用和二次开发。对大数据进行分析能揭示隐藏其中的信 息,例如零售业中对门店销售、地理和社会信息的分析能提 升对客户的理解。对大数据的二次开发则是那些成功的网络 公司的长项。例如
通过结合大量用户信息,定制 出高度个性化的用户体验,并创造出一种新的广告模式。这 种通过大数据创造出新产品和服务的商业行为并非巧合,谷
歌、雅虎、亚马逊和
Facebook,它们都是大数据时代的创新 者。
大数据的三层关系 第一层关系:数据与机器的关系。大数据纪元刚开始, 产业界碰到的第一个核心问题就是“大”的问题。做了几十 年的数据仓库甚至海量并行处理的数据库都不能处理那么 大的数据,怎么办?需要范式切换。主要有三个方面,新型 的数据与机器关系当中的第一条就是重新考虑架构与算法, 重新考虑舍得,有舍才能得,天下没有免费的午餐,所以必 须要舍弃一些,得到一些新的。必须舍弃贵族化的高端小型 机和UNIX服务器,得到平民化的更大量的
X86服务器。通
过这样一种可横向、可水平扩展服务器处理每两年翻番的数 据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得 到软件的可靠性和可用性。这也就是谷歌三大论文以及
Hadoop的核心重点。第三个舍得是舍弃传统数据库的强一致 性,获得更放松一致性、可扩展架构,如
NoSQL第四个舍
得是传统算法强调非常严格的精确性,现在要放弃一些精确 性,通过近似、采样这种方式来获得更好的扩展性。
最早大数据的处理范式是
Mapreduce
的批量处理,英特
尔慢慢有其他的需求,实时的流处理、多迭代的处理、图计 算、即时查询等等新的范式百花齐放,最后万法归宗。刚才 王斌老师将讲的
SAP的HANA本身就是数据管理和分析的融 合,现在非常流行的Hadoop之后的SPAR,就是把前面的各 种范式进行了融合。
存储与内存的消长,大数据第一个要解决把数据存储下 来,后来发现要把它放到大的内存里进行处理, 获得实时性, 接着在存储和内存之间现在又出现了闪存,有闪存化甚至全 闪存的存储,也有闪存化的 内存,把所有的计算在闪存里面 处理,已经被微软、Facebook等等大量使用。大家可以预期, 两年以后出现新的非易失性的闪存,它的速度可能要比闪存 快几百倍,和内存相似,这又会极大地颠覆数据与机器的关 系。
第二层关系:数据与人的关系。主要是价值的觉醒,如 果数据不能产生价值它可能是负面资产。数据怎么能够给人 带来价值?我们介绍一下它的价值维度,把它映射到二维的 时空象限里,用六个关键词来描述它。第一是“
Volume”,
两个关键词,小数据见微对个人进行刻划,大数据知著能够 了解宏观规律,它是空间概念,同时也是时间概念,数据刚 刚产生的时候,它的个性化价值、见微的价值最大,而随着 时间的推移, 它渐渐退化到只有集合价值。 第二是
Velocity
, 时间轴的原点是当下实时价值,副轴是过往,正轴是预测未 来,如果知道知前后就能够做到万物的皆明。 第三是
Variety
, 多源异质的数据,能够过滤噪声、查漏补缺、去伪存真,就 是辩讹。还有晓意, 能够从大量的非结构化数据中获得语意,
从而能够使机器窥探人的思维境界,这六个价值维度怎么去 实现?主要是两部分人,一是数据科学家要洞察数据,另外 一个是终端用户和领域专家要去解读数据并利用数据。首先 看洞察数据,数据科学,人和机器作用发生了消长,讲个例 子,机器学习大家觉得是机器的问题,其实人在里面起到很 重要的作用,尤其是机器学习是模型加特征,而特征工程是 一个人力工程,你要有经验非常丰富的特征团队去死磕特征, 找出更好、更多的特征,才能够使机器学习的效果更好。但 是现在深度学习 这些新技术出来,能够用机器学习特征,能 够在大量非结构化数据中找到丰富的信息维度用特征表达 出来,这远远超出了人的能力。大家知道黑客帝国描述了一 个场景,人脑袋后面插一个插头,给机器提供营养,我可能 不会那么悲观,但是像这样的互动关系以一种更良性的方式 出现了,现在人的一言一行、社交行为、金融行为都已经成 为机器的养料、机器的数据,使得机器获得更好的洞察。
终端用户需要更好地、更傻瓜化的分析工具和可视化工
具,两年前我去参加大数据的会, 基本上都是Hadoop和NoSQL
现在大家参加大数据会可以看到清一色的分析工具和可视
化工具。大数据跟各行各业的化学作用正在发生。如果
马化腾说 “互联网
+”是互联网与各行各业的加法效应, 那么大数据将与各行各业产生乘法效应。
第三个关系,数据与数据的关系。现在只有海面平的数 据是搜索引擎可以检索到,深海的数据可能是黑暗的数据, 在政府、在企业里大家看不到。我们怎么办呢?必须让数据 发现数据。只有让数据能够发现数据、遇到数据,才能产生 金风玉露一相逢、便胜却人间无数的效果。这里有三个重要 的观念,需要法律、技术、经济理论和实践上配合。法律上 要明确数据的权利,数据所有权,数据的隐私权,什么数据 不能给你看;数据的许可权,什么数据是可以给你看的;数 据的审计权,我给你看了以后,你是不是按照许可的范围去 看;数据的分红权。数据像原油又不同于原油,原油用完了 就没有了,数据可以反复地产生价值,因此数据的拥有者应 该得到分红。我们要保证数据的开放、共享、交公共 易。 数据和部分科研数据要开放,开放过程中注意保护隐私。企 业之间可以进行数据的点对点共享,最高境界是不丢失数据 的所有权和隐私权的前提下共享,这里有多方安全计算的概 念。1982
年姚期智老先生提出了百万富翁的窘境的问题, 个百万富翁他们想要比谁更富,但是谁都不愿意说出来自己 都多少钱,在我们的数据共享当中要通过各种各样的技术达 到这样的效果。还有数据交易,建立多边多边平台来支持数
据交易
互联网能发展起来经济学理论和实践是很重要的支撑, 梅特卡夫定律决定了一个互联网公司的价值,跟它用户数的 平方成正比,又比如说谷歌请最好的经济学家,它的一个广 告业务的核心就是建立在一个非常先进的拍卖经济学的模 型基础上。数据经济也需要这样一些基础的理论,比如数据 定价和信息定价不一样,信息做一个咨询报告
5000
美金卖 给你,可以卖给所有人。但数据对不同的单位价值不一样, 可能我之毒药是彼之蜜糖。另外估值,一个企业拥有大量的 数据,是无形资产的一部分,对于企业的市场价值带来了多 大的增长。
大数据的四个特性 大数据是需要新处理模式才能具有更强的决策力、洞察 发现力和流程优化能力的海量、高增长率和多样化的信息资
产。这也是一个描述性的定义,在对数据描述的基础上加入 了处理此类数据的一些特征,用这些特征来描述大数据。当 前,较为统一的认识是大数据有四个基本特征
:
数据规模大
( Volume)
,数据种类多
( Variety)
,数据要求处理 速度快
( Velocity)
,数据价值密度低
( Value)
,即所谓 的四
V
特性。
数据规模大
( Volume)
:企业面临着数据量的大规模增 长。例如,IDC最近的报告预测称,到
2020年,全球数据量
将扩大
50
倍。目前,大数据的规模尚是一个不断变化的指 标,单一数据集的规模范围从几十
TB到数PB不等。简而言
之,存储1PB数据将需要两万台配备
50GB硬盘的个人电脑。 此外,各种意想不到的来源都能产生数据。
数据种类多
( Variety)
:一个普遍观点认为,人们使用 互联网搜索是形成数据多样性的主要原因,这一看法部分正 确。然而,数据多样性的增加主要是由于新型多结构数据, 以及包括网络日志、社交媒体、互联网搜索、手机通话记录 及传感器网络等数据类型造成。其中,部分传感器安装在火 车、汽车和飞机上,每个传感器都增加了数据的多样性。
处理速度快
( Velocity)
:高速描述的是数据被创建和 移动的速度。在高速网络时代,通过基于实现软件性能优化 的高速电脑处理器和服务器,创建实时数据流已成为流行趋 势。企业不仅需要了解如何快速创建数据,还必须知道如何 快速处理、分析并返回给用户,以满足他们的实时需求。根 据
IMS Research
关于数据创建速度的调查,
测, 到
2020
年全球将拥有
220
亿部互联网连接设备。
数据价值密度低
( Value)
:大数据具有多层结构,这意 味着大数据会呈现出多变的形式和类型。相较传统的业务数 据,大数据存在不规据预
-