✅ 操作成功!

《智能时代》吴军

发布时间:2024-03-28 作者:admin 来源:讲座

2024年3月28日发(作者:)

《智能时代》吴军

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第1期。

本书作者吴军,是美国霍普金斯大学计算机科学博士,人工智能、自然语言处理和网络搜索专家。2014年,他在硅谷创办了丰元资本风险投资公司,成为一位投资人。

同时,他还是一位高产的畅销书作家,著有《浪潮之巅》《数学之美》《文明之光》《见识》《态度》《格局》等十几部作品。

《智能时代》一书出版于2016年,吴军老师在书中指出:我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而攻克。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代。大数据和机器智能对于未来社会将产生全方位的影响。

那么,什么是大数据?大数据和机器智能的本质是什么?智能时代我们将面临哪些挑战与机遇?大数据与智能革命又将怎样定义人类的未来呢?

接下来,就让我们一起到书中去探索这些问题的答案。

01

数据的作用

在人们普遍的印象中,数据就是数字。其实,数据的范畴远比我们想象的要大得多,它是随着人类文明的进程,不断地扩大和变化的。

在计算机出现之前,书籍上的文字内容并不被看成数据。而今天,在互联网时代,任何语言和文字形式存在的内容都可以看作是数据,比如,常见的图片、文字和视频等等。就连我们人类活动的本身,也被看作一种特殊的数据,成为数据处理的对象,比如,我们的购物习惯、社会关系和每天的活动等等。

因此,吴军老师认为:数据是文明的基石,人类对它的认识也反映了文明的程度。

人们在谈论数据的时候,常常会把数据和信息的概念混为一谈。信息是关于世界、人和事的描述,它比数据来得抽象。信息可以是我们人类创造的,例如两个人的语音通话记录,有时也可能被藏在事物的背后,需要挖掘和测量才能得到,比如宇宙大爆炸时留下的数据、日月星辰运作的周期等。

数据最大的作用是承载信息,但并非所有数据承载的信息都是有意义的。这是因为数据本身

是由人创造的,它既可能是真实的,也可能是被随意创造,甚至是伪造的。

有用的数据、无意义的数据和伪造出来的数据常常是混在一起的,但后两种数据无疑会干扰我们从大数据中获取有用的信息。因此,如何处理数据,过滤掉无用和有害的数据,获取数据背后的真实信息,不仅是种技术,也是一门艺术。

只有善用数据,才能得到数据背后的信息。通过对数据和信息的处理,人类就可以从中获取知识。

人类的进步,就是靠使用知识来不断改变我们的生活和周围的世界,而数据则是知识的基础。

早期人类获取数据的来源,主要依靠对现象的观察,因为人类希望通过了解周围的世界,从而更好地生活。

为什么几千年前亚非大陆上的闪米特人,会选择在尼罗河畔定居呢?重要的原因在于,当时的埃及人通过对天象的观察,预测出尼罗河每年洪水到来和退出的时间。他们在洪水退去后留下的大片土地上耕种。

古老的埃及人,还在观察天象数据的基础上开创了天文学。

从观察中总结出数据,是人类和动物的重要区别,而得到数据和使用数据的能力,是衡量人类文明发展水平的标准之一。

人类的文明过程,其实伴随着使用数据的标准流程:获取数据、分析数据、建立模型、预测未知。因而可以说,数据是人类文明的基石。

02

如何让数据发挥作用

其实数据的作用自古有之,并非到了大数据时代大家才意识到,在某种程度上讲,获得和利用数据的水平反映出了文明的水平。

过去,人们之所以容易忽视数据的作用,一是因为数据的积累需要一个较长的时间,二是因为数据和想要获得的信息之间的关系通常是间接的。

如何才能让数据发挥出作用呢?

答案是利用好不同数据之间的相关性,相关性是让数据发挥作用的魔棒。我们通过一个例子来说明相关性对数据使用的重要性。

在1964年的《人民画报》上,刊登了一张铁人王进喜的照片。照片的背景是高高的井架,照片中的王进喜头戴大皮帽,身穿厚重的大棉袄,手握钻井机的扳手,眼睛眺望着远方。

在一般人看来,这张照片除了体现出当时石油工人的豪迈之气外,似乎并没有什么特别之处。然而,这张照片在当时日本情报人员的眼中,展现出了很多的信息。

首先,根据王进喜的穿着,情报员可以判断出油田在中国的极北地区,可能在哈尔滨和齐齐哈尔之间。然后,他们从照片背景中的井架的密度,推算出了油田的产量。最后,从王进喜手握钻井机的方式,他们推算出了油井的直径。

日本人通过对王进喜照片的数据分析,获得了关于大庆油田的相对准确的信息,使得日本在20世纪70年代,顺利拿下了中国政府采购大庆油田石油设备的项目。

在这个案例中,数据的相关性发挥了巨大的作用。利用数据的相关性,不仅可以获得想要的信息,甚至还能得到意想不到的惊喜。

03

数据驱动方法

很多时候,当我们无法通过数据获得直接的信息时,可以将相关信息进行量化,通过数学模型,间接得到所需要的信息。概率论和统计学便是各种数学模型的基础。

统计学,有时又被称为数理的统计,是建立在概率论的基础之上的,通过收集、处理和分析数据,从而找到数据的内在关联和规律。

统计学在采集数据上有两个要点:

首先,要想取得准确的统计结果,需要充足的数据量。统计的结果越精确,需要统计的数据量就越大。

其次,除了充分的数据量,采集的数据也要具有一定的代表性。

统计所使用的数据,必须和你所想统计的目标相一致。如果数据不具有代表性,即便有足够的量,那么统计的结果也不一定是正确的。

比如,关于1936年美国总统大选的预测,当时著名的民意调查机构《文学文摘》,通过240万份问卷的统计,预测出共和党候选人兰登会当选。另一位在当时还名不见经传的统计学家、新闻学教授盖洛普,通过对5万人进行意见统计,得出了民主党候选人罗斯福会连任的预测。

结果证实,采用少量样本的盖洛普是对的。对于民众的疑惑,盖洛普做了解释:《文学文摘》统计的样本虽然多,但是并不具备代表性。《文学文摘》的调查员只是根据电话本上的地址发送问卷,而当时美国的家庭只有一半安装了电话,这些家庭收入相对偏高,并且大多支持共和党。

而盖洛普在设计统计样本时,则把美国选民的种族、性别、年龄和收入等各种因素考虑在内,因此他的样本虽然只有5万,但却都是具有代表性的。

在互联网出现以前,人们想要获得具有代表性的大量数据,并不是一件容易的事情。也只有在很少的情况下,能够单纯地依靠数据来解决复杂的问题。这是因为,在大多数复杂的应用中,需要通过数据来建立一个数学模型,才能在实际应用中产生作用。

建立数据模型,必须要先解决两个问题:第一,采用什么样的模型;第二,模型的参数是什么。

选择模型并不是一件容易的事情,通常,简单的模型未必和真实情况相匹配。因此,人们把大部分的精力花在寻找模型上。

鉴于完美的模型可能并不存在,即便存在,也不容易找到,所以人们开始考虑把很多简单、不完美的模型凑在一起,从而达到完美模型的效果。

从理论上来说,只要能够找到足够多具有代表性的数据样本,就可以找到一个模型,或者是一组模型的组合,来使它和真实情况相接近。

这种思路已经在现实生活中得到运用。这种方法就是数据驱动法,即先采集大量的数据,而不是预设模型,然后再用许多简单的模型去契合数据。

数据驱动法想要取得成功,除了大量的数据之外,还有一个重要的前提,那就是这些数据的样本必须具有代表性。

在今天的IT领域中,越来越多的问题可以用数据驱动法来解决,具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往的历史数据,构造出很多近似的模型来逼近真实情况。这实际上是用计算量和数据量来换取研究的时间,这种方法不仅仅是经验论,在数学上也是有严格保障的。

随着数据驱动法的普遍使用,数据将如何改变世界呢?让我们期待下一期的解读。

以上是本期节目的所有内容,感谢聆听。

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第2期。

随着移动互联网的出现,数据量不断增加并相互关联,大数据这一概念也应运而生。大数据的使用,让计算机完成了一些只有人类才能做到的事情,这最终将带来一场智能革命。

过去,只有人类可以用语音进行交流,尽管人类从1946年开始就努力让计算机能听得懂人的语音,但是一直不成功。

20世纪70年代,科学家们采用数据驱动的方式,找到了解决这一问题的方法,并且通过不断地改进,如今机器进行语音识别的准确率大大提高,图像识别的功能也取得了根本性的突破。

人们已经开始意识到数据的重要性,科学家和工程师们,采用大数据的方法使计算机的智能水平产生了质的飞跃,在很多领域,计算机将获得比人类更高的智能。

吴军老师认为,人们正在经历一场由大数据带来的技术革命,这场革命最典型的特征就是计算机智能水平的提高,因此它被称为智能革命。

当计算机的智能水平超过人类时,我们的社会可能会发生翻天覆地的变化,这也正是大数据的可怕之处。

01

什么是机器智能?

1946年,第一台电子计算机埃尼阿克(ENIAC)的诞生,使得人类开始重新考虑机器能否有智能的问题。真正科学地定义什么是机器智能的人,是电子计算机的奠基人阿兰·图灵博士。

1950年,图灵在《思想》杂志上发表了一篇题为《计算的机器和智能》的论文。在论文中,图灵提出了一种验证机器有无智能的判别方法。

这种方法被后人称为“图灵测试”。它具体是这样进行的:让一台机器和一个人坐在幕后,找一个裁判同时与幕后的人和机器进行交流,如果裁判无法判断自己交流的对象是人还是机器,则说明这台机器有了和人同等的智能。

计算机科学家们认为,如果计算机可以实现以下五件事情中的一件,就可以认为计算机具有图灵所说的那种智能。这五件事分别是:

1、语音识别。

2、机器翻译。

3、文本的自动摘要或者写作。

4、战胜人类的国际象棋冠军。

5、自动回答问题。

今天的计算机,不仅能够完成以上五件事情,还能超额完成任务。比如在下棋方面,计算机不仅战胜了象棋的世界冠军,还战胜了围棋的世界冠军。

1956年的夏天,信息论创始人克劳德·香农和一群年轻的学者,在达特茅斯学院召开了一次头脑风暴式的研讨会。这群年轻的学者们讨论的是当时计算机科学尚未解决和展开研究的一些问题,其中包括人工智能、自然语言处理和神经网络等。

人工智能和机器学习就是始于那次会议之后。

人工智能这一名词,严格地讲有两个定义:

第一,泛指机器智能,就是任何可以让计算机通过图灵测试的方法,包括数据驱动的方法。

第二,是狭义上的概念,就是指20世纪五六十年代特定的研究机器智能的方法。

后来,那些利用其他方法产生机器智能的学者,为了划清自己和传统方法的界限,特地强调自己不是用人工智能的方法。因此,学术界将机器智能分为传统人工智能的方法和现代的其他方法,后者包括数据驱动法、知识发现和机器学习等。

当然,计算机领域之外的人们,在谈到人工智能时,常常是泛指任何机器的智能,并不局限于传统的方法。

那么,传统的人工智能方法是什么呢?简单地讲,就是首先了解人类是如何产生智能的,然后再让计算机按照人的思路去做。

在今天,几乎所有科学家都不再坚持“机器要像人一样思考才能获得智能”了,但是很多人在谈到人工智能时,依然想象着“机器在像我们那样思考”。

事实上,当我们回到图灵博士描述机器智能的原点时就能发现,机器智能最重要的是解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。

人工智能这个概念在刚被提出来的时候,这个研究课题在全世界都非常热门,人们仿佛觉得用不了多长时间,计算机就会变得比人更聪明了。

经过十几年的研究,科学家们发现,人工智能其实并非人们想象中的那种智能,除了做出几

个简单的“玩具”,比如,让机器人像猴子一样摘香蕉,解决不了什么实际问题。

02

数据的奇迹

20世纪的60年代末,计算机科学的其它分支发展得非常迅速,但人工智能的研究却开展不下去了。因此,美国计算机学界开始反思人工智能的发展。虽然一些人认为机器之所以智能水平有限,是因为它还不够快、容量不够大,但是,也有一些有识之士认为,科学家们走错了路,照着那条路走下去,计算机再快也解决不了智能问题。

直到70年代,人们开始尝试机另一条发展道路——采用数据驱动和超级计算的方法。

1972年,康奈尔大学的教授弗雷德·贾里尼克,到IBM做学术休假,正好当时IBM想开发“聪明的机算机”。于是,贾里尼克就“临时”负责起这个项目。当时,人们对“聪明的计算机”的共识是,它要么能够听懂人的话,要么能将一种语言翻译成另一种语言,要么能够赢得国际象棋的世界冠军。

于是,贾里尼克根据自己的特长和IBM的条件,选择了计算机自动识别人的语音的任务。

在贾里尼克之前,主流的研究方法主要有两个特点:第一个是让机算机尽可能地模拟人的发音特点和听觉特征;第二个是利用人工智能的方法理解人所讲的完整的语句。

贾里尼克作为一位通信专家,他看待语音识别的角度,和先前主流的计算机科学家们完全不同。他认为,语音识别并不是一个人工智能的问题,而是一个通信问题。

人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一个编码的过程,而听者接收到语音并理解,是一个解码的过程。

贾里尼克用两个数学模型,分别描述信息源和信息道。找到了数学模型之后,下一步就是要用统计的方法“训练出”模型的参数,这在今天来讲就是机器学习

通过四年的时间,贾里尼克和他的团队,开发出了一个基于统计方法的语音识别系统,它的语音识别率从过去的70%左右提高到了90%以上,语音识别的规模从几百个词汇,上升到两万多词汇。从此,语音识别走出实验室,被实际应用。

贾里尼克和他的团队,在对语音识别的研究过程中,无意间开创了采取统计学方法解决智能问题的途径。这种方法需要使用大量的数据,因此被称为数据驱动法。这种方法最大的好处就是,随着数据量的积累,系统会变得越来越好。

到了20世纪的90年代,随着互联网的兴起,数据获取变得非常容易。语音的识别率从1994到2004年,发生了质的变化——语音识别的错误率减少一半,机器翻译的准确性提高了一倍,其中只有20%的贡献是来自方法的改进,有80%的贡献是来自于数据量累积的攀升。

03

大数据的特征

进入21世纪后,互联网的出现使得可用的数据量剧增,因此数据驱动法的优势越来越凸显了出来。很多需要类似人工智能才能做成的事情,计算机都已经可以胜任了,这一从量变到质变的飞跃,得益于数据量的日益增加。

全世界各个领域的数据不断向外扩展,逐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点到线渐渐地连成了网。数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。

大数据一词,频繁地出现于媒体是在2007年之后。我们要谈大数据的问题,首先要了解什么是大数据,以及它具有哪些特征。

大数据最大的特征就是体量大,但是仅有大量的数据,并不一定就是大数据。大数据之所以有用,是因为它除了大之外,还有其它的特征。

一些数据专家将大数据的特征简要概括为三点,即:大量(Vast),多样性(Variety),和及时性(Velocity)。

其实,大数据还具有一个非常重要,却又容易被人们忽视的特点,就是它的全面性,也可以说是完备性。

最后一个重要特点,是从大数据的英文写法Big Data中分析出来的。英文中的Big是抽象意义上的大,强调的是相对的大小。

仔细推敲Big Data这一说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。

在大数据出现之前,计算机并不擅长解决需要人工智能来解决的问题,但在今天,只要将这些问题换个思路就能得到解决,其核心就是变智能问题为数据问题。

智能革命使得机器产生了和人类类似的智能,它会对人类社会产生哪些重大的影响呢?让我

们期待下一期的解读。

以上是本期节目的所有内容,感谢聆听。

你好,欢迎来到「益伴」。

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第3期。

我们生活在一个不确定的时代,难以找到确定性已经是当下社会的常态。

在无法确定因果关系时,数据为我们提供了解决问题的新方法。这是因为数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这就是大数据思维的核心。

一个新的时代,需要新的方法,也一定会产生新的方法论。

机器智能革命让计算机在越来越多的领域超过人类,因此机器智能终将会对人类社会产生巨大的影响。大数据作为一种全新的思维方式,必将从根本上改变我们做事情的方式和方法。

如果我们想要了解大数据思维,以及这种新思维方式的重要性,那么我们首先要了解人类认识世界的方法的演变和发展过程。

01

机械思维

在大数据思维出现以前,长期以来指导人们日常行事的一种思维方式是机械思维。

机械思维在两个世纪前,就是像互联网思维和大数据思维一样的热词流行语。

机械思维虽然听起来,让人觉得是一种古板、僵化的思维方式,但事实上,在过去的三个多世纪里,机械思维算得上是人类总结出的最重要的思维方式,是现代文明的基础。

思维方式决定着科学成就,方法论对科学的发展起着至关重要的作用。东方文明虽然在技术上长期领先于西方,但在科学体系的建立上落后于西方,而这其中的关键便是输在了方法论上。

东方的中国和阿拉伯帝国,虽然在工程和技术上有不断进步,但在发展科学方法上并没有做出很多贡献。对近代社会思想贡献最大的人是英国著名的科学家和思想家牛顿。

西方对牛顿的评价之高是东方人难以想象的。那么,在东方人眼中不过是个科学家的牛顿,

为什么在西方有着如此崇高的地位呢?

这是因为在西方欧美人的眼中,牛顿是人类历史上最重要的思想家之一。牛顿通过他在数学、物理、天文学和光学等领域所开创的成绩,总结出一种全新的方法论,这种方法论,开创了科学的时代、理性的时代,同时开启了西方的近代社会。

牛顿最直接的贡献在于,他用简单而优美的数学公式破解了自然之谜。牛顿在他的巨作《自然哲学之数学原理》一书中,用几个简明的公式,也就是力学三定律和万有引力定律,破解了宇宙中万物运动的规律,用微积分的概念把数学从静止的变量拓展为连续变化的函数。

在他的《光学》一书中,他把看上去虚幻的光分解为单个原色。

牛顿通过自己的伟大成就宣告了科学时代的来临,作为思想家,他让人们相信世界万物的运动变化规律是可以被认识的。他告诉人们:世界万物是运动的,这些运动遵循着确定性的规律,而且这些规律是可以被认识的。

牛顿的这些发现,给人类带来了从未有过的自信。在牛顿之前,人类对自己能否认识自然是缺乏信心的,那些在今天看似不需要解释的自然现象,比如日月星辰为什么升起又落下,在当时却是无法被人们认识的,因此人类对自然恐惧而迷信。

直到牛顿出现,人们才开始摆脱这种在大自然面前被动的状态,能够主动地应用科学,把握未来。

后来,人们将牛顿的方法论概括为对人类产生深远影响的机械思维,其核心可以用三句话来表达:

1、世界变化的规律是确定的。

2、有确定性做保障,因此规律不仅是可以被认识的,还可以用简单的公式或语言描述清楚。

3、这些规律是放之四海而皆准的,可以用于任何领域并指导实践。

正是机械思维中积极的本质,带来了人类历史上最伟大的事件——工业革命。

工业革命给人类带来的不仅是财富,更重要的是大大延长了人类的寿命。由此可见,一种新的思维方式对人类文明进步的重要性之大。

从牛顿时代开始,接下来的3个世纪里,人类越来越习惯用机械思维来描述一切,人类社会的进步在很大程度上,也是受益于机械思维。

然而,进入互联网信息时代,机械思维的局限性开始越来越明显。

首先,并非所有的规律都可以用简单的原理描述。其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律已经被发现了。

另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。

现代社会里,当人们开始考虑如何取得科学上的突破,把事情做得更好时,一种新的方法论就诞生了。

02

信息熵

世界的不确定性,主要来自两个方面:

第一,当我们对世界方方面面的认识越来越细致后,就会发现世界的变量其实非常的多,甚至已经无法用简单的方法或公式算出结果。

第二,来自于客观世界本身,不确定性是我们所在宇宙的特性。

在现实生活中,虽然很多事情无法用确定的公式或是规则来表达,但是这并不代表它们无规律可循,通常情况下可以用概率模型来表述。

在概率论的基础上,美国数学家克劳迪·香农,将世界的不确定性和信息联系起来,并建立了一套完整的理论,也就是信息论。

信息这个词,我们几乎每天都会听到和说到,我们经常会用信息量太大,或是信息量太小的说法来评价信息量的大小,但是关于“如何度量信息大小”这个问题,似乎没有人认真地思考过。

如何度量信息?这个问题困扰了人类几千年。

1948年,香农在他的著作《通信的数学原理》中提出“信息熵”这一概念,解决了对信息的度量问题,同时还将信息和世界的不确定性联系到了一起。

香农在信息论中,借用热力学中“熵”的概念,来描述信息系统的不确定性。他指出:信息量与不确定性有关,假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,那么,就需要了解大量的信息。

相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。

所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

香农提出信息论的目的,原本只是建立通信科学理论,然而,信息论的作用远不止在科学和工程上,它也是一种全新的方法论。

信息论是建立在不确定性的基础之上,想要消除不确定性,就要引入信息。需要引入多少信息,则取决于系统中的不确定性的大小。这种思路成为信息时代人们做事情的根本方法。

在信息时代,谁掌撑了信息,谁就能获取财富,就如同在工业时代,谁掌握了资本,谁就能获得财富一样。

03

大数据的本质

有了信息论这样一个工具和方法论,我们也就能容易地认清大数据的本质。

当我们承认世界的不确定性后,就不会用确定性的思维方式去面对一个不确定性的世界。因此,当我们了解信息或是数据能够消除不确定性之后,也就能理解为什么大数据的出现能够解决那些智能问题。大多数的智能问题从根本上来说,无非就是消除不确定性的问题。

大数据具有数据量大、多维度和完备性三个主要特征,下面,我们从这三个维度来讲解一下大数据的本质。

首先,我们来说数据量的问题,在过去数据量不足的情况下,即便科学家使用数据,依然不能消除不确定性。所以,哪个领域先积累足够多的数据,它的研究进展就会快一些。比如,谷歌搜索之所以比其他搜索准确,是因为谷歌使用的人多,数据量也大。

然后,我们来说大数据的多维度。想要获取相关性,我们通常需要多个维度的信息,也就是“互信息”。互信息可以衡量随机变量之间相互依赖程度。比如“湿度高”和“下雨”之间的互信息较大。

最后,是大数据的完备性。在大数据出来之前,任何基于概率统计的模型,都会有许多小概率事件覆盖不到。当数据完备之后,相当于训练集合和使用集合是同一个集合,因此就不会出现小概率覆盖不了的“黑天鹅事件”。

大数据的科学基础是信息论,而它的本质就是利用信息消除不确定性。人类社会使用信息由

来已久,但随着大数据时代的到来,人们开始发现采用信息论的思维方式,可以让过去很多复杂的难题迎刃而解。

大数据思维成为我们面对不确定的世界,解决复杂问题的有效的方法论,它会对未来的社会带来哪些影响呢?让我们期待下一期的解读。

以上是本期节目的所有内容,感谢聆听。

你好,欢迎来到「益伴」。

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第4期。

吴军老师认为:每一个人、每一个企业在接受大数据思维,改变了做事情的方式之后,就有可能实现一些在过去想都不敢想的梦想。在这些梦想的基础上,我们能够构建一个完美的商业环境和一个更加现代化的社会。

这是因为大数据思维并不是抽象的,它是一套让人们通过数据寻找到相关性,最后解决各种难题的方法。

01

大数据与商业分析

在大数据出现之前,人们寻找一个规律,需要经历“假设——求证——再假设——再求证”这样一个漫长的循环过程,因此想要找到规律是非常困难的,而且将这些规律应用到个案上的成本也非常高。

但是,有了大数据之后,对这一类问题的解决就变得简单了。由于大数据依靠的是机器智能,大大降低了人工成本,因此执行的成本也就非常低。

接下来,我们通过美国第二大连锁百货店——塔吉特成功运用大数据进行商业分析的案例,来说明大数据对商业的影响。

塔吉特连锁百货公司在2002年聘请了统计学硕士安德鲁·波尔来给公司做数据分析。在波尔到塔吉特之前,塔吉特通过客户的信用卡号和接收发票的邮箱,将顾客同他们所购买的商品联系起来。

但是,如何使用这些数据,这些数据有什么用,塔吉特的管理人员并没有思考过。波尔到塔吉特任职之后,对这些数据做了用户行为的分析。

有一天,公司市场部的同事来找他,问他是否能够通过大数据判断出哪些女性顾客怀孕了。

因为一个家庭如果有了孩子,那么人们的购物习惯就会有所改变,甚至可能开始疯狂购物。如果百货店能在这个时候,给这些顾客推送相应商品的优惠券,就可以牢牢把握住这些用户的刚需。

于是,波尔的数据分析团队开始对怀孕顾客的行为进行分析,结果发现,不同女性在怀孕的各个阶段,购买的东西有很大的相似性。

在怀孕的最初阶段,女性因为出现皮肤干燥症状,会购买大瓶的无味润肤油。接下来,她们会购买维生素和一些营养品。再接着,购买大包无味的香皂和棉球。等到她们开始购买婴儿用的毛巾等用品时,表示她们的分娩期快到了。尽管每个孕妇的购物习惯和购买的东西都不完全相同,但这个大趋势还是可以被系统自动地归纳出来。

塔吉特依靠大数据的分析结论,找出25类商品,一旦确定哪个家庭有人怀孕,就会根据孕妇怀孕的不同时期,向这些家庭推送这25类商品的优惠券。

利用大数据精确地把产品推送给用户的做法,让塔吉特在美国零售业市场趋于饱和并且被电商瓜分的情况下,仍然能保持稳定的增长。

2002年波尔来到塔吉特,当时塔吉特的销售营业额是440亿美元;到了2010年时,塔吉特的销售营业额已经上升到了670亿美元。

塔吉特利用大数据做生意的故事,非常具有代表性,它能够反映出大数据和未来商业的关系。

利用大数据分析用户的家庭情况,然后针对性地推荐产品,对提升销售额会有一定的帮助。当下,比如淘宝、天猫、京东这类掌握用户消费大数据的平台,通常会比用户自己更了解他们的需求。

02

大数据商业的共同点

在大数据出现前,人们想要得到数据的关联信息,需要花费很长的时间才能收集到足够多的数据信息,然后还要花更长的时间来进行验证。这是过去的企业重经验、轻数据的原因。到了大数据时代,企业的观念开始发生转变。

我们可以看到大数据的时效性和个性化的特征带来的好处,如今,在互联网的各大电商网站上,商品的种类已经多得无法依靠浏览来选择。对于大部分没有明确目标的逛网店的人群来说,针对性的推荐就变得尤为重要。

从互联网电商平台针对性的推荐模式中,我们可以看出,技术的进步能够改变人们的思维方式,从而让商业呈现出新的形态。

大数据在实际商业案例的应用中,存在着一些普遍的规律,这些共同点,可以通过数据流(Data Flow)的一致性体现出来。

首先,这些看似杂乱无章的数据,是从很多不同的地方收集而来,比如不同的人、不同地点或不同公司等。这些数据在收集前都是原始的、未加工的,往往还是彼此独立的。

其次,这些数据在产生和收集时并没有特定的目的,因此怎样使用还需要视特定的应用而定。大数据具有多维度的特征,因此使用者可以根据自己的需求来进行过滤、筛选和处理。

既然是数据流,那么这些大数据是如何流动的呢?

大数据在商业应用中的流向,通常是从每一个细节到整体,再从整体到每一个细节两个方向的流动。

经常网购的人,应该会有所体会。每次网购时,不仅看到的网页内容不同,而且在完成购买行为之后,平台还会推荐相似的产品给你。

这种精细到每一次交易、每一次内容展示的服务,在过去人们应该是想都不敢想的,但是依靠大数据,这种精细化的服务在今天已经变成可能,并且它还代表着未来的商业趋势。

大数据可以让商业行为在准确把握宏观规律的同时,精确到每一个细节,从而提高利润。如今在互联网公司,利用大数据把握用户需求,并开展商业活动已经非常常见了。在未来,即使所谓的传统行业,也需要利用大数据重塑商业竞争力。

大数据在商业活动中从细节到整体,再从整体到细节的双向流动,使我们不仅能够利用大数据对商业进行整体提升,更能够精确到每一个细节,从而改变人们开发产品和解决问题的思路。

03

技术改变商业模式

吴军老师总结出两个简单的公式来概括大数据引发的智能革命,即:现有产业+大数据=新产业;现有产业+机器智能=新产业。

技术革命除了缔造出新产业外,也不可避免地带来了商业模式的变化,同时也会给人们的生

活方式带来变化。

自工业革命后,全世界的物质生产,从过去的供不应求,逐渐变成供大于求。1851年,第一届世界博览会在英国伦敦召开,英国向全世界展示了本国丰富的工业品,之后,世博会就逐渐成为商品时代的一种传统,并且这种传统一直延续至今。

第二次工业革命后,电的使用再次改变了商业模式。现代传媒和通信业的兴起,就是电普及后的直接产物。商品进一步供大于求,工业化的国家必须通过消费拉动经济增长,因此整个社会的消费价值观开始发生变化。

到了信息时代,商业模式的变化更加明显,突出表现在两个方面:第一,是产业链从一种产品扩展到整个IT行业;第二,是服务业的重要性突显了出来。

吴军老师对历次技术革命中商业模式的变迁进行分析之后,得出了三个结论:

第一个结论,技术革命导致商业模式的变化,尤其是新的商业模式的诞生。

第二个结论,生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。

第三个结论,商业模式的变化既有继承性,又有创新性。

从蒸汽机时代、电气时代到半个多世纪前开始的信息时代,它们一直验证着这样一个规律:原有产业加上新技术就会成为新产业,否则就会被淘汰。

这个规律在大数据时代依然成立,每一次技术革命的大潮中,并不需要所有公司都从事新技术本身的开发和产品研制。

因此,在大数据和机器智能的时代,虽然每一家公司都受益于大数据的使用和机器智能的好处,但是并不一定每家公司都要聘请数据分析专家和智能专家。

切合实际的做法是,公司可以通过付费的方式使用第三方大数据公司提供的服务。吴军老师预言,在未来,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

每一次的技术革命,都会诞生新的思维方式和商业模式,企业只有在思维上跟上时代,才能在日趋激烈的商业竞争中,立于不败之地。

那么,以大数据为核心的智能革命,在未来的发展和普及中还会遇到哪些技术上的挑战呢?让我们期待下一期的解读。

以上是本期节目的所有内容,感谢聆听。你好,欢迎来到「益伴」。

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第5期。

重大的科技突破,通常需要酝酿很长一段时间,因此技术的进步是一个缓慢的量的积累。在这段时间里,一切的发展都是平衡的,有人将这个阶段称为相对停顿的状态。

当积累到一定的程度之后,科技就会在短时间内获得突破,新的科技将全面迸发,这就是技术的拐点。

机器智能这一概念,自从被提出来开始,已经经历了60多年,然而机器智能真正获得突破是在具有了大数据的今天。

大数据引起科技行业的注意,也是发生在近10的事情,在短短几年间,大数据让机器智能水平有了跨越性的提高。

在全球商业每年增长不到10%的情况下,数据却能快速地增长,其中的原因概括来说,就是所有和数据相关的准备条件在这个时间点开始变得成熟。

大数据虽然已经呈现出了爆发式的增长,但在今天,大数据的应用依然处在初级阶段,在机器智能方面也只是刚起步。未来大数据和机器智能的发展,将面临怎样的挑战呢?

01

数据收集

大数据必须解决一些技术难题,才能保证普及和应用。其中有一个看似简单的问题,就是数据的收集。

依据信息论的观点,消除不确定性就需要足够多的信息,因此信息的收集变得非常关键。大数据与传统的统计方法相比,在收集数据上有很大的不同。其差异性主要表现以下两个方面:

首先,传统的数据方法是先有目的,然后再开始收集数据。在大数据时代,我们在收集数据时常常没有这样预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么结论就是什么结论。

正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来很多预想不到的惊喜,也才使大家觉得计算机变得聪明了。

其次,在获取数据方面,大数据和传统的统计方法也有所不同。传统的统计方法是通过少量

采样,获得所谓具有代表性的数据,这些具有代表性的数据被称为样本。根据统计学的原理,只要样本具有代表性,通过分析这些少量的样本数据,就可以总结出规律。

在过去的几个世纪里,科学家们就是这么做的,只不过当他们宣布自己从有限的数据中获得的规律具有普遍的意义时,很快就会有其它科学家找到反例,在局部的范围内推翻原来的理论。获得的理论之所以会被推翻,不但有人类认知局限的原因,还因为样本数据量少,不具有代表性。

大数据则避免了采样之苦,因为它常常以全集作为样本集。但是怎样收集到全集就是一件很有挑战的事情了。比如,想了解电视节目的收视率,最好的收集方法就是通过电视机顶盒记录每个用户的收视情况,现在智能电视机也能记录这些信息。

如果能够获取这些数据,就能够知道各个电视节目的收视率,也能得知插播广告的效果,如果对数据进一步分析,还能够知道每一个观众的特点。

这个想法虽然不错,但是能够通过机顶盒设备和电视机掌握用户数据的是机顶盒的生产厂商和有线电视运营商,问题在于这二者都不会轻易地将数据分享出来。

这便是很多想利用大数据做事的人和公司面临的一个困境。因此,数据的收集成为了一个看似简单的“难题”。

数据的收集是一个开放性的话题,不存在唯一的、最佳的方法。但是,好的方法一定能够保证数据的全面性和不变性。

02

数据存储

大数据的应用方法和应用场景,已经和过去对数据的使用完全不同了,这就给数据的存储带来挑战。摩尔定律虽然使得存储的成本大大降低,但伴随着大数据的出现,数据增长的速度可能超过摩尔定律增长的速度。

摩尔定律是揭示信息技术进步速度的一个定律。由英特尔的创始人之一戈登·摩尔提出,这项定律的内容是:当价格不变时,集成电路上可以容纳的元器件数量,约每隔18到24个月会增加一倍,性能也将提升一倍。通俗的理解就是,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。

造成数据储存量迅速增长的原因是,以前很多原本不打算存储下来的数据,都被存了下来。比如,以前拍照的留存只是基于某个重要的日子或时刻。然而,在智能手机时代,很多人的手机内存总是不够用,原因就是很多以前并没有打算要存储下来的东西,如今都想要存下来。

对于数据存储量的增长,不能简单依靠购买更多的设备来解决存储问题,而是需要技术解决方案来提高存储的效率,保证不断产生出来的数据都能够存下来。

目前节约存储设备的技术体现在两方面:

第一类技术是存储同样的信息占用的空间小。从信息论角度讲,就是要去除数据冗余,但是在去除数据冗余之时,相应的数据读写处理要做改变。比如,邮件中相同的附件只保留一个,把图片从点阵变成向量。

第二类技术涉及到数据安全,在这里所讲的数据安全是指数据不丢失、不损坏。数据表示遇到的难题在于:当大数据的颗粒度增大时,索引的建立变得困难,随机访问也就相应困难。比如,医疗行业、飞机设计制造行业等涉及数据的随机访问就很困难,他们的基本单元动辄几百上千兆。

信息存储的相关技术并不局限于研究如何节省存储量上,还需要研究怎样存储信息才能更加便于使用。大数据时代,数据的量和维度都在剧增,形式上也不遵循固定的格式。

因此,大数据时代需要重新设计通用、有效且便捷的数据表示方式和存储方式。同时,大数据面临的另一技术难题就是:如何使数据格式标准化,便于共享。

世界上有各种各样的大数据,每个公司都有自己的数据格式,所以人们只能在自己的领域内使用自己的数据。如果未来人类希望可以通过数据之间的相关性和多维度的特性,找到各种事物之间的关联,就需要制定一个统一的格式来描述,这样便于各公司、各行业之间相互交换数据。

03

数据安全

大数据在实际应用中遇到的另一个挑战就是人们对数据安全和个人隐私的诉求。

数据安全有两层含义:第一层,要保证用户数据不被损坏、不丢失。第二层,要保证数据不会被偷走或盗用。

大数据时代,由于数据量巨大,一旦丢失,不管是对公司还是个人,造成的损失都是巨大的。虽然在计算机系统的设计上,安全性的考虑比过去周全了很多,但是也还不能做到百分百防止黑客入侵盗取数据。

针对数据安全问题,科学家和工程师们首先想到,在文件和操作系统设计上加以改进,从系

统上根本解决信息安全的问题。但是,这样的技术研发并不是一朝一夕就能够做到的。

目前常见的行之有效的一种方法,就是利用大数据本身的特点,来保护大数据的信息安全。比如,利用大数据分析和机器学习,了解公司的正常业务流程,发现并防止异常的操作。

大数据所具有的多维度和全面性的特点,让它可以从很多看似支离破碎的信息中,完全复原一个人或一个组织的全貌,并清楚了解这个人的生活细节或组织内部的各种信息。

这就引发人们对于个人隐私的担扰,要如何保护个人隐私呢?在这个问题的回答上,可谓是仁者见仁,智者见智,但是通常大家有一点认识是相同的,那就是将自己的生活赤裸裸地曝光在众人的目光下会令人觉得不舒服。

在大数据时代,让人感到的遗憾的是,技术的发展和隐私的保护开始产生矛盾。或许我们已经习惯于出门在外被各种摄像头监视,在私家车里安装数据采集器。我们以为,只要回到家将门窗关起来,外面就不会知道家里发生的事情。但事实并非如此,智能家居已经可以知道家里每个人的活动。

因此,我们享受大数据带来的便利的同时,也要意识到个人隐私泄露所带来的危害。

吴军老师认为,想要既能够利用大数据带来的便利,又能保护好个人的隐私,可以采取两种办法。

一是从收集信息的一开始,就对数据进行一些预处理。

二是让数据采集者和数据的所有者进行“双向监视”,让侵犯隐私的人必须以自己的隐私来做交换。也就是说,数据采集者和数据的所有者都暴露在大众的目光之下,数据的采集和使用者同样被监督。

保护个人隐私对个人或企业来说,重要性都不言而喻。在未来,机器智能还将给人类带来哪些挑战?而人类又将如何应对这些挑战呢?让我们期待下一期的解读。

以上是本期节目的所有内容,感谢聆听。

你好,欢迎来到「益伴」。

今天为您解读的这本书叫做《智能时代》,本书中文版共计23万字,我会用6期的内容为您来讲解本书的精髓,本期是讲解的第6期。

智能革命毋庸置疑将给我们带来一个更好的社会,这个社会将是智能的、精细化的和人性化的。与此同时,智能革命也将给我们带来巨大的挑战。

随着大数据和机器智能的不断普及,机器会占据越来越多人类的工作机会,这些变化虽无声

无息,但是一旦它发展到一个拐点,就会形成不可逆转的趋势。

因此,大数据和机器智能在造福人类的同时,也会造成很多社会问题,让人们不知所措。所以,在智能革命到来之际,不管是个人还是企业或组织,都需要做到未雨绸缪。

如果智能时代任何事情都可以让机器来做,甚至做得比人还好,那么人类该怎么办呢?人类应该如何应对即将到来的智能时代?

01

未来的智能化产业

大数据必将导致社会产业的升级和变迁。人类在过去的300多年里,所经历的重大技术革命,都遵循着这样的规律,即:现有产业+新技术=新产业。

在智能时代,有些新的产业是旧产业以新的形态出现,而有些则是全新的产业。在接下来的智能革命中,依然是遵循着将现有产业转变为新产业以及全新产业的诞生的道路发展。在这个前提下,不论是哪一种产业,都有一个共同点,那就是智能化和精细化,我们可以把这些产业统称为“智能产业”。

在这些产业中,具有智能的计算机可以帮助人类完成相当多的工作,甚至是绝大部分的工作。虽然在今天看来,有些产业看似和机器智能没有多大关联,但是未来它们都会受到智能革命的彻底影响。这些改变,并非都可预测,有些已经发生了或是正在发生。

比如未来的农业。我们知道,农业作为人类最古老的产业,支撑着人类文明的基础。一直以来,自然环境中的土地面积和降雨量等,制约着农业的发展。

传统的解决农业用水资源短缺的方法是挖更多井,实质是将短期危机转化为了长期水资源危机。但如果跳出思维定式,思考:“种田是否真的需要那么多水和那么多土地?”我们会得到更加高效智能的农业。

比如,严重缺水的国度以色列,发明了滴灌技术,将装有滴头的管线,直接将水和肥料送达到植物的根系,从而大大节约了水和肥料。

农业在引入机器智能后,这个古老的产业在未来将会以新的形态出现,并且继续验证“现有产业+机器智能=新产业”这一技术革命进步的规律。

未来的教育、制造业、医疗等行业,都将在机器智能化后发生质的改变,发展成为新产业。

尽管每一次的产业革命都会带来很多变化,但是人类的许多基本需求其实并没有发生改变,

只是在采用新技术之后,新产业取代了旧产业来满足人类的需求。因此,在技术革命的时代,固守旧产业而不做出任何改变,是不会有任何出路的。

02

智能化社会

大数据和机器智能,将会把我们的社会管理水平提升到一个全新的高度,使我们的生活环境变得更加安全。

智能化社会具体表现在整个社会从宏观到微观的各个层面。下面,我们通过智能交通管理系统的例子,来阐述智能化如何让人类的生活环境变得更好。

在大都市上班的人,每天最烦心的事情就是上下班遇到交通拥堵。然而,未来的交通系统可以通过每个人手机上的APP出行软件,监测到人们在哪里,从而全面了解并预测出城市中每一条道路的交通情况,比如哪些道路拥堵,哪些道路相对顺畅。

同时,智能交通系统还能了解每一个出行者的情况,比如是自己开车还是步行,并预测各个道路口可能会出现的交通状况。

想要优化一个城市的交通资源,就必须做到统筹每个人每天的出行状况和活动安排。安装智能交通软件的用户,可能会担心自己的行踪被完全暴露。因此,为了保护个人隐私,软件开发团队将不会保存使用者在起点和终点0.5英里范围内的活动路径。

世界上的主要大城市,如今已经没有了大规模扩建街道的可能性,但大部分都市的人口还在持续增加,流动性也越来越大。因此,想要改善城市的交通出行,除了在时间和空间上利用好现有的道路,也并没有其它更好的办法。

智能社会体现在我们日常生活中的方方面面,简单来说,就是提高社会资源的利用率,让我们的生活变得更加便捷。

在智能时代,机器智能的水平将足以为人类提供各种个性化的服务,并且服务成本还能和过去的标准化的服务成本相当。

个性化服务将为人类的生活带来巨大的改变,未来普通大众也能享受到现在只有所谓的富人阶层所能享受到的生活。

03

未来不会被淘汰的人

智能革命虽然一方面改善了人类的生活,延长了人类的寿命,还让一些处在新行业、掌握新技能的人可以发挥更大的作用,但是另一方面,它也会让更多的人无事可做。

当计算机变得更加聪明之后,势必会取代人类完成很多高智商的工作。机器智能发生如此翻天覆地的变化,不可能不对社会产生一定的负面影响。

回顾历史,让人感到遗憾的是,大多数的人往往忽视技术革新所带来的负面影响。只有当社会大众面对重大技术革命所产生的冲击感到不知所措,需要两代人才能消除它的负面影响时,人们才会幡然感叹:历史再一次重复。

那么,为什么每一次重大的技术革命,都需要很长的时间来消除它所带来的负面影响呢?

技术革命往往使得很多的产业消失,或者产业从业人口大量减少,因此从中释放出来的劳动力需要重新寻找出路。

事实证明,这个重新寻找出路的时间,大概需要一代人以上。因此,我们必须承认这个我们并不愿意承认的现实,那就是被淘汰产业的从业人员能够进入新行业中的人数其实非常少。

智能革命将要走的路和历史上历次技术革命所走的路有着很多的相似之处。而大数据和机器智能的趋势一旦形成,就不是人力所能阻挡的。

从目前的发展来看,智能革命对社会的冲击甚至有可能超过过去几次技术革命。吴军老师在书中从三个角度分析了其中的原因。

第一,信息革命本身带来的影响还没有消化完,全球信息化带来的效率已经使得很多人无事可做,很少的人制造出来的东西就已经足够全球的人口消费。

第二,今天的世界同200前的世界已经不同,消化掉技术革命的影响则要比工业革命时期难得多。由于全球化的发展,全世界已经没有空白的市场可以开拓了。

第三,智能革命所要替代的是人类最值得自豪的部分,即大脑。过去,机器只是代替人的手,因此在农机和化肥出现后,农村从事体力劳动的人可以变成需要动脑筋的工匠。

在流水线出现之后,工匠们没有了市场,但是蓝领工人可以从事白领的差事,机械毕竟不能完成智能的工作,因此人们最终还是找到了谋生的手段。

不过智能革命的结果是让计算机代替人去思考,或者说靠计算能够得到比人类思考更好的结果,这时,人类会突然发现自己还能做得比计算机更好的事情已经所剩不多了。

面对智能革命给社会带来的冲击,我们必须回答和面对的问题就是:当全社会各行各业的从业人数都因为机器智能而减少时,全世界几十亿的劳动力该怎么办?

虽然很多人乐观地认为,将来一定会有新的行业适合人类工作,但这需要半个世纪的时间去摸索。然而,智能革命并不打算给人类等待的时间,智能革命所预见的未来,已经到来。

因此,人们不得不考虑社会问题要如何解决,那么,目前是否有良好的解决方法呢?吴军老师认为,还没有。但是,即便没有更好的解决办法,我们也要从观念上接受这样一个事实,即人类还能做得比计算机更好的事情已经所剩不多了。

如何不被时代抛弃?

答案是:争当那2%的人!

在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么进入前2%的行列,要么被淘汰。至于当下怎么才能成为这2%,其实很简单,就是踏上智能革命的浪潮。去接受一个新的思维方式,利用好大数据和机器智能,因为在任何技术革命中,受益的总是跟那些产业相关的人、善于利于新技术的人。

在智能革命到来之际,无论是个人还是企业,无疑都应该拥抱它,让自己成为那2%的受益者;作为国家,则需要未雨绸缪,争取不要像过去那样,在每一次重大的技术革命发生时都伴随着半个世纪的动荡。

这将是一个振奋人心的时代,也是一个具有空前挑战的时代。

恭喜你,又读完了一本书。

以上是本期节目也是全书的所有内容,感谢聆听。

《智能时代》吴军

👁️ 阅读量:0