《智能时代-大数据与智能革命重新定义未来》 吴军

author Shuxin Yang time 2019-01-29
《智能时代-大数据与智能革命重新定义未来》 吴军

很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。

版本信息

  • 作者: 吴军
  • 出版社: 中信出版社
  • 出版时间: 2016-08

第一章 数据–人类建造文明的基石

  • 第一次工业革命:以蒸汽机的发明为标志以机械化为特征
  • 第二次工业革命:以电的发明为标志以电气化为特征
  • 第三次工业革命:以大数据应用为标志之一和以智能化为特征

【现象、数据、信息和知识】
比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。

【数学模型】要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。

【数据驱动】虽然数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,但从结果上看和精确的模型是等效的。

第二章 大数据和机器智能

【提出问题】虽然达特茅斯会议本身没有产生什么了不起的思想,10个最聪明的大脑一个暑假的思考甚至比不上今天一位一流的博士毕业生,但是它的意义超过10个图灵奖,因为它提出了问题

【机器智能】机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。

【大数据】仔细推敲英语中big data这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息–大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。

【自动问答】

  • 在计算机自动问答研究领域,科学家们已经研究了多年。通常我们把问题归结为7类:“是什么”(What)、“什么时候”(When)、“什么地点”(Where)、“哪一个”(Which)、“是谁”(Who)、“为什么”(Why)和“怎么做“(How)。
  • 在这7类问题中,容易回答的是询问事实,包括“是什么”(What)、“什么时候”(When)、“什么地点”(Where)、“哪一个”(Which)、“是谁”(Who),比如:“中国的国家主席是谁?”难回答的是询问原因的“为什么”(Why)问题,以及询问过程的“怎么做”(How)问题。
  • “2012年,我离开腾讯会到Google,我的上级领导辛格博士和尤斯塔斯对我讲,不指望我做什么马上见成效的产品,希望我解决一些和机器智能有关的根本性问题,前提是这些问题解决之后,微软要花5年时间才能追赶上。”

第三章 思维的革命

【托勒密】和欧几里得一样,托勒密不仅是一个构建大系统的人,也是一个善于总结方法论的人。托勒密的方法论可以概括为“通过观察获得数学模型的雏形,然后利用数据来细化模型”。

【经济学】把经济学家的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。

【方法论】思维方式和方法远不如方法论对科学的发展至关重要。

【牛顿】

  • 牛顿通过自己的伟大成就宣告了科学时代的来临,作为思想家,他让人们相信世界万物的运动规律是可以被认识的。他告诉人们:世界万物是运动的,而且这些运动遵循着确定性的规律,这些规律又是可以被认识的。
  • 牛顿作为思想家的贡献还在于他指出了任何正确的理论从形式上讲都是简单的,同时又有非常好的通用性,这与东方这些中的大道至简思想不谋而合

【不确定性】

  • 机械思维的局限性更多来源于它否认不确定性和不可知性。
  • 世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。
  • 不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。

【信息论】

  • 在概率论的基础上,香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来,这就是“信息论”。
  • 与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。
  • 香农第一定律:也称为香农信源编码定律。
  • 香农第二定律:信息的传播速率不可能超过信道的容量。
  • 最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。
  • 大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。

【思维】很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。

第四章 大数据与商业

对于查处毒品种植的案例,我们看到了大数据思维的三个亮点:

  1. 第一是用统计规律和个案对比,做到精准定位。
  2. 第二是社会其实已经默认了在取证时利用相关性代替直接证据,即我们在前面所说的强相关性代替因果关系。
  3. 第三是执法的成本,或者更广泛地讲,运营的成本,在大数据时代会大幅下降。

酒吧数据分析的三个方面:

  1. 分析每一家酒吧过去经营情况的统计数据,这有助于酒吧的主人全面了解经营情况。
  2. 为每一家酒吧的异常情况提供预警。
  3. 综合各家酒吧数据的收集和分析,戴维会为酒吧老板们提供这个行业宏观的数据作为参考。

【通用公式】原有产业 + 新技术 = 新产业

  • 现有产业 + 蒸汽机 = 新产业
  • 现有产业 + 电 = 新产业
  • 现有产业 + 摩尔定律 = 新产业
  • 现有产业 + 大数据 = 新产业
  • 现有产业 + 机器智能 = 新产业

【商业模式变更】在信息时代,商业模式的变化更加明显,它突出地表现在两方面,一是产业链从一种产品扩展到整个IT行业,二是服务业的重要性突显出来。

【产品跟踪技术】从宏观的角度看,商家可以了解到它的商品是通过什么渠道卖给了具体的消费者,从而优化它的销售网络;从微观的角度看,它可以了解每一位顾客的生活,知道接下来每一个人需要什么。

第五章 大数据和智能革命的技术挑战

【数据产生】电脑本身;传感器;将那些过去已经存在的、以非数字化形式存储的信息数字化。

【信息存储】

  • 磁带 -> 硬盘 -> 半导体的固态存储器(Solid State Drives, 简称SSD)
  • 目前节约存储设备的技术体现在两方面,第一类技术是存储同样的信息占用的空间小。第二类技术涉及数据安全,这里指数据不丢失、不损坏,而不是指防止数据被盗。

【数据收集】在大数据时代,在收集数据时常常没有这样预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么结论就是什么结论。

【数据挖掘】

  • 机器学习的过程无一例外是一个不断迭代、不断进步的过程,用机器学习的专业术语来说就是“期望值最大化”(Expectation Maximization)的过程:只要事先定出一个学习的目标,这些算法就会不断地优化模型,让它越来越接近真实的情况。
  • 通常,由大量的数据、较少迭代训练出的“较粗糙”的模型,要比用少量的数据、深度的学习精耕细作得到的模型效果更好。

【保护隐私】

  • 一类保护隐私的技术是从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据科学家和数据工程师能够处理数据,却“读不懂”数据的内容。
  • 另一类保护隐私的技术是双向监视。正如制约权力最好的办法是使用权利,解决一种技术带来的漏洞最好的办法是采用另一种技术,那么保护隐私最好的办法或许是让侵犯隐私的人必须以自己的隐私来做交换。

第六章 未来智能化产业

硅谷地区有两种人最不缺,即风险投资人和工程师,前者善于看到其他人还没有发现的投资潜力,然后把它经营成值钱的实业;后者善于利用技术创造奇迹。

【医疗】

  • 医疗保健上的瓶颈包括:一是医疗的成本越来越高,二是医疗资源不平衡。
  • 从医疗本身讲,医疗成本高的前两个重要原因是药品的研制周期太长、费用太高,以及医务人员培养的成本太高。
  • 相比医生,计算机在诊断和做手术等方面有三大优势:首先,它们漏判(或者失误)的可能性非常低,也就是说它们能够发现一些医生们忽略的情况;其次,它们的准确率很高,而且随着数据量(病例)的增加提高得非常快;最后,也是人所不具备的,这些智能程序的稳定性非常好,它们不会像人那样受情绪的影响。而这些程序的成本,通常不到人工的百分之一。
  • 医治癌症的难点,一是不同人即使得了同一种癌,其癌细胞病变的基因未必相同,因此一种抗癌药可能对某些病人管用,但是对其他病人并不管用。而是也是最根本的难点在于癌细胞本身的复制也会出错。
  • 在未来,可能一种疾病会有不同的药品医治,而不同的人会有不同的特效药。

【律师】大数据对司法领域的影响:

  1. 诉讼的一方会通过数据之间的强相关性寻找证据,而司法领域也认可这一类证据。
  2. 机器智能会逐渐取代律师做一些案例分析工作,这使得诉讼的成本有可能大幅度下降。

【编辑】IBM公司发布了去年四季度的财报,计算机会先“读”一遍该公司财报的内容,然后提取出主要的信息,比如该季度的收入、利润,与华尔街预期的对比,人员情况,市场份额,等等;然后计算机可以写一篇关于IBM业绩的新闻稿,当然最后在发表前多少还是经过了人工的一些润色处理。

第七章 智能革命和未来社会

【医疗】

一方面由于每一个人都积累了非常完整的与自己健康状况有关的数据,医院、医生甚至患者本人对自己的病情都会有比较清晰的了解。另一方面由于有了比较完备的医疗从业者的数据,智能的就诊指导系统会根据患者的情况和医生的情况帮助他们选择合适的医生。这样患者在小病时不需要折腾自己,真遇到大病时更容易地找到合适的医生。 类似于智能排课

【技术革命】

历史上影响力可以和正在进行的智能革命相比的,只有18世纪末始于英国的工业革命、19世纪下半叶始于美国和德国的第二次工业革命、“二战”后以摩尔定律为标准的信息革命,一共是三次。这三次技术革命都有一个共同的特点,那就是它们对当时的社会产生了巨大的冲击,都需要经过大约半个世纪甚至更长的时间才能消化掉。

【民众幸福】

  • 当然,财富是社会发展和个人生活质量的一个客观标准,但绝非唯一的衡量标准。幸福指数常常被认为是生活质量的一个主观衡量标准。
  • 一百年前,各国政府认识不到关心这些被产业淘汰的从业人员的重要性,因此让社会很动荡。如今,各国意识到社会稳定很重要,因此即使很多人并不创造价值,也只好“养着”。
  • 针对2010年的占领华尔街运动以及2015年年底以来法国、德国和比利时外来移民不断滋事的状况,大家在思考一个根本性的问题:这些不满情绪的根源在哪里?这不能简单地归结为贫富悬殊,或者宗教纷争。其根源在于,很多人被社会进步抛弃了。随着技术革命的发展,并非每一个人的发展机会都是越来越多的,反而可能是越来越少。

【利用新技术】

  • 回顾从工业革命开始的前三次重大技术革命,首先受益的是和那些产业相关的人、善于利用新技术的人。
  • 在每一个重大的技术革命开始的时候,真正勇敢地投身到技术革命大潮中的人毕竟少数,受益者更少,大部分则会犹豫和观望。在智能革命到来之际,每一个人也有两个选择,要么加入到这一次浪潮中,要么观望徘徊,最后被淘汰。当然,大多数人的观望、犹豫和徘徊,给了2%的人以机会,使得愿意吃螃蟹的人在奋斗的道路上少了很多竞争对手。正是因为知道自己不加入进来就会被淘汰,马斯克和盖茨一方面对机器智能的发展非常担心,另一方面却选择加入到机器智能的大潮中。