一个万物互联的数字化世界正在悄然形成,不知不觉中,我们已经进入到了一个前所未有的数字化与智能化时代。
数智化时代对人类社会的改变是颠覆性的。半导体芯片技术的突飞猛进,使得万物皆可“数”;宽带泛在网络的普及应用,使得万物皆可“连”;云计算(算力)与人工智能(算法)的并行发展,使得万事皆可“算”。数据已成为新的生产要素,算法和算力已成为新的生产动力,机器智能将成为新的生产工具,数字经济、数字社会、数字生活和数字治理都将成为智能革命广阔的主战场。我们该如何认识并适应这个时刻变化中的世界?
《图解数据智能》是一本为数字资源的对接方、分配方以及广大的入门学习者提供相关数据智能概念的科普读物。书中各个概念之间相对独立,读者可以将其作为一本检索用的工具书籍,也可以根据自己的兴趣灵活查阅相关篇章。
无论你是数智化领域的专业从业人员,还是刚刚毕业想要进入该领域的技术小白,抑或是正面临着数字化转型的政府或企业人员,或者是千千万万个生活在这个数智化社会中的普通人,都可以阅读此书,你将从酣畅淋漓的技术释疑和轻松有趣的漫画解读中,找到自己的答案。
这是一本人人都能读懂、趣味十足的技术科普书。
近百个核心技术概念,为你深度解读数据智能时代背后的逻辑。
酣畅淋漓的技术释义,轻松有趣的漫画解读,带你轻松认知这个时刻变化中的世界
1、通俗易懂
生动鲜活的生活示例+幽默风趣的行文插画,对数据智能领域的核心概念进行演绎呈现。
2、技术科普
近百个数据智能概念,高频、热门、有用,助你快速扫除对数据智能时代的认知障碍。
3、贴近时代、贴近应用
所有技术概念均来自当前数字化生活中你每天能听到/看到/刷到/聊到的词汇,掌握这些概念,便能轻松畅游数据智能世界。
本书适合——
想进入数据智能领域的技术小白
面临数字化转型的政府及企业人员
技术功底薄弱的产品经理/市场营销人员/……
千千万万个处于数智化时代中的普通人
几十年前的我们可能无法相信,我们生活在一个多么令人难以置信的时代。互联网的飞速发展让我们以光速跃进了信息时代,信息大爆炸又让我们跌入了大数据时代,紧接着大数据等新一代信息技术的进一步发展和应用让人工智能时代迎面撞来。曾经的我们还处在人类棋手被人工智能击败的错愕之中,短短几年,我们的生活场景就逐渐被人工智能这个新物种占据。
2021 年10 月28 日,Facebook 宣布将更名为Meta,从此转向以虚拟现实为主的新兴计算平台。公司CEO 扎克伯格表示,Facebook 数年内将从“一家社交媒体公司变成一家元宇宙公司”。
一石激起千层浪。业界在惊呼:“元宇宙”真的要来了吗?尽管学术界和工业界半信半疑,但似乎也没有鲜明的反对声音。人类社会发展到今天,人们已经开始习惯了科技大佬们的“未卜先知”。今天,我们就奔跑在《未来之路》(比尔·盖茨,1995)所描绘的信息高速公路上,我们就沉浸在《数字化生存》(尼古拉·尼葛洛庞帝,1996)所预言的数字化虚拟空间中。本以为是游戏世界中的场景,没想到有可能真的要照进人类社会的现实中。
一个万物互联的数字化世界正在悄然形成,不知不觉中,我们已经进入了一个前所未有的数字化与智能化时代了。
与以往的任何时代都迥然不同,今天的数智化时代对人类社会的改变将是颠覆性的。我们得益于半导体芯片技术的突飞猛进,使得万物皆可“数”;我们得益于宽带泛在网络的普及应用,使得万物皆可“连”;我们得益于云计算(算力)与人工智能(算法)的并行发展,使得万事皆可“算”。数据已成为新的生产要素,算法和算力已成为新的生产动力,机器智能将成为新的生产工具,数字经济、数字社会、数字生活和数字治理都将成为智能革命广阔的主战场。
一个个横空出世的新兴概念,一场场新概念下的资本狂欢,乃至一瞬间筑起高楼的新兴行业。然而,我们在享受着数智化时代便利性的同时,也感受到了技术飞速演进所带来的困惑及裹挟。我们仿佛刚刚理解了什么是“信息化”,它就升级为了“数字化”,刚刚才适应了“智能化”社会,现在又面临着“数智化”转型。或许我们还未曾意识到,新时代意义下的“数字鸿沟”并非只存在于代际或城乡之间,实则广泛存在于主动的概念创造者(掌握着数字话语权的知名企业、大型机构、意见领袖等)与被动的概念接受者(普罗大众)之间。
面对着这些从新行业中衍生出的一个个新岗位,被新岗位倒逼出的一个个新专业……作为普通人,我们到底应该选择躬身入局还是应等待潮水退尽?
无论你是正面临着数字化转型的政府或企业相关负责人,还是数智化领域的专业从业人员,抑或是刚刚毕业想要进入该领域的技术小白,或者是我们千千万万生活在这个数智化社会中的普通人。我们都面临着一个亟需解决的迫切问题:我们应该如何认识并适应如今所处的这个时刻变化中的世界。
在世界百年未有之大变局的今日,这既是巨大的机遇,也意味着艰难的挑战。在面对未知的恐惧时,本书或可稍稍弭平我们与这些专业技术之间的数字鸿沟,帮助我们形成在数智化时代下寻求问题解决路径的专业化思维模式,让新技术更好地服务于我们的美好生活,而非成为被模糊不清的技术概念操纵的提线木偶。
这也正是我们编著本书的初衷,一方面是为了向政府或者企业中的非专业人士科普数据智能的相关概念,促进专业与非专业人士之间实现更高效、顺畅的沟通协作;另一方面也为即将踏出校门的高校毕业生们打开数据智能领域的大门,毕竟数智化思维已逐渐成为我们生活和工作中的必备思维。
如上所述,《图解数据智能》是一本为数字资源的对接方、分配方以及广大的入门学习者提供相关数据智能概念的科普读物。书中各个概念之间相对独立,读者可以将其作为一本检索用的工具书籍,也可以根据自己的兴趣灵活查阅相关篇章。作为本书的编著团队,我们基于在零点有数从事相关领域工作的有限经验,借助数智化视野,以“数据”“算力”“算法”“技术”和“应用”为主线,为大家将其间涉及的通识性概念进行通俗化的转译,并以故事化和漫画化的事例加以呈现,力求将晦涩、专业的概念深入浅出地呈现给大家。
在本书中,我们分为五个篇章为大家解答如下问题。
一、什么是数据?我们经常接触到的数据类型有哪些?我们如何对这些数据进行处理、存放和计算?
二、什么是算法?算法如何赋予机器以智能(智慧)?为什么算法会存在偏见?我们应该如何让算法对自己的偏见行为负责?
三、什么是算力?我们该如何提升计算能力,以应对大数据的快速增长?
四、新一代信息技术有哪些?它们如何从技术层面彻底颠覆了我们的日常生活?
五、人工智能是如何应用于各行各业,作为普惠科技照亮千家万户,甚至成为各国必争之地的?
张燕玲,四川大学文学硕士,零点有数营销总监,历任研究总监,具有10余年数据研究工作经验,两次荣获中国市场研究行业专业论文“宝洁奖”一等奖,发表文章数百篇。在推动数据智能和算法产业应用的科普传播方面具有丰富经验。
许正军,博士,高级通信工程师,零点有数技术副总裁。从事信息通信技术、互联网、工业互联网、“互联网+政务服务”和数据智能行业应用开发20余年,在各类学术刊物上发表过40多篇论文。在数字政府、数字社会和数字经济建设领域具有丰富的理论与实践经验。
张军,中国人民大学经济学硕士,零点有数董事、首席执行官,兼任中国信息协会市场研究业分会(CMRA)副会长、欧洲民意与市场研究协会(ESOMAR)中国代表、全球移动通信系统协会(GSMA)评委等职,多年来致力于公共管理和商业服务领域的数据挖掘与咨询服务。
第1章 算量 /001
本章导读 /001
大数据 /004
结构化数据 /014
非结构化数据 /021
特征工程 /026
多源数据 /034
网络爬虫 /038
行为数据 /042
元数据 /048
数据仓库 /054
集群系统 /059
分布式系统 /063
中台 /068
数据加密 /076
第2章 算法 /085
本章导读 /085
人工智能 /089
算法 /096
模糊计算 /103
机器学习 /108
监督学习 /111
无监督学习 /116
强化学习 /121
人工神经网络 /127
深度学习 /134
集成学习算法 /139
图像识别 /148
人脸识别 /155
计算机视觉 /158
无人驾驶 /163
开源算法平台 /168
算法偏见 /173
算法责任 /179
第3章 算力 /184
本章导读 /184
算力 /186
DPU /192
AI 芯片 /204
云、云计算、云存储 /213
公有云、私有云、混合云 /223
边缘计算 /231
第4章 新一代信息技术 /237
本章导读 /237
新一代信息技术 /239
数字新基建 /244
5G /252
物联网 /260
消费互联网 /268
产业互联网 /273
工业互联网 /278
IPv6 /284
集成电路 /290
芯片 /296
传感器 /301
人机交互 /308
下一代操作系统 /311
智联网 /317
AR/VR /323
数字孪生 /328
第5章 数字化转型 /334
本章导读 /334
网络强国 /335
数字中国 /340
智慧城市 /346
城市大脑 /351
数字底座 /358
数字化转型 /362
数智化 /366
数字政府 /374
数字经济 /382
数字化治理 /387
数字民生 /391
城市生命体征 /395
智能制造 /400
商业智能 /405
数字货币 /410
强化学习
【导读】强化学习、监督学习和半监督学习属于机器学习的三个大类。强化学习(Reinforcement Learning)又被称为再励学习、评价学习或增强学习,是除了监督学习和无监督学习之外的第三种机器学习方法。
强化学习指的是机器选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给机器,机器根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。
接下来,将围绕小美养狗的故事,告诉你什么是强化学习,以及强化学习与监督学习、无监督学习的区别。
什么是强化学习
小美家里新养了一只宠物小狗狗,但是初来乍到的狗狗并不懂家里的规矩,于是,小美想要给它训训家规。
此处,我们请把小狗狗看作机器主体,“它不懂家里规矩”对应强化学习中的“数据无标签,机器在没有尝试前不知道什么是对什么是错。”
第一天,狗狗在家里乱尿尿了,小美打了它,并且罚它半天不能吃狗粮。下午,狗狗去厕所尿尿,小美摸了摸它,并且奖励了狗狗好吃的。不断循环往复,狗狗明白了:在厕所尿尿=主人高兴+有好吃的;四处在客厅尿尿=主人不开心+会被打一顿+没有吃的。慢慢地,狗狗再也不会在家里四处乱尿尿了,变成了一只爱干净的狗狗。
上述例子中的“狗狗在家里乱尿尿了”对应着强化学习中的“行为”,只有有了行为才有行为所对应的外界的反馈,而这个反馈就是“小美打它,并且不给他吃的”。而后面的“狗狗去厕所尿尿后,小美奖励食物”对应的是强化学习的“(正)强化信号”。
狗狗(机器)在循环往复地试错后,明白了什么是对的,什么是错的,并且不断地去趋向对的行为,寻求最佳的表现结果。
强化学习与监督学习的区别
可能有人会疑问,感觉强化学习和之前咱们提过的监督学习很相似呀,都有一个“训练导师”。
是的,虽然如此,但不同的是:监督学习的数据有标签,通过“带有答案”的数据来训练(例如,你拎着狗狗,去整个屋子的四处全都走一遍,告诉它这是可以尿尿的,而那里是不可以尿尿的)。
而强化学习的数据无标签,只有尝试了,才能得到反馈(例如,在客厅尿尿了,被打了;在厕所尿尿,被表扬了,并且奖励了好吃的),从反馈中,调整之前的行为(狗狗知道了什么是会被表扬的,就会去做,知道了做什么会被打,就不做了),就这样不断地调整,机器能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果(狗狗以后都到厕所去尿尿了)。
强化学习与无监督学习的区别
可能还有人会说,数据都是无标签的,那么强化学习和无监督学习不是很像吗?
不同的是,无监督学习是从无标签的数据集中发现隐藏的结构(例如,狗狗观察了下家里的环境,知道了马桶、垃圾桶和地毯都是圆的,衣柜、电视机、抽屉都是有棱角的)。而强化学习的目标是获得最大化奖励的结果(狗狗内心os:我知道在厕所以外的地方尿尿,会被打,在厕所尿尿会被夸,我以后要做一只被奖励的狗狗)。
总而言之,强化学习就是让计算机从什么都不懂,通过不断尝试,在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,在规律中学习的一种方法。强化学习的应用很广泛,无论是日常社交平台中的推荐、优化、猜你喜欢等,还是游戏、自动驾驶,甚至是大家所熟知的苹果智能语音助手Siri或者是战胜世界第一围棋手的阿尔法围棋(AlphaGo),都有着强化学习的相应尝试与实践。