序 一
2019年4月,我应北京易华录林拥军总裁邀请到湖南长沙,出席中国华录集团和株洲市人民政府联合举办的互联网岳麓峰会大数据产业论坛,并发表了题为《数字经济时代的机遇与网络安全》的主旨演讲。在这次论坛上,我对易华录提出的数据湖有了一些了解。总的来看,他们提出了在数字经济时代发展大数据产业的一种新模式,在全国也落地了不少实践案例。最近,得知林拥军总裁能够组织团队,总结这些理论和实践成果并最终成书出版,实属可喜可贺。借此机会,我谈谈对大数据的看法。
什么是大数据?是不是数据量比较大,数据共享互联就叫大数据?恐怕不是的。人类文明自诞生以来就有数据这一概念了,数据有其科学的发展过程。远的不说,从计算机处理数据开始,数据的发展分三个阶段。首先是数值计算时代。数值计算时代的特征是用机器代替手工处理数据,将数据处理的过程用信息化的方式来完成。随着数据量的增多,数据除了有相关关系以外,还有语意、语法、相互逻辑,尤其是多媒体时代以后,文件系统处理数据显得不够有力,于是便诞生了关系型数据库。后来,随着数据量的爆炸,又产生了数据仓库。用数字来表达产业与产业的过程,既提高了效率,又加快了进度,可称之为数据工程时代。在这个阶段,数据还是作为处理的基础元素,还没有形成生产的要素。现在的数据是金钱,也是财富,因此,数据已经不再是工具,更不是以前用于计算的数值,数据本身也已成为生产的要素。
那么,到底什么是大数据呢?从科学的角度来定义,大数据是指无法用现有的软件工具进行处理的海量复杂的数据集合,它具有多源异构、非结构化、低价值度、快速处理等特点。也就是说,不能用现有的数据库,也不能用现有数据互联互通的协议来处理的数据才是大数据。
因此,数据大从根本上讲并不是大数据,有什么区别呢?无非就是以下几个区别:第一,以前我们对数据的互通互联是有目的、有对象的,但是大数据却非如此。各种各样的数据都要被收集起来,即便是跟你无关的数据,也可能擦出新的火花。因此,大数据是多源异构,它数量庞大。第二,政府要治理社会,不是简单地将与政府有关的数据收集起来就可以了,更重要的是要收集那些看似没有关系的数据。因此,这些数据收集下来以后是不完全的,是非结构化的。第三,有些数据本身价值密度很低,但数量巨大,那么它就不是大数据。数据再海量也不是大数据。大数据要快进快出,不要把垃圾堆积如山。
大数据是钻石矿,而是钻石矿就会有竞争,就会有捣乱,就会有破坏,会面临大数据时代新的安全风险。怎么办?我们要有科学的网络安全观。杀病毒、防火墙、补漏洞、打补丁,这些是不够的。那么离开封堵查杀,如何保障网络安全?这就要有安全可信的体系。按照《中华人民共和国网络安全法》第十六条,国务院和省、自治区、直辖市人民政府应当统筹规划,加大投入,扶持重点网络安全技术产业和项目,支持网络安全技术的研究开发和应用,推广安全可信的网络产品和服务。《国家网络空间安全战略》也提出夯实网络安全基础,强调尽快在核心技术上取得突破,加快安全可信的产品推广应用。
我国在可信计算领域的创新比较早,从1992年2月第一批成果通过测评和鉴定开始,有关成果被先后应用在国家电网、中央电视台等核心要害部门。目前,我们开启了可信计算3.0时代,下一步要按照国家法律法规、技术标准有关要求,用可信计算3.0夯实网络安全等级保护基础,坚决捍卫国家网络安全。这正是我们要在大数据时代应该做的。
希望通过这篇序言,让更多的人关注和正确认识大数据,关注大数据安全和大数据产业发展,共同携起手来,为国家数字经济建设和网络强国战略推进做出更大的贡献。
中国工程院院士
国家集成电路产业发展咨询委员会委员
国家信息化专家咨询委员会委员
国家三网融合专家组成员
2019年8月于北京
序 二
什么是数据湖?根据亚马逊公司的定义,数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无须先对数据进行结构化处理),并运行不同类型的分析从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
在这本《数据湖:新时代数字经济基础设施》中,北京易华录信息技术股份有限公司创始人、总裁林拥军先生首创城市数据湖理论体系,围绕城市数据存储、加工、分析、应用,提出独特的大数据解决方案,将城市数据湖打造成为新时代的数字经济基础设施。
2017年8月,我受邀参访易华录,第一次听取了林拥军团队提出的城市数据湖概念和实践。之后我与易华录团队多次在全国各地的大数据会议碰面并交流。今年5月第三届世界智能大会期间,受林总邀请,我在数据湖生态与数据智能高峰论坛上发表主旨演讲,同时也惊喜地发现:短短两年时间,易华录城市数据湖已在全国20多个城市中推广和应用,成为积淀城市数据的重要载体,为各地构建以数据为要素的数字经济打下了坚实的基础。
大数据相关历史
大数据背后是数据科学,而数据科学是关于数据收集、管理、转换、分析与应用的科学,其核心是研究从数据中获取知识,而基础是先记录这些数据。
数据分析的历史可追溯到250年前早期使用统计数据来解决实际问题。在统计学领域,贝叶斯(Bayes)定理在概率论和统计应用的发展中发挥了关键作用。1783年,著名统计学家理查德·普莱斯(Richard Price)发表了寿命表,根据他作为精算师的观察结果计算了英格兰人生命持续时间的概率。观察结果以记录行和属性列作为统计分析的基础。这些表现在通常在数据挖掘中用作多维表。因此,从历史的角度来看,多维表应称为理查德普莱斯表,而普莱斯应该被誉为数据分析和数据挖掘之父。
自20世纪50年代以来,随着计算技术逐渐被应用于商业,许多公司已经开发了用于存储和分析所收集数据的数据库。用于处理数据集的数学工具已经从统计学演变为人工智能的方法,包括神经网络和决策树。在20世纪90年代,数据库社区开始使用术语数据挖掘,这与术语数据库中的知识发现是等价的。数据挖掘(常伴随人工干预)、机器学习、数学建模和数据库相交叉,是现在数据分析的常用方法。构建对大数据或数据科学的理论组成部分需要来自数学、社会学、经济学、计算科学和管理科学等学科的共同努力。
大数据挑战
大数据分析或数据挖掘的关键价值在于获取智能知识。大数据分析面临许多挑战。为了在科学、工程和商业应用中利用大数据获益,需要解决以下三个问题:一是半结构化、非结构化数据向结构化数据转变;二是复杂性,不确定性和系统建模;三是理解数据异质性,知识异质性和决策异质性之间的关系。
第一个问题,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理,已成为各国大数据专家共同关注的前沿科研问题。在大数据的学术领域,由于这些数据的复杂性、数据的原理、基本规则和属性,特别是半结构和非结构化数据尚未得到阐明。这种复杂性不仅反映了数据所代表的对象的多样性,而且反映了每个数据集只能呈现给定对象的部分图像的事实:尽管数据集可以准确地表示对象的一个方面,但它无法传达整个图像。因此,数据表示与真实对象之间的关系类似于盲人和大象的关系:所得到的感知图像将在很大程度上取决于所观察的特定方面。
由于最近的进步,Hadoop和MapReduce等技术使得在合理的时间内收集大量半结构化和非结构化数据成为可能。关键的工程挑战是如何有效地分析这些数据并在特定的时间内从中提取知识。可能的第一步是将半结构或非结构化数据转换为结构化数据,然后应用为结构化数据开发的数据挖掘算法。
一旦数据被结构化,已知的数据挖掘算法就可以产生粗略的知识。该过程的这个阶段可以被视为一阶挖掘。结构化粗略知识可以反映决策者在升级为智能知识后可以使用的新属性。此升级需要分析师利用经验,常识和主题专业知识等人类知识,这个阶段称为二阶挖掘。由于知识随个人和情况而变化,因此人机界面(大数据挖掘与人类知识)在大数据分析中起着关键作用。
第二个问题,如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模,这一问题的突破是实现大数据知识发现的前提和关键。大数据的复杂性是由数据的数量和种类引起的,不确定性来自数据表示的性质和多样性的变化。
当某种分析方法应用于大数据时,得到的知识受限于真实对象的特定角度或方面。一旦角度改变,通过收集方法或分析方法获得的知识就不再有用了。例如,在涉及大数据的石油勘探工程中,数据挖掘已应用于由地震测试和测井数据生成的空间数据库。地下地质结构本身很复杂,非线性数据模式可能因尺寸和角度改变而改变。因此,数据挖掘或分析的任何结果仅代表给定表面的知识。如果曲面发生变化,结果也会发生变化。挑战在于确定如何从空间数据的不同表面获得有意义的知识。
为了应对这一挑战,需要对大数据的复杂性和不确定性进行系统建模。建立一个广泛适用于大数据的综合数学系统可能很困难,但通过了解给定主题或领域的特定复杂性或不确定性,可以为特定的大数据表示创建基于领域的系统建模。一系列此类建模结构可以模拟不同主题或领域的大数据分析。
如果工程师能够确定一些处理特定领域大数据的复杂性和不确定性的一般方法,比如金融市场(有数据流和媒体新闻)或互联网购物(图像和媒体评估),这将特别有利于社会和经济发展。工程中的许多已知技术(例如优化、效用理论、期望分析)可用于衡量从大数据获得的粗略知识如何在二阶挖掘过程中有效地与人类判断相结合,从而引出决策所需的智能知识支持。
第三个问题,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。大数据为决策者带来了数据异质性,知识异质性和决策异质性的问题。传统意义上,决策依赖于从他人和经验中学到的知识。知识获取现在越来越多地基于数据分析和数据挖掘。
与数据一样,决策可以分为结构化,半结构化或非结构化,具体取决于组织中的职责分配。决策者对(定量)数据、信息和(定性)知识的需求根据其责任程度不同而不同。处理日常工作的操作人员做出结构化决策,管理者的决策是基于下属报告(大多数是结构化的)和他们自己的判断的组合,因此是半结构化的。高层管理人员或首席执行官(CEO)做出非结构化的最终决策。
大数据正在颠覆性地改变决策过程。使用大数据分析,可以将运营人员、经理和CEO的职能结合起来,以简化决策制定过程。例如,销售人员可以使用基于大数据挖掘技术的实时信用卡审批系统来快速批准客户的信用额度而无须向主管报告。这样的决定几乎没有风险。销售助理是最终的决策者,代表经理和CEO。
在使用结构化数据的数据挖掘过程中,粗略的知识通常是结构化知识,可以给定其数据格式。在大数据挖掘中,尽管一阶挖掘中的粗略知识源自异构数据,但它可以被视为结构化知识,因为数据挖掘是以结构化数据类型格式执行的。在二阶挖掘阶段,结构化知识与经理或CEO的半结构化或非结构化领域知识相结合,并逐步升级为智能知识。因此,智能知识成为非结构化知识的代表。
如果业务操作仅涉及半结构化和非结构化数据,则结果是没有数据分析的非结构化知识或来自数据挖掘的结构化知识。这种结构化或非结构化知识可能会影响半结构化或非结构化决策,具体取决于所涉及的管理级别。
基于一阶挖掘的粗略知识,通过二阶挖掘搜索智能知识是理解数据异质性,知识异质性和决策异质性之间关系的关键。学习如何通过大数据改变决策制定的成果,需要了解异构数据处理,大数据挖掘,决策者的领域知识以及他们参与决策制定之间的关系。
大数据是人类创造的财富。针对上述三大挑战,任何政府、企业或个人如果在理论或实践方面有所探索、突破,都将更好地造福人类。数据湖概念的提出,以及国内外商业巨头所提出的一系列相应的解决方案,一定程度上回应了大数据发展和应用所面临的挑战。而如书中所述,林拥军团队基于智慧城市、数字生态建设的丰富经验,积极响应国家大数据战略、数字经济发展要求,紧紧围绕数据这一数字经济重要生产资料和核心要素的归集、运用,打造融合数据感知、存储、分析、应用为一体的新时代数字经济基础设施,无疑也是直面上述三大挑战而开展的具有中国特色的有益探索和重要实践。
我真诚地希望无论政府、企业还是个人读者朋友,通过此书,在建设城市大数据基础设施、繁荣区域数字经济发展等方面,获得新的启迪,激发出更多创举!
中国科学院大数据挖掘与知识管理重点实验室主任
国务院参事 第三世界科学院院士
2019年8月于北京