第8问:数据、信息、知识、智能,有什么不一样?

数字化转型的核心是数据,在企业的数字化实践中,通过对数据的分析和应用,发挥数据的产业价值。除了数据本身,还有几个与数据密切相关的概念,信息、知识、智能,这些概念都与数字化关系密切。

在讨论和数字化相关的话题中,我们经常会涉及到这些概念。对这些概念的准确辨析和深刻理解,有利于我们更好地了解数字化转型中的数据要素,了解数据为业务赋能的底层规律和实现逻辑。

数据、信息、知识和智能,本质上都是和信息有关的概念,属于信息的不同抽象层次的表现。前者和数据直接进行比较的信息是狭义的信息概念,后者是广义的信息概念。

1.数据

数据是客观世界上直接可得可见的数字化内容,是信息的物理表现形式。数据是数字化转型中数字应用实践的基础原料,也是数据管理活动的核心对象。企业中一切数字实践活动都必须围绕对数据资源的获取和分析才能落地实现。在企业的产业实践活动中,根据不同的观察视角,可以将数据划分为很多不同类型:

从数据组织形式的结构化程度来看,数据可以分为结构化数据、半结构化数据、非结构化数据。

结构化数据最为常见,数据记录的具体表示由预定义的结构化框架进行约束,有固定的数据结构。表格数据是最典型的结构化数据,在数据表中,每行数据记录的表头都是一样的,每个表头也都有明确的业务内涵。表格数据一般存储在关系型数据库中,有些也存储在Excel等BI商务软件的文件中。

除了表格数据,知识图谱也是非常重要的结构化数据,知识图谱以三元组的形式对网络结构的数据进行表示,对于复杂查询和知识推理类的数据计算任务具有非常好的技术兼容性。

与结构化数据相对的非结构化数据,没有严格的模式约束,尽管信息组织的自由度较高,但是难以被机器直接计算和理解。非结构化数据一般包括文本、图像、音频、视频等多种格式,在企业后台,非结构化数据一般以文件的形式进行存储和管理。

在形式上,非结构化数据一般只适合人来读取和分析。为了让非结构化数据更多地参与到数字化应用创新,需要尽可能地将非结构化数据转化为结构化数据,即便于机器分析处理的表示形式。当前,很多大数据技术,基于机器学习或深度学习等算法,都能很好地实现非结构化数据向结构化数据的转化能力。例如,采用自然语言处理(NLP)技术对文本数据进行结构化,采用语音识别技术(ASR)对音频数据进行结构化,采用机器视觉技术(CV)对图像数据进行结构化。

半结构化数据的结构化程度处于结构化数据和非结构化数据之间。半结构化数据本身也是结构化的,但是由于数据结构的变化很大,因此难以直接用数据表来对数据内容进行存储,必须采用特殊的存储结构。

当前,比较经典的半结构化数据存储格式有XML、JSON等,其中XML是基于树状结构的,而JSON是基于键值对结构的。这些数据结构能够非常灵活地表达形式多样性很强的数据内容。在企业的数字化应用中,半结构化数据的主要用途在于提供系统或服务之间的关键信息交换。

非结构化数据主要有以下三个特点。一是数据结构的自描述性,数据与数据结构彼此相容,数据本身既是具体的内容,也是信息结构框架;二是数据结构的复杂性,在结构上难以将数据纳入到现成的模式;数据结构描述的动态性,数据的变化会导致数据结构的变化,整体上来看,数据的表示形式具有动态性、适应性、灵活性。

从数据的适用功能上来看,数据可以分为事务数据、文件和内容、主数据、参考数据,以及元数据等。

事务数据是前端业务信息系统基于日常的事务操作,通过代码逻辑自动产生的数据。这些数据大多是结构化数据,最早来自于数字应用的关系型数据库。在业务信息系统的服务过程中,通过对数据的CRUD(增删改查)基本数据交互操作,可以实现线上化、自动化的业务逻辑。事务数据是对这些数据交互活动的状态以及状态变化的记录。

文件和内容大多数非结构化数据,包括文字、图片、音视频等。随着企业处理数据能力的不断增强,开始通过主动的数据感知方式从业务环境中持续采集数据资源。文件和内容是数据感知的主要数据类型。从环境中直接采集的数据大多是非结构化的,这些内容既可以直接以人工的方式进行查看分析,也可以转为结构化的格式进行自动挖掘处理。

主数据是在系统以及各个业务活动之间共享的重要数据类型,往往用来表示企业中的核心实体对象。常见的主数据包括客户信息、供应商信息、竞争企业信息、零部件信息、产品信息等。在业务活动中,主数据所描述的实体对象可以是业务活动的发起者,也可以是业务活动的被动接受者。和事务数据相比,主数据的变化比较缓慢,通常需要人工进行审核和维护,企业中的数据分析活动对主数据的内容准确性要求很高。

参考数据和主数据一样,也是共享类的数据类型。参考数据大多数情况下对应的是数据属性的取值范围。直观上,可以简单地把参考数据理解为业务活动的状态列表,或者某些实体类型的分类标准。比如使用参考数据形容某表单任务的工作状态时,可以取值为“新建”、“已分配”、“施工中”、“已解决”、“待定”、“已完成”等等。

元数据的作用是为数据提供描述,是对数据的具体解释。元数据本身也是数据,是关于数据的数据。企业通过元数据可以对数据资源进行管理,同时也为使用数据资源的数据消费者提供信息参考。元数据可以近似理解为数据的注释信息。可以说,没有元数据,就没法理解数据,进而也就没有办法使用数据。

元数据主要分为技术元数据、业务元数据,以及操作元数据三种主要类型。技术元数据的功能是帮助数据系统的开发人员理解数据,让技术人员准确地实现技术系统的数据服务功能;业务元数据的功能是帮助包括数据分析人员在内的业务人员理解数据,让业务人员能够更加方便地检索关键信息,开展数据分析,进行数据应用创新活动;操作元数据主要记录数据的重要访问信息,和系统运维以及安全管理密切相关。

图9. 从数据到智能的价值链转化

2.信息

通过对数据进行分析和加工,可以从数据中提炼出重要的信息内容。信息比原始数据的抽象程度更高,具体的表现形式也可以是数据或图表。例如,可以比较直观地呈现业务信息的形式有统计报表、关键词、结论性文字、数据可视化图,甚至一个简单的数值结果。对于数据分析人员来说,信息是重要的业务参考和管理决策依据。没有信息就没法行动,知己知彼,方能百战不殆。获取信息,是数据对企业管理运营活动的最直接价值。

信息来自于数据,但是信息和数据并不是一一对应关系。信息的产生会受到人的主观因素影响。比如,面对某人说的同样一句话,有人听到是“夸赞”,有人听到的就是“嘲讽”。信息和具体的业务场景、业务问题,以及数据分析的方法都有很大关系。对于同样的数据资源,不同业务人员在差异化的问题需求条件下,采用不同的统计和挖掘方法,所得到的信息结果自然也不同。

值得注意的是,信息有真假之分。不是所有的信息都会起到正向的决策支撑作用,错误的信息会对业务行为产生误导。因此,在获取信息的基础上,数据分析人员需要结合自己的经验对信息的真实性和准确性进行有效的判断,或通过交叉验证的方法,基于信息结论是否一致来辅助判断信息的可信程度。

3.知识

知识的抽象程度比信息更高,同时具有更强的稳定性和可靠性。知识可以来自于数据分析的结论,也可以通过人工录入编辑的方式产生。前者所提及的知识是需要探索的未知的新数据,后者知识是人们在生产生活实践中已经掌握的知识。

和信息相比,知识具有更强的体系化和结构化的特征。从数据中直接提取的信息很多时候往往是离散的、碎片化的,而知识则具有比较严格的内容组织形式,信息节点之间具有比较明显的和统一的关联关系。知识的数据表示方式很丰富,比如知识图谱、知识规则、函数、指标公式、分类标准、数据结构框架、流程图、业务术语表等。

此外,知识的内容比信息更加稳定,一般情况下知识不随所见数据的变化而变化,同时知识在应用层面具有更强的普适性。尽管从不同数据中提取到的信息差异很大,但是同样的知识内容却可以用于不同数据资源的数据分析任务。在真实性和准确性上,知识的内容要求也比信息更高,只有经过提炼、组织、验证过的信息,才会成为知识的重要组成要素。

4.智能

智能是知识的高级应用形态,同时也是抽象层级最高的信息。面向具体的业务需求痛点时,将知识与数据服务算法相融合,可以构建出具有智能化特征的数字化应用。智能的具体表现形式是数据模型,这些数据模型具有分类或预测的能力,可以基于已知信息推断得到有利于业务决策的未知信息,甚至基于算法的推断结果还可以自动产生相应可靠的行为活动。

通过机器学习、深度学习等人工智能和大数据技术,可以从数据资源中自动学习到具有智能水平的数据模型,模型的结构和模型的参数是决定智能应用可靠性的关键。常见的智能应用有自动诊断、自动分类、自动检测、自动分类等,总之目标是让机器来代替人完成更多的业务操作,降低人工操作成本、增加业务效率、减少人为因素出错的概率、提高产品或服务的综合质量。