在企业的数字化转型工作中,不仅需要进行数字化管理能力建设,还要进行数字化技术能力建设。如果说管理能力决定企业数字化转型的形式和效果,那么技术能力则决定了数字化转型的质量和效率。数字化转型的有效落地,离不开数据资源和与数据资源相配套的系统工具的开发建设,其中,数据资源相关的技术能力要素包括数据和知识,系统工具相关的技术能力要素包括算法和算力,以此本文将从数据、知识、算法,以及算力等几个方面,介绍企业如何构建“数字化”的技术能力。
1.数据方面技术能力建设
数据是数字化转型的核心,“巧妇难为无米之炊”,对于数字化转型与业务创新,有了数据才有一切。企业开展数字化转型,目的是要用好数据,因此为了保障转型工作的实际落地效果,最首要的工作就是构建充足、可用的高质量数据资源。
所谓充足,意味着企业需要积累足够的数据量,保证这些数据量可以覆盖到足够多样的业务场景和产业端案例,从而为各种数字化业务应用提供信息内容上的“可靠性”、“完备性”。为了积累到足够充裕的数据资源,企业一方面可以通过业务系统的数据同步和整合的方式,从生产环境的业务系统直接更新数据资源,另一方面,可以通过构建更加完善的“数据感知”能力体系,对非结构化的环境信息进行主动获取。
对于数据同步工作来说,通过成熟的技术中间件可以非常便捷地实现数据的搬运,把源端业务系统中动态生成的数据,不断地复制、迁移到目标数据系统中以供后续阶段使用,该环节的操作使得数据生产环境和数据应用环境彼此分离。另外,数据的同步模式有批处理、流处理、微批处理等基本类型:批处理是指当数据积累到一定程度时,统一对同一批次的增量数据或全量数据进行更新同步;流处理是指源端系统不断生成数据时,实时地将新产生的数据进行同步;微批处理是把源端系统的数据流对象,切分成多个小批次,对每个小批次的数据进行动态同步。
在数据同步任务中,需要对数据内容进行转化。例如,对数据的精度或编码格式进行调整,用函数或模型改变数据特征的表现形式。从数据内容转化的视角看,数据同步又可以划分为ETL和ELT两类。ETL全称展开为Extraction、Transform、Load,该数据同步方式是指先将源端系统的数据进行抽取,然后进行数据格式转化,最后加载到目标系统,数据从业务系统同步到数据仓库(Data Warehouse)的方式采用的就是ETL的方法;相比,ELT全称展开为Extraction、Load、Transform,该数据同步方式在对源端系统抽取数据后,直接加载到目标系统,后续具体使用数据资源时候再考虑数据表现形式的转换问题,数据从业务系统同步到数据湖(Data Lake)的方式采用的是ELT的方法。
对于数据同步,在目标业务中不仅仅是对源端系统的数据进行隔离备份,更重要的意义在于对数据资源进行整合。目标系统会对接到多个源端系统上,面向各个场景、功能的不同源端系统,以及这些系统的不同数据表,都将在目标系统中进行集中汇聚。目标系统经常会采用基于分析主题的“宽表”结构,尽管数据来自于不同源端系统,但最终可能指向同一主题表,为该主题的大类应用进行数据服务赋能。
“数据感知”能力体系建设,是一种主动获取数据的技术实现方式。所谓数据感知,就是通过采集器或传感器对业务环境中的关键信息进行捕捉,以数据的形式进行沉淀,所获取的原始数据形式大多为非结构化数据,对当下的数据资源进行有效补充。
数据感知与数据同步的最主要区别在于,前者数据积累的过程是一个自主驱动的数据活动——将数据价值链的开发进一步“前移”,在数据获取阶段就进行提早布局,使得企业对数字化场景建设更加主动、可控。“数据感知”包括“软感知”和“硬感知”两种形式,“软感知”是对数字世界的信息感知与数据记录,相关方法比较成熟,主要的技术手段有埋点、日志数据采集、网络爬虫等;“硬感知”是对物理世界的信息感知与数据记录,针对不同环境信号的采集需求,具体形式比较多样,主要用于工业及供应链场景,主要实现技术载体有二维码、条形码、磁卡、RFID、OCR、图像传感器、音频传感器、视频传感器,以及工业专用传感器等。
数据方面的技术能力,除了体现在数据的规模上,还体现在数据质量上。企业为了保证数据质量,需要一些可靠的技术工具和方法:
为了提高数据质量,通常会依赖于数据管理平台,通过构建数据管理平台,对数据对象的基本信息进行统计、展示、比较,分析数据之间的血缘关系链路,查询数据项关联的业务系统、数据服务、技术应用,以及责任人或责任单位。另外,企业需要对数据质量进行自动化的核查,提高数据质量问题的发现效率。在制定数据质量标准的前提下,构建数据质量核查规则,将规则编码化,通过代码脚本或平台配置工具对数据库进行系统性的扫描,及时发现潜在的数据质量问题。
2.知识方面技术能力建设
除了数据本身的积累,企业为了更好地应用数据,还要进行知识方面的数字化能力构建。实现知识的数字化,是新型企业有效开展数据应用创新的重点工作之一,企业如果能将丰富的产业经验、行业规范、业务案例,以知识的形式进行长期的沉淀,结合自身的数据平台技术底座,更聚焦、准确、有针对性地从数据资源中提炼关键信息和商业洞察,则可以更高水平地发挥出数据资产的综合效能,实现真正有深度的数字化场景应用。
业务知识水平,决定了企业数字化应用的实际效果。数字化转型的工作,本质上让机器代替人来开展业务活动,那么机器的业务能力从而来呢? 当前,一般有两种典型的实现思路,一是纯数据驱动的方法,二是知识驱动的方法,或者说经验驱动的方法。
在数据驱动的方法中,通过机器学习或者深度学习技术,从可观测的数据资源中,自动识别、挖掘出有价值的业务规律,即蕴含在数据背后的潜在知识,将这些知识为机器所用,提供自动化或智能化服务;在知识驱动的方法中,则是直接对人所掌握的业务知识进行编码,将专家的经验灌输给机器,然后让机器快速地使用“人们”已经掌握到的知识。
在未来的智能算法应用,更多地在探索基于数据与知识融合的数据建模技术,这有利于同时利用到显性知识和隐性知识。例如,融合先验概率的贝叶斯推断模型、具有正则化约束的回归模型,以及添加单调性约束或非负约束的深度学习模型,都是数据、知识“双驱动”的数据科学技术手段。近期,百度的“文心一言”大模型,也是非常典型、成功的基于知识增强型的AIGC技术尝试,其将通过与不同行业领域知识的深度融合,实现产业侧的定向赋能与数字化能力升级。
图13.“数字化”技术能力建设的“四个维度”
3.算法方面技术能力建设
算法是数据分析能力的核心。在积累了数据资源的基础上,下一步就是数据怎么分析,数据怎么用的问题。在大多数的数字化转型实践中,一般不对算法层面做太前瞻的创新,更多是基于已有算法在新的场景中进行应用适配。熟悉不同算法的技术特性,有利于针对具体的应用场景,更准确地进行算法技术选型,提高技术应用的实际效果。
随着数据科学算法的日趋成熟,很多算法模型都实现了开源化。企业可以通过对第三方软件包或SDK,快速地获取算法方面的技术能力。有时,对于同样的技术需求,具有多种可行的算法选型方案,数据科学家需要对算法进行合理选型,在选型的过程中充分考虑算法的时效性、准确性、鲁棒性等多方面的评价因素。
企业在进行数字化能力建设时,一般会将数字化应用搭建在AI技术中台上,在AI技术中台上,提前“搭载”好了常见的算法模型组件,允许技术开发人员更加便捷地开展数据分析以及数据建模实验。除此以外,不少浅层的算法应用,也可以不依赖于深度的AI中台来开展,基于BI商业套件或商业软件,也能支持重要的数据分析应用,并为用户提供极具价值的业务应用结论。
从应用场景的差别来看,数字化相关的算法主要包括统计分析算法、数据挖掘算法、预测算法、查询算法、可视化算法等。
其中,统计分析算法主要面向明细业务数据进行多维统计分析,展示数据对象的概览、汇总信息,呈现其基本统计分布特征,除了用于业务现状跟踪、数据资源管理,同时也可提供客观量化的业务考核依据;数据挖掘算法的作用是,从数据中提取出有价值的业务信息,寻找可供分析决策的业务规律,此外,还可以用于对原始数据进行结构化处理,实现数据的高级特征表示;预测算法往往具有一定的智能化特征,利用各种数据模型,直接从数据中推断出用户关心的目标业务结论,对不可见、不可测、不可知的事务对象推荐可能的猜测结果,甚至自动做出相应的决策行为;查询算法和可视化算法,则分别定位于解决关键信息查找搜索的需求以及数据对象感知呈现的需求。
4.算力方面技术能力建设
企业在算力方面的能力重要性主要体现在大数据特征的数字化业务场景。随着数字化进程中,企业不断积累数据资源,并面向业务需求从海量数据资源中达成数字能力建设,企业对数据的高效处理能力无疑是非常关键的。依托于自身强大的算力基础,企业可以更好地发挥数据规模上的优势,把数据资源在“量”的强项转成数据服务“质”的特色。如果说算法决定了数字化应用的最终形态,而算力则决定了把数据资源变成信息价值的综合转化效能。
算力的作用主要体现在如下方面:首先,企业需要对“高并发”场景提供实时的数据任务响应,满足足够多的用户同一时间访问数据服务,保证数据服务的可靠性以及低延时;其次,在数据查询类需求中,需要对海量数据进行批处理,实现集中化的数据特征提取与统计分析,在可接受的时间容忍度下得到分析结论;除此以外,在一些智能化应用的设计和构建任务中,需要基于大数据资源进行数据建模,在海量数据集合上进行参数调整和优化,在得到数据模型后,还要对相应的大模型进行部署应用,实时对前端场景“动作”进行反馈。
算力方面的建设依赖于软硬件方面的双重投入。在硬件层面,通常需要配备大容量的数据存储设备、高性能的CPU(中央处理器)、GPU(图形处理器)、TPU(神经网络专用处理器)等计算芯片,专用网络设施,以及对各类环境数据进行采集的传感器;在软件层面,新型计算架构的出现,如分布式计算,极大地提高了对现有硬件设施的利用率,通过将多个计算节点进行联网,基于“分而治之”的操作策略,实现对数据处理任务的柔性能力扩张,有效地缓解了大数据场景中的资源限制瓶颈。
在数字化转型中,企业可以自行组配高性能的硬件资源和相应的分布式计算架构,但更为常见的形式是,委托第三方来承建基础算力环境的建设实施。第三方所交付的该一整套“算力”技术底座,也叫做“云”,其产品叫“云计算”或“云服务”。“云”的核心理念是虚拟化,用户只需要访问面向大数据的计算和存储资源,而无需关心底层的软硬件实现细节。在具体产品选型上,企业可以通过“公有云”的方式来按需租用具有“弹性”的算力服务,也可以采购并定制部署实施一套成熟的“私有云”产品。而对于具有数据安全与合规的属性要求,同时需要保证业务拓展弹性的企业来说,则可以考虑采用“私有云”+“公有云”的混合技术方案。