✅ 操作成功!

数据中台建设方案

发布时间:2023-06-06 作者:admin 来源:文学

数据中台建设方案

数据中台建设方案

新加坡技术移民-dcv

2023年2月21日发(作者:顺利的反义词)

1

数字化数据中台技术方案

第一章数据中台概述

1.1.数据中台介绍

数字经济时代,用户才是商业战场的中心,为了快速响应用户的需求,借助平台化的力

量可以事半功倍。然而

第一,之前在传统企业信息化建设中企业为了满足单一业务场景需求而搭建的传统技术

架构,其底层技术选型大都无法支撑现有大数据应用场景。由此形成的技术壁垒,往往使得

企业转型成本激增甚至无法实现转型;

第二,在企业不断发展的过程中伴随着业务的多元化发展,企业信息部门单独建设或重

建全新业务系统,逐渐形成了一个个相互独立的数据中心,从而导致大量系统、功能和应用

的重复建设,更造成了计算存储资源和人力资源的浪费;

第三,企业由于业务发展带来的组织壁垒而形成的数据孤岛,是数据壁垒最典型的场景。

它使得企业数据难以被全局规划和定义,从而导致数据价值无法被充分挖掘。

传统信息化建设往往以满足业务流程结果做为唯一标准,忽视了过程数据和关联数据。

传统的数据平台和其所谓的三层技术架构:前端展示层、中间逻辑层、后端数据层,己经

无法完善地解决上述三个问题并实现以用户为中心的业务提升的。

当前企业数据的爆炸式增长以及价值的扩大化,数据将对企业未来的发展产生深远的影

响,数据将成为企业的核心资产。数据中台是指通过数据技术,对海量数据进行采集、计算、

存储、加工,同时统一标准和口径。

2

数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为

客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,

它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化

竞争优势所在。

1.2.数据中台价值

中台从公司战略角度,将这些行为进行了规范化,公共的部分交给公共系统部门去做。

中台实际上是通用业务的下沉,企业在一个行业耕耘多年之后,一般都会形成一些公用

的业务,而这些业务是可以像中间件那样进行下沉共享的。

政府企业机构等对内对外有了统一的业务系统、管理平台等等,就不会再有各种业务系

统孤岛,不会有数据打通问题,不会有跨部门的数据墙。

有了统一的中台,也就有了统一的数据规范。

对于大数据相关的需求,可以从相对唯一的数据出口进行业务迭代,不需要为每一个部

门进行定制开发,浪费人力。

1.3.数据中台设计原则

1.3.1.数据的一致性和标准性

除遵循数据库设计的软件行业标准外,还要遵循国家、地方标准及行业的习惯性事实标

准。此外,数据中台的建设中将充分考虑客户已建系统的数据,确保与客户现有数据的一致

性和标准性。

1.3.2.数据的实用性和服务性

3

数据中台设计充分考虑实际情况和应用特点,遵循“服务性与实用性并重”的原则,

通过数据整合与治理,数据高度可共享、和可根据实际需求不断灵活组合,为业务应用服务,

数据质量高,保证数据的实用性。

1.3.3.数据的独立性与可扩展性

设计时需要做到数据中台的数据具有独立性,独立于应用程序,使数据中心的设计及结

构的变化不影响程序,反之亦然。另外,数据库设计要考虑其扩展性能,使得系统增加新应

用或新需求时,不至于引起整个数据中心结构的大变动。

1.3.4.数据的安全性

通过设计合理和有效的备份和恢复策略,确保数据中心遭遇突发事故时,能在最短的时

间内恢复。同时,通过做好对数据中台的访问授权设计,保证数据不被非法访问。

1.3.5.数据分级管理机制

根据用户访问数据中台的角色,将用户分成决策分析用户、系统管理用户、运行浏览用

户和运行调度用户等几个角色,分别赋予角色访问数据的权限和使用系统功能的权限,严格

控制角色登录,实现数据的分级管理。

1.4.数据中台设计方法

1.4.1.基于面向服务的架构方法(SOA)

基于面向服务的架构方法(Service-OrientedArchitecture,SOA)采用基于面向服

务的架构方法,构建智慧城市运营中心的业务流程和IT架构。SOA(面向服务的体系结构)

将政府中各个系统应用程序的不同功能单元抽象为服务,通过这些服务之间定义良好的接口

4

和契约联系起来。接口是采用中立的方式进行定义的,它独立于实现服务的硬件平台、操作

系统和编程语言。这使得构建在各种各样的系统中的服务能够通过统一和通用的方式进行交

互。SOA架构由服务总线、服务目录、门户、流程管理等几个核心组件构成的。这些核心

组件协同工作共同支撑服务的部署、运行与管理监控。

1.4.2.业务系统规划法(BSP)

业务系统规划法(BusinessSystemPlanning,BSP)的关键思想是将业务的长期战略目

标转化为信息系统的战略目标,通过对业务战略的分析导出信息系统的规划。

业务系统规划法(BSP)采用的基本方法是“自顶而下”的识别业务目标、企业过程和数

据“自下而上”地分布设计系统,这样可以解决大型系统难以一次性设计完成的困难,也可

以避免自下而上分散设计可能出现的数据不一致。

业务系统规划法(BSP)的规划步骤:

(1)准备工作;

(2)调研;

(3)定义业务过程;

(4)业务过程重组;

(5)定义数据类;

(6)定义信息系统总体结构;

5

(7)确定总体结构中的优先顺序;

完成BSP研宄报告,提出建议书和开发计划。

1.4.3.系统工程理论

系统工程方法将相关问题及情况分门别类,确定边界,侧重各门类之间内在联系,确保

处理方法的完整性,采用全面和运动的观点、方法分析主要问题及整个过程。其具有综合

性、科学性、实践性的特点。利用系统工程理论指导软件开发和维护,主要使用工程化概念、

原理、技术及方法开展软件开发、维护的工作。采用系统工程方法用系统的原理、方法研究

系统的对象,立足整体系统,制作出科学的工作计划及流程,有效地完成任务。

系统工程方法依从系统全局观点,从系统与要素、系统与环境之间相互联系、相互作用

出发研究相关对象,实现最佳处理问题的目标。其基本内容有:全面调查研宄有关资料和数

据,提取有效信息,系统了解相关问题信息,进一步确定完成任务所需条件:提出相关方案,

展开定性和定量的理论分析,进而进行实验研究,客观评价系统技术性能、经济指标,注重

社会效果,为最终方案在理论和实践上做铺垫;经由系统分析与综合,比较和鉴别出最优系

统设计方案进行实施;

依据系统设计方案,指定有效计划,将开发研究出的系统投入使用,并对系统的性能、

工作状态及社会反应做出相关评价和检验。系统工程方法在计算机软件方面应用广泛,同时

起着重要作用。结合系统工程方法的特点,在计算机软件设计阶段可规范其流程,促使计算

机软件设计进程加快,同时提高开发人员的工作效率,为软件系统研发速度的提局打下基

础。

第二章数据中台核心功能

6

2.1.技术架构

目前各政府机构和企业的信息化平台数据按结构类型主要三种,分别是:结构化数据、

非结构化数据、半结构化数据三大类;结构化数据存储在关系型数据库中;非结构化数据主

要包括音视频、图片、文档等,通过分布式文件系统在数据库进行统一管理;半结构化数

据是结构化数据的一种形式,但它并不符合关系型数据库或其他数据表的形式关联起来的数

据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,例如:日志

文件、XML文档、JSON文档、Email等。建设数据中台的过程中,这三类数据都会做为

数据源出现,因此数据中台要能够妥善地处理这三种类型的数据。

数据中台基于数据资源多样性的特点和能够高效支持业务的目标,结合设计规划方法

论、原则和规划思路,统一数据资源系统规划建设大数据采集体系、数据资源融合体系、数

据分析体系和数据共享服务体系,将数据安全和数据标准融入四大体系之中,通过智能演进

不断提升数据接入、处理、组织、挖掘、治理和共享服务的能力,不断丰富和完善数据中台。

数据中台主要包含:数据采集接入平台、数据加工处理平台、数据组织管理平台、数据

综合治理平台、数据共享服务平台、数据挖掘分析平台、数据可视化平台和统一管理平台等

多个支撑系统组成。

2.1.1.层次架构

基于数据资源的需求分析和愿景目标,结合设计规划方法论、原则和规划思路,统一数

据资源体系规划建设大数据采集体系、数据资源融合体系、数据分析体系和数据共享服务体

7

系,将数据安全和数据标准融入四大体系之中,通过智能演进不断提升数据接入、处理、组

织、挖掘、治理和服务的能力,不断丰富和完善数据中台。数据资源总体架构图如下所示:

2.1.2.逻辑架构

统一数据资源体系的规划建设是数据建设的核心,承载着高效使用底层平台能力进行海

量数据的动态感知采集和接入、标准化和智能化处理、精细化组织、全维度融合、精准可控

的共享服务、多手段集成安全等关键责任和重任。为实现上述目标,统一数据资源体系规

划了三大体系:大数据感知采集体系、数据资源融合体系以及数据共享服务体系。系统功

能设计上,主要包含:数据接入、数据处理、数据组织、数据挖掘和数据治理、数据共享

服务。各个模块的功能构成如下:

2.1.3.数据架构

数据中台数据架构是针对多源异构的数据场景,在数据组织层面为数据的接入、融合及

智能数据应用服务等提供稳定、高效的支撑。从数据的接入方式、存储方式、加工方式、使

用方式等方面综合考虑,资源库是在原始库的基础上进行数据的规范化治理及基于数据主题

的整合;主题库是以原始数据、资源数据为基础,构件实体关系模型,并在此基础上形成的

知识图谱和事理图谱等;业务库是为了支撑不同业务场景所定义的相关数据结构。知识库是

专业领域或与专业领域相关的特征知识数据和规则方法集合。

此外还包括整合数据索引信息的统一索引库;记录了本平台及与平台相关的数据的属

性、位置、数据量、权限等基本信息的数据资源目录;记录了技术元数据、业务元数据、

8

管理元数据的元数据库;以及为交互分析挖掘规划的数据实验空间和记录平台相关管理配置

信息的管理信息库。数据架构图如下:

2.2.数据统一采集接入平台

2.2.1.平台架构

采用统一的数据接入模式,以标准化、模块化的方式进行多源异构数据资源的接入;提

供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务

调度、数据加密、断点续传等数据接入功能;当接入时,同时维护数据资源目录,以及数据

血缘信息。

2.2.2.数据流程

平台提供一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,

可在接入过程中做初步的清洗加工,并提供可视化的任务调度运行管理,并向数据智能管理

和数据治理提供数据支撑。

2.3.数据加工处理平台

9

数据加工处理是实现数据标准化的过程,包括了数据的提取、清洗、关联、比对、标识、

对象化等操作,支持实时计算和离线计算,支持批量处理操作。数据传输过程支持分布式数

据传输方式。在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,

采用图计算和内存计算技术,实现数据的价值提升。在数据处理过程中,引入模型体系和标

签工程和知识图谱技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准

备、数据抽象。

2.3.1.平台架构

数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构

建知识图谱等规范化处理流程,实现异构数据的标准化及深度融合。数据处理采用开放式

架构,能够以统一、标准、

易于扩展的方式进行数据处理流程的动态编排。同时,在各环节引入了自然语言处理、

多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知。

2.3.2.数据流程

2.4.数据组织管理平台

2.4.1.平台架构

10

数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信

息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。

同时为后续的数据血缘追踪提供溯源支持。

资源库是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库

对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。

主题库通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱

和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对

等服务。

知识库对外支撑知识类数据的查询以及模型工程、标签工程等服务。

业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知

识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础

上,实现了对外的数据统计、分析、推送及碰撞等服务。

数据资源目录对外支撑各部门对数据资源目录的查询。

2.4.2.数据流程

11

数据组织过程通过分层实现,经过标准化、对象化的处理过程,提高数据质量和数据价

数据源:在接入时,一般直接进入原始库。也可直接分发,进行数据处理,存储到资源

库或业务库

原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据

处理后,进入资源库

资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过

对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库

主题库:经离线归一化(Idmapping)计算、关联和标识(包括对象标识),计算结果

可以输出到主题库或业务库

业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用

知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务

库进行挖掘,可反哺和进一步完善知识库

2.5.数据综合治理平台

2.5.1.平台架构

数据标准管理负责管理维护整个数据中台的标准,为其他各类管理活动提供标准化服务

支持。元数据管理为血缘管理和数据资产管理提供元数据支撑,基于元数据管理建立血缘关

12

系、进行血缘分析、元数据级别的分级定义和资源目录规划等;数据资产管理负责数据资产

共享、分发、使用、管理,包含数据资源目录、分级分类、生命周期管理、血缘管理等部分;

数据质量通过建立评估标准和管理规范,提供数据质量问题发现、监测跟踪、分析应用等闭

环流程和管理功能,为数据质量提供必要的保障;数据运维管理则全面掌握数据接入、数

据流量、数据资源的总体情况和使用情况;数据运营是数据资产管理实现的最终阶段,该阶

段包括幵展数据资产价值评估、数据资产运营流通等。

2.5.2.数据流程

数据治理,通过管理数据资源目录、元数据、分级分类、血缘关系等信息保障数据汇聚

与融合后的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据全

生命周期的高质量运行,通过数据运营变现数据价值;

2.6.数据共享服务平台

2.6.1.平台架构

服务总线通过API接口方式提供服务,服务构建平台为应用开发提供支撑。通过以上

方式,形成数据中台手段丰富、分类服务、按需动态授权的数据服务综合模式。

2.6.2.数据流程

13

2.7.数据挖掘分析平台

2.7.1.平台架构

从下至上分为数据源层、数据集成服务层、工具支撑层、应用服务层、场景层。

数据源层:本层是各类数据的来源,包括公安内部的结构化和非结构化的数据,以及可

以在业务支持下提供外部如互联网之类的数据等。

数据集成服务层包括数据接入管理,通过数据抽取的服务工具来对结构化和非结构化数

据的抽取,在抽取的时候可以通过接入配置相关的功能来进行配置及抽取任务的管理,从而

达到定时、定量的接入各类数据;数据处理,在系统中对于数据是实时接入的,在接入的同

时也对数据进行了实时的处理。针对结构化数据我们进行了清洗和加工的操作,针对非结构

化数据如图片,我们会做标注和特征提取的操作;数据管理,数据在入库以后,会进行统一

的数据管理,在管理方面,包含了数据资产、数据维度、数据坐标、数据共享这几块的内容,

通过这些方式,对数据进行全方位的掌控。

工具支撑层:提供知识图谱生成工具,可视化建模工具和关联关系分析工具,知识图谱

是智能研判的核心内容,是构建以人为核心的相关业务,通过一系列的数据操作形成人员主

题模型;同时通过模型管理、关系管理、标签管理来对人的相关业务数据进行管理。

14

应用服务层:体现了平台随想即成,随需而变的理念,在功能应用方面我们通过对公安

业务的高度总结凝练,形成了信息查询、关系拓展、数据研判、实时监控、预测预警的功能

应用服务体系,再结合各类可视化展示的相关功能,构建出了高效实用的应用服务模式。

场景层:用户的应用场景的无穷尽的,我们通过积累总结,针对用户的各种业务场景,

推出了各种对应的业务模型,进一步形成了业务场景服务包,用时提供对外实时的模型服务,

如实时预测、实时推送数据等。通过应用、API、服务、数据等方式来支撑我们自己产品的

同时,也可以对外提供各种支持,如多终端的使用等。

2.7.2.数据流程

平台数据整体逻辑针对行业数据管理的痛点,将数据由分散到集中,从无序到有组织,

提供数据挖掘分析服务来针对业务场景进行数据价值挖掘,通过数据开放服务来支撑应用。

平台支持全生命周期的数据资管理,数据根据衍变过程可分为:基础数据、主题数据、

专题数据、接口数据。

基础数据:将分布在不同的业务系统的结构化和非结构化数据,通过ETL工具、API

和MQ进行统一接入,形成基础数据。

主题数据:围绕人、物、地、事等基本业务要素,将基础数据进行组织,经过元数据管

理、数据标准管理、数据质量管理等数据治理过程,形成主题数据。

15

专题数据:通过数据增值服务,针对不同的应用场景进行数据挖掘,形成支撑场景业务

的专题数据。通过标签服务生成的标签数据,通过数据建模生成的模型结果数据,通过知识

图谱生成的关系图数据等。

接口数据:开放服务将数据转换成报文协议、流数据等接口数据,与业务应用进行对接。

2.8.数据可视化平台

2.8.1.平台架构

数据可视化平台为整个数据中台提供了大数据可视化展示能力,它为客户提供了各种可

视化组件,客户可以根据自己的需求通过组件间简单组合进行数据展示。帮助用户快速分析

数据并洞察业务趋势,从而实现业务的改进与优化。

数据可视化平台通过三维表现技术来表示复杂的信息,实现对海量数据的立体呈现。可

视化技术借助人脑的视觉思维能力,通过挖掘数据之间重要的关联关系将若干关联性的可视

化数据进行汇总处理,揭示数据中隐含的规律和发展趋势,从而提高数据的使用效率。在

解决了海量数据分析耗时过长、挖掘深度不够、数据展现简单等问题的基础上,大数据可视

化平台使人们不再局限于使用传统关系数据表来分析数据信息,而是以更直观的方式呈现和

推导数据间的逻辑关系。总而言之,数据可视化是做大数据分析的一个很重要的手段。

2.8.2.数据流程

16

通过可视化分析展示平台,使抽象的数据信息变得简单、易懂,直观呈现数据分析结果,

丰富的可视化组件可帮助业务准确的表达数据的价值所在,完善的功能可帮助用户建立有针

对性的报表体系。其主要价值可体现在即席查询、数据洞察与大屏呈现、移动报表之上。

第三章主要关键技术

3.1.内存级数据共享交换

1)多元异构、一键迀移

可实现多种数据库、多种数据结构的数据采集,具备可插拔的模板型数据接入方式。可

同时实现结构化和非结构化数据的处理,实现对数据仓库、大数据平台以及各业务系统的数

据,按照统一的传输交换策略进行高效传输和集中管理。

2)数据采集和分发

适配多数据源,能够对结构化数据、半结构化数据、非结构化数据的差异化数据源分

别实现相应的数据采集能力。同时可实现跨网络的远程数据采集和传输到目标源数据库。

3)实时数据交换

可实现实时数据获取、加载与对外交换,支持系统间实时批量数据交换,提高数据分析

与使用的时效性。

4)数据ETL工作流

数据清洗,可实现关键业务数据的质量校验,清洗处理,转码要求等。数据拆分与合并,

可实现大批量数据文件、数据库数据的增量甄别,全量合并推送等功能,提高数据交换效率。

17

数据质量校验,可实现对加载的数据文件或者数据库数据进行质量校验,包括但不限于数据

格式的准确性,数据表的非空校验,异常数据识别等。并根据安全要求,进行数据传输加密

处理。

5)分布式内存处理

内置分布式缓存集群,集群规模可扩展到100个节点以上。可对流入的数据流进行实

时数据清洗和加工,集群规模可根据待处理的数据量增长而扩大集群规模,可满足来自数据

源的高并发写入和高吞吐写入,单节点写入数据量可达到500M/S以上。

6)多种数据灾备方式

支持多种备份和恢复方式

提供全量备份、增量备份、日志备份等备份方式,提供按照时间点恢复、自动灾难恢复

等多种恢复方式。

支持数据库实时同步

支持主库与备份库实时同步、和按自定义时间戳或SCN号同步。支持数据库高可用容

通过平台内置的数据库日志采集模块,可实现将主库中的表数据实时同步到异地灾备中

心。

3.2.一站式数据集成及数据管理

1)全局规划一一全局设计大数据中心,标准模型设计,统一数据指标口径;

18

2)数据融合一一打通任意数据源,自动重构元数据与主题数据,为应用提供统一数

据服务;

3)资产管理——对数据资产全局把控和智能管理,对数据高效治理,追踪数据用途

和产生的价值;

4)智能分析一一对所管理的数据进行机器学习算法分析,使统计分析的BI智能升华

到AI智能;

5)数据映射一一自动加速数据查询,最高可提速1000倍,完全发挥关系代数的计算

能力;

6)查询下推一一对任意数据源优化查询语义,如阿里云RDS、亚马逊S3、RDBMS、

NoSQL数据库、Hadoop、ElasticSearch等;

7)统一查询引擎一一基于成本的查询规划器自动生成查询规划来优化数据映射和下推

查询。

3.3.数据分析模型

平台需要支持不同的业务应用。为了使平台具有灵活性和扩展性,能够完成不同业务数

据的处理,需要将数据处理的模型和算法独立出来,以适应不同的业务要求。在具体的实施

中,依据大数据处理的目标定义和选择合适的数据处理模型。

平台通过管理各种数据分析模型,加载样本数据,创建调度任务,产生中间或最终结

果,提供给不同的应用系统或者用户进行访问、查询等。系统将采用具有国际标准的企业级

的服务接口进行封装,从而能够满足不同的需求。平台通过基于Oozie工作流的方式,可

19

视化的监控到每个分析模型的工作MR的运行情况,并且能够对分析模型进行评价和优化,

这也是目前系统的创新点之一。

3.4.数据治理技术

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理

到机构全业务范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个

过程。

大数据平台数据治理能力的建设,需要引入数据治理的核心思想和技术,从制度、标准、

监控、流程几个方面提升开行的数据信息管理能力,解决目前所面临的数据标准问题、数据

质量问题、元数据管理问题和数据服务问题。

(―)数据治理核心驱动力

数据标准规范化:规范化管理构成数据平台的业务和技术基础设施,包括数据管控制度

与流程规范文档、信息项定义等。

数据关系脉络化:实现对数据间流转、依赖关系的影响和血缘分析。

数据质量度量化:全方位管理数据平台的数据质量,实现可定义的数据质量检核和维度

分析,以及问题跟踪。

服务电子化:为数据平台提供面向业务用户的服务沟通渠道。

(二)数据治理核心技术

统一数据标准:对数据进行分类、口径、模型等规则的标准化统—管理

20

元数据管理:以建立企业级数据模型、指标体系为切入,将业务分类、业务规则、数据

立方体纳入元数据管理

数据质量管理:建立跨专业、全过程的数据质量管理体系,保障数据信息的准确、规范、

完整、一致

数据生命周期管理:实现数据生命周期的多级管理,将数据使用频度和资源占用合理分

数据安全管控:对数据管理全过程的数据资产、传输、环境、访问控制、人员权限等方

面进行全面的安全管控。

3.5.数据挖掘技术

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常

与计算机科学有关,并通过统计、在线分析处理、数据检索、机器学习、专家系统(依靠过

去的经验法则)和模式识别等诸多方法来实现上述目标。

从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模

式评估和知识表示等8个步骤。

信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择

合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存

储和管理的数据仓库是至关重要的。

数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为

组织提供全面的数据共享。

21

数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运

营数据挖掘时往往数据量非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,

但仍然接近于保持元数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或

几乎相同。

数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值),含

噪声的(包含错误的属性值)并且是不一致的(同样的信息不同的表示方式),因此需要进

行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人

数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形

式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事

例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用

的分析信息。

模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

知识库:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存

放在知识库中,供其他应用程序使用。

数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到

前面的步骤,重新调整并执行。

3.6.可视化建模技术

可视化建模(VISUALMODELING)是利用围绕现实想法组织模型的一种思考问题的

方法。模型对于了解问题、与项目相关的每个人(客户、行业专家、分析师、设计者等)沟

22

通、模仿企业流程、准备文档、设计程序和数据库来说都是有用的。建模促进了对需求的更

好的理解、更清晰的设计、更加容易维护的系统。可视化建模就是以图形的方式描述所开

发的系统的过程。可视化建模允许你提出一个复杂问题的必要细节,过滤不必要的细节。

它也提供了一种从不同的视角观察被开发系统的机制。

语义分析技术

在语义理解领域的核心技术智慧语义认知技术是采用一种完全自主知识产权的创新方

法,不同于深度学习的另一种途径,是基于概念识别的一种方法。从目前的效果来看,至少

有三个不同于深度学习的特点:第一不需要GPU那么大的算力支持,传统的PC服务器就

可以满足要求;第二不需要提供大量的语料来训练;第三对多语种的支持具备明显的便利性。

技术优势

核心技术聚焦在人工智能的语义认知方面和非结构化大数据分析挖掘方面。

在人工智能的语义认知方面,核心技术的创新性在于,(1)构建了基于概念的多层次语

义知识表示方法和语义分析技术,解决自然语言中普遍存在的歧义性,超越关键字的领先语

义理解技术,能实现对文本的多个层次(词语、句子、段落、篇章)的分析,实现文本语义

的量化计算,提供强大的自然语言理解相关分析算法。(2)构建了多语种分析算法和机器翻

译算法,解决多语种的语义认知问题,利用一套算法流程,实现多语种支持,语种扩展性好。

新增加语种,不用修改算法。(3)构建了智能机器人认知技术,基于概念计算和深度学习

技术,实现了用户意图的识别、上下文会话识别、自学习机制等,解决了在没有大量语料训

练的行业应用中的机器人交互效果差的问题。

23

非结构化大数据分析挖掘方面,核心技术的创新性在于,(1)构建了“本体〇-要素

E-概念C”三位一体的本体建模技术,为业务人员提供形式化的业务建模工具,使得业务人

员摆脱文本表示的多样性和歧义性带来的复杂算法,从自然语言处理算法直接应用到面向业

务建模,实现业务高可配置性。(2)构建了良好的可扩展的分析挖掘平台,从单一语种的算

法提供,到多语种算法的统一支持,同时支持包括深度学习、分布式计算等技术的集成。(3)

构建了非结构化大数据的分布式架构,支持卓越的大数据计算与存储平台集成能力,支持

主流的Hadoop平台,支持Map/Reduce计算,支持Spark、Storm、Kafka等分布式

计算平台集成。

3.8.知识图谱技术

数据实时处理工具能够支持大规模的知识点间关联关系的计算,它能够支持百亿级关联

规模的政务知识图谱管理,同时数据实时处理技术还为知识图谱计算系统在保证如此大规模

的图谱知识管理下,提供了知识图谱实体及其关联更新速度达到毫秒级的保障,也确保知识

图谱系统中实现了对知识图谱的星型查询速度能够达到秒级以上。

👁️ 阅读量:0