中信银行非现场审计系统DAP平台

系统概述

1) 系统定义与功能定位

系统定义:DAP(Data Analyse and Process) 数据分析和处理工具集。

功能定位:

提供给使用者进行数据分析和处理的工具;

记录使用者使用的场景,可针对场景进行管理、重现;

过程模型制作,形成数据处理的过程记录文件(可作为数据分析模型文件,针对批量数据批跑执行)。

系统框架

2) 数据场景

数据场景是数据分析人员基于一定的特定业务场景,对一系列的数据进行的一系列分析操作以及相应的操作结果,场景包含了特定的数据和DAP功能使用的状况。DAP场景可以被创建的用户独享,也被多个用户共享,共同使用。

以下罗列了一些DAP场景使用的例子:

ü 某个固定的查询过程可以在DAP上定义一个场景,完成该查询功能的要求;

ü 一个审计项目可以定义一个DAP场景,将这个审计项目的完整工作过程和成果保留下来;

ü 对一类业务可以定义一个DAP场景,将这类业务常见的问题探查过程固化下来,提供给大家共享;

ü 每个人可以按照自己的思路定义一个DAP场景,组织自己关注的问题;

ü 建立一个所有数据都包含的DAP场景,作为数据全景,提供给用户进行全面查询;

3) 过程模型

过程模型即为过程模型定义人员,处于一定的业务目的,定义的一个完整的数据分析过程步骤,以得到特定意义的数据结果,这样一个分析过程模型。一个过程模型由操作步骤链(命令链)和每个操作步骤(过程命令)所需的参数构成,每个操作都将生成相应的操作结果表。

ü “命令链”中的每个命令都是DAP分析功能工具支持的操作。

ü “命令链”中的每个DAP分析功能操作需要读取资料库中的参数定义。

ü “命令链”中的命令按照配置顺序执行。

ü 在处理过程中产生的DAP数据附属于这个DAP过程。

ü 每个DAP过程由外部程序调用,例如:通过ETL总控调用这些DAP过程。

4) 数据分析工具

数据分析工具是在数据场景中或者过程模型制作中,所应用的一系列的数据分析操作工具的集合。对每个工具都有确定的参数定义要求,在对DAP分析功能操作过程中,需要记录数据类资料库。

工具按功能分为两大类:数据功能工具和分析功能工具。

ü 数据功能工具:满足用户对数据的查看功能,在这些功能中不产生DAP数据。例如:读取、分类显示、图表、数据发布、字段显示设置等。

ü 分析功能工具:满足用户对数据的分析功能,在这些功能中将产生DAP数据。例如:提取、关联、比较、分组汇总、合并、采样、数据统计等。每个功能都产生操作结果的DAP数据表,前一步产生的DAP数据可以提供给其他功能使用。

在数据场景中的操作,可以看到整个数据分析工具集;在过程模型制作中,因为我们关注的是模型执行结果,而不关心中间过程,所以在过程模型制作时,系统不提供针对数据查看的数据功能工具,而只提供分析功能工具。

5) 功能组件

功能组件是在数据分析工具之下的一些具有公用性质的组件,用以支撑数据分析工具的底层实现。

6) 模块组件

模块组件包含了一些在DAP使用过程中的一些除了数据分析工具之外的协作功能组件,例如命令链引擎等。

7) 数据库服务器

数据库服务器是底层的数据支撑。数据分析工具都是通过存储过程来操作数据的;其余一些模块功能则直接访问数据表来操作数据。

8) 数据分析员和模型制作人员

数据分析员和模型制作人员是DAP中的两个用户角色。数据分析员主要针对数据场景工作,进行数据操作分析;模型制作人员顾名思义,就是进行过程模型的制作。

数据分析工作设计

分析功能工具

9) 数据提取(DataExtract

功能描述:按照筛选条件提取数据表数据,并生成新的结果表。本操作是模型录制的入口操作。

10) 字段维护(FieldMaintenance

功能描述:基于当前数据集(反映为操作的上下文环境),进行字段维护,可以新增一个或者多个字段,指定这些字段的表达式。

11) 数据关联(DataJoin)

功能描述:将不同数据表按照相同字段进行关联,把属于不同表的字段集中到同一个表中,从而实现对两张数据表中同一记录的不同字段的关联分析,实现两个数据集之间的拼接。

12) 数据比较(DataCompare

功能描述:将不同数据表按照关联字段进行比较,统计出两个表中各自关联字段的纪录个数、统计字段的总计值以及两个表此统计字段的差值。

13) 分组汇总(DateGroupSum

功能描述:按照条件对数据表数据进行分组、汇总输出。

14) 数据合并(DataUnion

功能描述:对多张数据表进行合并操作,注意数据表字段的数量和类型需要相同。


15) 重复检测(DataRepeatSelect

功能描述:按照检测字段将数据表的所有重复数据/不重复数据输出。

16) 数据排重(DataRepeatExclude

功能描述:按照检测字段将数据表的所有重复数据输出,然后省略排除字段中包含重复数据的记录,使每个排除字段值是唯一的。

17) 等距采样(SampleSpace

功能描述:从总体中选取一定数量的样本进行测试,并根据测试结果推断总体的特征。

18)  取唯一值(DataDistince)

功能描述:去掉数据表中重复的数据,保证输出的均是唯一的数据项。