系统概述
1) 系统定义与功能定位
系统定义:DAP(Data Analyse and Process) 数据分析和处理工具集。
功能定位:
提供给使用者进行数据分析和处理的工具;
记录使用者使用的场景,可针对场景进行管理、重现;
过程模型制作,形成数据处理的过程记录文件(可作为数据分析模型文件,针对批量数据批跑执行)。
系统框架
2) 数据场景
数据场景是数据分析人员基于一定的特定业务场景,对一系列的数据进行的一系列分析操作以及相应的操作结果,场景包含了特定的数据和DAP功能使用的状况。DAP场景可以被创建的用户独享,也被多个用户共享,共同使用。
以下罗列了一些DAP场景使用的例子:
ü 某个固定的查询过程可以在DAP上定义一个场景,完成该查询功能的要求;
ü 一个审计项目可以定义一个DAP场景,将这个审计项目的完整工作过程和成果保留下来;
ü 对一类业务可以定义一个DAP场景,将这类业务常见的问题探查过程固化下来,提供给大家共享;
ü 每个人可以按照自己的思路定义一个DAP场景,组织自己关注的问题;
ü 建立一个所有数据都包含的DAP场景,作为数据全景,提供给用户进行全面查询;
3) 过程模型
过程模型即为过程模型定义人员,处于一定的业务目的,定义的一个完整的数据分析过程步骤,以得到特定意义的数据结果,这样一个分析过程模型。一个过程模型由操作步骤链(命令链)和每个操作步骤(过程命令)所需的参数构成,每个操作都将生成相应的操作结果表。
ü “命令链”中的每个命令都是DAP分析功能工具支持的操作。
ü “命令链”中的每个DAP分析功能操作需要读取资料库中的参数定义。
ü “命令链”中的命令按照配置顺序执行。
ü 在处理过程中产生的DAP数据附属于这个DAP过程。
ü 每个DAP过程由外部程序调用,例如:通过ETL总控调用这些DAP过程。
4) 数据分析工具
数据分析工具是在数据场景中或者过程模型制作中,所应用的一系列的数据分析操作工具的集合。对每个工具都有确定的参数定义要求,在对DAP分析功能操作过程中,需要记录数据类资料库。
工具按功能分为两大类:数据功能工具和分析功能工具。
ü 数据功能工具:满足用户对数据的查看功能,在这些功能中不产生DAP数据。例如:读取、分类显示、图表、数据发布、字段显示设置等。
ü 分析功能工具:满足用户对数据的分析功能,在这些功能中将产生DAP数据。例如:提取、关联、比较、分组汇总、合并、采样、数据统计等。每个功能都产生操作结果的DAP数据表,前一步产生的DAP数据可以提供给其他功能使用。
在数据场景中的操作,可以看到整个数据分析工具集;在过程模型制作中,因为我们关注的是模型执行结果,而不关心中间过程,所以在过程模型制作时,系统不提供针对数据查看的数据功能工具,而只提供分析功能工具。
5) 功能组件
功能组件是在数据分析工具之下的一些具有公用性质的组件,用以支撑数据分析工具的底层实现。
6) 模块组件
模块组件包含了一些在DAP使用过程中的一些除了数据分析工具之外的协作功能组件,例如命令链引擎等。
7) 数据库服务器
数据库服务器是底层的数据支撑。数据分析工具都是通过存储过程来操作数据的;其余一些模块功能则直接访问数据表来操作数据。
8) 数据分析员和模型制作人员
数据分析员和模型制作人员是DAP中的两个用户角色。数据分析员主要针对数据场景工作,进行数据操作分析;模型制作人员顾名思义,就是进行过程模型的制作。
数据分析工作设计
分析功能工具
9) 数据提取(DataExtract)
功能描述:按照筛选条件提取数据表数据,并生成新的结果表。本操作是模型录制的入口操作。
10) 字段维护(FieldMaintenance)
功能描述:基于当前数据集(反映为操作的上下文环境),进行字段维护,可以新增一个或者多个字段,指定这些字段的表达式。
11) 数据关联(DataJoin)
功能描述:将不同数据表按照相同字段进行关联,把属于不同表的字段集中到同一个表中,从而实现对两张数据表中同一记录的不同字段的关联分析,实现两个数据集之间的拼接。
12) 数据比较(DataCompare)
功能描述:将不同数据表按照关联字段进行比较,统计出两个表中各自关联字段的纪录个数、统计字段的总计值以及两个表此统计字段的差值。
13) 分组汇总(DateGroupSum)
功能描述:按照条件对数据表数据进行分组、汇总输出。
14) 数据合并(DataUnion)
功能描述:对多张数据表进行合并操作,注意数据表字段的数量和类型需要相同。
15) 重复检测(DataRepeatSelect)
功能描述:按照检测字段将数据表的所有重复数据/不重复数据输出。
16) 数据排重(DataRepeatExclude)
功能描述:按照检测字段将数据表的所有重复数据输出,然后省略排除字段中包含重复数据的记录,使每个排除字段值是唯一的。
17) 等距采样(SampleSpace)
功能描述:从总体中选取一定数量的样本进行测试,并根据测试结果推断总体的特征。
18) 取唯一值(DataDistince)
功能描述:去掉数据表中重复的数据,保证输出的均是唯一的数据项。