To set up analytic data environment and to convert analysis method in China Telecom
各种类型公话终端的话机资料的关系模式为 PhoneTypeInfor_xxxx(电话号码,地区代码,市县代码,支局代码,…,话机类型)
各种类型公话终端的话务的关系模式为 PhoneTypeFee_xxxx(电话号码,总次数,通话总时长,总金额,市话次数,市话时长,市话金额,…,地区代码)
xxxx表示年月,如0302代表2003年2月的话机资料或话机话务
在公话中心内,一方面业务数据分散于操作型环境中,例如IC话机的话务,由于存在IC和200两种业务,而IC和200业务的计费分别由IC和200计费系统来完成,技术人员对于一个计费月内IC话机话务信息的统计也就分散于操作型环境中的两个数据库表中,这更增加了对IC话机话务分析的复杂性。另一方面业务数据又存在着不一致,比如在各种类型公话终端话务表中,终端的地区代码与终端资料表中地区代码存在着不一致;
2.2 经营分析的现状
由于业务数据分散于操作型数据环境中,并且都是细节级的数据,这就制约了经营分析人员的分析方法。在广东电信公用电话管理中心,目前对于公话终端、IC及200业务主要进行较高层面的话务分析及话务动态分析,如分析某一计费月全省各公话终端、IC及200业务的话务指标,各分公司公话终端、IC及200业务的话务指标以及上述指标在几个计费月的变化。
3 构建分析型数据环境
对于较高层面的话务分析及话务动态分析而言,经营分析人员即使知道了全省或部分分公司的话务变化,也无法找出其中的原因或规律。同时也不符合”以客户为中心”的经营理念。要想解决上面的问题,必须对话务数据按照不同的综合程度来设置不同的粒度,分析人员在分析高层话务变化的时候就可以从数据仓库中粒度较低的表中逐级地分析话务的这种变化,最终找出话务变化的原因或其中的规律,从而为管理者制定下一步的决策提供依据。
3.1 使用数据仓库对数据进行重组
3.1.1 数据仓库简介
数据仓库技术是用以更好地支持企业或组织的决策分析处理的,面向主题的,集成的,不可更新的、随时间不断变化的数据集合。它通过将数据按照不同的综合程度(即粒度)来组织,以满足不同分析的需要。
3.1.2 公话业务数据仓库中的主题
考虑到公话中心经营人员的分析要求,确定了公话业务数据仓库的主题域:客户。
由于公话业务中客户的定义比固网客户和移动网客户更复杂,存在着两个定义,传统上也是目前广东电信公话管理中心侧重于将它定义为发生公话业务的公话终端、固网终端和移动网终端。在广东电信目前公话终端包括200专用话机、IC话机、IP超市话机、IP公话话机和有人值守公话(人工代办);另一方面也是比较反映客户本质的,将它定义为使用公话业务的客户,目前包括200卡用户、IC卡用户。
但由于目前移动网终端发生公话业务的话务量非常小,所以在终端中暂时不将移动终端考虑在内;此外,对于卡类用户中的200充值卡用户,由于其使用卡具有一定的固定性(同用完一张公话卡再使用另一张公话卡的用户相比),分析起来就有一定的实际意义,并且在全省一个月中发生话务的近二千万张200卡中,三四百万张200充值卡的通话收入占了200业务通话收入的30%以上,所以基于上述两个因素的考虑可将数据仓库中卡类用户界定为200充值卡用户。
3.1.3 基于关系数据库的数据仓库的星形模式
星形模式是基于关系数据库的数据仓库中的一个著名概念,由于星形连接模式的设计思想能够满足人们从不同观察角度(维)分析数据的需求,所以在基于关系数据库的数据仓库的设计中广泛地使用了星形模式。在星形模式下,事实表中包含着用于分析的指标和联接众多维表的主键。
3.1.4 公话业务中的数据仓库设计
在公话业务中,以终端用户为例,星形模式中的事实表包含着话务指标(如市话、国内长话、国内长话、IP国际长话等话务的通话次数、通话时长和话费以及话务合计)及众多维表(如地区维表、话机维表、话机类型维表和时间维表)的主键。如下图1、图2和图3所示:

… 
3.1.5 公话业务中的数据仓库数据的生成
数据仓库中数据的生成包括操作型环境数据的挖掘和数据仓库中数据的生成这两部分的内容。在这一步里所要做的工作是接口编程,以实现将操作型环境下的数据装载进入数据仓库环境。建立和设计这个接口,不仅要对数据进行抽取,而且还要从面向应用和操作的环境生成完整的数据。公话业务中数据仓库的生成见图4所示:

3.2 用分布式数据库实现分公司的数据访问
通俗地说,分布式数据库系统就是物理上分散而逻辑上集中的数据库系统。如今的大型数据库系统如Oracle、Sybase、Informix及MS SQL Server都支持分布式数据访问技术。
对于公话业务中的分布式数据库而言,可采用重构法创建。重构法是根据系统的实现环境和用户需求,按照分布式数据库系统的设计思想和方法,采用统一的观点,从总体设计做起,包括各站点上的数据库系统,重新建立一个分布式数据库系统。根据分布式数据库设计中的一个主要原则-数据和应用实现最大程度的本地性,加上各分公司只是对分公司内部的客户进行话务分析,所以在分片设计中的非冗余分配时,可对广东电信公用电话管理中心数据仓库中的全局模式依据它的地区代码进行水平分片,并且不采用冗余分配。
分公司公话中心数据仓库的数据生成可使用分布式数据库中的快照技术,根据地区代码对省公司公话中心数据仓库中各关系表建立快照。与直接通过链接服务器的分布式数据库访问技术相比较,采用快照技术的优点是各分公司经营分析人员在进行话务分析时,有比较快的响应时间。
4 转换经营分析的方法
4. 1 维度转换
维度转换是改变一个报告或页面显示的维方向。例如,转换可能包含了交换行和列,或者把一个行维移到列维中去,等等。
在公话话务的动态分析中,主要是对时间维度进行转换。对于关系模式R(地区代码,时间代码,话费,通话次数,通话时长,┉),由于存在列维-时间维,所以在使用SQL查询获得N个时期内哪些维维成员(如地区维表中某个地区)的话务发生了某种变化时,存在不便之处,只能通过联接N个关系模式R的JOIN查询。而使用OLAP工具时,则可以将关系模式R中的时间维度转换,形成关系模式R’(地区代码,时间1的话费,时间1的通话次数,时间1的通话时长,┉, 时间N的话费,时间N的通话次数,时间N的通话时长),这样就可以只对关系模式R’进行查询就可以获得结果。
4.2 进行”先高层后低层”的分析方法
在构建了基于关系数据库系统的省公司公话中心公话业务数据仓库及生成了各分公司公话中心数据仓库中对应数据表的快照之后,省公司公话中心及各分公司公话中心的经营分析人员就可以使用OLAP工具或自已编写的OLAP工具来进行基于星形模式的数据仓库中各粒度表的话务分析,或者对各粒度表进行维度(主要是时间维度)的旋转来满足话务动态分析的需要。

参考文献:
1 王珊 · 数据仓库技术与联机分析处理 · 北京:科学出版社,1998.6:4-44,85-112
2 Michael Corey(美),Michael Abbey(美) · SQL SERVER 7 Data Warehousing · 北京:希望电子出版社,2000.1:60-70
3 邵佩英 · 分布式数据库系统及其应用 · 北京:科学出版社,2000.6:32-57