您当前的位置: 湖南自考网 > 毕业论文 > 工学类 > 文章详情

湖南自考软件工程专业本科论文 构建基于数据仓库的DSS

2018-08-02 17:40:21
来源:湖南自考网
由于DSS(决策支持系统)的先天不足,它的横空出世并没有给业界带来多大的惊喜。然而,随着数据仓库的加入,DSS系统的尴尬处境正在逐步好转。

    一.DSS的先天不足 

    决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据开采工具出现以前,DDS在实际应用开发过程中暴露出许多问题,主要有以下4个方面: 
    (1)DDS使用的数据库(DB)只能对原始数据进行一般的加工和汇总,致使决策所需信息不足,难以满足DDS的需要。DB中的数据还存在以下缺点: 
    ①缺乏组织性从各个部门抽取的数据没有统一的格式标准,数据杂乱且不稳定;
    ②数据的利用率低由于数据缺少统一标准,而难以转化为有用的信息,原始数据定义的不一致性导致其可信度降低;
    ③数据存储不完整DDS只有对较长一段时间的完整数据进行分析才会有较高的预测率。 
    (2)由于决策本身的动态性和复杂性,针对不同的情况应有不同的处理方法,而模型库提供的分析能力有限,它所提供的模型独立于环境之外,决策者和模型交互很少,模型参数固定不变,不符合决策要求,DDS所作出的决策常被有经验的决策者一口否定,使决策者对DDS产生不信任感。 
    (3)在实际开发DDS过程中,人机接口部件占整个DDS开发工作量的一半,人的任何意图及系统对人的任何支持都要通过人机接口才能最终实现,因此它在整个系统中起着举足轻重的作用。现在人机接口开发得不理想,可以说是DDS实施中的一个瓶颈。

    二.DSS因数据仓库而实现了突破 

    进入90年代后,信息技术界悄然掀起数据仓库和OLAP技术及数据采掘技术的研究和开发热潮,这为克服传统DDS存在的问题提供了技术上的支持,使DDS的发展跃上一个新的台阶,也为DDS开辟了一条新的途径。目前开发的综合DDS是以数据仓库(DataWarehouse)技术为基础,以联机分析处理(OLAP)和数据采掘(DataMining)工具为手段进行实施的一整套解决方案。 
    一般决策所需的数据总是与一些维数(每一维代表对数据的一个特定的观察视角,如地区、时间等)和不同级别(如部门、单位、地区和国家)的统计和计算有关。以多维数据为核心的多维数据分析是决策的主要内容,数据仓库的多维特征满足DDS对数据的分析要求,并且克服数据库的数据组织性差、利用率低的缺点。数据库不具有多维特征,但却是DW构建的基础。在数据库多年的应用中已经积累大量数据,而且目前数据库的数量和规模还在迅速增加和扩大,从而出现“数据丰富、知识贫乏”的问题。因此,从庞大的数据库中抽出有用的信息已是当务之急,要成功地进行信息抽取首先要建立数据仓库。

    三.如何建立数据仓库 

    数据仓库的实现主要以关系数据库(RDB)技术为基础,因为关系数据库的数据存储和管理技术发展得较为成熟,其成本和复杂性较低,已开发成功的大型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据存储要求,需要通过使用一些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的提高。
    数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。 
    建立一个数据仓库需要经过以下几个处理过程:①数据仓库设计;②数据抽取;③数据管理。 

    (1)数据仓库设计 
    根据决策主题设计数据仓库结构,一般采用星型模型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。主要有以下3个步骤: 
    ①定义该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。     
    ②定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。 
    ③将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。数据集市通常针对部门级的决策或某个特定业务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。因此,在实际开发过程中可以选择在成功建立几个数据集市后再构建数据仓库这种策略。 
    这些数据定义直接输入系统中,作为元数据(metadata)存储,供数据管理模块和分析使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询,使之更好地了解数据仓库结构,提高自己的使用水平。

    (2)数据抽取模块 
    该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。例如,有两个数据源存储与人员有关的信息,在定义数据组成的人员编码类型时,可能一个是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是char(2),存储的数据值为“男”和“女”,而另一个属性类型为char(1),数据值为“F”和“M”。这两个数据源的值都是正确的,但对于目标数据来说,必须加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这样才能保证数据的质量。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的真正统一。早期数据抽取是依靠手工编程和程序生成器实现,现在则通过高效的工具来实现,如Ardent公司的Infomoter产品、SAS的数据仓库产品SAS/WA(WarehouseAdministrator)及各大数据仓库厂商推出的、完整的数据仓库解决方案。

    (3)数据维护模块 
    该模块分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信息的一致性。
    数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。

    四.数据仓库的DDS的支持 

    DDS对数据的使用是非结构化的,它的一次查询操作要涉及上百张表的上千行数据,复杂的表连接会严重影响系统的性能,而且用户仅仅在分析的时候才查找有关数据,查找条件是随机的,因此基于事务型数据库的DDS的数据分析能力很有限。目前,基于数据仓库的DDS的决策技术包括联机分析处理(OLAP)和数据挖掘(DataMining),在DDS环境中数据仓库直接为联机分析处理和数据挖掘提供数据能力。

    1.联机分析处理(OLAP) 
    OLAP是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足DDS从多种角度对数据进行快速、一致、交互地分析,克服传统DDS交互能力差的弊病,使决策者能够对数据进行深入观察。OLAP服务器使用为用户预定义的多维数据视图对数据仓库的信息进行统计分析处理,为具有明确分析范围和分析要求的用户提供高性能的决策支持。OLAP将分析结果存储在信息库中,便于决策者通过对比多种分析结果作出更好的决策。此外,信息库中还存放决策准则、管理经验、常识。OLAP工具目前以多维分析/ROLAP为主,如InformixMetacube分析工具软件。

    2.数据挖掘 
    数据挖掘是指从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来。在DDS中通过进行数据挖掘用以发现数据之间的复杂联系以及这种联系对决策的影响。
    在数据仓库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包括总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。

    五.基于数据仓库的DDS决策可以解决哪些类型的问题 

    DDS可以解决4个类型的问题: 
    (1)查询一组数据,可回答的问题如产品A的价格是多少?
    (2)采用数理统计模型、运筹模型进行定量分析,预测趋势,可回答的问题如:某产品明年销售形势如何?
    (3)采用OLAP方法,通过代数运算将有关信息抽取出来作为问题的答案,如:某月某公司的销售怎样?
    (4)采用数据挖掘技术,通过对数据进行逻辑运算,找出它们之间内在联系,可回答的问题如:在某地影响某产品销售的因素是什么? 
    第1类和第2类问题在过去传统DDS中得到一定解决,现在的DDS重点解决第3类和第4类问题。这些问题的提出与回答通过可视化工具在问题综合与交互系统中实现,可视化工具提高人机接口开发质量和效率,使人机界面更加简洁、标准化。另外,可选用手写输入和声音输入工具软件,便于决策者提出问题。该系统根据对决策问题的判断,在知识库和信息库中查找解决方案,如查找到以直观易理解的形式呈现给决策者,如查找不到再根据问题的性质向下调用相应的决策工具。


TAG标签: 湖南     本科     论文    

湖南学历提升报名热线:
蒋老师QQ咨询 QQ咨询

TEL:蒋老师17773102705

2024年自考、成考、网教报名进行中,点击立即报考咨询>>

扫一扫下方二维码关注湖南自考生网微信公众号、客服咨询号,即时获取湖南自考、成考、网教最新考试资讯。

  • 湖南自考官方公众号

    关注公众号免费拿资料

  • 微信扫一扫咨询

  • 微信扫一扫咨询

免责声明

1、鉴于各方面资讯时常调整与变化,本网所提供的信息仅供参考,实际以考试院通知文件为准。

2、本网部分内容来源于网络,如有内容、版权等问题请与本网联系,我们将会及时处理。联系方式 :QQ(393848300)

3、如转载湖南自考生网声明为“原创”的内容,请注明出处及网址链接,违者必究!

市区导航: 长沙市自考  |   株洲市自考  |   湘潭市自考  |   衡阳市自考  |   邵阳市自考  |   岳阳市自考  |   常德市自考  |   张家界自考  |   益阳市自考  |   郴州市自考  |   永州市自考  |   怀化市自考  |   娄底市自考  |   湘西州自考  |  

特别声明:本站信息大部分来源于各高校,真实可靠!部分内容来自互联网,仅供参考!所有信息以实际政策和官方公告为准!

湖南求实创新教育科技有限公司 版权所有 湘ICP备18023047号-2