RSS

Tag Archives: Database

转载:两个开源的xml数据库评测

开源xml数据库评测

一、 xml数据库的概念及分类

xml虽然已出现很多年,但在前些年通常只被做为数据交换文件来使用,或作为软件配置文件,较深层次的应用较少。随着xml数据使用的越来越多,迫切需要一种能够直接处理xml数据的数据库来管理这些结构或半结构化的数据。之前处理xml数据都是在作为文本存储在关系数据库中。由于xml数据格式是层次关系,而且同类文件格式也可能不同,用关系数据库很难表示,更严重的是使用关系数据库保存xml数据无法对xml数据中结点进行检索。使用新型存储格式及检索方式已是必然。随着处理xml文件的一些方法被定义为标准,例如xpath、xquery等。xml数据库的应用才越来越广泛了。

xml数据库即使用xml文件作为数据存储格式的数据库。根据数据库实现模式,xml数据库分为:

1、可以使用xml文件的数据库(enable-xml database):数据库内部含有处理xml数据的模块,可以和xml数据文件交换数据,即实现了xml数据的读取,写入,删除,更新等操作,但数据库本身并不是为xml数据设计的。

当前比较流行的数据库oracle,ms sql sever,ibm db2,ms access等都属enable-xml database类型。目前大部分关系数据库都支持xml数据。关于enable-xml dabase数据库产品,可以参考“xml database products_ xml-enabled databases.pdf”文档。

此类数据由于底层实现模块中并不是专为xml数据设计,所以在使用xml文件数据时必须通过使用类似odbc、jdbc等接口程序进行数据交换。接口程序把xml数据读入数据库并转换成数据库可以识别的数据格式后才能操作数据,操作完的数据在通过接口程序转换成xml数据格式,这使得执行效率大幅降低。

2、xml数据库(native-xml database):满足一下3个条件的就是纯xml数据库:

1)、为xml文档定义了一个逻辑模型,xml数据的存储和查询都基于这个模型。这个模型至少要包含元素、属性以及pcdata等,并保持文档顺序。

2)、将xml文档作为逻辑存储的基本单位,正如关系数据库将行作为存储的基本单位一样。

3)、不要求只能使用某一特定的底层物理模型或某种专有的存储格式。

数据以纯xml文件格式保存,存储在数据库中的内容与原xml文件格式可以保持一致,数据库引擎直接操作xml数据文件,并通过xpath或xquery检索数据。相对于enable-xml database数据库,由于省去了数据转换过程,在处理xml数据时相对效率较高。

目前纯xml数据库产品或单独的xml数据库引擎也有许多,较有代表性的产品有dbxml、berkeley db xml等。有代表性的xml数据库引擎有exist、xindice等,本次所作的所有的分析与测试都是基于exist与xindice数据库引擎。关于目前native-xml database数据库产品的介绍可以参考“xml database products_ native xml databases.pdf”文件。

纯xml数据库由于可以保持原xml文件的物理格式不变,并且可以按照原格式检索,所以有时候纯xml数据库也被称作原生态数据库。如果当前有许多xml文件但文件又格式不尽相同的话,使用xml数据库是个不错的选择,通过数据库来管理这些xml文件。利用xpath和xquery也能够更方便的查找数据。但是由于目前用于xml数据库的一些操作没有明确的标准导致xml数据库的引擎各有不同。

二、 xml数据库的优缺点

纯xml数据库应用还不是很广泛,这一点我们从目前市场上的主要数据库产品就可以看出来。大型数据库没有使用纯xml数据库的。至少在上面提到的产品列表文件中没有见到大型数据库的身影。但是这也并不代表xml数据库没有优势。下面将对纯xml数据库和关系数据库做个比较。

优点:

1、可以直接操作xml文件,对于处理大量xml文件,纯xml数据库有着先天的优势:不必转换数据。这样就减少了系统资源消耗。普通的关系数据库在处理xml数据时必须通过xml接口处理程序来转换数据。这方面xml数据库的处理效率明显高于关系数据库。

2、存储在xml数据库中文件可以保持原文件的物理格式不变。由于xml文件是自描述的,即文件内部不仅包含了数据还包含了对这些数据的描述信息。比如数据结构和类型。如果数据描述信息较多,关系数据库就显得力不从心了。

3、原生检索方式,这时纯xml数据库独有的特点,即纯xml数据库允许用户使用对未作任何格式转变的数据直接检索。这就使得同一检索式可以同时检索不同格式xml文件。原生检索方式对于拥有大量不同格式的xml文件的用户来说是最好的检索方式。

4、以分层的树形结构描述数据,能够检索各个结点。

缺点:

1、数据冗余度高,由于xml文件中带有大量非数据的内容,也许这些内容比数据本身还要多,不仅占用大量的磁盘空间,还会给操作文件带来困难。假如你需要在一个1gb的文件中间频繁插入或删除数据。

2、检索效率低下,如果数据访问速度不高,检索就可想而知了。前面提到的检索效率高是指在xml数据库中和关系数据库中都只处理xml数据时。但相对于关系数据库中的普通数据来说。纯xml数据库还远达不到这样的高效。这也是妨碍纯xml数据广泛应用的的主要缺陷。曾有人使用exist作过一些测试,测试过程中,如果在1gb大小的xml文件检索一个数据,所消耗的时间大概是煮一杯咖啡的时间。

3、纯xml数据库的xquery语言标准不完善,现在xquery语言的中不支持插入、删除、更新操作,即使是部分xml数据库厂家提供了类似功能,也不能得到广泛的应用,因为没有标准。它不能够像sql那样功能强大。也由于这个缺陷给开发基于xml数据库的应用程序带来更多风险,只能针对某种数据库开发,而且许多本应由xquery本身提供的功能,比如插入、删除、更新功能不得不由应用程序开发人员开发。

三、 本次测试中所使用的纯xml数据库介绍

本次测试中所使用的纯xml数据库有两个,分别是exist 1.0版和xindice 1.1b4版,都是目前最高版本。关于它们如何安装使用请参考文档“exist数据库.doc”和“xindice数据库.doc”。这里只对最后测试结果作一简单的介绍。

exist xindice
安装方便程度 方便 一般
使用方便程度 方便 一般
程序稳定性 不稳定 不稳定
在1m数据中检索 少于1秒 堆栈溢出
10m 索引前20秒,索引后3秒 堆栈溢出
100m 堆栈溢出 堆栈溢出
300m 堆栈溢出 堆栈溢出
500m 堆栈溢出 堆栈溢出
800m 堆栈溢出 堆栈溢出
1000m 堆栈溢出 堆栈溢出

测试总结:

这两个数据库引擎非常不稳定,而且性能不好。

四、      选择纯xml数据库还是关系数据库?

这是一个比较重要的问题,虽然它们都是数据库,但是除了数据库本身有许多不同之外,在使用上也是大不相同。在项目中使用哪种数据库还需要慎重考虑,根据上面的数据库的对比分析,大体可以总结一下在何种情况下使用哪种数据库:

1、  如果当前有许多xml文件,并且xml文件的格式不统一或者用表格的方法难以表示,那么这时最好选用纯xml数据库。

2、  如果在以后的工作中会产生大量格式或半格式的xml文件,那么选用纯xml数据库较合适。

3、  如果经常使用xml文件作为数据交换格式,则选择纯xml数据库较好。

4、  如果你的数据之间有较多的关联,就最好选用关系数据库。纯xml数据库只能表示简单的数据关系。

5、  如果对数据库的性能要求较高的话,最好使用关系数据库,关系数据库已发展成熟,而纯xml数据库目前发展还不完善,比如,插入,删除、更新操作还未有标准。

 
留下评论

Posted by 于 2月 4, 2011 在 Database

 

标签: ,

转载:Data warehouse 心得

一、为什么要推动data warehouse

自然演化体系会带来很多的问题:

1、数据可信性(两个部门提供的数据是不一样的,让管理者无所适从);

a、时间的基准不一;b、算法差异;(认知不一致)c、无公共的起始数据源

要靠推动data warehouse使各部门之间对相同元素认知、定义和算法一致或者趋于一致;

2、报表的生产率的问题;由于oltp的单项系统导致数据的分散性和相同元素定义不一致所致;

3、oltp的系统中无法保留很久的历史数据;单项系统之间保留的历史数据时间范围不一致; 无法满足dss分析的需要;

4、oltp的单项系统中对维表的关键栏位的更改很少有记录;(如:客户的业务员的变更问题)

5、面向应用的设计无法满足面向主题的分析的需求;oltp和dw对后台设计要求的重点不同,oltp主要在意的是update和insert,而dw主要在意的是select;

6、因为决策的需求大多是“灵光一现”的,是“前无古人”,“后无来者”的,是启发式的,而非固定式的;

7、分散的系统导致业务行为不可控,dw能够对各地的业务行为进行事后的监控;(如:产品代号,折让的问题);

8、dw能够把user从复杂的统计工作中解放出来,从而提升企业的管理,让user有时间从事对企业更有益的事情。还可以精简企业的人员;

9、降低企业获取信息的费用;提高企业的决策速度,加快企业对市场的反应能力;

10、没有dw,IT部门总是处在鞭梢的位置,总是在被动的响应状态;(因为主管感兴趣的事情总是不时的变化的);

11、可以透过dw来观察公司的新的政策或者新的行销活动给公司带来的变化;(事件映射)

12、dw是EIS和数据挖掘的基础;

二、推动以前IT人员要有的观念

1、首先满足用户的需求,再在用户使用过程中去引导用户朝正确的方向走;

2、老板看的投资回报;

3、永远比user考虑的明细;因为管理是一步步精细的;

4、dw是反复才能建成的,所以dw的版本要不停的迭代开发;

5、olap 软件可以是dw的组成部分,但不是必选的,大多的olap的软件数据库是多维的,从dw中把资料刷新至多维的数据库中会比较慢,但对多维的数据库查询起来速度必二维的速度快的多;所以是要根据user需求来进行合理的选择;

6、前端的展现工具一定要有向上和向下钻取的功能;

三、和老板沟通的观念

1. dw不可能满足所有的需求,Data warehouse 项目同样需要界定边界;

2. 同样的资料,角度不同(如财务,销售,市场,管理),结果就不一致,所以允许差异的存在,但差异要在可解释的范围内; 通过定义不同的规则来玩这个游戏;

3. 问题的关键不在工具的好坏,而在于资料的可信度,原始数据和业务行为的规范;

4. 业务术语的定义和解释应由专门的单位来处理,从而保证集团自上至下的对术语定义的一致性;

(如销售业务行为中“铺货率”的定义)

5. 企业高层的支持非常重要;

6. 公司内的oltp系统数据是动态的,总是在变的,所以dw中的数据也会随之变化,dw中昨天看到的数据 和今天看到看到的不一样,不要大惊小怪;

7. dw是用来做趋势分析、预测和提供数据挖掘的,对数据的要求不是非常精确,所以千万不要拿dw中的数据来计算sales的奖金;

8. 集团上下对为什么要推动dw及dw的作用的认知一致是非常重要的;

9. 最终用户专业化,要花很多的时间对end user进行培训,提高user的认知,最终的目标是user自己设计报表;当然是在前端,而不是在“厨房”(后台)中;

10. 软件选择宜横向联合,强强联手,不是一家的软件可以搞定一切的;

四、dw设计模式和方法

1.dw应建立在RDBMS(关系型数据库)中,而dm可以建立在一个RDBMS或者MDDB(多维数据库)中;

2.dm采用星型设计是原则,雪花模型是可选的;

3.dw的设计模式和oltp的设计模式不一样的,oltp的设计模式是以需求为驱动的,而dw的设计模式是以数据为驱动(分析处理为驱动)的;

4.面向主题的设计,数据从操作型的环境流入dw中时,数据必须是集成的,而不仅仅是将数据扔到dw中;

5.一次开发一个主题的原则;

6.在dm中逆规范化的设计是必要的,以空间的冗余换取响应速度的加快;

7.遵循给“用户想要的东西,然后用户才能告诉你需求是什么”的发现模式来开发,成功的关键在于结构设计人员和dss分析人员(user)之间的反馈循环, 迭代开发的模式;

8.开发流程:首先应建立企业数据模型(描述企业的信息需求,明确了企业主要的主题域,不一定是企业已有的东西,不考虑任何的技术问题)→ 分解至中间层模型→ 定义记录系统(数据源的定义) → 设计数据仓库→ 设计oltp与dw之间的接口;

9.5%的dss处理的需求在原子层,95%的在概要层;(查询分离的设计);

10.从fact表开始设计,然后开始设计dimension表;维表的设计要逆规范化,事实表的设计要3nf;

11.弹性的设计(建立规则库,通过规则解析引擎解释规则至最小的粒度的设计)

12.资料可信度的设计;

13.规则库和规则转换设计;

14.各地的对相同的栏位定义不一致(如:有的地方用0和1表示男女,有的地方用m和f表示男女)没有关系,但dw中的定义要一致,通过清洗程式转换成dw中的规则;

15.有限的使用的代理健;

16.有限的使用外健来保证参照完整性;可以使用procedure检查;

17. Slowly changing dimension(慢速变化维)表的处理:不要使用oltp系统中的business key(业务健)作为维表的primary key(主健),而使用代理健,当慢速变化维的关键栏位发生变化时,不要update原来的记录,而插入一条新的记录;这样能够dw不会出现错误而且可以跟踪维的历史;

18.字段级映射(field level mapping)一定要建立;

19.集团总部dw的资料可以回流至各分公司的数据库中,这样可以灵活的处理需求,一致的需求,总部处理,特殊需求,各地处理;

20.dw中无论是fact table还是dimension table,强烈建议给每条记录加上时间戳;

五、粒度的选择

1、资料的粒度级别需要权衡,采用多重粒度的设计;在磁盘允许的情况下,建议尽可能的按最细粒度存储数据;因为dw中存储的粒度越细,dw回答问题的能力就越强; 要先估算事实表的行数(一年内的最少行数和最多行数乘以字段长度)

2、对于不活跃的数据可以分离(至磁带或者备份的磁盘上);减轻dw刷新和管理的难度;

3、dw的特性之一,表现为汇总数据还是细节数据是由观察者的不同角度决定的;

六、dw的安全

1、根据user的不同的权限看到的数据也不一样;

2、数据库放在内网的是原则;

3、通过profile限制并行的用户数;

4、在brio server中限制帐号一个月不使用者封帐号(更改密码为当天的日期);

5、装载阶段限制ip和user登陆(通过trigger);

七、dw 性能增强方案和oracle的技术的运用

1、可以使用的技术有:materialized view(物化视图),星型查询,专用大回退段, QUERY REWRITE(查询重写),partition table,organization index table(索引组织表),PARALLEL(并行)

2、充分的index,建立必要的概要表(summary table),大表必须分区,query rewrite和mv均可大大提高dw

的性能;

3、小技巧:加载前drop一些index以提高加载的性能,加载完毕后重建index;还可以通过view来实现和简化查询重写;

4、oracle优化模式rbo和cbo的选择:建议尽量使用cbo;

5、作为数据仓库的后台数据库,oracle的安装方式和init参数的是有别于oltp系统的后台的数据库;

6、加载阶段和访问阶段采用不同的参数设置来启动db;

7、访问阶段使db只读,减少db的本身的管理损耗;

8、由于dw特性,不用在数据块上保留很多的自由空间用于以后的记录的更新和插入;

9、修改os的参数,如:加大os的串行预读参数,异步io,甚至修改cpu的时间片;

10、磁盘阵列的选择:条件允许的情况下建议raid01;

八、规则库的定义和设计

1、业绩公式规则;

2、单位对资料可信度影响的权数的规则;

3、业绩归属的定义;

4、上级组织在不同的角度是不同的(如:财务和销售)

九、dw运用的%

2%的bpm、kpi的管理;3%的数据挖掘;15%的数据分析;80%的report;

十、让我头疼的几个问题及解决方法

1、由于是从分散的系统中抽取资料,所以各个公司相同的系统中基本资料中对基本数据定义可能会不一样;如:A这个产品代号在华东表示冰红茶,在华南可能表示冰绿茶;抽取至dw中的数据失去可比性;

我的对策:

a、如果是关键性的基本资料,在集团总部和各个公司建立一个公共系统(PUB),把各系统基本资料抽取出来,并规划出哪些栏位是总部必须要控管的,然后放入PUB系统在集团总部控管,所有系统的基本资料的总部控管栏位的来源只有从PUB系统中来,集团总部有修改和新增的权利,下属各公司只有查询的权利,下属各公司如要新增和修改必须至总部申请;对于非总部控管的栏位各公司可以自己更改;PUB系统的table资料定期的同步至各公司的数据库中;

b、如果是非关键性的基本资料,建立对照表翻译成dw中的定义;只不过抽取程序设计会麻烦一点;

2、业务的术语定义集团内没有共识;

如:华东区认为销售铺货率应该这样计算,而东北区认为应该那样计算,而集团总部又是一种说法;

我的对策:请集团的高层建立或者指定相关的权威部门协调各方并给出标准的定义;不要迁就于各分公司的不同的算法而客制出不同的报表,那样只会让各分公司看到的报表数据失去可比性且让各方因为数据的问题吵的不可开交;

3、由于lotp系统老化且分散在各分公司中,所以导致各分公司相同的系统其中的运行的逻辑会有差异,相同的table相同的栏位存储的数据计算规则不一致;

我的对策:没有什么好的方法,要修改老化的系统使大家一致不太实际;因为会牵涉的系统的太多,并且老的语言精通的人不多,如果修改不知道会发生不可预测的问题;

所以我只有请各公司了解自己的规则并填入我们规划的规则库,我们的抽取程序依照规则库中的规则来抽取,并且各分公司的规则更改时,也请他们更新规则库;

4、各分公司IT部门以前替各自分公司的开发的类似dw系统在使用并且数据可能会与总部的dw中数据不一致,各分公司对集团总部推的dw系统有抗拒心理;

我的对策:首先请集团的高层向各分公司做说服,并且向集团的高层申请“上方宝剑”,其次通过dw的资料回流至各分公司数据库,使各分公司的自己开发的类似的系统的数据源来源于dw中,这样就把集团总部和各分公司捆绑在一起;

5、dw中资料刷新的问题,因为oltp系统的可变性,导致抽取程序在从oltp系统中抽取资料时不知道应该扫描哪些资料,oltp哪些资料自上次抽取后被更新了(变化数据捕获的问题);

我的对策:这个应该是所有的做dw项目均会碰到的问题;

a、如果抽取的table是比较小的table,在不影响可以oltp系统性能的情况下,可以在oltp的系统的table 上加入trigger来记录更新;抽取程序可以根据记录来只抽取更新的记录;如果加trigger有困难,每次把table的全部资料抽取回来也可;

b、上面的方法只能解决小部分的问题,大部分是要通过时间戳的比较,或者充分理解oltp系统的规则,如oltp系统不会更改多久以前资料,oltp系统是否有结转的概念,如果要更改已结转的资料是不是在什么地方有记录之类;根据具体情况具体解决;我现在负责的这个项目的销售这一块在oltp系统中有结转的概念,如果要更改已结转的资料必须要进行结转回复;所以我们在设计抽取程序时有一个抽取记录的table,用来记录该分公司的销售系统资料日期、该日是否已结转、抽取的次数等等;并且要求oltp系统中日结的程序加入,如果做日结回复必须update抽取记录的table其中的抽取次数为0;我们的抽取规则就是:抽取抽取次数为0的日期的资料,但未日结的资料不管次数为多少均抽取;抽取完毕后update该table相关栏位;

十一、其他

1、后台的程式执行出错时,log记录至table中;并自动发出mail通知相关的人;

2、执行成功,成功的记录至succmsg中;

By jyzhang8 2004-6-17 msnjyzhang8@hotmail.com

 
留下评论

Posted by 于 2月 4, 2011 在 Database

 

标签: ,