DM7.0的新特性之DM7水平分区

    技术2022-05-13  11

    DM7水平分区

    1 概述

    在大型的企业应用或企业级的数据库应用中,要处理的数据量通常可以达到TB级。为了提高数据库在大数据量读写操作和查询效率,达梦数据库DM7提供了对表和索引进行分区的技术,以改善大型应用系统的性能。

    DM7提供了最常用的范围分区方法,包括范围、哈希和列表,企业可以使用合适的分区方法,如日期(范围)、区域(列表),对大量数据进行分区。由于DM7划分的分区是相互独立,并可以存储于不同的存储介质上,完全可满足企业高可用性、均衡IO、降低维护成本、提高查询性能的要求。

    2 功能简介

    达梦数据库DM7对表提供以下三种分区方式:

    1)      范围分区:范围分区就是对表中的某些列上值的范围进行分区,根据某个值的范围,决定将该数据存储在哪个分区上。

    2)      哈希分区:哈希分区是通过指定分区编号来均匀分布数据的一种分区类型,通过在I/O设备上进行散列分区,使得这些分区大小基本一致。

    3)      列表分区:列表分区是通过指定表中的某些列的离散值集,来确定应当存储在一起的数据。例如,可以对表上的status列的值在(‘A’,‘H’,‘O’)放在一个分区,值在(‘B’,‘I’,‘P’)放在另一个分区,以此类推。

    例如,在员工表EMPLOYEE上建范围分区,其部门号DEPT_ID小于5在分区P159之间的在分区P21015之间在分区P3,那么部门id相近的员工信息就会存储在相同的分区中。

    CREATE TABLE EMPLOYEE(

                  EMP_ID                             INT,

                  EMP_NAME                VARCHAR(200),

                  DEPT_ID                            INT

           )

           PARTITION BY RANGE (DEPT_ID)

           (

                  PARTITION P1 VALUES LESS THAN (5),

                  PARTITION P2 VALUES LESS THAN (10),

                  PARTITION P3 VALUES EQU OR LESS THAN (15)

           );

    DM7采用子表方式创建分区表,如上述的EMPLOYEE表,是分区表的主表,而每一个分区,会以一个子表作为实体而存在。即每一个分区都是一个完整的表,命名为主表名_分区名,如EMPLOYEE表的分区P1对应子表为EMPLOYEE_P1,并且子表跟主表结构完全一致。在DM7水平分区中,主表本身不存储数据,所有数据只存储在子表中,从而实现不同分区的完全独立性。

    除了新增分区表,DM7还支持对子分区的修改。对于所有类型的分区表,DM7支持新增和删除分区,这对大规模数据应用系统提供灵活的分区管理功能。对于范围分区,DM7提供相邻分区的合并和拆分的功能,有利于范围分区子表的规模控制。另外,DM7支持分区数据跟普通表数据交换功能(partition exchange),使得分区数据管理更加灵活。

    3 DM7水平分区的优势

    分区有利于管理非常大的表和索引,引入了分区键的概念,使数据可以根据某些列的范围值、哈希函数值或者特定值列表执行数据的聚集。使用达梦水平分区,可以大大提高数据的可用性以及查询性能。

    3.1 提高可用性

    由于每个分区具有一定的独立性,对象中一个分区的可用性并不影响其他分区,如果某个分区被损坏,其他分区仍是可用的。

    例如,如果上文提到的员工表EMPLOYEE每个分区都存储在不同的磁盘上,而P2分区所在的磁盘介质发生损坏。假设整个员工表有30GB的数据,每个分区平均10GB,那么故障恢复时间就会降为原来的1/3

    另外,对于分区表,每一个分区都对应一个分区子表,DM7支持对分区子表的单独操作,其DML操作跟普通表一致。例如,加入员工表的P2分区损坏了,仍然可以查询P1分区上的数据,从而大大提高系统的可用性。

           SELECT * FROM EMPLOYEE PARTITION (P1);

    3.2 降低维护代价

    由于每个分区都是一个独立的对象,可以单独处理,对大表的维护可转换为对小分区的维护,可以大大降低维护成本。

    例如,一个销售系统中ORDERLINE表需要维护最近12个月的订单信息,超过12个月的订单需要迁移到该月的历史订单表中(销售系统每一个月的订单记录分别存储在各自的历史表中)。如果没使用水平分区,需要较多的删除和插入操作,并产生大量的redoundo日志。如果使用分区表,并且按照月份做范围分区,那么可以使用交换分区来实现分区和普通表数据的交换。

    假设需要删除的分区是O_P_L,对应的销售历史订单表是O_H_L,那么只需执行以下命令即可满足销售系统的需求。

           --交换分区

           ALTER TABLE ORDERLINE EXCHANGE PARTITION O_P_L WITH TABLE O_H_L;

           --删除原分区

           ALTER TABLE ORDERLINE DROP PARTITION O_P_L;

    通过交换分区实现分区O_P_L和表O_H_L的数据交换,采用数据字典信息交换的技术,几乎不涉及IO操作,因此效率非常高。

    3.3 提高查询性能

    通过水平分区,原主表的数据会根据分区键形成新的聚集,达梦优化器可以根据查询条件确定所需访问的分区(分区消除),减少很多不必要的分区访问,大大降低扫描的IO量,从而提高性能。

    另外,在一个服务器上安装更多的CPU以及CPU的多核化已经是一个趋势。DM7逐渐跟上了硬件发展的步伐,针对水平分区,利用多CPU的特性,提供并行查询。

    当一个查询涉及多个分区扫描时,由于各个分区的扫描是相互独立的,DM7对每个分区启动并行执行的扫描方式。即结合系统的一些运行参数和需要扫描的子表数目,生成适当的扫描子任务放入任务队列进行并发处理。通过对水平分区表的并行查询,可以大大提升查询效率。

    4 结论

    随着Internet的发展,数据库应用的大小和规模都在增长,这将导致越来越多庞大的数据集合,那么对数据进行分区显得越来越重要。DM7提供了最常用的三种水平分区机制,包括范围分区,哈希分区和列表分区,可以将大量数据划分为相互独立的小分区,满足大部分的应用需求。使用DM7水平分区,结合并行查询和分区消除,可以大大提升查询性能,并且由于分区的独立性,数据库的可用性可得到大幅度提升,并能降低维护代价,适用于大型数据仓库和事务处理应用系统。


    最新回复(0)