HadoopDB(耶鲁大学的老师弄的基于hive+hadoop的东东)

技术2022-05-19 27

前段时间学习hadoop时，在网上看到了HadoopDB（http://db.cs.yale.edu/hadoopdb/hadoopdb.html），学习了下，觉得还是有些价值，下面是我对HadoopDB的一些理解。

HadoopDB介绍

1：架构（三部分）

Hive + Hadoop + StoreSystem

2：各部分解释

对Hive做以下改造

原始Hive实现：

sql->parse->execution plan->生成map/reduce任务

修改后Hive实现：

sql->parse->execution plan->重新生成step sql->重新生成map/reduce任务（修改过，主要是对inputformat作修改，支持对关系型数据库的查询）

hadoop则直接使用

StoreSystem被改造为从关系数据库postgresql中取数据（当然，也可以改造成从任何存储系统里取数据，包括最原始hive从dfs中取数据）

3：HadoopDB总体实现说明

数据分散工作

首先把文本文件里的数据导入至关系型数据库里。方式是这样的，由用户的配置文件（节点数，数据库名，表名，冗性数）生成最终配置文件，内容主要是各节点上将要配备

的数据库，包括库名，jdbc连接串，用户名，密码。接着开始导入数据，实现思想是这样的，就是把一完整的文本文件先hash成多份，然后又把每一份hash多份至同一个节点上，对每一节点上的多个分散文件都以不同库名存入数据库中（目的是为了map/reduce生成多份splits）。数据分散的工作就做完了。

hive工作

parse sql后生成execution plan,循环对每个step重新得到sql并存至conf中，以备后续map/reduce在recordreader中作为query string作数据库查询操作

map/reduce工作

所有点节上的每一个不同的数据库都会同时有一个task执行，每一个split就对应一个分散后的数据库，然后在recordreader里作数据库的连接及查询操作。

4：HadoopDB优缺点

优点：

结合hive对sql强大的支持并直接生成map/reduce任务，不需要再手动编写map/reduce程序。利用关系数据库查数据则又是利用单节点的性能优势。其它就是hadoop所具有的一切优势了。

缺点：

如果不想手动编写map/reduce程序，则只能查询的sql语句的数据来源不能来自多张表，原因是因为他目前只相当对一个数据库的多个分块并行查询，所以不能做到多分块的数据关系处理。当然为了实现多表join,可手动改造inputformat以实现。

专利

最新回复(0)