DataStage 使用心得

    技术2022-05-12  6

    DataStage 使用心得 最近一个月开始使用datastage,遇到很多问题,在这里和大家分享一下。 一.    datastage支持很多数据库的直接抽取,也可以对普通文本文件,XML文件进行抽取和转换。 实际使用中发现用的多是文本文件,并不推荐直接重数据库读取数据进行抽取和转换。个人感觉如果直接从数据库抽取和转换数据 会影响datastage的执行速度。如果使用文本文件,可以减轻数据库服务器的压力,直接使用datastage server和datastage client 的资源,因为一个datastage server可以扩充多个datastage client,datastage server根据每个client的运行情况调度作业运行, 相对于以前把数据的抽取转换放在数据库服务器上速度要会,特别是在数据量很大的时候。 二.datastage实现了数据抽取和转换的可视化,简单的说就是傻瓜式的使用数据库。但是datastage只能实现数据的轻度整合,很难 实现复杂的数据抽取和转换。比如在用Aggregation stage时我即计算和又要计算条数,在Aggregation stage里要么算和,要么计算 条数,不能同时计算。解决方法是在聚合前多加一个字段cont_sign,默认值1,在算条数时sum该字段即可。 三.数据抽取完成后不能增量装入数据库。datastage对装入有索引的表的策略是先删除表的索引,装入数据重建索引。当增量装入数据 时无法成功重建唯一索引。 四.在datastage中好像不支持存储过程和函数,要用shell封装后调度执行。 五.我个人觉得datastage调试很麻烦,报错信息不清楚,特别是在stage较多的时候。非常浪费时间。 以上是我在使用datastage时遇到的问题,如有问题感谢大家指正。 关于datastage在调试时的报错信息不知各位网友是否有相关资料可以提供? 还有如何在datastage中使用存储过程和函数,除了用shell封装以外,还有什么好方法吗?怎么实现? datagestage有个API接口的文档在那里可以找到??

    最新回复(0)