首页技术文章正文

ETL常见工具有哪些?

更新时间:2021-06-08 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif

目前比较流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,对这些工具的介绍如下。


1. Pentaho Kettle

PenthoKetle是一款国外免费开源的ETL工具,纯Java语言编写,可以在Windows Linux.UNIX系统上运行,并且是绿色无需安装的。

Ketile的中文名称叫水壶,该工具的设计理念是希望把来自不同数据库中的数据放到-个“壶”里,然后以一种指定的格式流出。 Ketle拥有两种脚本文件,分别是Transtormtio(转换)和Job(作业),其中Tronsformation是用于完成数据的基础转换,而Job是完成整个工作流的控制。


2. Hawk

Hawk是一种数据采集和清洗工具,依据GPL(GNU通用公共许可证)协议开源,基于C#语言编写的,并且其前端界面使用WPF开发,支持插件扩展。

Hawk的含义为“鹰”,能够高效、准确地捕杀猎物。也就是说,Hawk能够灵活、有效地采集来自网页、数据库和文件等来源的数据,并通过可视化的拖曳操作快速地进行生成、过滤及转换等操作。Hawk 主要应用于爬虫和数据清洗等领城。


3. Informatica PowerCenter

Intormatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter提供了多个可选的组件,以扩展Informatica

PowerCenter的核心数据集成功能,这些组件包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。


4. DataStage

IBM的InfoSphere DataStage简称DataStage,它是一个领先的ETL平台,可跨多个企业系统集成数据。DataStage 利用高性能并行框架,可根据项目需求在云中或者本地部署ETL环境,它支持HBase、Hive、Amazon以及MongoDB等数据库的连接,可以灵活、有效地更新和管理数据继承的基础架构。



猜你喜欢:

认识Scala的数据类型

Hadoop实现join的几种方法

HDFS存储架构

黑马程序员python+大数据培训课程

分享到:
在线咨询 我要报名
和我们在线交谈!