Apache Sqoop:云端大数据分析的关键一环

日期: 2014-12-16 作者:Dan Sullivan翻译:谈翔 来源:TechTarget中国 英文

Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。

正当大数据变得越来越重要,而越来越多应用都在云上部署时,云管理员也面临了不断增长的将数据从源系统转移到分析系统——其中最热门的就是Hadoop——的需求。ETL工具的自定义脚本在过去辅助了这种数据迁移,现在Apache Sqoop正崛起成为更好的选择。

随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程,降低编写自定义数据加载脚本的需求。

Apache Sqoop是一个将数据在关系数据库及Hadoop之间转移的命令行工具。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。

Sqoop有一个非常小的命令集,里面包括导入和导出,列出数据库和表信息,生成Java类来操纵数据,解析SQL命令以及其他一些更专门的命令。生成Java类的命令对于在Hadoop里编写Java应用来进行数据操作特别有用。SQL解析命令可以显示执行SQL语句的结果,这在搜索新数据库或产生复杂逻辑的查询时非常有用。

使用Sqoop比自定义脚本有一定的优势。其一就是,Sqoop被设计成具备容错性。你也可以自定义脚本来监控你的工作状态,然后从故障中恢复,但是那有可能难以置信的耗时。

使用Sqoop需要注意的地方

尽管有以上的优点,在使用Sqoop的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方,当你有一个10个节点的集群,那么工作负载是在这10台服务器上平均分配的。但是,如果你的分割键是基于字母数字的,拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍,那么工作负载就会变成从一台服务器倾斜到另一台服务器上。

如果你最担心是性能,那么可以研究下直接加载。直接加载绕过通常的Java数据库连接导入,使用数据库本身提供的直接载入工具,比如MySQL的mysqldump。但是有特定数据库的限制。比如,你不能使用MySQL或者PostgreSQL的连接器来导入BLOB和CLOB类型。也没有驱动支持从视图的导入。Oracle直接驱动需要特权来读取类似dba_objects和v_$parameter这样的元数据。请查阅你的数据库直连驱动程序局限性的相关文档。

进行增量导入是与效率有关的最受关注的问题,因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新,将新记录添加到最近一次的导出的数据源上,或者指定上次修改的时间戳。

由于Sqoop将数据移入和移出关系型数据库的能力,其对于Hive—Hadoop生态系统里的著名的类SQL数据仓库—有专门的支持不足为奇。命令“create-hive-table”可以用来将数据表定义导入到Hive。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Dan Sullivan
Dan Sullivan

Dan Sullivan是一名作家、系统架构师和顾问,拥有超过20年关于先进的分析、系统架构、数据库设计、企业安全、商业智能的IT从业经验。他的从业范围广泛,包括金融服务业、制造业、医药、软件开发、政府、零售、天然气和石油生产、发电、生命科学和教育。

相关推荐

  • 评估公共IaaS方案的关键特性

    为了评估有前景的IaaS提供商,需要研究他们的实例类型范围,以及他们对新兴技术,数据库选项等等的支持。

  • 移动互联网:企业如何在大数据的野蛮生长中掘金?

    随着全球移动设备、可穿戴设备等智能设备的不断增多,我们看到大数据的数量也不断增长,而且是爆发式的增长。IDC的一份报告预测,到2020年,大数据和业务分析市场将增长至203亿美元,是2015年1120亿美元的两倍。

  • 2017年数字经济新时代:除去云计算,还需要什么

    据LinkedIn最近的调查结果显示,最受欢迎的职业技能都与数字技术有关,可见日益普及的数字技术将引领未来。目前,用户界面设计已成为最受欢迎的移动应用技能之一。

  • 大数据新使命:如何创造未来

    现在我们探讨大数据,人们更关心数据如何创造一个未来。对于大数据的分析,企业已经不仅再关注过去,还关注于对未来的价值创造,这是大数据的一个新的使命。