你可以在Apache Hadoop或Hadoop发行版本之上使用一个大数据套件。大数据套件通常支持多个不同的Hadoop发行版本。然而,某些提供商实现了自己的Hadoop解决方案。无论哪种方式,大数据套件为了处理大数据而在发行版本上增加了几个更进一步的特性:
工具:通常,大数据套件是建立像Eclipse之类的IDE之上。附加插件方便了大数据应用的开发。你可以在自己熟悉的开发环境之内创建、构建并部署大数据服务。
建模:Apache Hadoop或Hadoop发行版本为Hadoop集群提供了基础设施。然而,你仍然要写一大堆很复杂的代码来构建自己的MapReduce程序。你可以使用普通的Java来编写这些代码,或者你也可以那些已经优化好的语言,比如PigLatin或Hive查询语言(HQL),它们生成MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模。所有需要的代码都是自动生成的。你只用配置你的作业(即定义某些参数)。这样实现大数据作业变得更容易和更有效率。
代码生成:生成所有的代码。你不用编写、调试、分析和优化你的MapReduce代码。
调度:需要调度和监控大数据作业的执行。你无需为了调度而编写cron作业或是其他代码。你可以很容易地使用大数据套件来定义和管理执行计划。
集成:Hadoop需要集成所有不同类技术和产品的数据。除了文件和SQL数据库之外,你还要集成NoSQL数据库、诸如Twitter或Facebook这样的社交媒体、来自消息中间件的消息、或者来自类似于Salesforce或SAP的B2B产品的数据。通过提供从不同接口到Hadoop和后端的众多连接器,大数据套件为集成提供了很多帮助。你不用手工编写连接代码,你只需使用图形化的工具来集成并映射所有这些数据。集成能力通常也具有数据质量特性,比如数据清洗以提高导入数据的质量。
工具:通常,大数据套件是建立像Eclipse之类的IDE之上。附加插件方便了大数据应用的开发。你可以在自己熟悉的开发环境之内创建、构建并部署大数据服务。
建模:Apache Hadoop或Hadoop发行版本为Hadoop集群提供了基础设施。然而,你仍然要写一大堆很复杂的代码来构建自己的MapReduce程序。你可以使用普通的Java来编写这些代码,或者你也可以那些已经优化好的语言,比如PigLatin或Hive查询语言(HQL),它们生成MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模。所有需要的代码都是自动生成的。你只用配置你的作业(即定义某些参数)。这样实现大数据作业变得更容易和更有效率。
代码生成:生成所有的代码。你不用编写、调试、分析和优化你的MapReduce代码。
调度:需要调度和监控大数据作业的执行。你无需为了调度而编写cron作业或是其他代码。你可以很容易地使用大数据套件来定义和管理执行计划。
集成:Hadoop需要集成所有不同类技术和产品的数据。除了文件和SQL数据库之外,你还要集成NoSQL数据库、诸如Twitter或Facebook这样的社交媒体、来自消息中间件的消息、或者来自类似于Salesforce或SAP的B2B产品的数据。通过提供从不同接口到Hadoop和后端的众多连接器,大数据套件为集成提供了很多帮助。你不用手工编写连接代码,你只需使用图形化的工具来集成并映射所有这些数据。集成能力通常也具有数据质量特性,比如数据清洗以提高导入数据的质量。