Apache Pig是MapReduce的一个抽象,它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与Hadoop 一起使用;我们可以使用Pig在Hadoop中执行所有的数据处理操作。

适用人群

本教程面向所有从事Hadoop的专业人员,他们希望执行MapReduce操作,而不必在Java中键入复杂的代码。

学习前提

 

为了充分掌握本教程,你应该充分了解Hadoop和HDFS命令的基础知识,而如果你善于SQL会更有帮助。