本文主要是介绍InputFormat的作用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
InputFormat:
从文件中读取数据,转化成key-value格式。
对于常用的数据类型,hadoop已经有了这个接口的实现。
特殊文件格式的话,只有你自己知道怎么读取这种文件格式,你可以自己来定义。
method:
1. get InputSplit
框架调用此方法获得有几个逻辑块,
这样就知道需要多少个mapper了,
数据产生地点产生Mapper的实例。
2.create RecordReader
很明显此方法就是用来读记录的,调用此方法一条一条的读记录。
转化成key-value,送给Mapper。
outputFormat:
给你个key-value,怎么写出去你来决定。
如果目标目录里有已有目录了,他不希望把你已有的数据冲掉,会报错。
这篇关于InputFormat的作用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!