Hadoop控制输出文件命名

发布日期： 2024-09-30 15:28 来源：http://www.baidu.com/ 作者：无忧资讯浏览次数：12

核心提示：　　在一般情况下，Hadoop 每一个 Reducer 产生一个输出文件，文件以　　part-r-00000、part-r-00001 的方式进行命名。如果需要

　　在一般情况下，Hadoop 每一个 Reducer 产生一个输出文件，文件以

　　part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命

　　名或者每一个 Reducer 需要写出多个输出文件时，可以采用 MultipleOutputs 类来

　　完成。MultipleOutputs 采用输出记录的键值对(output Key 和 output Value)或者

　　任意字符串来生成输出文件的名字，文件一般以 name-r-nnnnn 的格式进行命名，

　　其中 name 是程序设置的任意名字;nnnnn 表示分区号。

　　MultipleOutputs 的使用方式的使用方式：：：：

　　想要使用 MultipeOutputs，需要完成以下四个步骤：

　　1. 在 Reducer 中声明 MultipleOutputs 的变量

　　private MultipleOutputs

　　2. 在 Reducer 的 setup 函数中进行 MultipleOutputs 的初始化

　　protected void setup(Context context)throws IOException, InterruptedException {

　　multipleOutputs=new MultipleOutputs

　　}

　　3. 在 reduce 函数中进行输出控制

　　protected void reduce(Text key, Iterable values, Context context)throws IOException,

　　InterruptedException {

　　for (Text value : values) {

　　multipleOutputs.write(NullWritable.get(), value, key.toString());

　　}

　　4. 在 cleanup 函数中关闭输出 MultipleOutputs

　　protected void cleanup(Context context)throws IOException, InterruptedException {

　　multipleOutputs.close();

　　}

　　注意：multipleOutputs.write(key, value, baseOutputPath)方法的第三个函数表明了该输出所在的目录(相对于用户指定的输出目录)。如果baseOutputPath不包含文件分隔符“/”，那么输出的文件格式为baseOutputPath-r-nnnnn(name-r-nnnnn);如果包含文件分隔符“/”，例如baseOutputPath=“029070-99999/1901/part”，那么输出文件则为

Hadoop控制输出文件命名三联

下一篇： 赢家经验分享微乐江西麻将小程序怎样开挂【好看视频】
上一篇： 密歇根州参议院投票废除2012年限制工会的法律_4

[ 产品搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]

• 玩家必备手机打牌必赢软件【抖音视频】	• 赢家经验分享大咖娱乐有挂吗【好看视频】
• 玩家必备手机牛牛可以赢钱吗【抖音视频】	• 重大通报多乐跑得快怎么开挂(真的有挂)
• 我来教大家多乐跑得快开挂工具【好看视频】	• 赢家经验分享决战卡五星有挂吗【好看视频】
• 赢家经验分享起点休闲挂【好看视频】	• 玩家必备教程中至江西麻将有没有挂,天天输详细
• 赢家经验分享乐乐围棋入门有挂吗天天十三水【抖	• 玩家必备手机跑得快为何总发差牌【抖音视频】

GSTBUC润滑油汽油机油	甲烷标气二氧化碳气
L30滚轮罐耳山东东达	北京信远XY系列消防稳