NLineInputFormat.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapred.lib;
  19. import java.io.IOException;
  20. import java.util.ArrayList;
  21. import org.apache.hadoop.fs.FSDataInputStream;
  22. import org.apache.hadoop.fs.FileStatus;
  23. import org.apache.hadoop.fs.FileSystem;
  24. import org.apache.hadoop.fs.Path;
  25. import org.apache.hadoop.io.LongWritable;
  26. import org.apache.hadoop.io.Text;
  27. import org.apache.hadoop.mapred.FileInputFormat;
  28. import org.apache.hadoop.mapred.FileSplit;
  29. import org.apache.hadoop.mapred.InputSplit;
  30. import org.apache.hadoop.mapred.JobConf;
  31. import org.apache.hadoop.mapred.JobConfigurable;
  32. import org.apache.hadoop.mapred.LineRecordReader;
  33. import org.apache.hadoop.mapred.RecordReader;
  34. import org.apache.hadoop.mapred.Reporter;
  35. import org.apache.hadoop.util.LineReader;
  36. /**
  37.  * NLineInputFormat which splits N lines of input as one split.
  38.  *
  39.  * In many "pleasantly" parallel applications, each process/mapper 
  40.  * processes the same input file (s), but with computations are 
  41.  * controlled by different parameters.(Referred to as "parameter sweeps").
  42.  * One way to achieve this, is to specify a set of parameters 
  43.  * (one set per line) as input in a control file 
  44.  * (which is the input path to the map-reduce application,
  45.  * where as the input dataset is specified 
  46.  * via a config variable in JobConf.).
  47.  * 
  48.  * The NLineInputFormat can be used in such applications, that splits 
  49.  * the input file such that by default, one line is fed as
  50.  * a value to one map task, and key is the offset.
  51.  * i.e. (k,v) is (LongWritable, Text).
  52.  * The location hints will span the whole mapred cluster.
  53.  */
  54. public class NLineInputFormat extends FileInputFormat<LongWritable, Text> 
  55.                               implements JobConfigurable { 
  56.   private int N = 1;
  57.   public RecordReader<LongWritable, Text> getRecordReader(
  58.                                             InputSplit genericSplit,
  59.                                             JobConf job,
  60.                                             Reporter reporter) 
  61.   throws IOException {
  62.     reporter.setStatus(genericSplit.toString());
  63.     return new LineRecordReader(job, (FileSplit) genericSplit);
  64.   }
  65.   /** 
  66.    * Logically splits the set of input files for the job, splits N lines
  67.    * of the input as one split.
  68.    * 
  69.    * @see org.apache.hadoop.mapred.FileInputFormat#getSplits(JobConf, int)
  70.    */
  71.   public InputSplit[] getSplits(JobConf job, int numSplits)
  72.   throws IOException {
  73.     ArrayList<FileSplit> splits = new ArrayList<FileSplit>();
  74.     for (FileStatus status : listStatus(job)) {
  75.       Path fileName = status.getPath();
  76.       if (status.isDir()) {
  77.         throw new IOException("Not a file: " + fileName);
  78.       }
  79.       FileSystem  fs = fileName.getFileSystem(job);
  80.       LineReader lr = null;
  81.       try {
  82.         FSDataInputStream in  = fs.open(fileName);
  83.         lr = new LineReader(in, job);
  84.         Text line = new Text();
  85.         int numLines = 0;
  86.         long begin = 0;
  87.         long length = 0;
  88.         int num = -1;
  89.         while ((num = lr.readLine(line)) > 0) {
  90.           numLines++;
  91.           length += num;
  92.           if (numLines == N) {
  93.             splits.add(new FileSplit(fileName, begin, length, new String[]{}));
  94.             begin += length;
  95.             length = 0;
  96.             numLines = 0;
  97.           }
  98.         }
  99.         if (numLines != 0) {
  100.           splits.add(new FileSplit(fileName, begin, length, new String[]{}));
  101.         }
  102.    
  103.       } finally {
  104.         if (lr != null) {
  105.           lr.close();
  106.         }
  107.       }
  108.     }
  109.     return splits.toArray(new FileSplit[splits.size()]);
  110.   }
  111.   public void configure(JobConf conf) {
  112.     N = conf.getInt("mapred.line.input.format.linespermap", 1);
  113.   }
  114. }