InputFormat.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapreduce;
  19. import java.io.IOException;
  20. import java.util.List;
  21. import org.apache.hadoop.fs.FileSystem;
  22. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  23. /** 
  24.  * <code>InputFormat</code> describes the input-specification for a 
  25.  * Map-Reduce job. 
  26.  * 
  27.  * <p>The Map-Reduce framework relies on the <code>InputFormat</code> of the
  28.  * job to:<p>
  29.  * <ol>
  30.  *   <li>
  31.  *   Validate the input-specification of the job. 
  32.  *   <li>
  33.  *   Split-up the input file(s) into logical {@link InputSplit}s, each of 
  34.  *   which is then assigned to an individual {@link Mapper}.
  35.  *   </li>
  36.  *   <li>
  37.  *   Provide the {@link RecordReader} implementation to be used to glean
  38.  *   input records from the logical <code>InputSplit</code> for processing by 
  39.  *   the {@link Mapper}.
  40.  *   </li>
  41.  * </ol>
  42.  * 
  43.  * <p>The default behavior of file-based {@link InputFormat}s, typically 
  44.  * sub-classes of {@link FileInputFormat}, is to split the 
  45.  * input into <i>logical</i> {@link InputSplit}s based on the total size, in 
  46.  * bytes, of the input files. However, the {@link FileSystem} blocksize of  
  47.  * the input files is treated as an upper bound for input splits. A lower bound 
  48.  * on the split size can be set via 
  49.  * <a href="{@docRoot}/../mapred-default.html#mapred.min.split.size">
  50.  * mapred.min.split.size</a>.</p>
  51.  * 
  52.  * <p>Clearly, logical splits based on input-size is insufficient for many 
  53.  * applications since record boundaries are to respected. In such cases, the
  54.  * application has to also implement a {@link RecordReader} on whom lies the
  55.  * responsibility to respect record-boundaries and present a record-oriented
  56.  * view of the logical <code>InputSplit</code> to the individual task.
  57.  *
  58.  * @see InputSplit
  59.  * @see RecordReader
  60.  * @see FileInputFormat
  61.  */
  62. public abstract class InputFormat<K, V> {
  63.   /** 
  64.    * Logically split the set of input files for the job.  
  65.    * 
  66.    * <p>Each {@link InputSplit} is then assigned to an individual {@link Mapper}
  67.    * for processing.</p>
  68.    *
  69.    * <p><i>Note</i>: The split is a <i>logical</i> split of the inputs and the
  70.    * input files are not physically split into chunks. For e.g. a split could
  71.    * be <i>&lt;input-file-path, start, offset&gt;</i> tuple. The InputFormat
  72.    * also creates the {@link RecordReader} to read the {@link InputSplit}.
  73.    * 
  74.    * @param context job configuration.
  75.    * @return an array of {@link InputSplit}s for the job.
  76.    */
  77.   public abstract 
  78.     List<InputSplit> getSplits(JobContext context
  79.                                ) throws IOException, InterruptedException;
  80.   
  81.   /**
  82.    * Create a record reader for a given split. The framework will call
  83.    * {@link RecordReader#initialize(InputSplit, TaskAttemptContext)} before
  84.    * the split is used.
  85.    * @param split the split to be read
  86.    * @param context the information about the task
  87.    * @return a new record reader
  88.    * @throws IOException
  89.    * @throws InterruptedException
  90.    */
  91.   public abstract 
  92.     RecordReader<K,V> createRecordReader(InputSplit split,
  93.                                          TaskAttemptContext context
  94.                                         ) throws IOException, 
  95.                                                  InterruptedException;
  96. }