InputFormat.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapred;
  19. import java.io.IOException;
  20. import org.apache.hadoop.fs.FileSystem;
  21. /** 
  22.  * <code>InputFormat</code> describes the input-specification for a 
  23.  * Map-Reduce job. 
  24.  * 
  25.  * <p>The Map-Reduce framework relies on the <code>InputFormat</code> of the
  26.  * job to:<p>
  27.  * <ol>
  28.  *   <li>
  29.  *   Validate the input-specification of the job. 
  30.  *   <li>
  31.  *   Split-up the input file(s) into logical {@link InputSplit}s, each of 
  32.  *   which is then assigned to an individual {@link Mapper}.
  33.  *   </li>
  34.  *   <li>
  35.  *   Provide the {@link RecordReader} implementation to be used to glean
  36.  *   input records from the logical <code>InputSplit</code> for processing by 
  37.  *   the {@link Mapper}.
  38.  *   </li>
  39.  * </ol>
  40.  * 
  41.  * <p>The default behavior of file-based {@link InputFormat}s, typically 
  42.  * sub-classes of {@link FileInputFormat}, is to split the 
  43.  * input into <i>logical</i> {@link InputSplit}s based on the total size, in 
  44.  * bytes, of the input files. However, the {@link FileSystem} blocksize of  
  45.  * the input files is treated as an upper bound for input splits. A lower bound 
  46.  * on the split size can be set via 
  47.  * <a href="{@docRoot}/../mapred-default.html#mapred.min.split.size">
  48.  * mapred.min.split.size</a>.</p>
  49.  * 
  50.  * <p>Clearly, logical splits based on input-size is insufficient for many 
  51.  * applications since record boundaries are to respected. In such cases, the
  52.  * application has to also implement a {@link RecordReader} on whom lies the
  53.  * responsibilty to respect record-boundaries and present a record-oriented
  54.  * view of the logical <code>InputSplit</code> to the individual task.
  55.  *
  56.  * @see InputSplit
  57.  * @see RecordReader
  58.  * @see JobClient
  59.  * @see FileInputFormat
  60.  * @deprecated Use {@link org.apache.hadoop.mapreduce.InputFormat} instead.
  61.  */
  62. @Deprecated
  63. public interface InputFormat<K, V> {
  64.   /** 
  65.    * Logically split the set of input files for the job.  
  66.    * 
  67.    * <p>Each {@link InputSplit} is then assigned to an individual {@link Mapper}
  68.    * for processing.</p>
  69.    *
  70.    * <p><i>Note</i>: The split is a <i>logical</i> split of the inputs and the
  71.    * input files are not physically split into chunks. For e.g. a split could
  72.    * be <i>&lt;input-file-path, start, offset&gt;</i> tuple.
  73.    * 
  74.    * @param job job configuration.
  75.    * @param numSplits the desired number of splits, a hint.
  76.    * @return an array of {@link InputSplit}s for the job.
  77.    */
  78.   InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
  79.   /** 
  80.    * Get the {@link RecordReader} for the given {@link InputSplit}.
  81.    *
  82.    * <p>It is the responsibility of the <code>RecordReader</code> to respect
  83.    * record boundaries while processing the logical split to present a 
  84.    * record-oriented view to the individual task.</p>
  85.    * 
  86.    * @param split the {@link InputSplit}
  87.    * @param job the job that this split belongs to
  88.    * @return a {@link RecordReader}
  89.    */
  90.   RecordReader<K, V> getRecordReader(InputSplit split,
  91.                                      JobConf job, 
  92.                                      Reporter reporter) throws IOException;
  93. }