DataJoinMapperBase.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.contrib.utils.join;
  19. import java.io.IOException;
  20. import java.util.Iterator;
  21. import org.apache.hadoop.io.Text;
  22. import org.apache.hadoop.mapred.JobConf;
  23. import org.apache.hadoop.mapred.OutputCollector;
  24. import org.apache.hadoop.mapred.Reporter;
  25. /**
  26.  * This abstract class serves as the base class for the mapper class of a data
  27.  * join job. This class expects its subclasses to implement methods for the
  28.  * following functionalities:
  29.  * 
  30.  * 1. Compute the source tag of input values 2. Compute the map output value
  31.  * object 3. Compute the map output key object
  32.  * 
  33.  * The source tag will be used by the reducer to determine from which source
  34.  * (which table in SQL terminology) a value comes. Computing the map output
  35.  * value object amounts to performing projecting/filtering work in a SQL
  36.  * statement (through the select/where clauses). Computing the map output key
  37.  * amounts to choosing the join key. This class provides the appropriate plugin
  38.  * points for the user defined subclasses to implement the appropriate logic.
  39.  * 
  40.  */
  41. public abstract class DataJoinMapperBase extends JobBase {
  42.   protected String inputFile = null;
  43.   protected JobConf job = null;
  44.   protected Text inputTag = null;
  45.   protected Reporter reporter = null;
  46.   public void configure(JobConf job) {
  47.     super.configure(job);
  48.     this.job = job;
  49.     this.inputFile = job.get("map.input.file");
  50.     this.inputTag = generateInputTag(this.inputFile);
  51.   }
  52.   /**
  53.    * Determine the source tag based on the input file name.
  54.    * 
  55.    * @param inputFile
  56.    * @return the source tag computed from the given file name.
  57.    */
  58.   protected abstract Text generateInputTag(String inputFile);
  59.   /**
  60.    * Generate a tagged map output value. The user code can also perform
  61.    * projection/filtering. If it decides to discard the input record when
  62.    * certain conditions are met,it can simply return a null.
  63.    * 
  64.    * @param value
  65.    * @return an object of TaggedMapOutput computed from the given value.
  66.    */
  67.   protected abstract TaggedMapOutput generateTaggedMapOutput(Object value);
  68.   /**
  69.    * Generate a map output key. The user code can compute the key
  70.    * programmatically, not just selecting the values of some fields. In this
  71.    * sense, it is more general than the joining capabilities of SQL.
  72.    * 
  73.    * @param aRecord
  74.    * @return the group key for the given record
  75.    */
  76.   protected abstract Text generateGroupKey(TaggedMapOutput aRecord);
  77.   public void map(Object key, Object value,
  78.                   OutputCollector output, Reporter reporter) throws IOException {
  79.     if (this.reporter == null) {
  80.       this.reporter = reporter;
  81.     }
  82.     addLongValue("totalCount", 1);
  83.     TaggedMapOutput aRecord = generateTaggedMapOutput(value);
  84.     if (aRecord == null) {
  85.       addLongValue("discardedCount", 1);
  86.       return;
  87.     }
  88.     Text groupKey = generateGroupKey(aRecord);
  89.     if (groupKey == null) {
  90.       addLongValue("nullGroupKeyCount", 1);
  91.       return;
  92.     }
  93.     output.collect(groupKey, aRecord);
  94.     addLongValue("collectedCount", 1);
  95.   }
  96.   public void close() throws IOException {
  97.     if (this.reporter != null) {
  98.       this.reporter.setStatus(super.getReport());
  99.     }
  100.   }
  101.   public void reduce(Object arg0, Iterator arg1,
  102.                      OutputCollector arg2, Reporter arg3) throws IOException {
  103.     // TODO Auto-generated method stub
  104.   }
  105. }