LineRecordReader.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapreduce.lib.input;
  19. import java.io.IOException;
  20. import org.apache.hadoop.conf.Configuration;
  21. import org.apache.hadoop.fs.FSDataInputStream;
  22. import org.apache.hadoop.fs.FileSystem;
  23. import org.apache.hadoop.fs.Path;
  24. import org.apache.hadoop.io.LongWritable;
  25. import org.apache.hadoop.io.Text;
  26. import org.apache.hadoop.io.compress.CompressionCodec;
  27. import org.apache.hadoop.io.compress.CompressionCodecFactory;
  28. import org.apache.hadoop.mapreduce.InputSplit;
  29. import org.apache.hadoop.mapreduce.RecordReader;
  30. import org.apache.hadoop.mapreduce.TaskAttemptContext;
  31. import org.apache.hadoop.util.LineReader;
  32. import org.apache.commons.logging.LogFactory;
  33. import org.apache.commons.logging.Log;
  34. /**
  35.  * Treats keys as offset in file and value as line. 
  36.  */
  37. public class LineRecordReader extends RecordReader<LongWritable, Text> {
  38.   private static final Log LOG = LogFactory.getLog(LineRecordReader.class);
  39.   private CompressionCodecFactory compressionCodecs = null;
  40.   private long start;
  41.   private long pos;
  42.   private long end;
  43.   private LineReader in;
  44.   private int maxLineLength;
  45.   private LongWritable key = null;
  46.   private Text value = null;
  47.   public void initialize(InputSplit genericSplit,
  48.                          TaskAttemptContext context) throws IOException {
  49.     FileSplit split = (FileSplit) genericSplit;
  50.     Configuration job = context.getConfiguration();
  51.     this.maxLineLength = job.getInt("mapred.linerecordreader.maxlength",
  52.                                     Integer.MAX_VALUE);
  53.     start = split.getStart();
  54.     end = start + split.getLength();
  55.     final Path file = split.getPath();
  56.     compressionCodecs = new CompressionCodecFactory(job);
  57.     final CompressionCodec codec = compressionCodecs.getCodec(file);
  58.     // open the file and seek to the start of the split
  59.     FileSystem fs = file.getFileSystem(job);
  60.     FSDataInputStream fileIn = fs.open(split.getPath());
  61.     boolean skipFirstLine = false;
  62.     if (codec != null) {
  63.       in = new LineReader(codec.createInputStream(fileIn), job);
  64.       end = Long.MAX_VALUE;
  65.     } else {
  66.       if (start != 0) {
  67.         skipFirstLine = true;
  68.         --start;
  69.         fileIn.seek(start);
  70.       }
  71.       in = new LineReader(fileIn, job);
  72.     }
  73.     if (skipFirstLine) {  // skip first line and re-establish "start".
  74.       start += in.readLine(new Text(), 0,
  75.                            (int)Math.min((long)Integer.MAX_VALUE, end - start));
  76.     }
  77.     this.pos = start;
  78.   }
  79.   
  80.   public boolean nextKeyValue() throws IOException {
  81.     if (key == null) {
  82.       key = new LongWritable();
  83.     }
  84.     key.set(pos);
  85.     if (value == null) {
  86.       value = new Text();
  87.     }
  88.     int newSize = 0;
  89.     while (pos < end) {
  90.       newSize = in.readLine(value, maxLineLength,
  91.                             Math.max((int)Math.min(Integer.MAX_VALUE, end-pos),
  92.                                      maxLineLength));
  93.       if (newSize == 0) {
  94.         break;
  95.       }
  96.       pos += newSize;
  97.       if (newSize < maxLineLength) {
  98.         break;
  99.       }
  100.       // line too long. try again
  101.       LOG.info("Skipped line of size " + newSize + " at pos " + 
  102.                (pos - newSize));
  103.     }
  104.     if (newSize == 0) {
  105.       key = null;
  106.       value = null;
  107.       return false;
  108.     } else {
  109.       return true;
  110.     }
  111.   }
  112.   @Override
  113.   public LongWritable getCurrentKey() {
  114.     return key;
  115.   }
  116.   @Override
  117.   public Text getCurrentValue() {
  118.     return value;
  119.   }
  120.   /**
  121.    * Get the progress within the split
  122.    */
  123.   public float getProgress() {
  124.     if (start == end) {
  125.       return 0.0f;
  126.     } else {
  127.       return Math.min(1.0f, (pos - start) / (float)(end - start));
  128.     }
  129.   }
  130.   
  131.   public synchronized void close() throws IOException {
  132.     if (in != null) {
  133.       in.close(); 
  134.     }
  135.   }
  136. }