generateGridmix2data.sh
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1. #!/usr/bin/env bash
  2.  
  3. ##############################################################
  4. # Licensed to the Apache Software Foundation (ASF) under one
  5. # or more contributor license agreements.  See the NOTICE file
  6. # distributed with this work for additional information
  7. # regarding copyright ownership.  The ASF licenses this file
  8. # to you under the Apache License, Version 2.0 (the
  9. # "License"); you may not use this file except in compliance
  10. # with the License.  You may obtain a copy of the License at
  11. #
  12. #     http://www.apache.org/licenses/LICENSE-2.0
  13. #
  14. # Unless required by applicable law or agreed to in writing, software
  15. # distributed under the License is distributed on an "AS IS" BASIS,
  16. # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  17. # See the License for the specific language governing permissions and
  18. # limitations under the License.
  19. #
  20. #####################################################################
  21. GRID_DIR=`dirname "$0"`
  22. GRID_DIR=`cd "$GRID_DIR"; pwd`
  23. source $GRID_DIR/gridmix-env-2
  24. # Smaller data set is used by default.
  25. COMPRESSED_DATA_BYTES=2147483648
  26. UNCOMPRESSED_DATA_BYTES=536870912
  27. # Number of partitions for output data
  28. NUM_MAPS=100
  29. # If the env var USE_REAL_DATASET is set, then use the params to generate the bigger (real) dataset.
  30. if [ ! -z ${USE_REAL_DATASET} ] ; then
  31.   echo "Using real dataset"
  32.   NUM_MAPS=492
  33.   # 2TB data compressing to approx 500GB
  34.   COMPRESSED_DATA_BYTES=2147483648000
  35.   # 500GB
  36.   UNCOMPRESSED_DATA_BYTES=536870912000
  37. fi
  38. ## Data sources
  39. export GRID_MIX_DATA=/gridmix/data
  40. # Variable length key, value compressed SequenceFile
  41. export VARCOMPSEQ=${GRID_MIX_DATA}/WebSimulationBlockCompressed
  42. # Fixed length key, value compressed SequenceFile
  43. export FIXCOMPSEQ=${GRID_MIX_DATA}/MonsterQueryBlockCompressed
  44. # Variable length key, value uncompressed Text File
  45. export VARINFLTEXT=${GRID_MIX_DATA}/SortUncompressed
  46. # Fixed length key, value compressed Text File
  47. export FIXCOMPTEXT=${GRID_MIX_DATA}/EntropySimulationCompressed
  48. ${HADOOP_HOME}/bin/hadoop jar 
  49.   ${EXAMPLE_JAR} randomtextwriter 
  50.   -D test.randomtextwrite.total_bytes=${COMPRESSED_DATA_BYTES} 
  51.   -D test.randomtextwrite.bytes_per_map=$((${COMPRESSED_DATA_BYTES} / ${NUM_MAPS})) 
  52.   -D test.randomtextwrite.min_words_key=5 
  53.   -D test.randomtextwrite.max_words_key=10 
  54.   -D test.randomtextwrite.min_words_value=100 
  55.   -D test.randomtextwrite.max_words_value=10000 
  56.   -D mapred.output.compress=true 
  57.   -D mapred.map.output.compression.type=BLOCK 
  58.   -outFormat org.apache.hadoop.mapred.SequenceFileOutputFormat 
  59.   ${VARCOMPSEQ} &
  60. ${HADOOP_HOME}/bin/hadoop jar 
  61.   ${EXAMPLE_JAR} randomtextwriter 
  62.   -D test.randomtextwrite.total_bytes=${COMPRESSED_DATA_BYTES} 
  63.   -D test.randomtextwrite.bytes_per_map=$((${COMPRESSED_DATA_BYTES} / ${NUM_MAPS})) 
  64.   -D test.randomtextwrite.min_words_key=5 
  65.   -D test.randomtextwrite.max_words_key=5 
  66.   -D test.randomtextwrite.min_words_value=100 
  67.   -D test.randomtextwrite.max_words_value=100 
  68.   -D mapred.output.compress=true 
  69.   -D mapred.map.output.compression.type=BLOCK 
  70.   -outFormat org.apache.hadoop.mapred.SequenceFileOutputFormat 
  71.   ${FIXCOMPSEQ} &
  72. ${HADOOP_HOME}/bin/hadoop jar 
  73.   ${EXAMPLE_JAR} randomtextwriter 
  74.   -D test.randomtextwrite.total_bytes=${UNCOMPRESSED_DATA_BYTES} 
  75.   -D test.randomtextwrite.bytes_per_map=$((${UNCOMPRESSED_DATA_BYTES} / ${NUM_MAPS})) 
  76.   -D test.randomtextwrite.min_words_key=1 
  77.   -D test.randomtextwrite.max_words_key=10 
  78.   -D test.randomtextwrite.min_words_value=0 
  79.   -D test.randomtextwrite.max_words_value=200 
  80.   -D mapred.output.compress=false 
  81.   -outFormat org.apache.hadoop.mapred.TextOutputFormat 
  82.   ${VARINFLTEXT} &