TestSetupAndCleanupFailure.java
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:10k
源码类别:

网格计算

开发平台:

Java

  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapred;
  19. import java.io.DataOutputStream;
  20. import java.io.IOException;
  21. import junit.framework.TestCase;
  22. import org.apache.hadoop.conf.Configuration;
  23. import org.apache.hadoop.fs.FileSystem;
  24. import org.apache.hadoop.fs.Path;
  25. import org.apache.hadoop.hdfs.MiniDFSCluster;
  26. import org.apache.hadoop.mapred.lib.IdentityMapper;
  27. import org.apache.hadoop.mapred.lib.IdentityReducer;
  28. /**
  29.  * Tests various failures in setup/cleanup of job, like 
  30.  * throwing exception, command line kill and lost tracker 
  31.  */
  32. public class TestSetupAndCleanupFailure extends TestCase {
  33.   final Path inDir = new Path("./input");
  34.   final Path outDir = new Path("./output");
  35.   static Path setupSignalFile = new Path("/setup-signal");
  36.   static Path cleanupSignalFile = new Path("/cleanup-signal");
  37.   String input = "The quick brown foxnhas many sillynred fox soxn";
  38.  
  39.   // Commiter with setupJob throwing exception
  40.   static class CommitterWithFailSetup extends FileOutputCommitter {
  41.     @Override
  42.     public void setupJob(JobContext context) throws IOException {
  43.       throw new IOException();
  44.     }
  45.   }
  46.   // Commiter with cleanupJob throwing exception
  47.   static class CommitterWithFailCleanup extends FileOutputCommitter {
  48.     @Override
  49.     public void cleanupJob(JobContext context) throws IOException {
  50.       throw new IOException();
  51.     }
  52.   }
  53.   // Committer waits for a file to be created on dfs.
  54.   static class CommitterWithLongSetupAndCleanup extends FileOutputCommitter {
  55.     
  56.     private void waitForSignalFile(FileSystem fs, Path signalFile) 
  57.     throws IOException {
  58.       while (!fs.exists(signalFile)) {
  59.         try {
  60.           Thread.sleep(100);
  61.         } catch (InterruptedException ie) {
  62.          break;
  63.         }
  64.       }
  65.     }
  66.     
  67.     @Override
  68.     public void setupJob(JobContext context) throws IOException {
  69.       waitForSignalFile(FileSystem.get(context.getJobConf()), setupSignalFile);
  70.       super.setupJob(context);
  71.     }
  72.     
  73.     @Override
  74.     public void cleanupJob(JobContext context) throws IOException {
  75.       waitForSignalFile(FileSystem.get(context.getJobConf()), cleanupSignalFile);
  76.       super.cleanupJob(context);
  77.     }
  78.   }
  79.   
  80.   public RunningJob launchJob(JobConf conf) 
  81.   throws IOException {
  82.     // set up the input file system and write input text.
  83.     FileSystem inFs = inDir.getFileSystem(conf);
  84.     FileSystem outFs = outDir.getFileSystem(conf);
  85.     outFs.delete(outDir, true);
  86.     if (!inFs.mkdirs(inDir)) {
  87.       throw new IOException("Mkdirs failed to create " + inDir.toString());
  88.     }
  89.     {
  90.       // write input into input file
  91.       DataOutputStream file = inFs.create(new Path(inDir, "part-0"));
  92.       file.writeBytes(input);
  93.       file.close();
  94.     }
  95.     // configure the mapred Job
  96.     conf.setMapperClass(IdentityMapper.class);        
  97.     conf.setReducerClass(IdentityReducer.class);
  98.     FileInputFormat.setInputPaths(conf, inDir);
  99.     FileOutputFormat.setOutputPath(conf, outDir);
  100.     String TEST_ROOT_DIR = new Path(System.getProperty("test.build.data",
  101.                                     "/tmp")).toString().replace(' ', '+');
  102.     conf.set("test.build.data", TEST_ROOT_DIR);
  103.     // return the RunningJob handle.
  104.     return new JobClient(conf).submitJob(conf);
  105.   }
  106.   // Among these tips only one of the tasks will be running,
  107.   // get the taskid for that task 
  108.   private TaskAttemptID getRunningTaskID(TaskInProgress[] tips) {
  109.     TaskAttemptID taskid = null;
  110.     while (taskid == null) {
  111.       for (TaskInProgress tip :tips) {
  112.         TaskStatus[] statuses = tip.getTaskStatuses();
  113.         for (TaskStatus status : statuses) {
  114.           if (status.getRunState() == TaskStatus.State.RUNNING) {
  115.             taskid = status.getTaskID();
  116.             break;
  117.           }
  118.         }
  119.         if (taskid != null) break;
  120.       }
  121.       try {
  122.         Thread.sleep(10);
  123.       } catch (InterruptedException ie) {}
  124.     }
  125.     return taskid;
  126.   }
  127.   
  128.   // Tests the failures in setup/cleanup job. Job should cleanly fail.
  129.   private void testFailCommitter(Class<? extends OutputCommitter> theClass,
  130.                                  JobConf jobConf) 
  131.   throws IOException {
  132.     jobConf.setOutputCommitter(theClass);
  133.     RunningJob job = launchJob(jobConf);
  134.     // wait for the job to finish.
  135.     job.waitForCompletion();
  136.     assertEquals(JobStatus.FAILED, job.getJobState());
  137.   }
  138.   
  139.   // launch job with CommitterWithLongSetupAndCleanup as committer
  140.   // and wait till the job is inited.
  141.   private RunningJob launchJobWithWaitingSetupAndCleanup(MiniMRCluster mr) 
  142.   throws IOException {
  143.     // launch job with waiting setup/cleanup
  144.     JobConf jobConf = mr.createJobConf();
  145.     jobConf.setOutputCommitter(CommitterWithLongSetupAndCleanup.class);
  146.     RunningJob job = launchJob(jobConf);
  147.     JobTracker jt = mr.getJobTrackerRunner().getJobTracker();
  148.     JobInProgress jip = jt.getJob(job.getID());
  149.     while (!jip.inited()) {
  150.       try {
  151.         Thread.sleep(10);
  152.       } catch (InterruptedException ie) {}
  153.     }
  154.     return job;
  155.   }
  156.   
  157.   /**
  158.    * Tests setup and cleanup attempts getting killed from command-line 
  159.    * and lost tracker
  160.    * 
  161.    * @param mr
  162.    * @param dfs
  163.    * @param commandLineKill if true, test with command-line kill
  164.    *                        else, test with lost tracker
  165.    * @throws IOException
  166.    */
  167.   private void testSetupAndCleanupKill(MiniMRCluster mr, 
  168.                                        MiniDFSCluster dfs, 
  169.                                        boolean commandLineKill) 
  170.   throws IOException {
  171.     // launch job with waiting setup/cleanup
  172.     RunningJob job = launchJobWithWaitingSetupAndCleanup(mr);
  173.     
  174.     JobTracker jt = mr.getJobTrackerRunner().getJobTracker();
  175.     JobInProgress jip = jt.getJob(job.getID());
  176.     // get the running setup task id
  177.     TaskAttemptID setupID = getRunningTaskID(jip.getSetupTasks());
  178.     if (commandLineKill) {
  179.       killTaskFromCommandLine(job, setupID, jt);
  180.     } else {
  181.       killTaskWithLostTracker(mr, setupID);
  182.     }
  183.     // signal the setup to complete
  184.     UtilsForTests.writeFile(dfs.getNameNode(), 
  185.                             dfs.getFileSystem().getConf(), 
  186.                             setupSignalFile, (short)3);
  187.     // wait for maps and reduces to complete
  188.     while (job.reduceProgress() != 1.0f) {
  189.       try {
  190.         Thread.sleep(100);
  191.       } catch (InterruptedException ie) {}
  192.     }
  193.     // get the running cleanup task id
  194.     TaskAttemptID cleanupID = getRunningTaskID(jip.getCleanupTasks());
  195.     if (commandLineKill) {
  196.       killTaskFromCommandLine(job, cleanupID, jt);
  197.     } else {
  198.       killTaskWithLostTracker(mr, cleanupID);
  199.     }
  200.     // signal the cleanup to complete
  201.     UtilsForTests.writeFile(dfs.getNameNode(), 
  202.                             dfs.getFileSystem().getConf(), 
  203.                             cleanupSignalFile, (short)3);
  204.     // wait for the job to finish.
  205.     job.waitForCompletion();
  206.     assertEquals(JobStatus.SUCCEEDED, job.getJobState());
  207.     assertEquals(TaskStatus.State.KILLED, 
  208.                  jt.getTaskStatus(setupID).getRunState());
  209.     assertEquals(TaskStatus.State.KILLED, 
  210.                  jt.getTaskStatus(cleanupID).getRunState());
  211.   }
  212.   
  213.   // kill the task from command-line 
  214.   // wait till it kill is reported back
  215.   private void killTaskFromCommandLine(RunningJob job, 
  216.                                        TaskAttemptID taskid,
  217.                                        JobTracker jt) 
  218.   throws IOException {
  219.     job.killTask(taskid, false);
  220.     // wait till the kill happens
  221.     while (jt.getTaskStatus(taskid).getRunState() != 
  222.            TaskStatus.State.KILLED) {
  223.       try {
  224.         Thread.sleep(10);
  225.       } catch (InterruptedException ie) {}
  226.     }
  227.   }
  228.   // kill the task by losing the tracker
  229.   private void killTaskWithLostTracker(MiniMRCluster mr, 
  230.                                        TaskAttemptID taskid) {
  231.     JobTracker jt = mr.getJobTrackerRunner().getJobTracker();
  232.     String trackerName = jt.getTaskStatus(taskid).getTaskTracker();
  233.     int trackerID = mr.getTaskTrackerID(trackerName);
  234.     assertTrue(trackerID != -1);
  235.     mr.stopTaskTracker(trackerID);
  236.   }
  237.   
  238.   // Tests the failures in setup/cleanup job. Job should cleanly fail.
  239.   // Also Tests the command-line kill for setup/cleanup attempts. 
  240.   // tests the setup/cleanup attempts getting killed if 
  241.   // they were running on a lost tracker
  242.   public void testWithDFS() throws IOException {
  243.     MiniDFSCluster dfs = null;
  244.     MiniMRCluster mr = null;
  245.     FileSystem fileSys = null;
  246.     try {
  247.       final int taskTrackers = 4;
  248.       Configuration conf = new Configuration();
  249.       dfs = new MiniDFSCluster(conf, 4, true, null);
  250.       fileSys = dfs.getFileSystem();
  251.       JobConf jtConf = new JobConf();
  252.       jtConf.setInt("mapred.tasktracker.map.tasks.maximum", 1);
  253.       jtConf.setInt("mapred.tasktracker.reduce.tasks.maximum", 1);
  254.       jtConf.setLong("mapred.tasktracker.expiry.interval", 10 * 1000);
  255.       jtConf.setInt("mapred.reduce.copy.backoff", 4);
  256.       mr = new MiniMRCluster(taskTrackers, fileSys.getUri().toString(), 1,
  257.                              null, null, jtConf);
  258.       // test setup/cleanup throwing exceptions
  259.       testFailCommitter(CommitterWithFailSetup.class, mr.createJobConf());
  260.       testFailCommitter(CommitterWithFailCleanup.class, mr.createJobConf());
  261.       // test the command-line kill for setup/cleanup attempts. 
  262.       testSetupAndCleanupKill(mr, dfs, true);
  263.       // remove setup/cleanup signal files.
  264.       fileSys.delete(setupSignalFile , true);
  265.       fileSys.delete(cleanupSignalFile , true);
  266.       // test the setup/cleanup attempts getting killed if 
  267.       // they were running on a lost tracker
  268.       testSetupAndCleanupKill(mr, dfs, false);
  269.     } finally {
  270.       if (dfs != null) { dfs.shutdown(); }
  271.       if (mr != null) { mr.shutdown();
  272.       }
  273.     }
  274.   }
  275.   public static void main(String[] argv) throws Exception {
  276.     TestSetupAndCleanupFailure td = new TestSetupAndCleanupFailure();
  277.     td.testWithDFS();
  278.   }
  279. }