



  1. /**
  2.  * Licensed to the Apache Software Foundation (ASF) under one
  3.  * or more contributor license agreements.  See the NOTICE file
  4.  * distributed with this work for additional information
  5.  * regarding copyright ownership.  The ASF licenses this file
  6.  * to you under the Apache License, Version 2.0 (the
  7.  * "License"); you may not use this file except in compliance
  8.  * with the License.  You may obtain a copy of the License at
  9.  *
  10.  *     http://www.apache.org/licenses/LICENSE-2.0
  11.  *
  12.  * Unless required by applicable law or agreed to in writing, software
  13.  * distributed under the License is distributed on an "AS IS" BASIS,
  14.  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  15.  * See the License for the specific language governing permissions and
  16.  * limitations under the License.
  17.  */
  18. package org.apache.hadoop.mapred;
  19. import java.io.File;
  20. import java.util.HashMap;
  21. import java.util.Iterator;
  22. import java.util.Map;
  23. import java.util.List;
  24. import java.util.ArrayList;
  25. import org.apache.commons.logging.Log;
  26. import org.apache.commons.logging.LogFactory;
  27. import org.apache.hadoop.mapred.TaskTracker;
  28. import org.apache.hadoop.mapred.TaskTracker.TaskInProgress;
  29. import org.apache.hadoop.util.ProcfsBasedProcessTree;
  30. import org.apache.hadoop.util.StringUtils;
  31. /**
  32.  * Manages memory usage of tasks running under this TT. Kills any task-trees
  33.  * that overflow and over-step memory limits.
  34.  */
  35. class TaskMemoryManagerThread extends Thread {
  36.   private static Log LOG = LogFactory.getLog(TaskMemoryManagerThread.class);
  37.   private TaskTracker taskTracker;
  38.   private long monitoringInterval;
  39.   private long sleepTimeBeforeSigKill;
  40.   private long maxMemoryAllowedForAllTasks;
  41.   private Map<TaskAttemptID, ProcessTreeInfo> processTreeInfoMap;
  42.   private Map<TaskAttemptID, ProcessTreeInfo> tasksToBeAdded;
  43.   private List<TaskAttemptID> tasksToBeRemoved;
  44.   public TaskMemoryManagerThread(TaskTracker taskTracker) {
  45.     this.taskTracker = taskTracker;
  46.     setName(this.getClass().getName());
  47.     processTreeInfoMap = new HashMap<TaskAttemptID, ProcessTreeInfo>();
  48.     tasksToBeAdded = new HashMap<TaskAttemptID, ProcessTreeInfo>();
  49.     tasksToBeRemoved = new ArrayList<TaskAttemptID>();
  50.     maxMemoryAllowedForAllTasks =
  51.         taskTracker.getTotalVirtualMemoryOnTT()
  52.             - taskTracker.getReservedVirtualMemory();
  53.     monitoringInterval = taskTracker.getJobConf().getLong(
  54.         "mapred.tasktracker.taskmemorymanager.monitoring-interval", 5000L);
  55.     sleepTimeBeforeSigKill = taskTracker.getJobConf().getLong(
  56.         "mapred.tasktracker.procfsbasedprocesstree.sleeptime-before-sigkill",
  57.         ProcfsBasedProcessTree.DEFAULT_SLEEPTIME_BEFORE_SIGKILL);
  58.   }
  59.   public void addTask(TaskAttemptID tid, long memLimit, String pidFile) {
  60.     synchronized (tasksToBeAdded) {
  61.       LOG.debug("Tracking ProcessTree " + tid + " for the first time");
  62.       ProcessTreeInfo ptInfo = new ProcessTreeInfo(tid, null, null, memLimit,
  63.           sleepTimeBeforeSigKill, pidFile);
  64.       tasksToBeAdded.put(tid, ptInfo);
  65.     }
  66.   }
  67.   public void removeTask(TaskAttemptID tid) {
  68.     synchronized (tasksToBeRemoved) {
  69.       tasksToBeRemoved.add(tid);
  70.     }
  71.   }
  72.   private static class ProcessTreeInfo {
  73.     private TaskAttemptID tid;
  74.     private String pid;
  75.     private ProcfsBasedProcessTree pTree;
  76.     private long memLimit;
  77.     private String pidFile;
  78.     public ProcessTreeInfo(TaskAttemptID tid, String pid,
  79.         ProcfsBasedProcessTree pTree, long memLimit, 
  80.         long sleepTimeBeforeSigKill, String pidFile) {
  81.       this.tid = tid;
  82.       this.pid = pid;
  83.       this.pTree = pTree;
  84.       if (this.pTree != null) {
  85.         this.pTree.setSigKillInterval(sleepTimeBeforeSigKill);
  86.       }
  87.       this.memLimit = memLimit;
  88.       this.pidFile = pidFile;
  89.     }
  90.     public TaskAttemptID getTID() {
  91.       return tid;
  92.     }
  93.     public String getPID() {
  94.       return pid;
  95.     }
  96.     public void setPid(String pid) {
  97.       this.pid = pid;
  98.     }
  99.     public ProcfsBasedProcessTree getProcessTree() {
  100.       return pTree;
  101.     }
  102.     public void setProcessTree(ProcfsBasedProcessTree pTree) {
  103.       this.pTree = pTree;
  104.     }
  105.     public long getMemLimit() {
  106.       return memLimit;
  107.     }
  108.   }
  109.   @Override
  110.   public void run() {
  111.     LOG.info("Starting thread: " + this.getClass());
  112.     while (true) {
  113.       // Print the processTrees for debugging.
  114.       if (LOG.isDebugEnabled()) {
  115.         StringBuffer tmp = new StringBuffer("[ ");
  116.         for (ProcessTreeInfo p : processTreeInfoMap.values()) {
  117.           tmp.append(p.getPID());
  118.           tmp.append(" ");
  119.         }
  120.         LOG.debug("Current ProcessTree list : "
  121.             + tmp.substring(0, tmp.length()) + "]");
  122.       }
  123.       //Add new Tasks
  124.       synchronized (tasksToBeAdded) {
  125.         processTreeInfoMap.putAll(tasksToBeAdded);
  126.         tasksToBeAdded.clear();
  127.       }
  128.       //Remove finished Tasks
  129.       synchronized (tasksToBeRemoved) {
  130.         for (TaskAttemptID tid : tasksToBeRemoved) {
  131.           processTreeInfoMap.remove(tid);
  132.         }
  133.         tasksToBeRemoved.clear();
  134.       }
  135.       long memoryStillInUsage = 0;
  136.       // Now, check memory usage and kill any overflowing tasks
  137.       for (Iterator<Map.Entry<TaskAttemptID, ProcessTreeInfo>> it = processTreeInfoMap
  138.           .entrySet().iterator(); it.hasNext();) {
  139.         Map.Entry<TaskAttemptID, ProcessTreeInfo> entry = it.next();
  140.         TaskAttemptID tid = entry.getKey();
  141.         ProcessTreeInfo ptInfo = entry.getValue();
  142.         try {
  143.           String pId = ptInfo.getPID();
  144.           // Initialize any uninitialized processTrees
  145.           if (pId == null) {
  146.             // get pid from pid-file
  147.             pId = getPid(ptInfo.pidFile);
  148.             if (pId != null) {
  149.               // PID will be null, either if the pid file is yet to be created
  150.               // or if the tip is finished and we removed pidFile, but the TIP
  151.               // itself is still retained in runningTasks till successful
  152.               // transmission to JT
  153.               // create process tree object
  154.               ProcfsBasedProcessTree pt = new ProcfsBasedProcessTree(pId);
  155.               LOG.debug("Tracking ProcessTree " + pId + " for the first time");
  156.               ptInfo.setPid(pId);
  157.               ptInfo.setProcessTree(pt);
  158.             }
  159.           }
  160.           // End of initializing any uninitialized processTrees
  161.           if (pId == null) {
  162.             continue; // processTree cannot be tracked
  163.           }
  164.           LOG.debug("Constructing ProcessTree for : PID = " + pId + " TID = "
  165.               + tid);
  166.           ProcfsBasedProcessTree pTree = ptInfo.getProcessTree();
  167.           pTree = pTree.getProcessTree(); // get the updated process-tree
  168.           ptInfo.setProcessTree(pTree); // update ptInfo with proces-tree of
  169.           // updated state
  170.           long currentMemUsage = pTree.getCumulativeVmem();
  171.           long limit = ptInfo.getMemLimit();
  172.           LOG.info("Memory usage of ProcessTree " + pId + " :"
  173.               + currentMemUsage + "bytes. Limit : " + limit + "bytes");
  174.           if (limit > taskTracker.getLimitMaxVMemPerTask()) {
  175.             // TODO: With monitoring enabled and no scheduling based on
  176.             // memory,users can seriously hijack the system by specifying memory
  177.             // requirements well above the cluster wide limit. Ideally these
  178.             // jobs
  179.             // should have been rejected by JT/scheduler. Because we can't do
  180.             // that, in the minimum we should fail the tasks and hence the job.
  181.             LOG.warn("Task " + tid
  182.                 + " 's maxVmemPerTask is greater than TT's limitMaxVmPerTask");
  183.           }
  184.           if (limit != JobConf.DISABLED_MEMORY_LIMIT
  185.               && currentMemUsage > limit) {
  186.             // Task (the root process) is still alive and overflowing memory.
  187.             // Clean up.
  188.             String msg =
  189.                 "TaskTree [pid=" + pId + ",tipID=" + tid
  190.                     + "] is running beyond memory-limits. Current usage : "
  191.                     + currentMemUsage + "bytes. Limit : " + limit
  192.                     + "bytes. Killing task.";
  193.             LOG.warn(msg);
  194.             taskTracker.cleanUpOverMemoryTask(tid, true, msg);
  195.             // Now destroy the ProcessTree, remove it from monitoring map.
  196.             pTree.destroy();
  197.             it.remove();
  198.             LOG.info("Removed ProcessTree with root " + pId);
  199.           } else {
  200.             // Accounting the total memory in usage for all tasks that are still
  201.             // alive and within limits.
  202.             memoryStillInUsage += currentMemUsage;
  203.           }
  204.         } catch (Exception e) {
  205.           // Log the exception and proceed to the next task.
  206.           LOG.warn("Uncaught exception in TaskMemoryManager "
  207.               + "while managing memory of " + tid + " : "
  208.               + StringUtils.stringifyException(e));
  209.         }
  210.       }
  211.       LOG.debug("Memory still in usage across all tasks : " + memoryStillInUsage
  212.           + "bytes. Total limit : " + maxMemoryAllowedForAllTasks);
  213.       if (memoryStillInUsage > maxMemoryAllowedForAllTasks) {
  214.         LOG.warn("The total memory usage is still overflowing TTs limits."
  215.             + " Trying to kill a few tasks with the least progress.");
  216.         killTasksWithLeastProgress(memoryStillInUsage);
  217.       }
  219.       // Sleep for some time before beginning next cycle
  220.       try {
  221.         LOG.debug(this.getClass() + " : Sleeping for " + monitoringInterval
  222.             + " ms");
  223.         Thread.sleep(monitoringInterval);
  224.       } catch (InterruptedException ie) {
  225.         LOG.warn(this.getClass()
  226.             + " interrupted. Finishing the thread and returning.");
  227.         return;
  228.       }
  229.     }
  230.   }
  231.   private void killTasksWithLeastProgress(long memoryStillInUsage) {
  232.     List<TaskAttemptID> tasksToKill = new ArrayList<TaskAttemptID>();
  233.     List<TaskAttemptID> tasksToExclude = new ArrayList<TaskAttemptID>();
  234.     // Find tasks to kill so as to get memory usage under limits.
  235.     while (memoryStillInUsage > maxMemoryAllowedForAllTasks) {
  236.       // Exclude tasks that are already marked for
  237.       // killing.
  238.       TaskInProgress task = taskTracker.findTaskToKill(tasksToExclude);
  239.       if (task == null) {
  240.         break; // couldn't find any more tasks to kill.
  241.       }
  242.       TaskAttemptID tid = task.getTask().getTaskID();
  243.       if (processTreeInfoMap.containsKey(tid)) {
  244.         ProcessTreeInfo ptInfo = processTreeInfoMap.get(tid);
  245.         ProcfsBasedProcessTree pTree = ptInfo.getProcessTree();
  246.         memoryStillInUsage -= pTree.getCumulativeVmem();
  247.         tasksToKill.add(tid);
  248.       }
  249.       // Exclude this task from next search because it is already
  250.       // considered.
  251.       tasksToExclude.add(tid);
  252.     }
  253.     // Now kill the tasks.
  254.     if (!tasksToKill.isEmpty()) {
  255.       for (TaskAttemptID tid : tasksToKill) {
  256.         String msg =
  257.             "Killing one of the least progress tasks - " + tid
  258.                 + ", as the cumulative memory usage of all the tasks on "
  259.                 + "the TaskTracker exceeds virtual memory limit "
  260.                 + maxMemoryAllowedForAllTasks + ".";
  261.         LOG.warn(msg);
  262.         // Kill the task and mark it as killed.
  263.         taskTracker.cleanUpOverMemoryTask(tid, false, msg);
  264.         // Now destroy the ProcessTree, remove it from monitoring map.
  265.         ProcessTreeInfo ptInfo = processTreeInfoMap.get(tid);
  266.         ProcfsBasedProcessTree pTree = ptInfo.getProcessTree();
  267.         pTree.destroy();
  268.         processTreeInfoMap.remove(tid);
  269.         LOG.info("Removed ProcessTree with root " + ptInfo.getPID());
  270.       }
  271.     } else {
  272.       LOG.info("The total memory usage is overflowing TTs limits. "
  273.           + "But found no alive task to kill for freeing memory.");
  274.     }
  275.   }
  276.   /**
  277.    * Load pid of the task from the pidFile.
  278.    * 
  279.    * @param pidFileName
  280.    * @return the pid of the task process.
  281.    */
  282.   private String getPid(String pidFileName) {
  283.     if ((new File(pidFileName)).exists()) {
  284.       return ProcfsBasedProcessTree.getPidFromPidFile(pidFileName);
  285.      }
  286.      return null;
  287.   }
  288. }