README
上传用户:quxuerui
上传日期:2018-01-08
资源大小:41811k
文件大小:4k
源码类别:

网格计算

开发平台:

Java

  1.                         Hadoop On Demand
  2.                         ================
  3. 1. Introduction:
  4. ================
  5. The Hadoop On Demand (HOD) project is a system for provisioning and 
  6. managing independent Hadoop MapReduce instances on a shared cluster 
  7. of nodes. HOD uses a resource manager for allocation. At present it
  8. supports Torque (http://www.clusterresources.com/pages/products/torque-resource-manager.php)
  9. out of the box. 
  10. 2. Feature List:
  11. ================
  12. The following are the features provided by HOD:
  13. 2.1 Simplified interface for managing MapReduce clusters:
  14. The MapReduce user interacts with the cluster through a simple 
  15. command line interface, the HOD client. HOD brings up a virtual 
  16. MapReduce cluster with the required number of nodes, which the 
  17. user can use for running Hadoop jobs. When done, HOD will 
  18. automatically clean up the resources and make the nodes available 
  19. again.
  20. 2.2 Automatic installation of Hadoop:
  21. With HOD, Hadoop does not need to be even installed on the cluster.
  22. The user can provide a Hadoop tarball that HOD will automatically 
  23. distribute to all the nodes in the cluster.
  24. 2.3 Configuring Hadoop:
  25. Dynamic parameters of Hadoop configuration, such as the NameNode and 
  26. JobTracker addresses and ports, and file system temporary directories
  27. are generated and distributed by HOD automatically to all nodes in
  28. the cluster.
  29. In addition, HOD allows the user to configure Hadoop parameters
  30. at both the server (for e.g. JobTracker) and client (for e.g. JobClient)
  31. level, including 'final' parameters, that were introduced with 
  32. Hadoop 0.15.
  33. 2.4 Auto-cleanup of unused clusters:
  34. HOD has an automatic timeout so that users cannot misuse resources they 
  35. aren't using. The timeout applies only when there is no MapReduce job 
  36. running. 
  37. 2.5 Log services:
  38. HOD can be used to collect all MapReduce logs to a central location
  39. for archiving and inspection after the job is completed.
  40. 3. HOD Components
  41. =================
  42. This is a brief overview of the various components of HOD and how they
  43. interact to provision Hadoop.
  44. HOD Client: The HOD client is a Unix command that users use to allocate 
  45. Hadoop MapReduce clusters. The command provides other options to list 
  46. allocated clusters and deallocate them. The HOD client generates the 
  47. hadoop-site.xml in a user specified directory. The user can point to 
  48. this configuration file while running Map/Reduce jobs on the allocated 
  49. cluster.
  50. RingMaster: The RingMaster is a HOD process that is started on one node 
  51. per every allocated cluster. It is submitted as a 'job' to the resource 
  52. manager by the HOD client. It controls which Hadoop daemons start on 
  53. which nodes. It provides this information to other HOD processes, 
  54. such as the HOD client, so users can also determine this information. 
  55. The RingMaster is responsible for hosting and distributing the 
  56. Hadoop tarball to all nodes in the cluster. It also automatically 
  57. cleans up unused clusters.
  58. HodRing: The HodRing is a HOD process that runs on every allocated node
  59. in the cluster. These processes are run by the RingMaster through the 
  60. resource manager, using a facility of parallel execution. The HodRings
  61. are responsible for launching Hadoop commands on the nodes to bring up 
  62. the Hadoop daemons. They get the command to launch from the RingMaster.
  63. Hodrc / HOD configuration file: An INI style configuration file where
  64. the users configure various options for the HOD system, including
  65. install locations of different software, resource manager parameters,
  66. log and temp file directories, parameters for their MapReduce jobs,
  67. etc.
  68. Submit Nodes: Nodes where the HOD Client is run, from where jobs are
  69. submitted to the resource manager system for allocating and running 
  70. clusters.
  71. Compute Nodes: Nodes which get allocated by a resource manager, 
  72. and on which the Hadoop daemons are provisioned and started.
  73. 4. Next Steps:
  74. ==============
  75. - Read getting_started.txt to get an idea of how to get started with
  76. installing, configuring and running HOD.
  77. - Read config.txt to get more details on configuration options for HOD.