mapred linuxtaskcontroller目录权限问题探究

今天发现测试环境的kerberos hadoop的hive不能跑了，具体表现是select * limit这种不走mapred的job是ok的，走mapred的job就会报错，报的错比较奇怪（Unable to retrieve URL for Hadoop Task logs. Unable to find job tracker info port.）但是确认jobtracker是ok的，配置文件也是正常的，看来和jobtracker没有关系，进一步分析tasktracker的日志，发现如下错误。。

<code>2014-03-26 17:28:02,048 WARN org.apache.hadoop.mapred.TaskTracker: Exception </code><code>while</code> <code>localization java.io.IOException: Job initialization failed (24) with output: File </code><code>/home/test/platform</code> <code>must be owned by root, but is owned by 501</code>

<code> </code><code>at org.apache.hadoop.mapred.LinuxTaskController.initializeJob(LinuxTaskController.java:194)</code>

<code> </code><code>at org.apache.hadoop.mapred.TaskTracker$4.run(TaskTracker.java:1420)</code>

<code> </code><code>at java.security.AccessController.doPrivileged(Native Method)</code>

<code> </code><code>at javax.security.auth.Subject.doAs(Subject.java:396)</code>

<code> </code><code>at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1407)</code>

<code> </code><code>at org.apache.hadoop.mapred.TaskTracker.initializeJob(TaskTracker.java:1395)</code>

<code> </code><code>at org.apache.hadoop.mapred.TaskTracker.localizeJob(TaskTracker.java:1310)</code>

<code> </code><code>at org.apache.hadoop.mapred.TaskTracker.startNewTask(TaskTracker.java:2727)</code>

<code> </code><code>at org.apache.hadoop.mapred.TaskTracker$TaskLauncher.run(TaskTracker.java:2691)</code>

<code>Caused by: org.apache.hadoop.util.Shell$ExitCodeException:</code>

<code> </code><code>at org.apache.hadoop.util.Shell.runCommand(Shell.java:261)</code>

<code> </code><code>at org.apache.hadoop.util.Shell.run(Shell.java:188)</code>

<code> </code><code>at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:381)</code>

<code> </code><code>at org.apache.hadoop.mapred.LinuxTaskController.initializeJob(LinuxTaskController.java:187)</code>

其中/home/test/platform是mapred程序所在目录，通过更改/home/test/platform的属主为root解决，不过这个为什么需要是root用户呢

从调用栈信息看到，是在调用LinuxTaskController类（因为用到了kerberos，taskcontroller需要选择这个类）的initializeJob出错了。initializeJob方法是对job做初始操作，传入user,jobid,token,mapred的local dir等参数，生成一个数组，并调用ShellCommandExecutor的构造方法进行实例化，最终调用ShellCommandExecutor类的execute方法。

<code>public</code> <code>void</code> <code>initializeJob(String user, String jobid, Path credentials,</code>

<code> </code><code>Path jobConf, TaskUmbilicalProtocol taskTracker,</code>

<code> </code><code>InetSocketAddress ttAddr</code>

<code> </code><code>) </code><code>throws</code> <code>IOException {</code>

<code> </code><code>List<String> command = </code><code>new</code> <code>ArrayList<String>(</code>

<code> </code><code>Arrays.asList(taskControllerExe , </code><code>//task-controller</code>

<code> </code><code>localStorage.getDirsString(), </code><code>//mapred.local.dir </code>

<code> </code><code>Integer. toString(Commands.INITIALIZE_JOB.getValue()),</code>

<code> </code><code>jobid,</code>

<code> </code><code>credentials.toUri().getPath().toString(), </code><code>//jobToken</code>

<code> </code><code>jobConf.toUri().getPath().toString())); </code><code>//job.xml</code>

<code> </code><code>File jvm = </code><code>// use same jvm as parent</code>

<code> </code><code>new</code> <code>File( </code><code>new</code> <code>File(System.getProperty( </code><code>"java.home"</code><code>), </code><code>"bin"</code> <code>), </code><code>"java"</code> <code>);</code>

<code> </code><code>command.add(jvm.toString());</code>

<code> </code><code>command.add(</code><code>"-classpath"</code><code>);</code>

<code> </code><code>command.add(System.getProperty(</code><code>"java.class.path"</code> <code>));</code>

<code> </code><code>command.add(</code><code>"-Dhadoop.log.dir="</code> <code>+ TaskLog.getBaseLogDir());</code>

<code> </code><code>command.add(</code><code>"-Dhadoop.root.logger=INFO,console"</code><code>);</code>

<code> </code><code>command.add(JobLocalizer.</code><code>class</code><code>.getName()); </code><code>// main of JobLocalizer</code>

<code> </code><code>command.add(user);</code>

<code> </code><code>command.add(jobid);</code>

<code> </code><code>// add the task tracker's reporting address</code>

<code> </code><code>command.add(ttAddr.getHostName());</code>

<code> </code><code>command.add(Integer.toString(ttAddr.getPort()));</code>

<code> </code><code>String[] commandArray = command.toArray( </code><code>new</code> <code>String[</code><code>0</code><code>]);</code>

<code> </code><code>ShellCommandExecutor shExec = </code><code>new</code> <code>ShellCommandExecutor(commandArray);</code>

<code> </code><code>if</code> <code>(LOG.isDebugEnabled()) {</code>

<code> </code><code>LOG.debug( </code><code>"initializeJob: "</code> <code>+ Arrays.toString(commandArray)); </code><code>//commandArray</code>

<code> </code><code>shExec.execute();</code>

<code> </code><code>if</code> <code>(LOG.isDebugEnabled()) {</code>

<code> </code><code>logOutput(shExec.getOutput());</code>

<code> </code><code>} </code><code>catch</code> <code>(ExitCodeException e) {</code>

<code> </code><code>int</code> <code>exitCode = shExec.getExitCode();</code>

<code> </code><code>logOutput(shExec.getOutput());</code>

<code> </code><code>throw</code> <code>new</code> <code>IOException(</code><code>"Job initialization failed ("</code> <code>+ exitCode +</code>

<code> </code><code>") with output: "</code> <code>+ shExec.getOutput(), e);</code>

通过打开tasktracker的debug日志，可以获取commandArray的具体信息：

<code>2014</code><code>-</code><code>03</code><code>-</code><code>26</code> <code>19</code><code>:</code><code>49</code><code>:</code><code>02</code><code>,</code><code>489</code> <code>DEBUG org.apache.hadoop.mapred.LinuxTaskController: initializeJob:</code>

<code>[/home/test/platform/hadoop-</code><code>2.0</code><code>.</code><code>0</code><code>-mr1-cdh4.</code><code>2.0</code><code>/bin/../sbin/Linux-amd64-</code><code>64</code><code>/task-controller,</code>

<code> </code><code>hdfs, xxxxxxx, </code><code>0</code><code>, job_201403261945_0002, xxxxx/jobToken, xxxx/job.xml, /usr/local/jdk1.</code><code>6</code><code>.0_37/jre/bin/java,</code>

<code> </code><code>-classpath,xxxxxx.jar, -Dhadoop.log.dir=/home/test/logs/hadoop/mapred, -Dhadoop.root.logger=INFO,console,</code>

<code> </code><code>org.apache.hadoop.mapred.JobLocalizer, hdfs, job_201403261945_0002, localhost.localdomain, </code><code>57536</code><code>]</code>

其中比较重要的是taskControllerExe 这个参数，它代表了taskcontroller的可执行文件(本例中是/home/test/platform/hadoop-2.0.0-mr1-cdh4.2.0/bin/../sbin/Linux-amd64-64/task-controller)

而execute方法其实最终调用了task-controller.

task-controller的源码在 src/c++/task-controller目录下。

在configuration.c中定义了对目录属主进行检查：

<code>static</code> <code>int</code> <code>is_only_root_writable(</code><code>const</code> <code>char</code> <code>*file) {</code>

<code> </code><code>fprintf</code><code>(LOGFILE, </code><code>"File %s must be owned by root, but is owned by %d\n"</code><code>,</code>

<code> </code><code>return</code> <code>0;</code>

如果检查的文件属主不是root，则报错。

调用这个方法的代码：

<code>int</code> <code>check_configuration_permissions(</code><code>const</code> <code>char</code><code>* file_name) {</code>

<code> </code><code>// copy the input so that we can modify it with dirname</code>

<code> </code><code>char</code><code>* dir = strdup(file_name);</code>

<code> </code><code>char</code><code>* buffer = dir;</code>

<code> </code><code>if</code> <code>(!is_only_root_writable(dir)) {</code>

<code> </code><code>free</code><code>(buffer);</code>

<code> </code><code>return</code> <code>-1;</code>

<code> </code><code>dir = dirname(dir);</code>

<code> </code><code>} </code><code>while</code> <code>(</code><code>strcmp</code><code>(dir, </code><code>"/"</code><code>) != 0);</code>

<code> </code><code>free</code><code>(buffer);</code>

<code> </code><code>return</code> <code>0;</code>

即check_configuration_permissions会调用is_only_root_writable方法对二进制文件所在目录向上递归做父目录属主的检查，如果有一个目录属主不为root，就会出错。这就要求整个chain上的目录属主都需要是root.

这其实是出于taskcontroller的安全考虑，在代码中定义了不少关于这个可执行文件的权限的验证，只要有一个地方设置不正确，tasktracker都不会正常运行。

cloudra官方文档对这个文件的权限描述如下：

<code>The Task-controller program is used to allow the TaskTracker to run tasks under the Unix account of the user </code><code>who</code> <code>submitted the job </code><code>in</code> <code>the first place.</code>

<code>It is a setuid binary that must have a very specific </code><code>set</code> <code>of permissions and ownership </code><code>in</code> <code>order to </code><code>function</code> <code>correctly. In particular, it must:</code>

<code> </code><code>1)Be owned by root</code>

<code> </code><code>2)Be owned by a group that contains only the user running the MapReduce daemons</code>

<code> </code><code>3)Be setuid</code>

<code> </code><code>4)Be group readable and executable</code>

问题还没有结束，taskcontroller有一个配置文件为taskcontroller.cfg.关于这个配置文件位置的获取比较让人纠结。

搜到有些文档说是通过设置HADOOP_SECURITY_CONF_DIR即可，但是在cdh4.2.0中，这个环境变量并不会生效，可以通过打patch来解决:

<a href="https://issues.apache.org/jira/browse/MAPREDUCE-4397" target="_blank">https://issues.apache.org/jira/browse/MAPREDUCE-4397</a>

默认情况下，目录取值的方法如下：

<code>#ifndef HADOOP_CONF_DIR //如果编译时不指定HADOOP_CONF_DIR的值，没调用infer_conf_dir方法。</code>

<code> </code><code>conf_dir = infer_conf_dir(argv[0]);</code>

<code> </code><code>fprintf</code><code>(LOGFILE, </code><code>"Couldn't infer HADOOP_CONF_DIR. Please set in environment\n"</code><code>);</code>

<code> </code><code>return</code> <code>INVALID_CONFIG_FILE;</code>

<code> </code><code>conf_dir = strdup(STRINGIFY(HADOOP_CONF_DIR));</code>

<code>#endif</code>

其中infer_conf_dir方法如下，即通过获取二进制文件的相对路径来得到配置文件的存放目录，比如我们线上执行文件的位置为/home/test/platform/hadoop-2.0.0-mr1-cdh4.2.0/bin/../sbin/Linux-amd64-64/task-controller，配置文件的位置为

/home/test/platform/hadoop-2.0.0-mr1-cdh4.2.0/conf/taskcontroller.cfg：

<code>char</code> <code>*infer_conf_dir(</code><code>char</code> <code>*executable_file) {</code>

<code> </code><code>char</code> <code>*result;</code>

<code> </code><code>char</code> <code>*exec_dup = strdup(executable_file);</code>

<code> </code><code>char</code> <code>*dir = dirname(exec_dup);</code>

<code> </code><code>int</code> <code>relative_len = </code><code>strlen</code><code>(dir) + 1 + </code><code>strlen</code><code>(CONF_DIR_RELATIVE_TO_EXEC) + 1;</code>

<code> </code><code>char</code> <code>*relative_unresolved = </code><code>malloc</code><code>(relative_len);</code>

<code> </code><code>snprintf(relative_unresolved, relative_len, </code><code>"%s/%s"</code><code>,</code>

<code> </code><code>dir, CONF_DIR_RELATIVE_TO_EXEC);</code>

<code> </code><code>result = realpath(relative_unresolved, NULL);</code>

<code> </code><code>// realpath will return NULL if the directory doesn't exist</code>

关于taskcontrol相关类的实现放在后面的文件讲解。

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1385587，如需转载请自行联系原作者

mapred linuxtaskcontroller目录权限问题探究

继续阅读

配置apache支持PHP（win7）

ACS基本配置-权限等级管理

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method