Node.js 子进程：你应该知道的一切

本文讲的是Node.js 子进程：你应该知道的一切，

截图来自我的视频教学课程 - Node.js 进阶

Node.js 的单线程、非阻塞执行特性在单进程下工作的很好。但是，单 CPU 中的单进程最终不足以处理应用中增长的工作负荷。

不管你的服务器性能多么强劲，单个线程只能支持有限的负荷。

Node.js 运行于单线程之上并不意味着我们不能利用多进程，当然，也能运行在多台机器上。

使用多进程是扩展 Node 应用的最佳之道。Node.js 天生适合在多节点上构建分布式应用。这是它被命名为 “Node” 的原因。可扩展性被深深烙印进平台，自应用诞生之初就已经存在。

请注意，在阅读这篇文章之前，你需要对 Node.js 的事件和流有足够的理解。如果还没有，我推荐你先去读下面两篇文章：

我们可以使用 Node 的 <code>child_process</code> 模块来简单地创造子进程，子进程之间可以通过消息系统简单的通信。

<code>child_process</code> 模块通过在一个子进程中执行系统命令，赋予我们使用操作系统功能的能力。

注意：这篇文章举的所有例子都基于 Linux。如果在 Windows 上，你要切换为它们对应的 Window 命令。

Node.js 里创建子进程有四种不同的方式：<code>spawn()</code>, <code>fork()</code>, <code>exec()</code> 和 <code>execFile()</code>。

我们将学习这四个函数之间的区别及其使用场景。

<code>spawn</code> 函数会在一个新的进程中启动一条命令，我们可以使用它来给这条命令传递任意参数。比如，下面的代码会衍生一个执行 <code>pwd</code> 命令的新进程。

我们简单地从 <code>child_process</code> 模块中解构 <code>spawn</code> 函数，然后将系统命令作为第一个参数来执行该函数。

上面的处理器给出了子进程的退出 <code>code</code> 和 <code>signal</code>，这两个变量可以用来终止子进程。子进程正常退出时 <code>signal</code> 变量为 null。

<code>ChildProcess</code> 实例上还可以注册 <code>disconnect</code>、<code>error</code>、<code>close</code> 和 <code>message</code> 事件。

<code>disconnect</code> 事件在父进程手动调用 <code>child.disconnect</code> 函数时触发。

如果进程不能被衍生或者杀死，会触发 <code>error</code> 事件。

<code>close</code> 事件在子进程的 <code>stdio</code> 流关闭时触发。

<code>message</code> 事件最为重要。它在子进程使用 <code>process.send()</code> 函数来传递消息时触发。这就是父/子进程间通信的原理。下面将给出一个例子。

每一个子进程还有三个标准 <code>stdio</code> 流，我们可以分别使用 <code>child.stdin</code>、<code>child.stdout</code> 和 <code>child.stderr</code> 来使用这三个流。

当这几个流被关闭后，使用了它们的子进程会触发 <code>close</code> 事件。这里的 <code>close</code> 事件不同于 <code>exit</code> 事件，因为多个子进程可能共享相同的 <code>stdio</code> 流，因此一个子进程退出并不意味着流已经被关闭了。

既然所有的流都是事件触发器，我们可以在归属于每个子进程的 <code>stdio</code> 流上监听不同的事件。不像普通的进程，在子进程中，<code>stdout</code>/<code>stderr</code> 流是可读流，而 <code>stdin</code> 流是可写的。这基本上和主进程相反。这些流支持的事件都是标准的。最重要的是，在可读流上我们可以监听 <code>data</code> 事件，通过 <code>data</code> 事件可以得到任一命令的输出或者执行命令过程中发生的错误：

上述两个处理器会输出两者的日志到主进程的 <code>stdout</code> 和 <code>stderr</code> 事件上。当我们执行前面的 <code>spawn</code> 函数时，<code>pwd</code> 命令的输出会被打印出来，并且子进程带着代码 <code>0</code> 退出，这表示没有错误发生。

我们可以给命令传递参数，命令由 <code>spawn</code> 函数执行，<code>spawn</code> 函数用上了第二个参数，这是一个传递给该命令的所有参数组成的数组。比如说，为了在当前目录执行 <code>find</code> 命令，并带上一个 <code>-type f</code> 参数（用于列出所有文件），我们可以这样做：

如果这条命令的执行过程中出现错误，举个例子，如果我们在 find 一个非法的目标文件，<code>child.stderr</code> <code>data</code> 事件处理器将会被触发，<code>exit</code> 事件处理器会报出一个退出代码 <code>1</code>，这标志着出现了错误。错误的值最终取决于宿主操作系统和错误类型。

子进程中的 <code>stdin</code> 是一个可写流。我们可以用它给命令发送一些输入。就跟所有的可写流一样，消费输入最简单的方式是使用 <code>pipe</code> 函数。我们可以简单地将可读流管道化到可写流。既然主线程的 <code>stdin</code> 是一个可读流，我们可以将其管道化到子进程的 <code>stdin</code> 流。举个例子：

在这个例子中，子进程调用 <code>wc</code> 命令，该命令可以统计 Linux 中的行数、单词数和字符数。我们然后将主进程的 <code>stdin</code> 管道化到子进程的 <code>stdin</code>（一个可写流）。这个组合的结果是，我们得到了一个标准输入模式，在这个模式下，我们可以输入一些字符。当敲下 <code>Ctrl+D</code> 时，输入的内容将会作为 <code>wc</code> 命令的输入。

Gif 截图来自我的视频教学课程 - Node.js 进阶

我们也可以将多个进程的标准输入/输出相互用管道连接，就像 Linux 命令那样。比如说，我们可以管道化 <code>find</code> 命令的<code>stdout</code> 到 <code>wc</code> 命令的 <code>stdin</code>，这样可以统计当前目录的所有文件。

我给 <code>wc</code> 命令添加了 <code>-l</code> 参数，使它只统计行数。当执行完毕，上述代码会输出当前目录下所有子目录文件的行数。

默认情况下，<code>spawn</code> 函数并不为我们传进的命令而创建一个 <code>shell</code> 来执行，这使得它相比创建 shell 的 <code>exec</code> 函数，效率略微更高。<code>exec</code> 函数还有另一个主要的区别，它缓冲了命令生成的输出，并传递整个输出值给一个回调函数（而不是使用流，那是 <code>spawn</code> 的做法）。

这里给出了之前 <code>find | wc</code> 例子的 <code>exec</code> 函数实现。

既然 <code>exec</code> 函数使用 shell 执行命令，我们可以使用 shell 语法来直接利用 shell 管道特性。

当 <code>stdout</code> 参数存在，<code>exec</code> 函数缓冲输出并传递它给回调函数（<code>exec</code> 的第二个参数）。这里的 <code>stdout</code> 参数是命令的输出，我们要将其打印出来。

如果你需要使用 shell 语法，并且来自命令的数据规模较小，<code>exec</code> 函数是个不错的选择。（记住，<code>exec</code> 会在返回之前，缓冲所有数据进内存。）

当命令预期的数据规模比较大时，选择 <code>spawn</code> 函数会好得多，因为数据将会和标准 IO 对象被流式处理。

我们可以令衍生的子进程继承其父进程的标准 IO 对象，但更重要的是，我们同样可以令 <code>spawn</code> 函数使用 shell 语法。下面同样是 <code>find | wc</code> 命令，由 <code>spawn</code> 函数实现：

因为有上面的 <code>stdio: 'inherit'</code> 选项，当代码执行时，子进程继承主进程的 <code>stdin</code>、<code>stdout</code> 和 <code>stderr</code>。这造成子进程的数据事件处理器在主进程的 <code>process.stdout</code> 流上被触发，使得脚本立即输出结果。

<code>shell: true</code> 选项使我们可以在传递的命令中使用 shell 语法，就像之前的 <code>exec</code> 例子中那样。但这段代码还可以利用 <code>spawn</code>函数带来的数据的流式。真正实现了共赢。

除了 <code>shell</code> 和 <code>stdio</code>，<code>child_process</code> 函数的最后一个参数还有其他可以的选项。比如，使用 <code>cwd</code> 选项改变脚本的工作目录。举个例子，这里有个和前述相同的统计所有文件数量的例子，它利用 <code>spawn</code> 函数实现，使用了一个 shell 命令，并把工作目录设置为我的 Downloads 文件夹。这里的 <code>cwd</code> 选项会让脚本统计 <code>~/Downloads</code> 里的所有文件数量。

另一个可以使用的选项是 <code>env</code>，它可以指定哪些环境变量对于子进程是可见的。此选项的默认值是 <code>process.env</code>，这会赋予所有命令访问当前进程上下文环境的权限。如果想覆盖默认行为，我们可以简单地传递一个空对象，或者是作为唯一的环境变量的新值给 <code>env</code> 选项：

上面的 echo 命令没有访问父进程环境变量的权限。比如，它不能访问 <code>$HOME</code> 目录，但它可以访问 <code>$ANSWER</code> 目录，因为通过<code>env</code> 选项，它被传递了一个指定的环境变量。

这里要解释的最后一个重要的子进程选项，<code>detached</code> 选项，使子进程独立于父进程运行。

假设有个文件 <code>timer.js</code>，使事件循环一直忙碌运行：

我们可以使用 <code>detached</code> 选项，在后台执行这段代码：

分离的子进程的具体行为取决于操作系统。Windows 上，分离的子进程有自己的控制台窗口，然而在 Linux 上，分离的子进程会成为新的进程组和会话的领导进程。

如果 <code>unref</code> 函数在分离的子进程中被调用，父进程可以独立于子进程退出。如果子进程是一个长期运行的进程，这个函数会很有用。但为了保持子进程在后台运行，子进程的 <code>stdio</code> 配置也必须独立于父进程。

上述例子会在后台运行一个 node 脚本（<code>timer.js</code>），通过分离和忽略其父进程的 <code>stdio</code> 文件描述符来实现。因此当子进程在后台运行时，父进程可以随时终止。

Gif 来自我的视频教学课程 - Node.js 进阶

如果你不想用 shell 执行一个文件，那么 execFile 函数正是你想要的。它的行为跟 <code>exec</code> 函数一模一样，但没有使用 shell，这会让它更有效率。Windows 上，一些文件不能在它们自己之上执行，比如 <code>.bat</code> 或者 <code>.cmd</code> 文件。这些文件不能使用<code>execFile</code> 执行，并且执行它们时，需要将 shell 设置为 true，且只能使用 <code>exec</code>、<code>spawn</code> 两者之一。

所有 <code>child_process</code> 模块都有同步阻塞版本，它们会一直等待直到子进程退出。

这些同步版本在简化脚本任务或一些启动进程任务上，一定程度上有所帮助。但除此之外，我们应该避免使用它们。

<code>fork</code> 函数是 <code>spawn</code> 函数针对衍生 node 进程的一个变种。<code>spawn</code> 和 <code>fork</code> 最大的区别在于，使用 <code>fork</code> 时，通信频道建立于子进程，因此我们可以在 fork 出来的进程上使用 <code>send</code> 函数，这些进程上有个全局 <code>process</code> 对象，可以用于父进程和 fork 进程之间传递消息。这个函数通过 <code>EventEmitter</code> 模块接口实现。这里有个例子：

父文件，<code>parent.js</code>:

子文件，<code>child.js</code>:

上面的父文件中，我们 fork <code>child.js</code>（将会通过 <code>node</code> 命令执行文件），并监听 <code>message</code> 事件。一旦子进程使用<code>process.send</code>，事实上我们每秒都在执行它，<code>message</code> 事件就会被触发，

为了实现父进程向下给子进程传递消息，我们可以在 fork 的对象本身上执行 <code>send</code> 函数，然后在子文件中，在全局 <code>process</code>对象上监听 <code>message</code> 事件。

执行上面的 <code>parent.js</code> 文件时，它将首先向下发送 <code>{ hello: 'world' }</code> 对象，该对象会被 fork 的子进程打印出来。然后 fork 的子进程每秒会发送一个自增的计数值，该值会被父进程打印出来。

我们来用 <code>fork</code> 函数实现一个更实用的例子。

这里有个 HTTP 服务器处理两个端点。一个端点（下面的 <code>/compute</code>）计算密集，会花好几秒种完成。我们可以用一个长循环来模拟：

这段程序有个比较大的问题：当 <code>/compute</code> 端点被请求，服务器不能处理其他请求，因为长循环导致事件循环处于繁忙状态。

这个问题有一些解决之道，这取决于耗时长运算的性质。但针对所有运算都适用的解决方法是，用 <code>fork</code> 将计算过程移动到另一个进程。

我们首先移动整个 <code>longComputation</code> 函数到它自己的文件，并在主进程通过消息发出通知时，在文件中调用这个函数：

一个新的 <code>compute.js</code> 文件中：

现在，我们可以 <code>fork</code> <code>compute.js</code> 文件，并用消息接口实现服务器和复刻进程的消息通信，而不是在主进程事件循环中执行耗时操作。

上面的代码中，当 <code>/compute</code> 来了一个请求，我们可以简单地发送一条消息给复刻进程，来启动执行耗时运算。主进程的事件循环并不会阻塞。

一旦复刻进程执行完耗时操作，它可以用 <code>process.send</code> 将结果发回给父进程。

在父进程中，我们在 fork 的子进程本身上监听 <code>message</code> 事件。当该事件触发，我们会得到一个准备好的 <code>sum</code> 值，并通过 HTTP 发送给请求。

上面的代码，当然，我们可以 fork 的进程数是有限的。但执行这段代码时，HTTP 请求耗时运算的端点，主服务器根本不会阻塞，并且还可以接受更多的请求。

我的下篇文章的主题，<code>cluster</code> 模块，正是基于子进程 fork 和负载均衡请求的思想，这些子进程来自大量的 fork，我们可以在任何系统中创建它们。

以上就是我针对这个话题要讲的全部。感谢阅读！下次再见！

原文发布时间为：2017年7月7日

本文来自云栖社区合作伙伴掘金，了解相关信息可以关注掘金网站。

Node.js 子进程：你应该知道的一切

继续阅读

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

禁止ubuntu系统弹出报错界面

Mac｜Windows系统本地照片自动上传到服务器

Ubuntu Linux下Apache的配置文件

tab鼠标经过菜单切换

ACS基本配置-权限等级管理

vue （vue2.0）使用总结(从大体结构总结)

vue搭建过程及出现问题

/\B(?=(?:\d{3})+$)/g 一条令人费解的正则表达式

适用于JavaScript的ECMAScript 2020规范向前发展

JS生成uuid的四种方法

samba服务器的功能

【Linux】UDP广播报文接收速率问题

layui多任务上传添加进度条

Linux设备模型（中）之上层容器

PowerPC平台 Linux移植三