学习笔记TF062:TensorFlow线性代数编译框架XLA

2017-11-10 23:50:00

XLA优势。线性代数领域专用编译器，优化TensorFlow计算的执行速度(编译子图减少生命周期较短操作执行时间，融合管道化操作减少内存占用)、内存使用(分析、规划内存使用需求，消除许多中间结果缓存)、自定义操作依赖(提高自动化融合底层操作low-level op性能，达到手动融合自定义操作custom op效果)、移动端内存占用(提前AOT编译子图减少TensorFlow执行时间，共享头文件对被其他程序直接链接)、可移植性方面(为新硬件开发新后端，TensorFlow不需要更改很多代码用在新硬件设备上)。

XLA输入语言HLO IR，XLA HLO定义图形，编译成各种体系结构机器指令。编译过程。XLA HLO->目标无关优化分析->XLA HLO->XLA后端->目标相关优化分析->目标特定代码生成。XLA首先进行目标无关优化分析(公共子表达式消除common subexpression elimination CSE，目标无关操作融合，运行时内存缓冲区分析)。XLA将HLO计算发送到后端。后端执行进一步HLO级目标不相关优化分析。XLA GPU后端执行对GPU编程模型有益操作融合，确定计算划分成流。生成目标特定代码。XLA CPU、GPU后端用LLVM中间表示、优化、代码生成。后端用LLVM IR表示XLA HLO计算。XLA 支持x86-64､NVIDIA GPU JIT编译，x86-64､ARM AOT编译。AOT更适合移动、嵌入式深度学习应用。

JIT编译方式。XLA编译、运行TensorFlow计算图一部分。XLA 将多个操作(内核)融合到少量编译内核，融合操作符减少存储器带宽提高性能。XLA 运行TensorFlow计算方法。一，打开CPU、GPU设备JIT编译。二，操作符放在XLA_CPU、XLA_GPU设备。

打开JIT编译。在会话打开。把所有可能操作符编程成XLA计算。

为一个或多个操作符手动打开JIT编译。属性_XlaCompile = true标记编译操作符。

操作符放在XLA设备。有效设备XLA_CPU、XLA_GPU：

不使用XLA运行。

运行完成生成时间线文件timeline.ctf.json，用Chrome跟踪事件分析器 chrome://tracing，打开时间线文件，呈现时间线。左侧列出GPU，可以看操作符时间消耗情况。

用XLA训练模型。

XLA框架处于试验阶段，AOT主要应用场景内存较小嵌入式设备、手机、树莓派。

参考资料：

《TensorFlow技术解析与实战》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

学习笔记TF062:TensorFlow线性代数编译框架XLA

继续阅读

anaconda中科大镜像

安装tensorflow1.12出现illegal hardware instruction python错误1、问题2、定位问题3、问题解决4、验证

Linux下Anaconda安装tensorflow-gpu

tensorflow笔记实践：正则化优化过拟合

TensorFlow运行模型——会话

【Ubuntu-Tensorflow】TF1.0到TF1.2出现“Key LSTM/basic_lstm_cell/bias not found in checkpoin”问题

linux下的conda安装tensorflow

Linux环境下 TensorFlow的安装和使用基于Anaconda的tensorflow安装

MindSpore保存模型的格式疑惑

【Tensorflow】Tensorflow介绍

鸢尾花分类

利用tensorflow构建AlexNet模型，实现小数量级的猫狗分类（只有train）

ImportError: libcublas.so.10.0: cannot open shared object file: No such file解决方法

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory（完美解决）

一种解决思路： ImportError: libcublas.so.10.0: cannot open shared object file: No such file

K-近邻算法以及图像分类应用