2.理解张量

1. 张量（Tensors）介绍

张量是物理和工程领域的基础数学结构。但是过去张量很少在计算机科学里使用。它与离散数学和逻辑学有更多的联系。随着机器学习的出现，这种状态开始显著的改变，成为连续向量的计算基础。现代机器学习以张量的操作和微积分为基础。

张量是TensorFlow工作的基本计算单元。假如你用语句 import tensorflow as tf导入tensorflow,它的基本的对象是张量 tensor,是类tf.tensor。 tf.tensor有两个特性:

数据类型 (例如, float32)
形状 (例如, [2,3],意味着张量有2行和3列)

张量有静态的数据类型和动态的维。在评估的时候你不能改变它的数据类型但是在评估前可以动态的改变它的维 (基本上，你声明张量时可以不用指明维，TensorFlow会从输入值推断维)。

简单的来说张量只不过是原始数据类型的集合 (例如，浮点数)是形状为 n-维的数组。这里是一些张量的例子 (以及相关的 Python定义) :

•1 → 一个标量

•[1,2,3] → 一个向量

•[[1,2,3], [4,5,6]] → 一个矩阵或两维数组

一个重要的方面是张量的每一个元素总是有相同的类据类型，而形状不一定要在声明时定义。 (后面的实例会更清楚些。)。

通常人们讨论张量的 rank，shape数组的长度称为tensor的rank。简单的来说它就是张量维的数目(而标量的 rank为 0)。Ranking tensors的意思是包含于张量本身的数组的维。张量的形状表示每一个维的数值。如

Scalar—32:rank 0张量的形状（shape）为 [ ].

Vector—[3, 4, 5]: rank 1张量的形状（shape）为[3].

Matrix =1 2 3

4 5 6

7 8 9 : rank 2 张量的形状（shape）[3, 3]。

表2-1有助于理解张量的不同 ranks是什么。

表 2-1. Ranks为 0, 1, 2,和 3的 Tensors的例子

Rank 数学实体 Python示例

0 标量 (例如,长度或重量) l=30

1 向量 (例如,物体在二维平面上的速度) s=[10.2,12.6]

2 矩阵 m=[[23.2, 44.2], [12.2, 55.6]]

3 3d矩阵 (有三个维) C = [[[1],[2]],[[3],[4]], [[5], [6]]]

可以用a.get_shape()来得到张量a的shape。a.reshape()可以改变张量a的shape。

记住张量（tensor）只是数据的容器。它有两个基本的特征：数据类型（dtype）和型状（shape）。dtype用来控制数据的类型，一个给定的tensor只能存贮一种类型的数据。Shape是整数数组，用来指示tensor里有多少个元素以及元素是如何组织的。可以把它当作容器的“形状和大小”(见图2-5）。

图2-5 rank 为0，1，2，3，4的tensor

例如，一个1D tensor，也称为向量（vector），它的rank为1。1D tensor的shape是一个只含有一个数字的数组，这个数字告诉我们1D tensor的长度是多少。将rank增加1，我们得到2D tensor，可以把它看作2D平面上的数字的网格（像灰度图像）。2D tensor的shape有两个数字，它告诉我们网格的高度和宽度。习惯上，rank-2 tensor被称为矩阵，它由行和列组成。再将rank增加1，我们得到3D tensor。如上图，你可以把3D tensor看作数字的3D网格。3D tensor的shape有三个整数;它们分别告诉我们3D网格沿三个维度的大小。通常彩色图像可以用3D tensor编码。Rank为4的tensor（4D tensor)难于直接可视化，因为我们生活在三维空间里。4D tensors经常用在许多模型里，例如，深层卷积（deep convnets）。一个时长为10分钟的video可以认为是一个4D tensors。TensorFlow里支持的tensors可以多达rank 6。实践中, rank-5 tensors只用于一些合适的场合(例如，包含多个video的数据), 而rank-6 tensors更为少用。

张量的主要类型有

tf.Variable
tf.constant
tf.placeholder（虽然TensorFlow v2不再使用）

tf.constant和tf.placeholder的值是在一个session运行过程中不可以改变的。一旦它们有了值，它们就不能改变。例如，tf.placeholder可能包含你想在训练神经网络时使用的数据集。一旦赋值，它不会在评估阶段改变。tf.Variable可能包含你的神经网络的权重，它们会在训练过程中改变，从而找到针对你的问题的最佳值。最后 tf.constant永远不会改变。下一节告诉你如何使用这三种类型的张量，并在开发模型要注意什么。

2.1.1标量（Scalars）,向量 Vectors, 和矩阵（Matrices）

我们以你可能已经熟悉的张量的例子开始，最简单的张量是标量，它是来自实数域的一个常数（记住实数是任意精度的小数，正数和负数都可以）。数学上，我们记实数为R。更正式地，我们称scalar为rank-0 张量。

精通数学的读者可能会抗议，基于复数或二进制数定义张量完全有意义。一般地，只要0，1，加、减、乘、除有定义的数都可以构成张量，包括实数R,有理数Q,复数C, 和有限域例如Z2。

为了简单起见，我们只假定实数张量，但是用其它域的数代替也是合理的。

如果标量是rank-0 张量，那rank-1张量是什么呢?正规的说，rank-1张量是向量，是实数的列表。习惯地，向量写作列向量

或行向量

标记上，所有的长度为2的列向量记为R2 × 1而长度为2的行向量记为R1 × 2。计算上，我们说列向量的形状为 (2, 1), 而行向量的形状为 (1, 2)。如果我们不想指明向量是行向量还是列向量，我们可以说它来自 R2集合且形状为 (2)。张量的形状对于理解TensorFlow的计算很重要，后面我们还会返回它。向量的最简单的用途是作为现实世界的坐标。

假如我们确定原点（你当前的地点），则世界上任意一点可以用相对于你当前地点的三个位移值来呈现（左右，前后，上下位移）。因此向量集R3可以呈现世界上的任意一点。

举不同的例子，我们假定用高，宽，和颜色来描述猫。则视频游戏猫可以用R3向量来表示。

这种表示通常称为特征化(featurization)。即特征化是用向量表示真实世界中的一个实体。几乎所有的机器学习算法都操作向量或张量。因此，特征化的过程是机器学习管线的重要部分。通常，特征化系统是机器学习系统中最为复杂的部分。假如我们有图2-5所示的苯酚分子。

图2-5. 苯酚分子的表示.

我们要如何将这个分子式转换为适合机器学习系统查询的向量呢？有多种可能的方案，大部分方案使用分子片断。用 1/0二值向量 ( 0, 1n)标记特定的片断的存在与否。这个过程用图Figure 2-2表示。

图 2-2. 用于特征化的片断的选择(那些包含OH)。这些片断被哈希到固定长度的向量的索此中。这些位置被设置为1而其它位置设置为零。注意，这个过程听起来很复杂。实际上构建机器学习系统最为困难的是确定如何将数据转换为张量形式。对于某些数据，这种转换是很显然的。而对于别的数据（如分子式），转换很复杂。对于机器学习的实践者，没有必要发明新的特征化方法因为学术文献里有现存的，但是有必要读研究论文来理解转换数据流的最佳实践。

现在我们已经确定rank-0张量为标量 (R)以及rank-1张量为向量 (Rn)，那 rank-2张量是什么呢? 习惯上,rank-2张量是matrix:

这个矩阵有2行和2列。这种矩阵的集合称为R2 × 2。返回到前面张量形状的标记，这种矩阵的形状为(2, 2)。习惯上，矩阵用来表示向量的变换。例如，在一个平面上旋转一个向量一个角度 α可以用矩阵来进行

为了理解这一点，我们记x单位向量 (1, 0)被矩阵乘转换为向量(cos (α), sin (α))。 (我们后面讲矩阵乘的定义，现在只简单的讲结果)。

这种变换可以用图形展示。图2-3展示原始的单位向量旋转后的最终向量。

图2-3. 单位元的位置用cosine和sine参数化。

前面我们介绍了标量为rank-0 张量，向量为rank-1张量,矩阵为rank-2 张量。那么rank-3 张量是什么?在给出定义之前，想一下标量，向量，矩阵的共性是有帮助的。标量是一个数，向是多个数的列素。要找到向量里的某个数，需要知道它的索引。因此需要给向量一个索引元素（也是rank-1张量）。矩阵是多个数组成的表。要找到矩阵中的元素需要知道它所在的行和列。回此需要二个索引元素（也是 rank-2 张量）。很自然， rank-3张量是有三个索引元素的多个数的集合。把rank-3张量想像为长方体是很有帮助的，如图2-4所示。

图 2-4.一个rank-3张量可以看作多个数组成的长方体.

图中rank-3张量 T的形状为 (N, N, N)。可以通过指明 (i, j, k)作为索引得到任意元素。

张量与形状之间存在一定的联系。一个rank-1张量有一个维素数为1的形状，一个rank-2 张量有一个维数为2的形状，一个rank-3张量有一个维数为3的形状。你会抗议，这与我们前面讨论的行向量和列向量相反。通过我们的定义，列向量的形状为(n, 1)。这不是让列向量成为rank-2张量 (或矩阵吗)? 正是这样。记住不指明行向量或列向量的向量的形状为 (n)。当我们指明一个向量是行向量或列向量时，我们实际上指明了将向量转为矩阵的方法。

这种类型的维扩展是张量操作的一个常见技巧。注意，另一种想像rank-3 张量的方法是把它当作相同形状的矩阵的列表。假如W是形状为(n, n)的矩阵，则张量Tijk = W1, ⋯,Wn 包含n个矩阵W。注意黑白图像可以表示为rank-2张量。假如我们有224 × 224-像素的黑白图像。则pixel (i, j)为1/0 以编码黑/白像素。黑白图像可以用形状为 (224, 224)的矩阵表示。现在考虑一个224 × 224 的彩色图像，指定像素的色彩用三个独立的RGB通道表示，即pixel (i, j)表示为元组 (r, g, b)来编码这像素的红、绿、蓝的多少。 r, g, b是从0 到255的整数。现在彩色图像可以用形状为 (224, 224, 3)的rank-3张量表示。继续分析，考虑彩色视频。假如视频的每一帧是224 × 224的彩色图像，则一分钟视频 ( 60 fps)是形状为 (224, 224, 3, 3600)的rank-4张量。进一步，10个这样的视频形成形状为 (10, 224, 224, 3,3600)的 rank-5张量。通常，张量可以方便的表示数值数据。实践中，大于rank-5 的张量很少见，但是设计允许任意张量的张量系统是明智的，因为聪明的用户总会遇到设计者不会考虑到的情况。