张量网络机器学习

一、机器学习基本思想
二、希尔伯特空间、特征映射与量子概率
三、等概率先验假设与量子懒惰学习

我是一只正在不断学习、希望早日成为小白的小小白，有什么错误欢迎大家批评指正，喜欢的请点个赞哦！

一、机器学习基本思想

机器学习模型可以看作是一个黑盒子，接受输入信息之后，信息接受一系列的操作输出目标信息。从数学的角度来讲，机器学习可以看作是数学映射 f f f，映射的变量就是输入信息 x x x，且包含变分参数 w w w，输出信息 y y y为目标信息，形式上可写成 y = f ( x ; w ) y=f(x;w) y=f(x;w)

举几个生活中常见的例子：在自动驾驶中，输入驾驶环境信息及交通规则等，输出驾驶操作动作；在图形识别中，输入图片信息，输出图像分类；在棋类游戏中，输入棋盘信息及游戏规则，输出如何进行下一步棋……

机器学习中最著名的模型为神经网络，以2层全连接层构成的前馈神经网络为例，其函数可以写成

f = σ 2 ( W ^ σ 1 ( W ^ x + b 1 ) + b 2 ) f={{\sigma }_{2}}(\hat{W}{{\sigma }_{1}}(\hat{W}x+{{b}_{1}})+{{b}_{2}}) f=σ2(W^σ1(W^x+b1)+b2)

其中 W ^ \hat{W} W^为第n个全连接层的权重矩阵， b n {{b}_{n}} bn为偏置项， σ n {{\sigma }_{n}} σn为激活函数。第n层的输入向量与该层的权重矩阵作乘积，所得到的向量加上偏置向量后，输入到该层的激活函数，最终得到的向量为该层的输出。例如下图的神经网络示意图，输入 x x x为4维向量，由4个特征构成，比如4个像素值，2层的权重矩阵维数分别为4×6、6×3，偏置项维数分别为6维、3维，输出 y y y为3维向量。

张量网络机器学习实质就是，利用张量网络建立输入到输出的映射 f f f，并使用张量网络算法实现变分参数的更新。张量网络机器学习的基本步骤：将数据编码/嵌入到量子希尔伯特空间，利用张量网络在该空间进行映射获得输出。

二、希尔伯特空间、特征映射与量子概率

张量网络机器学习第一步，将数据映射到量子多体态对应的希尔伯特空间，这个是方法不唯一，感兴趣的可以自己尝试下其它映射方法。通过特征映射将一个样本映射成L个qubit的直积态，其中L为特征的个数。以图像为例，设第 n 张图片的第 l l l个像素值为 x l [ n ] ( 0 ≤ x l [ n ] ≤ 1 ) x_{l}^{[n]}(0\le x_{l}^{[n]}\le 1) xl[n](0≤xl[n]≤1)，将其映射为单个qubit态：

∣ x l [ n ] = cos ⁡ x l [ n ] π 2 ∣ 0 + sin ⁡ x l [ n ] π 2 ∣ 1 \left| x_{l}^{[n]} \right\rangle =\cos \frac{x_{l}^{[n]}\pi }{2}\left| 0 \right\rangle +\sin \frac{x_{l}^{[n]}\pi }{2}\left| 1 \right\rangle ∣∣∣xl[n]=cos2xl[n]π∣0+sin2xl[n]π∣1

由此可见，不同灰度值的像素被映射出不同“倾角”的自旋态，一整张图片被映射为由个qubit构成的直积态
∣ S [ n ] = ∏ ⊗ l = 1 L ∣ x i [ n ] \left| {{S}^{[n]}} \right\rangle =\prod\limits_{\otimes l=1}^{L}{\left| {{x}_{i}}^{[n]} \right\rangle } ∣∣∣S[n]=⊗l=1∏L∣∣∣xi[n]

为什么要做这样的映射呢？后面要做的量子概率，只有这样映射完以后，根据量子测量来定义一张图片出现在我的量子概率模型和张量网络模型里面的概率，刚好就等于我根据这个直积态对张量网络量子态测量得到的概率，为下一步用张量网络量子态来表示这个图片出现的概率服务。不懂也没关系，我们继续往下看就会慢慢明白了！

量子态化后的图片，其系数为 2 L {{2}^{L}} 2L阶的向量，也就是该张量所处矢量空间的维数关于像素个数指数增大。由于维数增大，任意两张不同图片对应的量子态其内积大小也会随着像素个数指数减小，所以任意两张不同图片对应的量子态是近似正交的，也就是内积近似等于0，用 X [ m ] ∣ X [ n ] ≈ δ m n \left\langle {{X}^{[m]}} | {{X}^{[n]}} \right\rangle \approx {{\delta }_{mn}} X[m]∣X[n]≈δmn来表示，这也是所谓的“正交灾难”，但是实际上这并不是灾难，为什么呢？可以一边往下看一边思考，答案最后揭晓。这样的性质可以和量子态概率诠释结合，得到新的基于量子概率的张量网络机器学习模型。

对于具备 L 个像素的图片集而言，我们假设其联合概率分布是由L个qubit构成的多体态描述，记为 ∣ ψ \left| \psi \right\rangle ∣ψ，满足：

P ( y 1 , … , y L ) = ( ∏ ⊗ l = 1 L y l ∣ ψ ) P({{y}_{1}},\ldots ,{{y}_{L}})=(\prod\limits_{\otimes l=1}^{L}{\left\langle {{y}_{l}} | \psi \right\rangle }) P(y1,…,yL)=(⊗l=1∏Lyl∣ψ)

其中 P ( y 1 , … , y L ) P({{y}_{1}},\ldots ,{{y}_{L}}) P(y1,…,yL)表示该概率分布给出的样本 Y = ( y 1 , … , y L ) Y=({{y}_{1}},\ldots ,{{y}_{L}}) Y=(y1,…,yL)出现的概率。在定义了量子态 ∣ ψ \left| \psi \right\rangle ∣ψ之后，可以计算出任何样本出现的概率。推论：单张图片经过特征映射获得的量子态可用于定义联合概率分布 ∣ ψ = ∣ X [ n ] \left| \psi \right\rangle =\left| {{X}^{[n]}} \right\rangle ∣ψ=∣∣X[n]。由于正交灾难，另外一张不同的图片在该概率分布中出现的概率几乎为0。看到这，对于为什么正交灾难其实不是灾难这个问题是否有思绪了？我们继续往下看。

前面我们将一个特征映射成一个qubit的量子态，该量子态的空间的维数d=2，一个特征量的取值个数D可能等于或大于2，例如灰度图中一个像素可以取D=256个不同的灰度值，黑白图中一个像素可以取黑（1）、白（0）两个值。如果局域量子空间维数等于特征取值个数，即d=D，则不同的样本对应的量子态完全正交，有 X [ m ] ∣ X [ n ] = δ m n \left\langle {{X}^{[m]}} | {{X}^{[n]}} \right\rangle ={{\delta }_{mn}} X[m]∣X[n]=δmn，例如黑白图，只要有一个像素不一样，那么这两张图片对应的量子态的内积就是0.这也就意味着，用其中一张图片去定义量子态 ∣ ψ \left| \psi \right\rangle ∣ψ，与之不同的图片出现的概率为0。当d=D时，全空间所有的样本概率之和等于1，由基底的正交完备性
∑ y 1 , … , y L = 1 D ∏ ⊗ l = 1 L ∣ y l y l ∣ = I \sum_{y_{1}, \ldots, y_{L}=1}^{D} \prod_{\otimes l=1}^{L}\left|y_{l}\right\rangle\left\langle y_{l}\right|=I y1,…,yL=1∑D⊗l=1∏L∣ylyl∣=I

我们可以得到：

∑ y 1 , … , y L = 1 D P ( y 1 , … , y L ) = ∑ y 1 , … , y L = 1 D ∏ ⊗ l = 1 L ∣ ψ ∣ y l y l ∣ ψ ∣ = ∏ ⊗ l = 1 L ∣ ψ ∣ ψ ∣ = 1 \sum\limits_{{{y}_{1}},\ldots ,{{y}_{L}}=1}^{D}{\text{P}}\left( {{y}_{1}},\ldots ,{{y}_{L}} \right)=\sum\limits_{{{y}_{1}},\ldots ,{{y}_{L}}=1}^{D}{\prod\limits_{\otimes l=1}^{L}{\left| \left\langle \psi \mid {{y}_{l}} \right\rangle \left\langle {{y}_{l}}\mid \psi \right\rangle \right|}}=\prod\limits_{\otimes l=1}^{L}{|}\langle \psi \mid \psi \rangle |=1 y1,…,yL=1∑DP(y1,…,yL)=y1,…,yL=1∑D⊗l=1∏L∣ψ∣ylyl∣ψ∣=⊗l=1∏L∣ψ∣ψ∣=1

子体系的联合概率和整个体系的联合概率之间的关系，将特征量分为两部分

{ x l } = { x m [ A ] } ∪ { x n [ B ] } \left\{ {{x}_{l}} \right\}=\left\{ x_{m}^{[A]} \right\}\cup \left\{ x_{n}^{[\text{B}]} \right\} {xl}={xm[A]}∪{xn[B]}

由概率公式 P ( { x n [ B ] } ) = ∑ { x m [ A ] } P ( { x m [ A ] } ∪ { x n [ B ] } ) P\left(\left\{x_{n}^{[\mathrm{B}]}\right\}\right)=\sum_{\left\{x_{m}^{[\mathrm{A}]}\right\}} \mathrm{P}\left(\left\{x_{m}^{[\mathrm{A}]}\right\} \cup\left\{x_{n}^{[\mathrm{B}]}\right\}\right) P({xn[B]})=∑{xm[A]}P({xm[A]}∪{xn[B]})直接对 { x m [ A ] } \left\{ x_{m}^{[A]} \right\} {xm[A]}的自由度求和。可得，某一子部分的概率密度 P ( { x n [ B ] } ) , { x n [ B ] } \mathrm{P}\left( \left\{ \mathrm{x}_{\mathrm{n}}^{[\mathrm{B}]} \right\} \right)\text{ , }\left\{ \mathrm{x}_{\mathrm{n}}^{[\mathrm{B}]} \right\} P({xn[B]}) , {xn[B]}对应的qubit的约化密度矩阵给出：

ρ ^ [ B ] = Tr ⁡ { x m [ A ] } ∣ φ φ ∣ \hat{\rho}^{[B]}=\operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}|\varphi\rangle\langle\varphi| ρ^[B]=Tr{xm[A]}∣φφ∣

如下图所示，对对 { x m [ A ] } \left\{ x_{m}^{[A]} \right\} {xm[A]}的自由度求和也就是对绿色的张量进行求和，得到的张量就是对 { x m [ B ] } \left\{ x_{m}^{[B]} \right\} {xm[B]}的自由度求和对应的约化密度矩阵。

子部分的概率密度：

P ( { x n [ B ] } ) = ∏ ⊗ n x n [ B ] ∣ ρ ^ [ B ] ∣ x n [ B ] \text{P}\left( \left\{ x_{n}^{[\text{B}]} \right\} \right)=\prod\limits_{\otimes n}{\left\langle x_{n}^{[\text{B}]}\left| {{{\hat{\rho }}}^{[B]}} \right|x_{n}^{[\text{B}]} \right\rangle } P({xn[B]})=⊗n∏xn[B]∣∣∣ρ^[B]∣∣∣xn[B]

我们可以尝试去证明上面的式子，证明过程下篇博客揭晓！

三、等概率先验假设与量子懒惰学习

对于一大类图片集 x \text{x} x ，例如0到9的手写数字集，如下图所示：

我们可以通过不断训练，得到一个量子态，使得该数字集中每一张图片出现的概率非零且相等，即：
P ( X ) = ( ∏ ⊗ l = 1 L ∣ x l ∣ ψ ∣ ) 2 = const. ∀ X ∝ x \mathrm{P}(\boldsymbol{X})=\left(\prod_{\otimes l=1}^{L}\left|\left\langle x_{l} \mid \psi\right\rangle\right|\right)^{2}=\text { const. } \forall \mathbf{X} \propto \mathrm{x} P(X)=(⊗l=1∏L∣xl∣ψ∣)2= const. ∀X∝x

等概率假设：当上式成立时，我们认为 ∣ ψ \left| \psi \right\rangle ∣ψ给出的联合概率分布 P ( X ) P(X) P(X)接近该类图片 x \text{x} x给出的像素联合概率分布。实际上，当我们已知 x \text{x} x时，我们可以直接写成一种满足等概率假设的量子态：
∣ ψ lazy = 1 ∣ x ∣ ∑ X ∝ x ∏ ⊗ l = 1 L ∣ x l \left| {{\psi }^{\text{lazy }}} \right\rangle =\frac{1}{\sqrt{|\text{x}|}}\sum\limits_{X\propto \text{x}}{\prod\limits_{\otimes l=1}^{L}{\left| {{x}_{l}} \right\rangle }} ∣∣ψlazy =∣x∣ 1X∝x∑⊗l=1∏L∣xl

其中 ∣ x ∣ \left| \text{x} \right| ∣x∣代表 x \text{x} x中图片的数量。得到的量子态被称为lazy态。
因为
ψ lazy ∣ ψ lazy = 1 ∣ x ∣ ∑ X , X ′ ∝ X X ∣ X ′ ≈ 1 ∣ X ∣ ∑ X , X ′ ∝ X δ X , X ′ = 1 \left\langle {{\psi }^{\text{lazy }}}\mid {{\psi }^{\text{lazy }}} \right\rangle =\frac{1}{|x|}\sum\limits_{X,{{X}^{\prime }}{{\propto }_{X}}}{\left\langle X\mid {{X}^{\prime }} \right\rangle }\approx \frac{1}{|\mathbb{X}|}\sum\limits_{X,{{X}^{\prime }}{{\propto }_{X}}}{{{\delta }_{X,{{X}^{\prime }}}}}=1 ψlazy ∣ψlazy =∣x∣1X,X′∝X∑X∣X′≈∣X∣1X,X′∝X∑δX,X′=1

可以得出lazy态满足概率归一条件。由此我们可以知道，只要知道训练集，即可以通过特征映射计算出 ∣ ψ lazy \left| {{\psi }^{\text{lazy }}} \right\rangle ∣∣ψlazy 。不需要通过任何训练过程， ∣ ψ lazy \left| {{\psi }^{\text{lazy }}} \right\rangle ∣∣ψlazy 中也不包含任何变分参数，因此通过lazy态实现机器学习任务的过程被称为量子懒惰学习。

例如，我们可以通过lazy实现监督性分类。以MNIST为例，对于训练集10类图片，定义10个lazy态:
∣ ψ k lazy = 1 ∣ x k ∣ ∑ X ∝ x k ∏ ⊗ l = 1 L ∣ x l \left| \psi _{k}^{\text{lazy}} \right\rangle =\frac{1}{\sqrt{\left| {{\text{x}}_{k}} \right|}}\sum\limits_{\text{X}\propto {{\text{x}}_{k}}}{\prod\limits_{\otimes l=1}^{L}{\left| {{x}_{l}} \right\rangle }} ∣∣∣ψklazy=∣xk∣ 1X∝xk∑⊗l=1∏L∣xl

其中 x k {{\text{x}}_{k}} xk 代表第k类训练集样本。根据这10个lazy态，我们可以根据量子概率定义，估计任意图片Y出现在第k类的概率：

P k ( Y ) = ∣ Y ∣ ψ k lazy ∣ 2 {{P}_{k}}(\mathbf{Y})=|\left\langle \mathbf{Y}\mid \psi _{k}^{\text{lazy}} \right\rangle {{|}^{2}} Pk(Y)=∣Y∣ψklazy∣2

概率最大的那个类即为分类器 { ∣ ψ k lazy } \{\left| \psi _{k}^{\text{lazy}} \right\rangle \} {∣∣∣ψklazy} 给出的该图片的分类预测，用这种非参数的方法可以得到不错的分类结果，但是这种非参数的机器学习一般的到的效果没有参数机器学习好。我们下期继续！

为什么正交灾难其实不是灾难？

看完这篇博客的小伙伴或多或少都有点头绪了吧？如果我们要判断两张图片是不是一样的，就可以先用其中一张图片定义量子态 ∣ ψ \left| \psi \right\rangle ∣ψ，利用 P ( y 1 , … , y L ) = ( ∏ ⊗ l = 1 L y l ∣ ψ ) P({{y}_{1}},\ldots ,{{y}_{L}})=(\prod\limits_{\otimes l=1}^{L}{\left\langle {{y}_{l}} | \psi \right\rangle }) P(y1,…,yL)=(⊗l=1∏Lyl∣ψ)计算另外一张图片出现的概率，若等于1则两张图片一样，若等于0，则两张图片不一样。是不是很神奇！

我是一只正在不断学习、希望早日成为小白的小小白，有什么错误欢迎大家批评指正，喜欢的请点个赞哦！

• 单智能体、多智能体强化学习基本概念及算法分类	• 自学python第三课之结构的使用
• Firefox 与 IE 已死？Chrome 一统天下！	• 隐马尔可夫模型(HMM)来龙去脉（二）
• 【机器学习】—各类梯度下降算法简要介绍	• torch深入学习之凤飞九天torch.nn.MarginRankin

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

张量网络算法基础（八、张量网络机器学习【上】）

张量网络机器学习

一、 机器学习基本思想

二、希尔伯特空间、特征映射与量子概率

三、等概率先验假设与量子懒惰学习

一、机器学习基本思想