此條目需要
精通或熟悉相關主題的編者 參與及協助編輯。
(2019年3月5日 ) 請邀請 適合的人士改善本條目 。更多的細節與詳情請參見討論頁 。
在數學 中,矩陣微積分 是多元微積分 的一種特殊表達,尤其是在矩陣 空間上進行討論的時候。它把單個函數對多個變量或者多元函數對單個變量的偏導數 寫成向量和矩陣的形式,使其可以被當成一個整體被處理。這使得要在多元函數尋找最大或最小值,又或是要為微分方程 系統尋解的過程大幅簡化。這裡我們主要使用統計學 和工程學 中的慣用記法,而張量下標記法 更常用於物理學 中。
在本小節中,我們在表示向量和矩陣時,通過用單個變量來表示許多變量的方式,把矩陣記法 的效用發揮到最大。接下來我們用不同字體來區分標量、向量和矩陣。我們使用M (n ,m )來表示包含n 行m 列的n×m 實 矩陣的空間。該空間中的一般矩陣用粗體大寫字母表示,例如A ,X ,Y 等。而若該矩陣屬於M (n ,1),即列向量 ,則用粗體小寫字母表示,如a ,x ,y 等。特別地,M (1,1)中的元素為標量,用小寫斜體字母表示,如a ,t ,x 等。X T 表示矩陣轉置 ,tr(X )表示矩陣的跡 ,而 det(X )或|X |表示行列式 。除非專門註明,所有函數都默認屬於光滑函數 C 1 。 通常字母表前半部分的字母(a, b, c, …)用於表示常量,而後半部分的字母(t, x, y, …)用於表示變量。
由於向量可看成僅有一列的矩陣,最簡單的矩陣求導為向量求導。
這裡的標記方法可以通過如下方式表達大部分向量微積分 :把n 維向量構成的空間M (n ,1)等同為歐氏空間 R n , 標量M (1,1)等同於R 。對應的向量微積分的概念在每小節末尾列出。
向量
y
=
[
y
1
y
2
⋯
y
m
]
T
{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}}
關於標量 x 的導數可以(用分子記法 )寫成
∂
y
∂
x
=
[
∂
y
1
∂
x
∂
y
2
∂
x
⋮
∂
y
m
∂
x
]
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}}
這裡的「分子布局記法」一般指,在表示導數向量(或矩陣)時,該導數的行數等於導數表達式
∂
y
∂
x
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}}
中處於分子部分的參數維度,即
y
{\displaystyle \mathbf {y} }
的維度大小
m
{\displaystyle m}
;若採用分母布局記法,則導數的行數等於導數表達式中處於分母部分的參數維度,即
x
{\displaystyle x}
的維度大小。分子布局記法的結果與分母布局記法的結果互為轉置關係。
在向量微積分 中,向量
y
{\displaystyle \mathbf {y} }
關於標量
x
{\displaystyle x}
的導數也被稱為向量
y
{\displaystyle \mathbf {y} }
的切向量 ,
∂
y
∂
x
{\displaystyle {\frac {\partial \mathbf {y} }{\partial x}}}
。注意這裡
y
:
R
→
R
n
{\displaystyle \mathbf {y} :\mathbb {R} \rightarrow \mathbb {R} ^{n}}
。
例子 簡單的樣例包括歐式空間 中的速度 向量,它是位移 向量(看作關於時間的函數)的切向量 。更進一步而言, 加速度 是速度的切向量。
標量 y 對向量
x
=
[
x
1
x
2
⋯
x
n
]
T
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}}
的導數可以(用分子記法 )寫成
∂
y
∂
x
=
[
∂
y
∂
x
1
∂
y
∂
x
2
⋯
∂
y
∂
x
n
]
{\displaystyle {\frac {\partial y}{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{1}}}&{\frac {\partial y}{\partial x_{2}}}&\cdots &{\frac {\partial y}{\partial x_{n}}}\end{bmatrix}}}
在向量微積分 中,標量y 在的空間R n (其獨立坐標是x 的分量)中的梯度 是標量y 對向量x 的導數的轉置。在物理學中,電場 是電勢 的負梯度 向量。
標量函數f (x )對空間向量x 在單位向量u (在這裡表示為列向量)方向上的方向導數 可以用梯度定義:
∇
u
f
(
x
)
=
∇
f
(
x
)
⋅
u
{\displaystyle \nabla _{\mathbf {u} }{f}(\mathbf {x} )=\nabla f(\mathbf {x} )\cdot \mathbf {u} }
使用剛才定義的標量對向量的導數的記法,我們可以把方向導數寫作
∇
u
f
=
(
∂
f
∂
x
)
⊤
u
{\displaystyle \nabla _{\mathbf {u} }f=\left({\frac {\partial f}{\partial \mathbf {x} }}\right)^{\top }\mathbf {u} }
這類記法在證明乘法法則和鏈式法則的時候非常直觀,因為它們與我們熟悉的標量導數 的形式較為相似。
前面兩種情況可以看作是向量對向量求導在其中一個是一維向量情況下的特例。類似地我們將會發現有關矩陣的求導可被以一種類似的方式化歸為向量求導。
向量函數 (分量為函數的向量)
y
=
[
y
1
y
2
⋯
y
m
]
T
{\displaystyle \mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}}
對輸入向量
x
=
[
x
1
x
2
⋯
x
n
]
T
{\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}}
的導數,可以(用分子記法 ) 寫作
∂
y
∂
x
=
[
∂
y
1
∂
x
1
∂
y
1
∂
x
2
⋯
∂
y
1
∂
x
n
∂
y
2
∂
x
1
∂
y
2
∂
x
2
⋯
∂
y
2
∂
x
n
⋮
⋮
⋱
⋮
∂
y
m
∂
x
1
∂
y
m
∂
x
2
⋯
∂
y
m
∂
x
n
]
{\displaystyle {\frac {\partial \mathbf {y} }{\partial \mathbf {x} }}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x_{1}}}&{\frac {\partial y_{1}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{1}}{\partial x_{n}}}\\{\frac {\partial y_{2}}{\partial x_{1}}}&{\frac {\partial y_{2}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{2}}{\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m}}{\partial x_{1}}}&{\frac {\partial y_{m}}{\partial x_{2}}}&\cdots &{\frac {\partial y_{m}}{\partial x_{n}}}\\\end{bmatrix}}}
在向量微積分 中,向量函數y 對分量表示一個空間的向量x 的導數也被稱為前推 (微分) ,或雅可比矩陣 。
向量函數f 對R n 空間中向量v 的前推為
d
f
(
v
)
=
∂
f
∂
v
d
v
{\displaystyle d\,\mathbf {f} (\mathbf {v} )={\frac {\partial \mathbf {f} }{\partial \mathbf {v} }}d\,\mathbf {v} }
有兩種類型的矩陣求導可以被寫成相同大小的矩陣:矩陣對標量求導和標量對矩陣求導。它們在解決應用數學的許多領域常見的最小化問題中十分有用。類比於向量求導,相應的概念有切矩陣 和梯度矩陣 。
矩陣函數Y 對標量x 的導數被稱為切矩陣 ,(用分子記法 )可寫成:
∂
Y
∂
x
=
[
∂
y
11
∂
x
∂
y
12
∂
x
⋯
∂
y
1
n
∂
x
∂
y
21
∂
x
∂
y
22
∂
x
⋯
∂
y
2
n
∂
x
⋮
⋮
⋱
⋮
∂
y
m
1
∂
x
∂
y
m
2
∂
x
⋯
∂
y
m
n
∂
x
]
{\displaystyle {\frac {\partial \mathbf {Y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{11}}{\partial x}}&{\frac {\partial y_{12}}{\partial x}}&\cdots &{\frac {\partial y_{1n}}{\partial x}}\\{\frac {\partial y_{21}}{\partial x}}&{\frac {\partial y_{22}}{\partial x}}&\cdots &{\frac {\partial y_{2n}}{\partial x}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y_{m1}}{\partial x}}&{\frac {\partial y_{m2}}{\partial x}}&\cdots &{\frac {\partial y_{mn}}{\partial x}}\\\end{bmatrix}}}
定義在元素是獨立變量的p ×q 矩陣X 上的標量函數y 對X 的導數可以(用分子記法 )寫作
∂
y
∂
X
=
[
∂
y
∂
x
11
∂
y
∂
x
21
⋯
∂
y
∂
x
p
1
∂
y
∂
x
12
∂
y
∂
x
22
⋯
∂
y
∂
x
p
2
⋮
⋮
⋱
⋮
∂
y
∂
x
1
q
∂
y
∂
x
2
q
⋯
∂
y
∂
x
p
q
]
{\displaystyle {\frac {\partial y}{\partial \mathbf {X} }}={\begin{bmatrix}{\frac {\partial y}{\partial x_{11}}}&{\frac {\partial y}{\partial x_{21}}}&\cdots &{\frac {\partial y}{\partial x_{p1}}}\\{\frac {\partial y}{\partial x_{12}}}&{\frac {\partial y}{\partial x_{22}}}&\cdots &{\frac {\partial y}{\partial x_{p2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial y}{\partial x_{1q}}}&{\frac {\partial y}{\partial x_{2q}}}&\cdots &{\frac {\partial y}{\partial x_{pq}}}\\\end{bmatrix}}}
定義矩陣上的重要的標量函數包括矩陣的跡 和行列式 。
類比於向量微積分 ,這個導數常被寫成如下形式:
∇
X
y
(
X
)
=
∂
y
(
X
)
∂
X
{\displaystyle \nabla _{\mathbf {X} }y(\mathbf {X} )={\frac {\partial y(\mathbf {X} )}{\partial \mathbf {X} }}}
類似地,標量函數f (X )關於矩陣X 在方向Y 的方向導數 可寫成
∇
Y
f
=
tr
(
∂
f
∂
X
Y
)
{\displaystyle \nabla _{\mathbf {Y} }f=\operatorname {tr} \left({\frac {\partial f}{\partial \mathbf {X} }}\mathbf {Y} \right)}
梯度矩陣經常被應用在估計理論 的最小化問題中,比如卡爾曼濾波 算法的推導 ,因此在這些領域中有着重要的地位。
Lax, Peter D. 9. Calculus of Vector- and Matrix-Valued Functions. Linear algebra and its applications 2nd. Hoboken, N.J.: Wiley-Interscience. 2007. ISBN 978-0-471-75156-4 .