랜덤 벡터의 기대값
📂수리통계학 랜덤 벡터의 기대값 정의 E ( X ) : = [ E ( X 1 ) ⋮ E ( X n ) ]
E \left( X \right) := \begin{bmatrix} E \left( X_{1} \right) \\ \vdots \\ E \left( X_{n} \right) \end{bmatrix}
E ( X ) := E ( X 1 ) ⋮ E ( X n )
랜덤벡터 X = ( X 1 , ⋯ , X n ) X = \left( X_{1} , \cdots , X_{n} \right) X = ( X 1 , ⋯ , X n ) 의 기대값 expectation 은 위와 같이 각 성분의 기대값의 벡터 로 정의된다. 마찬가지로 크기가 m × n m \times n m × n 인 확률변수 의 행렬 X = [ X i j ] \mathbf{X} = \left[ X_{ij} \right] X = [ X ij ] 도 각 성분의 기대값을 성분으로 가지는 행렬 E ( X ) : = [ E ( X i j ) ] E \left( \mathbf{X} \right) := \left[ E \left( X_{ij} \right) \right] E ( X ) := [ E ( X ij ) ] 과 같이 정의된다.
성질 [1] 선형성 : X 1 \mathbf{X}_{1} X 1 와 X 2 \mathbf{X}_{2} X 2 가 m × n m \times n m × n 사이즈의 랜덤행렬이고 컨스턴트 행렬 A 1 , A 2 ∈ R k × m A_{1}, A_{2} \in \mathbb{R}^{k \times m} A 1 , A 2 ∈ R k × m 와 B ∈ R n × l B \in \mathbb{R}^{n \times l} B ∈ R n × l 이 주어져 있다고 하면, 다음이 성립한다.
E ( A 1 X 1 + A 2 X 2 ) = A 1 E ( X 1 ) + A 2 E ( X 2 ) E ( A 1 X 1 B ) = A 1 E ( X 1 ) B
\begin{align*}
E \left( A_{1} \mathbf{X}_{1} + A_{2} \mathbf{X}_{2} \right) =& A_{1} E \left( \mathbf{X}_{1} \right) + A_{2} E \left( \mathbf{X}_{2} \right)
\\ E \left( A_{1} \mathbf{X}_{1} B \right) =& A_{1} E \left( X_{1} \right) B
\end{align*}
E ( A 1 X 1 + A 2 X 2 ) = E ( A 1 X 1 B ) = A 1 E ( X 1 ) + A 2 E ( X 2 ) A 1 E ( X 1 ) B [2] 트레이스 : E ( tr ( X ) ) = tr ( E ( X ) ) E(\tr(\mathbf{X})) = \tr(E(\mathbf{X})) E ( tr ( X )) = tr ( E ( X )) 증명 [1] E ( A X ) = A E ( X ) E \left( A \mathbf{X} \right) = A E \left( \mathbf{X} \right) E ( A X ) = A E ( X ) 만 보이고 나머지는 생략한다.
A = [ a i k ] A = \begin{bmatrix} a_{ik}\end{bmatrix} A = [ a ik ] 를 m × p m \times p m × p 행렬, X = [ X k j ] \mathbf{X} = \begin{bmatrix} X_{kj}\end{bmatrix} X = [ X kj ] 를 p × n p \times n p × n 행렬이라고 하자. 그러면 행렬곱 과 행렬의 기댓값 정의에 의해,
E ( A X ) = E ( [ ∑ k = 1 p a i k X k j ] ) = [ E ( ∑ k = 1 p a i k X k j ) ] = [ ∑ k = 1 p a i k E ( X k j ) ] by linearity of E = A E ( X )
\begin{align*}
E(A \mathbf{X})
&= E \left( \begin{bmatrix} \sum\limits_{k=1}^{p} a_{ik}X_{kj} \end{bmatrix} \right) \\
&= \begin{bmatrix} E \left( \sum\limits_{k=1}^{p} a_{ik}X_{kj} \right) \end{bmatrix} \\
&= \begin{bmatrix} \sum\limits_{k=1}^{p} a_{ik} E \left( X_{kj} \right)
\end{bmatrix} & \text{by linearity of E E E } \\
&= A E(\mathbf{X})
\end{align*}
E ( A X ) = E ( [ k = 1 ∑ p a ik X kj ] ) = [ E ( k = 1 ∑ p a ik X kj ) ] = [ k = 1 ∑ p a ik E ( X kj ) ] = A E ( X ) by linearity of E
■
[2] X = [ X i j ] \mathbf{X} = \begin{bmatrix} X_{ij} \end{bmatrix} X = [ X ij ] 를 n × n n \times n n × n 행렬 이라고 하자.
E ( tr ( A ) ) = E ( ∑ i = 1 n X i i ) = ∑ i = 1 n E ( X i i ) by linearity of E = tr [ E ( X 11 ) ⋯ E ( X 1 n ) ⋮ ⋱ ⋮ E ( X n 1 ) ⋯ E ( X n n ) ] by definition of trace = tr ( E ( X ) )
\begin{align*}
E(\tr(A))
&= E \left( \sum\limits_{i=1}^{n} X_{ii} \right) \\
&= \sum\limits_{i=1}^{n} E(X_{ii}) & \text{by linearity of E E E } \\
&= \tr \begin{bmatrix} E(X_{11}) & \cdots & E(X_{1n}) \\ \vdots & \ddots & \vdots \\ E(X_{n1}) & \cdots & E(X_{nn}) \end{bmatrix} & \text{by definition of trace} \\
&= \tr\left( E(\mathbf{X}) \right)
\end{align*}
E ( tr ( A )) = E ( i = 1 ∑ n X ii ) = i = 1 ∑ n E ( X ii ) = tr E ( X 11 ) ⋮ E ( X n 1 ) ⋯ ⋱ ⋯ E ( X 1 n ) ⋮ E ( X nn ) = tr ( E ( X ) ) by linearity of E by definition of trace
■