2025年1月27日

平面がぺしゃんこになるとき(相関行列でみる次元の縮約)

※私は数学者ではありません。自分用のまとめとしてこれを書いています。楽しむ範囲でご覧いただければ幸いです。内容の正確性については専門家のサイトや動画、専門書等で必ず確認をお願いします。


*  *  *


前回、回転行列についてみました。そのときのグラフを再掲します。


 

回転行列で働きかけたベクトルの終点は半径1の真円(単位円)の円周上にあります。美しい回転を実現するのが $R$ でした。ベクトルに働きかける行列のほとんどは、残念ながらベクトルの終点を円周上から外してしまいます。この記事では、相関行列を例にベクトルの終点がどこへ行くのかみます。


*  *  *


2つの変数の関係を表す統計量に相関係数というものがあります。仲のよい犬(🐕と🐩)は、いつも一緒に動きます。こうした関係を「相関が高い」とか「係数係数の値が大きい」と言ったりします。ご主人様が帰宅したとき、犬は大はしゃぎで家中を駆け回ります。それに対して猫は「あ、帰ってきたの? 頭でも撫でてよ」とホームポジションからほとんど動かないことが多いです。こうした犬と猫(🐕と🐈)の関係を「相関が低い」とか「相関係数の値が0に近い」と言ったりします。


*  *  *


相関係数の値は、$-1$から$+1$の間に標準化されています。相関係数の値のイメージはおおよそ次のとおりです。

  • $+1$に近い:2変数が同じ方向に動く
  • $0$に近い:2変数が無関係に動く
  • $-1$に近い:2変数が反対方向に動く


変数の相関を1つの表にまとめたものを相関行列といいます。相関係数を$\rho$とおくと、2変数の相関行列は次のようになります。

$$\begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}$$

※ここから数記事にわたり相関行列を例にします。その際、本来観測値である $\rho$ をあたかもパラメーターのように扱います。これは説明の便宜と図形的な面白さからです。ご了承ください。


*  *  *


単位円上の点を終点とするベクトルに、相関行列を働きかけると何が起こるのでしょうか。まず、$x$ 軸の標準基底 $(1, 0)$ に掛けてみましょう。 

$$\begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix} \begin{pmatrix}  1 \\  0\end{pmatrix}=\begin{pmatrix}  1  \\  \rho \end{pmatrix}$$

この計算結果は、相関係数が0から1へ向かって増加すると、変換後のベクトルの終点が $(1, 0)$ から $(1, 1)$ へ、図のように垂直に上昇することを意味しています。



同様に、$y$ 軸の標準基底 $(0, 1)$ に相関行列を掛けてみましょう。 

$$\begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix} \begin{pmatrix}  0 \\  1\end{pmatrix}=\begin{pmatrix}  \rho  \\  1 \end{pmatrix}$$

この計算結果は、相関係数が0から1へ増加するにしたがい、変換後のベクトルの終点が $(0, 1)$ から $(1, 1)$ へ、水平に右へ移動することを意味しています。

単位円上の点を終点とする他のいくつかのベクトルにも相関行列を掛けてみました。結果は次の図のようになりました。大変興味深いことに、単位円上の全ての点は、相関係数が高くなるにしたがい、オレンジ点線で示した45°線に集まってきます。相関係数が最大の値である1をとるとき、単位円はぺしゃんこに潰れ、45°線になります。単位円がぺしゃんこになり、線になってしまうことを次元の縮約といいます。


*  *  *


相関行列には、単位円上を終点とするベクトルを45°線に引き寄せる魔力と言いますか磁力と言いますか、そうしたものがあるようです。不思議ですね。

アンケート調査の結果をまとめる統計学の方法に主成分分析というものがあります。仄めかすような書き方で恐縮ですが、相関係数をみれば主成分分析をする意味があるかどうか大体わかります。主成分分析をする意味があるのは、相関係数(の絶対値)がほどよく1に近いときです。


*  *  *


誤解が生じないように、45°線の45°という角度はテクニカルなものであることを付け加えます。散布図を描くときに、傾向線が45°でなければならなないという制約はありません。詳細は今後、分散共分散行列のところで説明します。