【触って学ぶ統計学】共分散を実際の点を動かして理解する

共分散についてClaudeのインタラクティブアーティファクトを使ってできるだけ分かりやすく理解を深めてみようと思います。

以下のリンクを押してもらうとXとYの点をいじったりしながら共分散の値の変化をみることができます（スマホからですと点の移動はできませんがボタンは使えます）。これを使いながら以下の記事を読んでいただくと理解が深まると思います。ぜひお楽しみください。

https://claude.ai/public/artifacts/52c6fa76-2d54-4d05-a2a8-4d389c9c0cb1

共分散とは何か

共分散（Covariance）は、2つの変数XとYがどのように関連して変動するかを数値化したものです。

$$\text{Cov}(X,Y) = \frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})$$

この式を見て「なぜこれが関係性を表すのか？」と思ったりしないでしょうか。

共分散の式の解釈

ステップ1：中心からのズレを測る

まずxyの各データが「平均からどれだけ離れているか」を考えてみます。なぜなら平均はデータの中心を表すからです。

$x_i – \bar{x}$：i番目のXデータが平均からどれだけ離れているか

$y_i – \bar{y}$：i番目のYデータが平均からどれだけ離れているか

ステップ2：関係性の方向を捉える

2つのズレの積を取ることで、変動の方向性が見えてきます：

$$（x_i – \bar{x}） \times （y_i – \bar{y}）$$

この積には4つのパターンがあります：

Xのズレ	Yのズレ	積の符号	意味
正（平均より大）	正（平均より大）	正	同方向変動
負（平均より小）	負（平均より小）	正	同方向変動
正（平均より大）	負（平均より小）	負	逆方向変動
負（平均より小）	正（平均より大）	負	逆方向変動

ステップ3：全体の傾向を把握する

個々の点の積だけでは全体が見えないので、すべてのデータ点の積の平均を取ります：

$$\frac{1}{n}\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})$$

これが共分散の完成形です！

式の直感的な解釈

「平均からのズレの積の平均」

共分散は一言で表すと**「平均からのズレの積の平均」**です。

正の共分散：同方向に変動する点が多い
負の共分散：逆方向に変動する点が多い
ゼロに近い共分散：関係性が薄い

座標平面での理解

平均値$(\bar{x}, \bar{y})$を中心として座標平面を4つの象限に分けて考えてみましょう：

第1象限（右上）：$(+) \times (+) = (+)$ 正の寄与 第2象限（左上）：$(-) \times (+) = (-)$ 負の寄与
第3象限（左下）：$(-) \times (-) = (+)$ 正の寄与 第4象限（右下）：$(+) \times (-) = (-)$ 負の寄与

データ点が第1・第3象限に多く分布すれば共分散は正に、第2・第4象限に多く分布すれば負になります。

共分散の特徴と限界

スケール依存性

共分散の重要な特徴はデータのスケール（単位や数値の大きさ）に依存することです。

例：身長と体重の関係

身長（cm）と体重（kg）：$\text{Cov} ≈ 50$
身長（m）と体重（kg）：$\text{Cov} ≈ 0.5$
身長（cm）と体重（g）：$\text{Cov} ≈ 50000$

同じ関係性でも単位が変わると共分散の値は劇的に変化します。これが共分散の解釈を困難にしている理由の一つです。

相関係数との関係

この問題を解決するために生まれたのが相関係数です：

$$r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}$$

相関係数は共分散を分散で割ることで**正規化（標準化）**したものです：

共分散：関係の方向と強さ×スケール
相関係数：関係の方向と強さのみ（-1から1の範囲）

例えば$y=x$の場合（インタラクティブアーティファクトの正の相関ボタン）と$y=x^2$を比べてみると相関係数はどちらも1に近いのに、共分散の値は異なります。$y=x^2$の例であればyの分散に対してxの分散の方が小さくスケールの違いの影響が出ていることが分かります。相関係数はｘ、ｙそれぞれのばらつきの大きさで正規化（スケーリング）し直すため、どちらの場合でも同じくらいの数値になります。