データ分析を始めたばかりの方にとって、「この2つの数値には関係があるのかな?」という疑問はとても多いと思います。株価と為替レート、売上と広告費、気温とアイスの売上など、私たちの身の回りには数え切れないほどのデータが溢れています。
こうした2つのデータの間にどれくらい関連性があるのかを数値で示してくれるのが相関係数です。統計学において相関係数は、データ同士の関係性を客観的に判断するための強力なツールとして広く活用されています。
この記事では、統計学における相関係数の基本的な意味から具体的な計算手順、実務での使いどころ、そして注意すべきポイントまでを、初心者の方にもわかりやすく丁寧に解説していきます。
目次
目次
- 相関係数とは何か?統計学における基本的な意味
- 相関係数から読み取れる3つの相関関係
- 相関係数の計算方法を段階的に理解しよう
- 相関係数の使いどころと活用シーン
- 相関係数を扱う際の重要な注意点
- 無相関の検定と統計的有意性
- まとめ
相関係数とは何か?統計学における基本的な意味
相関係数は2つのデータ間の関連性を示す指標
相関係数とは、2つの変数(データ)の間にどのような関係性があるのかを、-1から+1までの数値で表した統計学の指標です。英語では「Correlation Coefficient」と呼ばれ、データ分析の現場では頻繁に登場する基本的な概念です。
例えば、株式投資の世界では「ある銘柄Aが上がると、銘柄Bも上がる傾向にあるのか?」という疑問に答える際に、相関係数を計算することで客観的な判断材料を得ることができます。相関係数を使えば、主観的な印象ではなく数値に基づいた分析が可能になるため、データドリブンな意思決定が実現できます。
統計学では、この相関係数を求めるためにピアソンの積率相関係数という計算方法が最も一般的に用いられます。これは2つのデータが直線的な関係にあるかどうかを測定する方法です。
相関係数の値が持つ意味
相関係数は-1から+1の範囲の値を取り、その値によって以下のような意味を持ちます。
- +1に近い値:正の相関が強い。一方が増えるともう一方も増える傾向が明確。
- 0に近い値:相関が弱い、またはほとんどない。2つのデータに直線的な関係性が見られない。
- -1に近い値:負の相関が強い。一方が増えるともう一方は減る傾向が明確。
この数値の範囲を理解しておくことで、計算結果から2つのデータがどのような関係にあるのかを即座に判断できるようになります。
相関係数から読み取れる3つの相関関係
統計学では、相関係数の値に応じて相関関係を大きく3つのパターンに分類します。それぞれの特徴を理解しておくことで、データ分析の精度が格段に向上します。
正の相関(正の相関関係)
正の相関とは、一方の変数が増加するともう一方の変数も増加する関係性のことです。相関係数が0より大きく+1に近づくほど、この関係性は強くなります。
具体例を挙げると、以下のようなケースが正の相関に該当します。
- 気温とアイスクリームの売上:気温が高くなるほど、アイスクリームの売上も増える傾向があります。
- 勉強時間と試験の点数:勉強時間が長いほど、試験の点数が高くなる傾向が見られます。
- 広告費と売上高:広告費を増やすほど、売上高も増加する関係が期待できます。
一般的に、相関係数が0.7以上であれば強い正の相関、0.4〜0.7程度であれば中程度の正の相関と判断されることが多いです。
負の相関(負の相関関係)
負の相関とは、一方の変数が増加するともう一方の変数が減少する関係性のことです。相関係数が0より小さく-1に近づくほど、この逆方向の関係性は強くなります。
負の相関の具体例としては、次のようなものがあります。
- 気温と暖房器具の売上:気温が上がるほど、暖房器具の売上は減少します。
- 商品の価格と販売数量:価格が高くなるほど、購入する人の数は減る傾向があります。
- 運動時間と体脂肪率:運動時間が増えるほど、体脂肪率は低下する傾向があります。
相関係数が-0.7以下であれば強い負の相関、-0.4〜-0.7程度であれば中程度の負の相関と評価されます。
無相関(相関関係がない)
無相関とは、2つの変数の間に明確な直線的関係が見られない状態です。相関係数が0に近い値(例えば-0.2〜+0.2の範囲)であれば、統計学的には無相関と判断されます。
ただし注意が必要なのは、相関係数が0に近いからといって、2つの変数に全く関係がないとは限らないという点です。相関係数はあくまで「直線的な関係」を測定する指標なので、曲線的な関係や複雑な関係性は捉えられない可能性があります。
相関係数の計算方法を段階的に理解しよう
ここからは、統計学における相関係数の具体的な計算方法を、ステップバイステップで解説していきます。相関係数の公式は一見複雑に見えますが、順を追って理解すれば決して難しくありません。
相関係数の公式
ピアソンの積率相関係数は、以下の公式で計算されます。
\(r = \frac{\text{共分散}}{\text{xの標準偏差} \times \text{yの標準偏差}}\)
または、より詳細な形で表すと次のようになります。
\(r = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i – \bar{x})^2} \times \sqrt{\sum_{i=1}^{n}(y_i – \bar{y})^2}}\)
ここで、xとyは2つの変数、nはデータの個数、x̄とȳはそれぞれの平均値を表します。
この公式を見ると、相関係数を計算するには「平均値」「標準偏差」「共分散」という3つの統計量が必要だとわかります。それでは、これらを順番に求めていきましょう。
計算手順をステップごとに解説
実際の計算例を使って、相関係数を求める手順を見ていきます。以下のような簡単なデータセットを用意しました。
| データ番号 | 変数x(勉強時間) | 変数y(テスト得点) |
|---|---|---|
| 1 | 2 | 50 |
| 2 | 4 | 60 |
| 3 | 6 | 70 |
| 4 | 8 | 80 |
| 5 | 10 | 90 |
ステップ1:平均値を求める
まず、それぞれの変数の平均値を計算します。
\(\bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6\)
\(\bar{y} = \frac{50 + 60 + 70 + 80 + 90}{5} = \frac{350}{5} = 70\)
変数xの平均は6時間、変数yの平均は70点となりました。
ステップ2:偏差を求める
次に、各データが平均からどれだけ離れているかを表す偏差を計算します。偏差は「個々の値 – 平均値」で求められます。
| データ番号 | x – x̄ | y – ȳ |
|---|---|---|
| 1 | 2 – 6 = -4 | 50 – 70 = -20 |
| 2 | 4 – 6 = -2 | 60 – 70 = -10 |
| 3 | 6 – 6 = 0 | 70 – 70 = 0 |
| 4 | 8 – 6 = 2 | 80 – 70 = 10 |
| 5 | 10 – 6 = 4 | 90 – 70 = 20 |
ステップ3:共分散を求める
共分散は、2つの変数がどのように一緒に変動するかを示す指標です。共分散は以下の式で計算されます。
\(\text{共分散} = \frac{\sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y})}{n}\)
各データについて偏差の積を計算し、その合計を求めます。
- データ1:(-4) × (-20) = 80
- データ2:(-2) × (-10) = 20
- データ3:0 × 0 = 0
- データ4:2 × 10 = 20
- データ5:4 × 20 = 80
合計:80 + 20 + 0 + 20 + 80 = 200
\(\text{共分散} = \frac{200}{5} = 40\)
ステップ4:標準偏差を求める
標準偏差は、データのばらつき具合を示す指標です。まず分散を計算し、その平方根を取ります。
変数xの分散:
\(\text{分散}_x = \frac{(-4)^2 + (-2)^2 + 0^2 + 2^2 + 4^2}{5} = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8\)
\(\text{標準偏差}_x = \sqrt{8} \approx 2.83\)
変数yの分散:
\(\text{分散}_y = \frac{(-20)^2 + (-10)^2 + 0^2 + 10^2 + 20^2}{5} = \frac{400 + 100 + 0 + 100 + 400}{5} = \frac{1000}{5} = 200\)
\(\text{標準偏差}_y = \sqrt{200} \approx 14.14\)
ステップ5:相関係数を計算する
最後に、これまで求めた値を使って相関係数を計算します。
\(r = \frac{\text{共分散}}{\text{標準偏差}_x \times \text{標準偏差}_y} = \frac{40}{2.83 \times 14.14} \approx \frac{40}{40.02} \approx 1.0\)
この結果、相関係数はほぼ1.0となり、勉強時間とテスト得点の間には非常に強い正の相関があることがわかります。
相関係数の使いどころと活用シーン
統計学における相関係数は、さまざまな場面で実用的に活用されています。ここでは、実務でよく見られる使いどころを紹介します。
改善したい指標と強く関連する要素を知りたい時
ビジネスの現場では、売上や利益といったKPI(重要業績評価指標)を改善したい場合に、どの要素に注力すべきかを判断する必要があります。
例えば、ECサイトの売上を向上させたいとき、以下のような複数の要素との相関を調べることができます。
- サイト訪問者数と売上
- メルマガ開封率と売上
- 広告クリック数と売上
- 商品レビュー数と売上
これらの相関係数を計算し、最も強い相関を示す要素に優先的にリソースを投入することで、効率的な改善活動が可能になります。相関係数を使えば、勘や経験だけに頼らず、データに基づいた戦略的な意思決定ができるようになります。
データの解釈に根拠を与えたい時
データ分析の結果を報告する際、「この2つには関係がありそうです」という曖昧な表現ではなく、「相関係数0.85の強い正の相関が確認されました」と具体的な数値で示すことで、説得力が大幅に向上します。
特に株式投資においては、以下のような分析で相関係数が活用されます。
- 銘柄間の相関:ポートフォリオを組む際、相関の低い銘柄を組み合わせることでリスク分散を図ります。
- 市場指数との相関:個別銘柄が日経平均やTOPIXとどの程度連動するかを把握します。
- 為替との相関:輸出関連企業の株価とドル円レートの関係性を数値化します。
予測モデルの構築に利用する時
統計学や機械学習の分野では、予測モデルを構築する前段階として特徴量選択を行います。この際、目的変数(予測したい対象)と高い相関を持つ説明変数(予測に使う要素)を選ぶことで、モデルの精度向上が期待できます。
相関係数が高い変数を優先的に採用することで、無駄な計算を削減し、より効率的なモデル構築が可能になります。
相関係数を扱う際の重要な注意点
相関係数は非常に便利な統計指標ですが、正しく理解して使わないと誤った結論を導いてしまう危険性があります。ここでは、相関係数を扱う際に必ず意識すべき注意点を解説します。
相関関係と因果関係は別物
相関係数が示すのはあくまで「関連性の強さ」であり、「原因と結果の関係」ではありません。これは統計学において最も重要な原則の一つです。
相関関係があるからといって、一方が他方の原因であるとは限らないという点を、必ず覚えておいてください。
有名な例として、「アイスクリームの売上と水難事故の件数」には正の相関が見られますが、これはアイスクリームを食べると水難事故が増えるという因果関係ではありません。実際には「気温」という第三の要因が両方に影響を与えているだけです。
このような疑似相関や見せかけの相関に惑わされないよう、相関係数を見る際には常に「なぜこの関係が生じているのか?」という背景を考察することが重要です。
非線形の関係は捉えられない
相関係数(ピアソンの積率相関係数)は、2つの変数の直線的な関係のみを測定します。したがって、曲線的な関係や複雑な非線形関係は正しく評価できません。
例えば、変数xと変数yの関係が放物線(2次関数)のような形をしている場合、相関係数は0に近い値になる可能性がありますが、実際には明確な関係性が存在しています。
このような場合は、データを散布図で可視化することが非常に重要です。散布図を見れば、データの分布パターンや非線形の関係性を視覚的に把握できます。
外れ値の影響を受けやすい
相関係数の計算には平均値や偏差が使われるため、外れ値(異常に大きい、または小さい値)の影響を受けやすいという特徴があります。
たった1つの外れ値が存在するだけで、相関係数の値が大きく変わってしまうことがあります。そのため、相関係数を計算する前には、必ずデータの前処理として外れ値の確認と適切な処理を行うことが推奨されます。
外れ値への対処法としては、以下のような方法があります。
- 外れ値を除外する:明らかな入力ミスや測定エラーの場合
- ロバストな統計手法を使う:スピアマンの順位相関係数など、外れ値に強い手法を選択
- データの変換を行う:対数変換などで外れ値の影響を軽減
サンプルサイズが小さいと信頼性が低い
データの個数(サンプルサイズ)が少ない場合、偶然によって高い相関係数が出てしまう可能性があります。一般的には、n=30以上のサンプルサイズがあることが望ましいとされています。
サンプルサイズが小さい場合は、後述する統計的検定を行い、得られた相関係数が偶然ではなく統計的に意味のあるものかどうかを確認する必要があります。
無相関の検定と統計的有意性
相関係数を計算した後、その結果が統計的に意味のあるものかどうかを判断するために、無相関の検定という統計的仮説検定を行います。
無相関の検定とは
無相関の検定は、「母集団において本当に相関がゼロである」という帰無仮説を検証する手法です。もし検定の結果が統計的に有意であれば、「偶然ではなく、実際に相関がある」と結論づけることができます。
検定には以下の統計量を使用します。
\(t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\)
ここで、rは相関係数、nはサンプルサイズです。この統計量は自由度(n-2)のt分布に従います。
p値による判定
計算されたt値からp値を求め、通常は以下の基準で判断します。
- p < 0.05:統計的に有意。相関があると判断できる。
- p ≥ 0.05:統計的に有意ではない。相関があるとは言えない。
この検定により、得られた相関係数が単なる偶然の産物ではなく、実際に意味のある関係性を示しているかを確認できます。
信頼区間の考え方
相関係数の信頼区間を計算することで、真の母相関係数がどの範囲に含まれる可能性が高いかを推定できます。信頼区間が広い場合は推定の不確実性が高く、狭い場合は推定の精度が高いことを意味します。
信頼区間の計算にはフィッシャーのZ変換という手法が用いられることが一般的です。これにより、相関係数の分布を正規分布に近似させて、より正確な区間推定が可能になります。
相関分析を実務で活かすためのポイント
ここまで学んできた統計学の相関係数の知識を、実際のデータ分析業務や投資判断に活かすためのポイントをまとめます。
必ず散布図で可視化する
相関係数を計算したら、必ず散布図を作成してデータの分布を目で確認しましょう。これにより、以下のような情報が得られます。
- 直線関係の確認:データが直線的に分布しているか
- 外れ値の発見:異常値がないか
- 非線形パターンの把握:曲線的な関係がないか
- データの集中度:バラつき具合はどうか
数値だけでは見落としてしまうパターンも、グラフを見ることで直感的に理解できます。
複数の変数を同時に比較する
実務では、2つの変数だけでなく、複数の変数間の相関を同時に調べたい場合が多くあります。このような場合は相関行列を作成すると便利です。
相関行列は、すべての変数ペアについて相関係数を計算し、表形式にまとめたものです。これにより、どの変数とどの変数の関係が強いのかを一目で把握できます。
時系列データでは注意が必要
株価や売上など、時間とともに変化するデータ(時系列データ)で相関を調べる場合は、追加の注意が必要です。
時系列データでは、両方の変数がトレンド(上昇傾向や下降傾向)を持っている場合、実際には関係がなくても高い相関係数が出てしまう見せかけの相関が発生しやすくなります。
この問題に対処するには、階差(前期との差分)を取ったり、トレンド除去を行ったりするなどの前処理が有効です。
定期的に相関関係を再評価する
特に金融市場においては、相関関係は時間とともに変化することがあります。過去のデータで強い相関があったとしても、市場環境の変化によって相関が弱まったり、逆に強まったりすることがあります。
したがって、一度計算した相関係数を絶対視せず、定期的に再計算して最新の関係性を把握することが重要です。ローリング相関(移動窓を使った相関計算)などの手法を用いると、相関の時間的変化を追跡できます。
まとめ
この記事では、統計学における相関係数について、基本的な意味から計算方法、実務での活用方法まで幅広く解説してきました。最後に重要なポイントを整理しておきましょう。
- 相関係数は2つのデータ間の直線的な関連性を-1から+1の範囲で表す統計指標であり、データ分析の基本ツールとして広く活用されています。
- 正の相関・負の相関・無相関の3パターンを理解することで、相関係数の値から2つの変数の関係性を適切に解釈できます。
- 相関係数の計算は平均値・標準偏差・共分散という3つの統計量を順番に求めることで実現でき、手順を理解すれば決して難しくありません。
- 相関関係と因果関係は別物であり、高い相関があっても一方が他方の原因とは限らない点に注意が必要です。また、非線形関係や外れ値の影響にも配慮しましょう。
- 無相関の検定を行うことで統計的有意性を確認し、得られた相関係数が偶然ではなく意味のあるものかを判断することが重要です。
- 散布図による可視化や相関行列の活用など、実務で使える技術を身につけることで、データドリブンな意思決定が可能になります。
相関係数は統計学の入門的な概念ですが、正しく理解して使いこなすことで、株式投資やビジネス分析において非常に強力な武器となります。ぜひこの記事で学んだ知識を実践で活用してみてください。