データを扱う場面で「このデータってどれくらいバラついているんだろう?」と疑問に思ったことはありませんか?株価の変動幅を知りたい、テストの点数のばらつきを把握したい、品質管理でばらつきを抑えたい…そんな時に役立つのが統計学における分散という概念です。
分散とは、データが平均値を中心にどの程度散らばっているかを数値化した指標であり、データのばらつき具合を客観的に把握するために欠かせないツールです。この記事では、統計学における分散の基本的な意味から計算方法、標準偏差との違い、実際の活用例まで、初心者の方にもわかりやすく丁寧に解説していきます。
目次
目次
- 統計学における分散とは
- 分散の公式と計算方法
- 分散を計算する手順
- 分散の具体的な計算例
- 分散が2乗の和を使う理由
- 母分散と標本分散(不偏分散)の違い
- 分散と標準偏差の違いと使い分け
- 分散の活用方法と実用例
- まとめ
統計学における分散とは
分散(Variance)とは、統計学においてデータのばらつき度合いを表す基本的な指標の一つです。英語ではVarianceと呼ばれ、記号では「V」や「σ²(シグマの二乗)」「s²」などで表されます。
もう少し具体的に言うと、分散はデータセット内の各データが平均値からどれだけ離れているかを測定した値です。分散が小さい場合、データは平均値の周りに密集していることを意味し、分散が大きい場合は、データが平均値から広く散らばっていることを示します。
例えば、2つのクラスで同じ平均点70点のテストがあったとしても、一方のクラスは65点から75点の範囲に集中している一方で、もう一方のクラスは30点から100点まで大きくばらついている場合があります。この「ばらつき具合」を数値化するのが分散の役割なのです。
分散は、データが平均値を中心にどれだけ散らばっているかを数値で表したもので、ばらつきの大きさを客観的に比較できます。
分散の公式と計算方法
分散を計算するための公式はいくつかありますが、基本となる考え方は共通しています。ここでは最も基本的な公式を紹介します。
基本的な分散の公式
データが n 個あり、それぞれのデータを x₁, x₂, …, xₙ、平均値を μ(ミュー)または x̄(エックスバー)とすると、分散σ²は次のように定義されます。
\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \mu)^2\)
この式を日本語で説明すると、「各データと平均値の差を2乗したものの平均」となります。
もう一つの計算式(シンプルな方法)
実は、分散を求めるにはもう一つ便利な公式があります。この公式を使うと、計算の手間を省くことができます。
\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} x_i^2 – \mu^2\)
これは「データの2乗の平均」から「平均の2乗」を引いたものです。数学的には上の式と同じ結果になりますが、計算の順序が異なります。
分散を計算する手順
分散の計算は、いくつかのステップに分けて考えるとわかりやすくなります。ここでは、基本的な公式を使った手順を順番に見ていきましょう。
ステップ1:データセットを用意する
まず、分析したいデータの集まり(データセット)を準備します。例えば、5人の生徒のテスト点数:60点、70点、75点、80点、90点といったデータです。
ステップ2:平均値を計算する
すべてのデータを足し合わせて、データの個数で割ります。これがデータセットの平均値です。
ステップ3:偏差を計算する
偏差とは、各データから平均値を引いた値のことです。これにより、各データが平均からどれだけ離れているかがわかります。偏差はプラスにもマイナスにもなります。
ステップ4:偏差を2乗する
偏差をそのまま足し合わせると、プラスとマイナスが打ち消し合ってゼロになってしまいます。そこで、各偏差を2乗することで、すべて正の値にします。
ステップ5:2乗した偏差の平均を求める
すべての偏差の2乗を足し合わせて、データの個数で割ります。これが分散です。
- データを集める:分析対象のデータセットを準備します。
- 平均値を計算:すべてのデータの合計をデータ数で割ります。
- 偏差を求める:各データから平均値を引きます。
- 偏差を2乗:求めた偏差をそれぞれ2乗します。
- 2乗の平均:2乗した偏差の合計をデータ数で割って分散を得ます。
分散の具体的な計算例
実際の計算例を通して、分散の求め方を確認してみましょう。
例題:5人の生徒のテスト点数
あるクラスの5人の生徒の数学テストの点数が次の通りだったとします。
60点、70点、75点、80点、90点
通常の公式での計算手順
それでは、基本的な公式を使って順番に計算していきましょう。
- 平均値の計算:まず、5人の点数を合計します。60 + 70 + 75 + 80 + 90 = 375点です。これをデータ数5で割ると、375 ÷ 5 = 75点が平均値となります。
- 偏差の計算:各データから平均値75を引きます。60 – 75 = -15、70 – 75 = -5、75 – 75 = 0、80 – 75 = 5、90 – 75 = 15となります。
- 偏差の2乗:それぞれの偏差を2乗します。(-15)² = 225、(-5)² = 25、0² = 0、5² = 25、15² = 225です。
- 2乗の合計:これらを足し合わせると、225 + 25 + 0 + 25 + 225 = 500となります。
- 分散の計算:この合計をデータ数5で割ります。500 ÷ 5 = 100が分散です。
したがって、この5人のテスト点数の分散は100となります。
シンプルな方法での計算例
同じデータを、もう一つの公式で計算してみましょう。
- 各データの2乗:60² = 3600、70² = 4900、75² = 5625、80² = 6400、90² = 8100
- 2乗の合計:3600 + 4900 + 5625 + 6400 + 8100 = 28625
- 2乗の平均:28625 ÷ 5 = 5725
- 平均の2乗:平均値75の2乗は、75² = 5625
- 分散の計算:5725 – 5625 = 100
どちらの方法でも、同じ分散100が得られました。計算する際には、自分にとってやりやすい方法を選ぶとよいでしょう。
| 計算方法 | 手順 | 結果 |
|---|---|---|
| 通常の公式 | 偏差を求めて2乗し、その平均をとる | 100 |
| シンプルな方法 | データの2乗の平均から平均の2乗を引く | 100 |
分散が2乗の和を使う理由
ここで一つ疑問が湧くかもしれません。なぜ偏差をそのまま使わず、わざわざ2乗するのでしょうか?
偏差の和はゼロになる
実は、偏差をそのまま足し合わせると、必ずゼロになってしまいます。なぜなら、平均値より大きいデータのプラスの偏差と、平均値より小さいデータのマイナスの偏差が、ちょうど打ち消し合うからです。
先ほどの例で確認すると、偏差は -15、-5、0、5、15 でした。これを足すと (-15) + (-5) + 0 + 5 + 15 = 0 となります。これではばらつきを測定できません。
絶対値ではなく2乗を使う理由
「それなら絶対値を使えばいいのでは?」と思うかもしれません。確かに、偏差の絶対値の平均という指標も存在します(平均偏差と呼ばれます)。しかし、2乗を使う方法には次のような利点があります。
- 数学的な扱いやすさ:2乗は微分可能で、数学的な性質が良く、さまざまな統計理論で扱いやすいのです。
- 大きな偏差を強調:2乗することで、平均から大きく離れたデータの影響がより強く反映されます。これにより外れ値の検出などに役立ちます。
- 標準偏差との関係:分散の平方根をとることで標準偏差が得られ、元のデータと同じ単位で解釈できるようになります。
偏差をそのまま足すとゼロになってしまうため、2乗してから平均をとることで、ばらつきを正確に数値化できます。
母分散と標本分散(不偏分散)の違い
分散には実は複数の種類があり、データの性質によって使い分ける必要があります。特に重要なのが母分散と標本分散、そして不偏分散の違いです。
母集団と標本とは
統計学では、調査対象全体を母集団、その一部を抜き出したものを標本と呼びます。例えば、日本国民全員が母集団で、アンケート調査に協力した1000人が標本といった具合です。
母分散(母集団の分散)
母分散は、母集団全体のデータから計算される分散です。記号では σ²(シグマの二乗)で表されます。先ほど説明した基本的な公式がこれにあたります。
\(\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2\)
ここで N は母集団のデータ数、μ は母集団の平均値です。
標本分散と不偏分散
実際の調査では、母集団全体を調べることは困難なため、標本から母集団の性質を推定することが多くなります。このとき、標本から計算した分散には2種類あります。
標本分散は、標本データをそのまま使って母分散と同じ公式(n で割る)で計算したものです。しかし、これには「標本は母集団より小さいため、ばらつきを過小評価してしまう」という問題があります。
そこで登場するのが不偏分散(または不偏標本分散)です。不偏分散は、n で割る代わりに (n-1) で割ることで、母分散を偏りなく推定できるように調整されています。記号では s² で表されます。
\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2\)
ここで n は標本のデータ数、x̄ は標本の平均値です。
どちらを使うべきか
- 母集団全体のデータがある場合:母分散(n で割る)を使います。
- 標本から母集団を推定する場合:不偏分散(n-1 で割る)を使います。これが一般的なケースです。
- 単に標本自体のばらつきを知りたい場合:標本分散(n で割る)でも構いません。
統計ソフトやExcelの関数では、VAR.P(母分散)とVAR.S(不偏分散)のように使い分けられています。
分散と標準偏差の違いと使い分け
分散と並んでよく使われるばらつきの指標に標準偏差があります。この2つの関係と使い分けを理解しておきましょう。
標準偏差とは
標準偏差(Standard Deviation)は、分散の平方根(ルート)をとった値です。記号では σ(シグマ)または s で表されます。
\(\sigma = \sqrt{\sigma^2}\)
先ほどの例では分散が100でしたから、標準偏差は √100 = 10 となります。
なぜ標準偏差が必要なのか
分散は偏差を2乗して計算するため、元のデータとは単位が異なってしまいます。例えば、テストの点数(点)の分散は「点²(点の2乗)」という単位になり、直感的に理解しづらくなります。
標準偏差は分散の平方根をとることで、元のデータと同じ単位に戻すため、実際のばらつきの大きさを直感的に把握しやすくなります。
例えば「このクラスのテストの標準偏差は10点です」と言えば、「だいたい平均値から±10点くらいの範囲にデータが分布している」というイメージが湧きやすくなります。
使い分けのポイント
| 指標 | 特徴 | 使い所 |
|---|---|---|
| 分散 | 単位が元データの2乗、理論的な計算に便利 | 統計的な検定や数学的な計算 |
| 標準偏差 | 元データと同じ単位、直感的に理解しやすい | データの説明や報告、実務的な分析 |
- 分散:統計学の理論計算や、分散分析などの統計手法で使われます。
- 標準偏差:データの説明や報告書、グラフの誤差範囲など、実務で使われることが多いです。
分散の活用方法と実用例
分散は単なる理論上の概念ではなく、実際のさまざまな場面で役立ちます。ここでは具体的な活用例を紹介します。
株式投資におけるリスク管理
株価の変動幅(ボラティリティ)を測る際、分散や標準偏差が使われます。分散が大きい銘柄は値動きが激しくハイリスク・ハイリターン、分散が小さい銘柄は値動きが安定していると判断できます。
ポートフォリオ理論では、複数の銘柄の分散と相関関係を分析することで、リスクを抑えた資産配分を設計します。
品質管理とばらつきの管理
製造業では、製品の寸法や重量などのばらつきを管理するために分散が活用されます。分散が小さいほど品質が安定しており、不良品の発生を抑えられます。
工程能力指数などの品質指標も、分散や標準偏差を基に計算されます。
テストの成績分析
学校のテスト結果を分析する際、平均点だけでなく分散を見ることで、生徒の学力のばらつきを把握できます。分散が大きい場合は個々の理解度に差があることを示し、補習や個別指導の必要性を判断する材料になります。
気象データの分析
気温や降水量などの気象データの分散を分析することで、その地域の気候の安定性や季節変動の大きさを評価できます。分散が小さい地域は気候が安定しており、大きい地域は変動が激しいと言えます。
機械学習とデータサイエンス
機械学習では、特徴量(データの特性)のスケールを揃えるために、分散を使った標準化(Standardization)という処理を行います。これにより、異なる単位や範囲を持つデータを公平に扱えるようになります。
また、主成分分析(PCA)などの次元削減手法でも、分散が重要な役割を果たします。
分散は投資、品質管理、教育、気象、機械学習など幅広い分野で、データのばらつきを定量的に評価するために活用されています。
まとめ
この記事では、統計学における分散の基本から計算方法、活用例まで詳しく解説してきました。最後に重要なポイントをまとめます。
- 分散とは:データが平均値からどれだけ散らばっているかを数値化した指標で、データのばらつき具合を客観的に測定できます。
- 分散の計算:各データと平均値の差を2乗し、その平均をとることで求められます。偏差を2乗することで、プラスとマイナスが打ち消し合うことを防ぎます。
- 母分散と不偏分散:母集団全体を扱う場合は母分散(n で割る)、標本から推定する場合は不偏分散(n-1 で割る)を使い分けます。
- 標準偏差との関係:標準偏差は分散の平方根で、元のデータと同じ単位になるため直感的に理解しやすく、実務でよく使われます。
- 実用例:株式投資のリスク管理、品質管理、テスト分析、気象データ、機械学習など、幅広い分野でデータのばらつきを評価する際に活用されています。
分散を理解することで、データの背後にある情報をより深く読み解けるようになります。単なる平均値だけでなく、ばらつきにも注目することで、より精度の高い判断や予測が可能になるでしょう。ぜひ実際のデータで計算してみて、分散の感覚をつかんでください。