データ分析や統計学を学び始めると、必ず出会うのが「分散(Variance)」という言葉です。株価のばらつきを評価したい、テストの点数のバラつき具合を知りたい、投資のリスクを数値化したい——そんなとき、分散はデータの散らばり具合を客観的に捉えるための強力な道具になります。
でも、初めて「分散」を勉強すると「平均値からの差を2乗して平均を取る?なぜ2乗するの?」と疑問に思う方も多いでしょう。この記事では、分散とは何か、なぜ2乗するのか、そして具体的な求め方を、初心者の方にもわかりやすく丁寧に解説します。計算手順を順序立てて説明し、実際の数値例を使って一緒に計算していきますので、ぜひ最後までご覧ください。
目次
目次
- 分散とは何か?データのばらつきを測る指標
- 分散が重要な理由とは
- 分散の公式(2種類)と意味
- 分散を求める手順を5ステップで解説
- 分散の計算例:具体的な数値で実践
- 分散が2乗を使う理由
- シンプルな分散の求め方(便利な公式)
- 標準偏差との違いと使い分け
- まとめ
分散とは何か?データのばらつきを測る指標
分散とは、データがどれくらいばらついているのかを数値で表す統計学の指標です。英語では「Variance」と呼ばれ、記号ではVやσ²(シグマの2乗)で表されます。
たとえば、AさんとBさんの5日間の株価変動を比べたとき、平均は同じでも「Aさんの投資先は毎日ほぼ同じ値動き」で「Bさんの投資先は激しく上下する」という違いがあるかもしれません。このとき、平均値だけを見ていては、データの散らばり具合を見逃してしまいます。
分散を使えば、データが平均値の周りにどれくらい散らばっているかを客観的に数値化でき、リスク評価や傾向分析が可能になります。
分散が重要な理由とは
なぜ、統計学やデータ分析で分散が重要視されるのでしょうか。主な理由は以下の通りです。
- データの信頼性評価:分散が小さいデータは平均値の周りに集まっており、予測がしやすい
- リスク管理:株価や投資リターンの分散が大きいほど、リスク(変動幅)が大きいと判断できる
- 品質管理:製造業では製品のばらつき(分散)を小さくすることで品質を均一化する
- 仮説検定の基礎:分散分析(ANOVA)など、多くの統計手法で分散が土台となる
このように、分散は単なる計算式ではなく、データの本質を理解し意思決定につなげるための道具なのです。
分散の公式(2種類)と意味
分散には、データの種類や目的に応じて2種類の公式があります。それぞれ見ていきましょう。
母集団の分散(母分散)
調査対象のデータ全体(母集団)に対する分散です。記号ではσ²(シグマの2乗)で表します。
\(
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2
\)
- N:データの総数
- x_i:各データの値
- μ(ミュー):母集団の平均値
母集団全体のデータが揃っている場合、この公式で分散を求めます。
標本の分散(標本分散・不偏分散)
母集団の一部を抽出したデータ(標本)から、母集団の分散を推定するための公式です。記号ではs²で表します。
\(
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2
\)
- n:標本のデータ数
- x_i:各データの値
- x̄(エックスバー):標本の平均値
分母がn-1になっている点が特徴です。これは、標本から母集団を推定するときに生じるバイアスを補正するためです。この公式を使った分散は不偏分散と呼ばれ、統計的推測でよく使われます。
分散を求める手順を5ステップで解説
それでは、実際に分散を計算する手順を、順序立てて説明します。ここでは母集団の分散を求める基本手順を紹介します。
- データの平均値を求める:全データの合計をデータ数で割り、平均値を算出します。
- 各データと平均値の差(偏差)を求める:各データから平均値を引いた値を計算します。これを偏差といいます。
- 偏差をそれぞれ2乗する:偏差をすべて2乗します。マイナスの値もプラスになり、大きな偏差がより強調されます。
- 2乗した偏差の合計を求める:すべての2乗偏差を足し合わせます。これを偏差平方和といいます。
- 偏差平方和をデータ数で割る:偏差平方和をデータ数で割ることで、分散が得られます。
この5ステップを順に実行すれば、どんなデータでも分散を正確に計算できます。
分散の計算例:具体的な数値で実践
それでは、具体的な数値を使って分散を計算してみましょう。以下のような5日間の株価データがあるとします。
| 日付 | 株価(円) |
|---|---|
| 1日目 | 100 |
| 2日目 | 105 |
| 3日目 | 95 |
| 4日目 | 110 |
| 5日目 | 90 |
ステップ1:平均値を求める
まず、5日間の株価の平均値を計算します。
\(
\text{平均値} = \frac{100 + 105 + 95 + 110 + 90}{5} = \frac{500}{5} = 100
\)
平均値は100円です。
ステップ2:偏差を求める
各データから平均値を引いて、偏差を求めます。
| 日付 | 株価(円) | 偏差 |
|---|---|---|
| 1日目 | 100 | 100 – 100 = 0 |
| 2日目 | 105 | 105 – 100 = 5 |
| 3日目 | 95 | 95 – 100 = -5 |
| 4日目 | 110 | 110 – 100 = 10 |
| 5日目 | 90 | 90 – 100 = -10 |
ステップ3:偏差を2乗する
次に、それぞれの偏差を2乗します。
| 日付 | 偏差 | 偏差の2乗 |
|---|---|---|
| 1日目 | 0 | 0² = 0 |
| 2日目 | 5 | 5² = 25 |
| 3日目 | -5 | (-5)² = 25 |
| 4日目 | 10 | 10² = 100 |
| 5日目 | -10 | (-10)² = 100 |
ステップ4:2乗した偏差の合計を求める
2乗した偏差をすべて足し合わせます。
\(
0 + 25 + 25 + 100 + 100 = 250
\)
ステップ5:データ数で割って分散を求める
最後に、偏差平方和をデータ数で割ります。
\(
\sigma^2 = \frac{250}{5} = 50
\)
この5日間の株価データの分散は50となります。
分散が2乗を使う理由
ここで、「なぜ偏差をそのまま足さずに、わざわざ2乗するのか?」という疑問が湧くかもしれません。実はこれには統計学的な理由があります。
偏差の和は常にゼロになる
偏差(各データ – 平均値)をそのまま足し合わせると、プラスとマイナスが打ち消し合って必ず0になります。これでは、ばらつきを測ることができません。
\(
\sum (x_i – \bar{x}) = 0
\)
絶対値ではなく2乗を使う理由
偏差を絶対値にする方法もありますが、統計学では2乗を用いるのが一般的です。理由は以下の通りです。
- 数学的な扱いやすさ:2乗は微分可能で、数式の計算がしやすい
- 大きな偏差をより強調:2乗することで、平均から大きく離れたデータの影響が大きくなり、外れ値を検出しやすい
- 統計理論との整合性:正規分布や最小二乗法など、多くの統計手法が2乗を基盤にしている
偏差を2乗することで、データのばらつきを正確に、かつ数学的に扱いやすい形で表現できるのです。
シンプルな分散の求め方(便利な公式)
実は、分散を求めるときには、もっと計算が楽になる便利な公式が存在します。これは「データの2乗の平均 – 平均の2乗」という形で表されます。
\(
\sigma^2 = \frac{1}{N} \sum x_i^2 – \left( \frac{1}{N} \sum x_i \right)^2
\)
つまり、
\(
\sigma^2 = (\text{データの2乗の平均}) – (\text{平均値})^2
\)
この公式を使うと、偏差を一つ一つ計算しなくても、データの2乗の合計と平均値から直接分散を求めることができます。
便利な公式での計算例
先ほどと同じ株価データを使って、この公式で分散を求めてみましょう。
データ:100, 105, 95, 110, 90
- 各データを2乗する
| 株価 | 2乗 |
|---|---|
| 100 | 10000 |
| 105 | 11025 |
| 95 | 9025 |
| 110 | 12100 |
| 90 | 8100 |
- 2乗の合計を求め、平均を出す
\(
\frac{10000 + 11025 + 9025 + 12100 + 8100}{5} = \frac{50250}{5} = 10050
\)
- 平均値を2乗する
\(
100^2 = 10000
\)
- 差を求めて分散を得る
\(
\sigma^2 = 10050 – 10000 = 50
\)
結果は先ほどと同じ50です。この方法なら、計算ステップが少なくなり、電卓やExcelでも簡単に計算できます。
標準偏差との違いと使い分け
分散と並んでよく使われるのが標準偏差(Standard Deviation)です。標準偏差は、分散の平方根(ルート)を取ったものです。
\(
\sigma = \sqrt{\sigma^2}
\)
先ほどの例では、分散が50だったので、標準偏差は以下のようになります。
\(
\sigma = \sqrt{50} \approx 7.07
\)
分散と標準偏差の違い
| 指標 | 単位 | 特徴 |
|---|---|---|
| 分散 | 元データの単位の2乗 | ばらつきを数学的に扱いやすい形で表現 |
| 標準偏差 | 元データと同じ単位 | 直感的に理解しやすく、データと同じスケールで比較可能 |
分散は理論的な計算や統計モデルで使われることが多く、標準偏差は実務でのリスク評価やデータの散らばり具合を直感的に理解したいときに使われます。
たとえば、株価のリスクを説明するときには「分散は50」よりも「標準偏差は約7円」と表現した方が、どれくらい価格が動くのかイメージしやすいですね。
まとめ
この記事では、統計学における分散の意味と求め方を、初心者の方にも分かりやすく解説しました。以下、重要なポイントをおさらいしましょう。
- 分散とは:データが平均値の周りにどれくらい散らばっているかを数値化した指標で、ばらつきを測るために使う
- 分散の公式は2種類:母集団全体を扱う母分散と、標本から推定する不偏分散があり、目的に応じて使い分ける
- 分散の求め方は5ステップ:平均を求める→偏差を求める→2乗する→合計する→データ数で割る、という手順で計算する
- 2乗する理由:偏差の和がゼロになることを防ぎ、大きな偏差を強調し、数学的に扱いやすくするため
- 便利な公式:データの2乗の平均から平均の2乗を引く方法で、手間を減らして分散を求められる
- 標準偏差との使い分け:分散は理論計算向き、標準偏差は実務での直感的理解に適している
分散を正しく理解し使いこなせるようになると、株価分析やリスク管理、品質管理など、さまざまな場面でデータの本質を見抜く力が身につきます。ぜひ実際のデータで計算練習をしてみて、分散の感覚をつかんでみてください。