株式投資やデータ分析において、数値のばらつきを正確に把握することは非常に重要です。たとえば「この銘柄の株価は平均3000円だけど、どれくらい上下するのか?」「このトレード手法の利益は安定しているのか、それともバラバラなのか?」といった疑問に答えるには、平均値だけでは不十分です。
そこで登場するのが分散です。分散はデータのばらつき具合を数値で表す統計学の基本指標であり、リスク管理や相場分析には欠かせません。この記事では、統計学における分散の意味や計算方法、そして実際の使い方まで、初心者の方にもわかりやすく丁寧に解説していきます。
目次
目次
- 分散とは何か?データのばらつきを数値化する指標
- 分散の計算方法と公式
- 偏差平方和の考え方:なぜ2乗するのか?
- 母分散と標本分散・不偏分散の違い
- 実際の計算例で分散を理解する
- 分散と標準偏差の関係
- まとめ
分散とは何か?データのばらつきを数値化する指標
分散とは、データの散らばり具合(ばらつき)を表す統計指標です。英語では「Variance」と呼ばれ、各データが平均値からどれだけ離れているかを平均的に数値化したものです。
たとえば、以下の2つのデータセットを考えてみましょう。
- データA:50, 50, 50, 50, 50(平均:50)
- データB:30, 40, 50, 60, 70(平均:50)
どちらも平均値は50ですが、データAはすべて同じ値で全くばらついていないのに対し、データBは30から70まで大きく分散しています。このような「ばらつきの違い」を数値で表現できるのが分散なのです。
分散が大きいほどデータのばらつきが大きく、小さいほどデータが平均値の周りに集中していることを意味します。
なぜ分散が必要なのか?
株式投資の世界では、リターンの平均値だけでなく、そのリスク(ばらつき)を把握することが非常に重要です。同じ平均リターンでも、一方は安定して利益を出し、もう一方は大きな利益と損失を繰り返すなら、リスクの性質は全く異なります。
また、複数の銘柄やポートフォリオを比較する際にも、分散を使うことで客観的にリスクの大きさを評価できます。平均値だけでは見えない情報を、分散が補完してくれるのです。
分散の計算方法と公式
分散を計算するには、いくつかの手順を踏む必要があります。ここでは、最も基本的な計算方法を順を追って説明します。
基本的な分散の公式
データの個数をn、各データをx₁, x₂, ..., xₙ、平均値をμとすると、分散σ²は次の公式で表されます。
\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \mu)^2\)
この公式を日本語で表現すると、「各データと平均値の差を2乗したものの平均」となります。
分散の計算手順
分散を実際に計算するには、以下のステップに従います。
- 平均値を計算する:まず、すべてのデータの平均値(
μ)を求めます。 - 偏差を求める:各データから平均値を引き、偏差(
x - μ)を計算します。 - 偏差を2乗する:各偏差を2乗して、偏差平方(
(x - μ)²)を求めます。 - 偏差平方の平均を取る:すべての偏差平方を合計し、データ数で割ります。これが分散です。
この手順を理解すれば、どんなデータセットでも分散を計算できるようになります。
シンプルな計算公式
実は、分散には計算を簡単にする別の公式も存在します。
\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} x_i^2 – \mu^2\)
これは「データの2乗の平均から、平均の2乗を引く」という形です。この公式を使うと、偏差を一つ一つ計算する手間が省けるため、計算が効率的になります。
偏差平方和の考え方:なぜ2乗するのか?
分散の計算において、なぜ偏差を2乗するのでしょうか?これには明確な理由があります。
単純な偏差の和ではダメな理由
最初に考えつくのは、「各データと平均値の差をそのまま足し合わせる」という方法です。しかし、これには致命的な欠点があります。
平均値よりも大きいデータは正の偏差を、小さいデータは負の偏差を持ちます。これらをすべて足し合わせると、正と負が打ち消し合って必ず0になってしまうのです。
たとえば、データ「40, 50, 60」の平均は50です。偏差はそれぞれ「-10, 0, +10」となり、合計すると0になります。これではばらつきを測れません。
絶対値ではなく2乗を使う理由
「それなら絶対値を使えばいいのでは?」という疑問も当然わきます。確かに、偏差の絶対値の平均(平均偏差)もばらつきの指標として使えます。
しかし、統計学では2乗を使う方が数学的に扱いやすいのです。2乗には以下のメリットがあります。
- 微分可能:絶対値は微分しにくいですが、2乗は滑らかで数学的な操作がしやすい
- 大きな偏差を強調:外れ値や大きなばらつきがより顕著に反映される
- 理論的整合性:正規分布や最小二乗法など、多くの統計理論と自然に結びつく
偏差を2乗することで、負の値を排除しつつ、大きなばらつきをより強調して評価できるようになります。
母分散と標本分散・不偏分散の違い
分散には実は3つの種類があり、それぞれ使い分けが必要です。ここでは、母分散、標本分散、不偏分散(不偏標本分散)の違いを解説します。
母分散とは
母分散は、調査対象となる全体(母集団)のばらつきを表す分散です。たとえば、日本国民全員の年収や、ある銘柄の過去すべての株価データなど、全データが手元にある場合に計算します。
母分散の公式は、先ほど紹介した基本公式そのものです。
\(\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i – \mu)^2\)
ここでNは母集団全体のデータ数です。
標本分散とは
現実には、母集団全体のデータを集めるのは困難です。そこで、母集団の一部(標本)を取り出して分散を計算します。これが標本分散です。
標本分散の公式は母分散と同じ形ですが、データ数nは標本のサイズになります。
\(s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2\)
ここでx̄は標本平均です。
不偏分散(不偏標本分散)とは
実は、標本分散には問題があります。標本から計算した分散は、母分散よりも系統的に小さく見積もられてしまう傾向があるのです(これを「バイアス」と呼びます)。
この問題を修正するために考案されたのが不偏分散です。分母をnではなくn-1にすることで、母分散を偏りなく推定できます。
\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2\)
実務的には、標本データから母集団の性質を推定する場合、不偏分散を使うのが一般的です。
どれを使えばいいのか?
- 母分散:全データが手元にある場合
- 標本分散:標本データのばらつきをそのまま知りたい場合
- 不偏分散:標本から母集団の分散を推定したい場合(最も一般的)
株式投資や統計分析では、過去の限られたデータから将来を推定することが多いため、不偏分散を使うケースが多くなります。
実際の計算例で分散を理解する
ここでは具体的な数値を使って、分散の計算手順を実践してみましょう。
例題:5つのテスト点数
ある生徒の5回のテスト点数が次の通りだったとします。
データ:70, 75, 80, 85, 90
このデータの分散を計算してみます。
ステップ1:平均値を計算する
まず、5つのデータの平均値を求めます。
\(\mu = \frac{70 + 75 + 80 + 85 + 90}{5} = \frac{400}{5} = 80\)
平均値は80点です。
ステップ2:各データの偏差を求める
各データから平均値80を引いて、偏差を計算します。
- 70 – 80 = -10
- 75 – 80 = -5
- 80 – 80 = 0
- 85 – 80 = 5
- 90 – 80 = 10
偏差の合計は「-10 + (-5) + 0 + 5 + 10 = 0」となり、確かに0になることがわかります。
ステップ3:偏差を2乗する
次に、各偏差を2乗します。
- (-10)² = 100
- (-5)² = 25
- (0)² = 0
- (5)² = 25
- (10)² = 100
ステップ4:偏差平方の平均を取る
偏差平方の合計を求め、データ数で割ります。
\(\sigma^2 = \frac{100 + 25 + 0 + 25 + 100}{5} = \frac{250}{5} = 50\)
したがって、この生徒のテスト点数の分散は50です。
シンプルな公式での計算例
同じデータを、もう一つの公式で計算してみましょう。
まず、各データの2乗を計算します。
- 70² = 4900
- 75² = 5625
- 80² = 6400
- 85² = 7225
- 90² = 8100
これらの平均を求めます。
\(\frac{4900 + 5625 + 6400 + 7225 + 8100}{5} = \frac{32250}{5} = 6450\)
次に、平均値の2乗を引きます。
\(\sigma^2 = 6450 – 80^2 = 6450 – 6400 = 50\)
同じく分散は50となり、結果が一致しました。
分散の計算は、基本公式でもシンプルな公式でも同じ結果になります。計算しやすい方を選んで使いましょう。
不偏分散の計算
もしこのデータが標本で、母集団の分散を推定したい場合は、不偏分散を使います。
\(s^2 = \frac{250}{5-1} = \frac{250}{4} = 62.5\)
不偏分散は62.5となります。分母がn-1になることで、値が少し大きくなることがわかります。
分散と標準偏差の関係
分散と並んでよく使われる指標に標準偏差があります。両者は密接に関係しており、セットで理解することが重要です。
標準偏差とは
標準偏差は、分散の平方根(ルート)をとったものです。記号ではσ(シグマ)で表されます。
\(\sigma = \sqrt{\sigma^2}\)
先ほどの例では、分散が50だったので、標準偏差は次のようになります。
\(\sigma = \sqrt{50} \approx 7.07\)
なぜ標準偏差が必要なのか?
分散は偏差を2乗しているため、単位も2乗されています。たとえば、点数の分散は「点²」という直感的にわかりにくい単位になります。
標準偏差は平方根をとることで、元のデータと同じ単位に戻します。点数なら「点」、価格なら「円」といった具合です。これにより、データのばらつきを直感的に理解しやすくなります。
実務では、分散よりも標準偏差の方が使われることが多いですが、理論的な計算や数学的な操作には分散の方が便利なケースもあります。
株式投資での活用例
株式投資では、リターンの標準偏差をボラティリティ(変動率)と呼び、リスクの指標として使います。標準偏差が大きい銘柄ほど値動きが激しく、リスクが高いと判断されます。
また、シャープレシオなどのリスク調整後リターンを計算する際にも、標準偏差が使われます。分散と標準偏差は、投資判断の基礎となる重要な統計量なのです。
分散を使ったデータ分析の応用
分散は単独で使われるだけでなく、さまざまな統計分析の基礎となります。
変動係数:異なるスケールのデータを比較する
変動係数は、標準偏差を平均値で割った値で、異なるスケールのデータのばらつきを比較するのに便利です。
\(\text{変動係数} = \frac{\sigma}{\mu} \times 100\)
たとえば、平均10円で標準偏差2円の商品Aと、平均1000円で標準偏差50円の商品Bを比較する場合、変動係数を使えば相対的なばらつきを評価できます。
分散分析(ANOVA)
複数のグループ間で平均値に差があるかを検定する分散分析という手法があります。これは、グループ間の分散とグループ内の分散を比較することで、統計的に有意な差を判定します。
ポートフォリオ理論
投資の世界では、ポートフォリオ理論において分散と共分散が中心的な役割を果たします。複数の資産を組み合わせることで、全体のリスク(分散)を減らせる可能性があります。
これらの高度な分析も、すべて分散の概念が基礎となっているのです。
分散を理解する上での注意点
外れ値の影響を受けやすい
分散は偏差を2乗するため、外れ値(極端に大きいまたは小さい値)の影響を強く受けます。たった1つの異常値が、分散を大きく歪めてしまうことがあります。
外れ値が含まれる可能性がある場合は、データのクリーニングや、ロバストな統計量(四分位範囲など)の併用を検討しましょう。
分散が0になるケース
すべてのデータが同じ値の場合、偏差はすべて0となり、分散も0になります。これは「ばらつきが全くない」ことを意味する特殊なケースです。
負の分散は存在しない
分散は偏差の2乗の平均なので、必ず0以上の値になります。計算結果が負になった場合は、計算ミスを疑いましょう。
まとめ
この記事では、統計学における分散の基本概念から計算方法、実務での活用まで詳しく解説しました。最後に要点を整理しておきます。
- 分散とは:データのばらつき具合を数値化した指標で、各データと平均値の差の2乗の平均を表します。
- 計算方法:平均値を求め、各偏差を2乗し、その平均をとることで分散を計算できます。シンプルな公式を使えば計算が効率的です。
- 母分散・標本分散・不偏分散:全データがあるか標本データかで使い分けが必要で、推定には不偏分散(n-1で割る)を使います。
- 標準偏差との関係:標準偏差は分散の平方根で、元のデータと同じ単位で直感的にばらつきを理解できます。
- 実務での活用:株式投資のリスク評価やポートフォリオ分析など、さまざまな場面で分散と標準偏差が使われます。
分散は統計学の基礎中の基礎であり、データ分析やリスク管理には欠かせない概念です。最初は計算が複雑に感じるかもしれませんが、手を動かして実際に計算してみることで、確実に理解が深まります。ぜひこの記事を参考に、分散を使いこなせるようになってください。