統計学を学び始めると、最初に出会う重要な概念のひとつが「正規分布」です。データ分析や推定、検定など、あらゆる場面で登場するこの分布ですが、「確率密度関数って何?」「なぜこんなに重要なの?」と疑問に思う方も多いのではないでしょうか。
正規分布は自然界や社会現象で最も頻繁に現れるデータの分布パターンであり、多くの統計的手法の基礎となっています。この記事では、正規分布の基本的な性質から計算方法、実際の応用例まで、初心者にもわかりやすく丁寧に解説していきます。株価の変動率分析やリスク管理にも応用できる知識なので、ぜひ最後までお読みください。
目次
目次
- 正規分布(ガウス分布)とは何か
- 正規分布の基本的な性質と特徴
- 確率密度関数と数式の理解
- 標準正規分布と標準化
- 正規分布と標準偏差の関係
- 正規分布が現れる事象と現れない事象
- 正規分布の応用例と実践
- 中心極限定理と標本平均の分布
- まとめ
正規分布(ガウス分布)とは何か
正規分布(せいきぶんぷ)は、英語で “normal distribution” と呼ばれ、別名ガウス分布(Gaussian distribution)とも言います。ドイツの数学者カール・フリードリヒ・ガウスにちなんで名付けられました。
正規分布は確率分布の一種です。確率分布とは、ある事象が起こる確率がどのように分布しているかを表したもので、正規分布は連続的な変数(身長、体重、テストの点数など)に関する確率分布として最も基本的かつ重要な位置を占めています。
正規分布の最大の特徴は、そのグラフの形状です。平均値を中心として左右対称の釣鐘型(ベル型)をしており、英語ではBell Curve(ベルカーブ)とも呼ばれています。この形状は、多くの自然現象や測定データに見られるため、統計学の検定や推定、モデル作成など様々な場面で活用されています。
正規分布は「平均値の周辺にデータが集まり、平均から離れるほどデータが少なくなる」という、自然界で最もよく見られるパターンを数式で表現したものです。
正規分布の基本的な性質と特徴
正規分布には、統計学を学ぶ上で押さえておくべき重要な性質がいくつかあります。これらを理解することで、データ分析の精度が大きく向上します。
左右対称性
正規分布のグラフは平均値を中心に完全に左右対称です。つまり、平均値より大きい値が出る確率と小さい値が出る確率が等しくなります。この対称性により、平均値、中央値、最頻値がすべて一致するという特徴があります。
平均と分散で形が決まる
正規分布は、たった2つのパラメータ(平均μと分散σ²)だけで完全に決定されます。
- 平均(μ):分布の中心位置を決定します。平均が大きくなると、分布全体が右に移動します。
- 分散(σ²)または標準偏差(σ):分布の広がり(ばらつき)を決定します。分散が大きいほど、グラフは横に広がり、なだらかになります。
このように、正規分布は「N(μ, σ²)」という記号で表されます。例えば、平均が50、分散が100の正規分布であれば「N(50, 100)」と書きます。
曲線の裾が無限に続く
正規分布の曲線は、理論上はマイナス無限大からプラス無限大まで続きます。ただし、平均から離れるほど確率は急速に小さくなるため、実質的には平均の周辺にほとんどのデータが集中します。
正規分布が持つ3つの重要な性質
- 再生性:独立な正規分布に従う確率変数同士を足し合わせても、その結果は再び正規分布に従います。例えば、2つの正規分布 N(μ₁, σ₁²) と N(μ₂, σ₂²) の和は N(μ₁+μ₂, σ₁²+σ₂²) になります。
- 線形変換の不変性:正規分布に従う変数に定数を掛けたり足したりしても、結果は正規分布に従います。
- 中心極限定理との関係:どんな分布でも、十分な数のサンプルを取って平均を計算すると、その平均値の分布は正規分布に近づきます(詳しくは後述)。
確率密度関数と数式の理解
正規分布を数式で表したものが確率密度関数です。数式と聞くと難しく感じるかもしれませんが、一つずつ分解していけば理解できます。
確率密度関数の公式
正規分布の確率密度関数は次の式で表されます。
\(f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\)
この式の各部分を見ていきましょう。
- x:観測される値(変数)
- μ(ミュー):平均値
- σ(シグマ):標準偏差
- σ²:分散
- π:円周率(約3.14159…)
- exp:自然対数の底e(約2.71828…)を底とする指数関数
数式の各部分の役割
この複雑に見える式は、実は論理的な構造を持っています。
- 正規化定数部分:\(\frac{1}{\sqrt{2\pi\sigma^2}}\) は、曲線の下の面積が1(確率の合計が100%)になるように調整する係数です。
- 指数部分:\(\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\) は、xが平均μから離れるほど値が小さくなる(確率が低くなる)ことを表現しています。
- (x-μ)²:平均からの距離の二乗なので、平均より大きくても小さくても距離として扱われます(左右対称性の根拠)。
- 2σ²で割る:標準偏差が大きいほど、同じ距離でも確率が高くなる(分布が広がる)ことを意味します。
確率密度関数は、ある値xがどれくらいの「密度」で出現するかを示します。連続的な変数では特定の値ぴったりが出る確率は0なので、「ある範囲内に入る確率」を曲線の下の面積として計算します。
期待値(平均)と分散の導出
正規分布において、期待値(平均)はμ、分散はσ²であることが数学的に証明されています。
期待値の計算:
\(E[X] = \int_{-\infty}^{\infty} x \cdot f(x) dx = \mu\)
分散の計算:
\(V[X] = E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 \cdot f(x) dx = \sigma^2\)
これらの積分計算は複雑ですが、結果として正規分布のパラメータμとσ²が、そのまま期待値と分散になるという美しい性質があります。
標準正規分布と標準化
正規分布の中でも特に重要なのが標準正規分布です。これは平均μ=0、分散σ²=1(標準偏差σ=1)の正規分布で、「N(0, 1)」と表記されます。
なぜ標準正規分布が重要なのか
どんな正規分布も、標準化という操作によって標準正規分布に変換できます。これにより、異なるスケールや単位のデータを統一的に扱えるようになります。
例えば、身長(cm)と体重(kg)のように単位が異なるデータでも、標準化すれば同じ基準で比較できます。株式投資では、異なる銘柄の価格変動率を標準化して、リスクの大きさを比較する際にこの手法が使われます。
標準化の計算方法
元のデータxを標準化するには、次の式を使います。
\(Z = \frac{x – \mu}{\sigma}\)
この変換によって得られるZをZ値または標準得点と呼びます。
- 平均を引く(x – μ):分布の中心を0に移動させます。
- 標準偏差で割る(÷σ):ばらつきを1に調整します。
例えば、平均60点、標準偏差10点のテストで70点を取った場合のZ値は:
\(Z = \frac{70 – 60}{10} = 1.0\)
これは「平均より標準偏差1個分高い」という意味になります。
標準正規分布表の活用
標準正規分布のZ値に対応する確率は、標準正規分布表(Zテーブル)として整理されています。この表を使えば、複雑な積分計算をせずに確率を求められます。
現在では統計ソフトやExcelの関数(NORM.S.DIST)を使えば簡単に計算できますが、Z値の概念を理解しておくことは、統計的な判断を行う上で非常に重要です。
正規分布と標準偏差の関係
正規分布において、標準偏差はデータの散らばり具合を測る最も重要な指標です。そして、正規分布には標準偏差に関する非常に便利な法則があります。
68-95-99.7ルール(経験則)
正規分布に従うデータは、平均から標準偏差の範囲内に一定の割合で収まるという明確なパターンがあります。
- 平均±1σの範囲:約68%のデータが含まれる
- 平均±2σの範囲:約95%のデータが含まれる
- 平均±3σの範囲:約99.7%のデータが含まれる
この法則は経験則または3シグマルールと呼ばれ、データ分析の現場で頻繁に使われます。
実践的な活用例
例えば、ある製品の製造工程で平均100g、標準偏差5gの正規分布に従って重量がばらつくとします。
- 95%の製品は 100±2×5 = 90g〜110g の範囲に収まる
- 85gや115gといった値は滅多に出ない(約0.3%未満)
株式投資では、日次リターンの標準偏差(ボラティリティ)から、「95%の確率で損失がこの範囲内に収まる」といったリスク評価ができます。
標準偏差が分布に与える影響
標準偏差が小さいほど、データは平均の周りに集中し、グラフは高く尖ります。逆に標準偏差が大きいほど、データは広く散らばり、グラフは低く平らになります。
同じ平均値を持つ2つの正規分布でも、標準偏差が異なればデータの性質はまったく異なります。投資の世界では、同じ期待リターンでも標準偏差(リスク)が大きい方が不確実性が高いと判断されます。
正規分布が現れる事象と現れない事象
正規分布は非常に重要ですが、すべてのデータが正規分布に従うわけではありません。どんな事象が正規分布するのか、しないのかを知ることは、適切な統計手法を選ぶために不可欠です。
正規分布する事象の例
多くの自然現象や測定データは、正規分布またはそれに近い分布を示します。
- 身長・体重:同じ年齢・性別の集団では、平均的な値の周りに分布します。
- テストの点数:受験者が多く、問題の難易度が適切であれば正規分布に近づきます。
- 測定誤差:精密機器の測定誤差は多くの場合、正規分布に従います。
- 製造品の寸法:工業製品の重量、長さなどのばらつき。
- 気温の変動:長期間の平均気温からのずれ。
- 株価の変動率(リターン):完全ではありませんが、短期的な日次リターンはおおむね正規分布に近い形を示すことが多いです。
正規分布しない事象の例
一方で、次のような事象は正規分布に従いません。
- 所得分布:一部の高所得者が平均を大きく引き上げるため、右に長い裾を持つ歪んだ分布になります。
- 株価そのもの:株価は負の値を取らないため、対数正規分布に従うと考えられています。
- 待ち時間:電話の着信間隔や機械の故障までの時間は、指数分布に従うことが多いです。
- サイコロやコインの結果:離散的な値を取る場合は、二項分布などの離散型確率分布が適しています。
- 極端な事象:地震の規模や保険金請求額など、まれに非常に大きな値が出る現象。
歪度と正規分布の判定
歪度(わいど、skewness)は、分布の対称性からのずれを測る指標です。正規分布では歪度は0になります。
- 正の歪度:右に長い裾がある(平均より大きい側に外れ値がある)
- 負の歪度:左に長い裾がある(平均より小さい側に外れ値がある)
データが正規分布に従うかどうかは、ヒストグラムを描いたり、正規性の検定(シャピロ・ウィルク検定など)を行ったりして確認します。
統計的な検定や分析手法の多くは「データが正規分布に従う」ことを前提としています。そのため、分析前にデータの分布を確認し、正規分布からかけ離れている場合は適切な変換や別の手法を検討する必要があります。
正規分布の応用例と実践
正規分布の理論は、実際の現場でどのように活用されているのでしょうか。具体的な応用例を見ていきましょう。
統計的検定への応用
正規分布は、t検定やANOVA(分散分析)といった仮説検定の基礎となっています。
例えば、新しい薬の効果を検証する際、「薬を飲んだグループ」と「飲まなかったグループ」の平均値を比較しますが、この際にデータが正規分布に従うと仮定してt検定を行います。検定統計量の分布が正規分布または関連する分布(t分布)に従うため、確率的に「差が偶然か否か」を判断できるのです。
品質管理とシックスシグマ
製造業では、製品の品質を維持するために正規分布の性質が活用されています。
シックスシグマは、不良品率を100万個あたり3.4個以下(平均±6σの範囲外が0.00034%)に抑えることを目指す品質管理手法です。正規分布を前提に、製造プロセスのばらつきを標準偏差で測定し、継続的に改善を行います。
リスク管理とVaR(Value at Risk)
金融業界では、VaRという指標で市場リスクを測定します。これは「一定期間内に、ある確率で被る可能性がある最大損失額」を推定するものです。
例えば、ポートフォリオのリターンが正規分布に従うと仮定し、95%信頼区間(平均-1.645σ)を計算することで、「95%の確率で損失がこの金額以下に収まる」と判断します。
ただし、実際の金融市場では正規分布の仮定が成り立たない「ファットテール」(極端な事象が理論より多く起こる)現象があるため、注意が必要です。
機械学習と正規分布
機械学習の多くのアルゴリズムでも正規分布の仮定が使われています。
- 線形回帰:誤差項が正規分布に従うと仮定
- ナイーブベイズ分類器:特徴量が正規分布に従うと仮定してクラス分類
- 主成分分析(PCA):データの分散を最大化する方向を見つける際、正規分布の性質を利用
AB テストとコンバージョン率の比較
Webサイトの改善では、2つのバージョン(AとB)のどちらがコンバージョン率が高いかを検証するABテストが行われます。この際、標本データから母集団の平均値を推定し、正規分布に基づいた信頼区間や検定を用いて判断します。
中心極限定理と標本平均の分布
正規分布が統計学で重要な理由の一つが、中心極限定理(ちゅうしんきょくげんていり、Central Limit Theorem)の存在です。
中心極限定理とは
中心極限定理は「元のデータがどんな分布に従っていても、サンプルサイズが十分に大きければ、標本平均の分布は正規分布に近づく」という驚くべき定理です。
これは統計学における最も重要な定理の一つで、次のことを意味します。
- 母集団が正規分布でなくても、標本平均は正規分布に従う
- サンプルサイズが大きいほど、正規分布への近似精度が高まる
- 一般に、サンプルサイズが30以上あれば、標本平均はおおむね正規分布に近づくとされる
中心極限定理の数学的表現
母集団の平均がμ、分散がσ²である任意の分布から、サイズnの標本を取り出したとき、標本平均\(\bar{X}\)は次のように近似的に正規分布に従います。
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
標準化すると:
\(Z = \frac{\bar{X} – \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)
ここで\(\sigma/\sqrt{n}\)を標準誤差と呼びます。サンプルサイズnが大きくなるほど標準誤差は小さくなり、標本平均は母平均μに近づきます。
中心極限定理の実用的意義
中心極限定理があるおかげで、次のようなことが可能になります。
- 推定:標本平均から母平均を推定し、信頼区間を計算できます。
- 検定:標本平均の差を検定することで、母集団に差があるかを判断できます。
- 予測:将来のデータの平均値を予測し、その不確実性を評価できます。
例えば、世論調査では数百人〜数千人のサンプルから、数千万人の母集団の意見を推定しますが、これも中心極限定理に基づいています。
関連する確率分布
正規分布は、他の重要な確率分布とも深く関係しています。
- カイ二乗分布:標準正規分布に従う確率変数の二乗和の分布。分散の検定に使われます。
- t分布:標本サイズが小さい場合の標本平均の分布。正規分布より裾が厚く、サンプルサイズが大きくなると正規分布に近づきます。
- F分布:2つのカイ二乗分布の比の分布。分散比の検定に使われます。
これらはすべて正規分布から派生した分布であり、統計的推測の基礎となっています。
積率母関数と正規分布の理論
より高度な理論として、正規分布は積率母関数(モーメント母関数、Moment Generating Function)を用いて特徴づけることもできます。
積率母関数M(t)は次のように定義されます。
\(M(t) = E[e^{tX}] = \int_{-\infty}^{\infty} e^{tx} f(x) dx\)
正規分布N(μ, σ²)の積率母関数は:
\(M(t) = \exp\left(\mu t + \frac{\sigma^2 t^2}{2}\right)\)
この関数を微分することで、各次のモーメント(期待値、分散、歪度、尖度など)を導出できます。また、積率母関数の性質から正規分布の再生性(独立な正規分布の和が正規分布になる)も証明できます。
実務ではあまり使いませんが、理論的な理解を深めるためには重要な概念です。
多変量正規分布への拡張
これまで説明してきたのは1変数の正規分布ですが、複数の変数が同時に正規分布に従う場合を多変量正規分布といいます。
例えば、株式ポートフォリオでは複数の銘柄のリターンを同時に扱う必要があり、各リターンが正規分布に従うだけでなく、銘柄間の相関も考慮する必要があります。このような場合に多変量正規分布が使われます。
多変量正規分布は、平均ベクトルμと共分散行列Σによって特徴づけられ、次の確率密度関数で表されます。
\(f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T\Sigma^{-1}(\mathbf{x}-\mu)\right)\)
ここでkは変数の個数、|Σ|は行列式、Σ⁻¹は逆行列を表します。
多変量正規分布の理論は、ポートフォリオ理論、リスク管理、多変量解析など、より高度な分析で不可欠です。
まとめ
この記事では、統計学における最も重要な概念の一つである正規分布について、基礎から応用まで詳しく解説してきました。最後に要点を整理しておきましょう。
- 正規分布の基本:平均μと分散σ²の2つのパラメータで決まる、左右対称の釣鐘型(ベル型)の分布です。自然界や社会現象で最も頻繁に現れるデータのパターンを表現します。
- 標準正規分布と標準化:平均0、分散1の正規分布を標準正規分布といい、どんな正規分布もZ変換によって標準正規分布に変換できます。これにより異なるスケールのデータを統一的に扱えます。
- 68-95-99.7ルール:正規分布では、平均±1σ、±2σ、±3σの範囲にそれぞれ約68%、95%、99.7%のデータが含まれます。この法則はリスク評価や品質管理で広く活用されています。
- 中心極限定理の重要性:元のデータの分布に関わらず、十分なサンプルサイズがあれば標本平均は正規分布に従います。これにより、様々な推定や検定が可能になります。
- 実践的応用:正規分布は統計的検定、品質管理、リスク管理、機械学習など、幅広い分野で応用されています。ただし、すべてのデータが正規分布に従うわけではないため、分析前に分布を確認することが重要です。
正規分布の理解は、データ分析や統計的思考の基盤となります。株式投資においても、リスク評価やポートフォリオ構築の際にこの知識が役立ちます。まずは68-95-99.7ルールや標準化の概念から実践的に使いこなし、徐々に理論的な理解を深めていくことをおすすめします。