統計学と確率の関係を初心者向けに解説【基礎から実践まで】

株式投資やデータ分析を始めると、「統計学」や「確率」という言葉を頻繁に目にするようになります。テクニカル分析の指標を理解したり、投資判断の精度を高めたりするには、これらの基礎知識が欠かせません。

しかし、「確率ってサイコロの目が出る割合のこと?」「統計学と確率はどう違うの?」と疑問に感じている方も多いのではないでしょうか。実は、統計学確率は密接に結びついており、確率論が統計学の土台となっています。

この記事では、統計学と確率の基礎から、両者の関係、実際の計算方法、そして投資への応用まで、初心者の方にもわかりやすく解説していきます。数式が苦手な方でも理解できるよう、具体例を交えながら丁寧に説明しますので、ぜひ最後までお読みください。

目次

  • 統計学と確率の違いとは
  • 確率の基本的な定義と考え方
  • 確率の公理と基本性質
  • 事象と場合の数の求め方
  • 確率変数と確率分布の理解
  • 統計学における確率の役割
  • 数学的確率と統計的確率の違い
  • なぜ統計学では100%と0%が存在しないのか
  • 株式投資での確率・統計の活用法
  • まとめ

統計学と確率の違いとは

まず最初に、統計学確率がどのように異なるのかを整理しましょう。この2つは密接に関係していますが、アプローチの方向性が逆になっています。

確率論:原因から結果を予測する

確率論は、既知の条件や仕組みから、将来起こりうる結果を予測する学問です。例えば、サイコロを振ったとき、1から6までの目が出る確率がそれぞれ6分の1であることは、サイコロの構造(6つの面が均等)という原因から導き出せます。

確率論では、モデルやルールが先にあり、そこから結果の可能性を計算していくのが特徴です。

統計学:結果から原因を推測する

一方、統計学は、観察されたデータ(結果)から、その背後にある法則や傾向(原因)を推測する学問です。例えば、実際にサイコロを100回振った結果を記録し、そのサイコロが本当に公平なのかを判断するのが統計学の役割です。

統計学では、確率論の考え方を道具として使いながら、現実のデータから意味のある情報を引き出します。つまり、確率は統計学の基礎理論として機能しているのです。

POINT

統計学と確率は表裏一体の関係にあります。確率論が「もし〜ならば、こうなる」という演繹的思考であるのに対し、統計学は「こうなった、だから〜かもしれない」という帰納的思考です。両方を理解することで、データ分析の力が飛躍的に高まります。

確率の基本的な定義と考え方

それでは、確率の基本的な定義から見ていきましょう。確率とは、ある出来事(事象)が起こる可能性を数値で表したものです。

確率の数学的定義

確率を数学的に定義する方法はいくつかありますが、最も基本的なのは「古典的確率」と呼ばれるものです。

\(P(A) = \frac{\text{事象Aが起こる場合の数}}{\text{起こりうるすべての場合の数}}\)

ここで、P(A)は事象Aが起こる確率を表します。この定義は、すべての結果が等しく起こりやすい(同様に確からしい)場合に適用できます。

具体例:コイン投げとサイコロ

理解を深めるために、身近な例で考えてみましょう。

  • コイン投げ:表が出る確率は、表が出る場合の数(1通り)を、すべての場合の数(表と裏の2通り)で割って、1÷2=0.5、つまり50%です。
  • サイコロ:偶数の目が出る確率は、偶数の目(2、4、6の3通り)を、すべての目(6通り)で割って、3÷6=0.5、つまり50%です。

このように、確率は0から1の間の値をとり、パーセントで表すと0%から100%の範囲になります。確率が0に近いほど起こりにくく、1に近いほど起こりやすい事象であることを意味します。

確率の公理と基本性質

確率論では、確率が満たすべき基本的なルール(公理)が定められています。これらは「コルモゴロフの公理」として知られ、現代確率論の土台となっています。

確率の3つの公理

  1. 非負性:どのような事象についても、その確率は0以上1以下となります。つまり、0 ≤ P(A) ≤ 1です。負の確率や1を超える確率は存在しません。
  2. 全事象の確率:必ず起こる事象(全事象)の確率は1です。サイコロを振れば必ず1から6のどれかの目が出るので、P(全事象) = 1となります。
  3. 加法性:互いに排反な事象(同時には起こらない事象)の和集合の確率は、それぞれの事象の確率の和となります。例えば、サイコロで1の目が出る事象と2の目が出る事象は排反なので、どちらかが出る確率は1/6 + 1/6 = 2/6 = 1/3です。

これらの公理は一見当たり前に思えるかもしれませんが、確率論のすべての性質はこの3つの公理から論理的に導き出されます。

補事象の確率

公理から導かれる重要な性質の一つが、補事象の確率です。事象Aが起こらない確率は、次の式で表されます。

\(P(\text{Aが起こらない}) = 1 – P(A)\)

例えば、サイコロで1の目が出る確率が1/6なら、1以外の目が出る確率は1 – 1/6 = 5/6となります。この性質は、複雑な確率計算を簡単にするためによく使われます。

事象と場合の数の求め方

確率を実際に計算するには、「場合の数」を正確に数える必要があります。ここでは、事象の概念と、場合の数を求める基本的な方法を見ていきましょう。

事象とは何か

事象とは、試行(実験や観察)によって起こりうる結果の集まりのことです。例えば、サイコロを振る試行において、「偶数の目が出る」という事象は、{2, 4, 6}という結果の集合として表現できます。

事象の演算

事象は集合として扱われるため、集合演算が適用できます。

  • 和事象(A ∪ B):事象Aまたは事象Bが起こる事象です。例:「1の目が出る」または「2の目が出る」
  • 積事象(A ∩ B):事象Aと事象Bが同時に起こる事象です。例:「偶数の目が出る」かつ「4以下の目が出る」→{2, 4}
  • 排反事象:同時には起こらない事象です。例:「1の目が出る」と「2の目が出る」は排反です。

場合の数の基本的な計算方法

場合の数を求める基本的な方法として、以下の2つがあります。

  1. 積の法則:事象Aの起こり方がm通り、その各々について事象Bの起こり方がn通りあるとき、AとBがともに起こる場合の数はm × n通りです。例えば、コインを2回投げる場合の数は2 × 2 = 4通りです。
  2. 和の法則:事象Aの起こり方がm通り、事象Bの起こり方がn通りあり、AとBが同時には起こらないとき、AまたはBが起こる場合の数はm + n通りです。

順列と組合せ

より複雑な場合の数を計算するには、順列組合せの概念が必要になります。

  • 順列(Permutation):n個の中からr個を選んで並べる方法の数です。順序が重要な場合に使います。計算式はnPr = n!/(n-r)!です。
  • 組合せ(Combination):n個の中からr個を選ぶ方法の数です。順序を考えない場合に使います。計算式はnCr = n!/[r!(n-r)!]です。

例えば、52枚のトランプから5枚を選ぶ組合せの数は、52C5 = 2,598,960通りになります。これはポーカーの役の確率を計算する際に使われる基本的な数値です。

確率変数と確率分布の理解

統計学では、確率変数確率分布という概念が非常に重要になります。これらは確率論と統計学をつなぐ架け橋のような存在です。

確率変数とは

確率変数とは、試行の結果に応じて値が定まる変数のことです。例えば、サイコロを振ったときの出目を表す変数Xは確率変数です。Xは1、2、3、4、5、6のいずれかの値をとり、それぞれの値をとる確率が決まっています。

確率変数には、離散型(とびとびの値をとる)と連続型(連続的な値をとる)の2種類があります。

  • 離散型確率変数:サイコロの目、コインの表裏の回数など、数えられる値をとる変数です。
  • 連続型確率変数:身長、体重、株価など、連続的な範囲内のあらゆる値をとりうる変数です。

確率分布とは

確率分布とは、確率変数がどのような値をどのような確率でとるのかを表したものです。確率分布を知ることで、その確率変数の全体像を把握できます。

代表的な確率分布には、以下のようなものがあります。

  • 二項分布:成功確率がpの試行をn回繰り返したときの成功回数の分布です。コインを10回投げたときの表が出る回数などがこれに従います。
  • 正規分布(ガウス分布):平均を中心に左右対称な釣鐘型の分布です。自然界や社会現象で最もよく見られる分布で、株価の変動率などもこれに近い分布をすることがあります。
  • ポアソン分布:一定時間内に発生する稀な事象の回数の分布です。

期待値と分散

確率分布の特徴を表す代表的な指標が、期待値分散です。

期待値は、確率変数がとる値の「平均的な値」を表します。離散型確率変数Xの期待値E(X)は、次の式で計算されます。

\(E(X) = \sum_{i} x_i \times P(X = x_i)\)

例えば、サイコロの目の期待値は、(1×1/6) + (2×1/6) + (3×1/6) + (4×1/6) + (5×1/6) + (6×1/6) = 3.5となります。

分散は、確率変数の値が期待値からどれくらいばらついているかを表す指標です。分散が小さいほど期待値の周辺に値が集中し、大きいほどばらついています。

POINT

期待値は株式投資でも重要な概念です。例えば、勝率60%で利益が10万円、負ける確率40%で損失が5万円の取引の期待値は、(0.6×10万円) + (0.4×-5万円) = 4万円となります。期待値がプラスなら長期的には利益が出る戦略と言えます。

統計学における確率の役割

ここまで確率の基礎を学んできましたが、これらが統計学においてどのように活用されるのかを見ていきましょう。

母集団と標本

統計学では、調査対象全体を母集団、そこから実際に抽出されたデータを標本と呼びます。例えば、日本人全員の身長を知りたい場合、母集団は「日本人全員」、標本は「実際に測定した1000人」となります。

通常、母集団全体を調査することは不可能なので、標本から母集団の性質を推測します。この推測の妥当性を保証するのが確率論です。

統計的推測における確率

統計学の主要な目的の一つが統計的推測です。これには「推定」と「検定」という2つの柱があります。

推定

推定とは、標本から母集団のパラメータ(平均、分散など)を推測することです。例えば、標本平均から母平均を推定します。

確率論は、推定値がどれくらい信頼できるかを評価するために使われます。信頼区間という概念では、「母平均は95%の確率でこの範囲内にある」といった確率的な表現で推定の精度を示します。

検定

検定とは、ある仮説が正しいかどうかを標本データから判断することです。例えば、「新しい投資手法は従来の手法より優れている」という仮説を検証します。

検定では、「仮説が正しいと仮定した場合に、観察されたデータが得られる確率」を計算します。この確率(p値)が十分小さければ、仮説を棄却します。ここでも確率の考え方が中心的な役割を果たしています。

確率分布と統計モデル

統計学では、データが特定の確率分布に従うと仮定してモデルを構築します。例えば、多くの統計手法は「データが正規分布に従う」という前提のもとで開発されています。

適切な確率分布を選ぶことで、データの背後にあるパターンを数学的に表現し、予測や意思決定に役立てることができます。

数学的確率と統計的確率の違い

確率には大きく分けて数学的確率統計的確率という2つの考え方があります。この違いを理解することで、確率の本質がより深く見えてきます。

数学的確率(理論的確率)

数学的確率は、理論的に計算される確率です。サイコロやコインのように、対称性や構造から論理的に確率を導き出します。

例えば、公平なサイコロで1の目が出る確率は、実験をしなくても理論的に1/6だとわかります。これは「すべての目が等しく出やすい」という前提から演繹的に導かれる確率です。

統計的確率(経験的確率)

一方、統計的確率は、実際の観察やデータから経験的に求められる確率です。大量の試行を繰り返し、その結果の相対頻度から確率を推定します。

例えば、ある野球選手の打率が3割というのは、過去の打席結果から計算された統計的確率です。理論的に導けるものではなく、実際のデータに基づいています。

両者の関係:大数の法則

数学的確率と統計的確率をつなぐのが大数の法則です。これは、「試行回数を増やせば増やすほど、統計的確率(相対頻度)は数学的確率に近づく」という法則です。

例えば、コインを10回投げただけでは表が5回出るとは限りませんが、10万回投げれば表が出る割合はほぼ50%に近づきます。この法則があるからこそ、実験データから理論的な確率を推測することができるのです。

株式投資における応用

株式投資では、過去のデータから統計的確率を計算し、それを将来の予測に使います。例えば、「過去10年間で、この条件を満たした株は80%の確率で上昇した」という分析は統計的確率に基づいています。

ただし、株式市場は常に変化するため、過去の統計的確率が将来も成立するとは限りません。この不確実性を理解することが、リスク管理において重要です。

なぜ統計学では100%と0%が存在しないのか

統計学を学ぶと、「絶対に」「確実に」といった言葉が使われないことに気づきます。なぜ統計学では100%0%という表現を避けるのでしょうか。

標本から全体を推測する宿命

統計学の本質は、限られた標本データから、全体(母集団)の性質を推測することにあります。全数調査ができない以上、推測には必ず不確実性が伴います。

例えば、1000人の有権者に調査して「候補者Aの支持率は55%」という結果が出ても、これは全有権者の55%が支持しているという意味ではありません。真の支持率は、例えば「95%の信頼度で50%〜60%の範囲内」といった確率的な表現になります。

標本に基づく推測である限り、100%の確実性を主張することはできないのです。

偶然の可能性を排除できない

統計学では、観察された現象が偶然によって生じた可能性を常に考慮します。例えば、新薬の効果を検証する臨床試験で、薬を飲んだグループの方が改善率が高かったとしても、それが偶然の結果である可能性をゼロにはできません。

統計的検定では、通常「有意水準5%」(p 0.05)を基準とします。これは「偶然でこの結果が出る確率が5%未満」という意味で、逆に言えば5%の誤りを許容しています。100%の確実性ではなく、「95%以上の信頼性」で判断するのです。

実用上の価値:100%は役に立たない

興味深いことに、もし100%確実な予測ができるなら、それは統計学的に意味がありません。なぜなら、100%確実にわかっていることについては、わざわざ統計的に分析する必要がないからです。

例えば、「太陽は東から昇る」という事象は100%確実ですが、これを統計的に検証する意味はありません。統計学が力を発揮するのは、不確実性がある場合、つまり0%でも100%でもない中間領域なのです。

記述統計では100%がある

ただし、例外もあります。記述統計(手元にあるデータそのものを要約する統計)では、100%や0%という表現が可能です。

例えば、「この調査対象の100人のうち、80人が賛成した」という場合、標本内での割合は確実に80%です。しかし、これを母集団全体に拡張して推測する推測統計になった瞬間、不確実性が入り込み、100%という表現は使えなくなります。

株式投資での確率・統計の活用法

ここまで学んできた確率と統計の知識は、実際の株式投資でどのように活用できるのでしょうか。具体的な応用例を見ていきましょう。

期待値による投資判断

投資戦略の評価には期待値の概念が非常に有効です。期待値がプラスの取引を繰り返すことで、長期的には利益を積み上げることができます。

例えば、以下のような取引戦略を考えてみましょう。

  • 勝率:40%
  • 勝ったときの平均利益:15万円
  • 負けたときの平均損失:5万円

この戦略の期待値は、(0.4 × 15万円) + (0.6 × -5万円) = 6万円 – 3万円 = 3万円となります。勝率が50%未満でも、利益が損失より大きければ期待値はプラスになるのです。

正規分布とボラティリティ

株価の変動率(リターン)は、ある程度正規分布に従うと考えられています。この性質を利用して、ボラティリティ(価格変動の大きさ)を統計的に分析できます。

標準偏差を使ってボラティリティを測定することで、リスクの大きさを数値化し、適切なポジションサイズを決定できます。また、正規分布の性質から、「将来の価格が一定範囲内に収まる確率」を推定することも可能です。

確率分布を用いたリスク管理

VaR(Value at Risk)という概念では、確率分布を使って「一定期間内に一定確率で被る可能性のある最大損失額」を計算します。

例えば、「95%の確率で、明日の損失は100万円以内に収まる」といった形で、リスクを定量的に把握できます。これにより、許容できるリスク範囲内で投資を行うことができます。

バックテストと統計的検証

投資戦略の有効性を検証するバックテストでも、統計的な考え方が重要です。過去のデータで良い成績を出した戦略が、本当に優位性があるのか、それとも単なる偶然なのかを、統計的検定によって判断します。

十分なサンプル数(取引回数)がないと、統計的に有意な結論を出せません。また、過剰適合(オーバーフィッティング)という、過去データに最適化しすぎて将来の予測力を失う問題にも注意が必要です。

分散と相関の活用

複数の銘柄に投資する際、各銘柄の分散(リスク)だけでなく、銘柄間の相関も重要です。相関が低い(または負の相関がある)銘柄を組み合わせることで、ポートフォリオ全体のリスクを低減できます。

これは現代ポートフォリオ理論の基礎となる考え方で、統計学の共分散や相関係数の概念が応用されています。

まとめ

この記事では、統計学と確率の基礎から実践的な活用法まで、幅広く解説してきました。最後に要点を整理しておきましょう。

  • 統計学と確率の関係:確率論は原因から結果を予測する演繹的な学問で、統計学は結果から原因を推測する帰納的な学問です。確率論が統計学の理論的基盤となっています。
  • 確率の基本:確率は0から1の値をとり、事象が起こる可能性を数値化したものです。コルモゴロフの公理に基づき、加法性や補事象の法則など、さまざまな性質が導かれます。
  • 確率変数と分布:確率変数は試行の結果に応じて値が定まる変数で、その値の取り方を表すのが確率分布です。期待値や分散といった指標で分布の特徴を把握できます。
  • 数学的確率と統計的確率:理論的に計算される数学的確率と、実験データから求める統計的確率は異なりますが、大数の法則によって結びついています。
  • 統計学の不確実性:標本から母集団を推測する統計学では、100%や0%という絶対的な表現は使わず、常に確率的な表現で不確実性を認識します。この謙虚さこそが統計学の強みです。
  • 投資への応用:期待値による戦略評価、ボラティリティ分析、リスク管理、バックテストなど、確率と統計の知識は投資判断のあらゆる場面で役立ちます。

確率と統計は、一見すると難しく感じるかもしれませんが、基本概念を一つひとつ理解していけば決して恐れる必要はありません。これらの知識は、投資だけでなく、データに基づく意思決定全般において強力な武器となります。

まずは身近な例で確率を計算してみたり、自分の投資成績を統計的に分析してみたりすることから始めてみてください。実践を通じて、確率と統計の力を実感できるはずです。