統計学の基礎をゼロから解説!初心者でもわかるデータ分析の第一歩

データ分析や投資判断において「数字の裏にある意味」を読み取る力は欠かせません。しかし、統計学と聞くと「難しそう」「数式ばかりで取っつきにくい」と感じる方も多いのではないでしょうか。

実は、統計学は私たちの日常生活のあらゆる場面で活用されている身近な学問です。天気予報の降水確率、視聴率、株価の変動分析、商品の口コミ評価など、すべて統計学の考え方が土台になっています。統計学の基礎を理解すれば、データに基づいた合理的な判断ができるようになり、投資やビジネスの場面で大きなアドバンテージを得ることができます。

この記事では、統計学をまったく学んだことがない初心者の方でも理解できるよう、基本的な考え方から具体的な計算方法まで、ステップバイステップで丁寧に解説していきます。

目次

  • 統計学とは何か?その役割と基礎概念
  • 記述統計と推測統計の違い
  • データの集計とさまざまなグラフ表現
  • 代表値で見るデータの中心傾向
  • データのばらつきを測る方法
  • データの標準化とは
  • データの相関関係を読み解く
  • 確率の基本的な考え方
  • まとめ

統計学とは何か?その役割と基礎概念

統計学とは、調査によって集めたデータを数値に表し、その性質を明らかにしたり、未知のデータを推測したりする学問のことです。単にデータを集めて表にするだけでなく、そこから意味のある情報を引き出し、意思決定に役立てることが統計学の本質です。

統計学の出発点は「測ること」

統計学のすべては「測定」から始まります。株価の終値、売上高、気温、身長、テストの点数など、対象となる事象を数値化することで、初めて客観的な分析が可能になります。

この「測定して得られた数値」のことをデータと呼びます。データには大きく分けて2種類あります。

  • 量的データ(数量データ):身長や体重、株価、売上など、数値として測定できるデータ。さらに連続的な値(身長、株価)と離散的な値(人数、個数)に分けられます。
  • 質的データ(カテゴリデータ):性別、血液型、業種、地域など、カテゴリで分類されるデータ。順序がある場合(満足度の5段階評価など)と順序がない場合(血液型など)があります。

統計は「個人」ではなく「集団」を扱う

統計学の重要な特徴は、個々の事例ではなく「集団全体の傾向」を捉えることです。たとえば、1人の投資家の損益を見ても市場全体の動きは分かりませんが、多数の投資家のデータを集めて分析すれば、市場の傾向や投資行動のパターンが見えてきます。

この「分析対象となる集団全体」のことを母集団と呼びます。そして母集団から実際に調査のために取り出したデータの一部を標本(サンプル)と呼びます。

たとえば、「日本国内の全投資家」が母集団だとすれば、実際にアンケート調査に協力してくれた「1000人の投資家」が標本です。統計学では、限られた標本のデータから母集団全体の性質を推測する技術が発達しており、これが統計学の最大の強みの一つです。

記述統計と推測統計の違い

統計学は大きく分けて2つの役割を持っています。それが記述統計推測統計です。この2つの違いを理解することは、統計学の基礎を学ぶ上で非常に重要です。

記述統計とは

記述統計は、手元にあるデータを整理し、その特徴を分かりやすく要約する方法です。グラフや表を使ってデータを視覚化したり、平均値や中央値といった代表値を計算したりすることで、データ全体の傾向を把握します。

たとえば、ある銘柄の過去1年間の株価データを集めて、以下のような分析をするのが記述統計です。

  • 平均株価:過去1年間の平均的な価格水準
  • 最高値・最低値:変動の範囲
  • 標準偏差:価格のばらつき具合
  • 株価チャート:時系列での価格推移の可視化

記述統計は「手元にあるデータそのもの」を説明するための手法であり、それ以上の推測や予測は行いません。

推測統計とは

一方、推測統計は、標本データから母集団全体の性質を推測したり、将来の値を予測したりする方法です。限られたデータから一般的な法則や傾向を導き出すことが目的です。

たとえば、100社の企業の決算データを分析して「業界全体の平均営業利益率は何%と推定できる」と結論づけたり、「この株価の変動パターンから、来月の価格レンジは95%の確率でこの範囲に収まる」と予測したりするのが推測統計です。

推測統計では、確率論統計的仮説検定といった高度な手法を用いて、推測の信頼性を数値で示すことができます。

記述と推測を混同しないことが重要

初心者が陥りやすい誤りが、記述統計と推測統計を混同してしまうことです。たとえば、100人のアンケート結果から「平均満足度は3.5点」という記述統計の結果を、「全国民の満足度は3.5点である」と推測統計のように解釈してしまうケースがあります。

記述統計はあくまで「手元のデータの要約」であり、それを母集団全体に当てはめるには推測統計の手法(信頼区間の計算、統計的検定など)が必要です。データ分析においては、今自分が行っているのが記述なのか推測なのかを常に意識することが、誤った結論を避けるために不可欠です。

データの集計とさまざまなグラフ表現

データを集めたら、まずは全体像を把握するために整理・集計を行います。この段階で適切なグラフを使うことで、データの特徴が一目で分かるようになります。

データの集計方法

データを集計する基本的な方法として、度数分布表があります。これは、データをいくつかの階級(区間)に分けて、それぞれの階級に含まれるデータの個数(度数)を数えたものです。

たとえば、100銘柄の株価データを以下のように整理します。

株価の範囲 度数 相対度数(割合)
0円〜500円 15銘柄 15%
500円〜1000円 30銘柄 30%
1000円〜1500円 25銘柄 25%
1500円〜2000円 20銘柄 20%
2000円以上 10銘柄 10%

この表により、データがどの価格帯に多く分布しているかが分かります。

さまざまなグラフの種類と使い分け

データの性質に応じて、適切なグラフを選ぶことが重要です。

  • ヒストグラム:量的データの分布を視覚化するグラフ。横軸に階級、縦軸に度数を取り、棒グラフで表現します。株価の分布、リターンの分布などを見るのに最適です。
  • 折れ線グラフ:時系列データの推移を表現するのに適しています。株価チャート、売上の月次推移などに使われます。
  • 棒グラフ:カテゴリ別のデータを比較するのに使います。業種別の銘柄数、地域別の売上などに有効です。
  • 円グラフ:全体に対する各カテゴリの割合を視覚化します。ポートフォリオの資産配分、市場シェアなどの表現に使われます。
  • 散布図:2つの変数の関係を見るためのグラフ。横軸と縦軸にそれぞれ異なる変数を取り、データを点で表現します。株価とPERの関係、売上と利益の関係などを分析できます。

特に投資分析では、時系列データを扱うことが多いため、折れ線グラフローソク足チャートが頻繁に使われます。

代表値で見るデータの中心傾向

データ全体の「中心」や「典型的な値」を一つの数値で表すのが代表値です。代表値には主に3つの種類があり、それぞれ異なる特徴を持っています。

平均値(算術平均)

平均値は、すべてのデータの合計をデータの個数で割った値です。最も一般的に使われる代表値で、データ全体の「重心」を表します。

\(\text{平均値} = \frac{\text{データの合計}}{\text{データの個数}}\)

たとえば、5日間の株価が「100円、105円、110円、108円、102円」だった場合、平均値は次のように計算します。

  1. データの合計を計算: 100 + 105 + 110 + 108 + 102 = 525円
  2. データの個数で割る: 525 ÷ 5 = 105円

平均値の利点は計算が簡単で直感的に理解しやすいことですが、外れ値(極端に大きいまたは小さい値)の影響を強く受けるという弱点があります。

中央値(メディアン)

中央値は、データを小さい順に並べたときに真ん中に来る値です。データの個数が偶数の場合は、真ん中の2つの値の平均を取ります。

先ほどの株価データ「100円、105円、110円、108円、102円」を小さい順に並べると「100円、102円、105円、108円、110円」となり、中央値は真ん中の「105円」です。

中央値は外れ値の影響を受けにくいため、データに極端な値が含まれる場合に有効です。たとえば、所得データのように一部の高額所得者が平均を大きく引き上げてしまうケースでは、中央値の方が「典型的な値」を適切に表現できます。

最頻値(モード)

最頻値は、データの中で最も多く出現する値です。質的データや離散的なデータの分析に適しています。

たとえば、投資家の年齢層を調査して「30代、40代、30代、50代、30代、40代」というデータがあれば、最頻値は「30代」です。

箱ひげ図で代表値とばらつきを同時に表現

箱ひげ図は、データの分布を視覚的に表現する強力なツールです。最小値、第1四分位数(下から25%の位置)、中央値、第3四分位数(下から75%の位置)、最大値の5つの値を一つのグラフで表現します。

箱ひげ図を使うと、データの中心傾向だけでなく、ばらつきや外れ値の存在も一目で把握できます。複数のグループを比較する際にも非常に便利です。

データのばらつきを測る方法

データの「中心」だけでなく、「ばらつき(散らばり具合)」を知ることも統計学では非常に重要です。同じ平均値でも、データが密集しているのか広く散らばっているのかで、その意味はまったく異なります。

範囲(レンジ)

最も単純なばらつきの指標が範囲です。これは最大値と最小値の差を表します。

\(\text{範囲} = \text{最大値} – \text{最小値}\)

株価データで最高値が3000円、最安値が2500円なら、範囲は500円です。計算は簡単ですが、外れ値の影響を強く受けるため、データ全体のばらつきを正確に表現できないことがあります。

分散

分散は、各データが平均値からどれだけ離れているかを二乗して平均したものです。ばらつきの程度を数値化する最も基本的な指標です。

\(\text{分散} = \frac{\sum (\text{各データ} – \text{平均値})^2}{\text{データの個数}}\)

分散を計算する手順は以下の通りです。

  1. データの平均値を計算する
  2. 各データから平均値を引いた値(偏差)を計算する
  3. 各偏差を二乗する
  4. 二乗した値の合計を求める
  5. データの個数で割る

たとえば、3日間の株価リターンが「+2%、+5%、-1%」だった場合の分散を計算してみましょう。

  1. 平均値: (2 + 5 + (-1)) ÷ 3 = 2%
  2. 各偏差: (2-2)=0、(5-2)=3、(-1-2)=-3
  3. 二乗: 0、9、9
  4. 合計: 0 + 9 + 9 = 18
  5. 個数で割る: 18 ÷ 3 = 6

分散は6となります。分散が大きいほど、データのばらつきが大きいことを意味します。

標準偏差

標準偏差は、分散の平方根(ルート)を取った値です。分散は単位が二乗されているため直感的に理解しにくいですが、標準偏差は元のデータと同じ単位になるため解釈がしやすくなります。

\(\text{標準偏差} = \sqrt{\text{分散}}\)

先ほどの例では、標準偏差は√6 ≒ 2.45%となります。

株式投資の世界では、標準偏差はボラティリティ(価格変動の大きさ)を表す指標として頻繁に使われます。標準偏差が大きい銘柄ほど価格変動が激しく、リスクが高いと判断されます。

四分位範囲

四分位範囲(IQR)は、第3四分位数から第1四分位数を引いた値で、データの中央50%の範囲を表します。外れ値の影響を受けにくいため、ロバストなばらつきの指標として使われます。

\(\text{四分位範囲} = Q_3 – Q_1\)

箱ひげ図の「箱」の部分が、まさにこの四分位範囲を表しています。

データの標準化とは

異なる単位や尺度を持つデータを比較したいとき、標準化(基準化)という手法が有効です。標準化により、異なるデータを同じ基準で評価できるようになります。

標準化の計算方法

標準化は、各データから平均値を引き、標準偏差で割ることで行います。標準化されたデータはZスコアと呼ばれます。

\(Z = \frac{\text{データ} – \text{平均値}}{\text{標準偏差}}\)

標準化されたデータは、平均が0、標準偏差が1となり、元の単位に依存しない「標準的な尺度」で表現されます。

標準化の活用例

たとえば、A銘柄の株価が1000円でB銘柄が5000円の場合、単純に価格だけでは比較できません。しかし、それぞれの過去の価格データを標準化すれば、「現在の価格が過去の平均からどれだけ離れているか」を同じ尺度で比較できます。

Zスコアがプラス2であれば「平均より標準偏差2つ分高い(かなり高い水準)」、マイナス1.5であれば「平均より標準偏差1.5個分低い(やや低い水準)」と解釈できます。

標準化は、複数の指標を組み合わせてスコアリングする際や、機械学習のデータ前処理などでも広く使われています。

データの相関関係を読み解く

投資判断において、2つの変数の関係性を理解することは非常に重要です。たとえば、「金利と株価の関係」「為替と輸出企業の業績の関係」などです。この関係性を数値化するのが相関です。

相関係数とは

相関係数は、2つの変数間の直線的な関係の強さと方向を-1から+1の範囲で表す指標です。最もよく使われるのがピアソンの相関係数です。

  • 相関係数が+1に近い:正の相関が強い(一方が増えると他方も増える)
  • 相関係数が0に近い:相関がほとんどない(関係性が弱い)
  • 相関係数が-1に近い:負の相関が強い(一方が増えると他方は減る)

相関係数の計算

相関係数は以下の式で計算されます。

\(r = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum (x_i – \bar{x})^2} \times \sqrt{\sum (y_i – \bar{y})^2}}\)

実際の計算は複雑ですが、Excelやスプレッドシートの関数(CORREL関数など)を使えば簡単に求められます。

散布図で相関を視覚化する

散布図を描くことで、相関関係を視覚的に確認できます。横軸に一方の変数、縦軸にもう一方の変数を取り、各データを点でプロットします。

点が右上がりの直線に近いパターンを描けば正の相関、右下がりなら負の相関、ランダムに散らばっていれば相関がないと判断できます。

相関と因果関係の違い

ここで重要な注意点があります。相関関係があるからといって、必ずしも因果関係(一方が原因で他方が結果)があるとは限りません。

たとえば、「アイスクリームの売上」と「水難事故の件数」には正の相関がありますが、アイスが事故の原因ではありません。両方とも「気温が高い」という共通の要因に影響されているだけです。

投資分析でも、相関関係を見つけたらその背後にある因果関係やメカニズムを慎重に検討する必要があります。

確率の基本的な考え方

推測統計を理解するには、確率の基礎知識が不可欠です。確率は「ある事象が起こる可能性の度合い」を0から1(または0%から100%)の数値で表したものです。

確率の基本ルール

確率には以下の基本的なルールがあります。

  • 確率は0以上1以下:絶対に起こらない事象は0、必ず起こる事象は1です。
  • 全事象の確率の合計は1:起こりうるすべての結果の確率を足すと1になります。
  • 加法定理:2つの事象AとBが同時に起こらない場合、A「または」Bが起こる確率は P(A) + P(B) です。
  • 乗法定理:2つの独立した事象AとBが「両方とも」起こる確率は P(A) × P(B) です。

確率分布の概念

確率分布は、ランダムな現象において各結果が起こる確率の分布を表したものです。代表的な確率分布には以下があります。

  • 正規分布:平均を中心に左右対称な釣鐘型の分布。自然現象や測定誤差など、多くの現象がこの分布に従います。株価の変動率(リターン)も近似的に正規分布に従うと仮定されることがあります。
  • 二項分布:成功か失敗かの2つの結果しかない試行を繰り返したときの成功回数の分布。
  • ポアソン分布:一定期間内に稀な事象が何回起こるかを表す分布。

正規分布は統計学で最も重要な分布で、多くの統計手法の基礎となっています。正規分布では、平均±標準偏差の範囲に約68%のデータが、平均±2標準偏差の範囲に約95%のデータが含まれます。

期待値の計算

期待値は、ランダムな現象を長期的に繰り返したときの平均的な結果を表します。各結果の値にその確率を掛けて合計することで計算します。

\(\text{期待値} = \sum (\text{各結果の値} \times \text{その確率})\)

たとえば、投資Aは50%の確率で+10%のリターン、50%の確率で-5%のリターンが得られるとします。期待値は次のように計算します。

期待リターン = 0.5 × 10% + 0.5 × (-5%) = 5% – 2.5% = 2.5%

期待値は投資判断の重要な指標ですが、リスク(ばらつき)も同時に考慮する必要があります。

まとめ

この記事では、統計学の基礎について初心者向けに解説してきました。最後に重要なポイントを整理しておきましょう。

  • 統計学の2つの柱:記述統計でデータを要約・可視化し、推測統計で母集団の性質を推測する。両者の違いを理解することが統計学習の第一歩です。
  • 代表値の使い分け:平均値・中央値・最頻値はそれぞれ異なる特徴を持ちます。データの性質や外れ値の有無に応じて適切な指標を選びましょう。
  • ばらつきの重要性:中心傾向だけでなく、標準偏差や分散などのばらつき指標を見ることで、データの全体像が把握できます。投資では特にリスク評価に不可欠です。
  • 相関と因果は別物:相関関係を見つけても、その背後にある因果関係やメカニズムを慎重に検討する必要があります。
  • 確率思考の重要性:不確実性の高い投資判断において、確率的な考え方は意思決定の質を大きく向上させます。

統計学の基礎を身につければ、株価チャートの分析、企業業績の評価、ポートフォリオのリスク管理など、投資のあらゆる場面で論理的かつ客観的な判断ができるようになります。最初は難しく感じるかもしれませんが、実際のデータで繰り返し練習することで、確実にスキルは向上していきます。