統計学を学び始めると、教科書に出てくる公式や概念が「どうも掴みどころがない」と感じることはありませんか?確かに理論は大切ですが、実際に手を動かして問題を解くことで、はじめて本当の理解が生まれます。
この記事では、統計学の基礎的な問題を取り上げながら、その解き方と背景にある考え方を丁寧に解説していきます。平均や分散といった記述統計から、確率分布や検定といった推測統計まで、初心者の方でも着実にステップアップできる構成になっています。具体的な数値を使った演習問題を通じて、統計学の理論を実践的に身につけていきましょう。
目次
目次
- 統計学の問題を解く意義とは
- 基礎統計量の計算問題(平均・中央値・最頻値)
- データのばらつきを測る問題(分散と標準偏差)
- 確率の基本問題と計算方法
- 確率分布に関する演習問題
- 仮説検定の問題と考え方
- 相関と回帰の問題演習
- 統計検定2級レベルの問題にチャレンジ
- まとめ
統計学の問題を解く意義とは
統計学の学習において、問題演習は単なる「知識の確認」以上の価値があります。公式を暗記するだけでは、実際のデータ分析の現場で応用できません。
問題を解くことで得られるものは次の通りです。
- 公式の意味の理解:数式を見ただけでは分かりにくい概念も、実際に数値を代入して計算することで「この公式は何を表しているのか」が体感できます。
- 計算手順の習得:統計量の算出には複数のステップがあります。実際に手を動かすことで、どの順番で何を計算すればよいかが身につきます。
- データの感覚:さまざまな問題に触れることで、「この分散の値は大きいのか小さいのか」「この検定結果は有意なのか」といった判断力が養われます。
- 応用力の向上:基本問題から応用問題へと段階的に取り組むことで、初見の問題にも対応できる力が育ちます。
統計学は「理論を学ぶ」だけでなく「問題を解く」ことで初めて実践的なスキルになります。投資やデータ分析の現場では、理論を知っているだけでなく、実際にデータを処理し解釈できることが求められるからです。
基礎統計量の計算問題(平均・中央値・最頻値)
統計学の最初のステップは、データの特徴を表す基礎統計量を理解することです。代表値には平均(mean)、中央値(median)、最頻値(mode)の3つがあり、それぞれ異なる視点でデータの中心を表します。
平均値の計算問題
平均値は、すべてのデータを足し合わせて個数で割った値です。最も基本的な統計量ですが、極端な値(外れ値)に影響されやすいという特徴があります。
問題例: 次のデータセットの平均値を求めなさい。
データ: 12, 15, 18, 20, 22, 25, 30
解法:
- すべてのデータを合計します: 12 + 15 + 18 + 20 + 22 + 25 + 30 = 142
- データの個数を数えます: 7個
- 合計をデータ個数で割ります: 142 ÷ 7 = 20.29
\(\text{平均値} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{142}{7} \approx 20.29\)
中央値の計算問題
中央値は、データを小さい順に並べたときにちょうど真ん中に来る値です。外れ値の影響を受けにくいという利点があり、年収などの分布が偏ったデータでよく使われます。
問題例: 次のデータの中央値を求めなさい。
データ: 5, 8, 12, 15, 18, 22, 30, 45, 100
解法:
- データを小さい順に並べます(すでに並んでいます)
- データの個数を確認します: 9個(奇数)
- 中央の位置を計算します: (9 + 1) ÷ 2 = 5番目
- 5番目のデータが中央値です: 18
データ個数が偶数の場合は、真ん中2つの値の平均を取ります。
最頻値の計算問題
最頻値は、データの中で最も頻繁に現れる値です。カテゴリデータ(性別、商品の種類など)の代表値としても使えます。
問題例: 次のデータの最頻値を求めなさい。
データ: 3, 5, 5, 7, 8, 8, 8, 10, 12
解法:
- 各値の出現回数を数えます: 3(1回)、5(2回)、7(1回)、8(3回)、10(1回)、12(1回)
- 最も多く現れる値を特定します: 8(3回出現)
- 最頻値は 8 です
これら3つの代表値は、それぞれ異なる特徴を持つため、データの性質に応じて使い分けることが重要です。
データのばらつきを測る問題(分散と標準偏差)
平均だけではデータの全体像は分かりません。同じ平均でも、データが平均の近くに集まっているのか、それとも大きくばらついているのかによって、データの性質は大きく異なります。このばらつきを数値化するのが分散と標準偏差です。
偏差の計算
まず基本となる偏差を理解しましょう。偏差とは、各データが平均からどれだけ離れているかを表す値です。
問題例: 次のデータについて、各データの偏差を求めなさい。
データ: 8, 10, 12, 14, 16
解法:
- 平均値を計算します: (8 + 10 + 12 + 14 + 16) ÷ 5 = 12
- 各データから平均を引きます:
- 8 – 12 = -4
- 10 – 12 = -2
- 12 – 12 = 0
- 14 – 12 = 2
- 16 – 12 = 4
- 偏差の合計を確認します: (-4) + (-2) + 0 + 2 + 4 = 0
偏差の合計は必ず0になります。これは平均の性質によるもので、「平均より小さい値」と「平均より大きい値」が打ち消し合うためです。
分散の計算問題
偏差の合計が常に0になるため、ばらつきを測るには工夫が必要です。そこで、偏差を2乗してから平均を取ったものが分散です。
問題例: 上記のデータの分散を求めなさい。
解法:
- 各偏差を2乗します:
- (-4)² = 16
- (-2)² = 4
- (0)² = 0
- (2)² = 4
- (4)² = 16
- 偏差の2乗を合計します: 16 + 4 + 0 + 4 + 16 = 40
- データ個数で割ります: 40 ÷ 5 = 8
\(\text{分散} = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n} = \frac{40}{5} = 8\)
分散が大きいほど、データが平均から大きくばらついていることを意味します。
標準偏差の計算問題
分散は偏差を2乗しているため、元のデータと単位が異なります(データが「円」なら分散は「円²」)。元の単位に戻すために、分散の平方根を取ったものが標準偏差です。
問題例: 上記のデータの標準偏差を求めなさい。
解法:
- 分散を求めます(前問より): 8
- 平方根を計算します: √8 ≈ 2.83
\(\text{標準偏差} = \sqrt{\text{分散}} = \sqrt{8} \approx 2.83\)
標準偏差は元のデータと同じ単位で表されるため、データのばらつきを直感的に理解しやすく、実務でも最もよく使われます。
標準化とZ得点の問題
異なる単位や尺度のデータを比較するために、標準化(Z得点化)という手法があります。これは各データを「平均からの標準偏差何個分離れているか」という値に変換します。
問題例: ある生徒の数学のテストが70点(平均60点、標準偏差10点)、英語のテストが80点(平均75点、標準偏差8点)でした。どちらの科目でより良い成績だったか、Z得点を使って判断しなさい。
解法:
- 数学のZ得点を計算します: (70 – 60) ÷ 10 = 1.0
- 英語のZ得点を計算します: (80 – 75) ÷ 8 = 0.625
- Z得点を比較します: 数学のZ得点(1.0)の方が大きい
- 結論: 数学の方が相対的に良い成績でした
\(Z = \frac{x – \bar{x}}{\sigma}\)
Z得点は正規分布と組み合わせることで、「上位何%に入るか」といった分析にも使えます。
確率の基本問題と計算方法
統計学の推測部分は、すべて確率論の上に成り立っています。基本的な確率計算をマスターすることは、統計的検定や信頼区間を理解するための土台となります。
基本的な確率の計算
確率とは、「ある事象が起こる場合の数」を「すべての場合の数」で割った値です。
問題例: 1から10までの数字が書かれたカードが1枚ずつあります。1枚引いたとき、偶数が出る確率を求めなさい。
解法:
- すべての場合の数を数えます: 10通り
- 偶数のカードを数えます: 2, 4, 6, 8, 10 の5枚
- 確率を計算します: 5 ÷ 10 = 0.5
\(P(\text{偶数}) = \frac{\text{偶数の枚数}}{\text{全カード数}} = \frac{5}{10} = 0.5\)
条件付き確率の問題
条件付き確率は、「ある条件が成立しているとき、別の事象が起こる確率」を表します。実務では頻繁に使われる重要な概念です。
問題例: ある病気の検査があります。実際に病気の人が陽性と判定される確率は0.95、病気でない人が陽性と判定される確率は0.05です。人口の1%がこの病気を持っているとき、検査で陽性と判定された人が実際に病気である確率を求めなさい。
解法(ベイズの定理を使用):
- 病気である確率: P(病気) = 0.01
- 病気でない確率: P(健康) = 0.99
- 病気のとき陽性: P(陽性|病気) = 0.95
- 健康のとき陽性: P(陽性|健康) = 0.05
- 陽性全体の確率: P(陽性) = 0.01 × 0.95 + 0.99 × 0.05 = 0.0095 + 0.0495 = 0.059
- 陽性のとき病気である確率: P(病気|陽性) = (0.01 × 0.95) ÷ 0.059 ≈ 0.161
驚くべきことに、陽性と判定されても実際に病気である確率は約16%に過ぎません。これは基底率の誤謬と呼ばれる有名な現象です。
期待値の計算問題
期待値は、確率変数が取る値の平均的な値を表します。投資やギャンブルの期待リターンを計算する際に使われます。
問題例: サイコロを1回振って、出た目の数だけ100円もらえるゲームがあります。このゲームの期待値を求めなさい。
解法:
- 各目が出る確率: すべて 1/6
- 各目の獲得金額: 1なら100円、2なら200円、…、6なら600円
- 期待値を計算: (100 × 1/6) + (200 × 1/6) + (300 × 1/6) + (400 × 1/6) + (500 × 1/6) + (600 × 1/6)
- = (100 + 200 + 300 + 400 + 500 + 600) ÷ 6 = 2100 ÷ 6 = 350円
\(E[X] = \sum_{i=1}^{6} x_i \cdot P(x_i) = \frac{1}{6}(100 + 200 + 300 + 400 + 500 + 600) = 350\)
期待値は長期的な平均を表すため、1回のゲームでは必ずしも期待値通りの結果にはなりませんが、何度も繰り返すと期待値に近づいていきます。
確率分布に関する演習問題
確率分布は、確率変数がどのような値を取り、それぞれどのような確率で起こるかを表したものです。統計学では特に正規分布と二項分布が重要です。
二項分布の問題
二項分布は、「成功確率pの試行をn回繰り返したとき、成功がx回起こる確率」を表します。コイン投げや不良品の発生などに使われます。
問題例: 良品率90%の製品があります。10個の製品を検査したとき、ちょうど8個が良品である確率を求めなさい。
解法:
- n = 10(試行回数)、p = 0.9(成功確率)、x = 8(成功回数)
- 組み合わせの数を計算: ₁₀C₈ = 10! ÷ (8! × 2!) = 45
- 8個成功・2個失敗の確率: (0.9)⁸ × (0.1)² = 0.4305 × 0.01 = 0.004305
- 全体の確率: 45 × 0.004305 ≈ 0.194
\(P(X = 8) = {}_{10}C_8 \cdot (0.9)^8 \cdot (0.1)^2 = 45 \times 0.004305 \approx 0.194\)
正規分布の問題
正規分布は、自然界や社会現象で最も頻繁に現れる分布で、左右対称の釣鐘型をしています。身長、テストの点数、測定誤差などが正規分布に従います。
問題例: ある製品の重量は平均100g、標準偏差5gの正規分布に従います。ランダムに選んだ製品の重量が95g以下である確率を求めなさい。
解法:
- Z得点を計算します: Z = (95 – 100) ÷ 5 = -1.0
- 標準正規分布表を参照します: P(Z ≤ -1.0) ≈ 0.1587
- 結論: 約15.87%の確率で95g以下の製品が選ばれます
\(Z = \frac{X – \mu}{\sigma} = \frac{95 – 100}{5} = -1.0\)
正規分布では、平均から標準偏差1個分以内に約68%、2個分以内に約95%、3個分以内に約99.7%のデータが収まるという68-95-99.7ルールが成り立ちます。
ポアソン分布の問題
ポアソン分布は、単位時間あたりに平均λ回起こる事象が、実際には何回起こるかを表します。事故の発生件数、ウェブサイトへのアクセス数などに使われます。
問題例: あるコールセンターには1時間あたり平均3件の電話がかかってきます。次の1時間に5件の電話がかかってくる確率を求めなさい。
解法:
- λ = 3(平均発生回数)、x = 5(実際の発生回数)
- ポアソン分布の公式を使用: P(X = 5) = (e⁻³ × 3⁵) ÷ 5!
- 計算: (0.0498 × 243) ÷ 120 ≈ 0.101
\(P(X = 5) = \frac{e^{-\lambda} \lambda^x}{x!} = \frac{e^{-3} \cdot 3^5}{5!} \approx 0.101\)
仮説検定の問題と考え方
仮説検定は、データから得られた結果が偶然によるものなのか、それとも統計的に意味のある違いなのかを判断する手法です。投資戦略の有効性検証や品質管理など、幅広く応用されます。
t検定の問題
t検定は、2つのグループの平均に差があるかを検定する方法です。サンプルサイズが小さい場合や、母集団の標準偏差が不明な場合に使われます。
問題例: 新しい投資手法AとB、それぞれ10回ずつ取引を行いました。手法Aの平均利益は5.2%(標準偏差1.8%)、手法Bの平均利益は4.0%(標準偏差1.5%)でした。有意水準5%で、2つの手法に差があるといえるか検定しなさい。
解法:
- 帰無仮説H₀: 手法Aと手法Bの平均利益に差はない(μA = μB)
- 対立仮説H₁: 手法Aと手法Bの平均利益に差がある(μA ≠ μB)
- プールされた標準偏差を計算(簡略化のため省略)
- t統計量を計算: t = (5.2 – 4.0) ÷ SE ≈ 1.95(仮の値)
- 自由度18のt分布表を参照: 臨界値 ≈ 2.101(両側検定)
- |t| 臨界値 のため、帰無仮説を棄却できません
- 結論: 有意水準5%では、2つの手法に統計的に有意な差があるとはいえません
統計的に有意でないからといって、効果がないとは限りません。サンプルサイズが小さいと、本当は差があっても検出できないことがあります。
カイ二乗検定の問題
カイ二乗検定は、カテゴリデータの分布が期待される分布と一致するか、または2つのカテゴリ変数が独立かどうかを検定します。
問題例: あるサイコロを60回振ったところ、各目の出現回数は次の通りでした。このサイコロは公正といえるか、有意水準5%で検定しなさい。
1の目: 8回、2の目: 12回、3の目: 9回、4の目: 11回、5の目: 10回、6の目: 10回
解法:
- 帰無仮説H₀: サイコロは公正である(各目の出現確率は1/6)
- 期待度数を計算: 60 ÷ 6 = 10回(すべての目で同じ)
- カイ二乗統計量を計算:
- χ² = Σ[(観測度数 – 期待度数)² ÷ 期待度数]
- χ² = [(8-10)²/10] + [(12-10)²/10] + [(9-10)²/10] + [(11-10)²/10] + [(10-10)²/10] + [(10-10)²/10]
- χ² = 0.4 + 0.4 + 0.1 + 0.1 + 0 + 0 = 1.0
- 自由度5のカイ二乗分布表を参照: 臨界値 ≈ 11.07(有意水準5%)
- χ² 臨界値 のため、帰無仮説を棄却できません
- 結論: このサイコロは公正であると考えられます
p値の解釈
p値は、「帰無仮説が正しいと仮定したとき、観測されたデータと同じかそれ以上に極端な結果が得られる確率」を表します。
- p値が小さい(例: p 0.05): 観測された結果は偶然では起こりにくいため、帰無仮説を棄却し、対立仮説を採択します
- p値が大きい(例: p > 0.05): 観測された結果は偶然でも起こり得るため、帰無仮説を棄却できません
ただし、p値は「差の大きさ」や「実務的な重要性」を表すものではありません。統計的に有意でも、実際には無視できるほど小さな差である可能性もあります。
相関と回帰の問題演習
2つの変数の関係を分析する手法として、相関分析と回帰分析があります。株価と指標の関係分析など、投資の場面でも頻繁に使われます。
相関係数の計算問題
相関係数は、2つの変数の線形的な関係の強さを-1から1の間の値で表します。1に近いほど強い正の相関、-1に近いほど強い負の相関を示します。
問題例: 5日間の株価指数Xとある株Yの値動きが次の通りでした。相関係数を求めなさい。
X: 100, 105, 103, 108, 110
Y: 50, 52, 51, 54, 55
解法:
- Xの平均: (100 + 105 + 103 + 108 + 110) ÷ 5 = 105.2
- Yの平均: (50 + 52 + 51 + 54 + 55) ÷ 5 = 52.4
- 各偏差を計算し、偏差の積の合計を求めます
- Xの標準偏差とYの標準偏差を計算します
- 相関係数 r = 共分散 ÷ (Xの標準偏差 × Yの標準偏差)
計算の詳細を省略すると、相関係数は約0.98となり、非常に強い正の相関があることがわかります。
\(r = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum(x_i – \bar{x})^2} \sqrt{\sum(y_i – \bar{y})^2}}\)
単回帰分析の問題
回帰分析は、ある変数(説明変数)から別の変数(目的変数)を予測する式を求める手法です。最も基本的な形が単回帰で、1つの説明変数から予測します。
問題例: 上記のデータについて、株価指数Xから株価Yを予測する回帰直線を求めなさい。
解法:
- 回帰直線の式: Y = a + bX(aは切片、bは傾き)
- 傾きbを計算: b = 共分散(X,Y) ÷ Xの分散
- 切片aを計算: a = Yの平均 – b × Xの平均
計算すると、おおよそ Y = 0.5X + 0 のような式が得られます(簡略化した例)。
\(b = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sum(x_i – \bar{x})^2}, \quad a = \bar{y} – b\bar{x}\)
決定係数の解釈
決定係数(R²)は、回帰モデルがデータをどれだけうまく説明しているかを表す指標で、0から1の値を取ります。
- R² = 1: モデルが完全にデータを説明している
- R² = 0: モデルは全くデータを説明していない
単回帰では、決定係数は相関係数の2乗と等しくなります。上記の例では r ≈ 0.98 なので、R² ≈ 0.96 となり、株価指数Xが株価Yの変動の約96%を説明していることになります。
ただし、相関関係は因果関係を意味しません。2つの変数に強い相関があっても、一方が他方の原因とは限らず、第三の要因が両方に影響している可能性もあります。
統計検定2級レベルの問題にチャレンジ
統計学の理解度を客観的に測る指標として、統計検定という資格試験があります。特に2級は統計学の基礎を体系的に理解していることの証明となります。
統計検定2級の出題範囲
統計検定2級では、次のような幅広い分野から出題されます。
- 記述統計: 平均、中央値、分散、標準偏差、四分位数、箱ひげ図、相関係数
- 確率: 確率の基本法則、条件付き確率、ベイズの定理、期待値
- 確率分布: 二項分布、正規分布、ポアソン分布、t分布、カイ二乗分布
- 統計的推測: 点推定、区間推定、仮説検定(t検定、カイ二乗検定など)
- 回帰分析: 単回帰、重回帰、決定係数、残差分析
実践問題:総合演習
問題例: ある投資戦略を12か月間テストしたところ、月次リターンは平均2.5%、標準偏差3.0%でした。この戦略の真の期待リターンが0%以上であると言えるか、有意水準5%で検定しなさい(t検定を使用)。
解法:
- 帰無仮説H₀: 真の期待リターン μ = 0%
- 対立仮説H₁: 真の期待リターン μ > 0%(片側検定)
- サンプル平均: x̄ = 2.5%
- サンプル標準偏差: s = 3.0%
- サンプルサイズ: n = 12
- 標準誤差: SE = s ÷ √n = 3.0 ÷ √12 ≈ 0.866
- t統計量: t = (x̄ – 0) ÷ SE = 2.5 ÷ 0.866 ≈ 2.89
- 自由度11のt分布表(片側検定、α=0.05): 臨界値 ≈ 1.796
- t > 臨界値 のため、帰無仮説を棄却します
- 結論: 有意水準5%で、この戦略の真の期待リターンは0%より大きいと言えます
時系列データと移動平均
株価分析では時系列データの扱いが重要です。移動平均はトレンドを把握する基本的な手法です。
問題例: 次の5日間の株価について、3日移動平均を計算しなさい。
株価: 100円、102円、105円、103円、107円
解法:
- 1〜3日目の平均: (100 + 102 + 105) ÷ 3 = 102.33円
- 2〜4日目の平均: (102 + 105 + 103) ÷ 3 = 103.33円
- 3〜5日目の平均: (105 + 103 + 107) ÷ 3 = 105.00円
移動平均は日々の変動を平滑化し、長期的なトレンドを見やすくします。期間を長くするほど滑らかになりますが、最新の変化への反応が遅くなります。
四分位数と箱ひげ図
四分位数は、データを4等分する値で、データの分布を把握するのに役立ちます。
問題例: 次のデータの第1四分位数、第2四分位数(中央値)、第3四分位数を求めなさい。
データ: 12, 15, 18, 20, 22, 25, 28, 30, 35, 40
解法:
- データを小さい順に並べます(すでに並んでいます)
- データ個数: 10個
- 第2四分位数(中央値): (22 + 25) ÷ 2 = 23.5
- 下位半分(12, 15, 18, 20, 22)の中央値 = 第1四分位数: 18
- 上位半分(25, 28, 30, 35, 40)の中央値 = 第3四分位数: 30
これらの値を使って箱ひげ図を描くと、データの分布や外れ値を視覚的に把握できます。
まとめ
統計学の問題を解くことは、理論を実践的なスキルに変える最も効果的な方法です。この記事で取り上げた問題を通じて、統計学の基礎から応用までの幅広い知識を身につけることができました。
- 基礎統計量の計算: 平均・中央値・最頻値は、それぞれ異なる特性を持つため、データの性質に応じて使い分けることが重要です。分散と標準偏差はデータのばらつきを定量化し、リスク評価に欠かせません。
- 確率の理解: 基本的な確率計算から条件付き確率、期待値まで、確率論は統計的推測の土台となります。実際のデータ分析では、確率的な思考が不確実性への対処を可能にします。
- 確率分布の活用: 正規分布、二項分布、ポアソン分布などは、現実のさまざまな現象をモデル化します。分布の特性を理解することで、データの振る舞いを予測できます。
- 仮説検定の実践: t検定やカイ二乗検定を使うことで、観測された違いが統計的に意味があるのか、それとも偶然なのかを客観的に判断できます。p値の正しい解釈は、誤った結論を避けるために不可欠です。
- 相関と回帰の分析: 2つの変数の関係を定量化することで、予測や因果関係の探索が可能になります。ただし、相関は因果を意味しないことを常に意識する必要があります。
統計学は一度理解すれば、投資判断、品質管理、マーケティング分析など、あらゆる分野で活用できる強力なツールとなります。問題演習を継続的に行い、理論と実践の両面から統計学のスキルを磨いていきましょう。統計検定などの資格取得も、体系的な学習の良い目標になります。
統計学の習得には、理論の学習と並行して実際に問題を解くことが不可欠です。基礎的な計算から始め、徐々に複雑な分析手法へとステップアップしていくことで、データに基づいた意思決定ができる力が身につきます。