データをひとつの数値で要約したいとき、真っ先に思い浮かぶのが「平均値」ではないでしょうか。株価の動きを把握したり、ポートフォリオのリターンを評価したりする際にも、平均値は頻繁に登場します。しかし、ひとくちに「平均」といっても、実は複数の種類があり、それぞれ得意な場面や注意すべきポイントが異なります。
この記事では、統計学における平均値の基本から、算術平均・幾何平均・調和平均といった種類、そして中央値や最頻値との使い分けまで、初心者の方にもわかりやすく丁寧に解説します。外れ値に強い代表値の選び方を理解すれば、データに隠れた真実を見抜く力が身につきます。投資判断やリスク分析にも直結する知識ですので、ぜひ最後までお読みください。
目次
目次
- 平均値とは何か?統計学における基本の定義
- 平均値の種類を理解しよう
- 平均値(算術平均)の注意点と外れ値の影響
- 中央値とは何か?平均値との違い
- 最頻値(モード)とは何か?
- 平均値・中央値・最頻値の使い分け方
- 適切な代表値の選び方
- Excelで平均値・中央値・最頻値を求める方法
- 平均値にまつわるよくある質問
- まとめ
平均値とは何か?統計学における基本の定義
平均値とは、複数のデータを代表する「代表値」のひとつで、データ全体の傾向を1つの数値で表すために用いられます。最も基本的な平均値は算術平均と呼ばれ、すべてのデータを足し合わせた合計を、データの個数で割ることで求められます。
たとえば、5日間の株価終値が以下のような場合を考えてみましょう。
- 1日目:1,000円
- 2日目:1,050円
- 3日目:1,020円
- 4日目:1,100円
- 5日目:1,030円
この5日間の平均株価は、次のように計算できます。
\(
\text{平均値} = \frac{1000 + 1050 + 1020 + 1100 + 1030}{5} = \frac{5200}{5} = 1040
\)
この結果、平均株価は1,040円となります。このように、算術平均はデータ全体を均等に扱い、全体の「中心」を示す指標として非常にわかりやすく、日常生活でもよく使われます。
統計学では、平均値を記号μ(母集団平均)やx̄(標本平均)で表現します。母集団とは分析対象となるすべてのデータのことで、標本はその一部を抜き出したデータのことです。投資の世界では、過去の全データを用いて平均リターンを計算することもあれば、特定期間のデータだけを用いることもあります。
平均値の種類を理解しよう
「平均」と聞くと算術平均を思い浮かべる方が多いですが、実は統計学には目的やデータの性質に応じて使い分けるべき、さまざまな平均値が存在します。ここでは代表的な5つの平均値を紹介します。
算術平均
算術平均は、先ほど説明した最も一般的な平均値です。データの合計をデータ数で割ることで求めます。
\(
\text{算術平均} = \frac{x_1 + x_2 + \cdots + x_n}{n}
\)
株式投資では、過去の日次リターンの平均を計算する際によく使われます。算術平均はすべてのデータが等しく扱われるため、外れ値の影響を受けやすいという特徴があります。
幾何平均(相乗平均)
幾何平均は、データを掛け合わせてn乗根を取ることで求める平均値です。成長率や変化率のように、データが「比率」や「倍率」で表される場合に適しています。
\(
\text{幾何平均} = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}
\)
たとえば、3年間の年間リターンが「+10%」「+20%」「-5%」だった場合、単純に算術平均を取ると誤った結論に至る可能性があります。幾何平均を使えば、複利効果を考慮した「真の平均成長率」を求めることができます。
調和平均
調和平均は、データの逆数の算術平均の逆数として求めます。速度や密度など、「単位あたり」の量を平均する際に使われます。
\(
\text{調和平均} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}
\)
投資の世界では、たとえば「異なる価格で同じ金額ずつ購入した場合の平均取得単価」を求める際に調和平均が役立ちます。
二乗平均(RMS)
二乗平均は、各データを二乗してから平均し、その平方根を取ったものです。電気工学や物理学でよく使われますが、統計学では標準偏差の計算過程でも登場します。
\(
\text{二乗平均} = \sqrt{\frac{x_1^2 + x_2^2 + \cdots + x_n^2}{n}}
\)
加重平均
加重平均は、各データに重み(ウェイト)を付けて計算する平均値です。重要度の異なるデータを扱う場合に有効です。
\(
\text{加重平均} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}
\)
ポートフォリオ全体の期待リターンを計算する際、各銘柄の投資比率を重みとして用いる加重平均が典型的な例です。
平均値(算術平均)の注意点と外れ値の影響
算術平均は非常に便利ですが、外れ値(極端に大きいまたは小さいデータ)に弱いという弱点があります。外れ値が1つでもあると、平均値が大きく引っ張られてしまい、データ全体の実態を正しく表せなくなる可能性があります。
たとえば、ある5人のグループの月収が以下の通りだったとします。
- Aさん:25万円
- Bさん:28万円
- Cさん:30万円
- Dさん:27万円
- Eさん:500万円
このグループの平均月収を算術平均で計算すると、次のようになります。
\(
\text{平均月収} = \frac{25 + 28 + 30 + 27 + 500}{5} = \frac{610}{5} = 122\text{万円}
\)
平均月収は122万円となりますが、実際には5人中4人が30万円以下です。この場合、算術平均はグループの「典型的な月収」を表しているとは言えません。外れ値の影響を受けやすい算術平均は、データの分布が偏っている場合には注意が必要です。
このような状況では、後述する中央値や最頻値といった別の代表値を使った方が、実態をより正確に表せます。
中央値とは何か?平均値との違い
中央値(メディアン)とは、データを小さい順に並べたときにちょうど真ん中に位置する値のことです。データ数が奇数の場合は中央の1つの値、偶数の場合は中央2つの値の平均が中央値となります。
先ほどの月収の例で中央値を計算してみましょう。データを小さい順に並べると次のようになります。
- 25万円、27万円、28万円、30万円、500万円
データ数は5つで奇数なので、中央の値である28万円が中央値です。この値は、外れ値の影響を受けずにグループの典型的な月収を表しています。
中央値の大きな利点は、外れ値に強い(ロバスト性が高い)ことです。極端な値が含まれていても、中央値は安定した代表値として機能します。そのため、所得や不動産価格、株価のボラティリティなど、分布が偏りやすいデータでは中央値がよく使われます。
中央値の計算方法(詳細)
- データを昇順(小さい順)に並べる
- データ数が奇数の場合:ちょうど真ん中の値が中央値
- データ数が偶数の場合:真ん中の2つの値の算術平均が中央値
たとえば、6つのデータ「10, 15, 20, 25, 30, 100」の場合、中央の2つは20と25なので、中央値は(20+25)÷2=22.5となります。
最頻値(モード)とは何か?
最頻値(モード)とは、データの中で最も頻繁に出現する値のことです。質的データ(カテゴリーデータ)や離散的な数値データに対して特に有効です。
たとえば、ある銘柄の1日の出来高を10日間記録した結果が以下のようになったとします。
- 100万株、150万株、200万株、150万株、200万株、180万株、200万株、150万株、170万株、190万株
この場合、最も多く出現しているのは200万株(3回)なので、最頻値は200万株です。
最頻値は、データの「最も典型的なパターン」を示すため、アンケート結果や選好データの分析に役立ちます。ただし、データによっては最頻値が複数存在したり、すべての値が1回ずつしか出現せず最頻値が存在しない場合もあります。
最頻値が複数ある場合
データに同じ頻度で出現する値が複数ある場合、そのデータは多峰性(マルチモーダル)と呼ばれます。たとえば「10, 20, 20, 30, 30, 40」というデータでは、20と30がともに2回ずつ出現するため、最頻値は2つ存在します。
このような場合、データが複数のグループに分かれている可能性を示唆しており、さらなる分析が必要となります。
平均値・中央値・最頻値の使い分け方
ここまで3つの代表値を見てきましたが、どの場面でどの代表値を使うべきかを理解することが重要です。それぞれの特徴を整理しましょう。
データの分布が正規分布に近い場合
データが左右対称の正規分布(ベルカーブ)に近い形をしている場合、平均値・中央値・最頻値はほぼ一致します。この場合は、計算が簡単で解釈しやすい算術平均を使うのが一般的です。
データに外れ値が含まれる場合
データに極端な値が含まれる場合は、中央値を使うのが適切です。中央値は外れ値の影響を受けにくいため、データの実態をより正確に表します。
所得分布や不動産価格、医療費など、右に裾が長い分布(右に偏った分布)を持つデータでは、中央値が推奨されます。
質的データやカテゴリーデータの場合
数値化できないデータや、順序のないカテゴリーデータ(色、ブランド名など)の場合は、最頻値のみが使えます。平均値や中央値は数値データにしか適用できないため、最頻値が唯一の選択肢となります。
成長率や変化率を扱う場合
年率リターンや成長率のように、データが比率で表される場合は幾何平均が適しています。算術平均を使うと、複利効果を無視してしまい、誤った結論に至る可能性があります。
適切な代表値の選び方
実際のデータ分析では、まずデータの分布を視覚的に把握してから、適切な代表値を選ぶことが重要です。以下のステップで進めると良いでしょう。
ステップ1:ヒストグラムを作成し、データの分布を把握する
データの分布を理解するために、まずヒストグラム(度数分布図)を作成します。ヒストグラムを見ることで、データが左右対称か、偏っているか、外れ値があるかなどを視覚的に判断できます。
Excelやスプレッドシートソフトを使えば、簡単にヒストグラムを作成できます。データの形状を確認することで、次に取るべきアクションが明確になります。
ステップ2:分布の特徴に応じて代表値を選ぶ
ヒストグラムを確認したら、以下の基準で代表値を選びます。
- 左右対称で外れ値がない場合:算術平均を使用
- 分布が偏っている、または外れ値がある場合:中央値を使用
- 特定の値が頻出する場合:最頻値を使用
- 成長率や比率データの場合:幾何平均を使用
- 重要度が異なるデータの場合:加重平均を使用
データの性質を理解せずに代表値を選ぶと、誤った結論を導いてしまう可能性があるため、必ず分布を確認する習慣をつけましょう。
Excelで平均値・中央値・最頻値を求める方法
統計分析の実務では、Excelを使ってデータを処理することが多いです。ここでは、Excelで各代表値を求める関数を紹介します。
算術平均を求める:AVERAGE関数
算術平均を求めるには、AVERAGE関数を使います。
=AVERAGE(範囲)
たとえば、A1からA10までのデータの平均を求める場合は、次のように入力します。
=AVERAGE(A1:A10)
中央値を求める:MEDIAN関数
中央値を求めるには、MEDIAN関数を使います。
=MEDIAN(範囲)
例:
=MEDIAN(A1:A10)
最頻値を求める:MODE.SNGL関数
最頻値を求めるには、MODE.SNGL関数を使います(Excel 2010以降)。古いバージョンではMODE関数を使います。
=MODE.SNGL(範囲)
例:
=MODE.SNGL(A1:A10)
複数の最頻値がある場合、最初に見つかった最頻値が返されます。すべての最頻値を確認したい場合は、MODE.MULT関数を使うか、度数分布表を作成する必要があります。
幾何平均を求める:GEOMEAN関数
幾何平均を求めるには、GEOMEAN関数を使います。
=GEOMEAN(範囲)
例:
=GEOMEAN(A1:A10)
成長率を扱う場合は、元のパーセンテージに1を足した値(1.1、0.95など)を用いて計算する必要があります。
調和平均を求める:HARMEAN関数
調和平均を求めるには、HARMEAN関数を使います。
=HARMEAN(範囲)
例:
=HARMEAN(A1:A10)
これらの関数を使いこなせば、手計算の手間を省き、大量のデータでも素早く分析できます。
平均値にまつわるよくある質問
英語では、「mean」と「average」という2つの単語がどちらも「平均」を意味しますが、厳密には使い分けがあります。
- mean(ミーン):統計学の専門用語として、特に「算術平均」を指すことが多い
- average(アベレージ):より広い意味での「平均」を指し、算術平均だけでなく中央値や最頻値も含む場合がある
ただし、日常会話ではどちらも同じ意味で使われることが多く、実務上の大きな違いはありません。統計学の文献では「mean」が使われることが一般的です。
平均値がマイナスになることはありますか?
はい、データにマイナスの値が含まれる場合、平均値もマイナスになることがあります。株式投資では、損失を記録した日のリターンはマイナスになるため、一定期間の平均リターンがマイナスになることもあります。
データ数が少ない場合、平均値は信頼できますか?
データ数が少ない場合、平均値はサンプルの偏りの影響を受けやすくなります。統計学では、データ数が30以上あれば「大標本」とみなされ、平均値の信頼性が高まるとされています。
少数のデータから結論を導く際には、平均値だけでなく、標準偏差や信頼区間といった他の指標も合わせて確認することが重要です。
代表値同士にはどんな関係がありますか?
データの分布が左右対称であれば、平均値・中央値・最頻値はほぼ一致します。一方、分布が偏っている場合は、次のような関係が見られます。
- 右に偏った分布(正の歪度):平均値 > 中央値 > 最頻値
- 左に偏った分布(負の歪度):平均値 < 中央値 < 最頻値
この関係を理解しておくと、データの偏りを素早く把握できるようになります。
まとめ
- 平均値(算術平均)はデータの合計をデータ数で割った値で、最も一般的な代表値ですが、外れ値の影響を受けやすいという注意点があります。
- 中央値はデータを順番に並べたときの真ん中の値で、外れ値に強く、分布が偏ったデータに適しています。
- 最頻値は最も頻繁に出現する値で、質的データやカテゴリーデータに有効です。
- 成長率や比率データには幾何平均、重要度が異なるデータには加重平均を使うなど、目的に応じて平均値の種類を使い分けることが重要です。
- データ分析では、まずヒストグラムで分布を確認してから適切な代表値を選ぶことで、データの実態を正確に把握できます。
統計学の基本である平均値をしっかり理解することで、株式投資のリターン分析やリスク評価、ポートフォリオ管理の精度が大きく向上します。今回学んだ知識を実際のデータ分析に活用し、より賢明な投資判断を下せるようになりましょう。