データを分析する際、「このデータ全体を一つの数字で表すとしたら何が適切だろう?」と悩んだことはありませんか。特に株式投資や資金管理の分野では、収益率やリスクの分布を把握するために統計学の知識が欠かせません。
その中でも中央値は、データの中心的な傾向を捉える代表的な指標です。平均値とは異なり、極端な値(外れ値)の影響を受けにくいという特徴があり、実務でも頻繁に活用されます。
この記事では、統計学における中央値の定義から具体的な求め方、平均値や最頻値との違い、Excelでの算出方法まで、初心者にもわかりやすく丁寧に解説します。
目次
目次
- 中央値とは何か
- 中央値の求め方(基本手順)
- データ数が奇数の場合の中央値の求め方
- データ数が偶数の場合の中央値の求め方
- 平均値・中央値・最頻値の違いと使い分け
- Excelでの中央値の求め方
- 中央値を使うメリットと注意点
- まとめ
中央値とは何か
中央値(メディアン、英語:Median)とは、データを小さい順(または大きい順)に並べたときに、ちょうど真ん中に位置する値のことです。別名「メジアン」とも呼ばれます。
統計学では、データ全体の特徴を一つの数値で要約する指標を代表値と呼びますが、中央値はその代表値の一つです。代表値には他にも平均値や最頻値がありますが、中央値は特に「データの中心位置」を示すのに適しています。
中央値の最大の特徴は、極端に大きな値や小さな値(外れ値)があっても、その影響を受けにくい点です。例えば、年収のデータで一人だけ億万長者がいても、中央値はその影響をほとんど受けません。このため、所得分布や不動産価格など、外れ値が含まれやすいデータの分析では、平均値よりも中央値の方が実態を正確に反映します。
中央値の求め方(基本手順)
中央値を求める手順は非常にシンプルです。以下のステップに従って計算します。
- データを昇順(小さい順)に並べ替える
まず、すべてのデータを小さい順に並べます。降順(大きい順)でも構いませんが、一般的には昇順で整理します。 - データの個数を確認する
データが何個あるのかを数えます。個数が奇数か偶数かで、次の手順が変わります。 - 中央の位置を特定する
データ数が奇数の場合は、真ん中の1つの値が中央値になります。偶数の場合は、真ん中の2つの値の平均を取ります。
このように、中央値の求め方はデータ数が奇数か偶数かによって異なります。次の章で、それぞれのケースを具体例とともに詳しく見ていきましょう。
データ数が奇数の場合の中央値の求め方
データ数が奇数の場合、中央値は非常にシンプルです。並べ替えたデータの真ん中にある値が、そのまま中央値になります。
具体例:奇数データの中央値計算
例えば、以下のような5つの株価の日次変動率(%)があるとします。
データ:+2.5, -1.0, +3.2, +0.8, -0.5
これを昇順に並べ替えると、
-1.0, -0.5, +0.8, +2.5, +3.2
データ数は5個なので、真ん中は3番目です。したがって、中央値は +0.8 となります。
計算式(奇数の場合)
データ数を n とすると、中央値の位置は以下の式で求められます。
\(\text{中央値の位置} = \frac{n + 1}{2}\)
上記の例では、n = 5 なので、
\(\frac{5 + 1}{2} = 3\)
つまり、3番目のデータが中央値です。
データ数が偶数の場合の中央値の求め方
データ数が偶数の場合は、真ん中にあたる値が2つ存在します。このとき、真ん中の2つの値の平均を中央値とします。
具体例:偶数データの中央値計算
例えば、以下のような6つのリターン(%)があるとします。
データ:+1.5, -2.0, +4.0, +0.5, +2.0, -1.0
これを昇順に並べ替えると、
-2.0, -1.0, +0.5, +1.5, +2.0, +4.0
データ数は6個なので、真ん中は3番目と4番目の間です。3番目は +0.5、4番目は +1.5 なので、この2つの平均を取ります。
\(\text{中央値} = \frac{0.5 + 1.5}{2} = \frac{2.0}{2} = 1.0\)
したがって、中央値は +1.0 となります。
計算式(偶数の場合)
データ数を n とすると、真ん中の2つの位置は以下のようになります。
\(\text{位置1} = \frac{n}{2}, \quad \text{位置2} = \frac{n}{2} + 1\)
中央値は、この2つの値の平均です。
\(\text{中央値} = \frac{\text{位置1の値} + \text{位置2の値}}{2}\)
上記の例では、n = 6 なので、
\(\text{位置1} = 3, \quad \text{位置2} = 4\)
この2つの値の平均が中央値になります。
平均値・中央値・最頻値の違いと使い分け
統計学では、データの中心的な傾向を示す代表値として、平均値、中央値、最頻値の3つが使われます。それぞれの特徴と使い分けを理解しておくことで、データ分析の精度が大きく向上します。
平均値(Mean)
平均値は、すべてのデータの合計をデータ数で割った値です。最も一般的な代表値ですが、外れ値の影響を強く受けるという特徴があります。
\(\text{平均値} = \frac{\text{データの合計}}{\text{データ数}}\)
例えば、年収データに1人だけ年収1億円の人がいると、平均値は大きく跳ね上がりますが、実態としては多くの人の年収を正しく反映しません。
中央値(Median)
中央値は、データを順番に並べたときの真ん中の値です。外れ値の影響を受けにくく、データの分布が偏っている場合に有効です。
年収分布や不動産価格、株式の騰落率など、極端な値が含まれるデータでは、平均値よりも中央値の方が実態を反映します。
最頻値(Mode)
最頻値は、データの中で最も頻繁に出現する値です。カテゴリカルデータ(名義尺度)や離散的なデータの分析に適しています。
例えば、「最も人気のある商品」や「最も多い年齢層」といった分析では、最頻値が有効です。
使い分けのポイント
| 代表値 | 特徴 | 適した場面 |
|---|---|---|
| 平均値 | 全データの合計を個数で割る。外れ値に敏感 | データが正規分布に近く、外れ値が少ない場合 |
| 中央値 | データの真ん中の値。外れ値に強い | 外れ値が含まれる場合や分布が偏っている場合 |
| 最頻値 | 最も多く出現する値 | カテゴリカルデータや離散値の分析 |
株式投資やリスク分析では、平均リターンだけでなく、中央値や最頻値も併せて確認することで、より正確な判断ができます。
Excelでの中央値の求め方
実務でデータ分析を行う際、手計算ではなくExcelなどのツールを使うのが一般的です。Excelには中央値を簡単に求める関数が用意されています。
MEDIAN関数の使い方
Excelで中央値を求めるには、MEDIAN関数を使います。
=MEDIAN(範囲)
例えば、A1からA10までのセルにデータが入力されている場合、以下のように入力します。
=MEDIAN(A1:A10)
これだけで、データの中央値が自動的に計算されます。
具体例:Excelでの中央値計算
以下のようなデータがA1からA6に入力されているとします。
| セル | 値 |
|---|---|
| A1 | +1.5 |
| A2 | -2.0 |
| A3 | +4.0 |
| A4 | +0.5 |
| A5 | +2.0 |
| A6 | -1.0 |
任意のセルに以下を入力します。
=MEDIAN(A1:A6)
結果は +1.0 と表示されます。これは、先ほど手計算で求めた結果と同じです。
MEDIAN関数は、データが昇順に並んでいなくても自動的に並べ替えて計算してくれるため、非常に便利です。
中央値を使うメリットと注意点
中央値は非常に有用な指標ですが、使う際にはそのメリットと注意点を理解しておくことが重要です。
中央値のメリット
- 外れ値に強い:極端な値があっても、中央値はその影響を受けにくいため、データの実態をより正確に反映できます。
- 分布の偏りに対応:データが左右対称でない場合でも、中央値は有効です。特に所得分布や株価の変動率など、偏りのあるデータに適しています。
- 直感的に理解しやすい:「真ん中の値」という概念は、誰にとってもわかりやすく、説明が容易です。
中央値の注意点
- 全データの情報を反映しない:中央値は位置だけを示すため、データ全体のばらつきや合計値といった情報は失われます。
- データ数が少ない場合の精度:データ数が非常に少ない場合、中央値だけではデータの傾向を正確に把握できないことがあります。
- 計算の手間:手計算の場合、データを並べ替える必要があり、データ数が多いと手間がかかります(Excelなどのツールを使えば解消されます)。
中央値を使う際は、平均値やばらつき(標準偏差など)と併せて分析することで、より多角的にデータを理解することができます。
まとめ
- 中央値(メディアン)は、データを順番に並べたときの真ん中の値であり、外れ値の影響を受けにくい代表値です。
- データ数が奇数の場合は真ん中の値、偶数の場合は真ん中2つの値の平均が中央値となります。
- 平均値は外れ値に敏感ですが、中央値は外れ値に強く、分布が偏ったデータの分析に適しています。
- ExcelではMEDIAN関数を使うことで、簡単に中央値を求めることができます。
- 株式投資やリスク分析では、平均値だけでなく中央値も活用することで、より実態に即した判断が可能になります。
統計学の基礎である中央値の求め方をマスターすることで、データ分析の精度が大きく向上します。ぜひ実際のデータで計算してみて、理解を深めてください。