株価データや経済指標を分析していると、「平均」だけではうまく実態を捉えられないケースに出会いませんか?例えば、極端に高い値や低い値が混ざっていると、平均値は大きく引っ張られてしまいます。そんなとき役立つのが中央値です。
中央値は、データの「真ん中」に位置する値を示すため、外れ値の影響を受けにくく、集団の中心的な傾向をより正確に表現できます。この記事では、統計学における中央値の意味や計算方法、平均値・最頻値との使い分けまで、初心者の方にも分かりやすく丁寧に解説していきます。
目次
- 統計学における中央値とは何か
- 中央値の求め方と計算手順
- 平均値と中央値の違い
- 最頻値(モード)とは
- 代表値の使い分け方
- 株価分析における中央値の活用例
- まとめ
統計学における中央値とは何か
中央値(ちゅうおうち)は、英語で「Median(メディアン)」と呼ばれ、データを小さい順に並べたときにちょうど真ん中に位置する値のことを指します。データの集団を代表する値である代表値の一つであり、データの中心的な傾向を示す重要な指標です。
例えば、5人の年収データが「300万円、350万円、400万円、450万円、5000万円」だったとします。このとき中央値は真ん中の「400万円」になります。一方で平均値を計算すると約1300万円となり、実態とかけ離れた数値になってしまいます。
中央値は外れ値の影響を受けにくいため、データに極端な値が含まれる場合に特に有効です。
中央値が使われる場面
統計学やデータ分析の現場では、次のような場面で中央値が活用されています。
- 所得・年収データ:富裕層の存在により平均値が引き上げられるため、実態を示すには中央値が適しています。
- 不動産価格:高額物件の影響を避け、標準的な価格帯を把握するために使われます。
- 株価データ:ストップ高・ストップ安などの極端な値動きがある場合、中心的な値動きを見るのに有効です。
- 試験の成績:極端に高得点・低得点の生徒がいる場合、クラスの標準的な成績を把握するのに役立ちます。
中央値の求め方と計算手順
中央値の計算方法は、データの個数が奇数か偶数かによって異なります。ここでは具体的な手順を順序立てて説明していきます。
データが奇数個の場合
データが奇数個のときは、真ん中の値がそのまま中央値になります。以下の手順で求めましょう。
- データを小さい順に並べ替える:まず、すべてのデータを昇順(小さい順)に整理します。
- 真ん中の位置を特定する:データ数が n 個のとき、真ん中は (n+1)÷2 番目になります。
- その位置の値を読み取る:該当する位置の数値が中央値です。
具体例:株価の日次変動率が「-2%, -1%, 0%, +1%, +3%」の5つだった場合を考えます。
- データ数 n = 5(奇数)
- 真ん中の位置 = (5+1)÷2 = 3番目
- 3番目の値は「0%」→ これが中央値
データが偶数個の場合
データが偶数個のときは、真ん中の2つの値の平均を取ります。
- データを小さい順に並べ替える:奇数の場合と同様に昇順にします。
- 真ん中2つの位置を特定する:データ数が n 個のとき、n÷2 番目と (n÷2)+1 番目が該当します。
- 2つの値の平均を計算する:その平均値が中央値になります。
具体例:6銘柄の騰落率が「-3%, -1%, +1%, +2%, +4%, +6%」だった場合です。
- データ数 n = 6(偶数)
- 真ん中の2つ = 3番目「+1%」と4番目「+2%」
- 中央値 = (+1% + +2%)÷2 = +1.5%
中央値の計算式
数式で表すと以下のようになります。データを x₁, x₂, …, xₙ として小さい順に並べたとき、
\(
\text{中央値} =
\begin{cases}
x_{\frac{n+1}{2}} & (n\text{が奇数のとき}) \\
\frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} & (n\text{が偶数のとき})
\end{cases}
\)
この公式を覚えておけば、どんなデータでもスムーズに中央値を求めることができます。
中央値を求めるときは、必ずデータを小さい順に並べ替えることが最初のステップです。並べ替えを忘れると正しい値が得られないので注意しましょう。
平均値と中央値の違い
統計学では、平均値と中央値は両方とも代表値として使われますが、それぞれ異なる特性を持っています。使い分けを理解することで、データ分析の精度が大きく向上します。
平均値(算術平均)とは
平均値は、すべてのデータの合計をデータ数で割った値です。最も一般的な代表値で、日常生活でも頻繁に使われます。
\(
\text{平均値} = \frac{\sum_{i=1}^{n} x_i}{n}
\)
平均値の特徴は以下の通りです。
- すべてのデータが計算に影響する:一つひとつの値が平均値に反映されます。
- 外れ値の影響を受けやすい:極端に大きい値や小さい値があると、平均値は大きくずれます。
- 計算が簡単:足し算と割り算だけで求められるため、手計算でも容易です。
平均値と中央値の比較表
両者の違いを整理すると、次のようになります。
| 項目 | 平均値 | 中央値 |
|---|---|---|
| 定義 | 全データの合計÷データ数 | 並べたときの真ん中の値 |
| 外れ値の影響 | 受けやすい | 受けにくい |
| 計算の複雑さ | 簡単 | やや手間(並べ替えが必要) |
| 適した分布 | 正規分布など対称的なデータ | 歪んだ分布、外れ値を含むデータ |
実例で見る違い
具体的な数値で両者の違いを確認してみましょう。
ケース1: 正常なデータ
10銘柄の日次騰落率:「-1%, 0%, 0%, +1%, +1%, +1%, +2%, +2%, +3%, +3%」
- 平均値 = (+12%)÷10 = +1.2%
- 中央値 = (5番目「+1%」+ 6番目「+1%」)÷2 = +1.0%
この場合、平均値と中央値は近い値になり、どちらを使ってもデータの傾向を適切に表現できます。
ケース2: 外れ値を含むデータ
同じく10銘柄ですが、1銘柄だけストップ高:「-1%, 0%, 0%, +1%, +1%, +1%, +2%, +2%, +3%, +30%」
- 平均値 = (+39%)÷10 = +3.9%
- 中央値 = (5番目「+1%」+ 6番目「+1%」)÷2 = +1.0%
外れ値が1つ含まれただけで、平均値は大きく引き上げられましたが、中央値は変わらず安定しています。
このように、データの分布や外れ値の有無によって、平均値と中央値は大きく異なる結果を示すことがあります。
最頻値(モード)とは
代表値には、平均値・中央値のほかに最頻値(さいひんち)もあります。最頻値は英語で「Mode(モード)」と呼ばれ、データの中で最も頻繁に出現する値のことを指します。
最頻値の特徴
最頻値は次のような性質を持っています。
- 出現回数が最多の値:データセットの中で一番多く登場する数値です。
- 複数存在することもある:同じ回数で最多の値が複数あれば、それらすべてが最頻値になります(多峰性)。
- 存在しない場合もある:すべてのデータが異なる値の場合、最頻値は存在しません。
- カテゴリデータにも使える:数値以外の名義尺度(例:好きな銘柄、業種など)でも使用できます。
最頻値の具体例
例1: 最頻値が1つの場合
ある銘柄の日次変動幅:「50円, 100円, 100円, 100円, 150円, 200円」
- 最頻値 = 100円(3回出現)
例2: 最頻値が複数の場合
別の銘柄:「50円, 100円, 100円, 150円, 150円, 200円」
- 最頻値 = 100円と150円(両方とも2回出現)
例3: 最頻値が存在しない場合
さらに別の銘柄:「50円, 100円, 150円, 200円, 250円」
- 最頻値 = なし(すべて1回ずつ)
最頻値が有効な場面
最頻値は以下のようなケースで特に役立ちます。
- カテゴリカルデータ:色、種類、業種など、数値でないデータの代表を知りたいとき。
- 売れ筋商品の把握:最も売れている商品サイズや価格帯を知りたい場合。
- 頻度分布の山:ヒストグラムで最も高い山がどこにあるかを知りたいとき。
代表値の使い分け方
平均値、中央値、最頻値という3つの代表値は、それぞれ得意な場面が異なります。データの性質や分析の目的に応じて適切に選ぶことが重要です。
データ分布の形による使い分け
データの分布形状によって、どの代表値を使うべきかが変わってきます。
正規分布(対称的な分布)の場合
データが左右対称の釣鐘型に分布している場合、平均値・中央値・最頻値はほぼ同じ値になります。このときは計算が簡単な平均値を使うのが一般的です。
右に歪んだ分布(正の歪度)の場合
高所得者や高額物件など、一部の極端に大きい値がある場合、平均値は右側(大きい方)に引っ張られます。この場合は中央値を使うことで、より実態に近い中心を把握できます。
所得データはこの典型例で、国や自治体の統計でも中央値が重視されています。
左に歪んだ分布(負の歪度)の場合
試験の点数で満点近くに集中しているような場合、平均値は左側(小さい方)に引っ張られます。こちらも中央値が適しています。
多峰性の分布の場合
複数の山があるデータでは、最頻値がそれぞれの山の位置を示してくれます。平均値や中央値だけでは、データの複雑な構造を見落としてしまう可能性があります。
分析目的による使い分け
| 目的 | 推奨する代表値 | 理由 |
|---|---|---|
| 全体の傾向を数値化したい | 平均値 | すべてのデータが反映される |
| 標準的な値を知りたい | 中央値 | 外れ値の影響を受けない |
| 最も多い値を知りたい | 最頻値 | 頻度が最高の値が分かる |
| 外れ値が含まれるデータ | 中央値 | ロバスト(頑健)な指標 |
| カテゴリカルデータ | 最頻値 | 数値計算できないため |
実務では、複数の代表値を併用してデータを多角的に見ることが推奨されます。平均値だけでなく中央値も確認することで、データの偏りや外れ値の存在を検知できます。
株価分析での使い分け実例
株価データを分析する際の使い分け例を見てみましょう。
- 日次騰落率の平均:通常の相場では平均値でトレンドを把握できます。
- ストップ高・ストップ安が含まれる場合:中央値を使って標準的な値動きを確認します。
- 出来高の分析:最頻値で最もよく取引される価格帯(サポート・レジスタンス)を探ります。
- 複数銘柄のパフォーマンス比較:中央値を使えば、一部の極端な銘柄に引きずられない評価ができます。
株価分析における中央値の活用例
統計学の中央値は、株価やマーケットデータの分析においても重要な役割を果たします。ここでは実践的な活用例を紹介します。
ポートフォリオのリターン分析
複数の銘柄を保有しているとき、ポートフォリオ全体のパフォーマンスを評価する際に中央値が役立ちます。
例えば10銘柄を保有していて、月次リターンが「-15%, -5%, -2%, 0%, +1%, +2%, +3%, +5%, +8%, +40%」だったとします。
- 平均値 = +3.7%
- 中央値 = (+1% + +2%)÷2 = +1.5%
この場合、1銘柄の大幅上昇(+40%)が平均値を引き上げていますが、多くの銘柄は小幅な動きにとどまっています。中央値を見ることで、ポートフォリオの「標準的な」パフォーマンスをより正確に把握できます。
ボラティリティの中心的傾向
日々の値動き(ボラティリティ)を分析する際も、中央値は有効です。
過去20営業日の日次変動率の絶対値を並べて中央値を求めることで、典型的なボラティリティ水準を把握できます。これにより、極端な急騰・急落の日に惑わされず、通常時のリスク水準を理解できます。
セクター別パフォーマンスの比較
業種別の騰落率を比較する際、各セクターに含まれる銘柄数が異なる場合や、一部の銘柄が極端な動きをしている場合、中央値を使うことでより公平な比較が可能になります。
例えば、テクノロジーセクターに50銘柄、エネルギーセクターに10銘柄が含まれる場合、それぞれの中央値を求めて比較すれば、銘柄数の違いや外れ値の影響を抑えた評価ができます。
リスク管理への応用
損切りラインや利益確定の目安を設定する際、過去のトレード結果の中央値を参考にすることができます。
過去の損失額や利益額の中央値を把握しておくことで、極端な成功例や失敗例に引きずられず、現実的な期待値を設定できます。これは資金管理の精度向上にもつながります。
Excelでの中央値計算
実際の分析作業では、Excelなどの表計算ソフトを使うと便利です。Excelには中央値を求める関数MEDIANが用意されています。
=MEDIAN(A1:A10)
このように、範囲を指定するだけで自動的に中央値を計算してくれます。データの並べ替えも自動で行われるため、手計算の手間が省けます。
まとめ
この記事では、統計学における中央値の基本から実践的な活用法まで詳しく解説してきました。最後に重要なポイントを振り返っておきましょう。
- 中央値はデータを並べたときの真ん中の値で、外れ値の影響を受けにくい代表値です。データ数が奇数なら真ん中の値、偶数なら真ん中2つの平均を取ります。
- 平均値との使い分けが重要で、正規分布なら平均値、歪んだ分布や外れ値を含む場合は中央値が適しています。実務では両方を確認して多角的に分析しましょう。
- 最頻値も代表値の一つで、最も頻繁に現れる値を示します。カテゴリカルデータや多峰性の分布では特に有効です。
- 株価分析での活用では、ポートフォリオのパフォーマンス評価、ボラティリティ分析、セクター比較など幅広い場面で中央値が役立ちます。
- Excelの関数を活用すれば、大量のデータでも簡単に中央値を計算できます。実践的なデータ分析スキルとして身につけておきましょう。
中央値の理解を深めることで、データの本質をより正確に捉えることができるようになります。平均値だけに頼らず、データの性質に応じて適切な代表値を選ぶ習慣をつけることが、統計学的思考力を高める第一歩です。ぜひ日々の分析に活かしてください。