統計学における外れ値とは?検出方法と扱い方を初心者向けに解説

データ分析を行っていると、他の値と比べて極端に大きい、または小さい数値に遭遇することがあります。株価のデータを扱う際にも、突然の暴騰や暴落によって通常とは異なる値が記録されることがありますよね。こうした「外れ値」をどう扱うかは、統計分析の精度を大きく左右する重要なポイントです。

外れ値を誤って扱うと、平均値や標準偏差が大きくずれてしまい、本来の傾向を見失う可能性があります。一方で、外れ値には市場の急変動といった重要なシグナルが隠されていることもあるため、単純に削除すれば良いというわけではありません。

この記事では、統計学における外れ値の定義から、具体的な検出方法、そして実務での扱い方まで、初心者の方にも分かりやすく解説していきます。データ分析の精度を高めたい方は、ぜひ最後までお読みください。

目次

目次

  • 外れ値とは何か?統計学での定義と重要性
  • 外れ値と異常値の違いを理解しよう
  • 外れ値がデータ分析に与える影響
  • 外れ値の検出方法①:標準偏差を用いた判定
  • 外れ値の検出方法②:箱ひげ図と四分位範囲(IQR)
  • 外れ値の検出方法③:外れ値検定(統計的検定)
  • 外れ値の検出方法④:クラスター分析
  • Excelを使った外れ値の実践的な求め方
  • 外れ値の扱い方:保持・除外・変換の判断基準
  • 外れ値を扱う際の注意点とロバストな統計手法
  • まとめ

外れ値とは何か?統計学での定義と重要性

外れ値(outlier)とは、得られた観測値の中で、他のデータと比べて極端に離れた値のことを指します。もう少し専門的に言えば、真の値の推定値からの残差が異常に大きい値のことです。

例えば、ある銘柄の日々の株価変動率が通常±2%程度で推移しているのに、ある日だけ+15%の急騰を記録したとします。この+15%という値が外れ値に該当する可能性があります。

外れ値が発生する原因は様々です。

  • 測定ミスや記録ミス:データ入力時の誤りや、測定機器の不具合によって生じる誤った値
  • 真に極端な値:実際に発生した稀な現象による値(例:決算サプライズ、突発的なニュース)
  • サンプリングの偏り:データ収集過程で生じた偏りによる値

外れ値を適切に扱うことは、統計分析の信頼性を確保するために欠かせません。外れ値の存在を見過ごすと、平均値や相関係数といった統計量が歪んでしまい、誤った結論に至る恐れがあります。

外れ値と異常値の違いを理解しよう

統計学を学び始めると、外れ値異常値という似た言葉に出会います。この二つはしばしば混同されますが、明確な違いがあります。

異常値(abnormal value)は、外れ値のうち、測定ミス・記入ミス・機器の故障など、明確な原因が特定できるものを指します。つまり、異常値は「本来記録されるべきではなかった誤った値」であり、通常は分析から除外すべきデータです。

一方、外れ値はより広い概念で、異常値を含むものの、真に極端な値(実際に発生した稀な現象)も含まれます。外れ値の中には、削除せずに分析に含めるべき重要な情報が隠されている場合もあるのです。

例えば、株価データで考えてみましょう。

  • 異常値の例:データ入力時に桁を間違えて、実際の株価が1,000円なのに10,000円と記録してしまった場合
  • 外れ値(真に極端な値)の例:企業の不祥事により、株価が1日で30%急落した場合

後者の急落は実際に起こった現象であり、市場のリスクを理解する上で重要な情報です。外れ値が異常値かどうかを判断するには、データの背景や文脈を理解することが不可欠です。

外れ値がデータ分析に与える影響

外れ値がデータ分析に与える影響は、想像以上に大きいものです。特に、平均値や標準偏差といった代表値は外れ値の影響を受けやすい統計量です。

平均値への影響

例えば、以下のような日次リターン(%)のデータがあったとします。

0.5、0.8、-0.3、0.2、-0.5、0.4、15.0

最後の15.0%という値が外れ値です。これを含めて平均を計算すると:

\(\text{平均} = \frac{0.5 + 0.8 + (-0.3) + 0.2 + (-0.5) + 0.4 + 15.0}{7} = \frac{16.1}{7} \approx 2.3\%\)

一方、外れ値を除いて計算すると:

\(\text{平均} = \frac{0.5 + 0.8 + (-0.3) + 0.2 + (-0.5) + 0.4}{6} = \frac{1.1}{6} \approx 0.18\%\)

外れ値一つで平均値が10倍以上も変わってしまいました。このように、外れ値は平均値を大きく引っ張る性質があります。

標準偏差への影響

標準偏差はデータのばらつきを表す指標ですが、これも外れ値に敏感です。外れ値が含まれると標準偏差が過大に見積もられ、リスク評価が不正確になる可能性があります。

回帰分析への影響

回帰分析を行う際にも、外れ値は回帰直線の傾きや切片を大きく歪めます。特に、説明変数と目的変数の両方で極端な値を持つ点は、分析結果に強い影響を及ぼします。

外れ値の影響を理解し適切に対処することで、より信頼性の高いデータ分析が可能になります。

外れ値の検出方法①:標準偏差を用いた判定

最も基本的な外れ値の検出方法の一つが、標準偏差を用いる方法です。この方法は、データが正規分布に従うと仮定して、平均値から何標準偏差以上離れているかで外れ値を判定します。

標準偏差法の手順

  1. 平均値と標準偏差を計算:データ全体の平均値と標準偏差を求めます。
  2. Zスコアを計算:各データポイントがどれだけ平均値から離れているかを標準偏差の単位で表します。
  3. 閾値を設定:一般的には、平均値±2標準偏差または±3標準偏差を超える値を外れ値とみなします。

Zスコアは次の式で計算されます。

\(Z = \frac{x – \mu}{\sigma}\)

ここで、xは個々のデータ値、μは平均値、σは標準偏差です。

判定基準

  • |Z| > 2:外れ値の可能性あり(約95%のデータが±2σの範囲内に収まる)
  • |Z| > 3:明確な外れ値(約99.7%のデータが±3σの範囲内に収まる)

メリットとデメリット

標準偏差法のメリットは、計算が簡単で直感的に理解しやすい点です。Excelなどの表計算ソフトでも容易に実装できます。

一方、デメリットとしては、データが正規分布に従わない場合には適切に機能しない点があります。また、外れ値自体が平均値と標準偏差の計算に影響を与えるため、極端な外れ値が複数ある場合には検出精度が落ちる可能性があります。

外れ値の検出方法②:箱ひげ図と四分位範囲(IQR)

箱ひげ図(box plot)四分位範囲(IQR:Interquartile Range)を用いる方法は、データの分布を可視化しながら外れ値を検出できる強力な手法です。この方法は、データが正規分布に従わない場合でも有効に機能します。

四分位数とは

四分位数は、データを小さい順に並べたときに4等分する位置にある値です。

  • 第1四分位数(Q1):データ全体の25%の位置にある値
  • 第2四分位数(Q2):中央値(50%の位置)
  • 第3四分位数(Q3):データ全体の75%の位置にある値

四分位範囲(IQR)は次のように計算されます。

\(\text{IQR} = Q3 – Q1\)

外れ値の判定基準

四分位範囲法では、次の範囲を超える値を外れ値とみなします。

  • 下側の外れ値:Q1 – 1.5 × IQR より小さい値
  • 上側の外れ値:Q3 + 1.5 × IQR より大きい値

この1.5という係数は、経験的に定められた値で、一般的に広く使われています。より厳格に判定したい場合は、係数を2.0や3.0に変更することもあります。

箱ひげ図の見方

箱ひげ図では、以下の要素が視覚的に表現されます。

  • 箱の下端:第1四分位数(Q1)
  • 箱の中の線:中央値(Q2)
  • 箱の上端:第3四分位数(Q3)
  • ひげ:外れ値を除いた最小値と最大値
  • 点:外れ値

箱ひげ図を使えば、データの分布と外れ値を一目で把握できるため、初心者にもおすすめの方法です。

メリットとデメリット

四分位範囲法のメリットは、正規分布を仮定しないため、幅広いデータに適用できる点です。また、外れ値自体が計算に与える影響が小さいため、ロバスト(頑健)な手法といえます。

デメリットとしては、データ数が少ない場合に四分位数の推定精度が落ちる点や、1.5という係数が必ずしもすべてのケースに最適とは限らない点が挙げられます。

外れ値の検出方法③:外れ値検定(統計的検定)

より厳密に外れ値を判定したい場合には、統計的検定を用いる方法があります。これは、ある値が外れ値である確率を統計的に評価する手法です。

代表的な外れ値検定

外れ値検定にはいくつかの種類がありますが、代表的なものを紹介します。

スミルノフ・グラブス検定(Grubbs test)

スミルノフ・グラブス検定は、最も広く使われている外れ値検定の一つです。データが正規分布に従うと仮定して、最も極端な値が外れ値かどうかを検定します。

検定統計量Gは次のように計算されます。

\(G = \frac{\max|x_i – \bar{x}|}{s}\)

ここで、は平均値、sは標準偏差です。計算されたG値を臨界値と比較し、臨界値を超える場合に外れ値と判定します。

トンプソンのτ検定

トンプソンのτ検定は、中小規模のデータセット(n=3~1000程度)に適した検定方法です。スミルノフ・グラブス検定と似ていますが、より広い範囲のサンプルサイズに対応しています。

ディクソンのQ検定

ディクソンのQ検定は、少数のデータ(n=3~10程度)に対して外れ値を検定する方法です。計算が比較的簡単で、小規模なデータセットでの外れ値検出に有用です。

統計的検定の注意点

統計的検定を用いる際には、以下の点に注意が必要です。

  • データの正規性:多くの検定は正規分布を仮定しているため、事前にデータの分布を確認する必要があります。
  • 多重検定の問題:複数の値を順次検定する場合、偽陽性(実際には外れ値でないのに外れ値と判定)の確率が増加します。
  • サンプルサイズ:データ数が少ない場合、検定の検出力が低下します。

統計的検定は厳密な判定が可能ですが、適用条件を満たしているか確認することが重要です。

外れ値の検出方法④:クラスター分析

クラスター分析は、データを似た特徴を持つグループに分類する手法ですが、外れ値の検出にも応用できます。この方法は、多変量データ(複数の変数を持つデータ)の外れ値検出に特に有効です。

クラスター分析による外れ値検出の仕組み

クラスター分析では、データポイント間の距離や類似度を計算し、近い位置にあるデータを同じグループにまとめていきます。この過程で、どのグループにも属さない孤立したデータポイントが外れ値の候補となります。

代表的な手法

  • k-means法:データをk個のクラスターに分割し、各クラスターの中心から遠く離れた点を外れ値とみなします。
  • DBSCAN(Density-Based Spatial Clustering):密度に基づいてクラスターを形成し、低密度領域の点をノイズ(外れ値)として検出します。
  • 階層的クラスタリング:データの階層構造を樹形図(デンドログラム)で表現し、他のデータから大きく離れた点を外れ値として識別します。

メリットとデメリット

クラスター分析のメリットは、複数の変数を同時に考慮できる点です。例えば、株価データであれば、リターンとボラティリティの両方を考慮した外れ値検出が可能になります。

デメリットとしては、計算が複雑で、パラメータの設定(例:クラスター数)に専門知識が必要な点が挙げられます。また、結果の解釈も他の方法より難しい場合があります。

Excelを使った外れ値の実践的な求め方

理論を学んだら、実際に手を動かして外れ値を検出してみましょう。ここでは、Excelを使った四分位範囲法による外れ値の求め方を、ステップバイステップで解説します。

準備するデータ

例として、以下のような株価の日次リターン(%)データがA列に入力されているとします(A1:見出し、A2~A21:データ)。

0.5、0.8、-0.3、0.2、-0.5、0.4、-0.2、0.6、15.0、0.3、-0.4、0.7、0.1、-0.6、0.5、-0.1、0.4、-0.3、0.2、-12.0

ステップ1:第1四分位数(Q1)と第3四分位数(Q3)を求める

Excelには四分位数を計算する関数があります。

  1. 第1四分位数(Q1):任意のセル(例:C2)に次の式を入力します。
=QUARTILE.INC(A2:A21, 1)
  1. 第3四分位数(Q3):別のセル(例:C3)に次の式を入力します。
=QUARTILE.INC(A2:A21, 3)

QUARTILE.INC関数は、指定した範囲の四分位数を返す関数です。第2引数が1なら第1四分位数、3なら第3四分位数を計算します。

ステップ2:四分位範囲(IQR)を計算する

別のセル(例:C4)に次の式を入力し、IQRを計算します。

=C3 - C2

ステップ3:外れ値の範囲を計算する

外れ値の判定基準となる下限値と上限値を計算します。

  1. 下限値:セルC5に次の式を入力します。
=C2 - 1.5 * C4
  1. 上限値:セルC6に次の式を入力します。
=C3 + 1.5 * C4

ステップ4:各データポイントが外れ値かどうか判定する

B列に判定結果を表示します。B2セルに次の式を入力し、B21までコピーします。

=IF(OR(A2<$C$5, A2>$C$6), "外れ値", "")

この式は、各データポイントが下限値より小さいか上限値より大きい場合に「外れ値」と表示します。

ステップ5:箱ひげ図を作成する(オプション)

Excel 2016以降では、箱ひげ図を簡単に作成できます。

  1. データ範囲(A2:A21)を選択します。
  2. 「挿入」タブから「統計グラフの挿入」→「箱ひげ図」を選択します。
  3. 箱ひげ図が作成され、外れ値が点で表示されます。

Excelを使えば、プログラミングの知識がなくても簡単に外れ値を検出できます。実際のデータで試してみることで、理解が深まるでしょう。

外れ値の扱い方:保持・除外・変換の判断基準

外れ値を検出した後、最も重要なのは「その外れ値をどう扱うか」という判断です。外れ値の扱い方には主に3つの選択肢があります。

①保持:外れ値をそのまま分析に含める

外れ値が真に極端な値であり、重要な情報を含んでいる場合は、保持することが適切です。

保持すべきケースの例:

  • 市場の急変動:リーマンショックやコロナショックのような歴史的なイベントによる株価変動
  • 決算サプライズ:予想を大きく上回る(または下回る)業績発表による急騰・急落
  • リスク管理:テールリスク(極端なリスク)を評価する場合

外れ値には市場の重要なシグナルが含まれている可能性があるため、まずは保持を検討すべきです。

②除外:外れ値を分析から削除する

外れ値が異常値(測定ミス、記録ミスなど)であることが明確な場合や、外れ値が分析目的に対して悪影響を及ぼす場合は、除外することが適切です。

除外すべきケースの例:

  • 明らかな入力ミス:株価が1,000円なのに10,000円と記録されている場合
  • システムエラー:データ取得時のシステム障害による異常値
  • 分析目的に合わない:通常時の傾向を分析する際に、極端なイベントが含まれる場合

ただし、除外する場合は必ず理由を記録し、分析結果とともに報告することが重要です。恣意的に都合の良いデータだけを選ぶことは避けなければなりません。

③変換:外れ値の影響を抑える変換を行う

外れ値を完全に削除するのではなく、データ変換によって影響を抑える方法もあります。

主なデータ変換手法:

  • 対数変換:データに対数を取ることで、極端な値の影響を緩和します。特に正の歪みを持つ分布に有効です。
  • 平方根変換:対数変換より緩やかに値を圧縮します。
  • ウィンソライゼーション:外れ値を特定のパーセンタイル値(例:95パーセンタイル)で置き換えます。
  • トリミング:上位・下位の一定割合(例:各5%)のデータを削除します。

変換を行う場合は、元のデータも保持しておき、両方の結果を比較することが推奨されます。

判断のフローチャート

外れ値の扱い方を判断する際のフローを以下にまとめます。

  1. 原因を調査:外れ値が発生した原因を可能な限り特定します。
  2. 異常値かどうか判定:測定ミス・記録ミスなど明確な誤りがあれば除外します。
  3. 分析目的を確認:外れ値が分析目的に対して有益か有害かを評価します。
  4. 複数の方法を試す:保持・除外・変換の複数パターンで分析し、結果を比較します。
  5. 結果を報告:どの方法を選択したか、その理由とともに報告します。

外れ値を扱う際の注意点とロバストな統計手法

外れ値の扱いには、いくつかの重要な注意点があります。これらを理解することで、より適切なデータ分析が可能になります。

注意点①:恣意的な削除は避ける

分析結果を望ましい方向に導くために、都合の良い外れ値だけを削除することは絶対に避けなければなりません。これは研究倫理に反するだけでなく、間違った結論を導く原因となります。

外れ値を除外する場合は、事前に明確な基準を設定し、一貫した方法で適用することが重要です。

注意点②:外れ値の背景を理解する

統計的な検出方法だけに頼らず、データの背景や文脈を理解することが重要です。株価データであれば、ニュースや決算情報を確認し、外れ値が発生した理由を把握しましょう。

注意点③:複数の方法で検証する

一つの検出方法だけでなく、複数の手法を組み合わせて外れ値を検証することが推奨されます。例えば、標準偏差法と四分位範囲法の両方で外れ値と判定された値は、より確実に外れ値である可能性が高いといえます。

ロバスト統計手法の活用

外れ値の影響を受けにくいロバスト(頑健)な統計手法を活用することも有効な戦略です。

中央値の活用

平均値の代わりに中央値(median)を使用することで、外れ値の影響を大幅に軽減できます。中央値はデータを小さい順に並べたときの真ん中の値であり、極端な値の影響を受けません。

中央絶対偏差(MAD)

標準偏差の代わりに中央絶対偏差(MAD:Median Absolute Deviation)を使用する方法もあります。MADは外れ値に対してロバストなばらつきの指標です。

\(\text{MAD} = \text{median}(|x_i – \text{median}(x)|)\)

ロバスト回帰

回帰分析を行う際には、通常の最小二乗法の代わりに、ロバスト回帰(例:Huber回帰、Theil-Sen回帰)を用いることで、外れ値の影響を抑えることができます。

注意点④:サンプルサイズを考慮する

データ数が少ない場合、外れ値の検出精度は低下します。一般的に、サンプルサイズが30未満の場合は、外れ値の判定に慎重になる必要があります。

注意点⑤:可視化を活用する

ヒストグラム、散布図、箱ひげ図などの可視化を活用することで、データの分布と外れ値を直感的に把握できます。数値だけでなく、視覚的な確認も重要です。

まとめ

この記事では、統計学における外れ値について、定義から検出方法、扱い方まで詳しく解説してきました。最後に、重要なポイントをまとめておきましょう。

  • 外れ値の理解:外れ値とは他のデータと比べて極端に離れた値のことで、異常値(誤った値)と真に極端な値を区別することが重要です。
  • 検出方法の選択:標準偏差法、四分位範囲法、統計的検定、クラスター分析など、データの特性や目的に応じて適切な方法を選びましょう。
  • 影響の評価:外れ値は平均値や標準偏差、回帰分析などに大きな影響を与えるため、その存在を把握し適切に対処することが分析精度の向上につながります。
  • 扱い方の判断:保持・除外・変換の選択は、外れ値の原因と分析目的を考慮して決定し、恣意的な削除は避けるべきです。
  • ロバスト手法の活用:中央値や中央絶対偏差など、外れ値に強い統計手法を活用することで、より安定した分析結果が得られます。

外れ値の扱いは、統計分析において避けて通れない重要なテーマです。機械的に削除するのではなく、データの背景を理解し、適切な判断を下すことが、信頼性の高い分析につながります。株価データの分析においても、外れ値には市場の重要なシグナルが隠されている可能性があるため、慎重に扱いましょう。