株取引やデータ分析を始めようとしたとき、統計学の用語が次々と出てきて戸惑ったことはありませんか。「標準偏差」「分散」「有意水準」といった言葉が飛び交い、何から手をつければいいのか迷ってしまう方も多いでしょう。統計学は難しそうに見えますが、実は基本的な用語さえ押さえてしまえば、データの見方や判断の仕方がぐっと明確になります。
この記事では、統計学の基本用語を初心者の方にもわかりやすく、かつ実践的に解説していきます。投資やビジネスで役立つ統計の考え方も交えながら、「なぜその用語が必要なのか」という背景まで丁寧に説明しますので、安心して読み進めてください。
目次
目次
- 統計学とは何か?基本の考え方
- データを要約する用語:記述統計の基礎
- データのばらつきを表す用語
- 確率と分布に関する用語
- 推測統計で使われる用語
- 仮説検定と有意水準の用語
- グラフ・図表の名称と使い方
- 株取引やデータ分析で役立つ統計用語
- まとめ
統計学とは何か?基本の考え方
統計学とは、データを集めて整理し、そこから意味のある情報を引き出すための学問です。私たちの身の回りには膨大なデータが溢れていますが、そのままでは何を意味するのか判断できません。統計学はデータを数値やグラフで要約し、傾向やパターンを見つけ出す手助けをしてくれます。
統計学には大きく分けて2つの分野があります。1つ目は記述統計で、集めたデータをそのまま要約して特徴を示す方法です。平均値やグラフがこれにあたります。2つ目は推測統計で、一部のサンプルデータから全体の傾向を推測する方法です。たとえば世論調査で1000人に聞いた結果から、国全体の意見を推測するのが推測統計の考え方です。
統計学を学ぶことで、感覚や勘ではなく、データに基づいた客観的な判断ができるようになります。株取引でも、過去の値動きを統計的に分析することで、より精度の高い投資判断が可能になります。
データを要約する用語:記述統計の基礎
まずは、データの特徴を一言で表すための基本用語を見ていきましょう。これらは記述統計と呼ばれる分野で使われる用語です。
平均値(へいきんち)
平均値は、データの合計をデータの個数で割った値です。最も基本的な代表値であり、データ全体の「真ん中あたり」を示します。
たとえば、ある銘柄の過去5日間の終値が100円、102円、98円、105円、100円だった場合、平均値は次のように計算します。
\(
\text{平均値} = \frac{100 + 102 + 98 + 105 + 100}{5} = \frac{505}{5} = 101\text{円}
\)
平均値は全体の傾向をざっくり把握するのに便利ですが、極端に大きな値や小さな値(外れ値)があると、実態とずれてしまうことがあります。
中央値(ちゅうおうち)
中央値は、データを小さい順に並べたときに真ん中に来る値です。英語ではメディアン(Median)とも呼ばれます。
先ほどの例で並べ替えると、98円、100円、100円、102円、105円となり、真ん中の値は100円です。これが中央値です。データの個数が偶数の場合は、真ん中の2つの値の平均を取ります。
中央値は外れ値の影響を受けにくいため、所得分布のように極端な値が含まれるデータでは、平均値よりも実態を反映しやすいと言われています。
最頻値(さいひんち)
最頻値は、データの中で最も頻繁に出てくる値です。英語ではモード(Mode)と呼ばれます。
先ほどの例では、100円が2回出現しているので、最頻値は100円です。アンケートの回答など、質的データの分析でよく使われます。
度数(どすう)と度数分布(どすうぶんぷ)
度数とは、ある値やある範囲に含まれるデータの個数のことです。データを区間ごとに分けて度数を集計したものを度数分布と言います。
たとえば、株価を「90円以上100円未満」「100円以上110円未満」のように区切って、それぞれに何件のデータが含まれるかを数えることで、データ全体の分布を視覚的に把握しやすくなります。
記述統計の代表値(平均・中央・最頻値)は、データの特徴を一言で要約するための基本ツールです。それぞれの特性を理解して使い分けましょう。
データのばらつきを表す用語
平均値だけではデータの全体像は見えません。たとえば、平均が100円でも、毎日100円前後で安定している場合と、80円から120円まで激しく動いている場合では、リスクが全く異なります。そこで必要になるのが、ばらつきを示す用語です。
範囲(はんい)
範囲は、データの最大値と最小値の差です。英語ではレンジ(Range)と呼ばれます。
\(
\text{範囲} = \text{最大値} – \text{最小値}
\)
範囲が大きいほど、データのばらつきが大きいと判断できます。ただし、範囲は極端な値の影響を強く受けるため、全体のばらつきを正確に表すには不十分です。
分散(ぶんさん)
分散は、各データが平均値からどれだけ離れているかを平均した値です。ばらつきを数値で表すための最も基本的な指標です。
分散の計算手順は次のとおりです。
- 各データと平均値の差を計算する(偏差)
- その差を2乗する
- 2乗した値をすべて足し合わせる
- データの個数で割る
\(
\text{分散} = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2
\)
ここで、nはデータの個数、xiは各データ、x̄は平均値を表します。分散が大きいほど、データが平均から大きく散らばっていることを意味します。
標準偏差(ひょうじゅんへんさ)
標準偏差は、分散の平方根(ルート)を取った値です。英語ではスタンダード・デビエーション(Standard Deviation)と呼ばれ、SDと略されることもあります。
\(
\text{標準偏差} = \sqrt{\text{分散}}
\)
分散は2乗しているため単位が元のデータと異なりますが、標準偏差は元のデータと同じ単位になるため、直感的に理解しやすいのが特徴です。株価のボラティリティ(変動の大きさ)を測る際にも、標準偏差がよく使われます。
外れ値(はずれち)
外れ値とは、他のデータから大きく外れた極端な値のことです。英語ではアウトライヤー(Outlier)と呼ばれます。
外れ値があると、平均値や標準偏差が大きく歪んでしまうため、データ分析の際には外れ値を検出して適切に処理することが重要です。株取引では、突発的なニュースで生じた異常な値動きが外れ値に該当する場合があります。
ばらつきを表す指標は、リスク管理の基本です。標準偏差が大きいほど価格変動のリスクが高いと判断できます。
確率と分布に関する用語
統計学では、データの背後にある確率的な仕組みを理解するために、確率分布という概念を使います。
確率(かくりつ)
確率は、ある事象が起こる可能性を0から1の数値で表したものです。0は「絶対に起こらない」、1は「必ず起こる」を意味します。たとえば、コインを投げて表が出る確率は0.5(50%)です。
統計学では、過去のデータから確率を推定し、将来の出来事を予測する手法が数多く存在します。
確率分布(かくりつぶんぷ)
確率分布とは、ある事象が取りうる値と、その値が生じる確率の対応関係を示したものです。データがどのように広がっているかを確率的に表現します。
正規分布(せいきぶんぷ)
正規分布は、統計学で最も重要な確率分布の一つで、平均値を中心に左右対称の釣り鐘型(ベル型)の形をしています。英語ではノーマル・ディストリビューション(Normal Distribution)と呼ばれ、ガウス分布とも言われます。
自然界や社会現象の多くは正規分布に近い形をしていると言われており、身長や体重、テストの点数などがその代表例です。株価の変動率(リターン)も、短期的には正規分布に近似できるとされています。
正規分布では、平均値から標準偏差1つ分の範囲に約68%のデータが、2つ分の範囲に約95%のデータが含まれるという性質があります。この性質は、リスク管理や信頼区間の計算で頻繁に利用されます。
ヒストグラム
ヒストグラムは、データを区間ごとに分けて度数を棒グラフで表したものです。データの分布を視覚的に把握するための基本的なグラフです。
横軸にデータの範囲、縦軸に度数を取り、各区間の度数を棒の高さで示します。ヒストグラムを見ることで、データが正規分布に近いか、偏りがあるか、外れ値があるかなどを直感的に理解できます。
箱ひげ図(はこひげず)
箱ひげ図は、データの分布を視覚的に表すグラフの一種で、最小値、第1四分位数、中央値、第3四分位数、最大値の5つの値を使って描かれます。英語ではボックスプロット(Box Plot)と呼ばれます。
箱ひげ図を使うと、データの中心や広がり、外れ値の有無を一目で把握できるため、複数のデータセットを比較する際に非常に便利です。
推測統計で使われる用語
ここからは、一部のデータ(サンプル)から全体(母集団)の性質を推測するための推測統計の用語を解説します。
母集団(ぼしゅうだん)
母集団とは、調査や分析の対象となる全体の集まりのことです。英語ではポピュレーション(Population)と呼ばれます。
たとえば、日本全国の有権者全員や、東証プライム市場に上場する全銘柄が母集団の例です。母集団全体を調べることは時間やコストの面で困難なことが多いため、次に説明するサンプルを使って推測します。
標本(ひょうほん)・サンプル
標本またはサンプルとは、母集団から抽出された一部のデータのことです。サンプルを適切に選ぶことで、母集団全体の性質をある程度正確に推測できます。
たとえば、世論調査で1000人に聞いた結果がサンプルであり、そこから日本全体の意見を推測します。サンプルの取り方が偏っていると、推測結果も偏ってしまうため、無作為抽出(ランダムサンプリング)が重要です。
信頼区間(しんらいくかん)
信頼区間とは、サンプルから推測した値が、どの範囲にあれば信頼できるかを示す区間のことです。英語ではコンフィデンス・インターバル(Confidence Interval)と呼ばれます。
たとえば、「平均株価は95%の信頼区間で100円±5円」と言えば、「真の平均株価は95円から105円の間にある可能性が95%ある」と解釈できます。信頼区間が狭いほど、推測の精度が高いと言えます。
標準誤差(ひょうじゅんごさ)
標準誤差は、サンプルから計算した統計量(たとえば平均値)が、どれくらいばらつくかを示す指標です。英語ではスタンダード・エラー(Standard Error)と呼ばれ、SEと略されます。
サンプルサイズが大きいほど標準誤差は小さくなり、推測の精度が向上します。標準誤差は信頼区間の計算にも使われます。
仮説検定と有意水準の用語
統計学では、「ある仮説が正しいかどうか」を客観的に判断するために仮説検定という手法を使います。
仮説検定(かせつけんてい)
仮説検定とは、データに基づいて仮説の正しさを統計的に判断する方法です。たとえば、「新しい投資手法は従来の手法よりも優れている」という仮説を検証する際に使います。
仮説検定では、まず帰無仮説(きむかせつ)と対立仮説(たいりつかせつ)を設定します。帰無仮説は「差がない」「効果がない」といった保守的な仮説で、対立仮説はその逆です。データを分析して、帰無仮説を棄却できるかどうかを判断します。
有意水準(ゆういすいじゅん)
有意水準とは、仮説検定で「偶然ではない」と判断するための基準となる確率のことです。英語ではシグニフィカンス・レベル(Significance Level)と呼ばれ、α(アルファ)で表されます。
一般的には5%(0.05)や1%(0.01)が使われます。有意水準5%とは、「偶然でこの結果が起こる確率が5%以下なら、帰無仮説を棄却して対立仮説を採択する」という意味です。
統計学では「絶対に正しい」とは言わず、「95%の信頼度で正しいと言える」といった表現を使います。これは、サンプルから推測する以上、常に不確実性が残るためです。
p値(ピーち)
p値とは、帰無仮説が正しいと仮定したときに、観測されたデータ(またはそれ以上極端なデータ)が得られる確率のことです。英語ではp-valueと表記されます。
p値が有意水準よりも小さければ、帰無仮説を棄却して対立仮説を採択します。たとえば、p値が0.03で有意水準が0.05なら、「統計的に有意である」と判断します。
第一種の過誤と第二種の過誤
仮説検定には、2種類の誤りが存在します。
- 第一種の過誤:帰無仮説が正しいのに棄却してしまう誤り。誤って「効果がある」と判断してしまうケースです。
- 第二種の過誤:帰無仮説が誤りなのに棄却できない誤り。本当は効果があるのに「効果がない」と判断してしまうケースです。
有意水準を厳しくすると第一種の過誤は減りますが、第二種の過誤が増える傾向があります。このバランスを考慮しながら、適切な有意水準を設定することが重要です。
仮説検定は、データから客観的な結論を導くための強力なツールです。有意水準やp値の意味を正しく理解しておきましょう。
グラフ・図表の名称と使い方
統計学では、データを視覚的に表現するためにさまざまなグラフや図表が使われます。ここでは代表的なものを紹介します。
棒グラフ
棒グラフは、カテゴリごとの数量を棒の長さで比較するグラフです。たとえば、各銘柄の取引高や、月ごとの売上高を比較する際に使われます。
折れ線グラフ
折れ線グラフは、時間の経過に伴う変化を表すグラフです。株価チャートや気温の推移など、時系列データの可視化に最適です。
散布図(さんぷず)
散布図は、2つの変数の関係を点で表したグラフです。英語ではスキャッタープロット(Scatter Plot)と呼ばれます。
たとえば、横軸に企業の売上高、縦軸に株価を取って点をプロットすれば、売上と株価の関係を視覚的に把握できます。散布図から相関関係の有無を読み取ることができます。
円グラフ
円グラフは、全体に対する各カテゴリの割合を円の扇形で表すグラフです。ポートフォリオの資産配分や市場シェアの表示などに使われます。
株取引やデータ分析で役立つ統計用語
ここからは、株取引や投資のデータ分析で特によく使われる統計用語を紹介します。
相関係数(そうかんけいすう)
相関係数は、2つの変数の関係の強さを−1から1の数値で表したものです。英語ではコリレーション(Correlation)と呼ばれます。
- 1に近い:正の相関が強い(一方が増えると他方も増える)
- 0に近い:相関がほとんどない
- −1に近い:負の相関が強い(一方が増えると他方は減る)
たとえば、ある銘柄と市場全体の相関係数を調べることで、市場の動きにどれだけ連動しているかを把握できます。
回帰分析(かいきぶんせき)
回帰分析とは、ある変数(説明変数)から別の変数(目的変数)を予測するための統計手法です。英語ではリグレッション(Regression)と呼ばれます。
たとえば、企業の売上高やPERなどの指標から株価を予測するモデルを作る際に、回帰分析が使われます。最も基本的なものが線形回帰で、直線の式でデータの関係を表します。
ボラティリティ
ボラティリティは、株価や為替などの価格変動の大きさを示す指標です。一般的には、リターンの標準偏差で測定されます。
ボラティリティが高いほど価格変動が激しく、リスクが大きいと判断されます。逆に、ボラティリティが低い銘柄は安定した値動きをする傾向があります。
リスクとリターン
リスクとは、投資において将来の結果が不確実であることを指します。統計学的には、リターンのばらつき(標準偏差)でリスクを測ります。
リターンは、投資によって得られる収益率のことです。一般的に、リスクが高い投資ほどリターンも高くなる傾向があります。この関係をリスク・リターンのトレードオフと呼びます。
移動平均(いどうへいきん)
移動平均は、一定期間のデータの平均値を順次計算していく手法です。英語ではムービング・アベレージ(Moving Average)と呼ばれます。
株価チャートでは、5日移動平均や25日移動平均などがよく使われ、短期的なトレンドや長期的なトレンドを把握するのに役立ちます。移動平均線を使ったテクニカル分析は、多くの投資家が活用しています。
偏差値(へんさち)
偏差値は、あるデータが平均からどれだけ離れているかを、標準偏差を基準にして数値化したものです。平均を50、標準偏差を10として標準化されます。
偏差値は学力テストで有名ですが、投資の世界でも、ある銘柄のパフォーマンスが市場全体と比べてどの位置にあるかを測る際に応用できます。
百分率(パーセント)
百分率は、全体を100としたときの割合を示す数値です。記号は%で表されます。
株式投資では、騰落率や利回りなどをパーセントで表現することで、異なる銘柄やポートフォリオを比較しやすくなります。
まとめ
この記事では、統計学の基本用語を初心者の方にもわかりやすく解説してきました。最後に、押さえておきたいポイントを整理しましょう。
- 記述統計の基本:平均値、中央値、最頻値などの代表値で、データの特徴を一言で要約できる。
- ばらつきの指標:分散や標準偏差を使うことで、データのリスクや変動の大きさを数値化できる。
- 確率と分布:正規分布やヒストグラムを理解すれば、データの広がり方を視覚的に把握できる。
- 推測統計:サンプルから母集団を推測する手法で、信頼区間や標準誤差が重要な概念となる。
- 仮説検定:有意水準やp値を使って、データから客観的な結論を導くことができる。統計学では「絶対」ではなく「確率的に正しい」と表現する。
- 株取引への応用:相関係数、ボラティリティ、移動平均などの統計用語を使うことで、より精度の高い投資判断が可能になる。
統計学は一見難しそうに思えますが、基本的な用語と考え方を押さえてしまえば、データ分析や株取引で強力な武器になります。この記事で紹介した用語を繰り返し確認しながら、実際のデータに触れて理解を深めていきましょう。統計学の知識は、感覚に頼らない客観的な判断力を養う第一歩です。