統計学を学び始めると、必ず最初に出会う言葉が「度数」です。データ分析や株式投資のテクニカル分析を深く理解するには、この基礎概念をしっかり押さえる必要があります。しかし、「度数って結局何なの?」「階級との違いは?」と疑問に思う方も多いのではないでしょうか。
本記事では、統計学における度数の意味を初心者にもわかりやすく解説します。度数分布表の作り方から読み方、実際のデータ整理の手順まで、具体例を交えながら丁寧に説明していきます。この記事を読めば、データの散らばり具合を可視化し、傾向を読み取る力が身につきます。
目次
目次
- 統計学における度数とは何か
- 度数と階級の関係を理解する
- 度数分布表の作り方を実例で学ぶ
- 度数分布表の読み方とデータの傾向分析
- ヒストグラムで度数を視覚化する方法
- 累積度数と相対度数も押さえよう
- まとめ
統計学における度数とは何か
統計学における度数とは、特定の範囲(階級)に含まれるデータの個数のことです。例えば、あるクラスの生徒30人の身長を測定したとき、「150cm以上160cm未満」に該当する生徒が8人いたとすると、この「8人」が度数になります。
度数は英語で「frequency(フリクエンシー)」と呼ばれ、データがどこに集中しているのか、どのように散らばっているのかを数値で表現する基本的な指標です。データの分布を理解するための第一歩と言えるでしょう。
株式投資の世界でも、価格帯別の出来高(ボリューム)を度数として捉えることで、投資家がどの価格帯に注目しているかを分析できます。このように、度数という概念は統計学の枠を超えて、実際のデータ分析の現場で幅広く活用されています。
度数が示すもの
度数を見ることで、次のような情報が得られます。
- データの集中箇所:どの範囲に最も多くのデータが含まれているかが一目でわかります。
- データのばらつき:各範囲にどれくらいデータが散らばっているかを把握できます。
- 全体像の把握:大量のデータでも、度数にまとめることで傾向を素早く理解できます。
度数は単なる「数えた数」ではなく、データ全体の性質を明らかにする強力なツールなのです。
度数と階級の関係を理解する
度数を理解する上で欠かせないのが、階級という概念です。階級とは、データを整理するために設定する範囲のことを指します。例えば、「0点以上10点未満」「10点以上20点未満」といった区分が階級です。
度数と階級は切っても切れない関係にあります。階級という「入れ物」を用意し、その中に入るデータの個数を数えたものが度数なのです。
階級の設定方法
階級を設定する際には、以下のポイントに注意します。
- 階級の幅:すべての階級で幅を統一するのが基本です。例えば、すべて「10点刻み」といった形にします。
- 階級の数:一般的には5〜15個程度に設定します。多すぎるとデータが分散しすぎて傾向が見えず、少なすぎると詳細が失われます。
- データの範囲:すべてのデータが漏れなくいずれかの階級に含まれるように設定します。
例えば、テストの点数が0点から100点までの場合、階級を「0点以上10点未満」「10点以上20点未満」…「90点以上100点以下」のように10点刻みで10個の階級に分けることが考えられます。
階級値とは
各階級の中央の値を階級値と呼びます。例えば「150cm以上160cm未満」という階級の階級値は155cmです。階級値は、その階級を代表する値として、平均値などの計算に使用されます。
このように、階級を適切に設定することで、度数の意味がより明確になり、データの特徴を効果的に捉えることができるようになります。
度数分布表の作り方を実例で学ぶ
度数を実際に整理する際に使うのが度数分布表です。これは、各階級とそれに対応する度数を一覧にした表のことです。ここでは、具体的な例を使って度数分布表の作り方を順を追って説明します。
実例:生徒20人のテスト点数
以下のような20人のテスト点数データがあるとします。
45, 67, 82, 56, 73, 88, 91, 54, 62, 77, 85, 49, 71, 64, 58, 79, 83, 52, 69, 75
このデータから度数分布表を作成する手順を見ていきましょう。
度数分布表作成の手順
- データの範囲を確認する:最小値は45点、最大値は91点なので、データは45〜91点の範囲に分布しています。
- 階級の幅を決める:ここでは10点刻みで階級を設定します。
- 階級を設定する:「40点以上50点未満」「50点以上60点未満」…「90点以上100点未満」のように階級を作ります。
- 各階級に該当するデータを数える:元のデータを一つずつ確認し、どの階級に入るかをカウントします。
- 度数分布表にまとめる:階級と度数を表形式で整理します。
完成した度数分布表
上記の手順で作成した度数分布表は以下のようになります。
| 階級(点) | 度数(人) |
|---|---|
| 40以上50未満 | 2 |
| 50以上60未満 | 4 |
| 60以上70未満 | 4 |
| 70以上80未満 | 5 |
| 80以上90未満 | 4 |
| 90以上100未満 | 1 |
| 合計 | 20 |
この表を見ると、70点台に最も多くの生徒が集中していることが一目瞭然です。
度数分布表作成のコツ
度数分布表を作る際には、以下のポイントに注意しましょう。
- 階級の境界を明確にする:「以上」「未満」を使い分け、どのデータがどの階級に入るか曖昧さが残らないようにします。
- 度数の合計を確認する:すべての度数を足し合わせると、元のデータ数と一致するはずです。これで計算ミスがないか確認できます。
- 適切な階級幅を選ぶ:データの特性に応じて、傾向が見やすい階級幅を選びましょう。
度数分布表の読み方とデータの傾向分析
度数分布表が完成したら、次はその表からどのような情報を読み取れるかを学びましょう。度数分布表は、数値の羅列だったデータを「傾向」として理解するための強力なツールです。
データの中心傾向を読み取る
度数分布表から、データがどこに集中しているかを確認できます。先ほどの例では、70点以上80点未満の階級の度数が5人と最も多く、このクラスのテストは70点台を中心に分布していることがわかります。
度数が最も大きい階級を含む範囲を最頻値(モード)の位置として捉えることができ、これはデータの代表値の一つです。
データの散らばりを把握する
度数分布表を見ると、データがどれくらいばらついているかも読み取れます。
- 特定の階級に集中している場合:データのばらつきが小さく、比較的均質な集団であることを示します。
- 複数の階級に分散している場合:データのばらつきが大きく、多様性があることを意味します。
例えば、ある階級の度数が極端に多く他が少ない場合、その集団は特定の特性に集中していると言えます。逆に、各階級にほぼ均等に度数が分布している場合は、データが広範囲にわたっていると解釈できます。
外れ値の発見
度数分布表は、外れ値(異常値)を発見する手がかりにもなります。ほとんどの度数がある範囲に集中しているのに、極端に離れた階級に少数のデータがある場合、それは外れ値の可能性があります。
例えば、先ほどの例で90点以上の階級に1人だけいる生徒は、他の生徒と比べて突出した成績であることがわかります。このような情報は、データの質を評価したり、特殊なケースを特定したりするのに役立ちます。
比較分析への応用
複数のグループの度数分布表を並べて比較することで、グループ間の違いを分析できます。例えば、A組とB組のテスト点数の度数分布表を比較すれば、どちらのクラスが高得点に集中しているか、ばらつきが大きいかなどが視覚的に把握できます。
度数分布表は単なる集計表ではなく、データの背後にある物語を読み解くための重要な分析ツールなのです。
ヒストグラムで度数を視覚化する方法
度数分布表の情報をさらにわかりやすく伝えるために使われるのがヒストグラムです。ヒストグラムは、度数分布を棒グラフの形で視覚化したもので、データの分布を直感的に理解できます。
ヒストグラムの構成要素
ヒストグラムは以下の要素で構成されます。
- 横軸(X軸):階級を表します。連続したデータの範囲が並びます。
- 縦軸(Y軸):度数を表します。各階級に含まれるデータの個数を示します。
- 棒(バー):各階級の度数を高さで表現します。棒と棒の間に隙間はなく、連続しています。
ヒストグラムの作り方
度数分布表からヒストグラムを作成する手順は以下の通りです。
- 横軸に階級を並べる:左から右へ、階級を順番に配置します。
- 縦軸に度数の目盛りを設定する:最大度数が収まるように目盛りを決めます。
- 各階級に対応する棒を描く:度数の大きさに応じた高さの棒を、階級の幅に合わせて描きます。
- 棒を連続させる:ヒストグラムでは、データの連続性を示すため、棒と棒の間に隙間を空けません。
ヒストグラムから読み取れる情報
ヒストグラムを見ることで、度数分布表よりも直感的に以下の情報を把握できます。
- 分布の形状:左右対称か、偏っているか(右に裾が長い、左に裾が長い)といった分布の形が一目でわかります。
- ピークの位置:最も高い棒がどこにあるかで、データの中心がどこにあるかがすぐに判断できます。
- データの範囲:ヒストグラムの幅から、データがどれくらいの範囲に広がっているかが視覚的に理解できます。
棒グラフとの違い
ヒストグラムと棒グラフは見た目が似ていますが、明確な違いがあります。
- ヒストグラム:連続したデータ(量的データ)の分布を表し、棒の間に隙間がありません。
- 棒グラフ:カテゴリー別(質的データ)の数量を表し、棒の間に隙間があります。
例えば、「身長の分布」はヒストグラムで表し、「好きな果物の人数」は棒グラフで表します。この使い分けを理解することも、データの性質を正しく伝えるために重要です。
累積度数と相対度数も押さえよう
度数の概念をさらに発展させたものとして、累積度数と相対度数があります。これらを理解すると、データ分析の幅が大きく広がります。
累積度数とは
累積度数とは、ある階級までの度数を順に足し合わせた値のことです。例えば、先ほどのテスト点数の例で言えば、「60点未満の生徒は何人いるか」といった質問に答えるのに便利です。
累積度数を計算すると、以下のようになります。
| 階級(点) | 度数(人) | 累積度数(人) |
|---|---|---|
| 40以上50未満 | 2 | 2 |
| 50以上60未満 | 4 | 6 |
| 60以上70未満 | 4 | 10 |
| 70以上80未満 | 5 | 15 |
| 80以上90未満 | 4 | 19 |
| 90以上100未満 | 1 | 20 |
この表から、「70点未満の生徒は10人」「80点未満の生徒は15人」といった情報が瞬時に読み取れます。累積度数は、データの位置関係を理解する上で非常に有用です。
相対度数とは
相対度数とは、各階級の度数が全体に占める割合を表したものです。度数を全体のデータ数で割ることで求められます。
\(\text{相対度数} = \frac{\text{度数}}{\text{全データ数}}\)
相対度数を使うことで、データ数が異なる集団同士を公平に比較できます。例えば、30人のクラスと40人のクラスのテスト結果を比較する際、度数そのものではなく相対度数で比較することで、より正確な分析が可能になります。
相対度数は通常、小数または百分率(パーセント)で表現されます。先ほどの例で70点以上80点未満の相対度数を計算すると、以下のようになります。
\(\text{相対度数} = \frac{5}{20} = 0.25 = 25\%\)
つまり、クラスの25%の生徒が70点台だったことがわかります。
累積相対度数
累積度数と相対度数を組み合わせた累積相対度数という概念もあります。これは、ある階級までの相対度数を累積したもので、「全体の何パーセントがこの値以下か」を示します。
例えば、70点未満の累積相対度数は「10÷20=0.5=50%」となり、「生徒の半数が70点未満だった」ことがわかります。このように、累積相対度数は百分位数(パーセンタイル)を求める際などに活用されます。
度数、累積度数、相対度数はそれぞれ異なる視点からデータを捉える手段です。目的に応じて使い分けることで、より深くデータの性質を理解できます。
度数分析の実践的な活用例
ここまで学んだ度数の概念は、統計学の教科書の中だけでなく、実際のビジネスや投資の現場でも広く活用されています。いくつかの実践例を見てみましょう。
株式投資における価格帯別出来高分析
株式投資では、特定の価格帯でどれだけの取引(出来高)があったかを分析する「価格帯別出来高」という手法があります。これは、価格帯を階級、出来高を度数として捉える度数分布の応用です。
出来高が多い価格帯は、多くの投資家がその価格で売買を行った「注目価格帯」であり、将来その価格帯がサポートラインやレジスタンスラインとして機能する可能性があります。度数分布の考え方を理解していれば、こうした分析をより深く理解できます。
品質管理における不良品率の分析
製造業では、製品の寸法や重量などの測定値を階級に分け、度数分布を作成することで品質管理を行います。ヒストグラムを描き、規格の範囲内に収まっているか、ばらつきは適切かを視覚的に確認します。
この手法は「QC7つ道具」の一つとして広く知られており、製造現場の改善活動に欠かせません。
マーケティングにおける顧客年齢層の分析
マーケティングでは、顧客の年齢を階級に分け、各年齢層の顧客数(度数)を分析することで、ターゲット層を明確にします。どの年齢層に最も顧客が集中しているかがわかれば、効果的な広告戦略を立てることができます。
試験結果の分析と教育改善
学校や教育機関では、テスト結果を度数分布表やヒストグラムで分析し、生徒の理解度を把握します。どの点数帯に生徒が集中しているか、どの問題が難しすぎたか(度数が低い階級)などを分析することで、教育内容の改善に活かせます。
このように、度数という基礎概念は、あらゆる分野のデータ分析において共通して使われる重要なスキルなのです。
度数を学ぶ際の注意点とよくある誤解
度数の概念は比較的シンプルですが、初心者がつまずきやすいポイントもあります。ここでは、よくある誤解や注意すべき点を整理します。
階級の境界の扱い
「50以上60未満」と「50以上60以下」では意味が異なります。前者は60を含みませんが、後者は60を含みます。度数分布表を作る際は、すべての階級で統一したルールを使い、データが重複したり漏れたりしないようにしましょう。
階級幅が不適切な場合
階級幅が広すぎるとデータの詳細が失われ、狭すぎると傾向が見えにくくなります。データの性質に応じて適切な階級幅を選ぶことが重要です。一般的には、以下の公式が目安として使われます。
\(\text{階級の数} \approx \sqrt{n}\)
ここで、nはデータの総数です。例えば、データ数が100個なら、階級の数は10個程度が適切という目安になります。
度数とデータの個別性
度数分布表にまとめると、個々のデータの詳細な値は失われます。例えば、「50点以上60点未満」に4人いるとわかっても、その4人がそれぞれ何点だったかは度数分布表からはわかりません。
度数分布は全体の傾向を把握するためのツールであり、個別のデータを詳細に分析する場合には元のデータに戻る必要があることを理解しておきましょう。
ゼロ度数の階級の扱い
度数が0の階級も、度数分布表には記載するのが基本です。これにより、データがその範囲に存在しないことが明確になり、分布の全体像を正確に把握できます。
まとめ
本記事では、統計学における度数の基礎から応用まで、初心者にもわかりやすく解説しました。最後に重要なポイントをまとめます。
- 度数とは特定の階級に含まれるデータの個数であり、データの分布や傾向を理解するための基本的な指標です。
- 度数分布表を作成することで、大量のデータを整理し、全体の傾向を一目で把握できるようになります。
- 階級の設定が適切でないと正確な分析ができないため、データの性質に応じた階級幅と階級数を選ぶことが重要です。
- ヒストグラムによる視覚化は、データの分布を直感的に理解する強力な手段であり、分析結果を他者に伝える際にも有効です。
- 累積度数や相対度数といった派生概念を理解することで、より高度なデータ分析が可能になり、株式投資やビジネス分析など実践的な場面で活用できます。
度数は統計学の入り口であり、データ分析のあらゆる場面で応用される重要な概念です。この記事で学んだ知識を基礎に、さらに深い統計学の学習や実践的なデータ分析に挑戦していきましょう。