株式投資やデータ分析を始めたばかりの方にとって、「変数」という言葉は少し難しく感じるかもしれません。「統計学の本を読んでいたら変数という言葉が出てきたけど、いまいち意味がわからない」「質的変数と量的変数って何が違うの?」そんな疑問を抱えている方も多いのではないでしょうか。
安心してください。変数とは簡単に言えば「データの項目」のことで、統計学やデータ分析において必ず理解しておきたい基本中の基本です。この記事では、統計学における変数の種類や使い方を、初心者の方でも理解できるように丁寧に解説していきます。変数の概念を正しく理解することで、データ分析の精度が格段に上がり、株式投資の判断材料もより的確に扱えるようになります。
目次
目次
- 統計学における変数とは何か
- 質的変数と量的変数の違い
- 説明変数と目的変数の関係
- 変数の尺度による分類
- 独立変数と従属変数の理解
- 制御変数と外部変数の役割
- 変数の作成と定義のポイント
- まとめ
統計学における変数とは何か
統計学における変数とは、調査や実験で測定・観察されるデータの項目のことを指します。もっと簡単に言うと、分析対象となる「何か」を表す値や属性のことです。
例えば、株式投資のデータ分析では次のようなものが変数になります。
- 株価:日々変動する数値データ
- 出来高:取引された株数
- 業種:「製造業」「IT」「金融」などのカテゴリー
- 格付け:「A」「B」「C」などの評価
これらの項目は、それぞれ異なる値を取ることができるため「変数」と呼ばれます。変数を正しく理解し分類することで、どの分析手法を使うべきかが明確になり、データから意味のある情報を引き出せるようになります。
統計学では、変数をいくつかの観点から分類します。主な分類軸は「データの性質による分類」と「変数の役割による分類」の2つです。まずはデータの性質による分類から見ていきましょう。
質的変数と量的変数の違い
統計学における変数の最も基本的な分類は、質的変数と量的変数です。この2つの違いを理解することは、データ分析の第一歩と言えます。
質的変数(カテゴリカル変数)とは
質的変数は、数値で表されない、もしくは数値で表されていても計算に意味がない変数のことです。別名「カテゴリカル変数」とも呼ばれます。
質的変数の特徴は次のとおりです。
- カテゴリーで分類される:「男性・女性」「東京・大阪・名古屋」など
- 数値化しても演算できない:性別を1、2と数値化しても足し算や平均には意味がない
- 順序がない場合もある:血液型(A型、B型、O型、AB型)には優劣や順序がない
株式投資の文脈では、次のようなものが質的変数になります。
- 業種:製造業、サービス業、金融業など
- 市場区分:東証プライム、東証スタンダード、東証グロースなど
- 格付け:投資適格、投機的など
量的変数(数量変数)とは
一方、量的変数は数値で表され、その数値に対して計算(足し算、引き算、平均など)が意味を持つ変数です。別名「数量変数」とも呼ばれます。
量的変数の特徴は次のとおりです。
- 数値で測定される:身長、体重、価格など
- 演算が可能:平均値、合計値、標準偏差などが計算できる
- 連続的または離散的:小数点を含む連続的な値か、整数のみの離散的な値か
株式投資の文脈では、次のようなものが量的変数になります。
- 株価:1,250円、3,580円など
- 出来高:100万株、250万株など
- PER:15倍、22倍など
- 配当利回り:2.5%、4.3%など
質的変数と量的変数の区別は、どの統計手法を使うべきかを決める上で非常に重要です。例えば、平均値を計算するなら量的変数が必要ですし、クロス集計を行うなら質的変数が適しています。
説明変数と目的変数の関係
データ分析や統計モデルでは、変数を「原因」と「結果」の関係で分類することがあります。これが説明変数と目的変数の考え方です。
目的変数(従属変数)とは
目的変数とは、分析において「予測したい」「説明したい」対象となる変数のことです。別名「従属変数」「結果変数」「応答変数」とも呼ばれます。英語では「dependent variable」や「response variable」と表記されます。
株式投資の文脈では、次のようなものが目的変数になります。
- 将来の株価:明日の終値、1ヶ月後の株価など
- 株価の変動率:今日から明日への上昇率・下落率
- 利益:企業の純利益、営業利益など
目的変数は、通常、数式では y という記号で表されます。
説明変数(独立変数)とは
説明変数とは、目的変数に影響を与える、もしくは目的変数を説明するために用いられる変数のことです。別名「独立変数」「予測変数」とも呼ばれます。英語では「independent variable」や「predictor variable」と表記されます。
株式投資の文脈では、次のようなものが説明変数になります。
- 過去の株価:昨日の終値、先週の平均株価など
- テクニカル指標:移動平均線、RSI、MACDなど
- 財務指標:PER、PBR、ROEなど
- 出来高:取引量のデータ
説明変数は、通常、数式では x という記号で表され、複数ある場合は x₁、x₂、x₃ のように添え字を付けて区別します。
説明変数と目的変数の関係性
説明変数と目的変数の関係は、次のような回帰モデルで表現されます。
\(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \varepsilon\)
ここで、
yは目的変数x₁、x₂、…、xₙは説明変数β₀、β₁、β₂、…、βₙは係数(パラメータ)εは誤差項
を表します。
説明変数と目的変数の関係を明確にすることで、「何が株価に影響を与えているのか」「どの指標を見れば将来の動きを予測できるのか」といった問いに答えられるようになります。
変数の尺度による分類
統計学では、変数をより詳細に分類するために「尺度(スケール)」という概念を用います。尺度とは、データがどのような性質を持っているかを示すもので、大きく4つのレベルに分類されます。
名義尺度(カテゴリ変数)
名義尺度は、最も基本的な尺度で、データを単に分類するためだけに使われます。順序や大小関係はありません。
名義尺度の例:
- 性別:男性、女性
- 血液型:A型、B型、O型、AB型
- 業種:製造業、小売業、サービス業
名義尺度では、カテゴリー間の比較(どちらが大きいか、どちらが優れているか)は意味を持ちません。できる演算は「度数(カウント)」や「最頻値(モード)」の計算のみです。
順序尺度(順序変数)
順序尺度は、データに順序や序列がある尺度です。ただし、その間隔が等しいとは限りません。
順序尺度の例:
- 格付け:AAA、AA、A、BBB、BB、B、CCC
- 満足度:非常に満足、満足、普通、不満、非常に不満
- 学歴:小卒、中卒、高卒、大卒、大学院卒
順序尺度では、「AAAはAAより上」という関係性はわかりますが、「AAAとAAの差」と「AAとAの差」が同じかどうかはわかりません。できる演算は度数、最頻値、中央値(メディアン)などです。
間隔尺度(インターバル変数)
間隔尺度は、順序だけでなく、値の間隔が等しい尺度です。ただし、絶対的なゼロ点(真のゼロ)は存在しません。
間隔尺度の例:
- 温度(摂氏・華氏):10℃と20℃の差は、20℃と30℃の差と等しい
- 西暦:2020年と2021年の差は1年
間隔尺度では、足し算・引き算は意味を持ちますが、掛け算・割り算は意味を持ちません。例えば、20℃は10℃の「2倍暑い」とは言えません。できる演算は平均値、標準偏差などです。
比率尺度(レシオ変数)
比率尺度は、間隔が等しく、かつ絶対的なゼロ点が存在する尺度です。最も情報量が多い尺度と言えます。
比率尺度の例:
- 身長・体重:0cmや0kgという絶対的なゼロが存在する
- 株価:0円という絶対的なゼロが存在する
- 出来高:0株という絶対的なゼロが存在する
- 年収:0円という絶対的なゼロが存在する
比率尺度では、すべての演算(足し算、引き算、掛け算、割り算)が意味を持ちます。例えば、「株価2,000円は1,000円の2倍」という表現が正しく使えます。
変数の尺度を正しく理解することで、適切な統計手法を選択でき、誤った解釈を避けることができます。例えば、名義尺度のデータに対して平均値を計算しても意味がないことがわかります。
独立変数と従属変数の理解
先ほど説明した「説明変数」と「目的変数」は、別の言い方で「独立変数」と「従属変数」とも呼ばれます。ここでは、この2つの用語についてさらに詳しく見ていきましょう。
独立変数の特徴
独立変数(independent variable)は、実験や分析において研究者が操作したり、観察したりする変数です。他の変数に影響を与える「原因」の側の変数と考えることができます。
独立変数の特徴:
- 操作可能:実験では研究者が値を設定できる
- 原因側:他の変数に影響を及ぼす
- 予測因子:結果を予測するために使われる
株式投資の例では、「テクニカル指標の値」や「出来高」が独立変数になり得ます。これらの指標を使って、将来の株価変動(従属変数)を予測するわけです。
従属変数の特徴
従属変数(dependent variable)は、独立変数の影響を受けて変化する変数です。研究や分析において、最終的に知りたい「結果」の側の変数です。
従属変数の特徴:
- 観察対象:実験では結果として測定される
- 結果側:他の変数の影響を受ける
- 予測対象:分析によって予測したい値
株式投資の例では、「明日の株価」や「今後1ヶ月の株価変動率」が従属変数になります。これらは、様々な独立変数(テクニカル指標、ファンダメンタル指標など)の影響を受けて変化すると考えられます。
独立変数と従属変数を明確に区別することで、因果関係の仮説を立て、検証することが可能になります。ただし、統計的な相関関係が必ずしも因果関係を意味するわけではないという点には注意が必要です。
制御変数と外部変数の役割
実際のデータ分析では、説明変数と目的変数だけでなく、他にもいくつかの重要な変数の概念があります。ここでは、制御変数、外部変数、介在変数、調整変数について解説します。
制御変数(コントロール変数)
制御変数(control variable)とは、分析や実験において、その影響を一定に保つことで、独立変数と従属変数の純粋な関係を明らかにするための変数です。
例えば、「ある銘柄の株価変動率(従属変数)に対するPER(独立変数)の影響」を調べたいとします。しかし、業種によって株価の変動パターンは大きく異なります。この場合、業種を制御変数として設定し、「同じ業種内で」PERと株価変動率の関係を分析することで、より正確な関係性を把握できます。
制御変数の役割:
- 交絡因子の除去:分析結果を歪める要因を取り除く
- 純粋な効果の測定:独立変数の真の影響を明らかにする
- 比較の公平性:条件を揃えて比較する
外部変数(外生変数)
外部変数(extraneous variable)とは、研究者が意図していないにもかかわらず、従属変数に影響を与える可能性のある変数です。分析モデルに含まれていない変数で、結果に影響を及ぼす「ノイズ」のような存在です。
株式投資の例では、次のようなものが外部変数になり得ます。
- 突発的なニュース:企業の不祥事、自然災害など
- マクロ経済指標:金利変動、為替レート
- 政治的イベント:選挙結果、政策変更
外部変数の影響を完全に排除することは難しいですが、できるだけ特定し、制御変数として扱うことが重要です。
介在変数(メディエーター変数)
介在変数(mediator variable)とは、独立変数と従属変数の間に入り、因果関係のメカニズムを説明する変数です。
例えば、「企業の研究開発費(独立変数)が株価(従属変数)に与える影響」を考えた場合、その間に「新製品の開発成功」という介在変数が存在するかもしれません。つまり、研究開発費が直接株価を上げるのではなく、研究開発費が新製品開発の成功につながり、その成功が株価を押し上げるという関係です。
研究開発費(独立変数)→ 新製品開発成功(介在変数)→ 株価上昇(従属変数)
介在変数を理解することで、「なぜその関係が成り立つのか」というメカニズムを深く理解できます。
調整変数(モデレーター変数)
調整変数(moderator variable)とは、独立変数と従属変数の関係の強さや方向を変化させる変数です。
例えば、「PER(独立変数)と株価変動率(従属変数)の関係」を考えた場合、その関係は市場環境(調整変数)によって変わるかもしれません。強気相場では低PER銘柄でも高PER銘柄でも株価が上昇しやすいですが、弱気相場では低PER銘柄の方が下落リスクが小さいといった具合です。
制御変数、外部変数、介在変数、調整変数といった概念を理解することで、より高度なデータ分析が可能になり、複雑な市場環境下でも適切な判断ができるようになります。
変数の作成と定義のポイント
データ分析では、既存のデータからまったく新しい変数を作成することもあります。これを変数の作成や特徴量エンジニアリングと呼びます。適切な変数を作成することで、分析の精度が飛躍的に向上します。
変数作成の基本的な手順
変数を作成する際は、次のステップを踏むと効果的です。
- 目的の明確化:何を予測・説明したいのかを明確にする
- 仮説の設定:どの要素が目的変数に影響するかを仮説立てる
- データの収集:必要なデータを集める
- 変数の計算:既存データから新しい変数を計算・作成する
- 検証:作成した変数が実際に有効かを確認する
株式投資における変数作成の例
株式投資の分析では、次のような変数を新たに作成することがあります。
- 株価変動率:(今日の終値 – 昨日の終値)÷ 昨日の終値 × 100
- 移動平均乖離率:(現在株価 – 移動平均値)÷ 移動平均値 × 100
- 相対出来高:本日の出来高 ÷ 過去30日の平均出来高
- ボラティリティ:過去一定期間の株価変動率の標準偏差
例えば、移動平均乖離率を計算する式は次のようになります。
\(\text{移動平均乖離率} = \frac{\text{現在株価} – \text{移動平均値}}{\text{移動平均値}} \times 100\)
この変数は、現在の株価が移動平均線からどれだけ離れているかを示し、買われすぎ・売られすぎの判断に使われます。
変数定義の重要性
変数を作成する際は、その定義を明確にしておくことが非常に重要です。例えば、「出来高が多い」という表現は曖昧です。「過去30日平均の1.5倍以上」といった具体的な基準を設定することで、再現性のある分析が可能になります。
変数定義で注意すべきポイント:
- 明確性:誰が見ても同じように理解できる
- 再現性:同じ計算手順で同じ結果が得られる
- 妥当性:分析の目的に合致している
- 測定可能性:実際にデータから計算できる
データ前処理と変数変換
分析を行う前に、変数に対して次のような前処理や変換を施すことがあります。
- 標準化:平均0、標準偏差1に変換して、異なるスケールの変数を比較可能にする
- 正規化:0から1の範囲に変換する
- 対数変換:大きな値の範囲を圧縮し、分布を正規分布に近づける
- カテゴリ化:連続変数を「高・中・低」などのカテゴリに分ける
- ダミー変数化:質的変数を0と1の数値に変換する
例えば、PERという変数を「低PER(15倍未満)」「中PER(15倍以上25倍未満)」「高PER(25倍以上)」という3つのカテゴリに分けることで、より直感的な分析が可能になる場合があります。
変数の作成と定義は、データ分析の成果を大きく左右します。既存のデータをそのまま使うだけでなく、分析の目的に合わせて新しい変数を生み出す創造性が求められます。株式投資においても、独自の指標を作成することで他の投資家にはない優位性を得られる可能性があります。
まとめ
この記事では、統計学における変数の基礎知識について詳しく解説してきました。最後に重要なポイントをまとめます。
- 変数とはデータの項目:統計学における変数とは、調査や実験で測定・観察されるデータの項目のことで、分析の基本単位となります。
- 質的変数と量的変数:変数は質的変数(カテゴリで分類)と量的変数(数値で測定)に分類され、それぞれ適用できる統計手法が異なります。
- 説明変数と目的変数:説明変数は原因側、目的変数は結果側の変数で、この関係を明確にすることで予測モデルを構築できます。
- 尺度による分類:名義尺度、順序尺度、間隔尺度、比率尺度という4つの尺度を理解することで、適切な統計手法を選択できます。
- 変数の作成と定義:既存データから新しい変数を作成する際は、明確な定義と再現性のある計算手順を設定することが重要です。
変数の概念を正しく理解することは、株式投資におけるデータ分析の精度を高め、より合理的な投資判断を下すための土台となります。まずは身近なデータから変数を意識して、少しずつ分析のスキルを磨いていきましょう。