相関の定義
複数の変数間の関連性を相関といいます。
一方をX、もう一方をYとした場合に、Xの値が大きくなるほどYの値も大きくなるといった傾向を正の相関があるといい、散布図においてデータは右上がりの直線に近づきます。
反対に、Xの値が大きくなるほどYの値は小さくなるといった傾向は負の相関があるといい、散布図においてデータは右下がりの直線に近づきます。
相関の程度を示す統計学的指標が相関係数です。
正の相関では相関係数は0<r(=正の値)を、負の相関では相関係数はr<0(=負の値)をとります。
相関係数は必ず-1≦r≦1の値をとり、また、絶対値が1に近づくほど相関が強いということがいえます。
解釈の際、注意しなければならないのは、相関があるというのは「変数同士が互いになんらかの影響を与えている」ことを示しているだけだということ、つまり、相関は因果関係を示すものではないということです。
また、標本によっては偽相関や曲線相関である可能性もあるため、結果を慎重に分析することが必要です。
相関の関連キーワード
- 正の相関
- 負の相関
- 相関係数
- 曲線相関
- 無相関
- 切断効果
相関の補足ポイント
集団の性質によっては、本来の相関関係が見られなかったり、誤った相関が得られる可能性が存在します。
その例として、今回は「曲線相関」と「切断効果」を取り上げることにします。
1次関数で表されるような関係、つまり正の相関や負の相関以外のなんらかの関係を曲線相関といいます。
散布図においてはU字型や逆U字型となるのが一般的で、また、関係が深いにもかかわらず相関係数は0(無相関)に近くなるのが特徴です。
曲線相関の具体例としては説得の回数とその効果などがあります。
繰り返し説得を行うと、内容をより理解してもらえることで説得の効果が期待できます(右上がり)。
しかし、程度を超えあまりにもしつこすぎると、今度は逆効果となってしまう可能性があります(右下がり)。
このようなケースでは、散布図におけるデータ分布は逆U字型になることが推測されますね。
次に、本来の分布範囲の一部しかデータが得られていない場合に、もし全範囲についてのデータが得られた場合と値が大きく異なる可能性を示すものを切断効果と言います。
切断効果の具体例としては「入試の成績と入学後の成績」などがあります。
入学後の成績は、入試に合格した生徒のみからしか得られないデータです。
そのため、不合格だった者の成績が含まれていないデータは本来の分布に比べ大きく偏ることになり、相関係数は無相関に近くなる可能性が高くなるのです。
つまり「無相関だからr=0」とはいえますが、その逆、「r=0だから無相関」とはいえないわけです。
これら以外にも、2つの変数以外の第3の変数の影響により擬似相関が見られる、相関係数が外れ値の影響を大きく受けてしまっているなどといったさまざまなケースが考えられます。
相関関係を解釈する際には、数値要約だけではなく、実際の散布図なども確認することが重要だといえるでしょう。
編集中