2変数の相関は2つのデータの性質によって扱う指標を定める。
単相関係数
数量データと数量データの関連度合い。
偏差平方和 = sum( (x[i] - xの平均)^2 ) 単相関係数 = (x[i] - xの平均)(y[i] - yの平均)の積和 / srqt( xの偏差平方和 * yの偏差平方和 )
相関比
カテゴリデータと数量データ
級内変動 = (x[i] - xの平均)^2 の総和 + (y[i] - xの平均)^2 + ... 級間変動 = xの個数 * (xの平均 - 全体の平均)^2 + yの個数 * (yの平均 - 全体の平均)^2 + ... 相関比 = 級間変動 / (級内変動 + 級間変動 )
クラメールの連関係数
カテゴリデータとカテゴリデータ
クロス集計表を作成しておく。
期待度数 = セルが属する行の合計数 * セルが属する列の合計数 / 全データの合計数 ピアソンのカイ2乗統計量 = (各セルごとに) (セルの値 - 期待度数)^2 / 期待度数 の総和 クラメールの連関係数 = sqrt( ピアソンのカイ2乗統計量 / 全データの合計数 * (min(クロス集計行数, クロス集計の列数) - 1 ) )
この記事でコード化されている。