統計データ 2変数の関連指標

個人開発したアプリの宣伝
目的地が設定できる手帳のような使い心地のTODOアプリを公開しています。
Todo with Location

Todo with Location

  • Yoshiko Ichikawa
  • Productivity
  • Free

スポンサードリンク

2変数の相関は2つのデータの性質によって扱う指標を定める。


単相関係数

数量データと数量データの関連度合い。

偏差平方和 = sum( (x[i] - xの平均)^2 )
単相関係数 = (x[i] - xの平均)(y[i] - yの平均)の積和 / srqt( xの偏差平方和 * yの偏差平方和 )


相関比

カテゴリデータと数量データ

級内変動 = (x[i] - xの平均)^2 の総和 + (y[i] - xの平均)^2 + ...
級間変動 = xの個数 * (xの平均 - 全体の平均)^2 + yの個数 * (yの平均 - 全体の平均)^2 + ...
相関比 = 級間変動 / (級内変動 + 級間変動 )


クラメールの連関係数

カテゴリデータとカテゴリデータ

クロス集計表を作成しておく。

期待度数 = セルが属する行の合計数 * セルが属する列の合計数 / 全データの合計数
ピアソンのカイ2乗統計量 =  (各セルごとに)  (セルの値 - 期待度数)^2 / 期待度数 の総和
クラメールの連関係数 = sqrt( ピアソンのカイ2乗統計量 / 全データの合計数 * (min(クロス集計行数, クロス集計の列数) - 1 ) )

この記事でコード化されている。

様々な尺度の変数同士の関係を算出する(Python) - Qiita