統計データ 標準偏差の求め方

個人開発したアプリの宣伝
目的地が設定できる手帳のような使い心地のTODOアプリを公開しています。
Todo with Location

Todo with Location

  • Yoshiko Ichikawa
  • Productivity
  • Free

スポンサードリンク

カテゴリデータと数量データ

等間隔数値データ、つまり測れるデータを数量データ、測れないデータをカテゴリデータと呼ぶ。

数量データ
  • 身長
  • 体重
  • 人口
  • 金額
カテゴリデータ
  • 感想や評価
  • 級位、段位
  • 出身地

級位、段位は等間隔の数値データのように見えるが、各等級で持つ意味(一段ごとの実力差が等間隔として測れない)が違ってくるのでカテゴリデータとなる。

同様に5段階評価値などもカテゴリデータとなる。但し、実用では、評価値間隔を等間隔とみなし、便宜的に数量データとして扱うこともある


階級

数量データを範囲で区切ったもの。

1,2,3,4,5,6,7,8,9に対して、2:{1,2,3}, 5:{4,5,6}, 8:{7,8,9}のような区切りのことを階級と呼ぶ。

上記例のkeyとしている2,5,8を階級値と呼ぶ。階級値は範囲をとる数値の中央の値をとる。

度数

階級の中に含まれる数値の個数(count)を度数と呼ぶ。

相対度数

相対度数は全体に対して、特定の階級が持つ割合。つまり%パーセンテージ。

相対度数 = ある階級の度数 / 全てのデータの個数

上記例の階級値2の相対度数は3 / 9となり0.33


中央値

ソート済み数値列に対して真ん中の数を中央値と呼ぶ。奇数個列は1つ、偶数個列は真ん中2つの値の平均値を中央値と呼ぶ。

大きなハズレデータがある平均値と比較して使用する。


標準偏差

各データの散らばり方を示した数値。最小値0(まったく散らばってない)から始まり、散らばりの程度を表す。

例えば、1, 5, 95, 5, 5の平均値、中央値は共に5だが、データの分布は違っているのがわかる。

sqrt( 
  (  pow(数値列[i] - 数値列平均値, 2)
  + pow(数値列[i+1] - 数値列平均値, 2)
  + ... ) / 数値列の個数
)

iは順序

1,5,9の標準偏差はsqrt( (16 + 0 + 16) / 3 ) = 3.1622776601683795となる。※数値型の精度により若干の値が変わってくる

標本の標準偏差

標本の標準偏差は標本数の個数から1を引いたものを母数に使用する。

sqrt( 
  (  pow(数値列[i] - 数値列平均値, 2)
  + pow(数値列[i+1] - 数値列平均値, 2)
  + ... ) / ( 数値列の個数 - 1 )
)