カテゴリデータと数量データ
等間隔数値データ、つまり測れるデータを数量データ、測れないデータをカテゴリデータと呼ぶ。
数量データ
- 身長
- 体重
- 人口
- 金額
カテゴリデータ
- 感想や評価
- 級位、段位
- 出身地
級位、段位は等間隔の数値データのように見えるが、各等級で持つ意味(一段ごとの実力差が等間隔として測れない)が違ってくるのでカテゴリデータとなる。
同様に5段階評価値などもカテゴリデータとなる。但し、実用では、評価値間隔を等間隔とみなし、便宜的に数量データとして扱うこともある
階級
数量データを範囲で区切ったもの。
列1,2,3,4,5,6,7,8,9
に対して、2:{1,2,3}, 5:{4,5,6}, 8:{7,8,9}
のような区切りのことを階級と呼ぶ。
上記例のkeyとしている2,5,8
を階級値と呼ぶ。階級値は範囲をとる数値の中央の値をとる。
度数
階級の中に含まれる数値の個数(count)を度数と呼ぶ。
相対度数
相対度数は全体に対して、特定の階級が持つ割合。つまり%パーセンテージ。
相対度数 = ある階級の度数 / 全てのデータの個数
上記例の階級値2
の相対度数は3 / 9
となり0.33
中央値
ソート済み数値列に対して真ん中の数を中央値と呼ぶ。奇数個列は1つ、偶数個列は真ん中2つの値の平均値を中央値と呼ぶ。
大きなハズレデータがある平均値と比較して使用する。
標準偏差
各データの散らばり方を示した数値。最小値0(まったく散らばってない)から始まり、散らばりの程度を表す。
例えば、1, 5, 9
と5, 5, 5
の平均値、中央値は共に5だが、データの分布は違っているのがわかる。
sqrt( ( pow(数値列[i] - 数値列平均値, 2) + pow(数値列[i+1] - 数値列平均値, 2) + ... ) / 数値列の個数 )
iは順序
1,5,9
の標準偏差はsqrt( (16 + 0 + 16) / 3 )
= 3.1622776601683795
となる。※数値型の精度により若干の値が変わってくる
標本の標準偏差
標本の標準偏差は標本数の個数から1を引いたものを母数に使用する。
sqrt( ( pow(数値列[i] - 数値列平均値, 2) + pow(数値列[i+1] - 数値列平均値, 2) + ... ) / ( 数値列の個数 - 1 ) )