「資料の整理」では、集めたデータ(資料)の集団全体の特徴を、たった1つの数値で表す方法を学びます。
その中心的な役割を果たすのが「代表値」です。
ここでは、最も重要な3つの代表値「平均値」「中央値」「最頻値」について、それぞれの意味と求め方、そして使い分けのポイントを解説します。
最もよく使われ、なじみ深い代表値が平均値です。
全てのデータの値を合計し、データの個数で割った値。
「ならす」というイメージです。
公式: (データの値の合計) ÷ (データの個数)
合計する: 60 + 70 + 80 + 80 + 100 = 390
個数でわる: 390 ÷ 5 = 78
平均値: 78点
全てのデータの情報が反映されている。
極端に大きい値や小さい値(はずれ値)に、大きく影響されてしまうことがある。
もし上の例で、1人が0点だったら平均値はガクッと下がり、1人が満点近くのすごく高い点数を取ったら平均値はグッと上がってしまいます。
平均値の「はずれ値に弱い」という弱点をカバーしてくれるのが中央値です。
データを大きさの順に並べたとき、ちょうど中央に位置する値。
まず、全てのデータを小さい順(または大きい順)に並べ替える。
データの個数によって、真ん中の値の決め方が変わる。
並べると、真ん中(3番目)の値は「80」。
中央値: 80点
真ん中に来るのは「8」と「10」の2つ。
この2つの値の平均値を中央値とします。
(8 + 10) ÷ 2 = 9
中央値: 9
極端な値(はずれ値)の影響を受けにくい。
資料の実態をより正確に表すことがある。
全てのデータの値が反映されているわけではない。
アンケート結果など、数字以外のデータにも使えるのが最頻値です。
データの中で、最も度数(出てくる回数)が多い値。
単純に、データの中で一番たくさん出てくる値を探す。
度数分布表の場合は、度数が最も大きい階級の階級値が最頻値となる。
「80」が2回出てきて、他の値は1回ずつ。
最頻値: 80点
りんご, バナナ, りんご, いちご, みかん, りんご, バナナ
「りんご」が3回で最も多い。
最頻値: りんご
数値でないデータにも使える。
データの最も典型的な値を知りたいときに便利。
データによっては、最頻値が2つ以上存在したり、1つも存在しなかったりする場合がある。
3つの代表値は、それぞれに長所と短所があり、どれか一つが常に優れているわけではありません。
| 代表値 | 特徴 | どんな時に便利? |
|---|---|---|
| 平均値 | 全ての値を考慮するが、極端な値に弱い。 | データが比較的均等に分布しているとき。 |
| 中央値 | 極端な値の影響を受けにくい。 | 年収や貯金額など、値の差が激しいデータを扱うとき。 |
| 最頻値 | 最も人気のある値がわかる。数字以外もOK。 | 商品の売れ筋サイズや、アンケート結果を分析するとき。 |
資料の「何を知りたいのか」という目的に合わせて、これらの代表値を適切に使い分けることが、データを正しく読み解くための鍵となります。