知って得する統計知識!真ん中を表現するのは「平均」と「中央値」

デジタルマーケティングの成果レポートを読むと、「平均〇〇」という言葉が多く並びます。
データ群の「真ん中」を表現する代表値(対象のデータの特徴を表す値)として、平均はとてもよく使われています。

ところで、データ群の「真ん中」を表現する代表値には、もう1つあることがあまり知られていません。その名は中央値と言います。

平均、中央値それぞれに「真ん中」を表す役割がありますが、計算式が違うため、いつも同じ結果が出るとは限りません。ですから、何を知りたいかによって、平均と中央値は使い分けている人もいます。

そこで、平均と中央値の計算方法、そして使い方についてまとめてみました。

平均とは?中央値とは?

平均は、集団内のデータ(数字)を足し合わせてデータの個数で割った値を指します(ここで言うのは最も使われている相加平均であり、以降も相加平均を指します)。

つまり平均値とは集団内のデータを組み合わせて、新たに生成する値です。ですから、平均値と同じ値が集団の中にあるとは限りません。

 

図1:集団内のデータにおける平均値

図1:集団内のデータにおける平均値

 

中央値は、データの個数を大きい順に並べてちょうど真ん中に位置する値を指します。

つまり中央値とは集団内のデータを並べ替えて、実際に存在する値です。ですから、中央値と同じ値が集団の中に必ずあります。

 

図2:集団内のデータにおける中央値

図2:集団内のデータにおける中央値

 

平均も中央値も、同じようなことを表現していますが、全く違う結果になりました。その理由について、以下の図で説明します。

 

図3:クリック数順に並べられた広告

図3:クリック数順に並べられた広告

 

5つある広告のクリック数を大きい順に並べてみました。平均値と中央値は、それぞれどこを指すでしょうか。正解は次の通りです。

 

図4:クリック数順に並べられた広告の中央地と平均

図4:クリック数順に並べられた広告の中央地と平均

 

平均値は、”てこ”で言うところの「支点」に位置しています。

計算式の通り、各広告のクリック数と平均の差分を合算すると必ずゼロになります。対象となる集団の中でもっともバランスが取れる点が平均値になります。

一方で、中央値は集団の中のデータに着目するのではなく、個数に着目しています。ですから真ん中の広告に位置しています。

平均と中央値、どちらを使うべき?

例えば、ある全国模試の結果を思い浮かべて下さい。

もし、1人あたりおよそ何点だったかを知りたいなら「平均」を使います。もし、全受験者の中で中心の得点を知りたいなら「中央値」を使います。この使い分けで十分に対応できると思います。

この使い分けが上手くできていない例が「平均年収」です。転職サイトでは求人企業の殆どが平均年収を掲載しています。なぜ掲載されているかと言えば、「自分がもしこの企業に転職したらどれくらいの収入になるか?」という大きな目安になるからです。

ただし、飛び抜けて大きな(小さな)値があると、それにつられて平均値も上がってしまいます。年収のようなキャリアや年齢に応じてバラつきが生じるデータで平均を出しても、もともと実際の値ではないのに、余計に実際から乖離した値になってしまいます。

データ1個数あたりのおおよその値を出すにしても、飛び抜けた値が無いかどうかを確認しておいたほうが良さそうです。

私たちが本当に知りたいのは「最頻値」!?

そもそも、私たちはなぜ「真ん中」を知りたがるのでしょうか。それは「真ん中」が解れば、全体を把握しやすいからではないでしょうか。

例えば平均CPCは25円でした―というレポートを聞いて、私たちは「1クリックあたりおよそ25円なのか」と思い浮かべます。

ところが、平均あるいは中央値で「真ん中」を把握するだけでは、場合によって全体を見誤ることがあります。

例えば、9個ある広告のクリック数がそれぞれ以下の通りだったとき、平均値は145回、中央値は52回になります。が、全体を表せていないような気がします。

 

図5:クリック数順に並べられた広告

図5:クリック数順に並べられた広告

 

どうしても、43回という数字が気になります。多く現れているからです。「真ん中」ではないですが、全体を表現しているようにも見えます。

このような、もっとも頻繁に出現する値を最頻値と言います。

最頻値を使えば、集団内のデータでもっとも多く登場する値が解ります。最頻値が必ずしも「真ん中」を表現するとは限りませんが、中央値或いは平均値と併用することで、全体を把握するのに大いに役立つと思います。

まとめ:平均、中央値、最頻値を使い分ける

「真ん中」を表現する2種類の代表値、平均と中央値の定義、そして使い分け方についてまとめることができました。

さらに、「真ん中」で全体を把握するなら、併せて最頻値も知っていればより全体像が明確になることも解りました。

平均も中央値も最頻値も見ないといけないとなると、見るべき項目が増えて大変です。ですから、まずは平均と中央値を出して、この2つが乖離していなければ平均を見る、乖離していれば中央値を見る、大きく乖離していれば最頻値を見る、としてもいいかもしれません。