平均値と中央値


 最近コロナウィルス治療薬の治験のニュースで「中央値(メディアン)」と言う言葉を目にした方も多いだろう。

治療薬の効果を確認する場合、2群のサンプル(患者)に対して治験の薬とプラセボ(治療効果がない偽薬)を投与して、効果が出る期間を測定。両群で治癒期間に有意差があれば、効果ありと判定する。この時治癒期間を平均値ではなく中央値を使う。

中央値とはサンプルデータを大きさ順に並べてちょうど真ん中にある値をいう。
治験の場合は、治験薬を処方した群とプラセボを処方した群それぞれの治癒期間を大きさ順に並べ中央の治癒期間で薬効の有無を判定することになる。

なぜ平均値ではなく中央値を使うのか、ちょっと考えてみよう。

治療効果がない場合、治癒期間は長くなる傾向にある。
効果があっても被験者のばらつきによって治療期間が長い治験者がいると、治癒期間の平均値は大きくなる。するともともとプラセボを処方された群との差が小さくなってしまい、治療薬の効果が薄まって見えてしまう。

例えば年収で考えるとわかりやすいかもしれない。
年収300万円の社員が10人、社長が3000万円の年収の会社の平均年収は6000万円÷11≒545万円となる。しかしこの会社には年収545万円の人は一人もいない。
中央値は300万円。この会社の人の年収を代表する値は平均値より中央値の方が適切と考えて良いだろう。つまり分布が正規分布ではなく、離れ値がある場合は中央値でその集団を代表させるのが妥当となる。

治験の場合、薬の効果でなく被験者の自然治癒力で回復する人が混じる可能性がある。この場合治癒期間は長めになると予測される。

集団の特性を代表する値には、平均値、中央値、最頻値があり、目的に合わせて使い分ける必要がある。


このコラムは、2020年11月9日に配信したメールマガジン【中国生産現場から品質改善・経営革新】第1056号に掲載した記事です。

【中国生産現場から品質改善・経営革新】は毎週月・水・金曜日に配信している無料メールマガジンです。ご興味がおありの方はこちら↓から配信登録出来ます。
【中国生産現場から品質改善・経営革新】