Путеводитель по лжи. Дэниел Левитин
Чтение книги онлайн.
Читать онлайн книгу Путеводитель по лжи - Дэниел Левитин страница 9
Еще один пример: вы можете прочитать, что один из пяти новорожденных детей – китаец. Вы подмечаете, что у шведского семейства, живущего на вашей улице, уже есть четверо детей, а сейчас они ждут пополнения. Но это не означает, что в семье родится маленький китаец. Среднее значение вычислено по всем рождениям в мире, а не в конкретной семье, в конкретном доме, в конкретном районе или даже стране.
Будьте осторожны со средними, а также с тем, как их интерпретируют. Один из способов ввести в заблуждение, используя средние, – усреднять данные по выборкам из несопоставимых совокупностей. Этот способ может привести к абсурдным выводам, как то:
В среднем у каждого человека одно яичко[20].
Этот пример наглядно показывает разницу между средним арифметическим, медианой и модой. Так как женщин в мире несколько больше, чем мужчин, медиана и мода будут равны нулю, в то время как среднее арифметическое будет близко к единице (возможно, оно будет равно 0,98 или около того).
Кроме этого, нужно быть внимательным и помнить, что среднее ничего не говорит о размахе значений. Средняя годовая температура в Долине Смерти в Калифорнии равна 25 °C, что считается комфортным. Но размах может быть просто убийственным, с колебанием температуры от – 9 до 57 °C, – факт, зафиксированный приборами[21].
Или… Я мог бы вам сказать, что в среднем благосостояние сотни людей, находящихся в комнате, составляет колоссальную сумму: 350 миллионов долларов. Вы, наверное, думаете: вот бы отправить туда моих лучших менеджеров по продажам. Но в комнате могут находиться Марк Цукерберг (его состояние оценивается в 25 миллиардов долларов[22]) и 99 бедняков. Таким образом, средний показатель может размыть разницу в важных показателях.
Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода – это то значение, которое встречается чаще всего. Во многих наборах данных – биологических, физических, социальных – у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.
Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y)[23]. Представьте, что вы изучали две группы людей: детей (левый горб) – они покупают школьные обеды – и руководителей компаний (правый горб) – они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае – это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, – ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто
20
21
22
На момент издания книги почти 65 млрд.
23