Как лгать при помощи статистики. Дарелл Хафф
Чтение книги онлайн.
Читать онлайн книгу Как лгать при помощи статистики - Дарелл Хафф страница 4
Причина тому – процедура составления выборки, и именно она представляет собой сердцевину большей части статистических данных, которые встречаются в самых разнообразных сферах. Основа этой процедуры довольно проста, а вот старания усовершенствовать ее на поверку только заводили на всяческие глухие окольные тропы, иногда весьма малопочтенные. Если у вас есть мешок бобов, часть из которых красного, а часть белого цвета, то единственный способ точно определить, сколько у вас белых бобов и сколько красных, – это пересчитать их. Однако есть и более простой способ приблизительно оценить количество красных и белых бобов – зачерпнуть пригоршню и сосчитать, сколько в ней будет белых бобов и сколько красных, исходя из предположения, что и в общем объеме белые и красные бобы содержатся в такой же пропорции. Если взятая вами для исследования пригоршня бобов, то есть выборка, достаточно велика и правильно отобрана, то для большинства надобностей она будет вполне репрезентативной. В противном случае выборка даст вам значительно менее точное представление о целом, чем сколько-нибудь обоснованные прикидки, а ее единственным достоинством будет разве что иллюзорное впечатление научной точности. Как ни печально, а выводы на основе такого рода выборок (необъективных или слишком малых, чтобы верно отразить свойства целого, или страдающих обоими этими изъянами) как раз и лежат в основе большинства из того, о чем нам доводится читать, или того, что мы, как нам представляется, знаем.
Упомянутые газетой сведения о доходах выпускников Йельского университета основаны на выборке. В этом можно не сомневаться, поскольку, как подсказывает здравый смысл, невозможно опросить всех выпускников 1924 г. Наверняка среди них довольно много людей, чье место проживания сейчас, спустя четверть века после выпуска, неизвестно.
А среди тех, чьи адреса известны, многие не стали бы заполнять анкету, тем более с вопросами такого щекотливого свойства. Для некоторых анкет, рассылаемых по почте, 5–10 % ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но ее результат явно далек от стопроцентного.
Итак, мы выяснили, что размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?