Искусство статистики. Как находить ответы в данных. Дэвид Шпигельхалтер

Чтение книги онлайн.

Читать онлайн книгу Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер страница 11

Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер МИФ Научпоп

Скачать книгу

особенности распределения. Видно, что оно сильно скошено, то есть асимметрично (отсутствует даже приблизительная симметрия относительно какой-нибудь центральной точки) и из-за наличия нескольких очень больших чисел имеет длинный «правый хвост». Вертикальные ряды точек на точечной диаграмме (изображающие повторяющиеся числа) также указывают на некоторое предпочтение круглых чисел.

      Однако у всех диаграмм есть общая проблема. Внимание сосредоточено на самых больших значениях, причем основная часть чисел сконцентрирована в левой части. Можно ли представить эти данные более информативно? Мы могли бы отбросить самые большие числа как нелепые (когда я первоначально анализировал полученные величины, я сознательно исключил все, превышающие 9000). Кроме того, мы можем уменьшить влияние экстремальных наблюдений, скажем, отобразив данные в логарифмическом масштабе, когда интервал от 100 до 1000 имеет такую же длину, что и интервал от 1000 до 10 000[41].

      На рис. 2.3 представлена более понятная структура с вполне симметричным распределением и отсутствием значительных выбросов. Это избавляет нас от исключения каких-либо значений наблюдений, что обычно не считается хорошей идеей (если, конечно, речь не идет о явных ошибках).

      Рис. 2.3

      Графическое отображение догадок о числе драже в банке в логарифмическом масштабе: (a) точечная диаграмма; (b) «ящик с усами»; (c) гистограмма – на всех заметна достаточная степень симметрии

      Единственно правильного способа отображения чисел нет, у каждого из способов свои преимущества: на точечной диаграмме показаны все отдельные точки, «ящик с усами» дает визуальное представление, а гистограмма помогает полнее понять вид исходного распределения.

      Переменные, которые записываются в виде чисел, могут быть разного типа:

      • Счетные переменные: могут принимать целочисленные значения 0, 1, 2, 3… Например, ежегодное число самоубийств или предположения о количестве драже в банке.

      • Непрерывные переменные: могут принимать любые значения. Например, некоторые вещи теоретически можно измерять с любой точностью и получать любые числа. Скажем, вес и рост, которые отличаются как у разных людей, так и у одного человека в зависимости от времени. Разумеется, эти значения можно округлить до целого числа сантиметров или килограммов[42].

      Когда набор наблюдений (выборка) сводится к одному числу, мы, как правило, называем его средним значением. Все знакомы с понятием средней зарплаты, средней оценки на экзамене или средней температуры, но часто не знают, как интерпретировать эти величины (особенно если человек, который о них говорит, сам не понимает, о чем речь).

      Чаще всего встречаются три толкования термина «среднее значение»:

      1. Среднее арифметическое (или выборочное среднее): сумма всех величин, деленная на их количество.

      2. Медиана: среднее по величине число ранжированного ряда (то есть слева и справа от него будет поровну чисел)[43].

Скачать книгу


<p>41</p>

Десятичный логарифм числа x – это такое число y, что 10yx. Например, десятичный логарифм 1000 равен 3, потому что 103 = 1000. Логарифмические преобразования особенно уместны, когда есть основания полагать, что люди совершают скорее относительные, а не абсолютные ошибки. Скажем, если мы ожидаем, что люди получают неверный ответ, ошибаясь на 20 % в ту или иную сторону, а не на 200 драже в банке.

<p>42</p>

Вообще говоря, непрерывным переменным противопоставляются дискретные, которые необязательно принимают неотрицательные целые значения, а могут принимать значения в произвольном конечном или счетном множестве. Прим. пер.

<p>43</p>

Это определение удобно для нечетного количества элементов в выборке. Если число элементов четное, то обычно медианой считают полусумму двух средних элементов ряда. Прим. пер.