Как не ошибаться. Сила математического мышления. Джордан Элленберг
Чтение книги онлайн.
Читать онлайн книгу Как не ошибаться. Сила математического мышления - Джордан Элленберг страница 22
На представленном ниже рисунке каждая точка графика соответствует одному из колледжей. Вы видите те две точки, которые находятся в правом верхнем углу, с высоким средним баллом SAT и столь же высокой платой за обучение? Это Университет Уэйк Форест и Университет Дэвидсона. Одинокая точка в нижней части рисунка соответствует единственному частному учебному заведению в этом списке, плата за обучение в котором меньше 10 тысяч долларов, – Колледжу медицинских наук Кабаррус.
Данный рисунок четко показывает, что в учебных заведениях с более высоким средним баллом SAT цена за обучение, как правило, выше. Но насколько выше? Именно здесь на сцену выходит линейная регрессия. Очевидно, что точки на рисунке не образуют прямую линию, но видно, что они находятся не так уж далеко от прямой. Пожалуй, можно было бы вручную нарисовать прямую линию, проходящую посередине этого облака точек. Линейная регрессия исключает угадывание и позволяет найти прямую линию, максимально приближенную ко всем точкам[55]. В случае университетов штата Северная Каролина эта прямая выглядит так, как на следующем рисунке.
Коэффициент наклона изображенной на рисунке прямой равен 28. Это означает следующее: если плата за обучение зависела бы только от баллов SAT, которые задает прямая на графике, тогда на каждый балл SAT приходилось бы дополнительных 28 долларов платы за обучение. Если вам удалось бы поднять средний балл первокурсников на 50 пунктов, тогда вы могли бы назначить более высокую плату за обучение – на 1400 долларов. (Или, с точки зрения родителей, если ваш ребенок на 100 баллов улучшит свой результат отборочного теста, это обойдется вам в дополнительных 2800 долларов в год. Курс по подготовке к тесту оказался более дорогим, чем вы думали!)
Линейная регрессия представляет собой замечательный инструмент: гибкий, масштабируемый и легкий в применении (вы просто нажимаете соответствующую кнопку электронной таблицы). Этот инструмент можно применять к двум наборам данных с участием двух переменных, как в приведенном выше примере, но он работает не менее эффективно и в случае трех или даже тысячи переменных. Каждый раз, когда вам нужно понять, как одни переменные меняют другие переменные и в каком направлении, линейная регрессия – это первое, что следует использовать. Этот инструмент применим буквально к любому набору данных.
Однако в этом заключается не только сильная, но и слабая сторона линейной регрессии. Вы можете применить этот метод, не задумываясь, действительно ли феномен, который вы пытаетесь моделировать, близок к линейному. Но вы не должны так делать. Я сказал, что линейная регрессия подобна отвертке – что действительно так; однако в другом смысле она скорее напоминает циркулярную пилу. Если вы примените этот инструмент без тщательного анализа того, что вы делаете, результаты
31
Эти цифры взяты с сайта North Carolina Career Resource Network (www.soicc.state.nc.us/soicc/planning/c2c.htm), который позже был закрыт.
55
В данном контексте «максимальная приближенность» определяется следующим образом. Если вы замените фактическую плату за обучение в каждом университете оценкой, которую подразумевает прямая, а затем вычислите разность между расчетной и фактической платой за обучение, после чего возведете каждое из этих чисел в квадрат и сложите все эти квадраты, то получите общий показатель того, насколько прямая не проходит по точкам. Надо выбрать прямую, у которой этот показатель минимален. Такое суммирование квадратов напоминает о Пифагоре; в действительности геометрия, лежащая в основе линейной регрессии, – не что иное, как теорема Пифагора, преобразованная и доработанная для решения задач с гораздо большей размерностью. Однако эта история требует больше алгебраических выкладок, чем я хотел бы здесь приводить. Более подробное описание соответствующих аспектов корреляции и тригонометрии можно найти в главе 15.