Интеллектуальный анализ данных. Учебник. Вадим Николаевич Шмаль

Чтение книги онлайн.

Читать онлайн книгу Интеллектуальный анализ данных. Учебник - Вадим Николаевич Шмаль страница 3

Интеллектуальный анализ данных. Учебник - Вадим Николаевич Шмаль

Скачать книгу

то это будет свидетельствовать о том, что данные действительно генерируются процессами или процессами, которые, вероятно, предсказуемы.

      В этих обстоятельствах аномалия свидетельствует о вероятности обработки данных. Маловероятно, что закономерность отклонений или аномальных значений данных является случайным отклонением лежащего в основе распределения вероятностей. Это говорит о том, что отклонение связано с конкретным, случайным процессом. В соответствии с этим предположением аномалии можно рассматривать как аномалии данных, генерируемых процессом. Однако аномалия не обязательно связана с процессом обработки данных.

      Понимание аномалии данных

      В контексте оценки аномалий данных важно понимать распределение вероятности и ее вероятность. Также важно знать, распределена ли вероятность приблизительно или нет. Если она приблизительно распределена, то вероятность, скорее всего, будет примерно равна истинной вероятности. Если оно не распределено приблизительно, то есть вероятность, что вероятность отклонения может быть немного больше, чем истинная вероятность. Это позволяет интерпретировать аномалии с возможностью большего отклонения как аномалии большей величины. Вероятность аномалии данных можно оценить с помощью любой меры вероятности, такой как вероятность выборки, правдоподобие или доверительные интервалы. Даже если аномалия не связана с конкретным процессом, все же можно оценить вероятность отклонения.

      Эти вероятности необходимо сравнить с естественным распределением. Если вероятность намного больше естественной вероятности, то существует вероятность того, что отклонение не такой же величины. Однако маловероятно, чтобы отклонение намного превышало естественную вероятность, поскольку вероятность очень мала. Следовательно, это не свидетельствует о фактическом отклонении от распределения вероятностей.

      Выявление значимости аномалий данных

      В контексте оценки аномалий данных полезно определить соответствующие обстоятельства. Например, если есть аномалия в количестве задержанных рейсов, может случиться так, что отклонение будет довольно небольшим. Если задерживается много рейсов, более вероятно, что количество задержек очень близко к естественной вероятности. Если есть несколько рейсов, которые задерживаются, маловероятно, что отклонение намного превышает естественную вероятность. Следовательно, это не будет свидетельствовать о значительно более высоком отклонении. Это говорит о том, что аномалия данных не имеет большого значения.

      Если процентное отклонение от нормального распределения значительно выше, то есть вероятность, что аномалии данных связаны с процессом, как в случае с этой аномалией. Это является дополнительным свидетельством того, что аномалия данных является отклонением от нормального распределения.

      После анализа значимости

Скачать книгу