Размер шрифта
-
+

Искусственный интеллект. Машинное обучение - стр. 52

# Выводим аномальные значения

print("Аномальные цены:", anomalies)

```

Этот код использует библиотеку NumPy для вычисления среднего значения и стандартного отклонения, а затем вычисляет Z-оценку для каждой цены в наборе данных. После этого он определяет аномальные значения, превышающие заданный порог Z-оценки, и выводит их на экран.

Диаграмма ящика с усами (или boxplot) – это важный инструмент в анализе данных, который позволяет визуализировать распределение и основные статистические характеристики набора данных. Этот график состоит из "ящика", представляющего межквартильный размах данных, "усов", которые указывают на минимальное и максимальное значение в пределах определенного расстояния от квартилей, а также отдельных точек, которые могут быть выбросами.

"Ящик" диаграммы является прямоугольником, ограниченным верхним и нижним квартилями. Вертикальная линия внутри ящика обозначает медиану данных. "Усы" диаграммы обычно находятся на расстоянии, равном 1.5 межквартильным размахам от верхнего и нижнего квартилей. Это расстояние определяет "усы" как участок данных, который считается разумным или "нормальным", не считая выбросов.

Точки или значения, которые находятся за пределами "усов", считаются выбросами и могут указывать на потенциальные аномалии в данных. Они могут быть либо статистическими выбросами, то есть значениями, которые сильно отклоняются от общего распределения данных, либо реальными аномалиями, требующими дополнительного анализа.

Использование диаграммы ящика с усами позволяет исследователям быстро оценить распределение данных, выявить наличие выбросов и провести предварительный анализ данных перед более подробным исследованием. Это важный инструмент в исследовании данных и статистическом анализе, который помогает выявить важные паттерны и аномалии в данных.

Оба метода – Z-оценка и диаграмма ящика с усами – имеют свои уникальные преимущества и недостатки, и выбор между ними зависит от конкретной ситуации и требований анализа данных.

Z-оценка позволяет количественно оценить аномальность наблюдения путем вычисления стандартизированного значения отклонения от среднего. Это позволяет точно определить, насколько данное наблюдение отличается от среднего значения и измерить это отклонение в стандартных единицах. Этот метод особенно полезен, когда требуется численная оценка аномальности и сравнение различных переменных на одной шкале.

Диаграмма ящика с усами, с другой стороны, обеспечивает визуальное представление данных, что может быть особенно полезно для быстрого обзора больших наборов данных и выявления общих паттернов. Она позволяет увидеть основные статистические характеристики данных, такие как медиана, квартили и размах, и визуально идентифицировать наличие выбросов. Этот метод легко воспринимается и может быть эффективным средством первичного анализа данных.

В зависимости от специфики данных и требований анализа можно выбрать подходящий метод или их комбинацию для выявления аномалий и выбросов. Например, при работе с небольшими данными или когда необходимо количественно оценить аномальность наблюдений, Z-оценка может быть предпочтительным методом. В то же время, для быстрого визуального анализа данных или при работе с большими наборами данных диаграмма ящика с усами может быть более удобным инструментом.

Страница 52