Размер шрифта
-
+

ML для новичков: Глоссарий, без которого ты не разберёшься - стр. 8

Преобразование данных

Следующий этап – преобразование данных. Данные должны быть представлены в формате, который будет понятен алгоритму. Это может включать нормализацию числовых данных, кодирование категориальных признаков и создание дополнительных признаков. Например, если мы работаем с данными о клиентах, такими как «возраст», «пол» и «доход», мы можем закодировать пол с помощью бинарного кодирования: «мужчина» = 1, «женщина» = 0.

Если признаки имеют разные масштабы (например, «возраст» варьируется от 18 до 100, а «доход» – от 20,000 до 200,000), это может негативно повлиять на работу алгоритма. В таких случаях применяются методики нормализации, такие как шкалирование Min-Max или Z-преобразование. В результате данные приводятся к единому масштабу.

Разделение набора данных

После завершения этапов подготовки и преобразования необходимо разделить набор данных на обучающую и тестовую выборки, чтобы оценить эффективность модели. Обычно используется соотношение 80/20 или 70/30. К примеру, если у вас есть 1000 наблюдений, 800 из них можно использовать для тренировки модели, а оставшиеся 200 – для проверки её качества.

Важно отметить, что случайное разбиение наборов данных может привести к смещению в выборке. Для повышения репрезентативности данных можно использовать метод стратифицированной выборки, который обеспечивает пропорциональное представительство каждого класса в обучающей и тестовой выборках.

Обучение алгоритма

Когда обучающий набор данных готов, алгоритм начинает свою работу. Он анализирует данные и учится выявлять закономерности. В зависимости от типа алгоритма процесс обучения может отличаться. Например, в случае линейной регрессии алгоритм пытается минимизировать ошибку между предсказанными значениями и реальными значениями с помощью метода наименьших квадратов.

```python


from sklearn.linear_model import LinearRegression


from sklearn.model_selection import train_test_split

# Разделение данных


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание модели


model = LinearRegression()

# Обучение модели


model.fit(X_train, y_train)


```

После обучения алгоритм тестируется на тестовой выборке. Ключевой метрикой для оценки производительности модели могут служить такие показатели, как точность, полнота, F1-мера и другие, в зависимости от специфики задачи.

Итог

В заключение отметим, что работа алгоритма с обучающим набором данных играет решающую роль в успехе всего процесса машинного обучения. Правильная подготовка, очистка и преобразование данных, а также корректное разбиение на обучающую и тестовую выборки обеспечивают хорошую основу для точных предсказаний. Обращайте внимание на детали на каждом этапе, и это станет залогом успешного применения машинного обучения в ваших проектах.

Алгоритмы обучения без учителя

Обучение без учителя представляет собой один из ключевых подходов в машинном обучении, который позволяет извлекать информацию из данных в тех случаях, когда отсутствуют явно заданные метки или категории. Этот метод помогает находить скрытые структуры в данных, группируя подобные наблюдения и выявляя закономерности. В этой главе мы рассмотрим основные алгоритмы обучения без учителя, их характеристики, примеры применения и рекомендации по выбору подходящих методов для решения конкретных задач.

Страница 8