Размер шрифта

ML для новичков: Глоссарий, без которого ты не разберёшься - стр. 16

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Заключение

Данные играют ключевую роль в машинном обучении, и их качество напрямую влияет на успех ваших проектов. Понимание различных типов данных, методов их сбора, очистки и обработки, а также правильное разделение выборки – это шаги, которые необходимо выполнять с особым вниманием. В следующих главах мы рассмотрим, как эффективно использовать данные для обучения моделей и оценивать их производительность, что приведёт вас ещё ближе к достижениям в области машинного обучения.

Роль данных и задачи по их подготовке

Данные, как мы уже обсудили, составляют основу машинного обучения. Однако важно не только понимать, что данные нужны, но и осознавать их роль в обучении моделей. Надлежащая подготовка данных может существенно повлиять на качество прогнозов и общую производительность алгоритмов. Эта глава посвящена различным аспектам работы с данными, методам их подготовки и задачам, которые необходимо решить перед началом обучения модели.

Важность качества данных

Качество данных напрямую влияет на результаты работы модели. Шумные, неполные или искажённые данные могут привести к ошибочным выводам и неточным предсказаниям. Обычно существует несколько стадий, на которых требуется особое внимание к качеству данных:

1. Сбор данных. На этом этапе крайне важно использовать надежные источники и методы сбора информации. Например, если вы собираете данные из веб-справочников, убедитесь в их актуальности и достоверности. Высококачественные данные будут способствовать построению надежных моделей.

2. Очистка данных. Этап очистки включает обработку отсутствующих значений, дубликатов и ошибок. Используйте функции для автоматизации этих процессов, например, в Python с помощью библиотеки Pandas можно легко очистить данные: `df.drop_duplicates()` удалит все дубликаты, а `df.fillna(value)` поможет заполнить отсутствующие значения заданной величиной.

3. Стандартизация и нормализация. Эти процедуры помогают подготовить данные для последующей обработки. Стандартизация (приведение данных к формату "среднее=0, стандартное отклонение=1") стремится уменьшить влияние единиц измерения, тогда как нормализация обычно приводит данные к диапазону [0, 1]. Для нормализации в Python можно использовать библиотеку Scikit-learn: `from sklearn.preprocessing import MinMaxScaler; scaler = MinMaxScaler(); scaled_data = scaler.fit_transform(data)`.

Разделение данных

После подготовки данных следующим важным шагом является их разделение на обучающую и тестовую выборки. Это критически важно для оценки производительности вашей модели.

1. Обучающая выборка. Используется для обучения алгоритма. Обычно составляет от 70% до 80% от общего объема данных. Чем больше объем обучающих данных, тем лучше модель сможет «осознать» структуру данных.

2. Тестовая выборка. Используется для проверки производительности обученной модели. Она должна оставаться незнакомой для модели, чтобы дать более правдоподобную оценку её общей способности предсказывать.

3. Валидационная выборка. Дополнительная часть данных (обычно 10-15%) может использоваться для настройки гиперпараметров модели. Это позволяет избежать переобучения при использовании одной и той же обучающей выборки.

Страница 16

На следующую страницу