ML для новичков: Глоссарий, без которого ты не разберёшься - стр. 6
Алгоритмы обучения с учителем
Алгоритмы обучения с учителем представляют собой основу многих приложений машинного обучения, позволяя создавать модели, которые могут предсказывать результаты на основе имеющихся данных. В этой главе мы обсудим несколько наиболее популярных алгоритмов, их характеристики и области применения, а также приведем примеры того, как их можно использовать на практике.
Линейная регрессия
Линейная регрессия – один из самых простых и распространённых алгоритмов для решения задач регрессии. Она применяется для предсказания количественных значений на основе одного или нескольких признаков. Основная идея заключается в нахождении линейной зависимости между входными данными и целевой переменной.
Работа алгоритма заключается в построении линии (или гиперплоскости в случае многомерных данных), которая минимизирует среднеквадратичную ошибку между предсказанными и фактическими значениями. Например, предположим, что вы хотите предсказать цену дома на основе его площади. Данные могут включать параметры, такие как площадь, количество комнат и расположение. Линейная регрессия будет находить оптимальные коэффициенты для этой модели, чтобы минимизировать ошибку предсказания.
Пример реализации линейной регрессии на Python с использованием библиотеки Scikit-learn может выглядеть так:
python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import pandas as pd
# Предположим, что у нас есть данные о домах
data = pd.read_csv('housing_data.csv')
X = data[['area']]..# Признак
y = data['price'].. # Целевая переменная
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
Алгоритмы классификации
Классификация – это задача, где необходимо отнести примеры к различным категориям (классам). Наиболее популярными алгоритмами классификации являются логистическая регрессия, деревья решений и метод опорных векторов.
Логистическая регрессия работает аналогично линейной регрессии, но она подходит для задач бинарной классификации. Она делает предположение, что вероятность принадлежности к классу можно описать через логистическую функцию. Например, если ваша цель – предсказать, будет ли клиент покупать продукт, вы можете использовать логистическую регрессию, чтобы оценить вероятность покупки на основе различных признаков (например, возраст, доход).
Деревья решений предлагают наглядный способ принятия решений, основанный на разбиении данных на подмножества, что приводит к созданию дерева, где каждый узел представляет собой вопрос о каком-то признаке. Этот метод легко интерпретировать и он может использоваться как для задач классификации, так и для задач регрессии. Например, для задачи оценки вероятности проблемы с кредитом дерево может задавать вопросы вроде «Какой у клиента доход?» или «Какова чистая стоимость имущества клиента?».
Метод опорных векторов подходит для задач с высокой размерностью, когда количество признаков значительно превышает количество наблюдений. Он ищет гиперплоскость, которая наиболее эффективно разделяет классы в пространстве признаков. Например, метод опорных векторов может быть полезен при классификации изображений, где каждый признак представляет собой пиксель.