Размер шрифта
-
+

Машинное обучение - стр. 19

Рекомендательные системы являются мощным инструментом для улучшения пользовательского опыта, увеличения продаж и удержания клиентов. Они позволяют бизнесу создавать персонализированные рекомендации, основанные на данных и поведении пользователей, что способствует улучшению конкурентоспособности и достижению бизнес-целей.

Ниже приведен пример программы контентной фильтрации:

```python

# Импорт необходимых библиотек

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics.pairwise import cosine_similarity

# Загрузка данных

data = pd.read_csv('movies.csv')

# Создание матрицы TF-IDF на основе описаний фильмов

tfidf = TfidfVectorizer(stop_words='english')

tfidf_matrix = tfidf.fit_transform(data['description'].fillna(''))

# Вычисление матрицы сходства косинусной мерой

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

# Функция для получения рекомендаций похожих фильмов

def get_recommendations(title, cosine_sim, data, top_n=5):

indices = pd.Series(data.index, index=data['title']).drop_duplicates()

idx = indices[title]

sim_scores = list(enumerate(cosine_sim[idx]))

sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

sim_scores = sim_scores[1:top_n+1]

movie_indices = [i[0] for i in sim_scores]

return data['title'].iloc[movie_indices]

# Пример использования функции для получения рекомендаций

movie_title = 'The Dark Knight Rises'

recommendations = get_recommendations(movie_title, cosine_sim, data)

print(f"Рекомендации для фильма '{movie_title}':")

print(recommendations)

```

Программа выполняет следующие шаги:

1. Импортируются необходимые библиотеки. Библиотека `pandas` используется для работы с данными в виде таблицы, а библиотеки `TfidfVectorizer` и `cosine_similarity` из модуля `sklearn.feature_extraction.text` и `sklearn.metrics.pairwise` соответственно используются для работы с текстовыми данными и вычисления сходства между ними.

2. Загружаются данные о фильмах из файла 'movies.csv' с помощью функции `read_csv()` из библиотеки `pandas`. Данные обычно содержат информацию о фильмах, включая их названия, описания и другие атрибуты.

3. Создается объект `TfidfVectorizer`, который преобразует текстовые описания фильмов в числовые векторы с использованием метода TF-IDF. TF-IDF (Term Frequency-Inverse Document Frequency) – это статистическая мера, используемая для оценки важности термина в документе. Он позволяет выделить ключевые слова и характеристики фильмов.

4. С помощью метода `fit_transform()` объекта `TfidfVectorizer` преобразуется список описаний фильмов в матрицу TF-IDF. Эта матрица представляет собой числовое представление описаний фильмов, где каждый столбец соответствует определенному термину, а каждая строка – конкретному фильму.

5. Вычисляется матрица сходства между фильмами с использованием метода `cosine_similarity()` из модуля `sklearn.metrics.pairwise`. Косинусное сходство измеряет угол между двумя векторами и предоставляет меру их сходства. В данном случае, матрица сходства показывает степень сходства между каждой парой фильмов на основе их описаний.

6. Определяется функция `get_recommendations()`, которая принимает название фильма, матрицу сходства и данные о фильмах. Внутри функции происходит следующее:

– Создается объект `pd.Series` с индексами, соответствующими названиям фильмов и значениями, соответствующими их индексам в данных.

Страница 19