Размер шрифта

Нейросети. Обработка естественного языка - стр. 18

Пример кода на Python с использованием TensorFlow и Keras для решения задачи определения языка текста с помощью BiRNN:

import numpy as np

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Bidirectional, LSTM, Embedding, Dense

from tensorflow.keras.preprocessing.text import Tokenizer

from tensorflow.keras.preprocessing.sequence import pad_sequences

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import accuracy_score

# Подготовка размеченных данных (в этом примере, данные просто для иллюстрации)

texts = ["Bonjour, comment ça va?", "Hello, how are you?", "¡Hola, cómo estás?"]

labels = ["French", "English", "Spanish"]

# Преобразуем метки в числа

label_encoder = LabelEncoder()

y = label_encoder.fit_transform(labels)

# Создаем токенизатор и преобразуем тексты в последовательности чисел

tokenizer = Tokenizer()

tokenizer.fit_on_texts(texts)

word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(texts)

# Подготавливаем данные для модели, включая паддинг

max_sequence_length = max([len(seq) for seq in sequences])

padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length)

# Разделяем данные на обучающий и тестовый наборы

x_train, x_test, y_train, y_test = train_test_split(padded_sequences, y, test_size=0.2, random_state=42)

# Создаем модель BiRNN

model = Sequential()

model.add(Embedding(input_dim=len(word_index) + 1, output_dim=100, input_length=max_sequence_length))

model.add(Bidirectional(LSTM(50)))

model.add(Dense(len(set(y)), activation="softmax")) # Количество классов равно количеству языков

# Компилируем модель

model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

# Обучаем модель

model.fit(x_train, y_train, epochs=10, validation_split=0.2)

# Оцениваем модель на тестовых данных

y_pred = model.predict(x_test)

y_pred = np.argmax(y_pred, axis=1)

accuracy = accuracy_score(y_test, y_pred)

print(f"Точность: {accuracy:.4f}")

В результате выполнения данного кода будет видно следующее:

1. Модель BiRNN будет обучаться на предоставленных текстах для классификации на языки.

2. В конце каждой эпохи обучения будет выводиться информация о значении функции потерь (loss) и метрике точности (accuracy) на обучающем и валидационном наборах данных. Эти значения позволяют оценить процесс обучения модели.

3. После завершения обучения модели будет выведена метрика точности (accuracy) на тестовом наборе данных, которая покажет, насколько хорошо модель классифицирует языки текстов.

4. Обратите внимание на строки, где используется `print(f"Точность: {accuracy:.4f}")`. Здесь вы увидите точность классификации, округленную до четырех знаков после запятой, что делает результаты более наглядными.

5. В данном коде используется модель BiRNN для классификации текстов на три языка: французский, английский и испанский. Тексты в переменной `texts` представляют собой примеры текстов на этих языках.

Обратите внимание, что в данном коде используются данные, предоставленные для иллюстрации, и они могут быть недостаточными для реальной задачи. Для более точных результатов требуется больший объем данных и более разнообразные тексты на разных языках.

Страница 18

На следующую страницу