Глубокое обучение. Погружение в технологию

Глубокое обучение. Погружение в технологию

Год выхода: 2023
Аннотация
Книга посвящена современным основам нейронных сетей и их применению в области искусственного интеллекта. В первой части работы рассматривается структура и функции нейронов, как биологических, так и искусственных. Нейрон принимается за элементарную единицу системы, способную обрабатывать и передавать сигналы. Важные компоненты нейрона, такие как дендриты, синапсы, аксон и ядро, рассматриваются с точки зрения их взаимодействия при обработке информации. Это взаимодействие между нейронами в сети создает возможность для решения сложных задач, которые невозможно было бы решить с помощью традиционных алгоритмов. Далее автор обсуждает многослойные нейронные сети, которые могут быть названы "глубокими" благодаря своей многослойной архитектуре. Каждый слой в такой сети выполняет специфические функции, а соединение между слоями позволяет сети решать более сложные задачи. Важным аспектом этого процесса являются весовые коэффициенты, которые регулируют влияние входных данных на активацию нейронов. Рассматривается процесс прямого и обратного распространения сигнала. Прямое распространение занимается обработкой данных, тогда как обратное распространение — коррекцией ошибок и улучшением точности сети. В книге также уделяется внимание функциям активации, которые играют критическую роль в различных аспектах обучения нейронных сетей. Рассматриваются популярные функции, такие как сигмоида, гиперболический тангенс и ReLU, а также их вариации. Каждая из этих функций имеет свои преимущества и недостатки, и их правильный выбор значительно влияет на эффективность обучения сети. Авторы акцентируют внимание на важности выбора функции активации для качественного функционирования глубоких нейронных сетей. Следующий раздел касается методов оптимизации, особенно выделяя алгоритм Adam, используемый для обучения нейронных сетей. Adam не только эффективно вычисляет градиенты, но и использует моменты для учета изменений градиентов во времени. Первый момент — это скользящее среднее градиента, второй — среднее квадратов градиента. Эти динамические обновления в процессе обучения способствуют более устойчивым результатам и увеличивают скорость сходимости алгоритма. Также обсуждаются методы коррекции смещения, которые способствуют повышению точности. Кроме того, книга касается техники имитации отжига, которая вдохновлена физическим процессом термической обработки металла. Этот метод позволяет алгоритму временно принимать худшие решения, что помогает избежать локальных минимумов во время поиска глобального оптимума. Постепенно вероятность принятия худших решений снижается, что помогает алгоритму сосредоточиться на более подходящих вариантах. Метод имитации отжига может быть также применён в других задачах оптимизации, таких как распределение ресурсов и маршрутизация. Наконец, рассматривается проблема переобучения и необходимость регуляризации моделей. Одной из эффективных стратегий по борьбе с переобучением является добавление случайного шума к обучающим данным. Это помогает увеличить разнообразие выборок и улучшает устойчивость модели. Примеры использования шума включают добавление гауссовского шума, случайные повороты и сдвиги изображений, а также введение артефактов для задач компьютерного зрения. Эти методы снижают риск переобучения и способствуют лучшему обобщению модели, благодаря чему возникают критически важные аспекты в практике глубокого обучения. В целом, книга построена на фундаментальных принципах работы нейронных сетей и подробно рассматривает методы, которые позволяют улучшить их эффективность и устойчивость в процессе обучения, что делает её важным ресурсом для специалистов в области искусственного интеллекта иDeep Learning.