
Аннотация
Книга, из которой взяты данные отрывки, посвящена изучению нейронных сетей и их архитектур, действующих в области компьютерного зрения и машинного обучения. В ней детально рассматриваются функции активации, различные типы нейронных сетей и их развитие, начиная с первых моделей и заканчивая современными достижениями в данной области.
### Части о функциях активации
Книга начинает с обсуждения различных функций активации, которые являются критически важными компонентами нейронных сетей, влиющими на эффективность их обучения. В частности, рассматриваются такие функции, как Sigmoid, Tanh и ReLU.
- **Sigmoid**: Эта функция используется в задачах бинарной классификации, таких как определение улыбается ли лицо на изображении. Она преобразует выходные значения так, чтобы их можно было интерпретировать как вероятности принадлежности к определенному классу. Однако среди ее недостатков — проблема затухания градиента, особенно в глубоких сетях, где обучение может стать затруднительным.
- **Tanh**: В отличие от Sigmoid, функция активации Tanh сжимает выходные значения в диапазоне от -1 до 1. Это делает среднее значение выходов более централизованным и улучшает стабильность и скорость обучения. Приводится пример использования этой функции в модели для предсказания непрерывных признаков.
- **ReLU (Rectified Linear Unit)**: Эта функция активации, которая просто устанавливает все отрицательные значения на ноль, стала одной из самых популярных благодаря своей простоте и эффективности в борьбе с проблемой затухания градиентов. Тем не менее, существует проблема "умирающих ReLU", когда нейроны могут перестать обучаться, если они постоянно получают отрицательные входные данные. Для решения этой проблемы разработаны его варианты, такие как Leaky ReLU и ELU, позволяющие сохранить эффективность при работе с отрицательными значениями.
### Примеры применения функций активации
Автор также предоставляет примеры реализации нейронных сетей с использованием различных функций активации в библиотеке Keras. Один из примеров показывает использование ReLU для классификации рукописных цифр на наборе данных MNIST, а другой демонстрирует использование Sigmoid для бинарной классификации на наборе данных Pima Indians Diabetes. Эти примеры не только иллюстрируют работу различных функций активации, но и акцентируют внимание на важности правильного выбора функции в зависимости от решаемой задачи.
### Эволюция сверточных нейронных сетей
Книга продолжает оценивать развитие сверточных нейронных сетей (CNN). Раскрывается история начала с Neocognitron, предложенного Фукусимой, который заложил основы для последующих разработок в области обработки изображений. Несмотря на свою ограниченность, Neocognitron ввел концепции свертки и пулинга, которые увеличили устойчивость модели к изменениям в изображениях.
- **LeNet-5**: Одна из первых успешных моделей для распознавания рукописных цифр, использующая несколько слоев свертки и пулинга. Эта модель демонстрировала, как можно эффективно извлекать признаки из изображений.
- **AlexNet**: Появление AlexNet в 2012 году стало революцией для компьютерного зрения. Она использовала глубокую архитектуру и графические процессоры, что значительно увеличило скорость обучения и улучшило качество принятия решений.
- **VGGNet**: Данная архитектура продолжила тренды, зафиксированные AlexNet, прибегая к использованию более мелких ядер свертки и обеспечивая более глубокие сети с высокой производительностью.
- **Inception и ResNet**: Innovations, такие как Inception-модули и остаточные связи, сделали возможным обучение более сложным признакам при сохранении эффективности в обучении.
- **EfficientNet**: Представленная в 2019 году, эта архитектура выделяется своим подходом к оптимизации структуры нейросети, предлагая принцип сбалансированного масштабирования, что позволяет добиться максимальной производительности при минимальных ресурсах.
### Заключение
Книга подчеркивает огромные достижения и влияние, которые оказали архитектуры нейронных сетей в различных приложениях, включая распознавание объектов и медицинскую диагностику. Она акцентирует внимание на важности выбора функций активации и архитектуры нейросети в зависимости от конкретной задачи, что и является краеугольным камнем успешного обучения моделей машинного обучения.