ВВЕДЕНИЕ
Более пятидесяти лет назад, в период зарождения теории искусственного интеллекта, люди стремились воспроизвести функциональность человеческого мозга в компьютерных системах, чтобы они могли решать сложные задачи, аналогичные человеческим. Хотя полное достижение этой амбициозной цели пока не в наших силах, тем не менее, в ряде конкретных направлений мы добились значительных успехов [1].
В процессе обработки изображения (или сигнала) часто требуется выделить полезные (информативные) составляющие от шума. Эти задачи называются задачами фильтрации и имеют большое значение, особенно в полиграфии. Например, нужно извлечь наиболее важную для пользователя информацию и устранить несущественные данные. Это представляет собой сложную задачу в области теории искусственного интеллекта.
Теоретическая система искусственного интеллекта (ИИ) в прикладных задачах опирается на несколько разделов математики:
Математические методы существенно способствуют созданию и эффективному функционированию систем ИИ. Применение математики в различных областях ИИ, таких как компьютерное зрение, естественный язык и генетические алгоритмы, позволяет создавать интеллектуальные системы, которые способны выполнять сложные задачи и соответствовать потребностям современного общества. Более того, математика продолжает играть важную роль в будущем развитии искусственного интеллекта, открывая новые возможности и вызовы для исследователей и разработчиков в этой области.
Нейронные сети являются одним из самых популярных подходов к созданию ИИ. Они используются для моделирования и имитации работы человеческого мозга. Математические понятия, такие как линейная алгебра и теория вероятности, играют ключевую роль в разработке и применении нейронных сетей [2].
Во-первых, линейная алгебра обеспечивает фундамент для представления и обработки данных, особенно в задачах машинного обучения. Векторы, матрицы и операции над ними лежат в основе алгоритмов, таких как линейная регрессия, метод главных компонент и нейронные сети.
Во-вторых, математический анализ, включая дифференциальное и интегральное исчисление, необходим для оптимизации моделей ИИ. Градиентный спуск, используемый для обучения нейронных сетей, опирается на вычисление производных.
В-третьих, теория вероятностей и математическая статистика позволяют моделировать неопределённость и принимать решения на основе данных. Байесовские сети, скрытые марковские модели и статистические тесты широко применяются в задачах классификации, прогнозирования и анализа рисков.
В-четвертых, дискретная математика, включающая теорию графов и комбинаторику, играет важную роль в задачах планирования, оптимизации и анализа сетей. Алгоритмы поиска пути, такие как A*, и задачи оптимизации, такие как задача коммивояжера, основаны на дискретных математических моделях.
В настоящее время различают два основных подхода к моделированию искусственного интеллекта: машинный интеллект, заключающийся в строгом задании результата функционирования, и искусственный разум, направленный на моделирование внутренней структуры системы. Моделирование систем первой группы достигается за счёт использования законов формальной логики, теории множеств, графов, семантических сетей и других достижений науки в области дискретных вычислений, а основные результаты заключаются в создании экспертных систем, систем разбора естественного языка и простейших систем управления вида «стимул – реакция». Системы же второй группы базируются на математической интерпретации деятельности нервной системы (прежде всего мозга человека) и реализуются в виде нейроподобных сетей на базе нейроподобного элемента – аналога нейрона [3].
ОБЩИЕ ПРИНЦИПЫ ФУНКЦИОНИРОВАНИЯ НЕЙРОННЫХ СЕТЕЙ
Первый принцип, который используют нейронные модели – использование аналогии с мозгом и реальными нейронами. В связи с этим сформулируем основные факты о мозге и нейронах.
Итак, что мы знаем о мозге? Очень кратко:
В упрощённом представлении, нейрон можно рассматривать как пороговый механизм. Он принимает входящие сигналы от других нейронов, интегрирует их, и в случае превышения определённого порога, инициирует собственный выходной сигнал.
Этот исходящий импульс, в свою очередь, передается другим нейронам, формируя сложную сеть коммуникаций. Степень влияния входящего сигнала на нейрон определяется весом синапса, который может усиливать или ослаблять передаваемый сигнал. Именно изменение весов синапсов лежит в основе процесса обучения и адаптации нейронных сетей.
Для создания идеализированной модели этой пороговой системы часто используют сигмоидальные функции. Типичное графическое представление такой функции демонстрируется на рисунках 1 и 2.
Рисунок 1. Пример сигмоидальной функции.
В целях демонстрации, обратимся к нескольким функциям, которые можно отнести к рассматриваемому классу:
Рисунок 2. Функция включения Хевисайда.
Процесс идентификации образов в головном мозге представляет собой комплексную совокупность нейронных операций. В упрощенном виде, механизм распознавания визуальных стимулов может быть смоделирован как многослойная персептронная структура.
Кортикальные области мозга осуществляют обработку сигналов, поступающих из многослойного персептрона. С математической точки зрения, данную обработку, возможно рассматривать как функционирование рекуррентной нейронной сети [4].
Величину взаимодействия между нервными клетками характеризует матрица синаптических весов (W). Подтверждено, что вся долгосрочная и ключевая информация зафиксирована именно в этой матрице. Матрица синаптических весов подвержена медленным изменениям в течение времени, в процессе обучения мозга [5].
В мозге существуют две динамики: быстрая динамика нейронной активности, описываемая динамической системой, и медленная динамика, обусловленная изменениями силы связи между нейронами. Медленная динамика может быть представлена упрощенно с помощью, правила Хебба. Дональд Хебб, канадский нейрофизиолог, эмпирически установил, что при одновременной и частой активности двух нейронов сила связи между ними усиливается. Аналогичные исследования проводил Е. Конорский. Существуют различные математические формулировки данного правила.
При использовании упрощенной версии правила Хебба, предложенной С. Фузи, Н. Брюнелем и другими учёными, можно продемонстрировать, что это правило, в сочетании с шестислойным персептроном, реализует все основные алгоритмы, включая, например, преобразование Фурье (С. Вакуленко, 2002 год).
Механизм, созданный искусственным интеллектом путём, играет центральную роль в анализе обширных наборов данных. Превосходство ИИ в обработке больших объёмов информации над человеческими возможностями, очевидно, что проявляется в повышенной скорости и продуктивности. Между тем, комплексная защита информации обеспечивается за счёт многоуровневого подхода, охватывающего использование передовых технологий, которые обеспечиваются устойчивость и безопасность цифровой среды [6, с. 200, 230].
ЗАДАЧА КЛАССИФИКАЦИИ ОБЪЕКТОВ
Рассмотрим основополагающие аспекты работы нейросетевых моделей на примере задачи классификации данных [7].
Допустим, целью является разработка автоматизированной системы, способной идентифицировать два различных класса объектов – А и B. Современные технологии компьютерного зрения обеспечивают возможность фиксации информации об объектах (характеристик объекта) в цифровом формате.
Предположим, что каждый объект описывается посредством совокупности признаков, обозначенных как (x1, x2,…, xn). Данные признаки могут быть представлены в виде целочисленных значений или булевых переменных, отражающих наличие или отсутствие определенного признака.
Совокупность признаков можно рассматривать как вектор с n компонентами, или точку k-мерного Эвклидова пространства X = (x1, x2,…, xn). Тогда задача классификации сводится к следующей математической задаче: разделить два множества точек А и B n-мерного эвклидова пространства некоторой гиперповерхностью размерности n-1.
Процесс отбора признаков, используемых для классификации, представляет собой задачу высокой степени сложности, которую мы на данном этапе не будем подробно анализировать. Ранее эта проблема решалась посредством ручного труда, однако в последнее время получили распространение результативные автоматизированные подходы к идентификации наиболее релевантных признаков, такие как Deep Learning, которые рассмотрены [8]. Необходимо подчеркнуть, что корректный выбор признаков имеет определяющее значение для достижения успешных результатов при последующей обработке системы признаков с использованием методологий, которые будут описаны в дальнейшем.
Обучение нейронной сети в задачах классификации происходит на наборе обучающих примеров X (1), X (2),…, X (P), для которых принадлежность объекта к классу А или классу B известна. Чтобы математически формализовать этот факт, определим индикатор:
.
Основываясь на знаниях, полученных в процессе обучения, создается нейронная сеть (искусственная интеллектуальная система), определяющая разделяющую границу. С математической точки зрения, данную операцию можно интерпретировать как поиск определенной функции.
где W – набор параметров нейронной сети (или другой системы ИИ). Для нейросетей эти параметры, в частности, задают силу связи между нейронами и подбираются так, чтобы ошибка обучения (error training) была бы минимальной (как можно ближе к нулю). В качестве ошибки обучения обычно рассматривают функцию
Etrain (W ) = å j F(X ( j),W ) -D(X ( j)) ,
где X ( j), j = 1, P берутся из обучающего множества.
Для проверки эффективности обучения нейронной сети берут тестовое множество объектов и вычисляют
Etest (W ) = å j F(X ( j),W )-D(X ( j)) ,
где X ( j) взяты из тестового множества.
После того, как система обучена (что иногда требует большого процессорного времени), она для любого поданного на вход системы объекта X автоматически решает, к какому классу он относится.
ЗАКЛЮЧЕНИЕ.
Модели, такие как сети радиальных базисных функций и машины опорных векторов, могут быть интерпретированы как специализированные варианты многослойных персептронов, разработанные для решения проблем, присущих последним.
Все упомянутые архитектуры характеризуются наличием последовательных уровней, через которые проходит входной сигнал. В отличие от них, рекуррентные нейронные сети не имеют четко выраженных слоев. В них сигналы могут перемещаться по сети в произвольных направлениях, формируя сложные пространственно-временные структуры. Данный тип сетей обладает огромным потенциалом. Известно, что они способны моделировать любую динамическую систему или машину Тьюринга, то есть реализовывать произвольный вычислительный алгоритм.
Для решения этих проблем были разработаны специализированные архитектуры рекуррентных сетей, такие как сети долгой краткосрочной памяти (LSTM) и сети с вентильным рекуррентным блоком (GRU). Эти архитектуры вводят механизмы запоминания и забывания информации, позволяя сетям эффективно обрабатывать длинные последовательности и преодолевать проблему исчезающего градиента.
Рекуррентные нейронные сети находят широкое применение в задачах обработки естественного языка, таких как машинный перевод, распознавание речи и анализ тональности текста. Они также используются в задачах прогнозирования временных рядов, моделирования финансовых рынков и управления роботами.
ЛИТЕРАТУРА
New publications: |
Popular with readers: |
Worldwide Network of Partner Libraries: |
![]() |
Contacts |
About · News · For Advertisers |
![]() 2019-2025, LIBRARY.TJ is a part of Libmonster, international library network (open map) Keeping the heritage of Tajikistan |