Тема 7. Классификация известных нейросетей по основным
категориям применения (продолжение)
Сеть встречного распространения
(CounterРropagation)
Роберт Хехт-Нильсен (Robert Hecht-Nielsen) разработал сеть
СounterРropagation как средство для объединения неконтролируемого
слоя Кохонена с контролируемым выходным слоем. Сеть предназначена
для решения сложных классификаций, при минимизации числа нейронов и
времени обучения. Обучение для сети СounterРropagation похоже на
сети с квантованием обучающего вектора.
Пример сети изображен на рис. 7. Однонаправленная сеть
CounterPropagation имеет три слоя: входной слой, самоорганизованная
карта Кохонена и выходной слой, использующий правило "дельта" для
изменения входных весов соединений. Этот слой называют слоем
Гроссберга.
Рис. 7. Сеть встречного распространения без
обратных связей
Первая сеть СounterРropagation состояла из двухнаправленного
отображения между входным и выходным слоями. Данные поступают на
входной слой для генерации классификации на выходном слое, выходной
слой поочередно принимает дополнительный входной вектор и генерирует
выходную классификацию на входном слое сети. Из-за такого
встречно-распространенного потока информации сеть получила свое
название. Много разработчиков используют однонаправленный вариант
СounterРropagation, когда существует лишь один путь прямого
распространения от входного к выходному слою.
В сети встречного распространения объединены два алгоритма:
самоорганизованная карта Кохонена и звезда Гроссберга (Grossberg
Outstar). Нейронные сети, объединяющие разные нейропарадигми как
строительные блоки, более близки к мозгу по архитектуре, чем
однородные структуры. Считается, что в мозгу именно каскадные
соединения модулей разной специализации позволяют выполнять
необходимые вычисления. Каждый элемент входного сигнала подается на
все нейроны слоя Кохонена. Весы связе (wmn)
образовывают матрицу W. Каждый нейрон слоя Кохонена соединен со
всеми нейронами слоя Гроссберга. Весы связей (vnp)
образовывают матрицу весов V.
В процессе обучения сети встречного распространения входные
векторы ассоциируются с соответствующими выходными векторами
(двоичными или аналоговыми). После обучения сеть формирует выходные
сигналы, которые отвечают входным сигналам. Обобщающая способность
сети дает возможность получать правильный выход, когда входной
вектор неполный или искаженный.
Обучение сети
В результате самообучения слой приобретает способность разделять
непохожие входные векторы. Какой именно нейрон будет активироваться
при предъявлении конкретного входного сигнала, заранее тяжело
предусмотреть.
При обучении слоя Кохонена на вход подается входной вектор и
вычисляются его скалярные произведения с векторами весов всех
нейронов.
Скалярное произведение является мерой сходства между входным
вектором и вектором весов. Нейрон с максимальным значением
скалярного произведения считается "победителем" и его весы
усиливаются (весовой вектор приближается к входному).
wн=wc+r(x-wc)
где wн - новое значение веса, который соединяет
входной компонент x с выигравшим нейроном, wс -
предыдущее значение веса, r - коэффициент скорости обучения, которое
сначала обычно равняется 0.7 и может постепенно уменьшаться в
процессе обучения. Это позволяет делать большие начальные шаги для
быстрого грубого обучения и меньшие шаги при подходе к окончательной
величине.
Каждый вес, связанный с нейроном-победителем Кохонена, изменяется
пропорционально разности между его величиной и величиной входа, к
которому он присоединен. Направление изменения минимизирует разность
между весом и соответствующим элементом входного слоя.
Обучающее множество может содержать много похожих между собой
входных векторов, и сеть должна быть наученной активировать один
нейрон Кохонена для любого из них. Весы этого нейрона является
усреднением входных векторов, что его активируют.
Выходы слоя Кохонена подаются на входы нейронов слоя Гроссберга.
Входы нейронов вычисляются как взвешенная сумма выходов слоя
Кохонена. Каждый вес корректируется лишь в том случае, если она
соединенная с нейроном Кохонена, что имеет ненулевой выход. Величина
коррекции весов пропорциональна разности между весом и необходимым
выходом нейрона Гроссберга. Обучение слоя Гроссберга - это обучения
"с учителем", алгоритм использует заданные желаемые выходы.
Функціонування мережі
В своей простейшей форме слой Кохонена функционирует по правилу
"победитель получает все". Для данного входного вектора один и
только один нейрон Кохонена выдает логическую единицу, все другие
выдают нуль. Слой Гроссберга функционирует в похожей манере. Его
выход является взвешенной суммой выходов слоя Кохонена. Если слой
Кохонена функционирует так, что лишь один выход равняется единице, а
другие равняются нулю, то каждый нейрон слоя Гроссберга выдает
величину веса, который связывает этот нейрон с единственным нейроном
Кохонена, чей выход отличен от нуля.
В полной модели сети встречного распространения есть возможность
получать выходные сигналы по входным и наоборот. Этим двум действиям
отвечают прямое и обратное распространения сигналов.
Области применения. Распознавание образов, восстановление
образов (ассоциативная память), сжатие данных (с потерями).
Недостатки. Сеть не дает возможности строить точные
аппроксимации (точные отображения). В этом сеть значительно уступает
сетям с обратным распространением погрешности. К недостаткам модели
также следует отнести слабый теоретический базис модификаций сети
встречного распространения.
Преимущества
- Сеть встречного распространения проста. Она дает возможность
получать статистические свойства из множества входных сигналов.
Кохонен доказал, что для наученной сети вероятность того, что
случайно выбранный входной вектор будет ближайшим к любому
заданному весовому вектору, равняется 1/k, k - число нейронов
Кохонена.
- Сеть быстро учится. Время обучения по сравнению с обратным
распространением может быть в 100 раз меньше.
- По своим возможностям строить отображения сеть встречного
распространения значительно превосходит однослойные перцептроны.
- Сеть полезна для приложений, где нужна быстрая начальная
аппроксимация.
- Сеть дает возможность строить функцию и обратную к ней, что
находит применение при решении практических задач.
Модификации. Сети встречного распространения могут
различаться способами определения начальных значений синаптических
весов.
- Для повышения эффективности обучения применяется добавление
шума ко входным векторам.
- Еще один метод повышения эффективности обучения -
предоставление каждому нейрону "чувства справедливости". Если
нейрон становится победителем чаще, чем 1/k (k - число нейронов
Кохонена), то ему временно увеличивают порог, давая тем самим
учиться и другим нейронам.
- Кроме "метода аккредитации", при котором для каждого входного
вектора активируется лишь один нейрон Кохонена, может быть
использован "метод интерполяции", при использовании которого целая
группа нейронов Кохонена, имеющих наибольшие выходы, может
передавать свои выходные сигналы в слой Гроссберга. Этот метод
повышает точность отображений, реализованных сетью.
Вероятностная нейронная
сеть.
Вероятностная нейронная сеть была разработана Дональдом Спехтом
(Donald Specht). Эта сетевая архитектура была впервые представлена в
двух статьях : "вереятностные нейронные сети для классификации"
(Probabilistic Neural Networks for Classification) 1988,
"Отображение или ассоциативная память и вереятностные нейронные
сети" (Mapping or Associative Memory and Probabilistic Neural
Networks) 1990 г.
Выходы сети можно интерпретировать, как оценки вероятности
принадлежности элементу к определенному классу. Вероятностная сеть
учится оценивать функцию плотности вероятности, ее выход
рассматривается как ожидаемое значение модели в данной точке
пространства входов. Это значения связано с плотностью вероятности
общего распределения входных и выходных данных.
Задача оценки плотности вероятности относится к области
байесовской статистики. Обычная статистика по заданной модели
показывает, какова вероятность того или другого выхода (например, на
игральной кости 6 очков будет выпадать в среднем в одном случае с
шести). Байесовская статистика интерпретирует по другому:
правильность модели оценивается по имеющимся достоверным данным, то
есть дает возможность оценивать плотность вероятности распределения
параметров модели по имеющимся данным.
При решении задач классификации можно оценить плотность
вероятности для каждого класса, сравнить между собой вероятности
принадлежности к разным классам и выбрать модель с параметрами, при
которых плотность вероятности будет большей.
Оценка плотности вероятности в сети основана на ядерных оценках.
Если пример расположен в данной точке пространства, тогда в этой
точке есть определенная плотность вероятности. Кластеры из рядом
расположенных точек, свидетельствуют, что в этом месте плотность
вероятности большая. Возле наблюдения имеется большее доверие к
уровню плотности, а по мере отдаления от него доверие уменьшается и
стремится к нулю. В методе ядерных оценок в точке, которая отвечает
каждому примеру, помещается некоторая простая функция, потом они все
прибавляются и в результате получается оценка для общей плотности
вероятности. Чаще в качестве ядерных функций берут колоколоподобные
функции (гауссовские). Если имеется достаточное количество обучающих
примеров, такой метод дает хорошие приближения к истинной плотности
вероятности.
Вероятностная сеть имеет три слоя: входной, радиальный и
выходной. Радиальные элементы берутся по одному на каждый пример.
Каждый из них имеет гауссовскую функцию с центром в этом примере.
Каждому классу отвечает один выходной элемент. Выходной элемент
соединен лишь с радиальными элементами, относящихся к его классу и
подытоживает выходы всех элементов, принадлежащих к его классу.
Значения выходных сигналов получаются пропорционально ядерным
оценкам вероятности принадлежности соответствующим классам.
Рис. 8. Приклад імовірнісної нейронної
мережі
Преимущества. Обучение вероятностной нейронной сети
намного проще, чем ВackРropagation. Недостатком сети является ее
размер, поскольку она фактически содержит в себе все обучающие
данные, требует много памяти и может медленно работать.
Модификации. Базовая модель вероятностной нейронной сети
имеет модификации. Предположим, что пропорции классов в обучающем
множестве отвечают их пропорциям во всем исследуемом множестве
(априорная вероятность). Например, если среди всех людей больными
являются 2%, то в обучающем множестве для сети, диагностирующей
заболевание, больных также должно быть 2%. Если же априорные
вероятности отличаются от пропорции в обучающей выборке, сеть будет
выдавать неверный результат. Это можно учесть, вводя корректирующие
коэффициенты для разных классов.
Сеть Хопфилда
Джон Хопфилд впервые представил свою ассоциативную сеть в 1982 г.
в Национальной Академии Наук. В честь Хопфилда и нового подхода к
моделированию, эта сетевая парадигма упоминается как сеть Хопфилда.
Сеть базируется на аналогии физики динамических систем. Начальные
применения для этого вида сети включали ассоциативную, или
адресованную по смыслу память и решали задачи оптимизации.
Сеть Хопфилда использует три слоя: входной, слой Хопфилда и
выходной слой. Каждый слой имеет одинаковое количество нейронов.
Входы слоя Хопфилда подсоединены к выходам соответствующих нейронов
входного слоя через изменяющиеся веса соединений. Выходы слоя
Хопфилда подсоединяются ко входам всех нейронов слоя Хопфилда, за
исключением самого себя, а также к соответствующим элементам в
выходном слое. В режиме функционирования, сеть направляет данные из
входного слоя через фиксированные веса соединений к слою Хопфилда.
Слой Хопфилда колебается, пока не будет завершено определенное
количество циклов, и текущее состояние слоя передается на выходной
слой. Это состояние отвечает образу, уже запрограммированному в
сеть.
Обучение сети Хопфилда требует, чтобы обучающий образ был
представлен на входном и выходном слоях одновременно. Рекурсивный
характер слоя Хопфилда обеспечивает средства коррекции всех весов
соединений. Недвоичная реализация сети должна иметь пороговый
механизм в передаточной функции. Для правильного обучение сети
соответствующие пары "вход-выход" должны отличаться между собой.
Если сеть Хопфилда используется как память, адресуемая по смыслу
она имеет два главных ограничения. Во-первых, число образов, которые
могут быть сохранены и точно воспроизведены является строго
ограниченным. Если сохраняется слишком много параметров, сеть может
сходится к новому несуществующему образу, отличному от всех
запрограммированных образов, или не сходится вообще.
Граница емкости памяти для сети приблизительно 15% от числа
нейронов в слое Хопфилда. Вторым ограничением парадигмы есть то, что
слой Хопфилда может стать нестабильным, если обучающие примеры
являются слишком похожими. Образец образа считается нестабильным,
если он применяется за нулевое время и сеть сходится к некоторому
другому образу из обучающего множества. Эта проблема может быть
решена выбором обучающих примеров более ортогональных между
собой.
Структурная схема сети Хопфилда приведена на рис. 9.
Рис. 9. Структурная схема сети Хопфилда
Задача, решаемая данной сетью в качестве ассоциативной памяти,
как правило, формулируется так. Известен некоторый образцовый набор
двоичных сигналов (изображений, звуковых оцифровок, других данных,
которые описывают определенные объекты или характеристики
процессов). Сеть должна уметь с зашумленого сигнала, представленного
на ее вход, выделить ("припомнить" по частичной информации)
соответствующий образец или "дать вывод" о том, что входные данные
не отвечают ни одному из образцов. В общем случае, любой сигнал
может быть описан вектором x1,
хі, хn..., n - число
нейронов в сети и величина входных и выходных векторов. Каждый
элемент xi равняется или +1, или -1. Обозначим
вектор, который описывает k-ий образец, через Xk,
а его компоненты, соответственно, - xik,
k=0, ..., m-1, m - число образцов. Если сеть
распознает (или "вспоминает") определенный образец на основе
предъявленных ей данных, ее выходы будут содержать именно его, то
есть Y = Xk, где Y - вектор выходных
значений сети: y1, yi,
yn. В противном случае, выходной вектор не совпадет
ни с одним образцом.
Если, например, сигналы представляют собой какое-то изображение,
то, отобразив в графическом виде данные с выхода сети, можно будет
увидеть картинку, которая целиком совпадает с одной из образцовых (в
случае успеха) или же "свободную импровизацию" сети (в случае
неудачи).
Алгоритм функционирования сети
- На стадии инициализации сети синаптические коэффициенты
устанавливаются таким образом:
Здесь i и j - индексы, соответственно,
предсинаптического и постсинаптического нейронов; xik,
xjk - i-ый і j-ый элементы вектора
k-ого образца.
- На входы сети подается неизвестный сигнал. Его распространение
непосредственно устанавливает значения выходов:
yi(0) = xi , i = 0...n-1,
поэтому обозначения на схеме сети входных сигналов в явном виде
носит чисто условный характер. Нуль в скобке yi
означает нулевую итерацию в цикле работы сети.
- Рассчитывается новое состояние нейронов
,
j=0...n-1
и новые значения выходов
где f - передаточная функция в виде пороговой, приведена
на рис. 10.
Рис. 10. Передаточные функции
- Проверяем изменились ли выходные значения выходов за последнюю
итерацию. Если да - переход к пункту 2, иначе (если выходы
стабилизировались) - конец. При этом выходной вектор представляет
собой образец, что лучше всего отвечает входным данным.
Иногда сеть не может провести распознавания и выдает на выходе
несуществующий образ. Это связано с проблемой ограниченности
возможностей сети. Для сети Хопфилда число запомненых образов m не
должно превышать величины, приблизительно равной 0.15*n. Кроме того,
если два образа А і Б сильно похожи, они, возможно, будут вызвать в
сети перекрестные ассоциации, то есть предъявление на входы сети
вектора А приведет к появлению на ее выходах вектора Б и наоборот.
Благодаря итерационному алгоритму, машина продвигается к наилучшему
решению
Машина Больцмана
Машина Больцмана (Boltzmann mashine) похожа по функции и действию
на сеть Хопфилда и включает понятие "моделированного отжига" для
поиска в пространстве состояний слоя образов глобального минимума.
Экли (Ackley), Хинтон (Hinton) и Сейновски (Sejnowski)
разработали правило больцмановского обучения в 1985 г. Подобно сети
Хопфилда, машина Больцмана имеет пространство состояний, которое
базируется на весах соединений в слое образов. Процессы обучение
сети, наполненной образами, включает сглаживание рельефа
пространства состояний.
Машина Больцмана моделирует отжиг металла, который прибавляется к
процессу обучение сети. Как и при физическом отжиге, температура
начинается с больших значений и уменьшается с течением времени.
Увеличенная температура прибавляет увеличенный шумовой коэффициент к
любому нейрону в слое образов. Преимущественно, конечной
температурой будет нуль. Для достижения оптимального решения
целесообразно на низших температурах прибавлять больше итераций.
Машина Больцмана, учась на высокой температуре, ведет себя как
случайная модель, а на низких температурах она как
детерминированная. Из-за случайной компоненты в отжиговом обучении,
нейрон может принять новое значение состояния, которое увеличивается
быстрее, чем уменьшается общее пространство состояний. Имитация
физического отжига позволяет продвигаться к глобальному минимуму,
избегая локальный.
Как и в сети Хопфилда, сети может быть представлен частичный
образ для восстановления отсутствующей информации. Ограничение на
число классов менее 15 % от общего количества элементов в слое
образов, все еще применяется.
Алгоритм функционирования сети
- Определить переменную T, представляющую искусственную
температуру.
- Предъявить сети множество входов и вычислить выходы и целевую
функцию.
- Дать случайное изменение весам и пересчитать выход сети и
изменение целевой функции в соответствии с изменением весов.
- Если целевая функция уменьшилась, тогда новое множество весов
сохраняется.
Если изменение весов приводит к увеличению целевой функции, то
вероятность сохранения этого изменения вычисляется по помощи
распределения Больцмана:
где P(c) - вероятность изменения c в целевой функции; k -
константа, аналогичная константе Больцмана, выбирается в
зависимости от задачи; T - искусственная температура.
Выбирается случайное число r из равномерного распределения от
нуля до единицы. Если P(c) больше, чем r, то изменение
сохраняется, в противном случае величина веса возвращается к
предыдущему значению.
Эта процедура дает возможность системе делать случайный шаг в
направлении, портящем целевую функцию, позволяя ей вырываться из
локальных минимумов.
Шаги 3 и 4 повторяются для всех весов сети, постепенно уменьшая
температуру T, пока не будет достигнуто допустимое низкое значение
целевой функции. В этот момент предъявляется другой входной вектор и
процесс обучения повторяется. Сеть учится на всех векторах
обучающего множества, пока целевая функция не станет допустимой для
всех из них.
Скорость уменьшения температуры должна быть обратно
пропорциональная логарифму времени. При этом сеть сходится к
глобальному минимуму.
Области применения. Распознавание образов, классификация.
Недостатки. Медленный алгоритм обучения.
Преимущества. Алгоритм дает возможность сети выбираться из
локальных минимумов адаптивного рельефа пространства состояний.
Модификации. Случайные изменения могут проводиться не
только для отдельных весов, но и для всех нейронов слоев в
многослойных сетях или для всех нейронов сети одновременно. Эти
модификации алгоритма дают возможность сократить общее число
итераций обучения.
Сеть Хемминга
Сеть Хемминга (Hamming) - расширение сети Хопфилда. Эта сеть была
разработана Ричардом Липпманом (Richard Lippman) в середине 80-х гг.
Сеть Хемминга реализует классификатор, базирующийся на наименьшей
погрешности для векторов двоичных входов, где погрешность
определяется расстоянием Хемминга. Расстояние Хемминга определяется
как число бит, отличающихся между двумя соответствующими входными
векторами фиксированной длины. Один входной вектор является
незашумленым примером образа, другой - испорченным образом. Вектор
выходов обучающего множества является вектором классов, к которым
принадлежат образы. В режиме обучения входные векторы распределяются
по категориям, для которых расстояние между образцовыми входными
векторами и текущим входным вектором является минимальным.
Сеть Хемминга имеет три слоя: входной слой с количеством узлов,
сколько имеется отдельных двоичных признаков; слой категорий (слой
Хопфилда), с количеством узлов, сколько имеется категорий или
классов; выходной слой, который отвечает числу узлов в слое
категорий.
Сеть есть простой архитектурой прямого распространения с входным
уровнем, полностью подсоединенным к слою категорий. Каждый элемент
обработки в слое категорий является обратно подсоединенным к каждому
нейрону в том же самом слое и прямо подсоединенным к выходному
нейрону. Выход из слоя категорий к выходному слою формируется через
конкуренцию.
Обучение сети Хемминга похоже на методологию Хопфилда. На входной
слой поступает желаемый обучающий образ, а на выход выходного слоя
поступает значение желаемого класса, к которому принадлежит вектор.
Выход содержит лишь значение класса к которому принадлежит входной
вектор. Рекурсивный характер слоя Хопфилда обеспечивает средства
коррекции всех весов соединений.
Рис. 11. Структурная схема сети Хемминга
Алгоритм функционирования сети Хемминга
- На стадии инициализации весовым коэффициентам первой слоя и
порогу передаточной функции присваиваются такие значения:
Wik=xIk/2,
i=0...n-1, k=0...m-1
bk = n / 2, k = 0...m-1
Здесь xik - i-ый элемент
k-ого образца.
Весовые коэффициенты тормозящих синапсов в втором слое берут
равными некоторой величине 0 < v < 1/m. Синапс нейрона,
связанный с его же выходом имеет вес +1.
- На входы сети подается неизвестный вектор
x1, xi, xn
... Рассчитываются состояния нейронов первого слоя (верхний
индекс в скобках указывает номер слоя):
, j=0...m-1
После этого получения значения инициализируют значения выходов
второго слоя:
yj(2) = yj(1), j
= 0...m-1
- Вычисляются новые состояния нейронов второго слоя:
и значения их выходов:
Передаточная функция f имеет вид порога, причем величина b
должна быть достаточно большой, чтобы любые возможные значения
аргумента не приводили к насыщению.
- Проверяется, изменились ли выходы нейронов второго слоя за
последнюю итерацию. Если да - перейти к шагу 3. Иначе - конец.
Роль первой слоя является условной: воспользовавшись один раз на
первом шаге значениями его весовых коэффициентов, сеть больше не
возвращается к нему, поэтому первый слой может быть вообще исключен
из сети.
Сеть Хемминга имеет ряд преимуществ над сетью Хопфилда. Она
способна найти минимальную погрешность, если погрешности входных бит
являются случайными и независимыми. Для функционирования сети
Хемминга нужно меньшее количество нейронов, поскольку средний слой
требует лишь один нейрон на класс, вместо нейрона на каждый входной
узел. И, в конце концов, сеть Хемминга не страдает от неправильных
классификаций, которые могут случиться в сети Хопфилда. В целом,
сеть Хемминга быстрее и точнее, чем сеть Хопфилда.
Двунаправленная ассоциативная
память
Эта сетевая модель была разработана Бартом Козко (Bart Kosko) и
расширяет модель Хопфилда. Множество парных образов учится за
образами, которые представлены как биполярные векторы. Подобно сети
Хопфилда, когда представляется зашумленная версия одного образа,
определяется ближайший образ, ассоциированный с ним.
На рис. 12 показан пример двунаправленной ассоциативной памяти.
Она имеет столько входов, сколько есть выходов. Два скрытых слоя
помещаются на двух отдельных ассоциативных элементах памяти и
представляют удвоенный размер входных векторов. Средние слои
полностью соединены между собой. Входной и выходной слои нужны для
реализации средств ввода и воссоздания информации из сети.
Средние слои разработаны для сохранности ассоциированных пар
векторов. Если на вход сети поступает зашумленный вектор образа,
средние слои колебаются до достижения стабильного состояния
равновесия, что отвечает ближайшей наученной ассоциации и на выходе
генерируется образ из обучающего множества. Подобно сети Хопфилда,
двунаправленная ассоциативная память предрасположена к неправильному
отыскиванию наученного образа, если поступает неизвестный входной
вектор, который не был в составе обучающего множества.
Двунаправленная ассоциативная память относится к
гетероассоциативной памяти. Входной вектор поступает на один набор
нейронов, а соответствующий выходной вектор продуцируется на другом
наборе нейронов. Входные образы ассоциируются с выходными.
Для сравнения: сеть Хопфилда автоассоциативная. Входной образ
может быть восстановлен или выправлен сетью, но не может быть
ассоциирован с другим образом. В сети Хопфилда используется
однослойная структура ассоциативной памяти, в которой выходной
вектор появляется на выходе тех же нейронов, на которые поступает
входной вектор.
Двунаправленная ассоциативная память, как и сеть Хопфилда,
способна к обобщению, вырабатывая правильные выходные сигналы,
несмотря на поврежденные входы.
Рассмотрим схему двунаправленной ассоциативной памяти. Входной
вектор A обрабатывается матрицей весов W сети, в результате чего
продуцируется вектор выходных сигналов сети B. Вектор B
обрабатывается транспонированной матрицей WT весов сети, которая
продуцирует сигналы, представляющие новый входной вектор A. Этот
процесс повторяется до тех пор, пока сеть не достигнет стабильного
состояния, в котором ни вектор A, ни вектор B не изменяются.
Рис. 12. Двухнаправленная ассоциативная память
Нейроны в слоях 1 и 2 функционируют, как и в других парадигмах,
вычисляя сумму взвешенных входов и значения передаточной функции F:
или в векторной форме:
B=F(AW)
где B - вектор выходных сигналов нейронов слоя 2, A - вектор
выходных сигналов нейронов слоя 1, W - матрица весов связей между
слоями 1 и 2, F - передаточная функция.
Аналогічно
A=F(BWT),
где WT является транспозицией матрицы W.
В качестве передаточной функции используется экспонентная
сигмоида.
Слой 0 не делает вычислений и не имеет памяти. Он - лишь
средством распределения выходных сигналов слоя 2 к элементам
матрицы WT.
Формула для вычисления значений синаптических весов:
где Aj и Bj - входные и
выходные сигналы обучающего множества.
Весовая матрица вычисляется как сумма произведений всех векторных
паров обучающего множества.
Системы с обратной связью имеют тенденцию к колебаниям. Они могут
переходить от состояния к состоянию, никогда не достигая
стабильности. Доказано, что двунаправленная ассоциативная память
безусловно стабильна при любых значениях весов сети.
Области применения. Ассоциативная память, распознавание
образов.
Недостатки. Емкость двунаправленной ассоциативной памяти
жестко ограничена. Если n - количество нейронов во входном слое, то
число векторов, которые могут быть запомнены в сети не превышает
L=n/2log2n. Так, если n=1024,
то сеть способна запомнить не более 25 образов.
Двунаправленная ассоциативная память имеет некоторую
непредсказуемость в процессе функционирования, возможные ошибочные
ответы.
Преимущества
- По сравнению с автоассоциативной памятью (например, сетью
Хопфилда), двунаправленная ассоциативная память дает возможность
строить ассоциации между векторами A и B, что в общем случае имеют
разные размерности. За счет таких возможностей гетероассоциативная
память имеет более широкий класс применений, чем автоассоциативная
память.
- Двунаправленная ассоциативная память - простая сеть, которая
может быть реализована в виде отдельной СБИС или оптоэлектронным
способом.
- Процесс формирования синаптических весов простой и быстрый.
Сеть быстро сходится в процессе функционирования.
- Сигналы в сети могут быть как дискретными, так и аналоговыми.
Для обоих случаев доказана стабильность сети.
Сеть адаптивной резонансной
теории
Разработана Стивеном Гроссбергом и Карпентером в середине 80-х
гг. Парадигма использует неконтролируемое обучение, анализирует
значимые входные данные, выявляет возможные признаки и
классифицирует образы в входном векторе.
Сеть адаптивной резонансной теории состоит из двух
взаимосвязанных слоев нейронов, расположенных между входным и
выходным слоями. Каждый входной образ низшей слоя резонанса
стимулирует ожидаемый образ на высшем слое, который пересылается к
низшему слою, чтобы влиять на следующий вход. Это создает "резонанс"
между низшим и высшим слоями для облегчения сетевой адаптации
образов.
Сеть преимущественно используется в биологическом моделировании,
тем не менее существуют некоторые технические применения. Главным
ограничением сетевой архитектуры является ее шумовая
чувствительность. Даже небольшое количество шума на входном векторе
путает обобщающие возможности наученной сети.
Сеть ART-1 реализует алгоритм кластеризации, очень похожий на
алгоритм "последовательного лидера". Следуя этому алгоритму первый
входной сигнал считается образцом первого кластера. Следующий
входной сигнал сравнивается с образцом первого кластера. Говорят,
что входной сигнал "направляется за лидером" и принадлежит первому
кластеру, если расстояние до образца первого кластера меньше порога.
В противном случае второй входной сигнал - образец второго кластера.
Этот процесс повторяется для всех следующих входных сигналов. Таким
образом, число кластеров растет с течением времени и зависит как от
значения порога, так и от метрического свидетельства расстояния,
используемое для сравнения входных сигналов и образцов классов.
Основная часть сети ART-1 похожа на сеть Хемминга. С помощью
последовательных связей вычисляется соответствие входных сигналов и
образцов кластеров. Максимальное значение соответствия усиливается с
помощью латеральных связей выходных нейронов.
Сеть ART-1 отличается от сети Хемминга обратными связями от
выходных нейронов к входным, кроме того есть возможность выключать
выходной нейрон с максимальным значением соответствия и проводить
тестирования соответствия входного сигнала и образцов кластеров, как
того требует алгоритм "последовательного лидера".
Рис. 13. Основные компоненты классификатора
Карпентер/Гроссберга
Алгоритм функционирования сети
- Инициализация сети:
vij(0)=1;Wij(0)=1/(1+N)
0Ј i Ј N-1; 0Ј
j Ј M-1; 0Ј b Ј 1;
где wij(t) - синаптический вес связи
от i-го нейрона первого слоя к j-го нейрону второго слоя в момент
времени t, vij(t) - синаптический вес
связи от j-го нейрона второго слоя к i-го нейрону первого слоя в
момент времени t, b - значение порога.
Весы vij(t) і
wij(t) определяют образец, отвечающий
нейрону j.
Порог b показывает, насколько должен входной сигнал совпадать с
одним из запомненных образцов, чтобы они считались похожими.
Близкое к единице значения порога требует почти полного
совпадения.
При небольших значениях порога входной сигнал и образец, даже,
если они сильно различаются, считаются принадлежащими к одному
кластеру.
- Предъявление сети нового бинарного входного сигнала:
Входные сигналы предъявляются выходному слою нейронов
аналогично сети Хемминга.
- Вычисление значений соответствия:
Значение соответствия вычисляются параллельно для всех
образцов, запомненых в сети, аналогично сети Хемминга.
- Выбор образца с наибольшим соответствием:
yj=max(yj)
Эта операция выполняется с помощью латерального торможения.
- Сравнение с порогом:
;
если переход к шагу 7, иначе к шагу 6.
На этом шаге вычисляется отношение скалярного произведения
входного сигнала и образца с наибольшим значением соответствия к
числу единичных бит входного сигнала. Значение отношения
сравнивается с порогом, введенном на первом шаге.
Если значение отношения больше порога, то входной сигнал
считается похожим наподобие наибольшему значению соответствия. В
этом случае образец модифицируется путем выполнения операции AND
(логическое "И"). Новый образец является образцом на предыдущем
шаге + входной сигнал.
Если значение отношения меньше порога, то считается, что
входной сигнал отличается от всех образцов и рассматривается как
новый образец. В сеть вводится нейрон, отвечающий новому образцу,
и вычисляются значение синаптических весов.
- Исключение примера с наибольшим значением соответствия:
Выход нейрона с наибольшим значением соответствия временно
устанавливается равным нулю и более не принимает участия в шаге
4.
- Адаптация примера с наибольшим значением соответствия:
vij(t+1)=vij(t)xj
- Включение всех исключенных на шаге 6 образцов. Возвращение к
шагу 2.
Входные сигналы в этой модели бинарные.
Размерности входа и выхода ограничены при программной
реализации только возможностями вычислительной системы, на которой
моделируется нейронная сеть, при аппаратной реализации -
технологическими возможностями.
Емкость сети совпадает с числом нейронов второго слоя и
может увеличиваться в процессе функционирования сети.
Области применения. Распознавание образов, кластерный
анализ.
Недостатки. Неограниченное увеличение числа нейронов в
процессе функционирования сети. В появлением шума возникают
значительные проблемы, связанные с неконтролируемым ростом числа
образцов.
Преимущества. Обучение без учителя.
Модификации. Существует модель ART-2 с аналоговыми
значениями входными сигналами.
|