Глава VII. Принципы обучения в системах автоматического управления
1. Сущность проблемы обучения
Использование принципа обучения в системах автоматического управления является высшим достижением технической кибернетики.
Самообучающиеся системы, в отличие от самонастраивающихся, в начале своей работы являются совершенно не способными выполнять какие-либо функции управления объектом. Они первоначально собирают информацию об объекте и его поведении, как бы наблюдая за объектом во время управления им вручную или при помощи какого-либо другого автоматического устройства. И только после того как эти системы "научатся" управлять объектом, они могут взять на себя это управление. Однако процесс обучения систем на этом не заканчивается. Они, управляя объектом, продолжают его "исследовать" и меняют закон регулирования таким образом, чтобы все время улучшать характеристики объекта.
Свойство живых организмов сохранять определенные характеристики при значительном изменении внешних условий называется гомеостазисом*. Поэтому свой аппарат, показывающий принцип обучения системы в выборе ответных реакций на изменение внешних условий, Эшби назвал гомеостатом.
* (σμοιóστασιζ - состояние устойчивого равновесия.)
Гомеостат Эшби состоит из четырех шарнирно подвешенных электромагнитов. Под каждым из этих магнитов находится сосуд с электролитом. По концам сосуда расположены электроды, а к магниту прикреплен стержень, опущенный в электролит. Благодаря этому каждый магнит с сосудом образует потенциометр, изменяющий напряжение в зависимости от угла отклонения подвешенного магнита.
Добавление к потенциометрам усилителей позволяет создать четыре одинаковых блока (рис. 7.1). Эти блоки соединяются между собой таким образом, что напряжение на выходе каждого из них подается на три других блока. Благодаря этому на вход каждого блока включается напряжение всех трех остальных блоков. Кроме того, на вход каждого блока через цепь обратной связи подается напряжение с его выхода.
Рис. 7.1. Схема гомеостата Эшби
Таким образом, вращающий момент любого из блоков пропорционален сумме напряжений на выходах всех блоков.
На входах блоков установлены коммутаторы, которые могут менять (дискретно) полярность и величину коэффициента усиления каждого напряжения. Всего получается 390625 различных комбинаций значений параметров. При этом количество переменных величин равно восьми (углы наклона четырех магнитов и положения четырех коммутаторов).
Целью создания этого аппарата является получение, как говорит Эшби, "ультраустойчивости". Причем устойчивым состоянием является расположение всех четырех подвешенных магнитов в вертикальном (нулевом) положении. Это состояние должно быть достигнуто при самых различных видах воздействия на аппарат: при обрыве обмоток магнита, изменении их полярности, коротком замыкании в их цепи, введении сопротивлений в цепи обмоток и т. д.
Гомеостат устроен так, что после воздействия на него внешнего возмущения, например замыкания в одной из обмоток магнита, вращающиеся коммутаторы начинают перебирать все из 390625 положений и останавливаются на том из них, в котором напряжения на всех четырех обмотках возбуждения магнитов оказываются равными нулю.
Строго говоря, к гомеостату Эшби еще нельзя применить термин "самообучение", так как гомеостат только находит полярности обмоток и коэффициенты усиления схемы, обеспечивающие устойчивое состояние при новых, изменившихся условиях. К прежней же схеме (при возвращении первоначальных условий) гомеостат возвращается только при помощи случайного поиска (перебирания сотен тысяч комбинаций схемы).
Широкую известность получила так называемая "мышь" Шеннона, двигающаяся внутри лабиринта неизвестной конфигурации. Эта "мышь" ощупывает стенки лабиринта, натыкается на препятствия, но в конце концов, после долгого блуждания, проходит лабиринт. В процессе этого первого движения через лабиринт "мышь" как бы "учится" его проходить. Поэтому, если "мышь" второй раз пустить через тот же лабиринт, то она пройдет его, не натыкаясь на стенки.
Необходимо иметь в виду, что процесс запоминания и забывания в живых организмах и вычислительных устройствах происходит принципиально различным образом. Вычислительные устройства почти мгновенно запоминают информацию и хранят ее до тех пор, пока по какой-либо команде вновь ее не забудут. В противоположность этому живые существа медленно выучиваются и так же медленно забывают.
Следовательно, самообучающиеся системы должны строиться на иных принципах, чем обычные вычислительные устройства.
Интересным в этом отношении является устройство, разработанное Уолтером и названное им "Кора". Его "Кора", выполненная в виде тележки, при толчке "прячется" (отъезжает), но на звуковой сигнал вначале не реагирует. Если же несколько раз одновременно с толчком включать звуковой сигнал, то "Кора" начинает реагировать (отъезжать в сторону) и на этот сигнал. Однако, если после этого "Кору" несколько раз толкнуть, не сопровождая толчок звуковым сигналом, то она "забывает" звуковой сигнал и вновь начинает реагировать только на толчок.
Таким образом, "Кора" в какой-то приближенной степени моделирует процесс выработки условного рефлекса. Ознакомимся с этим вопросом несколько подробнее.