распознавание образов разделилось на поднаправления, занимавшиеся разработкой систем распознавания вероятностных, детерм...
93 downloads
229 Views
4MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
распознавание образов разделилось на поднаправления, занимавшиеся разработкой систем распознавания вероятностных, детерминированных, логических, структурных и других.
Предисловие
В наше время искусственные нейронные сети (ИНС) вызывают большой интерес у специалистов разных направлений. Тех, кто не знаком с ними, интригует само название «нейронные сети», в котором слышится намек на искусственные интеллектуальные системы. Биологи ищут в ИНС аналогии со свойствами живой нервной системы, но, как правило, остаются разочарованными. Тех, кто связан с распознаванием образов, ИНС привлекают возможностью построения системы распознавания, минуя трудоемкие этапы построения математической модели этой системы и ее оптимизации. Специалисты, занимающиеся собственно ИНС, всегда озабочены поиском выхода из проблем, которыми современные нейронные сети обладают в избытке. Настоящий сборник содержит статьи, отражающие некоторые результаты работы Отдела имитационных систем ИСП РАН в области нейросетевых технологий. В основном, исследования отдела ведутся в русле развития нового направления, инициированного сотрудниками отдела, и связанного с построением новой концепции адаптивного управления (метод «автономного адаптивного управления» (ААУ)). Нейроноподобная реализация систем ААУ опирается на специально для этого разработанные модели нейронов и нейросетей. Чтобы читателю было легче понять, зачем авторам понадобилось разрабатывать новые модели нейронных сетей, и чем не устраивают уже имеющиеся ИНС, коротко напомним и прокомментируем основные положения ИНС, а затем укажем на те их недостатки, которые авторы и пытаются исправить. Искусственные нейронные сети, как направление кибернетики, появилось в 40-х годах ХХ века в результате попыток понять и смоделировать функции, строение и принцип действия биологических нервных систем, мозга, интеллекта. За задачу взялись с разных сторон, и вскоре были выявлены, соответственно, разные аспекты изучаемого объекта. Возник очень широкий спектр постановок задач и различных направлений исследований. Это было «время разбрасывать камни» - время, когда идеи и гипотезы рождались бурно, они были плохо сформулированы, решений не было, или они были фрагментарны и плохо формализованы. Однако, похоже, что приверженцы разных направлений вскоре совсем перестали понимать друг друга, чему способствовало появление сложных и различных формализованных описаний задач и полученных решений. Возникли такие направления, как распознавание образов, нейронные сети, системы, работающие со знанями, принятие решений, машинный перевод, робототехника, машинные игры. Кроме того, каждое направление разделилось на поднаправления, стремительно удалявшиеся друг от друга. Например, 5
В те же годы начало развиваться и направление ИНС, поставившее себе целью моделирование процессов, происходящих в нервной клетке-нейроне и в нервной ткани – сети, образованной из нейронов. Нейрон, как устройство, конвергирующее входные воздействия – нервные импульсы, производящее результат тоже в виде нервных импульсов, и дивергирующего его по другим нейронам, стал предметом изучения, как нейрофизиологов, так и кибернетиков. Последние строили различные модели нейрона, не дожидаясь того момента, когда нейрофизиологи предоставят исчерпывающее описание функциональности нервной клетки. И такое нетерпение оказалось оправданным, поскольку долгожданного описания биологической нервной клетки не существует и поныне. Тому имеется две причины. Первая из них связана с миниатюрностью биологического нейрона. У этого «черного ящика» физически трудно измерить и запротоколировать входные и выходные сигналы. Еще более трудно разобраться в структуре нервной сети в нервной системе и мозге, в которых количество нейронов и связей между ними измеряется астрономическими числами. Вторая причина, на наш взгляд, состоит в том, что функция нейрона достаточно сложна, для того, чтобы в ней можно было разобраться вне системного подхода, т.е. без понимания логики работы всей нервной системы. Нейрофизиологи, в принципе, могут не знать, какие из многочисленных свойств нейрона являются ключевыми, на что именно следует обращать внимание для того, чтобы построить его адекватную модель. Каков критерий правильность модели нейрона? Ответа на эти вопросы сейчас нет. Очевидно, что модель нейрона должна обеспечивать правильную работу модели нервной системы, мозга. Но этой модели сегодня нет. Отсутствует понимание функций мозга даже в самом общем виде, как это ни странно звучит. Уверенно называются только некоторые из задач, которые решает нервная система (например, распознавание образов, принятие решений), но комплексное понимание ее работы в целом отсутствует. Даже такие очевидные, как теперь кажется, понятия, как обратная связь, необходимая для управления, были введены в модель нервной системы совсем недавно (Н.Винер, П.К.Анохин). Существуют разные варианты концепций работы мозга, но до консенсуса среди специалистов еще далеко и в наше время. В условиях 40-х гг., когда биологических данных было мало, адекватные модели нейрона предложить было еще труднее. Тем не менее, в 1943 г. одна из моделей нейрона, а именно, модель, предложенная Маккалоком и Питтсом [П1], впоследствии названная формальным нейроном, оказалась сравнительно удачной в следующих отношениях. Модель была логической, что приближало ее к свойствам логических элементов вычислительной техники, т.е. делало ее легко вычислимой. Модель была сравнительно простой. Впоследствии эта модель нейрона претерпела еще большее упрощение и теперь она представляет собой взвешенный сумматор входных сигналов, выходной сигнал которого определяется так называемой активационной функцией, 6
значение которой зависит от указанной суммы. Активационная функция может иметь, например, экспоненциальный вид, либо представлять собой пороговую функцию с двумя значениями 0 и 1. Если n входов нейрона с пороговой функцией понимать как n измерений в признаковом пространстве, то присвоенные этим входам веса определяют в признаковом пространстве гиперплоскость, делящую ее на два подпространства, для одного из которых выходной сигнал нейрона будет равен 1, а для другого 0. Эту гиперплоскость можно интерпретировать как решающую границу элементарной системы распознавания, в которую превращается формальный нейрон, способной распознавать два класса (образа) объектов, представляемых возможными значениями входных векторов. Теперь проблема состоит в том, чтобы подобрать такие значения весов для входов нейронов, которые позволили бы распознавать необходимые образы, представленные в обучающей выборке. Если для заданного множества источников входных сигналов (датчиков) создать однослойный персептрон, т.е. линейку нейронов, на каждый из которых подаются сигналы от всех датчиков, но с различными весами, то получим систему распознавания, способную распознавать классы, разделяемые в признаковом пространстве гиперплоскостями всех нейронов. Если мы хотим получить классы, представленные в признаковом пространстве ограниченными выпуклыми областями, то следует использовать 2-слойный персептрон, где нейроны 2-го слоя будут осуществлять логическую композицию открытых областей. А если класс должен быть представлен ограниченной невыпуклой областью, то необходим 3-слойный персептрон, где нейроны 3-го слоя будут конструировать невыпуклую область из нескольких выпуклых. Были разработаны различные алгоритмы обучения ИНС для автоматического подбора весов нейронов всех слоев многослойного персептрона. Эти алгоритмы могут быть детерминированными, а могут быть стохастическими. Большинство из этих алгоритмов обучения реализуют принцип обучения с учителем. Алгоритм пользуется обучающей выборкой, т.е. заранее известно, какие значения должны иметь выходы ИНС при предъявлении ей того или иного объекта из обучающей выборки. Алгоритм должен иметь возможность наблюдать все фактические выходы ИНС, знать желаемые (целевые) выходы для данного примера обучающей выборки и сравнивать их друг с другом. По результатам сравнения алгоритм корректрует веса всех нейронов ИНС. Настройка ИНС проводится для каждого примера из обучающей выборки и до тех пор, пока ИНС не начнет распознавать все эти примеры с требуемой точностью. Только после этого ИНС считается готовой к использованию для распознавания реальных предъявляемых объектов. Настроенная, обученная ИНС способна распознавать предъявляемые ей новые объекты, относя их к одному из классов, распознаванию которых ее удалось обучить. Проблемы ИНС состоят в том, что алгоритмы обучения весьма трудоемки, и нельзя уверенно утверждать, что при обучении ИНС в конкретном случае будет достигнут успех, например, в приемлемое время (проблемы обучаемости
и представимости). Еще одна проблема связана с тем, что если возникнет необходимость дообучить ИНС еще для одного примера, то ее может постигнуть катастрофическое забывание – ИНС утратит ранее приобретенные навыки и обучение придется начинать сначала для новой расширенной обучающей выборки. Однако в случае успеха, когда ИНС удалось обучить распознавать примеры из обучающей выборки, ее можно использовать для автоматического распознавания образов. Очевидно, что распознавание образов – это интеллектуальная задача. К задаче распознавания можно свести множество задач управления. Это такие случаи, когда заранее известно, что именно система управления должна делать в той или другой ситуации, и остается только одна проблема – правильно распознать текущую ситуацию (класс, образ, сцену). Например, в пропускной системе предприятия заранее известны сотрудники, которых следует пропускать на территорию предприятия, и проблема только в том, чтобы правильно распознавать этих людей. Второе использование ИНС также восходит к распознаванию, это способность ИНС апроксимировать функции. При этом используются нейроны с гладкими активационными функциями, и ИНС можно обучить апроксимировать заданную функцию с заданной точностью. Здесь также стоит задача обучения ИНС, т.е. подбора оптимальных весов для входов нейронов. Этими двумя основными способностями ИНС, позволяющими решать задачи распознавания и апроксимации без производства сложных аналитических расчетов, а лишь за счет обучения ИНС на примерах обучающей выборки, и обусловлен высокий интерес к практическому использованию ИНС. ИНС нашли широкое применение в разных технических системах. Математики и инженеры, стараясь получить максимум пользы из этих способностей ИНС, развили математический аппарат таких ИНС, доказали способности ИНС к обучению и сходимости, изобрели множество различных активационных функций, множество типовых схем соединения нейронов в сети (послойные, полносвязные, прореженные, модульные, с обратными связями и без них), а также множество алгоритмов обучения ИНС. Заметно ощущается то, что в нынешнем своем варианте ИНС приближаются к пределу своих возможностей. При этом, многие специалисты по ИНС давно забыли про биологический прототип своего направления – биологические нейроны и нервные системы. Это отразилось в следующем: a) ИНС в их современном виде мало похожи на биологические нервные системы, на что постоянно указывают нейрофизиологи; b) ИНС решают не те задачи, которые решают биологические нервные системы, мозг, а лишь частные искусственные случаи этих задач; c) формальные нейроны в ИНС работают не так, как биологические нейроны, и выполняют иные функции; d) ИНС достигли своих упомянутых выше ограничений и необходим существенный поворот в их развитии.
7
8
В настоящее время в нейроинформатике все заметнее проявляется смещение акцентов от поиска более эффективных алгоритмов обучения традиционных ИНС к более углубленному изучению свойств биологических нервных систем и нейронов, и к попыткам воспроизведения этих свойств в искусственных нейронных системах. Какие же свойства современных ИНС вызывают неудовлетворение? Вот основные из них в порядке от микро- к макроописанию. 1. В биологическом нейроне большую роль играют временные задержки, например, синаптические. Время в системе управления, на наш взгляд, играет принципиально важную роль, так как оно задает причинно-следственную последовательность событий. В формальных нейронах временные задержки не учитываются. 2. Биологический нейрон, по-видимому, может рассматриваться как самообучаемая система распознавания. Во всяком случае, механизм, определяющий рост синапсов, связан, скорее, с локальными условиями в самом синапсе и в его ближайшем окружении (например, это химический механизм). Маловероятно, чтобы размерами синапсов управляла бы некая система (учитель), наблюдающая выходы всех миллиардов нейронов и знающая «целевой вектор», как это осуществляется в ИНС. 3. Важная информация в выходном сигнале нейрона содержится в частоте генерируемой им последовательности импульсов (спайков). Формальные нейроны не учитывают этого механизма. 4. По нашему убеждению, нейрон является самообучаемой системой автоматической классификации входных пространственно-временных сигналов, способной решать три задачи: обнаружить неслучайные пространственновременные комбинации входных сигналов (образы), если таковые имеются, запомнить их, и распознавать эти комбинации в дальнейшем даже в условиях неполного входного вектора, чем обеспечивается ассоциативность и прогнозирование, необходимые для управления. Современные формальные нейроны представляют собой только обучаемые с учителем системы распознавания. 5. Нервная система и мозг имеют сложную неоднородную структуру с ярко выраженными подсистемами, имеющими различное функциональное назначение. Напротив, современные ИНС отличаются однородностью и регулярной структурой, в них не выделяются части, имеющие разное функциональное назначение. 6. Биологическая нервная система и мозг решают, по нашему убеждению, прежде всего задачу автономного адаптивного управления. Такая задача требует согласованного решения целого комплекса определенных подзадач, к числу которых относятся задачи: автоматической классификации, накопления знаний, вывода новых знаний, принятия решений и других. Задача распознавания образов с предварительным обучением с учителем, к которой, по существу, только и способны ИНС в их традиционном варианте, является только одной из 9
подзадач, решаемых биологической нервной системой. Вместе с тем, мы убеждены, что определение и понимание задачи, решаемой нервной системой и мозгом, как целым, системным образом отразится на понимании функций отдельного нейрона. Вот этот список недостатков ИНС и пытаются преодолеть авторы настоящего сборника. Так, статья д.ф.-м.н. Б.В. Крыжановского и академика А.Л. Микаэляна (Институт оптико-нейронных технологий РАН) «Биологический алгоритм распознавания сильно скоррелированных образов» посвящена указанной выше проблеме создания моделей нейронов, передающих информацию посредством частоты следования выходных импульсов. Именно, авторами проведен анализ распознающей способности нейросети, способной хранить и обрабатывать информацию, закодированную в виде частотнофазовой модуляции. Информативные сигналы в рассматриваемой сети передаются по межнейронным связям в виде квазимонохроматических импульсов на n разных частотах. За основу такой сети принят "параметрический" нейрон – обладающий кубической нелинейностью элемент, способный к преобразованию и генерации частот в процессах параметрического четырехволнового смешения. Показано, что с ростом числа несущих частот помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновременно резко возрастает и объем нейросетевой памяти, которая в n2 раз больше аналогичной величины в стандартной сети Хопфилда. Число образов, которые способна сохранять такая нейросеть, может во много раз превышать число нейронов. Последующие статьи сборника тесно связаны с разрабатываемым в ИСП РАН методом «автономного адаптивного управления» (ААУ) [П1], его нейроноподобной реализацией, его проблемами и практическими приложениями. Перед сборником не ставилась цель дать полное изложение метода ААУ, но чтобы читателю было легче понимать постановки задач, коротко представим метод ААУ здесь. Метод родился из попыток логически и рационально вывести способ действия нервных систем, отталкиваясь от тех условий, в которых они находятся в природе: наличие априори неизвестных свойств окружающей среды наряду с определенной полученной от предков начальной приспособленностью объекта управления и управляющей системы, автономность - необходимость к самообучению, дискретность строения нервной системы,. Мы сочли интересным представить в сборнике статью А.А Жданова., Г.Я. Кантора и А.Б. Эфрона «Логический адаптивный управляющий автомат с конечным числом входов», написанную по материалам задепонированной в 1984 году работы [А.А. Жданов, Г.Я. Кантоp, А.Б. Эфpон, И.Г. Hовикова «Построение гомеостазисного автомата с конечным количеством входных переменных», ВИHИТИ "Депониpованые научные работы", 1984, N2, стp.108, 336. 17 стp.]. Статья интересна не только тем, что это первая публикация по методу ААУ, но и тем, что она до сих пор остается своего рода планом работы по данному направлению. Некоторые из тогда еще только
10
выведенных положений, впоследствии были более удобно формализованы и получили свою реализацию в программных моделях и прикладных программах, в которых подтвердили свою правильность. А некоторые положения еще до сих пор не реализованы и находятся в работе. Наиболее важные моменты этой статьи описывают идеи алгоритмов, осуществляющих «познание» управляющей системой свойств окружающей ее среды, т.е. получение эмпирических знаний. Эти алгоритмы берут свое начало в философской теории познания – гносеологии. Позже в работах над методом ААУ определились такие понятия, как вынужденные целевые функции управления - выживание и накопление новых знаний. Определился состав и структура подсистем управляющей системы, решающих задачи: формирования и распознавания образов, накопления знаний, вывод новых знаний, моделирование эмоций, принятие решений. Попытки дать микроописание системы ААУ привели к представлениям о необходимой функции нейрона, как базового элемента для нейросетевой коннекционистской реализации управляющей системы. Разработанные нами модели нейронов описаны в [П2, П3]. Обладающий высокой универсальностью метод ААУ позволяет строить адаптивные системы управления для самых разных объектов, некоторые из которых представлены в [П4-П7]. Метод ААУ имеет свои проблемы, решению которых и посвящены следующие статьи сборника. Статья М.В. Караваева (ИСП РАН) «Применение нечеткой логики в имитационной системе автономного адаптивного управления» посвящена проблеме построения комбинированных систем управления на основе метода ААУ и других альтернативных хорошо разработанных и известных методов. В данном случае рассматриваются возможности объединения метода ААУ и нечеткой логики. Известно, что системы нечеткой логики родились в результате попытки программно формализовать знания человека-эксперта по управлению объектами, с последующей реализацией этого алгоритма управления на компьютере. Основой нечетких систем управления является запись опыта человека-эксперта в виде так называемых нечетких функций принадлежности. Например, указывается, какие значения угла и насколько именно эксперт связывает с понятием «сильный крен вправо», при распознавании которого он начнет выполнять соответствующий маневр. Нечеткие системы управления состоят в том, что нечеткие правила записываются в память системы управления заранее, а затем, в процессе управления они только используются управляющей системой. Автоматического построения или коррекции таких правил непосредственно в процессе управления в типичных нечетких системах не предусматривается. Тем самым, нечеткие системы не являются системами адаптивного управления в том смысле, который мы используем в системах ААУ. В данной работе М.В. Караваев показывает, как можно объединить технологии ААУ и нечеткую логику, чтобы в адаптивной системе управления автоматически формировать и корректировать базу знаний, представленную с помощью нечетких правил.
11
Тему применения нечеткой логики для построения систем управления продолжает статья В.Б.Новосельцева и Е.А.Романчук из Томского государственного университета «О манипулировании знаниями с использованием нечетких множеств». В работе предлагается удобный формализм для описания нечетких систем и модификация машины логического вывода, что позволяет использовать нечеткую логику при реализации "семантически-ориентированных" комплексов манипулирования знаниями. Статья C. А. Бондаренко, А. А. Жданова (ИСП РАН) и Б.М. Магомедова (ИОНТ РАН) «Принятие решений в автономных адаптивных системах управления, основанное на выявлении закономерных последовательностей действий» представляет результаты первых попыток решения в системе ААУ задачи автоматического обнаружения моделей поведения, описанной в статье А.А Жданова., Г.Я. Кантора и А.Б. Эфрона. Успешное решение этой задачи открывает путь для реализации 2-го и 3-го механизмов принятия решений. Как было сказано выше, обычно современные ИНС имеют некоторую тривиальную регулярную схему, например, каждый нейрон посылает свой выходной сигнал всем нейронам последующего слоя. Такое правило построения сети очень удобно, поскольку является простым. В принципе, оно органично соответствует существу традиционных распознающих ИНС, поскольку в них роль каждого нейрона состоит в делении признакового пространства на две полуплоскости. Это является промежуточной операцией в системе распознавания перед тем, как область, соответствующая распознаваемому образу, будет окончательно сформирована из таких полуплоскостей только в нейронах выходного слоя ИНС. Однако, такая топология не соответствует наблюдаемым свойствам биологической нервной системы. Это связано, по нашему предположению, с тем, что в нервной системе каждый нейрон соответствует отдельному образу (или его некоторой разновидности). В этом случае сеть становится семантической, где каждый нейрон и межнейронная связь имеют содержательный смысл, отражающий реальные взаимоотношения объектов в реальной среде, а такая сеть не может быть тривиально регулярной уже потому, что в реальной природе не может быть все соединено со всем или соединено в некотором тривиальном порядке. Однако и в традиционных ИНС полносвязность (даже межслойная) нейронов в некоторых случаях является излишней и исследователи ищут пути ухода от нее. Метод ААУ, в отличие от ИНС, опирается на то, что каждый нейрон соответствует одному образу, а сеть нейронов имеет содержательную семантику. Поэтому в системе ААУ нейроны могут быть соединены нетривиальным и нерегулярным способом, например, нейрон может получать на входы сигналы от нейронов, принадлежащих различным предыдущим уровням. Но в этом случае возникает непростая задача определения необходимой и оптимальной топологии нейросети для системы ААУ. При построении прикладных систем ААУ топология
12
нейросетей определялась, исходя из априорной информации об объекте управления. Однако было бы крайне желательно иметь обоснованный автоматический или автоматизированный способ определения структуры нейросетей для прикладных систем ААУ. Исследования некоторых авторов настоящего сборника посвящены поиску способов автоматизированного построения нейросетей для систем ААУ. Но, прежде всего, мы считаем целесообразным привести обзорную статью д.ф.-м.н. В.Г. Редько (ИОНТ РАН) «Анализ геометрического метода формирования модульной структуры нейронных сетей», рассказывающую об одном из существующих подходов к решению такого рода задачи, именно – «геометрическому методу», который оказывается достаточно универсальным и может быть применен к широкому классу нейросетевых систем управления. Статья Л.В. Земских, Е.К. Самарова, А.А. Жданова и В. Бабковой «Применение генетических алгоритмов для оптимизации адаптивной системы управления мобильного робота на параллельном вычислительном комплексе» содержит изложение некоторых найденных авторами решений задачи автоматического определения структуры нейросетей для системы ААУ. Здесь авторами также применен бионический подход, согласно которому, состав и структура нервной сети живого организма каждого биологического вида сформировалась в результате длительного естественного отбора на множестве поколений его предков. Программной реализацией такого естесственного отбора является известный метод «генетических алгоритмов», воспроизводящий все основные черты данного принципа оптимизации – кодирование признаков в генах, отбор наиболее удачных особей, взятие от них генетического материала для построения потомков, скрещивание и мутирование генов, генерация нового поколения и т.д. Нам представляется, что генетичсекие алгоритмы являются наиболее перспективным подходом для построения оптимальных (или субоптимальных) нейросетевых систем управления, работающих по методу ААУ. Помимо этого, данная статья представляет результаты решения и еще одной важной задачи, связанной с распаралеливанием вычислений в управляющей системе ААУ. Очевидно, что одно из важнейших отличий нервной системы, как машины для обработки информации, от современного компьютера состоит в том, что компьютер реализует фон- неймановский принцип последовательного выполнения команд программы, в то время как нервная система представляет собой сеть нейронов, работающих параллельно. Данное обстоятельство наделило нервную систему возможностями, многие из которых еще недоступны современным вычислительным машинам. В частности, несмотря на то, что отдельный нейрон работает не так уж и быстро, а скорость проводимости нервных импульсов по нервным волокнам не так уж и велика, мозг с огромной скоростью решает сложнейшие задачи распознавания, принятия решений и другие. Сегодня существуют технологии, позволяющие тем или иным способом организовывать параллельные вычисления. Конечно, достичь такой степени распараллеливания, которая имеет место в биологических нервных системах, удастся еще не скоро, поскольку отдельный нейрон слишком мал, а количество их 13
слишком велико для того, чтобы работу каждого нейрона реализовывать отдельным процессором. Однако уже сегодня можно предложить разные способы реализации систем ААУ на параллельных вычислительных системах, что и сделано в статье Л.В. Земских, Е.К. Самарова, А.А. Жданова, В.В. Бабковой (ИСП РАН). Модели нейронов и нейросетей в системе ААУ имеют мало общего с традиционными ИНС, как это следует, например, из сделанного выше описания системы ААУ. Однако авторы сборника постоянно предпринимают попытки найти способы объединения технологии ААУ и ИНС. В случае успеха это позволило бы взаимно обогатить обе технологии, заинтересовать и привлечь к исследованиям новых специалистов. Несмотря на то, что основные подходы в ИНС требуют предварительного обучения сети, что противоречит идее адаптивного управления, а также на то, что ИНС обладают проблемой катастрофического забывания, проявляющегося при попытке частичного переобучения или дообучения сети, было бы очень полезно найти способы обхода этих проблем. Основные посылки к поиску удачного решения состоят, по нашему мнению, в том, что а) некоторые виды ИНС, например, сети, построенные на основе теории адаптивного резонанса, все же способны к самообучаемости, т.е. имеют свойство адаптивности, и б) основные подсистемы системы ААУ можно, по-видимому, построить на основе самообучаемых систем распознавания. К данному направлению исследований относится статья А. В. Сыцко (ИСП РАН) «Система управления автономным мобильным роботом на основе адаптивного резонанса», которая представляет первые удачные попытки построения системы ААУ с использованием традиционных ИНС. Еще одним направлением, в котором авторы сборника ищут пути объединения метода ААУ с пограничными технологиями, является использование в системах ААУ теории детерминированного хаоса. Интерес к этому направлению вызван тем, что детерминированные хаотические системы, на наш взгляд, обладают одним весьма важным и удобным для адаптивного управления свойством, а именно - способностью в компактном и взаимосвязанном виде, имеющем, к тому же, свойства аттрактора, представлять очень длинные стринги данных, и распознавать их по предъявлению только небольшого фрагмента данных, причем не обязательно точных, а лишь попадающих в поле притяжения аттрактора. Идея применения детерминированного хаоса в системах ААУ связана с тем, что в виде аттрактора запоминаются определенные по смыслу протяженные фрагменты история эволюции объекта управления. Таким фрагментом может быть закономерная последовательность событий, вынужденно следующая при определенных условиях за тем или иным решением, предпринятым управляющей системой ААУ. Способность распознать такой фрагмент при предъявлении только его начальных шагов (условия) и планируемого действия вызывает в системе прогноз будущих событий (следствия), на основании которого и можно строить процедуру принятия решений. Текущие результаты наших исследований в этом направлении представлены в статье А.Е. Устюжанина
14
«Совмещение подходов адаптивного управления и детерминированного хаоса для построения эффективных автономных управляющих систем». Статья Д.Б. Липкевича и А.А. Жданова «AdCAS - система автономного адаптивного управления активной подвеской автомобиля» представляет один из результатов практического приложения метода ААУ. Прототип адаптивной системы управления активной подвеской автомобиля разработан в ИСП в ходе выполнения проекта AdCAS с компанией ATS Soft [П8]. Эта прикладная система управления построена с соблюдением всех специфических моментов, определяемых методом ААУ. Она демонстрирует способность адаптироваться в реальном времени управления к текущим свойствам управляемого ею автомобиля, и способствовать повышению устойчивости и управляемости автомобиля, подтверждая то, что метод ААУ является многоцелевым и многокритериальным. Обсуждение этого результата со специалистами показало, что аналогичного результата по управлению подвеской трудно добиться на основе других методов управления. Именно, нейросети и нечеткие системы требуют предварительного их обучения. Экспертная система не применима в условиях данного требуемого высокого быстродействия и необходимости автомаического переучивания. Управление на основе математических моделей объекта управления затруднительно в силу чрезмерной сложности построения модели автомобиля с учетом всех его осциллирующих и нелинейных элементов и изменчивости свойств в процессе движения. Статья представляет и принцип управления системы AdCAS и результаты компьютерных ее испытаний. Другое приложение метода ААУ представлено в статье А. Антипова «Применение метода ААУ к прогнозированию временных рядов». Многие практические задачи управления связаны с анализом и прогнозированием временных рядов данных. Одной из такого рода задач является анализ рынка ценных бумаг, на основании результатов решения которого принимаются те или иные действия или стратегии управления. Задача анализа временных рядов данных существенно усложняется, если объект, который характеризуется наблюдательными данными, непредсказуемо изменяет свои свойства. В этом случае решение могут дать адаптивные методы управления. Одна из главных трудностей здесь состоит в наличии очень большого числа степеней свободы, которые могут оставаться в системе даже после учета всей имеющейся априорной информации. Такого рода проблема связана, например, с определением рабочего словаря признаков, связанного с составом и рабочими характеристиками используемых датчиков. В статье показано, как можно автоматически настраивать признаковое пространство для системы ААУ с помощью метода конечных автоматов, основанных на работах Цетлина, Неймарка и Рапопорта.
очень удачным объектом для отработки системы ААУ и вариантов построения ее подсистем. Мы надеемся, что работы, посвященные этому роботу, составят следующий сборник. Хотим также выразить свою благодарность чл.-корр. РАН В.П. Иванникову, поддерживающему возможность продолжения исследований в данной области, а также всем сотрудникам отдела, аспирантам и студентам, принимавшим участие в работах и проектах отдела [П9]. Заведующий Отделом имитационных систем ИСП РАН, д.ф.-м.н. А.А. Жданов
Литература [П1] McCulloch W. W., Pitts W. 1943. A logical calculus of the ideas imminent in nervous activiti. Bulletin of Mathematical Biophysics 5:115-33. (Русский перевод: Маккаллок У. С., Питтс У. Логическое исчисление идей, относящихся к нервной деятельности. Автоматы. – М.: ИЛ. – 1956. [П2] Жданов А. А., Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134. [П3] Zhdanov A.A., A.V. Ryadovikov. Neuron Models in the Autonomous Adaptive Control Method//Optical Memory and Neural Network, Allerton Press, Inc., Vol. 9, No 2, 2000, pp. 115-132. [П4] Жданов А. А., Норкин Н. А., Гуриев М. А. Некоторые практические приложения метода автономного адаптивного управления // Сб. научн. тр. Искусственный интеллект в технических системах. Вып. № 19.- М.: Гос.ИФТП. 1998. С. 72-99. [П5] Alexander Zhdanov, Maxim Karavaev and Helen Maklakova, Claire Medigue, Michel Sorine. Simulation of control mechanisms in the cardio-vascular system. FrenchRussian A.M. Liapunov Institute for Applied Mathematics and Computer Science. Transactions. Vol. 4. Pp. 233-245. Moscow. 2003. [П6] А.А. Жданов, М.В. Крыжановский, Н.Б. Преображенский. Бионическая интеллектуальная автономная адаптивная система управления мобильным роботом (часть 1) // Мехатроника, 2004, №1, С. 21-30, (часть 2), №2, С.17-22. [П7] Жданов А.А. Земских Л.В. Беляев Б.Б. Система стабилизации углового движения космического аппарата на основе нейроноподобной системы автономного адаптивного управления. Космические Исследования, 2004, т. 42, №3, М.: 2004. С. 1-15. [П8] http://www.atssoft.com/ [П9] http://www.ispras.ru/groups/aac/aac.html
В некоторых статьях сборника в качестве примера объекта упрвления использована программная модель мобильного робота. Этот объект был выбран из-за его наглядности и возможности перехода в будущем к реальной физической модели. Данная компьютерная модель робота, которую авторы назвали «Гном №8», оказалась
15
16
сумма поступающих на блок подавляющих и возбуждающих сигналов больше некоторого порога, то блок работает по принципу "все или ничего" или выдает частоту, соответствующую количеству и временному порядку принятых сигналов.
Биологический алгоритм распознавания сильно скоррелированных образов
случайные связи
случайные связи
Академик А.Л.Микаэлян, Б.В.Крыжановский ретина
Работа выполнена при поддержке РФФИ (проекты №02-0100457, №01-07-90134) и программы "Интеллектуальные компьютерные системы" (проект 2.45).
область ассоциации
отклики R1 R2
Rn
Аннотация. Проведен анализ распознающей способности нейросети, способной хранить и обрабатывать информацию, закодированную в виде частотно-фазовой модуляции. Информативные сигналы в рассматриваемой сети передаются по межнейронным связям в виде квазимонохроматических импульсов на n разных частотах. За основу такой сети принят "параметрический" нейрон – обладающий кубической нелинейностью элемент, способный к преобразованию и генерации частот в процессах параметрического 4-волнового смешения. Показано, что с ростом числа несущих частот помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновре2
менно резко возрастает и объем нейросетевой памяти, которая в n раз больше аналогичной величины в стандартной сети Хопфилда. Число образов, которые способна сохранять такая нейросеть, может во много раз превышать число нейронов.
Стандартные нейронные сети не приспособлены для распознавания сильно скоррелированных образов и так называемых biased patterns. Помимо этого они обладают малым объемом памяти. Так например, сеть Хопфилда [1] может хранить всего лишь M N / 2 ln N рандомизированных N-мерных образов. При наличии корреляции между образами объем памяти (M) резко уменьшается. Имеющиеся отдельные алгоритмы для распознавания похожих образов, например метод проекционной матрицы [2], достаточно сложны, и не позволяют ввести простое обучающее правило, обладающее биологическим принципом локальности [3]. В то же время, человек достаточно легко выделяет образ среди множества похожих даже при наличии больших искажений. Такую способность можно объяснить, положив в основу модели распознавания принципы функционирования описанного Розенблатом [4] биологического фото-перцептрона: а). Воздействия попадают на ретину (рис.1), которая в одних моделях работает по принципу "все или ничего" (т.е. выдает одиночные импульсы при надпороговых воздействиях), а в других моделях - по принципу частотной или амплитудной модуляции. б). Импульсы передаются в область ассоциации, представляющую собой набор связанных между собой блоков. Если алгебраическая
17
Рис. 1. Биологический фото-перцептрон. Пунктиром выделена часть, моделируемая векторной нейросетью.
Из возможных вариантов формального описания биологического модели мы выберем один, наиболее оптимальный с нашей точки зрения. Во-первых, мы постулируем бинарность сигналов, формируемых в ретине, и случайный характер их передачи в ассоциативную область. Во-вторых, мы примем, что в блоках ассоциативной области формируются частотно-модулированные сигналы, которыми эти блоки и обмениваются. В принятых допущениях распознавание образа можно, условно, разбить на два этапа. На первом, набор бинарных сигналов по случайным связям попадает на блоки ассоциативной области, где преобразуется в набор частотно-модулированных сигналов, т.е. набор векторов. На втором этапе, происходит распознавание образа ассоциативной памятью: блоки ассоциативной памяти обмениваются частотно-модулированными (векторными) сигналами до тех пор, пока система не придет в стабильное состояние, соответствующее распознанному образу. Как будет видно далее, преобразование набора бинарных сигналов в набор векторных сигналов - это достаточное условие подавления негативного влияния корреляции на распознавание образов. Формальное описание этого процесса приведено в следующем пункте. Для описания работы ассоциативной области мы используем параметрическую модель нейронной сети, способной обрабатывать информацию, закодированную в виде частотно-фазовой модуляции [5]. За основу такой сети принят "параметрический" нейрон [6] – обладающий кубической нелинейностью элемент, способный к преобразованию и генерации Q частот в процессах параметрического четырехволнового смешения. Параметрическим нейроном мы будем моделировать работу целого блока ассоциативной памяти. Такой подход обоснован практически установленным фактом, что базовыми функциональными элементами, отвечающими за высокоуровневую деятельность
18
коры головного мозга, являются так называемые корковые колонки (блоки): сильно связанные группы нейронов, обладающие коллективными свойствами и способные к
вектор x 2 e1 . Соответствующее отображение примет вид Y X (x1 , x 2 ) . Существенно, что описываемое отображение взаимно однозначно, т.е. распознав отображе-
смешению частот и обработке частотно-модулированных сигналов (см. [7-10]). В [11] показано, что набору из Q частот можно поставить в соответствие набор Q ортогональ-
ние X можно однозначно восстановить его бинарный прообраз Y. Еще более существенно то, что процедура отображения практически сводит на нет имеющиеся корреля-
ных векторов и описание параметрической нейросети, оперирующей частотномодулированными сигналами, свести к описанию системы взаимодействующих спинов. Поэтому, дальнейшее описание мы проведем на языке векторной (спиновой) модели, более привычном для нейронных сетей. Формализм предлагаемой модели описан в п.3.
ции. Например, рассмотрим два бинарных фрагмента (0000000001) и (0000000011),
Мы покажем, что параметрическая нейросетевая модель, соответствующая описанной выше биологической модели, обладает огромным объемом памяти и способностью распознавать образы даже при исключительно больших искажениях и наличии корреляции. Суть предлагаемого здесь формального описания состоит в следующем. Пусть имеется семейство N-мерных бинарных векторов {Ym}, (m=1,2,…,M), искаженные образы которых предстоит распознавать. Необходимая для этого ассоциативная память организуется следующим образом: каждому образу Ym из пространства RN ставится в однозначное соответствие образ Xm в неком пространстве большей размерности; на семействе {Xm} строится ассоциативная память в виде описываемой ниже векторной нейросети. Процесс распознавания производится в следующем порядке: распознаваемый бинарный вектор YRN отображается в образ X и отображение предъявляется для распознавания векторной нейросети; при необходимости производится обратное отображение распознанного образа из в изначальное N-мерное пространство. Таким образом, задача распознавания большого числа бинарных коррелированных векторов сводится к задаче распознавания их отображений. Алгоритм отображения, позволяющий использовать векторную модель для распознавания сильно скоррелированных бинарных векторов, состоит в следующем. Пусть имеется некий N-мерный бинарный вектор Y ( y1 , y 2 , ..., y N ) . Мысленно разделим его на n фрагментов, содержащих по k+1 элементов каждый. Отдельный фрагмент можно рассматривать как целое число q , записанное в двоичном коде: первый элемент фрагмента определяет знак (0 - знак "минус", 1 - "плюс"), а остальные k элементов величину q (параметр k будем называть параметром отображения). Теперь фрагменту поставим в соответствие вектор x e q , где e q - это q-й орт некоторого Q-мерного пространства (Q=2k). Тем самым, всему образу YRN в целом ставится в однозначное соответствие набор Q-мерных векторов, т.е. образ X (x1 , x 2 , ..., x n ) . Например, вектор Y=(01001001) можно разбить на два фрагмента по четыре элемента (0100) и (1001). Первому фрагменту (это "4" в двоичном коде) ставим в соответствие вектор x1 e 4 в пространстве размерностью Q=8, а второму (это "+1" в двоичном коде) -
19
скоррелированных на 90%. Отличие фрагментов в одном только элементе приводит полному исчезновению корреляции между их отображениями в пространстве , каковыми являются различные орты e1 и e 2 соответственно. Рассмотрим полносвязную нейронную сеть из n нейронов, описываемых единичными векторами x i xi e (iq ) , где x i 1 , e (iq ) - орт Q-мерного пространства, i 1,2,..., n . Со-
стояние сети как целого определяется набором таких векторов X (x1 , x 2 , ..., x n ) . Гамильтониан сети зададим в виде [11], аналогичном модели Хопфилда H 12
n
x
i , j 1
i
Tˆij x j
M
Tˆij (1 δ ij ) x mi x mj
,
(1)
m 1
где x i - вектор-столбец, x i - вектор-строка, а величина межсвязи Tˆij между i-м и j-м нейронами - q q матрица, построенная по аналогии с обучающим правилом Хэбба
[3] на эталонных образах X m (x m1 , x m 2 ,..., x mn ) , m 1, 2, ..., M . Сеть (1) удобно интерпретировать как систему взаимодействующих Q-мерных спинов и использовать соответствующую терминологию. С учетом (1) входной сигнал на i-й нейрон, т.е. локальное поле действующее на i-й спин со стороны сети, запишется в виде: N
Q
j 1
q 1
h i Tˆij x j Aq(i ) e q
,
N
Aq(i ) j i
M
(e m 1
q
x mi )(x mj x j )
(2)
Динамика физической системы определяется естественным образом: i-й спин под воздействием магнитного поля h i принимает положение, наиболее близкое к направлению этого поля, т.е. состояние i -го нейрона в момент времени t 1 описывается выражением:
x i (t 1) s e max ,
(i ) s sign[ Amax (t )]
(3)
где индексом max обозначена максимальная по модулю амплитуда Aq(i ) Aq(i ) (t ) в разложении (2). Динамика системы в целом состоит в последовательном измении
20
состояний нейронов по правилу (3) и соответствует понижению энергии системы в процессе ее функционирования, т.е. алгоритм (3) сходится. Определим, насколько эффективно такая нейросеть распознает искаженные образы. Пусть на вход системы подан искаженный m-й образ, т.е. начальные состояния нейронов сети заданы в виде x i aˆ i bˆi x mi , где aˆ i - оператор мультипликативного шума, который с вероятностью a изменяет знак амплитуды x mi вектора x mi x mi e mi и с вероятностью 1 a оставляет его неизменным, оператор bˆ - с вероятностью b заменяет орт i
e mi {e q } на любой иной из набора {e q } и с вероятностью 1 b оставляет его неизменным. Сеть правильно распознает эталонный образ X m , если выход i-го нейрона, определяемый выражением (3), будет x i x mi . В противном случае произойдет ошибка распознавания, т.е. сеть вместо X m распознает иной образ. Для вероятности P этой ошибки, используя метод Чебышева-Чернова [13], детально описанный для данного рода задач в работах [5,6], получим: nQ 2 P n exp (1 2a ) 2 (1 b) 2 2 M
(4)
Полученное неравенство устанавливает верхнюю границу для средней вероятности ошибки в рассматриваемой нами нейронной сети с параметрами (n; M ; Q; a; b) . С ростом n эта граница сходится к нулю всякий раз, когда величина M как функция n растет медленнее, чем
M nQ 2
(1 2a ) 2 (1 b) 2 2 ln n
(5)
Из (5) видно, что с ростом Q помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновременно резко возрастает и объем нейросетевой памяти, в Q 2 раз больший чем в сети Хопфилда. Рис.2 демонстрирует большой объем памяти и высокую помехоустойчивость на примере сети из 180 нейронов с Q=32, в памяти которой записано 360 образов (32-цветных изображений), один из них - стилизованная буква "А". Сеть надежно распознает образ "А", у которого искажено 90% компонент за один цикл. При меньших искажениях (b70%) эта же сеть распознает до 1800 образов. Обратимся теперь к проблеме распознавания бинарных образов. Задав некоторое значение параметра деления k и применив описаное выше отображение к набору бинарных векторов Ym R N , m 1, M , получим соответствующий набор образов X m , на основе которых построим векторную ассоциативную память с параметрами: число нейронов векторной сети - n N /( k 1) , число состояний векторного нейрона - Q 2 k . Анализ проведем на примере "тенденциозных" образов (biased patterns), компоненты которых y mi - случайные величины, принимающие значения 1 и 0 с вероятностями (1 α) / 2 и (1 α) / 2 соответственно, ( 1 α 1 ). Пусть нам предстоит распознать ис~ каженный m-й образ Ym ( s1 y m1 , s 2 y m 2 ,..., s N y mN ) , где случайная величина si с вероятностью p изменяет значение бинарной переменной y mi и с вероятностью 1 p оставляет ее неизменной. Отображением этого вектора в пространстве является искаженный ~ m-й образ X m , который и предъявляется для распознавания векторной нейросети. Выражая мультипликативные шумы a и b, покрывающие отображение, как функции параметра p и подставляя соответствующие выражения в (4) для вероятности ошибки ~ распознавания искаженного отображения X m получим:
Это дает основание рассматривать величину (5) как асимптотически достижимую мощность ассоциативной памяти анализируемой нейронной сети. Сравнение (5) с аналогичными выражениями для параметрической оптической модели [5] и модели Поттса [12] показывает, что предложенная модель имеет в два раза больший объем памяти и, при прочих равных параметрах, может распознавать образы, искаженные на 20-30% сильнее. t=0
t=90
ν P n exp (1 α 3 μ ) 2 2 μ
(6)
где ν n(1 2 p) 2 (1 p) k ,
μ MA k /(1 p) k ,
A (1 α 2 )[1 α 2 (1 2 p)] / 4 .
При k=0 выражение (6) описывает функционирование модели Хопфилда. Анализ (6)
t=180
для данного случая показывает, что даже в отсутствие корреляций ( α 0 ) объем памяти не превышает относительно малого значения M 0 N / 2 ln N . А наличие даже небольшой корреляции ( α N 1 / 3 ) уменьшает число распознаваемых образов до велиРис.2 Распознавание буквы "А" , у которой искажены 90% пикселов (выделены серым цветом).
чины порядка α 3 , т.е. сеть практически перестает выполнять функции ассоциативной памяти.
21
22
С ростом параметра отображения k картина резко меняется. Сеть начинает функционировать как векторная модель, т.е. резко повышается объем памяти и снижается влияние корреляции. В частности, при небольших корреляциях, когда α 3 ν , для объема памяти из (6) получаем оценочное выражение: M M 0 [(1 p ) 2 / A] k
При большей корреляции, когда α 3 ν , объем памяти несколько ниже:
M α 3 [(1 p ) / A] k Однако и в том, и в другом случаях с ростом k имеет место экспоненциальный рост числа распознаваемых образов (рис.3) и рост надежности распознавания. На рис.4 показано, как с ростом параметра отображения спадает до нуля вероятность ошибки распознавания (кривые построены для корреляций =0.1, 02, 0.5, 0.6 при M/N=2 и искажениях p=20% ). Как видим, при достижении некоторого критического значения параметра отображения k вероятность ошибки резко спадает, т.е. негативное влияние корреляции резко уменьшается.
Рис.4 Уменьшение ошибки распознавания с ростом параметра отображения k
Как видим, соответствующая биологическому прототипу параметрическая модель де монстрирует большойpобъем памяти и способность распознавать похожие образы. Основное допущение при моделировании состояло в том, что бинарные сигналы от фоторецепторов преобразуются в частотно-модулированные сигналы, которыми оперирует ассоциативная память. В проведенном выше анализе мы никак не использовали случайность связей между ретиной и ассоциативной областью, хотя она может играть большую роль в декорреляции распознаваемых образов. Действительно, в большинстве случаев образы заполняют сплошь целые фрагменты рецептивного поля и топологическое отображение в векторное пространство при небольшом значении параметра k не приводит к декорреляции. Однако, случайность передачи сигналов от рецепторов в ассоциативную область сводит на нет такую корреляцию. На алгоритмическом языке сказанное означает, что нумерацию компонент бинарных векторов полезно производить случайным образом, чтобы избежать фрагментарной корреляции. Очевидно, что процесс распознавания образов мозгом значительно сложнее рассмотренной выше модели. Однако, если эта модель хоть как-то соответствует реальности, то можно утверждать, что размер биологической ассоциативной памяти и ее распознающая способность на порядки выше оценок, предлагаемых бинарными моделями, не учитывающими частотно-модулированный характер кодировки информации.
Рис.3 Рост объема памяти с ростом параметра отображения k (p=0.1 ÷ 05).
23
24
Действительно, нейронная колонка коры головного мозга (в нашей модели - это Qмерный нейрон) содержит около 100 нейронов, соединенных возбуждающими и тормозящими связями, и может генерировать сигналы на различных частотах, число которых можно оценить как Q20÷40. Как следует из (5), при таком количестве частот ассоциативная память из таких колонок имеет огромный объем. Даже при весьма умеренном числе частот Q10 объем ассоциативной памяти почти на два порядка превышает значения, характерные для сетей Хопфилда (см. рис.3). Проведем некоторые оценки. Характерный линейный размер нейронной колонки порядка 400мкм. При скорости распространения сигналов по межсвязям ~0.1м/с возбуждение за время ~1.5мс (длительность нервных импульсов) охватывает пространство с линейными размерами ~1мм, на котором размещается порядка n~30÷50 колонок, вовлекая их в процесс одновременного возбуждения и анализа информации. Это означает, что участок коры головного мозга площадью ~1мм2 способен запомнить M~103÷104 бинарных 150-мерных образов и в течение нескольких милисекунд распознавать один из них.
Литература 1. Hopfield J.J. //Proc.Nat.Acad.Sci.USA. 1982. V.79. P.2554-2558. 2. Personnaz L., Guyon H., Dreyfus G.// Phys.Rev.A. 1987. V.34. P.4217-4227. 3. Hebb D.O. The Organization of Behavior. N.Y.: Wiley, 1949. 4. Rozenblatt F. //Psychological Review. 1958. V.65. P.368-408. 5. Крыжановский Б.В., Микаэлян А.Л.// ДАН. 2002. Т. 383, №3, с.318-321. 6. Kryzhanovsky B.V., Mikaelian A.L. et al.// Opt.Mem.&Neural Nets. 2001. V.10. P.211218. 7. Annios P.A., Beek B., Csermely T.J. and Harth E.M..// J.Theor.Biol.. 1970. V. 26. P.121148. 8. Usher M., Schuster H.G.and Neibur E.//Neural Computation. 1993.V.5, P.370-386. 9. Farhat N.// SPIE’2000, San-Diego, 2000. P. 158-170,. 10. Hoppensteadt F.C., Izhikevich E.M.//IEEE Trans.Neural Nets. 2000. V.11. P.734-738. 11. Крыжановский Б.В., Литинский Л.Б.// Искусственный интеллект. 2002. Т.4. C.710718. 12. Kanter I. // Phys.Rev.A. 1988. V.37(7). P. 2739-2742. 13. Chernov N. //Ann. Math. Stat. 1952. V.23. P.493-507.
25
воздействию yi{Y} соответствует строго определенное изменение состояния множества {X} параметров по таблице этого автомата (Табл. 1).
Логический адаптивный управляющий автомат с конечным числом входов1
СРЕДА
{X} …
Жданов А.А., Кантор Г.Я., Эфрон А.Б. …
Аннотация. Рассматривается структура логического автомата с гомеостазисной стратегией поведения, вытекающая из допущения, что количество переменных, описывающих динамику среды, значительно превышает количество входных переменных автомата, которые в свою очередь должны дифференцироваться, в частности, на контролируемые и неконтролируемые. Информационный подход к моделированию высшей нервной деятельности предполагает дискретное представление этих процессов. Основаниями для этого служат, с одной стороны - наблюдаемый на практике дискретный характер физиологических процессов в нервной системе, а с другой – дискретный характер логики. Однако дискретному представлению величин присущи понятия конечности и размерности. Это относится и к множествам элементов, участвующих в информационно-логических процессах управляющей нервной системы (УНС). Представляется существенным, что учет размерностей и конечности множеств приводит к соответствующей качественной организации УНС и необходим при ее моделировании.
…
{Y}æ {Y} {X}M
СУБЪЕКТ
Рис. 1. Представление среды и субъекта в виде логических автоматов со следующими переменными: {Y} - воздействия, которые можно оказать на среду, {Y}æ - воздействия, которые может оказать на среду субъект, {X} - параметры среды, изменяющиеся при совершении воздействий, {X}M - параметры среды, каким-либо образом воздействующие на субъекта. Код воздействия
В нашей работе рассмотрены структурные особенности УНС, которые вытекают из ее дискретного характера. Предполагается, что конструктивно закрепленной стратегией субъекта (так будем называть объект, управляемый УНС), является обеспечение гомеостазиса, а закономерности среды, в которой существует субъект, также могут иметь дискретное представление. Философским обоснованием последнего допущения может служить необходимое тождественное соответствие отражаемого и отражающего объектов.
Воздействие на среду y1 y2 y3 … y2 N
Реакция среды x1 x2 x3 … xN
y1
1 0 0 …
0
-1 -1 -1 … -1
y2
0 1 0 …
0
-1 -1 -1 … +1
… y2 N
…
… …
0 0 0 …
1
+1 +1 +1 … +1
Опишем динамические свойства среды в терминах логического двоичного автомата с базисом (+1, -1), у которого имеется множество {Y} входов, размеренность которого 2N и множество {X} выходов, размеренностью N (рис. 1). Каждому определенному Таблица 1. Закон соответствия реакций среды на возможные воздействия на нее.
1 По материалам статьи А.А. Жданов, Г.Я. Кантоp, А.Б. Эфpон, И.Г. Hовикова. Построение гомеостазисного автомата с конечным количеством входных переменных. (Депонированная работа) ВИHИТИ "Депониpованые научные работы", 1984, N2, стp.108, 336. 17 стp.
27
28
Код поступка
y4
y3
y2
y1
{R}p x1 x2
y1
0
0
0
1
-1 -1
y2 *
0
0
1
0
-1 +1
y3
0
1
0
0
+1 -1
y4
1
0
0
0
+1 +1 **
Например, часть из них ни разу не была возбуждена каким-либо воздействием, и можно сказать, что только {R}p - часть от {X}P параметров «контролируется» субъектом. С другой стороны, некоторые воздействия из {X}M, не вошедшие в {X}P, тоже контролируются субъектом, который с помощью каких-либо инструментов переводит данные воздействия в форму, доступную для некоторых рецепторов. Поэтому контролируемые параметры составляют множество {X}p. Имеют место следующие соотношения множеств изображенных на рисунке 1. {X}M {X},
**
контур выделяет запрещенную комбинацию изменений параметров, т.е. запрещенный поступок.
{R}p = {X}p {X}P ,
*
выбранному поступку, например y2, соответствуют следующие возможные комбинации
{X}p {X}P {X}M .
x1 x2 y2
x3 x4 … xP
-1 +1 -1 -1 … -1
УНС
-1 +1 -1 -1 … +1 . . .
…
{X}M
-1 +1 +1 +1 … +1
{R}p
{X}
{X}p
{X}P
Таблица 1а. Известная субъекту часть таблицы 1. Субъект, как часть среды, также может быть представлен в виде логического автомата (рис. 1). Входным множеством по отношению к субъекту является множество {X}M параметров, принадлежащие {X}, выходным является множество {Y}æ поступков, принадлежащее {Y}, æ ≤ 2M. Необходимый в рамках принятой стратегии закон поведения этого автомата является предметом нашего рассмотрения. Следует отметить, что остаток (разность множеств) {X} \ {X}M замыкается непосредственно на {Y} или частично на других субъектов, которые также могут воздействовать на среду частью множества {Y} воздействий. Рассмотрим подробнее множество {X}M воздействий, относящихся к субъекту. Очевидно, что часть из них - {X}P наиболее важная для жизни, у приспособившихся к ней субъектов (организмов) снабжена соответствующим количеством Р рецепторов, которые являются началом Р цепей УНС. Все Р цепей потенциально могут активно участвовать в управлении субъектом. Однако у конкретно взятого субъекта, имеющего конкретную историю жизни, до настоящего момента времени не все Р цепей участвовали в управлении. 29
Рис. 2. Отношение субъекта к параметрам среды. {X} - параметры среды. {X}M - параметры воздействующие на субъекта, {X}P - параметры, которым у субъекта соответствуют рецепторы (зачерченные треугольники), {R}p - рецепторы (параметры), непосредственно контролируемые субъектом, {X}p - контролируемые субъектом параметры. Остановимся пока на воздействиях {X}P, попадающих на рецепторы. Поскольку управляемый субъект, в главном, приспособлен к параметрам влияющих на него воздействий среды, то значительно большее значение для УНС имеет информация об изменениях амплитуды этих воздействий, поскольку именно она дает представление о динамических законах среды (Табл. 1). Поэтому только информация об изменениях воздействий должна передаваться в цепи УНС, что проще и в техническом смысле, чем передача информации об абсолютных значениях воздействий. Приращения различных
30
воздействий выявляются соответствующими рецепторами и кодируются одинаковыми по своему физическому представлению сигналами, например, +1 или –1. Известно, что по такому принципу, называемому дельта-модуляцией, работают, в частности, ганглиозные клетки сетчатки глаза, система волосковых, рецепторных и нервных клеток слуховой структуры. Суммируя такие сигналы, поступающие по данной цепи последовательно во времени, и зная «вес» информации, контролируемой данным рецептором, можно получить некоторую сумму – аналог абсолютного значения внешнего воздействия в данный момент времени. Механизм придания «веса» различным входным цепям имеет, как будет рассмотрено ниже, весьма большое значение в деятельности УНС. Здесь отметим, что это – первое преобразование, которое выполняется в УНС с поступающей по цепи от рецепторов информацией в виде единичных импульсов. Запишем сигнал в j-й цепи после присваивания ему веса рj как рj xj(t),
где xj(t) = xj(t) - xj(t-1) = (+1) (-1),
а xj {X}P.
В УНС, как отмечалось выше, должен быть аналог абсолютных значений входных воздействий. Ими являются накапливаемые во времени по каждому каналу j суммы Rjt = t рj xj(t), образующие множество {R}p , где сумма берется по t от t = 1 до t = tнаст. Такие суммы могут использоваться для двух целей. Во-первых, они дают представление о степени соответствия абсолютного значения j-го внешнего воздействия допустимым для субъекта значениям. Соответствие устанавливается при сравнении Rjt с некоторой j-й шалой, определяющей области «комфортных», «дискомфортных» и недопустимых значений Rjt. Такие шкалы должны иметь место в УНС благодаря генотипу, т.е. быть жестко заданными в конструкции УНС. Во-вторых, {R}p после сравнения со своей шкалой используется для определения некоторой оценки общего состояния субъекта, т.е. того функционала от параметров, который обычно максимизируют в таких задачах. Назовем этот функционал «эмоциональной оценкой общего состояния» Eэt. Eэt = j Rjt . Для управления поведением необходимо также иметь приращение Eэt, т.е.
времени в областях памяти, которые назовем «Память Эмоциональных Состояний» и «Память Эмоциональных Приращений». Вернемся к множеству значений параметров {R}P и вспомним, что в управлении участвуют не все Rj из {R}P, а только их часть {R}p. В самом деле, ребенок от рождения не испытавший перегревания или переохлаждения при выборе поступков до некоторого времени не принимает во внимание температурного параметра. Основной процесс выбора субъектом поступка воздействия на среду состоит в том, что субъект выбирает по известной ему части Таблицы 1 такой поступок yi, который приведет к желаемому изменению состояния контролируемых параметров {X}p. Желаемым изменением является конструктивно закрепленное стремление передвинуть значение каждого параметра Rjt по возможности во все более «комфортную» область, при этом изменениям в первую очередь должны подвергнуться параметры, находящиеся в наиболее «дискомфортном» состоянии. Процесс отыскивания и упорядочивания параметров по убыванию их «дискомфортности» – это процесс последовательный, совершаемый УНС с конечной скоростью. Однако на выбор поступка субъекту отводится конкретный отрезок времени Т, который определяет количество k наиболее дискомфортных параметров, которые можно будет учесть при выборе поступка, k T / t. Для передачи в УНС временного параметра T в конструкции субъекта не существует «черного хода». Время T является внутренней величиной, вырабатываемой самой УНС и, по необходимости, у жизнеспособного субъекта должно быть адекватно объективным потребностям. Для выработки величины k = T / t в УНС используется функционал Eэt и его приращение Eэt, а более точно – их отображения Sэt и Sэt, полученные от сравнения Eэt и Eэt с их закрепленными в УНС шкалами, определяющими комфортные и дискомфортные области значений Eэt и Eэt. Функция f, выражающая зависимость k = T/t = f (Sэt , Sэt) грубо может быть представлена поверхностью, изображенной на рисунке 3. Вид функции f (Sэt , Sэt) не обязательно монотонный и варьируется у различных субъектов, определяя, возможно, их темперамент – сангвинический, холерический и т.д.
Eэt = Eэt - Eэ(t-1) . Механизм влияния Eэt и Eэt на управление будет рассмотрен немного ниже, здесь отметим только, что значения Eэt и Eэt в УНС должны запоминаться последовательно во
31
32
команде «совершить поступок с номером n», из «Памяти программ механического совершения поступков», которая хранит такие программы, извлекается необходимая nя программа. Это программа управляет последовательными движениями соответствующих органов, чем обеспечивается выполнение поступка yn, т.е. воздействие на среду.
0 ≤ k ≤ kc , 0 ≤ Sэt , - Sкр ≤ Sэt,
Рис. 3. Зависимость k = f (Sэt , Sэt), описывающая внутренние системные часы УНС. Найдя k дискомфортных параметров с номерами i, образующими множество {i}k, и расставив в i-х позициях соответственно +1 или –1, субъект получает по известной ему части таблицы 1 некоторый недоопределенный номер M поступка YM, который выделяет целый класс {Y}M возможных с точки зрения субъекта поступков, приводящих к ожидаемому результату. Известная пользователю часть таблицы 1 хранится в его памяти, в области, которую можно назвать «Память Возможных Поступков», и представляет собой фрагмент таблицы 1, ограниченной p параметрами xi и , соответственно, L параметрами Y, при этом L ≤ 2 p, а таблица этой памяти может содержать запрещенные и неопределенные поля позиций. В большинстве случаев реализуется ситуация, когда k << p, т.е. количество параметров, которые субъект в состоянии осмыслить в конкретных жизненных ситуациях, значительно меньше того количества параметров, которые он потенциально может сознательно учесть при планировании поступка. Поэтому он вынужден случайно выбирать какой-либо yn из класса {Y}M возможных поступков, хотя весь этот класс ему известен. Не обработанные в силу нехватки времени (p-k) параметров, принимают в результате случайно выбранного действия соответствующие случайные для субъекта значения. Выбор поступка по этой схеме удобен в практических ситуациях, но не сопровождается каким-либо развитием субъекта. Очевидно, что номер M сознательно выбранного поступка, как и номер n конкретно совершенного поступка, запоминается последовательно во времени соответственно в областях памяти «Память Выбранных Поступков» и «Память Совершенных Поступков». Для доказательства существования таких областей памяти достаточно обратиться к своему опыту, мы помнит, что хотели совершить и что конкретно совершили в любой ситуации. Прежде чем рассмотреть дальнейшую роль этих областей памяти в деятельности УНС, проследим до конца процесс совершения поступка yn. По выработанной УНС
33
В результате воздействия yn на среду, набор из k определенных ее выходов претерпевает ожидаемые субъектом изменения. Однако в силу того, что {X}p {X}M, yn -конкретная функция в «Памяти Возможных Поступков» субъекта, в таблице 1 соответствует ускользающему из внимания субъекта широкому классу функций, дающих те же изменения p параметров. Если конкретно реализуемая функция из этого класса таблицы 1 выбирается случайным образом, то параметры из множества будут изменяться случайным образом, так что со временем эти {{X}P \ {X}p} изменения не приведут к заметному увеличению или уменьшению абсолютных значений этих параметров. Однако если выбор по какой-либо причине будет не случает, то изменения части неконтролируемых параметров могут приобрести тенденциозный характер. Изменение абсолютного значения такого параметра постепенно может достичь такой величины, что соответствующая ему сумма Ri войдет в дискомфортную область и значительно снизит общую эмоциональную оценку Eэt. Для выхода из данной опасной ситуации субъекту необходимо «обнаружить» дискомфортный параметр, ответственный за снижение Eэt, в противном случае данное воздействие может достичь разрушающей величины. Если дискомфортный параметр «обнаружен», он переводится в число контролируемых субъектов параметров {X}p. При этом размерность {X}p увеличивается до p+1, соответственно увеличивается количество вариантов возможных поступков до величины ≤ 2p+1. Другими словами, действие, выбиравшееся ранее без учета его влияния на этот параметр, теперь может дифференцироваться субъектом с учетом различия его последствий по новому обнаруженному параметру. Располагая новым знанием, субъект выбирает из расширившейся «Памяти Возможных Поступков» такие, которые в результате их совершения вернут обнаруженный параметр в комфортную область значений. Рассмотренный механизм является основным, 1-м механизмом принятия решений УНС при выборе поступка. Он обеспечивает: а) выработку оценки общего состояния субъекта; б) конкретизацию причины, мешающей достижению желаемого максимально комфортного общего состояния, при этом формируется цель дальнейшего поведения, направленная на устранение дискомфортных параметров; в) нахождения способа продвижения к цели, целесообразно выбираемого из совокупности известных ранее поступков; г) возможность случайности в реализации выбранного поступка, являющейся в общем смысле необходимым условием развития; д) выявление новых закономерностей и уточнение имеющихся знаний окружающей среды, использование 34
этих новых знаний при выборе деятельности, т.е. развитие управляющей системы. Проанализируем теперь 2-й механизм, обеспечивающий приспособляемость субъекта в условиях квазиоднообразных проявлений среды. Как отмечалось выше, некоторый код совершенного субъектом поступка запоминается в специальной области памяти, названной нами «Память Выбранных Поступков». Если среда не отличается заметной активностью, то последовательное подтягивание наиболее дискомфортных параметров, осуществляемое путем последовательного совершения разрешенных поступков, выбираемых УНС, через некоторое количество таких актов приобретает периодический характер. Периодической явится последовательность кодов M выбранных УНС поступков, запоминаемая последовательно во времени. Очевидно, что процесс выбора очередного поступка с кодом M по первому, рассмотренному выше, механизму может быть упразднена, если УНС сможет обнаружить периодичность (в общем случае – закономерность) в последовательности выбиравшихся ею ранее поступков, приводивших к росту со временем общего эмоционального состояния Sэt. Поиск такой периодичности в содержимом «Памяти Выбранных Поступков» соответствующим функциональным блоком «Поиск периодичностей» в УНС может вестись постоянно, в частности – параллельно с выбором поступка по 1-му механизму. Если одна такая периодичность (закономерность) в какой-то момент времени обнаруживается, то после проверки соответствующих участков «Памяти Эмоционального Состояния» и подтверждения роста Eэt на протяжении выделенной периодичности, блоком «Поиск периодичностей» вырабатывается сигнал «Модель найдена». После получения сигнала «модель найдена»,УНС начинает задавать последовательно коды M поступков в соответствии с их последовательностью в найденной «модели поведения». 1-й механизм выбора поступков на основе анализа конкретного состояния параметров при этом игнорируется. Как видно, здесь перестает играть существенную роль «время» k, если данные, в которых обнаружена периодичность, когда-то возникали при благоприятных условиях, менее ограничивающих время. Однако необходимым должен оставаться механизм обратной связи, контролирующий соответствие желаемых изменений входных воздействий среды с действительно имеющими место. Такая обратная связь реализуется по-прежнему выработкой оценки общего эмоционального состояния Sэt. При правильно выбранной модели обеспечивается постоянный рост Sэt, если неконтролируемые параметры {X}M – {X}p, подспудно учитывающиеся при определении Sэt, изменяются случайным образом. Если же изменение хотя бы одного из этих неконтролируемых параметров становится неслучайным и выходит из комфортной области, то это может привести к выходу из комфортной области самой Sэt, что явится сигналом к отказу от выбора поступка по «модели поведения» и возвращение к 1-му механизму принятия
35
решений. При этом для благополучного продолжения жизни, УНС должна отыскать дискомфортный неконтролируемый параметр. При положительном решении, этот параметр переводится в разряд контролируемых, соответственно расширяется известная субъекту часть таблицы 1, составляющая «Память Возможных Поступков», в соответствии с этой новой таблицей, субъект совершает последовательность благоприятных поступков, в ряду которых закономерность – «модель поведения».
параллельно
отыскивается
новая
Здесь следует сказать, что при отыскании периодичности – с одной стороны, и составлением «Памяти Возможных Поступков» - с другой, возможно выявление закономерностей, связанных с влиянием на организм субъекта воздействий из множества {X}M – {X}P, т.е. воздействий, для учета которых субъект не располагает рецепторами. Эта задача возникает, в частности, всякий раз, когда ставится диагноз заболевания по показаниям рецепторов, на которые возбудитель болезни оказывает воздействие опосредовано. Решение данной задачи в УНС связанно с отысканием закономерностей изменения сразу нескольких параметров в комплексе, т.е. с обнаружением «запрещенных» комбинаций в таблице «Память Возможных Поступков». В дальнейшем возможны три варианта учета такого параметра. Вопервых, информационный, т.е. наличие данного параметра учитывается в таблице «Памяти Возможных Поступков». Во-вторых, возможно отыскание такого внешнего объекта, который трансформировал бы некоторые признаки данного воздействия в форму, доступную для каких-либо временно незанятых рецепторов. Если сознательно придать этим рецепторам соответствующий желаемый «вес» и смысл, то эти параметры также смогут в какой-то степени контролироваться УНС и, в-третьих, возможно развитие соответствующего рецептора. Рассмотренный 2-й механизм работы УНС обеспечивает: 1) отыскание закономерностей в прошлом поведении субъекта, принятие этой закономерности (при подтверждении ее целесообразности, выявляемой при обращении к памяти), в качестве модели поведения (рефлекса); 2) развитие поведения субъекта, состоящее в возможности совершать поступки в соответствии с найденной и принятой моделью; 3) контроль за результатом реализации модели, при необходимости – отказ от нее, и, в этом случае, отыскание новых причин дискомфорта, т.е. продолжение расширения знаний закономерностей среды. Перейдем к рассмотрению 3-го механизма принятия решений. Пусть блоком «Поиск Периодичностей» одновременно обнаружились несколько возможных моделей поведения. Перед субъектом ставиться задача выбора модели поведения. Такие задачи ставятся и решаются субъектами, обладающими уже свойствами действительно субъективного, личностного характера. При последовательном рассуждении о возможной логике работы УНС, становится очевидным, что какая-либо интеллектуальная обработка информации, в частности – аргументированный субъектом
36
выбор модели своего поведения, может осуществляться только в тех же цепях УНС, которые, начинаясь на рецепторах, предназначались ранее для непосредственного контроля за воздействиями среды. Процесс мышления осуществляется, когда мы подаем на незанятые своими естественными функциями рецепторы некоторые фиктивные воздействий с целью их обработки в УНС вместо реальных природных воздействий. При этом мы придаем этим фиктивным воздействиям желаемый «вес» и запоминаем их смысл в данной ситуации. Тот функциональный блок УНС, в котором происходит присваивание желаемого веса параметрам, и запоминание их смысла, устанавливает еще и флажок «фиктивно». После подачи фиктивных параметров обработка их в УНС происходит совершенно одинаково, независимо от того, реальная или искусственная информация обрабатывается. Однако фиктивная информация после обработки вызывает не реальный поступок, а некоторый упрощенный, предназначенный для подачи нового фиктивного воздействия, т.е. звук, слово, жест или рисунок – символ. Например, субъекту надо выбрать один из двух вариантов моделей поведения, представленных последовательностями поступков y1i1, y1i2, ... , y1ix и y2j1, y2j2, ... , y2jk. Обращаясь к «Памяти возможных поступков», УНС получает информацию о том, к каким изменениям и каких параметров x приводит совершение каждого из поступков y1i и y2j. Для обработки первой модели УНС, выбрав группу свободных рецепторов, придает им смысл и вес параметров x, изменения которых ожидаются при совершении поступков из рядов y1i и y2j. После этого, установив «фиктивный» режим работы, УНС начинает подавать на выбранные рецепторные цепи наборы значений параметров x для поступка y1i1, затем y1i2 и т.д. до y1ix. На каждом шаге оцениваются ожидаемые S1эt и S1эt, которые после проработки всей первой модели получают конкретное значение. После аналогичной обработки второй потенциальной модели, сравниваются ожидаемые эффекты S1эt с S2эt и S1эt с S2эt. Модель, дающая больший выигрыш, принимается к исполнению. Критерием правильности модели при ее исполнении служит соответствие реальной величины Sэt ожидаемой величине. Рассогласование этих величин будет иметь место, в частности, если учитывалось поведение не всех важных параметров x. Как видно, подача искусственной информации в УНС идет одновременно двумя путями: непосредственное воздействие на свободные рецепторы (звук, рисунок и т.п.) и одновременное присваивание им желаемого смысла и веса, в качестве первой операции, совершаемой с этой информацией. При эксплуатации УНС в этой роли, в частности, развивается второй путь и снижается необходимость первого. Стирание флажка, задающего режим работы УНС, что может происходить в живых субъектах при интенсивной обработке фиктивной информации, приводит к тому, что субъект будет совершать реальные поступки в соответствии с фиктивной информацией.
Программ Совершения Поступков» может быть сравнительно жесткой и долговременной. «Память Выбранных и Совершенных Поступков», «Память Эмоционального Состояния» и его «Приращения» должны быть связаны друг с другом неким матричным способов, удобным для совместной и, по-видимому, ассоциативной обработки, с помощью которой, возможно, отыскиваются закономерности, ассоциации, в частности, периодичности. Вероятно, целесообразно выделить более оперативную память, в которой хранятся действующие в конкретный момент модели поведения в виде последовательности кодов поступков, которые субъект предполагает совершить в будущем. При этом известная субъекту таблица «Памяти Возможных Поступков» позволяет по предполагаемой последовательности воздействий y построить ожидаемые модели изменения параметров xp, отражающих реакцию среды на поступки субъекта, а также функционально зависящие от этих параметров модели эмоционального состояния, его приращения. Эти модели могут играть важную роль в интеллектуальном управлении, так как сравнение с моделями действительных значений соответствующих величин играет роль «шкалы» комфортных и дискомфортных параметров, которая была рассмотрена нами при обсуждении функций начинающихся на рецепторах цепей, работающих в 1-м механизме управления. Однако в отличие от первого случая, когда шкала была закреплена аппаратно, при работе УНС с моделями шкала хранится в памяти. Деятельность сложной УНС, следовательно, определяется во многом как функциональной организацией памяти, так и конкретной информацией, накопленной в ней со временем. Модели, определяющие поведение субъекта, отыскиваются в исключительно длинных и разнообразных записях конкретных поступков конкретного субъекта в конкретных условиях. Отсюда следует, что невозможно адекватное моделирование поведения конкретного субъекта системой, конструктивно отличающейся от него и не прошедшей истории его появления и жизни. Если оставить в стороне важную роль случайных процессов в УНС конкретного субъекта и абсолютно точно перенести содержимое его памяти в смоделированную УНС, то можно было бы рассчитать следующий шаг M субъекта. Но расчет очередного шага был бы в свою очередь недоступен, т.к. в его определение входила бы реакция среды на субъекта по таблице 1, которая нам не может быть известна полностью. Возможным представляется моделирование УНС, которая обладала бы следующими свойствами: 1. При закономерных изменениях параметров среды УНС умела бы с возрастающим успехом вызывать благоприятные для себя реакции. При этом необходимо, чтобы: а) изначально УНС была известна наиболее важная для нее часть закономерностей среды обитания, б) чтобы динамика вариаций параметров среды находилась в соответствии с динамическими свойствами УНС, а вероятностное распределение «смертельных» вариаций параметров
В рассмотренном варианте УНС большое значение отведено памяти. Предполагаются различные варианты организации памяти для хранения различных видов информации УНС, связанные со способами ее использования. Так «Память 37
38
компенсировалось бы статистическим распределением различных субъектов, их количеством и т.д.
характеристик
2. В УНС формировалась бы все более правильная модель среды и самого субъекта. 3. УНС обеспечивала бы иерархическую структуру мотивации поведения субъекта: от целесообразного поведения в неожиданно изменяющейся обстановке, отыскания закономерностей и выработки простейших рефлексов и моделей поведения, до возможности выработки альтернативных моделей различного уровня абстракции и аргументированного выбора из них. 4. Логика поведения УНС не могла бы быть понята вполне во стороны. 5. УНС выражала бы постоянную неудовлетворенность состоянием среды и самое себя, при этом бы ею высказывались конкретные причины неудовлетворенности. При устранении этих причин неудовлетворенность другими причинами. Состояние абсолютной объяснялась бы удовлетворенности не могло бы быть достигнуто. 6. Совокупность таких субъектов, управляемых подобными УНС обеспечивала бы состояние гомеостазиса. Следует заметить, что моделирование УНС может быть значительно упрощено, если уменьшить до разумного предела размерности рассмотренных множеств параметров, не сокращая само количество этих множеств, определяющее структуру УНС. В самом деле, нервная система человека располагает примерно миллионом только зрительных рецепторов, активно используемых в процессе мышления, употребляются также слуховые и атрофированные обонятельные рецепторы. Представляется, что даже при сокращении размерностей указанных множеств на несколько порядков, удастся смоделировать некоторые реакции, аналогичные реакциям живых организмов, возможно – человека.
39
Построение системы ААУ на основе аппарата нечеткой логики позволяет упростить
Применение нечеткой логики в имитационной системе автономного адаптивного управления1
элементы структуры системы, сохраняя общие принципы метода ААУ, а также наделяет дискретный по своей сути метод ААУ некоторыми непрерывными свойствами, что должно повысить качество управления и сократить объем базы знаний.
Караваев М.В.
Аннотация. Описан способ построения автономных адаптивных систем управления на основе математического аппарата нечеткой логики. Для этой цели было разработано расширение теории нечётких множеств.
Нечеткая логика дает возможность достаточно просто заложить в систему ААУ априорную информацию об объекте в виде нечетких правил управления, близость формы записи которых к естественному языку позволяет без особого труда получать необходимые знания у экспертов. Априорная информация обеспечивает одно из основных начальных условий системы, построенной по методу ААУ – условие максимальной начальной приспособленности. Соблюдение этого условия позволяет получить результат, аналогичный результату действия механизмов естественного отбора и передачи наследственной информации, присущих живым организмам.
2. Нечеткая логика
1. Введение Наиболее продвинутые на сегодня методы построения автоматических систем управления основаны на использовании строгих математических моделей объектов. Однако, для подавляющего большинства как искусственных, так и естественных объектов управления (ОУ), которыми необходимо управлять, построение точных математических моделей практически невозможно ввиду их плохой формализуемости. К тому же, эти объекты могут функционировать в среде, свойства которой изменяются или же вообще не могут быть определены заранее. Управление такими объектами возможно только с использованием адаптивных принципов. В случае плохой формализуемости ОУ особый интерес вызывают системы, построенные на новых, интеллектуальных принципах [1]. Эти системы используют наработки таких направлений искусственного интеллекта (ИИ) как нечеткая логика, экспертные системы, генетические алгоритмы, искусственные нейронные сети и т.д. Среди всех интеллектуальных управляющих систем особенно эффективны системы, построенные не на основе только одного из вышеперечисленных направлений ИИ, но объединяющие в себе сразу несколько из них. В данной статье предлагается один способ объединения двух такого рода методов, именно, метода ААУ [2,3,4] и нечёткой логики [5,6,7], и построение системы ААУ на основе модернизированного математического аппарата нечеткой логики, с целью объединить концептуальность метода ААУ со сравнительной простотой нечетких систем управления.
Обработка нечеткой информации и нечеткий вывод давно применяются в различных интеллектуальных системах, однако наиболее широкое распространение нечеткие системы получили в области управления. Общая схема обработки нечеткой информации выглядит следующим образом. Точные исходные данные с датчиков, контролирующих управляющий процесс, переводятся в значения лингвистических переменных в специальном блоке, получившем название “фазификатор”. Далее реализуются процедуры нечеткого вывода на множестве продукционных правил, составляющих базу знаний системы управления, в результате чего формируются выходные лингвистические значения, которые переводятся в точные значения результатов вычислений в блоке “дефазификатор”. На выходе последнего формируются управляющие воздействия подаваемые на исполнительные механизмы. Эта концептуальная схема лежит в основе так называемого нечеткого контроллера, используемого в интеллектуальных системах обработки неопределенной информации, в частности, в “интеллектуальных” системах управления. В классических нечетких регуляторах не предусмотрены механизмы адаптации в реальном времени к изменяющимся характеристикам взаимодействия объекта управления с окружающей средой, что не позволяет применять нечеткие системы для управления объектами с изменяющимся во времени свойствами. Однако существует ряд методов, расширяющих возможности нечетких регуляторов в этой области [8]. Одним из серьёзных недостатков нечетких систем управления является невозможность предсказания поведения системы на несколько шагов вперед, так как существующий математический аппарат нечеткой логики позволяет строить правила
1
Работа поддержана РФФИ, проекты № 03-01-00323 и № 04-01-08023-офи 41
42
управления, связывающие лишь текущее состояние объекта с желаемым при помощи управляющего воздействия, которое необходимо предпринять в текущей ситуации.
(нечеткого множества) из диапазона значений физической переменной (рисунок 1), а P – значение степени принадлежности физической переменной нечеткому множеству, соответствующему этому диапазону.
3. Математический аппарат нечеткой логики для систем ААУ
Лингвистическая переменная в системе представлена набором Z = {V1, …, VMo, L}, где V1, …, VMo – значения нечетких переменных, а L – уровень детализации лингвистической
Одни из основных задач, которые необходимо решить при построении системы ААУ – задача получения и представления в базе знаний (БЗ) эмпирической информации и задача принятия решений на основе найденных в этих знаниях закономерностей. Под БЗ в системах ААУ понимается подсистема, хранящая знания, необходимые системе ААУ для управления объектом, где «знания» для системы ААУ представляют собой тройки «образ ситуации»«образ действия»-«образ результата», отражающие закономерности во взаимодействиях объекта управления с окружающей средой. Исходя из вышесказанного, существует возможность построения управляющей системы ААУ с использованием математического аппарата нечеткой логики, которая чаще всего применяется как раз для решения подобных задач. При этом в разрабатываемой системе необходимо объединить концептуальность метода ААУ и сравнительную простоту нечетких систем управления.
переменной, численно равный количеству интервалов, на которые разбивается диапазон значений физической переменной. Значение константы MO равно максимальному числу нечетких переменных, входящих в терм-множество этой лингвистической переменной, значение функций принадлежности для которых одновременно может принимать значения большие нуля. Значение MO полностью определяется видом функции принадлежности: для линейной и квадратичной функций MO принимает значение 2, для обратной квадратичной MO равно 4. Нечеткий образ характеризуется набором O = {Z1, …, ZNo, E}, где Z1, …, ZNo – значения лингвистических переменных системы, количество которых определяется константой NO, а E – значение оценки данного образа, вычисляемое по формуле:
Mo Li 2 H ij Li No E min min Li j 1 i 1
Для описания системы ААУ мы предлагаем использовать нечеткие и лингвистические переменные, имеющие некоторые отличия от принятых в традиционной нечеткой логике.
(1)
Такой вид формулы следует из предположения, что область с максимальной оценкой находится в центре диапазона значений любой физической переменной и большую оценку имеет та нечеткая переменная, которая находится ближе всех к середине диапазона с любой стороны от нее. Для образа состояния объекта управления оценка E означает близость образа к состоянию ОУ с минимальными отклонениями от заданных значений всех входных переменных. Для образа управляющего воздействия оценка характеризует, например, энергозатраты исполняющего органа при выполнении управляющего действия: значение выходной физической переменной, близкое к центру диапазона значений, означает отсутствие управляющего действия. Пусть «память истории управления» состоит из образов текущего состояния ОУ OSi и управляющего воздействия OAi и имеет вид конечной последовательности: Рис. 1. Графическое представление функций принадлежности нечетких переменных. Нечеткая переменная, используемая в системе, характеризуется множеством: V = {H, P}, где H – наименование нечеткой переменной, совпадающее с номером интервала
43
{OS1 , OA1} {OS2 , OA2} {OS3 , OA3} … {OSNh , OANh},
(2)
где Nh – количество образов в памяти истории управления. Применительно к модели управляющей системы стабилизации углового движения космического аппарата “Пилот”, подробно описанной в [2], в образ текущего состояния OSi
44
входят две лингвистические переменные: “угловое отклонение” и “угловая скорость”, а в образ управляющего воздействия OAi – лингвистическая переменная “выходное воздействие”. Для модели управляющей системы “Пилот” история управления в терминах нечетких переменных будет выглядеть следующим образом (здесь NO=2, MO=2 для линейной функции принадлежности):
где HSi1 и HSi2 – наименования входных нечётких переменных; PSi1 и PSi2 – степени значимости данных нечётких переменных в i-ом элементе правила; LSi1 и LSi2 – уровень детализации лингвистических переменных, в терм-множества которых входят эти нечеткие переменные, HAi и LAi – наименование и уровень детализации выходной нечеткой переменной. Степень значимости PSi нечёткой переменной в i-ом элементе правила вычисляется как среднее значение степеней принадлежности входных физических переменных нечётким переменным соответствующего образа при формировании правила из повторяющихся фрагментов истории управления. Этот принцип в некоторой степени соответствует назначению веса синапса в искусственных нейронных сетях, определяющему влияние значений входных и промежуточных переменных на результат, а также соответствует коэффициенту посылки в экспертных системах.
HS111,HS112, HS121,HS122, HA11,HA12, , ,LS11, , ,LS12,ES1, , ,LA1 ,EA1 PS111 PS112 PS121 PS122 PA11 PA12 HS211,HS212, HS221,HS222, H ,H , , ,LS21, , ,LS22,ES2, A21, A22,LA2,EA2 PS211 PS212 PS221 PS222 PA21 PA22 HSNh11,HSNh12, HSNh21,HSNh22, HANh1,HANh2, , ,LSNh1, , ,LSNh2,ESNh, , ,LANh,EANh P P P P SNh11 SNh12 SNh21 SNh22 PANh1 PANh2 Вид нечетких правил управления, используемых в системе, также отличается от традиционного: традиционное правило управления является лишь частью правила модернизированного аппарата нечеткой логики, определяющей управление объектом только на одном такте. Выраженное в лингвистической форме, правило управления системы “Пилот” будет выглядеть следующим образом:
Работа элементов правил определяется минимаксной композицией (1). Выходное управляющее воздействие может вычисляться в соответствии с формулой нахождения средневзвешенной величины: A
(a P ) , P k
k
(4)
k
где ak – выходные воздействия правил, Pk – степени принадлежности выходного управляющего воздействия нечеткой переменной, задаваемой этим правилом, или по методу центра тяжести:
если ZS1 есть VS11 И ZS2 есть VS12, то ZA есть VA1 если ZS1 есть VS21 И ZS1 есть VS22, то ZA есть VA2 … если ZS1 есть VSi1 И ZS2 есть VSi2, то ZA есть VAi …,
A
a
k
p (a k ) da k
Ak
p(a
k
,
) da k
(5)
Ak
где ZS1, ZS2 и ZA – значения входных лингвистических переменных “угловое отклонение” и “угловая скорость” и выходной “управляющее воздействие”, VSi1, VSi2 и VAi – конкретные значения нечетких переменных, с которыми происходит сопоставление значений ZS1, ZS2 и ZA.
формула для которого применительно к линейной функции принадлежности принимает вид: k
k 2
(6)
k
На уровне нечетких переменных правила управления хранятся в виде последовательности: {{HSi1 , PSi1 , LSi1},{HSi2 , PSi2 , LSi2},{HAi , LAi}} …,
a (1 (1 P ) ) . (1 (1 P ) ) 2
A
Возможен вариант управления, при котором среди сработавших элементов правил выбирается одно правило с максимальным результатом и выполняется действие, заданное этим элементом.
(3)
Выбор метода вычисления управляющего воздействия зависит от свойств объекта управления. 45
46
вычисление для каждой нечеткой переменной значения характеристической функции принадлежности.
4. Структура и основные принципы работы системы ААУ на основе нечеткой логики Общая структура системы, основные блоки которой с некоторыми изменениями заимствованы из базовой системы ААУ[2,3,4], изображена на рисунке 2. Система состоит из следующих модулей: блока датчиков, блока формирования и распознавания образов, блока памяти истории управления, блока формирования правил управления, блока оценки состояния объекта управления, базы знаний нечетких правил управления, блока принятия решений и исполняющего органа, а также окружающей среды. Здесь под средой в широком смысле понимается вся внешняя среда, на которую может оказывать воздействие исполняющий орган и параметры которой может регистрировать блок датчиков, включая сам объект управления. Под средой в узком смысле понимается внешняя среда без ОУ. Под базой знаний системы в дальнейшем подразумевается совокупность памяти истории управления и набора нечетких правил управления. Последний также можно назвать базой знаний правил управления. Блок датчиков через равные интервалы времени (на каждом такте работы управляющей системы) измеряет параметры внешней среды, например для спутника: угловое отклонение и угловую скорость. Они в виде значений физических переменных x1(t), x2(t),… xn(t) поступают на вход блока формирования и распознавания образов. Среда в строгом смысле
Объект управления Управляющая система
Среда в узком смысле
Блок датчиков
x1(t), x2(t)...xm(t)
Блок ФРО (фаззификация)
O(t)
Среда в широком смысле
Блок формирования правил управления
M1(t), M2(t)...Mn(t)
Блок принятия решений (дефаззификация)
Блок хранения истории управления сохраняет конечную последовательность образов состояний объекта и управляющих воздействий в виде (2). Причём для соблюдения условия дискретности память истории управления может хранить информацию, полученную только на последних Np тактах управления, а все сведения о состоянии объекта на тактах управления, отстоящих от текущего момента времени более чем на Np тактов – утрачиваются (“забываются”). Величина Np влияет на качество формируемых правил управления и задается априорно, исходя из предполагаемого периода повторения характерных для системы закономерностей во входных и выходных данных. Обобщенная информация о более ранних событиях в истории управления может сохраниться в базе знаний нечетких правил управления, если она еще не потеряла своей актуальности.
а) все суммы степеней принадлежностей входных переменных нечётким множествам повторяющегося участка превышают некоторый порог Pa;
E(O(t)) Блок исполняющих органов
Затем сформированный нечеткий образ поступает на вход блока оценки состояния объекта управления, который вычисляет для этого образа оценку по формуле (1).
Блок формирования правил управления обеспечивает один из аспектов адаптивности разрабатываемой системы: динамическое формирование нечетких правил управления. Он работает следующим образом. Через определенное число тактов просматривается история управления и производится поиск повторяющихся фрагментов. Далее из этих участков формируется правило управления при соблюдении следующих обязательных условий:
Блок хранения истории управления A(t)
Блок оценки состояния ОУ
Далее происходит формирование образа текущего состояния объекта управления в соответствии с текущим уровнем детализации Lti каждой i–ой входной лингвистической переменной. Изначально каждая входная физическая переменная сопоставляется, например, только c тремя входными нечёткими переменными: Lti = 3. При накоплении определённого количества знаний для повышения качества управления часто возникает необходимость в более точном измерении какого-либо входного параметра. Тогда диапазон значений соответствующей входной физической переменной разбивается на большее число интервалов, например, на Lti+2, и система начинает оперировать уже 5-ю нечёткими переменными вместо 3-х и т.д..
База знаний (нечеткие правила управления)
б) последним результирующим образом этого участка истории является образ с максимальной оценкой для текущего уровня детализации; в) среднее качество управления (средняя оценка образов) на данном отрезке превышает порог Ea; г) общие затраты энергии исполнительным органом на данном участке истории не превышают величину Wa;
Рис. 2. Общая структура системы ААУ с использованием нечеткой логики.
д) длина данного фрагмента не превышает некоторую априорно задаваемую величину Na.
Блок ФРО производит сопоставление входных физических переменных x1(t), x2(t),… xn(t), нечётким множествам соответствующих нечетких переменных (фазификация) – 47
48
При несоблюдении последнего условия от отрезка истории отсекается начальная его часть необходимой для выполнения этого условия длины. Однако при этом может перестать выполняться третье условие. При формировании двух или более противоречащих друг другу правил в базу знаний заносится правило, имеющее наибольшее среднее качество управления и наименьшие энергозатраты исполняющего органа. В зависимости от конкретной задачи разрабатываемой системы управления критерий выбора оптимального правила может варьироваться. Противоречивыми правилами считаются правила, значения лингвистических переменных первых образов которых полностью совпадают, за исключением степени уверенности. Набор правил управления в какой-либо точке пространства входных переменных считается точечно-полным, если в этой точке средняя степень принадлежности значений всех физических переменных входным множествам нечетких правил превышает некоторую априорно задаваемую величину Pv. Набор правил управления считается полным, если среднее значение степеней принадлежности превосходит Pv во всех точках пространства входных признаков. Если на каком-то такте при текущих значениях входных переменных в соответствующей точке пространства условие полноты правил управления не выполняется, то при вычислении выходного управляющего воздействия сумма степеней принадлежности выходных нечётких переменных дополняется до значения Pv случайной величиной, тяготеющей к нулевому воздействию. Таким образом происходит обучение системы управления при недостатке в базе знаний эмпирической информации в виде нечетких правил. Помимо динамического формирования правил управления, свойства адаптивности системы стабилизации обеспечиваются механизмом удаления неадекватных текущим условиям правил: у каждого правила управления имеется счётчик сбоев, который увеличивается на единицу при каждом срабатывании правила, не приведшем к ожидаемому результату (образу с максимальной оценкой). После хотя бы одного удачного выполнения правила счётчик сбрасывается. Превышение счётчиком некоторой априорно задаваемой величины Ck говорит об изменении свойств объекта или внешней среды, после чего данное правило нельзя больше использовать для управления объектом. В этом случае правило удаляется из базы знаний. При превышении степеней принадлежности всех нечётких переменных распознанного образа какого-либо правила порогового значения Pr, задаваемого априорно, примем, что ситуация управления развивается по данному правилу. Примем также, что правило сработало, если это условие выполнялось в течение определенного количества тактов, равного половине длины правила. Если существует несколько правил, для которых выполняется условие, то в рассмотрение попадает каждое из них. Если на последующем такте управления суммарная степень принадлежности нечётким переменным становится
49
ниже порога Pr, то данное правило выпадает из рассмотрения. Но если при этом отношение Sum(Pi)/Nr (где Nr – количество образов(тактов управления) входящих в правило) превышает априорно задаваемую величину Ps, то считается, что это правило сработало с отрицательным результатом и значение счётчика сбоев этого правила увеличивается на единицу. Если при формировании нового правила в базе знаний отсутствует место для его сохранения, то из набора существующих правил могут быть удалены правила в соответствии со следующими критериями (в порядке убывания значимости): с наибольшим значением счетчика сбоев, наименьшим средним качеством управления, наибольшей длиной и энергозатратами. Блок принятия решений вычисляет степени принадлежности значений выходных воздействий выходных нечётких переменных каждого правила в соответствии с основными операциями над нечёткими множествами, подставляя в посылки правил степени принадлежности входных переменных соответствующих нечётким образам. Далее по вычисленным степеням принадлежности находится значение выходного воздействия в соответствии с формулой (4) или (5). В процессе управления используются все правила, находящиеся в базе знаний. При этом правила, нечеткие переменные которых имеют отличный от текущего уровень детализации, влияют на результирующее выходное воздействие с некоторым поправочным коэффициентом, равным Lji / Li , где Li – значение текущего уровня детализации i-ой лингвистической переменной, а Lji – уровень детализации соответствующей нечеткой переменной j-ого правила управления. Уровень детализации вычисления выходного управляющего воздействия может поддерживаться на уровне округленного в большую сторону среднего значения уровней детализации всех входных лингвистических переменных. Увеличение общего уровня детализации Lt происходит при достижении полноты системы правил управления, в то время как среднее качество управления не превышает некоторой априорно заданной величины Es. Повышение уровня детализации Li одной из входных лингвистических переменных производится также при нахождении двух повторяющихся последовательностей образов в истории управления, в которых одно и то же управляющее воздействие при одних и тех же начальных условиях приводит к переходу объекта управления в различные состояния. Причем эти состояния отличаются друг от друга именно значением этой лингвистической переменной. Исполняющий орган выполняет управляющие воздействия M(t), пытаясь изменить тем самым параметры внешней среды по отношению к объекту управления.
5. Практическая реализация системы ААУ с элементами нечеткой логики На основе модернизированного метода ААУ были построены две программные модели для управления угловым движением автоматического космического аппарата и для управления активной автомобильной подвеской. 50
На рисунке 3 изображены графики зависимостей углового отклонения и угловой скорости корпуса космического аппарата от времени на начальном этапе управления с использованием нечеткой логики (б) и без нее (а). Такое преимущество было достигнуто за счет внесения в систему априорных знаний.
6. Заключение и направления дальнейших исследований Основной результат представленной работы состоит в том, что был расширен математический аппарат нечеткой логики, это позволило использовать нечеткую логику в системах ААУ. В частности: а) разработана структура системы ААУ и ее формальное описание с использованием математического аппарата нечеткой логики; б) разработаны алгоритмы работы системы и основных ее блоков на основе нечеткой логики: именно, блока принятия решений и блока формирования правил управления; в) определена структура базы знаний, состоящая из памяти истории управления и набора нечетких правил управления; По отношению к базовой версии системы ААУ, предлагаемая система обладает следующими преимуществами: а) новая система имеет в 2-4 раза меньший объем базы знаний при одинаковом качестве управления;
а)
б) использование математического аппарата нечеткой логики позволяет вводить в систему правила управления, полученные на основании априорных знаний экспертов, и выраженные в форме, близкой к естественному языку. Этим значительно повышается качество управления на начальном этапе работы системы и сокращается время самообучения;
б)
в) система способна автоматически определять необходимую для заданного качества управления точность представления входных и выходных данных.
Рис. 3. Сравнение качества управления на начальном этапе работы адаптивной системы управления с использованием нечеткой логики (б) и без нее (а).
Помимо сокращения времени обучения на начальном этапе, построение системы ААУ на нечетких принципах позволило примерно в 4 раза сократить объем базы знаний при сохранении высокого качества управления (5*5 образов против 11*11 образов в эталонной версии системы “Пилот”). При испытании программной модели было также определено, что оптимальной для системы “Пилот” является линейная (треугольная) функция принадлежности входных физических переменных нечетким множествам, к тому же, она наиболее проста для вычисления, а так же то, что оптимальный вариант объединения выходных результатов сработавших правил – по среднему значению. Аналогичные результаты были получены и при испытании программной модели управления активной подвеской автомобиля.
51
В ходе дальнейших исследований предполагается разработать формальную модель нейрона с использованием математического аппарата нечеткой логики, тем самым приблизив функциональные свойства модели нейрона к его биологическому оригиналу. Правила нечеткой логики могут быть использованы для построения структуры нейроноподобной сети. В процессе исследований предполагается разработать метод формирования таких правил путем анализа эмпирической информации, накопленной объектом управления на начальном этапе своего функционирования, а также методы объединения и минимизации нечетких правил с целью оптимизации структуры управляющей системы. Для целей оптимизации могут быть применены различные методы логического вывода, используемые в булевой алгебре и логике предикатов, адаптированные к нечеткой логике. Развитие различных методов оптимизации базы знаний должно открыть возможности построения знаний над знаниями, получения нечетких правил (образов) более высокого порядка, что может перевести исследования на новый уровень – к построению иерархических управляющих систем.
52
В дальнейшем предполагается разработка практических приложений модернизированной системы ААУ – программных моделей систем управления различными объектами, например, роботом или автомобильной подвеской.
Список литературы 1. Захаров В.Н. Современная информационная технология в системах управления. – Известия академии наук. Теория и системы управления №1, 2000, – с. 70-78. 2. Жданов А.А. Об одной методологии автономного адаптивного управления. – Труды института системного программирования, 1999. Том 1. Под ред. Иванникова В. П. М.: Бионформсервис, 2000. – с.66-83. 3. Жданов А.А. Метод автономного адаптивного управления. – Известия академии наук. Теория и системы управления №5, 1999, – с. 127-134. 4. Zhdanov A. A., Vinokurov A. N., Emotions Simulation in Methodology of Autonomous Adaptive Control, Proceedings of ISIC’99/ISAS’99, 1999. 5. Заде Л.А. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.:Мир, 1976. 6. Пивкин В.Я., Бакулин Е.П., Кореньков Д.И. Нечеткие множества в системах управления, http://idisys.iae.nsk.su/fuzzy_book/ 7. Баер П., Новак С., Винклер Р. Введение в нечеткую логику и системы нечеткого управления, http://softlab.od.ua/algo/neuro/fuzzy-intro/ 8. Бураков М.В. Механизм адаптации нечёткого регулятора. – Известия академии наук. Теория и системы управления №1, 1998, – с. 84-87.
53
вместо символа «|» с традиционной теоретико-множественной трактовкой часто будет использоваться наклонная черта «/», а «…/m(…)» будет означать «…со степенью (принадлежности) m(…)».
О манипулировании знаниями с использованием нечетких множеств
В такой трактовке функция m(), являясь (качественной) оценкой принадлежности элемента множеству, с одной стороны задает нечеткое множество, а с другой – определяет понятие нечеткого подмножества. Данные выше определения (с учетом соглашений) принимают вид: D {eU|mD(e)} (или D {e/m(e)}) и, для D`D, D` {eD|mD`(e)} (или D` {e/mD`(e)}).
В.Б.Новосельцев, Е.А.Романчук (Томский государственный университет)
Аннотация. В работе обсуждаются некоторые возможности применения аппарата нечетких логик к анализу и манипулированию формализованными знаниями (с учетом свойств и связей между существенными компонентами). Предлагается некоторая модификация (по отношению к классической) машины вывода (inference engine), реализующей взаимодействие конкурирующих объектов и учитывающей статику и динамику поведения «знаний». Предлагаемый формализм одновременно обеспечивает корректную работу как с четкими, так и с нечеткими (fuzzy) характеристиками элементов базы знаний, что позволяет использовать предлагаемый подход при реализации "семантически-ориентированных" комплексов манипулирования знаниями.
1. Нечеткое множество Определим домен как множество (однородных) элементов. Критерий принадлежности некоторого элемента e конкретному домену D задается одноместным предикатом D(e), определенным на универсуме элементов U. Важно отметить, что имя предиката и имя домена – суть одно и то же. Двухместным предикатом is_a(e, D), определенным на декартовом произведении U2U (универсумов элементов и доменов), задается отношение «быть частью» – очевидно, что is_a(e,D)D(e). Теперь, сопоставив ИСТИНЕ единицу (1), а ЛЖИ ноль (0), традиционным способом можно определить характеристическую функцию (функцию принадлежности элемента домену) – m(e,D) с областью определения U2U, так что D {eU|m(e,D)=1}. Традиционно вводится и понятие поддомена D` домена D: D` {eD|m(e,D`)=1}. – Если принадлежность элемента множеству несущественна или очевидна из контекста, соответствующий фрагмент в формальной записи может опускаться, с учетом сказанного и для обозначения характеристической функции (для фиксированного домена D) может использоваться запись mD(e) или m(e). Распространив область значений функции m() на весь отрезок [0,1], т.е. отказавшись от ее дискретности, мы переходим к нечетким понятиям. При этом значение характеристической функции определяет уже степень принадлежности элемента множеству и нечеткое вхождение одного множества в другое. В дальнейшем 55
Может возникнуть вопрос: принадлежит ли элемент нечеткому множеству, если степень его принадлежности равна нулю? – Это особенно актуально при сравнении нечетких множеств на сходство-подобие. Остановимся на двух вариантах: (1) Формирование множества путем явного поэлементного перечисления – D {e1/m(e1),…, ek/m(ek),…} (очевидно, это не нечеткое множество, элементы принадлежат ему по определению независимо от значения характеристической функции). (2) Введение понятия носителя (carrier) CD – это множество элементов универсума, для которых характеристическая функция принадлежности определяемому множеству D строго больше нуля – CD {eU|mD(e)>0}. Понятие подмножества D`D при этом переопределяется следующим образом: D` {eCD|mD`(e)}.
2. Оценка подобия Отношением подобия в теории нечетких множеств называется любое бинарное отношение, заданное на некотором множестве E и обладающее свойствами рефлексивности и симметричности; если к тому же оно обладает свойством транзитивности, то это уже отношение сходства. Аналогом этого отношения в классической теории множеств служит отношение эквивалентности, но это достаточно «сильное» отношение. Построим оценку подобия нечетких подмножеств A и B «четкого множества» E следующим образом: l(A,B)=1-(A,B), где (A,B) есть относительное расстояние Хэмминга либо относительное евклидово расстояние. Доказательство симметричности этой оценки вытекает из симметричности (по определению) расстояния (A,B). Рефлексивность же легко выводится из антирефлексивности и ограниченности (A,B). Таким образом, мы действительно имеем оценку подобия нечетких подмножеств A и B «четкого множества» E.
56
3. Нечеткие и лингвистические переменные. Основные понятия Достаточно нетривиальной является задача трансляции значения лингвистической переменной в нечеткое подмножество базового множества для данной переменной, а уж тем более сложна задача обратной трансляции. – Здесь возможно наложить несколько ограничений на вид функции принадлежности. К примеру, функция принадлежности должна иметь вид «колокольчика» в середине базового множества, и вид «полуколокольчика» на концах. Подобное ограничение допустимо, если не будут использоваться фразы типа: «не маленький» или «маленький или очень большой». Тогда задача трансляции «нечеткое множество – фраза» и обратная ей существенно упрощаются. Примем определения и обозначения, касающиеся нечетких и лингвистических переменных, введенные в [2, 5], незначительно их пополнив. Определение 1: Объектом предметной области называется любой факт, предмет или событие X предметной области удовлетворяющее «четкому» предикату is(X) (для текущего состояния предметной области). Определение 2: Контекстом объекта или множеством нечетких атрибутов назовем совокупность нечетких переменных, если для каждой из них помимо наименования задано еще и имя лингвистической переменой значением которой они могут являться.
В силу упорядоченности семантика подобного множества сохранится, даже если в каждом его элементе отбросить первую часть, получив при этом однородный вектор со значениями элементов принадлежащими M=[0,1]. Теперь мы имеем право говорить о расстоянии между состояниями схемы как о расстоянии между нечеткими упорядоченными множествами или векторами. 4. Динамика В свое время Заде выдвинул идею о том, что нечеткая переменная (в контексте нечеткого подмножества) может, в определенных случаях, рассматриваться как распределение возможностей или субъективных вероятностей. Мы, в свою очередь, любое событие предметной области (совершенное или прогнозируемое) представляем в виде нечеткой переменной, то есть в качестве распределения субъективных вероятностей. Таким образом, представляется возможным построение событийного аппарата на механизмах сопоставления и выборки нечетких множеств-событий. Для ознакомления с существующими методами нечеткого логического вывода на сопоставлении можно обратиться к соответствующему обзору в [6]. В данной работе немного пересмотрена концепция многоуровневого выбора (см. [2,7]) и структура вида: if EVENT… then … else_if … then … else_if … fi … fi … fi
Пример 2. Зададим контекст объекта - предприятия.
естественным образом заменяется на
Определение 3: Пусть P – прямое произведение n множеств и M – его множество принадлежностей; нечеткое n-арное отношение E определяется как нечеткое подмножество P, принимающее свои значения в M. Определение 4: Связью между объектами A и B назовем элемент нечеткого бинарного отношения Е, определенного на множестве объектов-знаков и принимающего свои значения в M=[0,1], обладающий следующими свойствами: а) Каждая связь имеет функцию доступа от первого элемента ко второму, называемую ролью – имя бинарного отношения, другими словами семантика отношения. б) Каждая связь имеет вес – скаляр из отрезка [0,1] – множества принадлежности отношения E, описывающий возможность существования данного отношения между объектами A и B. Определение 5: Текущим состоянием схемы назовем упорядоченную совокупность объектов, всех контекстов для данного объекта и бинарных отношений между парами объектов, на которых определены связи в фиксированный момент времени. Текущее состояние схемы может быть выражено с помощью нечеткого упорядоченного множества, элементами которого являются <Имя объекта/1>, элементы контекстов как Объект2)/Вес_связи>. нечеткие множества, <Роль_связи (Объект1, 57
case EVENT of value1:{…};… valuek:{…};…end_case. Как легко заметить, мы избавились от вторичного сравнения (для else), поскольку в нечеткой логике тавтология состоятельна (см., например, великолепную работу Кофмана [1] о свойствах подобия и сходства на нечетких множествах). Одной из основных проблем остается проблема приведения двух нечетких подмножеств к одному четкому надмножеству. Известно несколько методов подобного приведения ([3,4]) – остановимся на следующих: 1. Элиминирование несуществующих элементов (как крайний вариант). 2. Спрямление или аппроксимация (в зависимости от эвристики) на основе учета характеристик крайних или всех элементов множества. – К сожалению, подобный метод подходит лишь для упорядоченных множеств. Теперь возможно описать принципиальную схему работы событийного аппарата. Она (схема) основана на следующих положениях: 3. Любое событие, совершенное или прогнозируемое, представляется нечетким множеством (распределение субъективных вероятностей). 4. Любое событие имеет тип (хотя возможно использование иерархии типов событий с верхним абстрактным бестиповым событием) и так называемый нечеткий контекст – совокупность нечетких типизированных множеств – отвечающий за классификацию события. Событие при этом описывается тройкой <СОБЫТИЕ, ТИП, КОНТЕКСТ>. 58
5. Любой объект системы (контейнер), имеют множество четких или нечетких контекстов, а также набор обрабатываемых событий с методами реагирования на них. 6. Любая реакция объекта порождает новое событие, которое, ставится в очередь событий, и, возможно, новое действие, связанное с модификацией системы в целом или ее частей. 7. Для упорядоченной пары <СОБЫТИЕ, КОНТЕКСТ> определена бинарная операция: (A,B)(C,D)M× [(A× [B # D]) # C], где (A,B) – реальное или прогнозируемое событие, C – предопределенный идеал события для объекта, D – контекст объекта, операция «× » – умножение на скаляр, а «#» – алгебраическая мера подобия. При этом в качестве М выступает событие, порожденное реакцией объекта на событие (A,B). Вследствие все того же различия между сравниваемыми множествами, представляется разумным иметь различные алгоритмы сравнения нечетких множеств с нечеткими же, нечетких с четкими и четких с четкими. Поскольку в любом случае нужна алгебраическая (замкнутая) оценка подобия, предлагается использовать нечто аналогичное ядерной оценке для "размывания" четких значений при сравнении. Для случая непрерывного ранжированного множества применяется, во-первых, его дискретизация на основе эвристик, определяемых предметной областью, а затем – сравнение по тем же алгоритмам.
На основе предложенной модели реализован макет программного комплекса, иллюстрирующий ее основные положения и предполагающий дальнейшее развитие. Прекрасной инструментальной средой при этом выступают функциональные комплексы на базе языка Лисп (например, Allegro CL [7]).
Литература
1. Кофман А. Введение в теорию нечетких множеств. М.: Радио и связь, 1977 – 432 с. 2. Мелихов А.С., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука, 1990 – 271 с.
3. Поспелов Д.А. Логико-лингвистические модели в системах управления. 4. 5. 6. 7.
Подчеркнем еще раз, что основной целью предлагаемого подхода является поддержка «динамизма» схемы базы знаний. – Любой объект способен (или нет) реагировать на сообщения (выражающие внутренние или внешние для системы события), предлагаемые ему системой. В случае внешнего события используется циркулярная рассылка сообщений. Внутренние сообщения рассылаются как циркулярно, так и селективно. Подобным же образом с помощью сообщений в системе реализуются любые действия по модификации экстенсионала. Некоторым отходом от объектно-ориентированного стандарта событийного механизма является реализация этого механизма в виде совокупности событий, посылаемых системе «одновременно». Основная проблема в работе с сообщениями заключается в том, что моделируется недетерминированный процесс «изменения» экстенсионала базы знаний на детерминированном вычислителе. При этом, во-первых, к одному объекту могут быть адресованы несколько сообщений, и все они должны найти объект в таком виде, в каком он находился на момент их генерации (вне зависимости от очередности поступления на обработку); во-вторых, объект, созданный в результате обработки сообщения, не должен отзываться на сообщения уровня создателя. – Преодоление этих препятствий достигается путем введения очередей сообщений, регулируемых «темпоральными» семафорами. Очередь сообщений поделена на уровни, и каждому уровню соответствует «такт времени», в который было сгенерировано сообщение. Чем больше уровень сообщения, тем позже оно было получено. Соответственно, переход к следующему уровню осуществляется только по исчерпании сообщений текущего уровня. 59
60
М.: Энергоиздат, 1981 – 231 с. Дюбуа Д., Прад А. Теория возможностей. Приложения к представлению знаний в информатике. М.: Радио и связь, 1990 – 288 с. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976 – 162 с. Ягер Р. Нечеткие множества и теория возможностей, последние достижения. M.: Радио и связь, 1986 – 406 с. www.franz.com
результатов. Механизм принятия решений 3-го уровня может быть связан с выбором лучшей из нескольких моделей поведения, совершение которых допустимо в текущей
Принятие решений в автономных адаптивных системах управления, основанное на выявлении закономерных последовательностей действий1
C. А. Бондаренко, А. А. Жданов, Б.М. Магомедов
Аннотация. Для общей схемы методологии Автономного Адаптивного Управления (ААУ) ставится задача построения удаптивного управления на основе выявления и использования регулярностей в последовательностях действий, совершаемых объектом управления, что формально является задачей обнаружения регулярностей над регулярностями, или знаний над знаниями. Предлагается два подхода к решению задачи – программно-прагматический и нейросетевой с использованием специальных моделей нейронов. Приводятся первые результаты моделирования данных подходов на примере системы адаптивного управления для мобильного робота.
Настоящая работа развивает метод Автономного Адаптивного Управления (ААУ) [1-3], представляющий собой концептуальную модель нервной системы, при этом на основе метода ААУ можно строить эффективные адаптивные управляющие системы (УС) для прикладных объектов. Согласно методологии ААУ, в биологических и искусственных системах управления можно различать несколько уровней механизмов принятия решений. Так в работах [4-7] показана возможность существования как минимум трех таких механизмов. В частности, механизм принятия решений 1-го уровня состоит в анализе конкретного текущего состояния, в просмотре эмпирически накопленной базы знаний и поиске в ней лучшего (по определенным критериям) из вариантов состояний, которые управляющая система может вызвать совершением своих действий. Механизм управления 2-го уровня связан с выявлением в предыстории и использованием при принятии решений неслучайных последовательностей выходных действий УС – моделей поведения. При обнаружении таких последовательностей принятие решения может осуществляться без применения 1-го механизма для выбора каждого очередного шага, но просто с помощью последовательного воспроизведения шагов найденной последовательности с одновременным контролем некоторых промежуточных
1
ситуации. Имеются и другие возможные механизмы принятия решений. Примеры таких механизмов принятия решений можно наблюдать в биологических системах. Настоящая работа отражает результаты первых попыток моделирования 2-го из указанных механизмов принятия решений. Как пример, рассмотрим программную модель мобильного робота «Гном №8», целевая функция которого состоит в выработке стереотипов поведения при объезде препятствий. Нейроноподобная управляющая система робота [8,9] разработана в ИСП РАН и ИОНТ РАН в соответствии с принципами методологии ААУ. Робот эффективно самообучается объезжать единичные препятствия без столкновений, именно: а) вырабатывает «понимание» того, что сталкиваться с препятствием не следует, б) устанавливает зависимости (знания) между наблюдаемыми им ситуациями, своими действиями и их результатами, в) приобретает умение пользоваться этими знаниями для принятия решения на каждом шаге управления. Этот результат соответствует 1-му из описанных выше механизмов принятия решений, и его необходимо дополнить 2-м обнаруживать повторяющиеся механизмом – умением автоматически последовательности действий (модели поведения) и пользоваться ими в процессе принятия решений. Эффект циклического повторения принимаемых управляющей системой решений обусловлен, по-видимому, использованием дискретного представления действий. В случае с мобильным роботом такие циклы возникают, например, при попадании робота в углы ограждения полигона и при наезде на стенку, а также при движении по коридору. Так, циклическое «топтание» робота в углу или у стенки является примером нежелательного зацикливания, а поступательное, состоящее из повторяющихся однотипных шагов движение по прямому коридору есть пример полезного зацикливания. В случае обнаружения повторяющейся последовательности, управляющая система (УС) может при помощи Подсистемы Эмоций оценить, полезна или не полезна данная последовательность, и принять решение об автоматическом продолжении или прекращении такого цикла соответственно. Например, пусть в УС робота сформированы образ приближения к цели и образ удаления от цели, имеющие, соответственно, положительную и отрицательную эмоциональные оценки. В случае обнаружения зацикливания мобильного робота у стенки или в углу, образ приближения к цели не будет распознаваться, положительная эмоциональная оценка не будет получена роботом, и тем самым УС может определить нежелательность данной закономерности в поведении. УС может заставить робота выйти из цикла, совершив некоторое, например, случайное действие. В случае поступательного движения по коридору, и распознавания образа периодически повторяющихся движений, будет распознан и образ приближения к цели с положительной оценкой. Поэтому такая модель поведения может быть принята к исполнению. Теперь УС может предугадывать
Поддержано проектом РФФИ № 03-01-00323 61
62
момент следующего поворота, и принимать решения просто по найденной модели, не анализируя ситуацию каждый раз подробно.
исполнителей. Будем называть такие сенсоры «сенсорами актуаторов». В живых организмах таким сенсорам сответствуют рецепторы, располагающиеся на мышцах и
Прекращение пользования моделью поведения можно осуществлять, опираясь также на
суставах, и регистрирующих их состояние и положение.
показания Подсистемы Эмоций. Например, пусть робот, продвигаясь периодически повторяющимися шагами вдоль коридора по направлению к цели, проходит точку максимального сближения с целью и начинает удаляться от нее. В этой ситуации начнет распознаваться образ удаления от цели, имеющий отрицательную эмоциональную оценку, что явится основанием для прекращения выполнения циклических действий и необходимости возвращения к 1-му механизму принятия решений.
Пусть конкретный актуатор ai в момент времени t может совершить только одно действие с номером t, t = 0,1,2,…, i . Пусть в каждый момент времени t на сенсоры
Возможны разные подходы к решению задачи обнаружения повторяющихся последовательностей команд, здесь мы представляем два из таких решений. Первое решение связано с применением формального алгоритмического метода, второе состоит в применении специально разработанной нейроноподобной сетевой структуры. В общей схеме системы ААУ (рис. 1) объект управления (ОУ) взаимодействует с окружающей средой посредством датчиков и исполняющих органов, в управляющую систему входят блок формирования и распознавания образов (ФРО), база знаний, аппарат эмоций и блок принятия решений.
актуаторов поступают данные о том, какие именно действия были совершены всеми актуаторами. Пусть эти данные представлены общим бинарным вектором, разбитым на секции ai, каждая из которых закреплена за одноименным актуатором ai , а «1», стоящая в позиции номер t секции ai, указывает, что данный актуатор в этот момент времени совершил действие номер t. Временная последовательность таких векторов представляет историю действий данного объекта управления в виде временой диаграммы. На рис. 2 показан пример такой временной диаграммы, отражающей историю действий некоторого объекта управления, имеющего 2 актуатора, каждый из которых может совершить одно из 3-х действий, время движется вправо, крайний правый вектор соответствует последнему (текущему) моменту времени.
Рис. 2. Сохраненная в памяти УС временная диаграмма активности системы, есть «память совершенных действий». Трудно хранить в памяти такую временную диаграмму по всему времени жизни УС, поэтому в методологии ААУ предполагается организация такой памяти в виде ассоциативно связанных образов, обобщающих эти данные, при ограничении и уменьшении точности данных со временем.
Рис. 1. Общая схема системы Автономного Адаптивного Управления. Для формирования искомых образов протяженных пространственно - временных событий, которые отражали бы повторяющиеся последовательности выходных действий (такие образы формально не отличаются от образов других пространственовременных событий), необходимы сенсоры, приносящие данные о действиях
63
Пусть история «совершенных действий» сохраняется точно на некотором скользящем временом окне. Анализируя временную диаграмму активности системы -«память совершенных действий», можно выявлять закономерности некоторых классов. Одним из простых классов является класс периодичностей. Если речь идет о сравнительно больших периодах, и при этом допускается аддитивность периодических компонент, данные зашумлены, либо имеют пропуски, то возможно применение известных методов выделения скрытых периодичностей, таких, как методы Бюй-Балло, Уиттекера, Шустера, метода максимальной энтропии, метода максимального правдоподобия, Фурье-анализа и т.п. Однако в нашей работе мы стремились к упрощению ситуации, чтобы ускорить процесс моделирования всей системы
64
управления. Опишем два рассмотренных нами подхода к решению задачи и первые полученные результаты. Для
упрощения
задачи
анализа
временной
диаграммы
действий
отдельно
анализировалась активность каждого из исполнителей. Периодичность с периодом Т считалась закономерной, если она повторилась подряд заданное число n раз. Добавление в рассмотрение производной активности актуатора позволяет находить более сложные закономерности, такие как закономерность монотонности с постоянной производной. Примеры закономерностей периодичности и монотонности изображены на рис. 3.
При внутреннем представлении диаграммы активности программа ActivityAnalyzer разбивает активность каждого из актуаторов на специальные образы - участки постоянной монотонности и выпуклости. Каждый такой образ характеризуется типом: парой {тип монотонности, тип выпуклости} и числовыми параметрами, такими как длина, и значения активности на концах участка. Примеры образов изображены на рис. 5. Период ищется в виде
Рис. 5.
Рис. 3. Алгоритм разработанной программы поиска периодичностей ActivityAnalyzer показан на рис. 4. После получения запроса от УС программа определяет текущее время по таймеру, и
последовательности таких образов. Система запоминает предыдущие результаты поиска, и в случае, если при предыдущем вызове период был найден, проверяет, не продолжается ли этот период. Если период не повторился, то система начинает поиск заново. При этом, сначала на основании последовательности типов образов выдвигается гипотеза о возможной длине периода, а затем осуществляется проверка гипотезы с учетом количественных параметров образов. Если гипотеза не подтвердилась, выдвигаются новые гипотезы до выполнения некоторого правила останова. При проверке повторения последовательности образов используется условие равенства двух образов. Образы считаются равными, если они одного типа и их числовые параметры близки в смысле некоторой метрики. Это вносит гибкость в алгоритм поиска периода и позволяет учитывать, например, искажения периода. Характеристиками результата поиска являются длина периода в тактах времени и число образов, которые его составляют, указание на то, новый ли это период, или тот же, что и при предыдущем поиске, а также последовательность образов, составляющих период. На рис. 6 показаны примеры как простой, так и достаточно сложной периодичности, найденой программой ActivityAnalyzer, а также выявленного регулярного сигнала с переменным периодом.
Рис. 4.
запрашивает в памяти активность за время от предыдущего запроса до текущего. Активность преобразуется в сжатое внутреннее представление в виде последовательностей специальных образов, и запоминается. После нахождения закономерности посылается сообщение о том, что закономерность найдена и предоставляются ее характеристики. 65
Авторы системы ААУ стремятся также к ее реализации в нейроноподобном виде. Для этой цели разработаны специальные модели нейронов [10,11], назначением которых является автономное обнаружение коррелирующих компонент входного бинарного вектора (автоматическая классификации) с последующим распознаванием. Найденная совокупность корелирующих компонент запоминается в нейроне и интерпретируется как образ, отражающий некоторую неслучайную, повторяющуюся ситуацию в системе «среда-объект управления-УС». Нейрон, сформировавший образ, может его распознавать. Одному нейрону в сети ААУ соответствует один образ. Сеть рассматривается как семантическая. Нейроны в системе ААУ имеют временные
66
задержки, которые соответствуют синаптическим задержкам у биологических нейронов. При нерегулярном соединении нейронов в сеть, когда входные сигналы проходят на пути от сенсоров через разное число нейронов, появляется возможность работы с образами пространственно-временных явлений, в том числе – с образами причинно-следственных связей.
нейронов играл роль элемента задержки сигнала. Для обнаружения некоторого числа повторяющихся комбинаций следует в блоке ФРО (при использовании таких простых моделей нейронов) задать столько таких конструкций, сколько гипотез необходимо проверить. В случае с мобильным роботом, оказалось достаточным ввести в блок ФРО всего 3 таких конструкции (рис. 7), которые реагировали на повторяющиеся оследовательности из двух действий, приводящих к зацикливанию в углах и у стенок, именно: "вперед - назад", "вперед направо - назад направо" и "вперед налево – назад налево". Это позволило УС мобильного робота сформировать образы зацикливания, распознавать их и при распознавании давать сигнал на совершение случайного действия, что приводило к выходу из зацикливания.
Рис. 7.
Рис. 6. Для решения задачи поиска и использования периодических последовательностей действий, нами были разработаны специальные сетевые конструкции для блока ФРО из наиболее простых из указанных моделей нейронов, именно, нейрона, описанного в [1,3]. Для примера использовалась та же компьютерная модель мобильного робота. Эти нейроноподобные конструкции позволяли УС распознавать некоторые нежелательные повторяющиеся действия, связанные с зацикливанием робота в углах ограждения, либо у стенок. Для обнаружения повторений использовались конструкции из двух нейронов, в которых один из 67
Рассмотренные в статье предложенные подходы позволяют управляющей системе робота обнаруживать зацикливания, принимать их или выходить из них, что соответствует 2-му механизму принятия решений в методе ААУ. При этом программный подход обладает на настоящем этапе большими функциональными возможностями, чем нейросетевой. Однако нейросетевой подход также эффективно справляется с задачей и более бионичен. В последующих работах предусматривается развитие обоих подходов и переход к моделированию механизмов управления 3-го уровня.
Список литературы 1. Жданов А.А. Об одном имитационном подходе к адаптивному управлению//Вопросы кибернетики. Научный совет по комплексной проблеме «Кибернетика» РАН. Вып. 2. М.,1996.
68
2. Жданов А.А. Метод автономного адаптивного управления, Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134. 3. Жданов А.А. Накопление и использование информации при управлении в условиях неопределенности.// Информационная технология и численные методы анализа распределенных систем. Сб. науч. тр. Ин-та физ.-тех. проблем. М., 1992. С. 112-133. 4. Жданов А.А., Г.Я. Кантоp, А.Б. Эфpон, И.Г. Hовикова. Построение гомеостазисного автомата с конечным количеством входных переменных. (депонированная работа) ВИHИТИ "Депониpованные научные pаботы", 1984, N2, стp.108, 336. 5. Zhdanov A.A. A principle of Pattern Formation and Recognition.// Pattern Recognition and Image Analisis vol.2, N3,1992, 249-264. (ISSN: 1054-6618). (on p. 263). 6. Жданов А.А. Принцип автономного адаптивного управления. Докторская диссертация, 1995 г. М., ВЦ РАН. (на стр. 39-41). 7. Жданов А. А. Моделирование высшей нервной деятельности // Наука и жизнь. 2000, № 1, с. 58-64, №2, с. 14-16. (на стр. 62). 8. Жданов А.А., Крыжановский М.В. Преображенский Н.Б. Нейронная адаптивная система управления. Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS’2002., С. 115-118. Кацивели. 9. Жданов А.А., М.В. Крыжановский, Н.Б. Преображенский. Бионическая интеллектуальная автономная адаптивная система управления мобильным роботом. // Мехатроника. №1, 2004 (принята редакцией). 10. Zhdanov A.A., A.V. Ryadovikov. Neuron Models in the Autonomous Adaptive Control Method//Optical Memory and Neural Network, Allerton Press, Inc., Vol. 9, No 2, 2000, pp. 115-132. 11. Рядовиков А.В., Жданов А.А., О некоторых формальных моделях нейронов. // Сб. научн. тр. Всероссийской научн.-техн. конференции Нейроинформатика-99, ч. 1. - М.: МИФИ. 1999. C. 202-211.
69
определяют процессы возникновения новых нейронов (или исчезновения уже имеющихся нейронов) в этой области, формирование связей между нейронами и задание весов синаптических связей между нейронами. Инструкции программы составляют геном анимата. Работа формирующихся нейронных сетей оценивается по поведению анимата некоторой естественной функцией приспособленности, которая определяет отбор наиболее эффективных программ, кодируемых геномами аниматов.
Анализ геометрического метода формирования модульной структуры нейронных сетей1
Общая схема метода представлена на рис. 1.
Д.ф.-м.н. В.Г. Редько
Программа формирования нейронной сети
Аннотация. Представлен анализ «геометрического метода» формирования структуры нейронной сети. Метод состоит из специального языка команд-инструкций, на основе которого строятся программы развития структуры и параметров нейронной сети, и эволюционного способа оптимизации программы. Сложная нейронная сеть строится по модульному принципу, и содержит модули как нижних, так и верхних уровней управления, при этом программы формирования модулей разного уровня независимы друг от друга. Метод может быть применен к широкому классу систем автономного адаптивного управления.
Нейросетевая система управления аниматом
Отбор аниматов с высокой приспособленностью
Поведение анимата
Оценка поведения, расчет приспособленности анимата
1. Общая схема геометрического метода В конце 1980 годов ряд исследователей начали работы по автоматическому конструированию нейронных сетей на основе эволюционных алгоритмов [1-5]. Однако предложенные в этих работах сравнительно простые методы имели ограниченное применение и не подходили для решения нетривиальных задач, требующих нейронных сетей большого размера. Для преодоления указанной проблемы сотрудниками Анимат-лаборатории (AnimatLab, Ecole Normale Superieure, Paris, France), руководимой Жаном-Аркадием Мейером, был предложен геометрический метод формирования модульной структуры нейронных сетей [6-8]. Этот метод позволяет конструировать нейронные сети достаточно сложной структуры. Метод был успешно применен к формированию нейронной сети подвижных 6-ногих роботов. В настоящем статье представлены описание и анализ данного метода. Общая схема метода состоит в следующем. Нейронная сеть искусственного организма (анимата) формируется с помощью специальной программы, контролирующей процесс конструирования сети. Эта программа имитирует процесс развития нейронной сети в процессе индивидуального взросления организма. Сама программа оптимизируется с помощью эволюционного алгоритма. Нейронная сеть формируется в двумерной ограниченной области. Программа состоит из инструкций (команд), которые
1
Рис.1. Общая схема геометрического метода формирования структуры нейронной сети. Эта схема иллюстрирует процесс формирования отдельного модуля нейронной сети. Аналогичным образом, к этому модулю могут добавляться новые модули. Причем сначала формируются модули нижних уровней, определяющие инстинктивное, рефлекторное поведение анимата (например, согласованное движение 6-ти ног при прямолинейном перемещении анимата). А затем формируются модули более высоких уровней (например, модуль управляющий остановкой и возобновлением прямолинейного движения), управляющие работой модулей нижних уровней.
2. Программа развития нейронной сети Опишем принципы формирования нейронной сети на основе инструкций программы развития. Процесс формирования определяется как экспериментатором, конструирующим нейронную сеть, так и работой программ развития и эволюционной оптимизацией этих программ. Первоначально экспериментатор выделяет двумерную область (например, прямоугольник). В этой области он задает расположение тех нейронов, которые заведомо необходимы (сенсорные и моторные нейроны). Затем задается множество затравочных нейронов, из которых будет развиваться нейронная сеть. Пример области с расположенными на ней сенсорными, моторными и затравочными нейронами показан на рис.2.
Работа поддержана РФФИ, проект № 04-01-00179 71
72
Преимущество данной модели нейрона состоит в том, что она позволяет аппроксимировать траекторию любой гладкой динамической системы. Примеры инструкций, определяющих программы нейронов, представлены в Таблице 1.
Программа развития нейронной сети
DIVIDE (α, r)
Создать новый нейрон
GROW (α, r, w)
Создать соединение к другому нейрону
DRAW (α, r, w)
Создать соединение от другого нейрона
SETBIAS (b)
Изменить порог нейрона
SETTAU (τ)
Изменить постоянную времени релаксации нейрона
DIE
Удалить нейрон
Таблица 1. Инструкции – команды программы развития нейронной сети – сенсорные нейроны
Инструкции характеризуются параметрами, которые определяют, как именно будет развиваться нейронная сеть. Ниже будет рассмотрен пример, связанный с рис. 3.
– мотонейроны трех разных типов, управляющие разными "мышцами" анимата
Программа развития состоит из подпрограмм. Каждому затравочному нейрону соответствует своя подпрограмма.
– затравочные нейроны
Рис. 2. Схема расположения изначально задаваемых нейронов в прямоугольной двумерной области (по работе [6]). Симметрия схемы связана с тем, что она предназначена для формирования нейронной сети 6-ногого анимата. Каждый из затравочных нейронов имеет свою систему координат, которую он затем использует при формировании дочерних нервных клеток и связей с другими нейронами. Экспериментатор также задает инструкции, из которых будут формироваться программы развития нейросетей, и некоторые синтаксические ограничения на то, как из этих инструкций можно формировать программы. В работах Анимат-лаборатории была использована модель интегрирующего нейрона, согласно которой динамика мембранного потенциала i-й нервной клетки описывается уравнением: τi dmi/dt = – mi ∑ wij xj + Ii,
(1)
где xj = {1+exp [– (mj + Bj )]}-1 – частота импульсов нейрона, Bj – случайный порог нейрона со средним значением bj , τi – постоянная времени релаксации i -го нейрона, Ii – внешний вход i -го нейрона от определенного сенсора, wij – синаптический вес, характеризующий связь j -го от к i -му нейрону.
73
Инструкции каждой из подпрограмм скомпонованы в граф, имеющий корневой узел, команда-инструкция которого применяется к затравочному нейрону. Работа подпрограммы начинается с того, что «затравочная» нервная клетка исполняет инструкцию корневого узла подпрограммы. Одна из инструкций (DVIDE) соответствует делению клетки на материнскую и дочернюю. Формирование дочерней нервной клетки соответствует ветвлению графа подпрограммы; при этом после деления клетки (и соответствующего ветвления графа) инструкция левого узла относится к материнской нервной клетке, а инструкция правого узла – к дочерней клетке. Итак, инструкция DIVIDE соответствует узлу ветвления графа на две ветви. Все остальные инструкции не приводят к ветвлению графа подпрограммы. Некоторые из команд-инструкций терминальные, после этих инструкций процесс развития той нервной клетки, к которой они применяются, останавливается. В процессе эволюции программы испытывают мутации и рекомбинации. Рекомбинации представляют собой обмен подграфами подпрограмм – аналогично тому, как это осуществляется в генетическом программировании [9,10]. Пример применения инструкций показан на рис. 3.
74
– развивающаяся нервная клетка
отбор аниматов с большими приспособленностями, и наиболее приспособленные аниматы дают потомков. Конкретная схема отбора может быть различной. В работе [6] используется несколько запутанный выбор лучшей пары особей из некоторого множества, формирование потомка этой пары и замещение потомком худшей особи из двух случайно выбранных аниматов.
– дочерняя клетка
– другой нейрон A
B
C
α r
β s
t
При формировании потомков применяется три генетических оператора: 1) совместимая рекомбинация подграфов программ выбранных родителей, 2) формирование новых случайных, но допустимых подграфов вместо старых, 3) и случайные мутации параметров, входящих в команды-инструкции.
w
γ
v
В целом схема эволюции типична для генетического алгоритма, однако, необходимо наложение определенных условий на то, чтобы программы потомков не выходили за рамки ограничений, накладываемых на эти программы.
DIVIDE (α,r)
GROW (β,s,w)
GROW (γ,t,v)
4. Принцип модульности. Примеры использования геометрического метода
Рис. 3. Пример развития нейронной сети. Развитие происходит под управлением программы, представленной внизу рисунка. Программа содержит команду деления развивающейся нервной клетки DIVIDE (α,r) и команды формирования связей от материнской GROW (β,s,w) и дочерней GROW (γ,t,v) клеток. Первые два параметра в этих командах определяют углы и расстояния, в соответствии с которыми определяется положение дочерней клетки (для команды DIVIDE) и направление и длина синаптической связи (для команды GROW). Третий параметр команды GROW определяет величину синаптической связи.
Принцип модульности подразумевает, что модули нейронной сети формируются последовательно – сначала один модуль, затем следующий. Например, в работе [6] сначала был эволюционно сформирован 1-й модуль, определяющий согласованное движение 6-ти ног при прямолинейном 1-мерном перемещении анимата, а затем 2-й модуль, управляющий остановкой и возобновлением прямолинейного движения.
Как видно по рисунку 3(A), сначала по команде DIVIDE (α,r) формируется дочерняя клетка на расстоянии r от материнской с "азимутом" α. Дочерняя клетка наследует локальную систему координат материнской клетки. Затем (рис. 3(В)) как материнская (по команде GROW (β,s,w)), так и дочерняя (по команде GROW (γ,t,v)) клетки формируют отростки длинной s и t, и под углом β и γ соответственно. Далее (рис. 3(С)) концы этих отростков подсоединяются к ближайшей из клеток и задаются веса соответствующих синаптических связей. На этом указанный блок программы полагается выполненным. Итак, геном анимата представляет собой определенную программу, однозначно определяющую процесс формирования структуры и весов нейронной сети. Программа состоит из инструкций, которые задают правила расстановки нейронов в заданной геометрической области и формирования синаптических связей между нейронами.
3. Эволюционный алгоритм Эволюционный алгоритм состоит в следующем. Поведение анимата оценивается в соответствии с эвристически задаваемой функцией приспособленности, производится
75
В работе [7] была сформирована нейронная сеть, управляющая 2-мерным движением 6ногого анимата. При этом нейронная сеть состояла из трех модулей: 1-й модуль управлял движением анимата, 2-й модль контролировал работу первого модуля и обеспечивал перемещение анимата к заданной цели, а 3-й модуль обеспечивал перемещение в среде с препятствиями, и был предназначен для минимизации столкновений анимата с препятствиями. Схема модульной структуры этого анимата представлена на рис.4. Модули формировались последовательно (сначала 1-й, потом 2-й, затем 3-й). При формировании 1-го модуля приспособленность анимата оценивалась по скорости его движения (чем больше скорость перемещения, тем выше приспособленность). При формировании 2-го и 3-го модулей 1-й модуль оставался неизменным, а формировались только связи от нейронов новых модулей к нейронам первого модуля. Приспособленность программ 2-го модуля оценивалась по способности анимата находить источник запаха. Приспособленность программ 3-го модуля оценивалась по способности анимата избегать препятствия, случайно разбросанные в области его движения. Программы формирования каждого из модулей были различными, более того, несколько различался синтаксис инструкций и графов, на основе которых формировались программы. Сформированный 76
1-й
модуль
содержал
38
интернейронов
(сформированных
нейронов, обеспечивающих связи между сенсорными нейронами и мотонейронами) и 100 межнейронных соединений. 2-й модуль содержал 6 интернейронов и 22 межнейронных соединения. 3-й модуль содержал 2 интернейрона и 6 межнейронных соединений. Модуль 3
Модуль 2
1. Создается специальный язык команд-инструкций, на основе которого строятся программы развития (онтогенеза) структуры и параметров нейронной сети. 2. Программы оптимизируются эволюционным путем. Схема эволюционной оптимизации близка к таковой в генетическом программировании.
Модуль 1
3. Сложная нейронная сеть строится по модульному принципу: сначала формируются модули нижних уровней управления, а затем модули верхних уровней иерархии управления. Программы формирования модулей разного уровня независимы друг от друга. Данный метод прошел серьезную апробацию при создании нетривиальных систем управления реальными роботами.
Программа развития 3-го модуля
Программа развития 2-го модуля
Необходимо отметить, что использование этого метода подразумевает достаточно серьезную инженерную работу по конструированию языка команд-инструкций и конкретной схемы эволюционной оптимизации программ "онтогенеза" нейронных сетей.
Программа развития 1-го модуля
6. Литература
– сенсорные нейроны
1. W. B. Dress, ``Darwinian optimization of synthetic neural systems,'' in Proceedings of the IEEE First International Conference on Neural Networks, SOS Printing, San Diego, CA, 1987.
– мотонейроны трех разных типов, управляющие разными "мышцами" анимата – затравочные нейроны
2. A. Guha, S. Harp, and T. Samad, ``Genetic synthesis of neural networks,'' Tech. Rep. CSDD-88-I4852-CC-1, Honeywell Corporate Systems Development Division, 1988. 3. D. Whitley, ``Applying genetic algorithms to neural net learning,'' Tech. Rep. CS-88-128, Department of Computer Science, Colorado State University, 1988.
Рис.4. Схема формирования модульной структуры нейронной сети, управляющей движением 6-ногого анимата (по работе [7]). 1-й модуль предназначен для формирования устойчивого перемещения анимата по двумерной плоскости. 2-й модуль управляет движением, направленным на достижение целей (скажем, движение к источнику запаха пищи), 3-й модуль минимизирует столкновения с препятствиями.
4. R. K. Belew, J. McInerney, and N. N. Schraudolph, ``Evolving networks: Using the genetic algorithm with connectionist learning,'' Tech. Rep.CS90-174, CSE, UCSD, CA, June 1990. 5. G. F. Miller, P. M. Todd, and S. U. Hedge, ``Designing neural networks using genetic algorithms,'' in Proceedings of the Third International Conference on Genetic Algorithms, Morgan Kaufmann, 1989.
В работах [6,7] геометрический метод формирования структуры нейронной сети был применен к задаче формирования системы управления аниматами, моделируемыми компьютерной программой, т.е. аниматы "жили" только в компьютере. В работе [8] этот метод был применен к реальному 6-ногому роботу SECT, который был обучен перемещаться по двумерной плоскости и избегать столкновения с препятствиями. Было продемонстрировано, что имитация поведения робота в компьютерных программах, разработанных в Анимат-лаборатории, согласуется с поведением реального робота.
5. Заключение Анализ геометрического метода формирования структуры нейронной сети показывает, что этот метод достаточно универсален и может быть применен к широкому классу систем автономного адаптивного управления. Основные принципы этого метода сводятся к следующему. 77
6. Kodjabachian, J. and Meyer, J.A. (1998). Evolution and Development of Modular Control Architectures for 1-D Locomotion in Six-Legged Animats. Connection Science. 10, 211237. 7. Kodjabachian, J. and Meyer, J.A. (1998). Evolution and Development of Neural Controllers for Locomotion, Gradient-Following, and Obstacle-Avoidance in Artificial Insects. IEEE Transactions on Neural Networks. 9, 796-812. 8. Filliat, D., Kodjabachian, J. and Meyer, J.A. (1999). Incremental Evolution of Neural Controllers for Navigation in a 6-legged Robot. In Sugisaka and Tanaka (Eds.). Proceedings of the Fourth International Symposium on Artificial Life and Robotics. Oita Univ. Press. 9. J. Koza, Genetic Programming: On the Programming of Computers by Means of Natural Selection. The MIT Press, 1992. 10. J. Koza, Genetic Programming II: Automatic Discovery of Reusable Subprograms. The MIT Press, 1994. 78
подходам также относится оригинальный подход, называемый методом автономного адаптивного управления (ААУ) [1], развиваемый в отделе имитационных систем Института Системного Программирования РАН.
Применение генетических алгоритмов для оптимизации адаптивной системы управления мобильного робота на параллельном вычислительном комплексе 1
Методология ААУ позволяет создавать адаптивные системы управления для приложений, в которых создание точных математических моделей объекта управления
Л.В. Земских, Е.К. Самаров, А.А.Жданов, В.В. Бабкова
Аннотация. В работе на примере имитационной модели мобильного робота рассматриваются возможности оптимизации его системы автономного адаптивного управления. С помощью генетических алгоритмов определяются оптимальные параметры конструкции робота и оптимальные параметры нейроноподобной адаптивной системы управления. Рассматриваются схемы реализации используемых алгоритмов на одном компьютере и на вычислительном кластере, позволяющем организовать процесс параллельных вычислений. Ключевые слова: автономное адаптивное управление, мобильные генетические алгоритмы, оптимизация, параллельные вычисления.
роботы,
Настоящая работа посвящена разработке методов синтеза систем ААУ на основе сетей нейроноподобных элементов с помощью применения генетических алгоритмов (ГА).
1. Введение. Постановка задачи Современную деятельность человека трудно представить без использования различных автоматических и автоматизированных устройств. Такие устройства получают все большее распространение во всех сферах человеческой деятельности – от бытовой техники до сложных систем управления производственными процессами. Как известно, автоматические и автоматизированные устройства состоят из аппаратной части и системы управления. Традиционно системы управления конструировались на основе математических моделей объектов управления и их поведения в среде функционирования. В последние годы все более широкое распространение получают системы управления, чьи принципы функционирования относятся к области работы со знаниями – к искусственному интеллекту (ИИ). К системам такого рода относятся экспертные системы, искусственные нейронные сети, системы с подкрепляющим обучением, системы на основе нечеткой логики, и т.п. К развиваемым в этой области
1
затруднено или невозможно. Используя входящие в состав системы ААУ подсистемы (блок датчиков, исполнительные органы, систему формирования и распознавания образов, базу знаний, систему моделирования эмоций, блок принятия решений), система ААУ накапливает эмпирически найденные знания о свойствах объекта управления и находит способ управлять им. Подсистемы организованы в виде структуры, общей для всех систем ААУ. Подсистемы могут быть реализованы на основе различных подходов, в том числе и на основе сетей специальных нейроноподобных элементов [1], разработанных для систем ААУ (везде ниже, говоря о нейроноподобных элементах или о нейронах, мы будем иметь ввиду именно эти модели нейронов, которые существенно отличаются от так называемых формальных нейронов, используемых в традиционных искусственных нейронных сетях). В настоящее время проблемы, связанные с последним вариантом реализации систем ААУ, являются актуальными для дальнейшего развития метода. В частности, при проектировании прикладных систем ААУ на основе сетей нейроноподобных элементов возникают задачи подбора параметров нейроноподобных элементов, проектирования топологий их сетей и задача оптимизации полученных конструкций.
Предложенные в работе методы синтеза могут быть использованы при построении систем ААУ для широкого класса практических приложений. Одной из основных проблем, связанных с методологией ААУ, являлось отсутствие четких рекомендаций по синтезу и оптимизации параметров систем управления, разрабатываемых для конкретных прикладных задач. Наличие методики синтеза и оптимизации систем ААУ позволит получать более эффективные системы управления. Системы ААУ являются новым видом нейроноподобных систем управления. Поскольку такого рода системы имитируют работу биологических нервных систем, то исследования в этой области опираются не только на знания теории управления, распознавания, статистики и других необходимых разделов математических наук, но и на знания основ нейрофизиологии, генетики, биологии развития. Концепция систем ААУ опирается на представление о структуре и функциях нервной системы, которые логически вынужденно следуют из тех условий, в которых существуют нервные системы. Согласно концепции ААУ, такая система управления должна одновременно решать несколько сложных задач, а именно: задачу автоматической классификации,
Работа поддержана РФФИ, проекты № 03-01-00323 и № 04-01-08023-офи 79
80
распознавания, моделирования эмоций, получения, вывода и представления знаний, принятия решений и некоторые другие. К этим свойствам, которые характерны и для системы ААУ, относятся: адаптивность, обучение и управление в одном процессе, многокритериальность управления, независимость от математических моделей объектов управления, универсальность, пригодность для адаптивного управления разнообразными объектами – от технических и технологических процессов до социальных объектов.
скоростью вперед и назад, а также осуществления при движении вперед и назад поворотов направо и налево по дуге окружности постоянного радиуса R (рис.1).
Система ААУ состоит из нескольких функциональных подсистем, ответственных за выполнение каждой из перечисленных выше задач. Именно, это следующие подсистемы: блок датчиков, система формирования и распознавания образов, база знаний и система ее формирования, система принятия решения, блок исполнительных органов (актуаторов). Все основные подсистемы могут быть реализованы на основе сетей специальных нейроноподобных элементов [2]. На сегодняшний день одной из основных нерешенных проблем в рамках методологии ААУ является отсутствие формализованной методики синтеза систем управления для прикладных задач. В виду этого обстоятельства, при синтезе прикладных систем ААУ, используются эвристические соображения и простые математические модели.
Рис.1. Перемещения, которые может совершать мобильный робот.
Синтез системы ААУ представляет собой задачу большой размерности, решить которую аналитически на данном этапе не удается. Для ее решения требуется знать точную модель взаимосвязи параметров, определяющих систему, а также критерии, характеризующие успешность ее реализации. Такие характеристики можно получить только в результате наблюдений серии экспериментов по моделированию поведения системы. В виду отсутствия полной математической модели, связывающей параметры, определяющие систему ААУ с критериями качества ее реализации, задачу синтеза необходимо решать методом подбора параметров. Одним из самых перспективных направлений, реализующим метод подбора параметров, являются генетические алгоритмы. Задачу синтеза систем ААУ можно рассматривать как задачу, состоящую из двух подзадач: задачи подбора оптимальных параметров блока датчиков и блока исполнительных органов (актуаторов) в комплексе, и задачи подбора оптимальных параметров подсистем, входящих в состав непосредственно системы управления. Поскольку генетические алгоритмы требуют больших вычислительных ресурсов, было решено использовать параллельные вычисления на кластере. Предложенные задачи применены к оптимизации программной модели автономного мобильного робота, имеющего целевую функцию – выработка стереотипов поведения при обходе стандартных случайно расставленных препятствий.
2. Описание конструкции робота Мобильный робот имеет круглый в плане корпус, реверсивный движитель и рулевое управление, обеспечивающие возможность передвижения робота по плоскости вдоль заранее определенного относительно корпуса направления с постоянной 81
Рис.2. Система датчиков робота.
Робот имеет семь датчиков: три «визуальных» и четыре тактильных (Рис. 2.). Область обнаружения каждого визуального датчика является частью кругового сектора с центром, совпадающим с центром корпуса робота, и задается угловым раскрытием, а также максимальной и минимальной длиной обнаружения. Ось симметрии области обнаружения центрального визуального датчика совпадает с направлением движения «вперед». Области обнаружения визуальных датчиков делят окружность основания робота на четыре части, каждая из которых является зоной чувствительности тактильного датчика. 82
Определяющими характеристиками конструкции робота являются три параметра (скорость робота v , радиус поворота R , угловое раскрытие центрального сектора ), а остальные параметры выражаются через них. Минимальная длина обнаружения каждого визуального датчика совпадает с радиусом корпуса робота r . Внешний радиус области обнаружения каждого визуального датчика совпадает с максимальным расстоянием, на которое смещается робот за один такт движения в соответствующем направлении (рис.3).
значениями параметров задается неравенствами
v,
R, . Область допустимых значений параметров
r R, R 0 v min v0 , , 2 2 min , 2 0
v arcsin 2R
при r 2 R sin v , v 2R 2 R sin 2R v , при r 2 R sin 2R r
где через v 0 обозначена максимально возможная скорость движения робота. Для каждого робота из популяции вычисляется функция приспособленности его конструкции. С помощью функции приспособленности производится отбор роботов, обладающих наилучшими качествами, для производства следующего поколения роботов на основе операций скрещивания и мутации, которые описываются ниже.
Рис. 3. Относительные размеры полей обзора визуальных датчиков. Если обозначить внешние радиусы областей обнаружения центрального, правого и левого визуальных датчиков через Rc , Rr , Rl , а угловые раскрытия боковых секторов через r , l соответственно, то эти параметры будут удовлетворять следующим соотношениям: Rc v r , Rr Rl 2 R sin
v r, 2R
r v v , , при r 2 R sin 2 R arcsin v 2 2 R 2 R sin r l 2R v при r 2 R sin . , 2 2R
Функция приспособленности конструкции робота - это число, характеризующее степень «правдивости» информации о положении препятствий, поступающей в систему управления роботом от визуальных датчиков. Под «правдивостью» понимается согласованность информации об обнаружении препятствия с возможностями системы управления и исполнителей правильно реагировать на эту информацию. Так, например, в условиях «полной правдивости» информации, если левый визуальный датчик в своей зоне видимости не зафиксировал препятствие, то выполнение исполнителем команды системы управления «вперед-налево» не должно приводить к столкновению.
3.1. Вычисление функции приспособленности конструкции робота
3. Оптимизация конструкции робота Задача оптимизации конструкции робота состоит в том, чтобы подобрать определяющие параметры (скорость робота v , радиус поворота R , угловое раскрытие центрального сектора ) так, чтобы минимизировать количество ложных срабатываний визуальных датчиков. Для решения задачи оптимизации конструкции робота используется генетический алгоритм. С этой целью формируется популяция роботов с некоторыми допустимыми 83
В рассматриваемой модели все препятствия выпуклы, поэтому при столкновении в контакте с роботом участвует только одна точка из границы препятствия. Кроме того, поскольку визуальные датчики лишь фиксируют наличие препятствия в зоне обзора, то для определения оптимальных параметров конструкции робота препятствия можно моделировать точками. В случае, когда препятствие попадает сразу в несколько зон обнаружения датчиков, его можно рассматривать как суперпозицию точечных препятствий, расположенных в зоне видимости соответствующих датчиков. Значение функции приспособленности рассматриваемого робота вычисляется интегрированием по методу Монте-Карло функции, характеризующей согласованность работы датчиков и исполнителей системы управления движением робота.
84
Зона интегрирования по методу Монте-Карло изображена на рис.3 и представляет собой объединение областей обнаружения визуальных датчиков и следов корпуса робота при движениях «вперед», «вперед-направо» и «вперед-налево». Заметим, что существуют наборы допустимых значений определяющих параметров, и это показано на рис.3, при которых имеются части следов корпуса робота, выходящие за пределы зон обнаружения визуальных датчиков. Для реализации метода Монте-Карло в зону интегрирования случайным образом вбрасываются точечные препятствия. Затем с одним и тем же положением препятствия поочередно рассматриваются три варианта движения робота «вперед», «впереднаправо» и «вперед-налево». Для каждого случая вбрасывания точечного препятствия и каждого варианта движения робота вычисляется значение следующей штрафной функции, характеризующей согласованность работы датчиков и исполнителей робота (Таблица 1).
полученное число умножается на площадь S области интегрирования (рис.3). Это и дает значение функции приспособленности конструкции рассматриваемого робота. Реализация процесса вбрасывания точечных препятствий производится с помощью генерирования двумерной псевдослучайной последовательности Соболя. Погрешность интегрирования по методу Монте-Карло вычисляется по формуле
S
f
2
f N
2
,где f
1 N
N
f (x , y ) , i 1
i
i
f
2
1 N
N
f i 1
2
( xi , y i ) .
3.2. Формирование родительских пар Отбор роботов в родительские пары происходит случайно, в соответствии с вычисляемой для каждого робота «вероятностью выбора». «Вероятности выбора» в популяции роботов определяются с помощью следующего алгоритма.
Есть Нет столкновение столкновений Препятствие не зарегистрировано визуальными датчиками «вперед» -10 +1 «вперед-направо» -10 +1 «вперед-налево» -10 +1 Препятствие зарегистрировано центральным визуальным датчиком «вперед» +1 -1 «вперед-направо» -1 +1 «вперед-налево» -1 +1 Препятствие зарегистрировано правым визуальным датчиком «вперед» -1 +1 «вперед-направо» +1 -1 «вперед-налево» -1 +1 Препятствие зарегистрировано левым визуальным датчиком «вперед» -1 +1 «вперед-направо» -1 +1 «вперед-налево» +1 -1
Так как функция приспособленности некоторых роботов популяции может принимать отрицательные значения, то производится сдвиг функции приспособленности в положительную область значений. С этой целью просматривается вся популяция и регистрируется робот с наихудшей приспособленностью f min . Если число f min 0 , то значение функции приспособленности каждого робота f i увеличивается на величину f min 1 . ~ Вычисляется среднее значение функции приспособленности всей популяции f . Для каждого робота определяется параметр pi , равный отношению приспособленности к суммарной приспособленности всей популяции.
его
~ Для тех роботов, у которых значение функции приспособленности f i f , «вероятность выбора» принимается равной 0,1 pi . Параллельно подсчитывается количество M 1 таких роботов и вычисляется сумма ~ p 0,9 pi . ~ Для тех роботов, у которых значение функции приспособленности f i f , ~ p «вероятность выбора» принимается равной pi , где через M обозначена M M1 численность всей популяции.
Таблица 1. После этого все три оценки суммируются. В итоге каждому конкретному случайно выбранному точечному препятствию ( xi , y i ) ставится в соответствие целое число f ( xi , y i ) , заключенное в пределах [-30,+3].
После этого в соответствии с «вероятностями выбора» формируются родительские пары. Каждая пара составляется из двух различных роботов. Допускается вхождение одного и того же робота в несколько родительских пар.
Такая процедура вбрасывания точечных препятствий и подсчета значений штрафной функции проводится N ( 25000 ) раз, затем результаты усредняются, а
Если численность популяции равна M , то формируется M 1 родительская пара. Каждая родительская пара производит одного потомка.
85
86
Робот с наилучшим значением функции приспособленности добавляется к следующему поколению автоматически.
Таким образом, общая схема оптимизации с помощью генетического алгоритма представлена на рисунке 4.
Таким образом, при переходе от поколения к поколению численность популяции M не изменяется.
Начало
3.3. Оператор скрещивания
Формирование исходной популяции роботов
Поскольку конструкция робота характеризуется тремя определяющими параметрами (v, R, ) , то этот набор параметров можно рассматривать как координаты вектора в 3-мерном пространстве. Пусть x и y - 3-мерные векторы, соответствующие двум различным роботамродителям. Тогда робот-потомок строится так:
Обновление базы знаний системы ААУ
Формирование родительских пар
x new x t ( y x ) , Скрещивание роботов-родителей t
где
параметр
1 5 t , 4 4
генерируется
датчиком
случайных
чисел
с
Мутация роботов-потомков
равномерным распределением. Если определяющие параметры робота-потомка не входят в область допустимых значений параметров, то операция скрещивания этих роботов-родителей производится заново.
Вычисление функции приспособленности конструкции для каждого робота
Отбор роботов для новой популяции
3.4. Оператор мутации нет
Каждый робот из популяции с вероятностью p mut может подвергнуться мутации. В результате мутации роботу присваиваются новые значения определяющих параметров, выбранные случайным способом из области допустимых значений.
Останов ГА?
Новые определяющие параметры робота, подвергшегося мутации, выбираются, исходя из нормального закона распределения N , 2 , у которого равно исходному значению параметра, а 2 2 , где - расстояние в 3-мерном евклидовом пространстве между параметрами робота, подвергшегося мутации, и робота из поколения роботов-родителей с наилучшим значением функции приспособленности.
Получение робота с оптимальными параметрами конструкции
да
Конец Рис. 4. Общая схема оптимизации с помощью генетического алгоритма.
Если новые значения определяющих параметров не попадают в область допустимых значений, то операция случайного выбора новых определяющих параметров проводится заново.
87
88
3.6. Организация процесса параллельных вычислений на вычислительном кластере
Начало
Реализация генетического алгоритма на одном компьютере требует больших затрат машинного времени. Генетические алгоритмы в общем случае хорошо поддаются распараллеливанию. Использование вычислительного кластера (кластер Института системного программирования РАН 16 AMD Athlon XP 1500+, Myrinet 2000, N=8 узлов, P=29 Gflops [3]) позволило значительно сократить расход времени, организовав процесс параллельных вычислений. В данном примере оба алгоритма оптимизации распараллеливались идентично. Программа писалась на языке Java +MPI (версия Java 1.4.2_04) с использованием среды разработки параллельных программ ParJava. Среда ParJava предоставляет пользователю реализацию интерфейса MPI на языке Java, а также набор инструментальных средств [4], получающих и анализирующих динамические свойства разрабатываемой программы, помогая тем самым добиваться требуемого уровня эффективности работы. Также, для сравнения, генетические алгоритмы были реализованы на C+MPI. Результаты показали схожее ускорение программ, что видно из графика.
Формирование исходной популяции роботов
Вычисление функции приспособленности конструкции для каждого робота исходной популяции Синтез результатов параллельных вычислений: обмен популяциями для формирования родительских пар, вычисление и отбор лучшего робота во всей популяции
Формирование родительских пар
При написании параллельной версии использовалась так называемая «островная модель» генетических алгоритмов. Островная модель характеризуется тем, что вся популяция делится на несколько подпопуляций, каждая из которых размещается на своем процессоре, которые выполняют генетические операции, а результатами обмениваются посредством миграции. Каждая из этих относительно небольших подпопуляций вычисляется независимо на своем процессоре и время от времени обменивается особями с другими подпопуляциями. На каждом острове подпопуляция подвергается в точности таким же генетическим операциям на таком же генотипе, что и в последовательном алгоритме, и, в результате, отыскивается лучший индивид во всей популяции [5].
Скрещивание роботов-родителей
Мутация роботов-потомков
Вычисление функции приспособленности конструкции для каждого робота Синтез результатов параллельных вычислений: обмен популяциями для формирования родительских пар и вычисление лучшего робота в популяции
Соответственно, можно выделись две группы операций:
локальные операции, выполняемые на каждом процессоре независимо, которые включают в себя вычисление значений функций приспособленности для каждого робота, выбор индивидуумов, операцию скрещивания, мутацию и формирование родительских пар;
Останов ГА? да
обмен роботами между процессорами, предполагающий коммуникацию и синхронизацию.
Получение робота с оптимальными параметрами конструкции Конец
На рисунке 5 приведена общая схема вычислений, где операции из первой группы выделена двойными рамками. Начальная популяция роботов делится по возможности на равные части и в процессе вычислений раз в итерацию цикла производился обмен роботами каждой группы для определения лучшего робота всей популяции и последующего формирования новой популяции. Благодаря небольшому количеству обменов мы получили хорошее ускорение (рис. 6). 89
нет
Рис. 5. Общая схема параллельных вычислений.
90
радиус поворота R =44.158181, угловое раскрытие центрального сектора =0.481133, где за единицы измерения длины и времени приняты, соответственно, радиус корпуса робота и один такт движения.
4. Моделирование системы управления мобильным роботом на основе принципа автономного адаптивного управления 4.1. Состояния блока датчиков Как было отмечено выше, система управления мобильным роботом получает информацию от 7 датчиков (трех визуальных и четырех тактильных). Каждый из датчиков может находиться в двух состояниях: «1» и «0». Состояние «1» свидетельствует о том, что препятствие зафиксировано, состояние «0» показывает, что препятствия нет. Таким образом, в каждый момент времени состояние блока датчиков робота определяется строкой длины 7, состоящей из нулей и единиц. Общее число всевозможных состояний равно 128.
Рис. 6. Ускорение вычислений при использовании вычислительного кластера.
Заметим, что в рассматриваемой модели робота реализуются не все 128 состояний, а всего лишь не более 28. Действительно, во-первых, в силу выпуклости корпуса робота и препятствий невозможно одновременное срабатывание двух и более тактильных датчиков, вовторых, срабатывание каждого из передних тактильных датчиков влечет за собой и срабатывание соответствующего визуального датчика.
3.7. Результаты расчета оптимальных параметров конструкции робота Для контролирования процесса сходимости текущие данные по каждой популяции роботов, полученные в ходе работы генетического алгоритма, выводятся в dat-файлы. В этих файлах отображаются значения определяющих параметров конструкции каждого робота из популяции (скорость робота v , радиус поворота R , угловое раскрытие центрального сектора ), а также значение функции приспособленности конструкции робота и относительная погрешность ее вычисления в процентах.
Если обозначить символами tr , tc, tl , tb состояния правого, центрального, левого и заднего тактильных датчиков соответственно, а символами vr , vc, vl - состояния правого, центрального и левого визуальных датчиков, то весь возможный набор состояний блока датчиков описывается Таблицей 2. № 0 1 2 3 4 5 6 7 8 9 10
Кроме того, заполняется сводный dat-файл по всем популяциям, в который заносятся значения определяющих параметров конструкции «лучших» роботов, т.е. роботов, обладающих наивысшим в популяции значением функции приспособленности, и средние значения функций приспособленности роботов каждой популяции. В результате обработки 500 популяций получились следующие оптимальные параметры конструкции робота: скорость робота v =66.151229, 91
92
tс 0 0 0 0 0 0 0 0 0 0 0
tl 0 0 0 0 0 0 0 0 0 0 0
tr 0 0 0 0 0 0 0 0 0 0 0
tb 0 0 0 0 0 0 0 0 1 1 1
vс 0 0 0 0 1 1 1 1 0 0 0
vl 0 0 1 1 0 0 1 1 0 0 1
vr 0 1 0 1 0 1 0 1 0 1 0
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 1 1 1 1 1 1 1 1 0 0 1 1 0 1 0 1
1 0 0 1 1 0 0 1 1 1 1 1 1 0 0 1 1
1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1
Нейроны 1-го слоя содержат информацию сразу о двух последовательных состояниях блока датчиков. Соответственно, нейроны (n-1) -го слоя содержат информацию об n последовательных состояниях блока датчиков. На каждом такте движения робота составляется список сработавших нейронов. Все эти нейроны, независимо от номера слоя, имеют один и тот же тип, определяемый состоянием блока датчиков робота в текущий момент времени. При получении системой управления робота очередной информации о состоянии блока датчиков список сработавших нейронов обновляется. Каждый из сработавших на предыдущем такте нейронов надстраивается в нейрон, тип которого отвечает текущему состоянию блока датчиков, если он не был надстроен в нейрон этого типа ранее. Надстраивание нейросети происходит так: в следующий слой добавляется новый нейрон, тип которого соответствует текущему состоянию блока датчиков, а его порядковый номер добавляется в список исходящих связей породившего его нейрона предыдущего слоя.
Таблица 2.
Расширение нейросети осуществляется до тех пор, пока число нейронов в сети не достигнет предельного значения.
4.2. Автоматическое формирование и расширение нейросети Для управления движением робота в лабиринте формируется и затем автоматически надстраивается специальная нейросеть, которая строится по следующему принципу. Каждый нейроноподобный элемент (нейрон) имеет четыре характеристики: номер слоя, свой порядковый номер в слое, тип и список исходящих связей (порядковые номера нейронов следующего слоя, порожденных данным нейроном). Тип нейрона определяется состоянием блока датчиков. Под “типом” понимаем следующее. Соединение нейроподобного элемента с датчиками организуется таким способом, чтобы с пары клемм – прямой и инверсной, одного бинарного датчика к одному нейрону могла идти только одна связь. При таком построении, один нейроподобный элемент может иметь только N входящих связей от датчиков. Организуя соединения нейроподобных элементов с датчиками таким способом, можно получить 2N различных типов соединений отдельного нейроподобного элемента с датчиками – по одному на каждую возможную комбинацию бинарных сигналов с датчиков. Нулевой слой нейросети создается до начала движения робота и содержит 28 элементов. Остальные слои нейросети заполняются нейронами по мере их возникновения при надстраивании нейросети на каждом такте движения робота. Нейроны нулевого слоя соответствуют конкретным состояниям блока датчиков робота.
93
В зависимости от решаемой задачи пользователь программы самостоятельно устанавливает предельные значения числа нейронов и числа слоев нейросети.
4.3. Априорная вероятностная база знаний мобильного робота Мобильный робот в рассматриваемом здесь варианте обладает априорной базой знаний, представляющей собой 2-мерный массив с 28 строками и 6 столбцами. Строки соответствуют всем возможным типам нейронов, а столбцы – всем возможным вариантам движений робота («вперед-направо», «вперед», «вперед-налево», «назаднаправо», «назад», «назад-налево»). Элементами каждой строки массива являются априорные вероятности принятия системой управления роботом решений о выборе одного из 6-ти вариантов движения при срабатывании соответствующего типа нейрона. Поскольку при срабатывании передних тактильных датчиков движения робота «вперед-направо», «вперед» и «вперед-налево» физически невозможны, то в строках априорной базы знаний, соответствующих нейронам типов от 16 до 27 включительно (см. Табл.2), первые три элемента равны нулю. Априорная вероятностная база знаний является основой для построения и обновления динамической базы знаний, которая играет важную роль в системе автономного адаптивного управления движением робота.
4.4. Динамическая база знаний и принципы принятия решений В отличие от неизменяемой априорной базы знаний динамическая база знаний мобильного робота постоянно расширяется и обновляется во время его движения. 94
не произошло
До начала движения робота динамическая база знаний совпадает с априорной базой знаний.
не произошло
На каждом такте движения робота при надстраивании нейросети и появлении в ней нового нейрона происходит добавление в динамическую базу знаний новой строки, совпадающей со строкой априорной базы знаний, соответствующей типу появившегося нейрона. Каждому нейрону нейросети отвечает строка в динамической базе знаний. На каждом такте движения система управления фиксирует сработавшие нейроны (нейроны с единичным выходным сигналом) с номерами i1 , i2 , , ik и вычисляет вектор принятия решений
1 Pреш k
k
P m 1
im
нейронам. Компоненты вектора Pреш используются в качестве вероятностей для принятия системой ААУ решения о выборе одного из шести возможных вариантов дальнейшего движения робота.
4.5. Подсистема моделирования эмоций системы ААУ Система ААУ имеет подсистему моделирования эмоций, которая на каждом такте движения робота дает качественную оценку S t текущего состояния объекта управления. В данной версии системы управления мы использовали очень простую подсистему эмоций, в которой качественные оценки заданы изначально и не изменяются автоматически в дальнейшем. Оценка S t выставляется по показаниям датчиков в соответствии с Таблицей 3.
произошло произошло произошло не произошло
+2 +3 +4
Таблица 3. Согласно методологии ААУ, качественная оценка текущего состояния блока датчиков S t является определяющим фактором при построении динамической базы знаний и оценке эффективности работы системы управления мобильным роботом в целом.
4.6. Обновление динамической базы знаний
,
где Pi1 , , Pik - строки динамической базы знаний, соответствующие сработавшим
Столкновение с препятствием в текущем состоянии произошло
не произошло
зафиксировано 2 визуальными датчиками зафиксировано 1 визуальным датчиком не зафиксировано ни одним визуальным датчиком
Препятствие на предыдущем такте движения
Оценка S t
не зафиксировано ни одним визуальным датчиком зафиксировано 1 визуальным датчиком зафиксировано 2 визуальными датчиками зафиксировано 3 визуальными датчиками зафиксировано 3 визуальными датчиками
-4
Обновление динамической базы знаний происходит по следующей схеме. На основании оценки S t текущего состояния блока датчиков, которую выдает подсистема моделирования эмоций на каждом такте движения робота, вычисляется поправка p
S t S t 1 . 8
Если избранный системой управления вариант движения привел к улучшению качественной оценки S t , то поправка p положительна. В случае ухудшения качественной оценки S t поправка p отрицательна. Для внесения изменений в динамическую базу знаний в ней сначала выбираются строки, соответствующие нейронам, сработавшим на предыдущем такте. Затем каждая из этих строк
Pm ( pm1, , pm k , , pm 6 ) преобразуется по следующим правилам.
-3
~ Pm формируется строка Pm , у которой все компоненты за исключением ~ компоненты p , отвечающей последней выполненной команде системы управления,
-2
совпадают с соответствующими компонентами строки
По строке
mk
-1
Компонента
+1
95
96
~ pm k вычисляется по формуле
Pm .
~ pm k
если p m k p, p ( 1 p ), если mk
Начало
p 0, p 0.
Случайный выбор начального положения робота в лабиринте
Исходная строка динамической базы знаний Pm заменяется на строку ~ Pm 6
~p i 1
Определение состояния блока датчиков
.
mi
Формирование списка сработавших нейроподобных элементов
Кроме обновления существующих строк на каждом такте работы системы управления динамическая база знаний пополняется новыми строками, которые соответствуют нейронам, образовавшимся при проращивании нейросети.
Надстраивание сети нейроноподобных элементов
Отметим здесь, что имеются и другие способы построения баз знаний для систем ААУ в нейроноподобном варианте их реализации. Например, нами разработан способ построения базы знаний не на вероятностной основе, который обладает своими особенностями; этот способ подробно описан в [6]. Еще один вариант построения базы знаний для робота описан в [2].
Расширение динамической базы знаний
Вычисление качественной оценки S(t) текущего состояния блока датчиков
4.7. Оценка эффективности работы системы ААУ Принятие системой ААУ решения о выборе варианта движения
Для оценки эффективности функционирования системы ААУ в целом используется характеристика U - среднее значение качественных оценок состояния блока датчиков S t , которые на каждом такте движения робота выдаются подсистемой моделирования эмоций.
Движение робота
Поскольку в начальный период работы система ААУ больше обучается, чем управляет, то расчет характеристики U эффективности работы системы ААУ проводится по наблюдениям, зафиксированным в течение последней трети периода ее функционирования, когда акты обучения уже очень редки. Чем удачнее реализация системы управления, тем выше средняя оценка.
Обновление базы знаний системы АУУ
Останов эксперимента? да
Так как система управления использует в своей работе случайные переменные, то характеристика, полученная в результате наблюдения одного эксперимента по оценке эффективности работы системы, не является точной. Для получения более точной характеристики проводится серия экспериментов и на их основе вычисляется усредненная характеристика. Идеальной считается такая система ААУ, характеристика U которой является максимально возможной, то есть U 4.
Вычисление оценки U эффективности работы системы ААУ
Конец
4.8. Схема проведения эксперимента по оценке эффективности работы системы ААУ при движении робота в лабиринте
Рис. 7. Алгоритм оценки эффективности работы системы ААУ при движении робота в лабиринте.
Для того, чтобы проверить, насколько хорошо функционирует система управления движением мобильного робота в лабиринте, ставится эксперимент, который проводится по следующей схеме (рис. 7). 97
нет
98
5. Оптимизация системы управления мобильным роботом
Начало
Задача оптимизации системы управления мобильным роботом состоит в подборе для робота такой априорной вероятностной базы знаний, которая обеспечивает наиболее эффективное функционирование его системы ААУ.
Формирование нулевого слоя сети нейроноподобных элементов
Для решения задачи оптимизации системы управления мобильным роботом используется генетический алгоритм. Генотипом индивида является априорная база знаний. Отбор роботов с наилучшими качествами для формирования следующего поколения производится с помощью функции приспособленности.
Формирование первоначальной динамической базы знаний
Проведение эксперимента по оценке эффективности работы системы ААУ (рис.7)
Функция приспособленности системы управления роботом – это число, характеризующее степень близости показателя U эффективности работы системы ААУ данного робота к показателю эффективности работы идеальной системы ААУ. Здесь под “идеальной” системой ААУ понимается такая система, которая в пространственной системе оптимизируемых признаков имеет вполне определимые, но на практике недостижимые значения. Однако эти значения можно использовать как точки отсчета для относительного сравнения всех остальных вариантов. Для реализации генетического алгоритма сначала создается исходная популяция роботов с различными априорными базами знаний, которые выбираются случайно. Затем вычисляются вероятности попадания роботов в родительские пары («вероятности выбора»). «Вероятность выбора» конкретного индивида зависит от значения функции приспособленности его системы управления, а также от значений функций приспособленности систем управления роботов всей популяции. После скрещивания каждый робот-потомок с некоторой вероятностью подвергается мутации. В итоге образуется новое поколение роботов. Эта процедура повторяется до тех пор, пока не будет выполнен критерий останова генетического алгоритма (число популяций устанавливается пользователем программы).
нет
Вычисление функции приспособленности системы ААУ
Конец
Рис. 8. Схема расчетов для определения показателя эффективности системы управления. Следует отметить, что при проведении серии экспериментов с одним и тем же роботом каждый последующий эксперимент развивает динамическую базу знаний и нейросеть, которые сформировались в предыдущих экспериментах.
5.2. Формирование родительских пар
5.1. Схема расчета функции приспособленности системы управления Значение функции приспособленности системы ААУ зависит от оценки эффективности ее работы и определяется формулой F
Конец серии экспериментов?
4 . 8 U
Отбор роботов в родительские пары происходит случайно, в соответствии с вычисляемыми для роботов «вероятностями выбора». «Вероятности выбора» определяются с помощью следующего алгоритма. 1.
Процесс определения показателя U эффективности работы системы управления роботом по серии экспериментов и вычисление функции приспособленности проводится по следующей схеме (рис. 8). 99
2.
100
~ Вычисляется среднее значение функции приспособленности всей популяции F . Для каждого робота определяется параметр pi , равный отношению его приспособленности к суммарной приспособленности всей популяции.
3.
~ Для тех роботов, у которых значение функции приспособленности Fi F , «вероятность выбора» принимается равной 0,1 pi . Параллельно подсчитывается количество M таких роботов и вычисляется сумма ~ p 0,9 p .
1
4.
i
~ Для тех роботов, у которых значение функции приспособленности Fi F , ~ p «вероятность выбора» принимается равной pi , где через M обозначена M M1 численность всей популяции.
5.4. Мутация роботов Каждый робот из популяции с вероятностью p mut может подвергнуться мутации, в результате которой его априорная база знаний A
Для 16 i 27, Все
остальные
~ j 0, 1, 2 элементы a элементы
i j
a
ij
aij
где
Генотип каждого робота определяется априорной базой знаний, то есть матрицей A ai j типа 28 6 , элементы которой удовлетворяют следующим соотношениям:
наилучшим значением функции приспособленности.
5
j 0
a~ i j
a~ i j выбираются исходя из нормального закона
5.3. Скрещивание роботов
0 a i j 1 для всех 0 i 27, 0 j 5 ;
~ A
0.
2 с распределения N ,
i j
по следующим правилам.
После этого формируются родительские пары. Каждая пара составляется из двух различных роботов. Допускается вхождение одного и того же робота в несколько родительских пар. Если численность популяции равна M , то формируется M 1 родительская пара. Каждая родительская пара производит одного потомка. Робот с наилучшим значением функции приспособленности добавляется к следующему поколению автоматически.
a заменяется на
2
и
a 27
5
i 0 j 0
bi j , 2
ij
B b i j - априорная база знаний робота из поколения роботов-родителей с
~ A заменяются на нули. ~ Каждая ненулевая строка матрицы A нормируется, то есть ее элементы a~ i j заменяются на Все отрицательные элементы матрицы
a~ i j
a i j 1 для всех 0 i 27 ;
5
a~i j
.
j 0
a i j 0 для всех 16 i 27, j 0, 1, 2 . Пусть A и B - матрицы генотипов двух роботов-родителей. В результате операции скрещивания получается робот-потомок, генотип C которого задается формулой
C A t ( B A) ,
~ Каждая нулевая строка матрицы A заменяется на соответствующую строку исходной матрицы A . ~ Полученная в результате этих операций матрица A удовлетворяет условиям 1-3 пункта 5.3 и используется в качестве генотипа робота-мутанта.
где параметр t t 0 , 1 генерируется датчиком случайных чисел с равномерным распределением. Заметим, что полученная таким способом матрица C при всех значениях параметра t 0 , 1 удовлетворяет условиям 1,2,3 и действительно может рассматриваться в качестве генотипа мобильного робота.
101
5.5. Результаты расчета оптимальных параметров системы ААУ Для контролирования процесса сходимости текущие данные по каждой популяции роботов, полученные в ходе работы генетического алгоритма, выводятся в dat-файлы. В этих файлах фиксируются значения функции приспособленности системы ААУ, числа нейронов в нейросети и априорная база знаний системы ААУ каждого робота из популяции. 102
Помимо этого, заполняется сводный dat-файл по всем популяциям, в который заносятся наивысшие и средние значения функций приспособленности систем ААУ роботов каждой популяции. В этот же файл выводится и окончательный результат работы генетического алгоритма – оптимальная априорная база знаний системы ААУ. В результате обработки 100 популяций получилась следующая оптимальная априорная база знаний (Таблица 4). Таблица 4. Тип нейрона
«впереднаправо»
«вперед»
«впередналево»
«назаднаправо»
«назад»
«назадналево»
0
0.141622
0.183516
0.142791
0.181005
0.192140
0.158926
1
0.108586
0.066873
0.199556
0.278332
0.083482
0.263171
2
0.209672
0.223982
0.197452
0.126108
0.092866
0.149920
3
0.110389
0.115509
0.314849
0.091610
0.205607
0.162035
4
0.193046
0.316465
0.101252
0.119948
0.082261
0.187028
5
0.217434
0.188244
0.126212
0.202834
0.049810
0.215465
6
0.152947
0.213423
0.165188
0.186781
0.081349
0.200312
7
0.279198
0.224800
0.095258
0.103027
0.172960
0.124758
8
0.170527
0.081985
0.171960
0.139070
0.224069
0.212390
9
0.154633
0.180394
0.294573
0.140286
0.028957
0.201157
10
0.082708
0.161329
0.137279
0.211248
0.203411
0.204025
11
0.191846
0.339691
0.116274
0.122461
0.176902
0.052825
12
0.148198
0.108315
0.233745
0.175919
0.121909
0.211915
13
0.205268
0.137347
0.104957
0.079871
0.282393
0.190165
14
0.227979
0.139938
0.119611
0.250579
0.104509
0.157384
15
0.141065
0.118774
0.240665
0.189698
0.167526
0.142273
16
0.000000
0.000000
0.000000
0.353457
0.389900
0.256642
17
0.000000
0.000000
0.000000
0.193515
0.330058
0.476427
18
0.000000
0.000000
0.000000
0.198943
0.171011
0.630045
19
0.000000
0.000000
0.000000
0.177748
0.385197
0.437054
20
0.000000
0.000000
0.000000
0.272198
0.220643
0.507159
21
0.000000
0.000000
0.000000
0.258159
0.406276
0.335565
22
0.000000
0.000000
0.000000
0.243869
0.184708
0.571423
23
0.000000
0.000000
0.000000
0.230332
0.299344
0.470325
24
0.000000
0.000000
0.000000
0.242498
0.396957
0.360544
25
0.000000
0.000000
0.000000
0.279066
0.272603
0.448331
26
0.000000
0.000000
0.000000
0.399899
0.309248
0.290852
27
0.000000
0.000000
0.000000
0.489620
0.258690
0.251690
103
6. Заключение Основные результаты данной работы состоят в том, что были предложены и разработаны способы оптимизации с помощью генетических алгоритмов главных подсистем объекта управления, снабженного системой ААУ, с применением параллельного вычислительного кластера. Оптимизации подверглись параметры блока датчиков, исполнительных устройств, а также вероятностная база знаний управляющей системы. Блок датчиков и исполнительные устройства оптимизировались как одно целое, при этом варьировались такие параметры, как скорость, радиус поворота и угловое раскрытие центрального сектора. Минимизировалось число ложных срабатываний визуальных датчиков. Оптимизация системы управления мобильным роботом состояла в подборе наиболее эффективной вероятностной базы знаний. Обе задачи были решены с помощью генетических алгоритмов. Были найдены подходы к реализации оптимизационных программ в параллельном варианте на вычислительном кластере, что позволяет существенно снизить временные затраты на расчеты. В целом результаты данной работы существенно развивают методику построения прикладных систем управления на основе метода ААУ.
Литература 1. А.А. Жданов, Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134. 2. А.А. Жданов, М.В. Крыжановский, Н.Б. Преображенский, Бионическая интеллектуальная автономная адаптивная система управления мобильным роботом // Мехатроника, 2004, №1, С. 21-30 и №2, С.17-22 (часть 2). 3. http://www.ispras.ru/groups/ctt/ispran.html 4. Victor Ivannikov, Serguei Gaissaryan, Arutyun Avetisyan, Vartan Padaryan. Improving properties of a parallel program in ParJava Environment // The 10th EuroPVM/MPI conference. LNCS 2840. Sept. 2003, Venice. pp. 491-494. 5. Rajkumar Buyya “High Performance Cluster Computing”, Prentice Hall PTR, vol.2, pp 331-349. 6. Л.В. Земских, Возможности оптимизации системы автономного адаптивного управления с помощью генетических алгоритмов. Препринт №3 Института системного программирования РАН, Москва, 2004.
104
резонанса [1, 2] и ее простейшая реализация, которую в литературе принято обозначать ART-1.
Система управления автономным мобильным роботом на основе адаптивного резонанса1
2. Программная модель мобильного робота Для исследования и демонстрации свойств УС в качестве объекта управления выбрана
А. В. Сыцко
Аннотация. В данной работе рассматривается подход к построению автономной адаптивной системы управления с использованием искусственных нейронных сетей на примере управления мобильным роботом.
простейшая программная модель мобильного робота (рис. 1а), представляющего собой тележку с колесным приводом и управляемыми передними колесами, обеспечивающими движение по дуге заданного радиуса. Реверсивный движитель обеспечивает движение передним и задним ходом. За один такт времени робот может совершить передвижение по одной из 6-ти траекторий (рис. 1б). Робот имеет цилиндрический корпус и снабжен визуальными (например, лазерными или сонарными) и тактильными (бамперными) датчиками (рис 1а). Визуальные датчики обеспечивают регистрацию препятствий в одном из секторов обзора, характеризуемых углом отклонения от направления «вперед» и расстоянием от корпуса робота. Тактильные датчики регистрируют соударения модели с препятствиями.
1. Введение В настоящее время все чаще возникают задачи управления при отсутствии точных математических моделей объекта управления (ОУ) и окружающей его среды. Одним из подходов к решению этой проблемы является методология автономного адаптивного управления (ААУ), разрабатываемая в отделе имитационных систем Института системного программирования РАН [4, 5]. В данной работе основные принципы ААУ использованы для построения управляющей системы (УС) моделью автономного мобильного робота, описанной в [6]. Основным механизмом, использующимся для реализации систем ААУ, являются сети из специальных нейроподобных элементов. Эти специальные модели биологических нейронов способны изменять свое функционирование в зависимости от накапливаемой ими статистики по входным векторам. Благодаря своей способности выделять неслучайные компоненты во входных данных, сети на базе таких нейронов удобны для реализации систем ААУ. Однако было бы полезно найти способы реализации систем ААУ также и на основе «классических» искусственных нейронных сетей (ИНС). Это позволило бы интегрировать метод ААУ в сферу ИНС, использовать в системах ААУ полезные свойства ИНС, привлечь специалистов по ИНС. Но, к сожалению, как выяснилось в результате данной работы, подходы, используемые в «классических» искусственных нейронных сетях, мало применимы для построения систем ААУ. Тем не менее, некоторые решения были получены. Именно, в данной работе была предпринята попытка использования традиционных нейроподобных сетей для реализации систем ААУ, а точнее одной из ее компонент УС – подсистемы формирования и распознавания образов. Для этого была использована разработанная в 1987 г. Гроссбергом и Карпентером теория адаптивного
1
Рис. 1а.
Основная задача, ставившаяся перед УС робота – выработка стереотипов поведения при обходе стандартных препятствий, размещенных случайным способом в среде. Расположение препятствий подобрано таким образом, чтобы робот мог легко попадать в новые ситуации, но при этом чтобы соударения не происходили слишком редко. Изначально в УС не закладывается никаких априорных знаний, ни о самих препятствиях, ни о каких-либо правилах их обхода. Основываясь на «эмоциональной» оценке положения модели по отношению к окружающей среде в каждый такт, робот должен сам понять, каким показаниям каких датчиков соответствуют соударения с препятствиями и какие действия необходимо предпринять, чтобы их избежать.
3. Система управления Управляющая система (УС) робота в данной работе была основана на принципах ААУ и с использованием известного метода reinforcement learning [8].
Работа поддержана РФФИ, проекты № 03-01-00323 и № 04-01-08023-офи 105
Рис. 1б.
106
Управляющая система была построена максимально независимо от конкретного ОУ и среды его обитания.
число характерных черт для того, чтобы отнести его к какому-либо из уже созданных кластеров, сеть ART-1 создает новый кластер, инициализируя его этим вектором. На выходе подсистемы получается номер заново созданного или распознанного кластера. Этот номер можно назвать «образом». Если данный образ еще не встречался УС раньше, то УС может выбрать произвольное из возможных для ОУ действий, так как управляющая система не располагает изначально никакими правилами поведения. Если же образ уже встречался, то необходимо принять во внимание накопленные ранее знания о действиях ОУ в аналогичной ситуации и результатах, к которым они привели. Данная задача решается с помощью подсистемы, называемой «база знаний». База знаний осуществляет хранение и использование «знаний» в виде троек вида «образ»«действие»-«результат». Ниже мы раскроем эти понятия.
Рис. 2. Схема функционирования УС мобильного робота. В блоках показаны примеры значений переменных. В начале каждого такта управления показания всех датчиков преобразуются в бинарную форму (например, по принципу: «1» означает, что есть препятствие в секторе, «0» - иначе) и объединяются в двоичный вектор. Положение отдельных компонент данных в этом векторе не имеет значения, так как УС сама учится понимать, что означают те или иные данные. Подобная однородность данных – одна из замечательных черт описываемого метода. Она делает алгоритм работы системы независимым от специфики используемых датчиков и, в целом, от природы входной информации. Полученный таким способом бинарный массив поступает на вход подсистемы динамической кластеризации и распознавания. Задача этой подсистемы заключается в объединении данных в кластеры непосредственно в процессе жизни ОУ. В этом состоит принципиальное ее отличие от обычно используемых алгоритмов решения задач кластеризации, когда все возможные входные вектора предоставляются сразу. В качестве реализации этой подсистемы выбрана нейроподобная сеть ART-1. Основные принципы работы ART-1 подробно описаны в [3]. Эта сеть содержит два уровня нейронов. Соответствующие друг другу пары нейронов с разных уровней, представляют собой один кластер. Веса верхнего слоя содержат нормализованный вектор – центр кластера, который модифицируется в процессе обучения. Веса нижнего слоя дискретны и являют собой «характерные черты» кластера. В процессе работы, в случае, если поступивший для кластеризации входной вектор содержит недостаточное 107
Помимо блока датчиков, ОУ взаимодействует со средой посредством актуаторов, которые УС активизирует своими выходными командами - действиями. В нашем случае «действие» - это одно из шести возможных движений платформы, осуществляемых колесным приводом. Как и в случае с датчиками, УС изначально не знает, к чему приводит то или иное движение, и начинает понимать это только в процессе обучения. После совершения какого-либо действия, ОУ оказывается в новой ситуации. Присутствующий в УС аппарат эмоций, основываясь на новых показаниях датчиков, выдает интегральную оценку состояния робота на текущий момент (например, если в результате предпринятого действия произошло соударение с препятствием, то это «плохо», а если не произошло, то «хорошо»). УС изначально понимает, «что такое хорошо, что такое плохо», т. е. может интерпретировать эту оценку, называемую «результатом» осуществленного действия. В этом и состоит основной принцип работы: имея в базе знаний для какого-либо распознанного образа О1 записи о том, что действие А1 привело к соударению, а действие А2 не привело, УС уже обладает необходимыми знаниями для того, чтобы обойти препятствие, попавшее в поле зрения ОУ. Таким образом, в процессе жизни ОУ решается задача максимизации эмоциональной оценки, что способствует решению глобальных задач выживания (в нашем случае, это избегание соударений) ОУ и накопления знаний.
4. Полученные результаты Для тестирования УС была использована моделирующая система на базе модели мобильного робота «Гном № 8» [6, 7]. Ниже на графике представлено изменение числа столкновений и количества новых знаний в единицу времени (за 5000 тактов, т. е., например, число столкновений в процентах от числа тактов). Таким образом, можно видеть, что число соударений с 2,5% в начальный период жизни робота падает до 0,1 % в процессе обучения. График количества приобретенных новых знаний за те же промежутки времени повторяет график соударений. Это происходит, например, из-за
108
того, что число соударений может увеличиться, когда робот попадет в неисследованный им до этого участок карты, где встретится с новыми ситуациями, действовать в которых он еще не обучен, и «методом проб и ошибок» получит новые знания. Но так как препятствия расставлены в пространстве однородно, то 95% всех своих знаний робот получает в самом начале.
Но, в то же время, показана сложность применения ИНС при решении задач ААУ. В классическом виде для использования ИНС необходима процедура обучения на заданном наборе входных векторов, что противоречит условию адаптивности. В описанной УС для реализации блока распознавания и кластеризации упомянутой УС было предпринято несколько отступлений от классической модели ART-1. Помимо этого, остальные компоненты УС, такие как, например, база знаний, были реализованы простым алгоритмическим способом. Направлением дальнейших исследований может стать поиск более универсального эффективного и изящного способа применения ИНС для реализации метода ААУ.
Литература
По нижней оси отложено число пройденных тактов в масштабе 1 : 5000. По вертикали – процент столкновений (черным) и удельное число новых приобретенных знаний (нижний график).
1. G. A. Carpenter and S. Grossberg, A Massively Parallel Architecture for a SelfOrganizing Neural Pattern Recognition Machine, Computer Vision, Graphics, and Image Processing 37, 54-115 (1987) 2. S. Grossberg, Competitive Learning: From Interactive Activation to Adaptive Resonance, Cognitive science 11, 23-63 (1987) 3. Уоссерман Ф., Нейрокомпьютерная техника: теория и практика, М.: Мир (1982) 4. Жданов А. А. , Арсеньев С. В, Половников В. А., Об одной методологии автономного адаптивного управления. Труды Института системного программирования РАН. 1999. Том 1. М.: Биоинформсервис, 2000.-С. 66-83. 5. Жданов А. А., Метод автономного адаптивного управления, его свойства и приложения. Интеллектуальные системы. С. 1-14 6. Жданов А. А., Крыжановский М. В., Нейронная адаптивная система управления. V всероссийская научно-техническая конференция Нейроинформатика-2003, Сборник научных трудов, Ч. 1. М.: МИФИ, 2003. С. 163-168. 7. Жданов А.А., Крыжановский М.В., Преображенский Н.Б. О возможности создания сис-тем автономного искусственного интеллекта.// Интеллектуальные и многопроцессорные системы-2001// Тезисы докладов Международной научной конференции. Таганрог: Изд-во ТРТУ, 2001. С. 245-248. ISBN 5-8327-0089-9. 8. Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998
5. Заключение Таким образом, продемонстрирована возможность обучения и эффективного управления ОУ, с УС сконструированной по описанным принципам. Приведенный здесь результат показывает работоспособность предложенной методологии. Свойство независимости алгоритма от семантики входных и выходных параметров должно обеспечить его применимость к решению самых различных задач. Различные УС будут отличаться только реализацией «учителя» - аппарата эмоций, который выставляет оценки действиям ОУ. Для этого, конечно, оценки должны соответствовать семантике входных данных. 109
110
изменения в окружающей среде и насколько точно система может прогнозировать ее изменения. В данной работе мы опираемся на методологию «Автономного Адаптивного Управления» (ААУ) [6-9], ключевым моментом которой, является декомпозиция системы на следующие функциональные подсистемы: а) системы
Совмещение подходов адаптивного управления и детерминированного хаоса для построения эффективных автономных управляющих систем1
датчиков, б) системы формирования и распознавания образов, в) базу знаний, г) подсистема эмоциональной оценки и д) подсистема актуаторов. Такое деление является достаточно условным с точки зрения имитации естественных системы управления, тем не менее, оно позволяет нам выделить те функциональные подсистемы, в которых можно использовать технологии детерминированного хаоса, что может повысить эффективность систем управления.
А.Е. Устюжанин, А.А. Жданов
Аннотация. Проектирование и построение систем автономного адаптивного управления (ААУ) включает в себя несколько этапов. Процедура разработки каждого из них во многом определяется спецификой использования системы. Требования, предъявляемые к функциональным подсистемам, также определяются спецификой предметной области. В данной работе рассматриваются возможные предметные области, эффективность работы в которых достигается посредством использования технологий детерминированного хаоса. Рассмотрены возможности совмещения двух подходов, отмечены позитивные и негативные стороны такого совмещения. Приведены примеры и оценки, позволяющие сделать заключение о жизнеспособности предлагаемого композитного подхода.
1. Введение Исследование систем детерминированного хаоса является сравнительно новой областью математики. Несмотря на свою новизну, эта область сегодня имеет весьма широкий спектр практических применений. Так, обладая довольно сложными особенностями поведения, искусственные системы детерминированного хаоса [1–5], позволяют эффективно запоминать весьма протяженные последовательности. Наиболее интересным свойством памяти, построенной на данном принципе, является ее ассоциативность. В отличие от обычной линейной организации памяти, лежащей в основе подавляющего большинства вычислительных машин, ассоциативная память обладает следующими преимуществами: а) возможностью воспроизведения/распознавания полного образа по его части даже при наличии погрешности во входных данных, б) время восстановления (воспроизведения) полного образа не зависит от объема записанных данных. С точки зрения построения управляющей системы, эффективность управляющей системы определяется тем, насколько оперативно система может реагировать на
1
Помимо описания архитектуры системы ААУ, в данной работе рассмотрены контексты применения управляющих систем, в которых затраты на реализацию подсистем детерминированного хаоса оказываются оправданными. В Заключении приведены направления дальнейших работ и исследований, которые могут способствовать расширению спектра применения описываемого подхода.
2. Детерминированный хаос Системы, использующие детерминированный хаос, будем называть хаотическими процессорами. Хаотический процессор может хранить всю историю существования системы, записанной в него определенным способом. Рассмотрим принцип работы хаотического процессора на следующем примере. Допустим, необходимо сохранить последовательность символов ‘abcdxndk’. Для построения хаотического процессора мы строим отображение специального вида: Xn+1 = F(Xn) Для нашего примера F( ‘a’ ) = ‘b’, F(‘b’) = ’c’, и т.д. Обладая информацией о некотором фрагменте искомой последовательности и последовательно повторяя вызовы функции F, мы можем воспроизвести всю сохраненную последовательность целиком. На рис. 1 показаны примеры построения отображений F. На рис. 1а построено отображение F, соответствующее слову «забег» в алфавите «а б в г д е ж з и к». Для записи более сложных последовательностей используются такие вспомогательные техники, как кодирование и вариация глубины кодирования [1]. На рис. 1б построено отображение F, соответствующее последовательности “1 2 3 7 4 2 3 7 5 4 8 9 0 5 4 1 2 3 7 6 3 8 5 4” в алфавите “0123456789”.
Работа поддержана РФФИ, проекты № 03-01-00323 и № 04-01-08023-офи 111
112
работе с памятью такого вида. Отметим также, что данная технология не накладывает никаких принципиальных ограничений на длину записываемых последовательностей.
10 9 8 7 6 5 4 3 2 1 0
Слабым местом использования хаотических процессоров является требования достаточной уникальности данных. Так, сохранив слово «забег» в одном процессоре, мы потеряем все свойства ассоциативности, если захотим записать в тот же процессор слово «побег». Оба слова обладают слишком большой общей частью – «бег», которая должна быть закодирована с использованием обычных технологий записи/чтения. 0
1
2
3
4
5
6
7
8
9
В [5] показано, что данный способ хранения информации позволяет воспроизвести записанный образ даже при наличии искажений последовательности-образце. Также в [5] было отмечено, что данный способ записи информации схож со способом представления информации в нервной системе человека.
10
а) 16 14
3. Теоретическое обоснование
12
Как отмечалось ранее, использование детерминированных хаотических систем позволяет использовать все преимущества ассоциативной памяти. Именно этот принцип может стать ключевым для построения эффективных систем управления. С конструктивной точки зрения подхода ААУ, использование хаотического процессора может стать оправданным в одной из подсистем:
10 8 6 4 2
база знаний или аппарат формирования и распознавания образов
0 0
5
10
15
Схематически варианты декомпозиции управляющей системы показаны на рис. 2. Хаотический процессор обозначен оттененным прямоугольником.
б)
Рис. 1. Отображения xn+1 = F(xn), содержащие слова «забег» (а) и последовательность “1 2 3 7 4 2 3 7 5 4 8 9 0 5 4 1 2 3 7 6 3 8 5 4” (б).
Построив схему представления состояний управляющей системы в некотором конечном алфавите, мы получаем возможность сохранять последовательности изменений состояний системы. Важная особенность данной технологии записи информации состоит в том, что время воспроизведения записанной последовательности не зависит от длины этой последовательности, а также посредством этой технологии можно воспроизвести всю последовательность, располагая любой уникальной подпоследовательностью исходной последовательности. Эта особенность обеспечивает свойство ассоциативности при
113
Использование хаотического процессора в подсистеме базы знаний по сравнению с его использованием в блоке ФРО могло бы предоставить большую гибкость работы с образами самого низкого уровня. Однако такое совмещение может оказаться причиной неэффективного использования хаотического аттрактора, когда хранение похожих подпоследовательностей требует сохранения их общей части в линейной памяти. В некоторых случаях, когда длину общих подпоследовательностей можно предсказать на этапе программирования или заранее известно, что их длина не превышает определенного порога, можно использовать эту информацию для построения хаотического процессора. Однако в общем случае очень сложно оценить такие величины. Возможным выходом является перестройка хаотического процессора «на лету», с использованием параметров, полученных эвристически. На данном этапе использование перестройки или трансформации хаотического процессора находится на стадии исследования, в связи с чем на данном этапе используется схема 2а.
114
возможность построения длительного прогноза поведения объекта управления и окружающей среды.
а)
б) Рис. 2. Альтернативы использования хаотического процессора в управляющей системе ААУ. Обмен информации между функциональными подсистемами ААУ происходит по схеме, показанной на рис. 3. Построенная таким образом схема взаимодействия подсистемы ФРО и БЗ может в полной мере использовать преимущества включения хаотического процессора:
Рис. 3. Алгоритм взаимодействия ФРО, хаотического процессора и базы знаний
возможность нахождения образа по его части, возможность использования искаженной входной информации об образе,
115
116
Вопрос выявления самоповторений в очереди подсистемы ФРО заслуживает отдельного внимания, так как образы, содержащиеся в этой очереди, могут оказаться весьма зашумленными. Выявление и сохранение зашумленных образов представляют собой отдельное направление наших исследований.
4. Примеры совмещения подходов Разработка и построение систем ААУ во многом определяется контекстом их применения. Исходя из свойств хаотических процессоров, мы можем заключить, что эффективность работы систем управления, построенных на предлагаемом подходе, достигается в предметных областях, обладающих следующими свойствами: -
протяженность образов во времени и/или пространстве уникальность образов
На данный момент количественные оценки или критерии, которыми можно руководствоваться для определения применимости подхода, находятся на стадии разработки, и единственным достоверным способом определения эффективности является практическая реализация системы управления. Авторами выполнена разработка системы управления роботом в лабиринте препятствий и показана успешность использования предлагаемой концепции [9,10]. Следующие области применения, могут оправдать использование хаотического процессора в управляющих системах.: -
-
Система анализа трафика Internet, с помощью которой необходимо уметь оперативно выявлять характерные паттерны атак на Internet-узлы. Необходимость хранения большого количества паттернов возможных атак и их достаточная уникальность делают уместным использование систем ААУ и хаотических процессоров для таких систем. Система предиктативного кэширования информации, в которой информация кэшируется не только на основании запрошенных ранее URL, но и на основании прогноза, построенного на анализе последовательности URL, запрошенных пользователем.
процессоров. Данное исследование, в частности, включает в себя рассмотрение подходов к трансформации хаотического процессора и эвристик, которые могут быть использованы для предсказания параметров целевого процессора. Наряду с трансформационными задачами находится задача выявления зашумленных образов и эффективная работа с ними посредством технологий детерминированного хаоса. Другое направление исследований состоит в выявлении контекстов, в которых описываемый метод может оказаться эффективным. Это направление оказывается тесно связанным с выявлением и формулировкой критериев эффективности предлагаемого метода, которому на данный момент уделяется наибольшее внимание.
Литература 1. Aндреев Ю.В., Дмитриев А.С., Куминов Д.А. Хаотические процессоры // Успехи современной радиоэлектроники — М.: 1997 — N 10. 2. Шарковский А.Н., Коляда С.Ф., Сивак А.Г., Федоренко В.В. Динамика одномерных отображений. — Киев: Наукова думка, 1989. 3. Шустер Г. Детерминированный хаос. Введение. — М: Мир, 1988. 4. Дмитриев В.А. Запись и восстановление информации в одномерных динамических системах.//Радиотехника и электроника. — М.: 1991 — т. 36 — N 1 — с 101–108. 5. Андреев Ю.В., Бельский Ю.Л., Дмитриев А.С. Запись и восстановление информации с использованием устойчивых циклов двумерных и многомерных отображений. // Радиотехника и электроника, М.: 1994– т.39 — с.114–123. 6. Жданов А.А. О подходе к моделированию управляемых объектов.// Пpепpинт ВЦ РАH СССР 1991. 7. Zhdanov A.A.. Application of Pattern Recognition Procedure to the Acquisition and Use of Data in Control.// Pattern Recognition and Image Analysis — 1992 — vol.2 — N 2. 8. Жданов А.А. Об одном имитационном подходе к адаптивному управлению. // Сб. "Вопросы кибернетики". Научный совет по комплексной проблеме "Кибернетика" — РАН. М., 1996 — Вып. 2. 9. Жданов А.А., Устюжанин А.Е., Возможности использования технологии детерминированного хаоса в системах автономного адаптивного управления. // Тр. Ин-та системного программирования: М.: ИСП РАН, 2001. — С. 141–179. 10. Жданов А.А., Устюжанин А.Е., Использование технологий детерминированного хаоса для реализации памяти систем автономного адаптивного управления // МФТИ-2002
Возможность использования предлагаемого подхода в прочих контекстах находится в процессе исследования.
5. Заключение и дальнейшие направления исследования В данной работе мы описали способ совмещения систем ААУ с хаотическими процессорами. На данный момент реализован вариант использования хаотического процессора в системе ФРО [9,10]. Приведены примеры успешного совмещения подходов. Дальнейшие направления исследований включают в себя рассмотрение возможности встраивание хаотических процессоров в базы знаний; совместного использования ФРО и БЗ, спроектированных с использованием хаотических
117
118
AdCAS - система автономного адаптивного управления активной подвеской автомобиля1
а также увеличить комфортность автомобиля для пассажиров и водителя, обеспечить сохранность перевозимых грузов. С другой стороны, подвеска должна быть по возможности более жесткой, чтобы увеличить устойчивость и управляемость автомобиля, именно – чтобы не возникали опасные крены на поворотах, не было клевков корпуса автомобиля при разгоне и торможении, разгружающих переднюю или заднюю оси автомобиля.
А.А. Жданов, Д.Б. Липкевич2
Аннотация. Представлена система AdCAS (Adaptive Control of Active car Suspension), разработанная на основе метода автономного адаптивного управления (ААУ) и предназначенная для автоматического адаптивного управления активной подвеской транспортного средства, а также результаты компьютерного моделирования процесса работы этой системы.
1. Введение 1.1. Подвеска автомобиля. Активная подвеска. Существующие системы управления подвеской Подвеска автомобиля (рис. 1) выполняет одновременно несколько важных функций, от ее конструкции и рабочих характеристик зависят управляемость, устойчивость, плавность хода и другие свойства автомобиля, определяющие его безопасность, комфортность, надежность и экономичность. Так, на динамичность, устойчивость и управляемость автомобиля влияют кинематические характеристики подвески. Надежность автомобиля во многом зависит от надежности колес и подвески, так как они находятся ближе всего к дороге и подвергаются самым тяжелым условиям эксплуатации. От свойств подвески зависит физиологическое и эмоциональное состояние водителя и пассажиров, поскольку вибрации, быстрые и резкие изменения положения тела сильно утомляют человека, известно, что усталость напрямую зависит от изменений ускорения и частоты колебаний. Основная проблема конструирования подвесок состоит в том, что требования к подвеске со стороны устойчивости, управляемости и комфортности оказываются противоречивыми. Так, с одной стороны, подвеска должна быть по возможности более мягкой, чтобы исключить отрыв колес от дорожного полотна при наезде на неровность,
Рис. 1. Пример подвески легкового автомобиля. При описании подвески одного колеса учитывают (рис. 2): упругую шину, неподрессоренную массу m (колесо и части подвески), параллельно соединенные упругий (пружина) и демпфирующий (амортизатор) элементы, которые поддерживают корпус автомобиля – подрессоренную массу M (масса ¼ части корпуса автомобиля). Упругие элементы принимают на себя удары со стороны неровностей дорожного покрытия, преобразуя их в затухающие колебательные движения, а демпфер гасит эти колебания. Свойства подвески определяются ее характеристиками, основные из которых описывают упругость пружины и вязкость амортизатора в зависимости от различных фаз их движения. В большинстве обычных автомобилей характеристики подвески выбираются в результате поиска компромисса между противоречивыми требованиями устойчивости, управляемости и комфортности. Характеристики подвески оптимизируют с точки зрения среднестатистических условий, в которых будет работать данный автомобиль. Рассчитывается усредненное значение массы автомобиля с учетом возможного веса его груза, оценивается и учитывается характер и качество дорожного покрытия тех дорог, для которых разрабатывается данный автомобиль, требования к динамическим свойствам данного автомобиля, зависящие от его назначения (спортивный автомобиль, пассажирский, грузовой, специальный и т.п.). Характеристики таких подвесок не
1
Работа поддержана проектом с ATS Soft В работе принимали участие также В. Погребняк, Х. Саргсян, А. Есенков, А.Бойченко, А. Рапопорт и другие. 119
2
120
меняются в процессе эксплуатации автомобиля, если не считать изменений, связанных с износом деталей подвески.
выбирая из двух-трех вариантов – спортивного (жесткая подвеска) или обычного (мягкая подвеска). Например, в подвеске “Hydractive”, устанавливавшихся на автомобилях Citroen XM, упругость подвески регулировалась пневматическими амортизаторами: на каждом мосте установливалось три пневматических резервуара,
демпфер (амортизатор)
работающих в роли амортизатора. У водителя имелся кран, которым он мог задействовать только два, либо все три резервуара. В первом случае подвеска становилась более жесткой, во втором – более мягкой, чем и обеспечивалось изменение свойств подвески. Водитель мог также изменить клиренс, например, в зависимости от скорости движения, качества дороги, а также при остановке автомобиля.
шина упругий элемент (пружина)
Рис. 2.
профиль дороги
Иногда обеспечивается возможность изменения характеристик подвески вручную непосредственно в процессе движения автомобиля. Однако такие манипуляции могут отвлекать водителя от управления автомобилем и известны случаи, когда это увлекательное занятие приводило к авариям. Подвески, параметры которых могут изменяться с целью управления, стали называть «активными», однако это не строгий термин, и в каждом случае полезно уточнить, что именно имеется в виду. Это же касается и слова «адаптивный», под которым может пониматься что угодно, начиная от возможности регулирования подвески вручную.
Схема подвески одного колеса автомобиля; x(t) – вертикальная координата оси колеса, y(t) – вертикальная координата корпуса автомобиля в опорной системе координат, t – время.
Однако очевидно, что подвеска, оптимизированная по всему диапазону условий эксплуатации автомобиля, оказывается неоптимальной в каждой из конкретных текущих дорожных ситуаций, отличающихся от расчетной среднестатистической. Так, при движении автомобиля по сравнительно гладкой дороге оптимальной является более жесткая подвеска, при движении этого же автомобиля по неровной дороге хотелось бы, чтобы подвеска становилась более мягкой. При движении по прямому участку дороги можно иметь более мягкую подвеску, увеличивающую плавность хода, а при прохождении поворотов, при разгоне и торможении подвеска должна становиться более жесткой, чтобы обеспечить устойчивость автомобиля, не допускать большого крена, тем более - опрокидывания. Хотелось бы также изменять жесткость подвески при изменении веса груза. Имеются и много других факторов, от которых могут зависеть желаемые оптимальные в текущих условиях характеристики подвески (ускорение автомобиля, радиус поворота и т.п.). Уже давно появились попытки конструирования таких подвесок, которые позволяли бы управлять их характеристиками вручную или автоматически. Например, водителю предоставляется возможность настраивать подвеску перед выполнением конкретной поездки в соответствии с ее планируемыми свойствами. Так, в некоторых автомобилях можно изменять высоту клиренса (дорожного просвета), или жесткость подвески,
121
Попытки построения подвесок, параметры которых изменялись бы автоматически в зависимости от некоторых текущих условий, привели к появлению различных идей, которые можно подразделить на три класса. Один класс представлен подвесками, у которых характеристики изменяются в результате некоторых чудес механики, гидравлики или пневматики. Например, специальное устройство пружинно-листовых амортизаторов Roadmaster делает подвеску тем более жесткой, чем больше вес автомобиля. Другим примером является называемая «активно-реактивной» или «активно-пассивной» подвеска Monroe Kinetic, где гидравлические диагональные связи между подвесками каждого из четырех колес, позволяют без использования процессоров, датчиков и приводных механизмов «информировать» каждое колесо о том, что происходит с другими, создавая определенное корректирующее смещение колес в разных ситуациях, например, во время поворотов или при наезде одного колеса на препятствие. Функциональное разнообразие действий таких подвесок не велико, при этом требуется установка дополнительного сложного технического и/или гидравлического оборудования, что утяжеляет машину, снижает ее надежность. К другому классу можно отнести подвески, системы управления которых работают на основе электронных схем или контроллеров, реализующих значение параметров подвески по некоторому детерминированному закону. Такие системы требуют оснащения подвески определенными датчиками, и исполнительными устройствами. Контролер устанавливает фиксированное отображение показаний датчиков в заранее определенные команды исполнительным устройствам, реализующим указанные
122
значения параметров подвески. Очевидно, что таким способом можно реализовать гораздо более сложные детерминированные законы управления, чем посредством механических и гидравлических устройств. Такого рода системы могут управлять подвеской гораздо более динамичнее, чем это может делать человек-водитель, и могут делать это более точно. Основные проблемы этого класса систем связаны как с трудностями построения точной математической модели автомобильной подвески, так и с необходимостью создания специальных исполнительных устройств-актуаторов. Поскольку автоматическая система может управлять не только выбором из двух-трех вариантов, но гораздо большим их числом, то возникает соблазн оснастить подвеску такими управляемыми элементами, которые допускали бы выбор между большим числом дискретных вариантов параметров или изменений их континуальных значений. Примером таких управляемых механизмов, которые можно было бы использовать в качестве исполнительных устройств - актуаторов в подвеске, является амортизатор с переменной вязкостью. Напомним, что демпфирующее свойство амортизатора достигается за счет того, что при сжатии или растяжении амортизатора в нем осуществляется перекачивание жидкости (масла) из одного резервуара в другой через узкий клапан. Изменяя диаметр пропускного отверстия клапана, можно в широком диапазоне изменять характеристику амортизатора. Поскольку не составляет большого труда сделать клапан с управляемым отверстием, то такой амортизатор является удобным актуатором. Амортизаторы такого типа использовались, например, в управляемых подвесках самолетов – шасси. Быстродействие такого актуатора довольно высокое, оно ограничивается возможностями переключающего механического устройства клапана. Однако еще более быстродействующим актуатором может являться амортизатор переменной вязкости, в котором в качестве жидкости используется так называемая магнито-реологическая жидкость (MRF), которая представляет собой суспензию в масле очень мелкодисперсных металлических магнитных частиц – диполей. Металлические диполи могут управляться внешним магнитным полем, создаваемым соленоидом, заставляющем их одновременно ориентироваться в заданном направлении, например, вдоль или поперек потока жидкости, что и приводит к изменению вязкости MRF в заданном направлении. Такой актуатор имеет очень высокое быстродействие, он может переключаться до 1000 раз в секунду. Высокое быстродействие системы и широкий диапазон рабочих режимов делают ее очень эффективной. Примером подвески с MRF является подвеска MagneRide, устанавливаемая на автомобилях Cadillac Catera. Помимо таких пассивных управляемых элементов подвески были разработаны также активные элементы, например, амортизатор, в который из внешнего резервуара под высоким давлением может впрыскиваться, или, наоборот, откачиваться масло. Такой амортизатор сам может активно воздействовать на автомобиль, надо лишь правильно управлять этими воздействиями. Быстродействие такого актуатора заметно уступает системам с MRF, однако в целом эффективность его может быть выше за счет активного и сильного воздействия на подвеску. Примером такого рода активной 123
подвески является подвеска “Active Body Control” (ABC), которой с 2002 года оснащаются автомобили Mercedes Benz CL500 и CL600. При помощи гидравлики высокого давления, многочисленных датчиков и мощных микропроцессоров эта активная подвеска мгновенно подстраивает подрессоривание кузова под соответствующую дорожную ситуацию. Таким образом ABC на 68 % уменьшает перемещения кузова при разгоне, движении в повороте и при торможении. Повороты Mercedes Benz CL500 проходит со значительно меньшими кренами и обеспечивает при резких маневрах объезда более высокий уровень безопасности, чем автомобили с традиционными системами подвески. При тесте „змейка" динамический крен кузова в зависимости от ситуации снижается на 50 % по сравнению со значениями предыдущей модели СL с пассивной подвеской и демпфирующей системой. Недостатком такой системы является повышенный расход топлива, требуемый для приведение в действие такой активной подвески. Вторая проблема, с которой сталкиваются разработчики управляемых подвесок такого класса, состоит в следующем. Закон управления актуатором в зависимости от показаний датчиков, даже если он детерминированный, должен быть рассчитан заранее и зафиксирован в каком-либо виде в контроллере. Такой закон управления рассчитывается на основании анализа математической модели динамики объекта управления - движения корпуса и подвески автомобиля в тех или иных возможных условиях. Составляется математическая модель объекта управления и находится ее обратное решение, которое указывает, какие управляющие воздействия следует развить актуатору, чтобы в текущих условиях привести объект управления к заданному желаемому состоянию. Математическая модель обычно представляет собой большую систему нелинейных дифференциальных уравнений, которые описывают движение как твердотельных элементов автомобиля, так и его осциллирующих элементов. Значения коэффициентов подбираются по результатам стендовых испытаний. Проблема состоит в том, что разработать точную математическую модель автомобиля очень трудно. Попытки учесть чуть более сложные и реалистические элементы автомобиля делают его математическую модель чрезмерно сложной и не поддающиеся расчетам. Ситуацию усложняет то обстоятельство, что свойства реального автомобиля постоянно изменяются даже в течение одной поездки – изменяется его масса в результате изменения числа пассажиров или массы груза, изменяется температурный режим, свойства конструктивных элементов, свойства дороги, режим движения. Поэтому всякая зафиксированная математическая модель в целом оказывается неверной, а качество управления, следовательно, ограничено. В этом классе существуют и адаптивные системы управления, которые строятся на эмпирическом уточнении значений параметров, при условии, что заранее известен набор характеристик, влияющих на целевую характеристику, и общий вид зависимости между характеристиками, т.е. решается задача идентификации модели. Несмотря на то, что теория этих систем весьма сильно развита, создается впечатление, что возможности
124
классической математики для построения математических моделей такого рода объектов приближаются к своему пределу. К третьему классу можно отнести активные подвески, управляющие системы которых строятся не на основе математических моделей, а на основе подходов, характерных для задач анализа «черного ящика», или задач управления «по прецедентам». Это системы нового поколения, основанные на идеях самообучения, автоматической работы со знаниями, с автоматическими распознающими системами, использующие нечеткую логику, нейросети, гибридные системы и т.п. подходы. Работы над такими активными подвесками ведутся в настоящее время в ряде автомобильных компаний, но особенности технологии, реализованные в анонсируемых образцах, как правило, не освещаются. Из общих соображений можно предполагать, что все такого рода системы управления активными подвесками, даже если они эвристические, можно отнести к одному из направлений, известных сегодня в области управляющих систем: это экспертные системы, системы нечеткой логики, нейросети, системы с подкрепляющим обучением. Достоинством такого рода управляющих систем является то, что они основаны не на математических моделях объектов управления. Закон управления в них получается либо в результате автоматического обучения по прецедентам, либо в результате перенесения в управляющую систему формализованных знаний человекаэксперта. Каждый из названных здесь методов управления имеет свои ограничения, особенности и недостатки, а также способы сглаживания этих недостатков. Коротко обозначим их. Экспертные системы позволяют зафиксировать знания человека-эксперта, который хорошо принимает решения в некоторой области, и затем тиражировать эти способности. Нечеткие системы являются разновидностью экспертных систем и удобны для построения управляющих систем. Однако в своих канонических вариантах эти системы не предполагают автоматического доучивания или переучивания, т.е. автоматической адаптации, их правила принятия решений задаются вручную при конструировании таких систем. Очевидно, что в области управления подвеской не существует экспертов, умеющих быстро и правильно менять параметры подвески, к тому же здесь требуется постоянное переучивание системы управления. Нейронные сети в своем каноническом виде предназначены для распознавания образов, которым они предварительно были обучены по обучающей выборке. Переобучение нейросети в процессе работы (что собственно и обеспечивает адаптивное управление) вызывает уже серьезные проблемы. К тому же и предварительное обучение связано с трудностью подготовки обучающей выборки прецедентов, трудоемкостью обучения нейросети, проблемами сходимости. Системы с подкрепляющим обучением – одно из наиболее перспективных направлений, также имеют свои органические трудности. В каждой из названных областей проводятся исследования, направленные на поиск путей обхода соответствующих проблем. Метод автономного адаптивного управления (ААУ) [1] относится к последнему из указанных классов систем управления, имеет свои достоинства и свои недостатки. Как 125
показывают наши исследования, он может быть эффективно применен для построения системы управления активной подвеской. Опишем основные результаты проведенного нами моделирования.
2. Применение метода ААУ для управления активной подвеской Идея применения метода ААУ для управления активными подвесками состоит в следующем. Какой бы актуатор ни предполагалось использовать в активной подвеске, всегда встает проблема построения закона управления этим актуатором. Управляющая система (УС), построенная по методу автономного адаптивного управления (ААУ), позволяет избежать разработки точной математической модели объекта управления (ОУ), поскольку система ААУ автоматически находит отображения из множества показаний датчиков в множество команд актуатора, соотнося их также с множеством заданных качественных оценок возможных состояний. Найдя эмпирически такие соотношения, управляющая система опирается на них при принятии решений. Целевые состояния, которых стремится достичь УС, определяются этими качественными оценками, которые и указывают УС, какие состояния ОУ являются предпочтительными. Соответственно, для посторения УС по методу ААУ требуется, чтобы датчики и актуаторы обеспечивали наблюдаемость и управляемость [2] ОУ, и были бы правильно заданы качественные оценки состояний, определяющие цели управления. 2.1. Вариант системы AdCAS с амортизатором переменной вязкости Наиболее простым вариантом применения метода ААУ для управления активной подвеской является применение амортизатора с магнито-реологической жидкостью (MRF), имеющей переменную вязкость [3]. Движение амортизатора при его сжатии называется «сжатием», а при растяжении – «отбоем». Напомним, что обычный серийный амортизатор обеспечивает демпфирование колебаний корпуса автомобиля относительно подвески, которые возникают после поглощения упругим элементом (пружиной) удара от препятствия на дороге, за счет того, что как при сжатии, так и при отбое в амортизаторе осуществляется перекачка рабочей жидкости из верхнего резервуара амортизатора в нижний через тонкую форсунку соединительной муфты, чем и обеспечивается сопротивление движению жидкости. Это сопротивление зависит как от диаметра перепускного отверстия клапана, так и от вязкости жидкости, в качестве которой используют специальное машинное масло с заданными характеристиками. В разных фазах своих возможных движений амортизатор должен иметь разное сопротивление. Так, при сжатии сопротивление должно быть большое, чтобы корпус автомобиля не просел черезчур быстро и сильно. При отбое сопротивление должно быть меньше, чтобы подвеска успела быстро опуститься вниз и колеса автомобиля не
126
оторвались бы от дорожного полотна, что могло бы сделать автомобиль неуправляемым. Кроме того, в предельных положениях выдвигаемого штока как при
движения амортизатора. Последнее вполне реально, так как, например, амортизатор с MRF может изменять свои характеристики до 1000 раз в секунду.
сжатии, так и при отбое, жесткость подвески должна возрастать, чтобы исключить возможность «выхода амортизатора на упор» - ударов корпуса, который может
Помимо этого, амортизатор с MRF имеет еще одну полезную особенность, он может
возникнуть, если рабочий ход амортизатора выбран до упора. Эти свойства амортизатора определяются его рабочей характеристикой (рис. 3), описывающей силу сопротивления амортизатора в зависимости от величины скорости движения штока амортизатора.
одновременно играть и роль датчика [4]. Итак, для организации управления подвеской по методу ААУ можно использовать амортизатор с MRF, который будет служить одновременно актуатором и датчиком. Адаптивное управление можно использовать для оперативного изменения рабочей характеристики амортизатора, автоматически приспосабливая (адаптируя) ее к текущим свойствам объекта управления (ОУ). Соотнесем общую схему системы ААУ (рис. 4) с элементами рассматриваемой прикладной системы.
Рис. 3. Рабочая неизменяемая характеристика стандартного амортизатора легкового автомобиля, описывающая силу сопротивления амортизатора F при сжатии и при отбое в зависимости от скорости v движения штанги амортизатора. Рабочая характеристика обычного амортизатора рассчитывается при его пректировании, фиксируется и затем не меняется в процессе эксплуатации амортизатора, если не считать износа его деталей и жидкости. Расчет оптимальной характеристики опирается на средние характеристики проектируемого автомобиля и условий его эксплуатации, в том числе предполагаемого качества дорог. Однако очевидно, что рабочую характеристику амортизатора хотелось бы оптимизировать не для временного окна, ширина которого T равна всему времени жизни автомобиля, а гораздо чаще – где T было бы равно времени одной конкретной поездки, или характерному времени изменения параметров автомобиля, или характерному времени изменения дорожных условий, или даже отдельной фазы
127
Рис. 4. Общая схема системы «автономного адаптивного управления» (ААУ). Управляющая система (УС), установленная на борту автомобиля, взаимодействует с окружающей средой (на рис. 4 это «среда W») посредством блока датчиков (БД) и исполняющих органов (ИО) – актуаторов, которые для УС являются частью окружающей ее среды W. УС «не знает», что представляют собой датчики и исполнительные органы, она просто пользуется выходными сигналами БД и подает управляющие воздействия на ИО. С точки зрения управляющей системы не имеет значения, через какие объекты в среде W проходят сигналы и взаимодействия на пути 128
от ИО к БД, для УС «черным ящиком» является среда W, именно ею и должна управлять УС, устанавливая соответствие между воздействием на исполнительное устройство и получаемой реакцией в виде сигналов от датчиков. С точки же зрения внешнего наблюдателя можно видеть, что реакция «черного ящика» среды W складывается из реакций таких составляющих его элементов, как: актуатор (амортизатор с MRF с его системой привода – преобразователями, соленоидами и проч.), подвеска с ее упругими элементами и проч., автомобиль с его массой, упругими элементами корпуса, груза, сидений и т.д., дорожного полотна, с его препятствиями, воздушной среды, воздействующей на корпус автомобиля, водителя с его специфическим хараткером управления автомобилем, и других причин. Вот этот «черный ящик» среды W и является для УС объектом управления (ОУ). Очевидно, что математически формализовать точные свойства такого ОУ невозможно как по причине его большой сложности, так и по причине его постоянной и плохо предсказуемой изменчивости. Итак, при желании можно говорить, что на рисунке 4:
«исполняющий орган» это амортизатор с MRF и его необходимые приспособления, «блок датчиков» представлен этим же амортизатором с MRF и необходимыми электрическими приборами, дающими информацию о текущих значениях f(t) и df(t)/dt, «среда S» это подвеска, автомобиль, дорога, воздушная среда, водитель, пассажиры, груз и т.д., а также бортовой компьютер и аппаратная часть системы управления, «управляющая система» это программа, реализованная на бортовом компьютере, сюда не входят датчики и актуаторы.
Управляющая система работает согласно принципам, соответствующим методу ААУ. Она состоит из двух основных контуров. Первый контур организует работу с «фактологической» информацией, установливающей соотношения между множествами входных и выходных сигналов УС. Второй контур организует работу с «качественной» информаций, придающей элементам «фактологической» информации оценки качества. Такие качественные оценки описывают степень соответствия тех или иных состояний ОУ ее целевым функциям. «Фактологический» контур состоит из блоков «формирования и распознавания образов (ФРО), базы знаний (БЗ), блока формирования БЗ и блока принятия решений. Контур «качественной» информации состоит из блока оценивания состояния ОУ, который мы называем также «аппаратом эмоций». Контур «качественной» информации является определяющим, поскольку именно в нем формулируются целевые функции управления, которые определяют состав и содержание всех остальных блоков и функций системы. Напомним, что методология ААУ предполагает наличие некоторой иерархии целевых функций УС. Главными из них считаются две – выживание системы и накопление знаний. Целевая функция «накопление знаний» зашита в самой структуре УС, а также в ее алгоритме принятия 129
решений. Целевая функция «выживание» реализуется через систему качественных оценок образов, которые изначально заданы для УС данного объекта, или формируются УС автоматически. При принятии решений УС стремиться перевести ОУ по возможности в состояния с лучшими из возможных оценок. Заказчик системы ААУ добивается того, чтобы УС выполняла полезную именно для него, заказчика, работу через систему априори задаваемых оценок изначально сформированных образов, а также формулируя правила для выработки оценок для образов, которые будут сформированы УС автоматически. В общем виде, для одной и той же системы разные заказчики могут установить разные оценки для одних и тех же образов и система будет принимать разные решения. Другими словами, УС ААУ это исполнитель, который находит и знает ответ на вопрос «как можно добиваться разных целей?», но какой именно цели нужно добиваться, что есть «хорошо», а что есть «плохо» - ей указывает заказчик. Очевидно, что истиным заказчиком системы является руководство фирмыпроизводителя автомобилей, которое в свою очередь ориентируется на требования или капризы конечных заказчиков - покупателей автомобилей данной модели. Понятно, что у конечных заказчиков могут быть самые разные, в том числе и экзотические целевые функции. Нам в нашей прототипной разработке пришлось задать некие примерные требования, которые могли бы быть примером требований заказчика. В данном случае мы ограничились требованиями увеличить комфортность автомобиля за счет увеличения плавности его хода, а также увеличить устойчивость автомобиля в таких ситуациях, как поворот и наезд на препятствие одним колесом. В попытке количественно формализовать и сформулировать требования к комфортности, мы рассмотрели эргономические требования к подвеске автомобиля, учитывающие физиологические свойства человека в условиях вертикального движения с переменным в ускорением. Такие требования сводятся к тому, чтобы спектр колебаний вертикальной плоскости не содержал бы частот определенного диапазона, плохо переносимых организмом человека. При движении автомобиль колеблется в вертикальной плоскости с частотами в диапазоне от 0,5 Гц до 30 Гц. [5]. Неприятными для человека являются колебания с частотами в диапазоне от 0,5 Гц и до 12 Гц, поскольку в этом диапазоне лежат собственные частоты колебаний внутренних органов человека. Однако из физиологии известно, что наиболее вредными и даже опасными для человека являются колебания с частотами от 3 Гц до 8 Гц. Считается, что для обеспечения приемлемой плавности хода автомобиля подвеска должна обладать при статической нагрузке собственной частотой колебаний, близкой к частоте колебаний человека при ходьбе, равной 0,8 … 1,2 Гц, и что наибольший комфорт обеспечивают подвески с собственной частотой, близкой к 1 Гц [6]. Анализируя временную кривую движения корпуса автомобиля, можно выделить методами цифровой фильтрации ту кривую движения, которая не содержит нежелательных вредных колебаний корпуса (3 Гц - 8 Гц), и считать ее текущей желаемой, «целевой» траекторией движения корпуса автомобиля, к которой и следует 130
стремиться с помощью управления УС. Соотвествтенно, можно расчитать текущее отклонение реального текущего положения корпуса от желаемого «целевого» положения. Эти функции выполняют блок датчиков и блок оценивания состояния ОУ. Блок ФРО должен формировать и распознавать образы текущего состояния ОУ, которыми в данном случае могут быть образы значения и необходимых производных отклонения текущего положения корпуса автомобиля от вычисленного текущего «целевого» положения, которые соотнесены с величиной отклонения положения выдвигаемого штока амортизатора от нейтрального значения, а также с текущей скоростью его движения. Этот блок в данном приложении может быть достаточно простым. Блок «Выбор действия» своими выходами должен инициировать актуатор в соответствии с целевыми функциями управления. Выходы актуатора в данном случае будем интерпретировать как требуемые для данной ситуации значения жесткости амортизатора. Блок «Выбор действия» своими выходами должен инициировать актуатор в соответствии с целевыми функциями управления. Выходы актуатора в данном случае будем интерпретировать как значения жесткости амортизатора для текущего положения. Выбор «действия» осуществляется УС на основе а) анализа текущего выхода блока ФРО, указывающего, какие образы распознаны в текущий момент, б) знаний, накопленных в «базе знаний», и в) качественных оценок образов, устанавливаемых «блоком эмоций». Способ принятия решений в системе ААУ ориентирован на достижение одновременно обеих целевых функций – выживания и накопления знаний. Эти цели в определенной степени противоречивы, поскольку поиск новых знаний требует совершения пробных случайных воздействий, а цель выживания требует совершения максимально надежных действий, приводящих ОУ в лучшие из возможных состояний.
«База знаний» должна отображать эмпирически найденные УС статистически подтвержденные связи между образами текущего положения ОУ, действиями, которые может совершить УС, и результирующими образами – т.е., образами состояний, в которые переходит ОУ к следующему моменту времени, а также качественными оценками образов. Именно, «база знаний» указывает, какую вязкость надо придать MRF в той или иной из возможных ситуаций, представленных распознаваемыми образами. Полученная УС ААУ «база знаний» может быть представлена и интерпретирована как характеристическая функция амортизатора с переменной вязкостью (рис. 5). Функция здесь показана 3-мерной, поскольку она связывает вязкость, силу сопротивления и образы, описывающие движение штока амортизатора. В результате проведенного моделирования процесса управления подвеской, снабженной управляемым системой ААУ амортизатором с MRF, было показано, что система ААУ успешно находит эмпирически такой вид характеристики амортизатора, который соответствует текущим свойствам автомобиля и среды. Пример такой характеристики показан на рисунке 5. Система AdCAS, автоматически строя такого рода базу знаний – характеристику амортизатора и одновременно используя ее для управления, повышает качество управления, в данном случае – плавность хода автомобиля. Так, на рисунке 6 показаны графики, отражающие качество управления с традиционной неуправляемой подвеской и с системой AdCAS, снабженной амортизатором с MRF.
Рис. 6. Примеры движения корпуса автомобиля с неуправляемой подвеской (слева), и с адаптивно управляемой подвеской, снабженной амортизатором с MRF (справа). Рис. 5.
Можно видеть, что этот вариант системы AdCAS, где в качестве актуатора используется амортизатор переменной вязкости, позволяет повысить плавность хода автомобиля. Этот эффект достигается за счет того, что система адаптивного управления
Пример характеристической функции MRF-амортизатора с переменной вязкостью, эмпирически найденной УС ААУ для заданной модели автомобиля. 131
132
ААУ автоматически подстраивается к текущим свойствам данного автомобиля и среды, и изменяет свою «базу знаний». Понятно, что такой способ воздействия на движение автомобиля является скорее пассивным, чем активным, в том смысле, что такой актуатор не воздействует на автомобиль активно, а лишь пассивно изменяет свой коэффициент демпфирования. Этим и ограничиваются возможности такого варианта системы AdCAS. Перейдем теперь к рассмотрению более эффективного варианта системы AdCAS, снабженного действительно активным актуатором.
автомобиля от текущего целевого положения, а также о необходимых производных этой величины. В данной прикладной системе блок ФРО может быть не самообучаемым, так как алфавит образов (классов) и описания образов (классов), которые надо распознавать, можно положить заранее известными в наиболее простой реализации
системы.
Пусть
алфавит
классов
представлен
конечным
числом
упорядоченных образов. Идентификаторы образов снабдим возрастающими номерами.
2.2. Вариант системы AdCAS с активной системой высокого давления Рассмотрим вариант системы AdCAS, в котором в качестве актуатора используется другой известный нам вид активной подвески – амортизатор, в который под высоким давлением можно впрыскивать или откачивать из него масло. Такого рода актуатор, как было сказано выше, используется, например, в подвеске ABC автомобилей Mercedes Benz CL500. Соотнесем элементы такой системы со схемой УС ААУ (рис. 4). В этом варианте системы необходимы датчики, которые могут давать информацию о вертикальном положении корпуса автомобиля, его вертикальной скорости и ускорении. Наиболее доступным стандартным прибором такого рода являются акселерометры. В своем моделировании мы ориентировались на малогабаритные акселерометры, которые можно найти, например, в авиационной промышленности. Примерные характеристики такого акселерометра могут быть следующими:
диапазон измеряемых ускорений: вес: размер: частота использования:
Рис. 7.
+/- 15 G; ~ 300 g; 45 x 90 mm; 100 Hz.
Интегрируя показания акселерометра, можно получать количественные оценки вертикальной скорости v(t) корпуса автомобиля в инерционной системе координат, а дважды интегрируя - количественную оценку вертикального положения h(t) корпуса автомобиля. Используя цифровую фильтрацию временного ряда этих оценок с необходимой амплитудно-частотной характеристикой фильтра, устраняющего вредные для здоровья человека частоты колебаний, можно вычислять желаемое, или «целевое» положение корпуса автомобиля в каждый текущий момент времени, а также рассогласование реального и целевого положений корпуса. Одной из целевых функций управляющей системы AdCAS (обеспечивающей выживание ОУ) можно положить минимизацию этого текущего рассогласования. Можно также задать систему качественного оценивания величин рассогласования. Описанные здесь функции возложены на блок датчиков и блок «оценивания состояния ОУ» (рис. 4). Блок ФРО должен формировать и распознавать образы текущего состояния ОУ, используя информацию об отклонении текущего вертикального положения корпуса
133
Активный актуатор в системе AdCAS, представленный амортизатором, гидравлически соединенным с внешней системой, позволяющей создавать импульсы силы T(t).
Рис. 8. Импульсные воздействия активного амортизотора на подвеску. Исполняющий орган – актуатор в этом варианте системы AdCAS представлен амортизатором (рис. 7), в который на каждом такте Δt можно впрыскивать или откачивать рабочую жидкость, что создает активные воздействия на корпус автомобиля
134
в виде импульсов силы, направленных вдоль вертикального вектора и приложенных между подрессоренной и неподрессоренной массами подвески (рис. 8). Положим, что мы располагаем конечным числом вариантов воздействий актуатора, номера которых (идентификаторы) назовем здесь «действиями». Пусть упорядоченные номера действий соответствуют возрастающим по величине физическим воздействиям, возрастающим с постоянным шагом от максимального отрицательного до максимального положительного значения с нулевым значением в середине. База знаний УС ААУ должна отражать автоматически найденные УС реально действующие в конкретной представленной прикладной системе переходы от «образов исходного состояния» посредством «действий» к «образам результирующего состояния», а последние должны иметь свои качественные оценки. Очевидно, что «образы результирующего состояния» не могут иметь такую же степень точности, определенности, как «образы исходного состояния». В соответствии с терминологией [7], предполагающей, что всякие сведения могут быть сравнимы на общность, «образы результирующего состояния» являются более общими сведениями, чем «образы исходного состояния». Соответственно, мы определили и ввели «образы результирующих состояний», в данном простом случае - априорно, а также априорно снабдили их качественными оценками. Однако связи между образами УС в системе AdCAS устанавливала автоматически на основании статистически проверенного своего эмпирического опыта взаимодействия с данным ОУ. Примеры БЗ в процессе накопления ею эмпирических «знаний», отражающих свойства данного автомобиля, представлены на рис. 9.
База знаний, накопленная УС, отражает свойства предъявленного объекта управления, а именно то, как этот ОУ реагирует на то или иное воздействие актуатора в том или ином различаемом УС случае, представленном распознанными образами. Как уже говорилось, реакции объекта управления зависят в данном случае от свойств автомобиля, подвески, дороги, и других объектов, влияющих на данный процесс. Если свойства одного из этих составляющих изменятся и закономерная реакция ОУ станет несколько иной, УС постепенно скорректирует свою БЗ. Блок принятия решений в этом варианте системы AdCAS работает согласно общему алгоритму системы ААУ, а именно следующим способом. Блок ФРО к текущему моменту времени распознает определенные образы, описывающие текущее состояние ОУ. Блок принятия решений, во-первых, отделяет в БЗ те знания, которые имеют отношение к текущей ситуации. Во-вторых, решает, какой из целевых функций (выживание или накопление знаний) следует отдать предпочтение. В-третьих, принимает решение, соответствующее выбранной целевой функции. Если предпочтение отдано целевой функции «накопление знаний» (обучение), то выбирается некоторое пробное воздействие в соответствии с заложенной в УС ААУ стратегией обучения. Это может быть полный равновероятный перебор пробных воздействий, или направленный поиск, управляемый заданием вероятностей выбора действия, использование градиентного спуска или поискового эволюционного метода на основе генетических алгоритмов. Здесь при выборе действия УС опирается не на заранее известный ей результат этого действия, но на некоторый прогноз этого результата, а сам результат еще неизвестен УС. УС как бы прощупывает, исследует те области в БЗ, для которых у нее еще нет знаний, и старается заполнить эти пробелы знаниями. На рисунке 9 этим пробелам в знаниях УС соответствуют пустые места в БЗ. При любой из таких стратегий обучения при выборе действия так или иначе используется некоторый случайный фактор, который позволяет прояснить для УС некоторую ранее неизвестную ей ситуацию. Понятно, что в этом режиме выбор действия должен иметь некоторую неопределенность. Если же предпочтение отдано целевой функции «выживание», то действие следует выбирать с максимальной определенностью. Здесь УС опирается только на такие действия, результат которых уже известен - для них в БЗ уже записаны данные. Остается выбрать только лучшее из действий, именно – то действие, которе приведет ОУ к лучшему (максимальная качественная оценка) из возможных состояний. При этом выбор действия имеет максимальную определенность, а случайность в выборе действия минимальна.
Рис. 9. Графическое представление «базы знаний» системы AdCAS, отражающей накопленные ею эмпирические «знания» о реакциях автомобиля на воздействия актуатора, в некоторые два момента ее жизни.
Возможна также стратегия управления, когда исследование еще незаполненных областей БЗ и опора на уже известные данные осуществляются в одном алгоритме. Здесь выбор между режимами «выживание» и «накопление знаний» (управление или обучение) осуществляется не по команде сверху, а тактически, на основе анализа конкретной текущей ситуации. Решение о выборе действия принимается по 135
136
результатам анализа следующих факторов: каково текущее состояние ОУ; к каким результатам приводят уже известные по БЗ действия; в какой области БЗ лежат прогнозируемые максимумы качественных оценок, и т.п. Нами были опробованы различные варианты стратегий принятия решений, и не только при работе с данным приложением метода ААУ, но и с другими прикладными системами. При общении с заказчиками выяснилось, что стратегия управления, в том числе стратегия управления режимами управления-обучения зависит от внешних обстоятельств. В некоторых случаях требуется мимнимизировать пробные случайные воздействия в режиме управления, но допускаются любые пробные воздействия в режиме обучения, в таких случаях эти режимы требуется разделить и переключать по команде извне. В некоторых случаях (например, как в системе управления угловым движением космического аппарата [8]) выбор режима зависит от качества текущего состояния ОУ, например, когда текущее состояние ОУ благоприятное и можно позволить УС совершить пробные воздействия с целью поиска новых знаний. В некоторых случаях ОУ может быть представлен «черным ящиком» с имеющимися протоколами прецедентов его функционирования, и пробные воздействия вообще нельзя совершать (это случай имел место при разработке системы поддержки принятия решений при управлении социальными объектами [9]). Здесь для обучения можно использовать имеющиеся протокольные данные. В некоторых случаях, в том числе в примере с подвеской автомобиля, пробные воздействия возможны, но их следует минимизировать – действительно, не следует встряхивать автомобиль специально с целью обучения УС, пассажирам это будет неприятно. В таких случаях можно использовать, например, заранее полученную тем или иным способом БЗ, а потом ее постепенно автоматически корректировать. Это будет сопряжено с минимальными пробными воздействиями на ОУ. Именно этот подход мы реализовали в системе AdCAS. Перейдем теперь к обсуждению полученных нами результатов компьютерного моделирования.
подвески), то в этих закономерностях частично отражаются и компоненты, обусловленные взаимными связями колес подвески. Поскольку используемая управляющая система является адаптивной и может автоматически приспосабливаться к объектам управления с широким диапазоном свойств, то мы тем самым можем не разрабатывать очень точной математической модели для демонстрации эффекта адаптивного управления. Итак, движение ¼ части подвески (рис. 10) должно описывать зависимость подрессоренной и неподрессоренной масс подвески от возмущающей силы, роль которой играет профиль дорожного полотна.
M 1 y m1 x ct (t )( f (t ) x) M 1 y c1 (t )( y x) (t )( y x) T (t )
Рис. 10. где f(t) – профиль дороги, T(t) – управляющее воздействие со стороны актуатора, ct(t) – упругость шины, c1(t) – упругость пружины, α(t)– коэффициент поглощения амортизатора, x(t) – координата подвески,
3. Результаты компьютерного моделирования процесса управления активной подвеской автомобиля
y(t) – координата подрессоренной массы (корпус автомобиля),
3.1. Модель объекта управления – автомобиля и подвески
m – неподрессоренная масса.
В качестве объекта управления (ОУ) для моделирования процесса адаптивного управления была разработана программная модель подвески одного колеса автомобиля. Мы отказались от модели автомобиля с 4-мя колесами, поскольку при таких предполагаемых параметрах управления (сравнительно слабые воздействия на подвеску, высокое быстродействие ~ 0.01 с) управление по каждому из колес можно полагать независимым. Кроме того, поскольку адаптивная система управления ААУ находит закономерности в реакциях объекта управления (в данном случае ¼ части
Перепишем эту систему в следующей форме:
M – подрессоренная масса,
137
1 y T (t ) c1 (t )( y x) (t )( y x) M1 1 x c1 (t )( y x) (t )( y x) T (t ) ct (t )( f (t ) x) m1
или
138
x1 x2 Ф(t ) x2 M1 x 3 x4 Ф x 4 (t ) c( f (t ) x ) 3 m1
(6)
где y = x1; y x 2 ; x = x3; x x 4 ; Ф(t ) c1 (t )( y x) (t )( y x) T (t ) ; с
сt . m1
Система (6) решается методом Рунге-Кутта 4-го порядка (с точностью h4) с заданными начальными условиями f(t), T(t). Величины c1(t), (t), и ct(t) представлены константами. Величины x”(t), y”(t), полученные в результате интегрирования дифференциального уравнения, используются в программе в качестве входных данных от сенсоров. Временные графики x(t), x’(t), y(t), y’(t) демонстрируют процесс движения корпуса автомобиля и подвески. Состояния подвески и корпуса вычисляются с интервалом Δ1 = 0.01 сек (шаг интегрирования), с которым они и визуализируются на графиках. Реальный временной интервал получения данных с сенсоров и цикл управления составляют Δ2, мы положили Δ2=0.01сек, хотя в реальной системе этот интервал может быть и длиннее. Рис. 11 показывает реакцию подрессоренной массы (корпуса автомобиля) на отдельный толчок со стороны препятствия на дороге (слева) и на отдельный управляющий импульс актуатора (справа). Можно видеть, как в ответ на толчок со стороны либо отдельного препятствия на дороге, либо одного импульсного воздействия активного элемента подвески корпус автомобиля начинает совершать нелинейные затухающие колебания. Функция декремента затухания несимметрична и нелинейна -
демпфирующего
элемента
Рис. 11. Примеры реакции математической модели корпуса автомобиля и его подвески на воздействие единичного препятствия на дороге (слева) и на единичный толчок актуатора (справа). Здесь управление подвеской отсутствует.
(амортизатора)
(500 если (dx-dy)/dt =v>0, и 1500 если v <0).
Характеристика упругого элемента (пружины) нелинейна и имеет нерегулярные искажения (рис. 12).
139
140
Однако мы не использовали таких усложненных моделей, полагаясь на способность управляющей системы ААУ адаптироваться к изменениям свойств объекта управления в широких пределах.
F, [N]
3.2 Модель среды - профиля дороги -4
Согласно методологии ААУ, система управления должна адаптироваться не только к свойствам объекта, в нашем случае - к свойствам автомобиля с его подвеской, но и к свойствам среды, в которую помещен объект, здесь – профиля дорожного покрытия. В программе профиль дороги представлен тремя вариантами (рис. 15):
4 X, [cm]
а) гладкая дорога с единичным препятствием заданной высоты и длины; б) гладкая дорога с периодически следующими стандартными единичными препятствиями заданной высоты и длины;
Рис. 12. Характеристика упругого элемента (пружины) в модели подвески. Здесь F – сила пружины, X – удлинение пружины.
в) дорога с реалистическим профилем, который моделировался как случайный временной процесс с определенными характеристиками, соответствующими классификации МАДИ и ISO, предусматривающей наличие трех компонент микропрофиля: непрерывной (гауссовской), дискретной (пуассоновской) и периодической компоненты [5].
При желании эту модель можно было бы усложнить во многих аспектах. Например, можно учесть функцию наката колеса, которая существенна при скоростях движения меньших 40 км/час. Можно учесть зависимость между передней и задней осями подвески (рис. 13) или между всеми 4-мя колесами (рис. 14).
а)
б)
Рис. 13. Пример 2-осной модели подвески. в) Рис. 15. Модели среды – профили дорожного покрытия: а) единичное препятствие, б) периодические препятствия, в) реалистический профиль. 3.3. Результаты моделирования движения автомобиля
Теперь покажем, как ведет себя автомобиль и его подвеска (представленные данной моделью) при движении по дороге под управлением системы AdCAS.
Рис. 14. Пример 4-осной модели подвески.
141
142
Рисунок 16 показывает ситуацию с наездом на отдельное препятствие автомобиля с неуправляемой подвеской (слева) и с системой AdCAS (справа).
наведенные колебания корпуса, так, что колебательные движения корпуса автомобиля практически уже не заметны. Весь «фокус» состоит в точности подбора величины управляющих импульсов, которые аналитически рассчитать было бы чрезвычайно трудно, система же AdCAS пользуется эмпирически найденными ею знаниями о текущих свойствах именно данного автомобиля. На рисунке 17 показано, как автомобиль преодолевает периодически расположенные препятствия. Можно видеть, что с возмущением от очередного препятствия система AdCAS справляется с помощью нескольких (2-6) импульсов. Движение корпуса автомобиля с работающей системой AdCAS (справа) существенно более плавно, чем при неуправляемой подвеске (слева).
Рис. 16. Изменение положения корпуса машины при проезде над одиночным препятствием. Слева – подвеска без управления, справа – подвеска, управляемая системой AdCAS. Можно видеть, что корпус автомобиля с неуправляемой подвеской после наезда на препятствие подскакивает вверх на сравнительно большую высоту и затем начинает совершать многочисленные медленно затухающие по амплитуде колебания. В случае с работающей системой AdCAS, сразу же после распознавания отклонения реальной траектории движения корпуса автомобиля от желаемой траектории, управляющая система принимает решение о необходимости совершения актуатором корректирующего управляющего импульса, и с помощью накопленной базы знаний определяет направление и величину необходимых импульсов, посылая соответствующие команды актуатору. С помощью в данном случае - 6-ти импульсных воздействий система AdCAS гасит основной скачок корпуса автомобиля, который, как можно видеть, имеет в 2 раза меньшую амплитуду, чем при неуправляемом движении. Затем с помощью еще нескольких точных импульсов система AdCAS подавляет
143
Рис. 17. Движение автомобиля по дороге с периодическими препятствиями. Слева – подвеска без управления, справа – система AdCAS включена. Рисунок 18 иллюстрирует эффект управления при движении по неровной поверхности дороги. Слева показано движение автомобиля с неуправляемой подвеской, справа – с системой AdCAS. На левом рисунке можно видеть, что корпус автомобиля с неуправляемой подвеской постоянно совершает колебания со сравнительно большой амплитудой. На правом рисунке видно, что система AdCAS своими точно
144
подобранными управляющими импульсами добивается того, что амплитуды колебаний корпуса автомобиля становятся существенно меньшими. Понятно, что они не могут быть равными нулю, потому, что автомобиль – не самолет, и не может двигаться по горизонтальной прямой, но при данном профиле дороги можно вычислить желаемую траекторию движения с учетом тех критериев и целей, которые удасться формализовать. Однако, даже если известна такая желаемая траектория, совсем другая задача – заставить автомобиль придерживаться этой траектории, пользуясь имеющимися актуаторами. Нельзя «зацепиться» автомобилем за эту траекторию, как за направляющий рельс. Однако последняя задача и является главной особенностью системы AdCAS – она «знает», как заставить автомобиль придерживаться указанной траектории при помощи имеющихся актуаторов.
корпуса автомобиля с управляемой подвеской становится более гладкой. Хотелось бы однако иметь количественные критерии для оценивания этого эффекта. Такие критерии позволили бы оценивать «качество управления», производимого системой AdCAS. Они полезны для отладки системы, для сравнения различных ее вариантов и т.п. процедур. Качество управления можно оценивать количественно с помощью нескольких критериев. Например, с помощью графика временного хода отклонения реального положения корпуса от идеального, «целевого» положения (рис. 19). Такой график позволяет говорить об амплитудах отклонения в те или иные моменты времени. Однако это скорее «дифференциальный» критерий, чем «интегральный» и не очень удобен для оценивания качества управления в общем.
а)
б) Рис. 19. Отклонение положения корпуса машины от идеального положения а) при неуправляемой подвеске; б) с управляемой подвеской. Рис. 18. Движение автомобиля по неровной реалистической дороге. Слева – подвеска без управления, справа – система AdCAS включена. 3.4. Оценивание качества работы системы управления подвеской
Представленные выше графики дают возможность оценить эффект применения адаптивной системы управления AdCAS «на глаз». Можно видеть, что движение
145
Если зафиксировать траекторию движения корпуса автомобиля (либо величины отклонения реальной и желаемой траекторий) в течение M тактов времени в виде временной кривой x(t), то гладкость движения корпуса автомобиля можно количественно оценить, рассчитав величину дисперсии D кривой x(t) на этом временном окне. Чем более гладкой является кривая x(t), тем меньшее значение будет иметь дисперсия. Хотя обратное утверждение в общем случае не является
146
верным, тем не менее, дисперсию можно с этой оговоркой использовать для оценивания гладкости кривой. Если сдвигать временное окно фиксированной ширины M вслед за текущим моментом времени t, рассчитывая дисперсию D, и фиксируя ее на графике D(t), то можно рассматривать D(t) как количественную оценку качества управления: именно – чем меньше D(t), тем выше качество управления (рис. 20). Текущая дисперсия является уже «интегральной» оценкой, она позволяет сравнивать качество управления на различных временных интервалах. Так, по рисунку 20 видно, что текущая дисперсия при обычной неуправляемой подвеске может достигать значений, в несколько (2-4) раз больших, чем при подвеске, управляемой системой AdCAS.
спектров мощности – оговаривая допустимые или вредные частоты и амплитуды колебаний. Зафиксировав кривую движения вертикальной координаты корпуса автомобиля на некотором временном окне, можно рассчитать спектр мощности этого временного процесса. На рисунке 21 представлены спектры мощности Gf(f) и Gc(f) колебаний корпуса автомобиля с неуправляемой и управляемой подвеской соответственно. Можно видеть, что при неуправляемой подвеске, корпус автомобиля имеет гораздо более выраженные колебания в диапазоне частот от примерно 0.5 Гц до 1.8 Гц по сравнению с управляемой подвеской.
Gf (f)
а)
Gc (f)
б) Рис. 20. Количественное оценивание качества управления с помощью «текущей» дисперсии колебаний корпуса машины: а) подвеска без управления, б) управляемая подвеска. Большую информацию как для инженеров, так и для физиологов может дать частотный анализ колебаний корпуса автомобиля в процессе его движения, например – спектр мощности колебаний корпуса. Например, физиологи выражают свои рекомендации или требования к характеру вертикального движения автомобиля именно в терминах
147
Рис. 21. Спектры мощности колебаний корпуса машины: Gf (f) - подвеска без управления, Gc (f) - подвеска с управлением.
148
Для того, чтобы сказать, во сколько раз система AdCAS подавляет колебания на тех или иных частотах спектра, надо найти отношение амплитуд каждой пары частотных составляющих обоих спектров. Результат будет представлять собой своего рода амплитудно-частотную характеристику (АЧХ) системы AdCAS, как системы, подавляющей колебания определенных частот, т.е., как фильтра (рис. 22). По рисунку 22 можно видеть, что система AdCAS более чем в 2 раза подавляет частоты от 1 Гц до 1.8 Гц, при этом частоты 1.2 Гц подавляются в 8 раз. На графике можно заметить также небольшое (до 1.3 раз) усиление колебаний на частотах больших 3.5 Гц. Мы не исследовали этот вопрос специально, однако можно предположить, что эти значения находятся в пределах точности измерений, но могут быть связаны и с вибрацией, создаваемой актуатором. В последнем случае можно искать пути уменьшения этого эффекта, например, за счет оптимизации профиля импульсов силы, развиваемых актуатором. Кроме того, известно, что колебания корпуса автомобиля с частотами выше 2.5 Гц обычно весьма слабы, поскольку они всегда хорошо подавляются пружинами подвески, поэтому мы можем не рассматривать колебаний в этом диапазоне частот.
3.5. Границы применимости системы AdCAS при изменении параметров автомобиля
Система AdCAS является адаптивной системой управления, где под адаптивностью мы понимаем способность системы приспосабливаться к изменяющимся свойствам объекта управления непосредственно в процессе управления. Для демонстрации адаптивных способностей системы AdCAS мы провели серию компьютерных испытаний процесса управления с расчетом АЧХ, в процессе которых принятые нами за стандартные значения основных параметров модели автомобиля и подвески изменялись в пределах, указанных в Таблице 1. При изменении одного параметра, остальные имели стандартное значение. №№ кривых на графиках
1
2
3
4
5
Изменение параметра
30%
65%
100%
135%
350%
M – подрессоренная масса (1/4 90 массы корпуса автомобиля), кг
190
290
390
1000
m – неподрессоренная масса, кг
38
59
80
200
18
Ct – упругость шины
504
1092
1681.2
2269
5884
C1(1) – коэффициент упругости пружины
5700
12350
19000
25650
66500
C1(2) – коэффициент упругости пружины
11400
24700
38000
51300
13300 0
a – коэффициент поглощения
300
650
1000
1350
3500
Таблица 1. Допустимые для адаптации системы AdCAS изменения параметров автомобиля.
На рисунках 23 и 24 в качестве примеров показано, как изменяется АЧХ системы AdCAS при изменении двух параметров – массы корпуса автомобиля (рис. 23) и упругости шины (рис. 24), соответственно Табл. 1. Можно видеть, что во всех указанных в Табл. 1 случаях система AdCAS автоматически адаптируется к свойствам предъявленного ей автомобиля, и управляет его подвеской так, что поставленная целевая функция – увеличить плавность хода, эффективно достигается.
Рис. 22. «Амплитудно-частотная характеристика» системы AdCAS, как фильтра, подавляющего частоты колебаний корпуса автомобиля. Ось абсцисс соответствует частотам от 0.2 Гц до 6.8 Гц. По оси ординат показаны отношения мощностей амплитуд Gf (f)/Gc (f) спектров колебаний неуправляемой и управляемой подвесок.
149
150
Показаны также адаптивные свойства системы AdCAS, состоящие в том, что система автоматически перенастраивается при изменении свойств автомобиля и подвески, при этом изменяться могут различные параметры и в широких пределах. Это возможно потому, что система AdCAS управляет не с помощью математической модели автомобиля, но за счет эмпирических знаний, полученных по прецедентам, и состоящих в поиске отображений между множествами входных и выходных параметров объекта управления (подвеска плюс автомобиль плюс среда). Эффект достигается не просто за счет робастности системы, но за счет именно автоматического переучивания (адаптации) базы знаний системы AdCAS.
4. Возможности использования системы AdCAS для повышения устойчивости и управляемости автомобиля Еще раз обратим внимание на следующее обстоятельство. Основная роль управляющей системы AdCAS состоит в том, что она выясняет, как именно предъявленный ей объект управления в тех или иных различимых УС своих состояниях реагирует на управляющие воздействия актуаторов. В этом состоят основные «знания», накапливаемые в базе знаний УС. Эти знания можно использовать для того, чтобы управлять объектом в соответствии с любыми целями. «Целевое» состояние, в которое кому-либо хочется перевести объект управления, может быть вписано в присущие системе ААУ целевые функции выживания и накопления хнаний. В этом смысле автономная система ААУ вполне допускает участие внешнего «постановщика целей».
Рис. 23. АЧХ при изменении массы корпуса автомобиля M.
Рис. 24. АЧХ при изменении упругости шины Ct. Таким образом, мы показали, что система AdCAS способна эффективно подавлять вибрации корпуса автомобиля в диапазоне частот от 0.5 Гц до 2.5 Гц, особенно вредном для здоровья человека, что повышает плавность хода автомобиля, следовательно - его комфортность. Очевидно, что повышение плавности хода важно не только для легковых автомобилей общего назначения, но и для специального автотранспорта, например, карет скорой помощи, автомобилей для перевозки хрупких или взрывоопасных грузов и т.п. 151
Например, в системе AdCAS управляющая система знает, как можно манипулировать автомобилем с помощью актуатора, как его можно перевести в любое из возможных состояний. Однако само это «целевое» состояние управляющей системе надо указать. Выше мы показали, что некоторые полезные целевые состояния можно формализовать и вычислять, например – траекторию движения корпуса автомобиля «желаемую», или идеальную с точки зрения физиологии человека – траекторию, не содержащую колебаний с вредными для здоровья человека частотами. Эта целевая траектория вычисляется специальным блоком программы и указывается управляющей системе, которая и подталкивает корпус автомобиля к этой траектории. Очевидно, что управляющей системе можно указать любую (с учетом определенных ограничений) траекторию и УС будет стремиться к ее достижению. Например, целевую траекторию может указывать человек или вычислять какая-то специальная программа, можно также выбирать такую целевую траекторию из некоторого их множества, хранящегося в некоторой «памяти траекторий». Предположим, мы говорим УС: «подними правый борт машины на 5 см и держи в течение минуты» - управляющая система выполнит это требование. Или приказываем: «пусть траектория вертикального движения корпуса имеет пилообразную форму» и т.п. Видимо, можно предложить определенные траектории, полезные в каких-либо отношениях, например, для 152
повышения устойчивости или управляемости автомобиля в некоторых типичных ситуациях. Мы для примера предложили две такого рода траектории, полезных для повышении устойчивости автомобиля. Рассмотрим эти режимы. 4.1. Использование системы AdCAS для повышения устойчивости и управляемости автомобиля на повороте
Известно, что при прохождении поворота дороги корпус автомобиля наклоняется в сторону от центра дуги поворота, что приводит к разгрузке колес, идущих по внутренней стороне поворота. Наклон корпуса связан с растяжением пружин подвески с внутренней стороны и их сжатием с внешней стороны поворота. Разгрузка колес будет тем большей, чем больше скорость движения автомобиля и чем меньше радиус поворота. Разгрузка колеса приводит к ослаблению его сцепления с дорожным полотном, разная загрузка правых и левых колес приводит к разнице сцепления с грунтом правых и левых колес, что ослабляет или может лишить автомобиль управляемости и привести к заносу. При больших скоростях и/или малом радиусе поворота возможен даже отрыв колес и опрокидывание автомобиля. Наклон автомобиля на поворотах неприятен для пассажиров и может вызвать опрокидывание груза, который перевозит автомобиль (автор однажды счастливо избежал столкновения с крупногабаритным грузом, упавшим с кузова наклонившегося на повороте грузовика).
следует просто указать нужную для каждого угла корпуса автомобиля траекторию его движения. Например, при повороте передних колес можно дать УС команду поддерживать высоту корпуса автомобиля ровно на том уровне, который она имела при входе в поворот, т.е., не допускать провисания корпуса с внешней стороны поворота и подъема корпуса с внутренней стороны (рис.26).
Рис. 26. На повороте система AdCAS может подталкивать корпус автомобиля, поддерживая его на постоянном уровне. Сравним, как ведет себя модель автомобиля без управляемой подвески (рис. 27) и с управляемой подвеской (рис. 28).
Конструкторы автомобильных подвесок предлагают различные их конструкции, препятствующие наклону автомобиля (рис. 25): механические, гидравлические и т.п. Такие дополнительные технические конструкции утяжеляют и удорожают автомобиль.
Рис. 25. Пример механической подвески DAS, препятствующей наклону корпуса автомобиля на повороте. На открытой передней части автомобиля видны дополнительные устройства и пружины подвески. Сзади для сравнения с наклоном движется автомобиль без такой системы (фотография взята из Интернета). Нам представляется, что систему AdCAS сравнительно легко использовать для предотвращения эффекта наклона корпуса автомобиля при поворотах. Для этого
153
Рис. 27. Неуправляемая подвеска автомобиля допускает провисание корпуса автомобиля под действием центробежной силы при прохождении поворота.
154
В этой ситуации возникает опасная опрокидывающая сила. Если вовремя распознать эту ситуацию, то можно с помощью системы AdCAS заставить противоположную сторону корпуса автомобиля двигаться по траектории, в которую введена компонента, например, треугольного или колоколообразного вида (рис. 30, 31).
a)
b)
Рис. 30. Примеры возможных стандартных корректирующих траекторий вертикального перемещения автомобиля, увеличивающие устойчивость при наезде на препятствие.
Рис. 28. Управляемая системой AdCAS подвеска автомобиля не допускает провисания корпуса автомобиля при повороте посредством точных импульсов актуатора. Как видно по результатам моделирования, та же самая система AdCAS, которая повышает плавность хода автомобиля, способна решать совершенно иную задачу – повышать устойчивость автомобиля на поворотах, и при этом не требуется никакого дополнительног технического оборудования. 4.2. Использование системы AdCAS для повышения устойчивости и управляемости автомобиля при преодолении крупных препятствий
Вторая полезная траектория, которую мы можем предложить, касается ситуации, возникающей при наезде автомобиля одним колесом на крупное препятствие (рис. 29).
Рис.
Рис. 29. Система AdCAS может бороться с опрокидывающей силой, возникающей при наезде автомобиля одним колесом на препятствие. 155
156
31. Результат корректирующего управления при наезде на препятствие. При наезде на крупное препятствие система AdCAS приподнимает противоположный край автомобиля, устраняя опрокидывающий момент.
Можно предложить и другие корректирующие траектории, например, для разгона автомобиля (исключить заваливание назад) и торможения (исключить клевок корпуса). Таким образом, мы показали, что система AdCAS, построенная на основе метода ААУ, действительно является адаптивной, многоцелевой и многокритериальной системой управления. 4.3. О потреблении энергии системой AdCAS
Рассмотреннный выше вариант системы AdCAS с активным актуатором высокого давления очевидно требует больших затрат энергии, чем вариант системы AdCAS, использующий пассивный амортизатор с жидкостью MRF переменной вязкости. По нашим оценкам, работа системы AdCAS с актуатором высокого давления, работающем в рассмотреннном режиме повышения плавности хода за счет активного подавления ненужных отклонений корпуса в вертикальной плоскости, в том виде, как это было смоделировано (без какой-либо оптимизации системы по энергетическим затратам) с учетом КПД 20% и для всех 4-х колес потребует приблизительно 2 kW, т.е. около 3 л.с. Это плата за повышенную комфортность автомобиля. Естественно, что эта величина является только первой оценкой, и существенно зависит от конкретных характеристик актуатора. По нашей инфомации полученная величина близка к характеристике активной подвески ABC, устанавливаемой на Mercedes-Benz CL 500.
5. Краткий обзор рынка
Cadillac STS (de luxe седан) и Cadillac Escalade (2002 г.) фирмы Cadillac & General Motors, оснащенные активными подвесками “MagneRide” и “StabiliTrak”, построенными на основе амортизаторов с переменной вязкостью (используется MRF), управляемыми микропроцессорами,
Тренд рынка состоит в том, что если в 80-е годы активные подвески использовались только в гоночных автомобилях Формулы 1, в 90-е годы – в дорогих внедорожниках и SUV, в 2000 году – в дорогих легковых автомобилях, то в текущее время о внедрении активных подвесок говорят практически все разработчики легковых автомобилей среднего класса. Особое внимание к активным подвескам проявляют разработчики специального автотранспорта – реанимационных автомобилей скорой помощи, машин для перевозки специальных грузов. В последние годы активные подвески начинают использовать в железнодорожном транспорте. В последнем случае речь идет пока о подвесках, способных изменять наклон поезда, например, при прохождении поворотов, что увеличивает устойчивость поезда и комфорт для пассажиров. Такого рода подвесками оснащены скоростные пассажирские поезда tilting trains, которые могут наклоняться на поворотах на требуемый угол. Наклон зависит от скорости движения поезда и радиуса поворота. Примерами tilting trains являются такие скоростные поезда, как шведский X-2000 и итальянский Pendolino. Если говорить только о подвесках, где управление достигается не за счет чудес механики и гидравлики, а за счет управляющих систем, реализуемых бортовыми вычислительными устройствами, то можно дать следующую сравнительную таблицу:
Активные подвески являются сегодня одним из важнейших направлений развития автомобильной отрасли. Большинство ведущих автомобилестроительных фирм ведут интенсивные исследования в этой области. В этом сегменте рынка заявляют о себе:
Lotus Cars Ltd. McLaren Williams Mercedes Benz Lotus General Motors
Cadillac Ferrari Ford Lincoln Opel Omega Audi
Renault Citroen Volvo Mitsubishi Toyota Nissan
Достоинства
Недостатки
Наиболее продвинутыми моделями автомобилей с активными подвесками на сегодня являются, по-видимому:
Алгоритмы управления на основе математических моделей движения автомобиля
Mercedes Benz CL500 и CL600 (2001 г.) с активными подвесками “Active Body Control” (ABC), оснащенными акселерометрами, микропроцессором и активными гидравлическими актуаторами высокого давления, и
157
Большой опыт использования. Детерминированность. Чрезмерная сложность математической модели, малая адекватность модели реальному автомобиля.
Алгоритмы управления на основе систем, основанных на знаниях, нечеткой логики, нейросетей и т.п. Адаптивность к текущим свойствам автомобиля. Не требуется разработка математической модели автомобиля. Недостатки, присущие поисковому характеру поведения при обучении.
Общая тенденция развития систем управления для подвесок состоит в постепенном переходе от механико-гидравлических систем с их повышенным весом, к системам управления на основе математических моделей с их чрезмерной усложненностью и детерминизмом, и далее – к системам на основе «искусственного интеллекта» с их эмпирическими знаниями и способностью к переобучению.
158
6. Заключение Настоящая работа является прежде всего очередным подтверждением того, что метод ААУ можно применять для управления разными объектами, сохраняя общие принципы построения системы ААУ, схему управляющей системы и способы ее реализации. При построении прикладных систем можно использовать различные датчики и актуаторы. В данном случае это было показано на примерах использования различных типов датчиков и актуаторов. В качестве системы адаптивного управления подвеской автомобиля система AdCAS продемонстрировала адаптивные свойства, высокое качество управления в обученом состоянии при сравнительной простоте реализации системы управления. Важно также то, что система AdCAS допускает использование разных целей управления и разных критериев оценки качества состояния автомобиля и качества управления. Это в работе было продемонстрировано на примерах применения системы AdCAS для разных целей – для повышения комфортности автомобиля, для повышения его устойчивости и управляемости. Очевидно также, что описанную здесь систему управления можно применять для управления подвесками не только автомобилей, но и других транспортных и не только транспортных средств.
Список литературы: [1] Жданов А.А., Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134 [2] Воронов А.А. Устойчивость, управляемость, наблюдаемость. М.:Наука, 1979. [3] "За рулем" 2000 №6 - Живая вода "Московская". [4] Савостьянов А.М., Ермаков В.Ю., Пронин М.А. Наведение электрического тока в индукторе магнитожидкостного виброизолятора при механических воздействиях. // Магнитная гидродинамика, 1991, № 1, с. 107-113. [5] Борисов С.В., Архипов А.И., Осипов В.И. Подвеска автомобиля: Учеб. Пособие. МАДИ ТУ, Ч.1. М.:, 1995. [6] Павлюк А.С. Подвески легковых автомобилей: Учеб. Пособие. Алт. гос. тех. ун-т им. И.И. Ползунова. – Барнаул: Изд-во АлтГТУ, 1996. [7] Чечкин А.В. Математическая информатика. -М.: Наука. Гл. ред. физ. - мат. лит., 1991. [8] Жданов А.А. Земских Л.В. Беляев Б.Б. Система стабилизации углового движения космического аппарата на основе нейроноподобной системы автономного адаптивного управления. Космические Исследования, 2004, т. 42, №3, М.: 2004. С. 1-15. [9] Жданов А.А., Норкин Н.А., Гуриев М.А. Некоторые практические приложения метода автономного адаптивного управления // Сб. научн. тр. Искусственный интеллект в технических системах. Вып. № 19.- М.: Гос.ИФТП. 1998. С. 72-99.
159
2.1. Блок датчиков и исходные данные В качестве исходных данных выступает выборка {xn} - множество вещественных чисел, элементов временного ряда, соответствующих моментам времени tn, момент t1 указывает начало наблюдений.
Применение метода ААУ к прогнозированию временных рядов А.Е. Антипов Аннотация. Рассматривается возможность применения метода автономного адаптивного управления (ААУ) для прогнозирования временных рядов данных. Предлагается эволюционный способ оптимизации параметров «датчиков», наблюдающих временной процесс, с помощью метода автоматной оптимизаци. Рассмотрен пример прогнозирования биржевого курса ценных бумаг.
В системе существует буфер, в котором хранятся последние K элементов ряда. Блок датчиков в каждый момент времени tn воспринимает очередной элемент ряда xn и помещает его значение в буфер, сдвигая при этом уже имеющуюся там информацию. Другими словами, блок датчиков передвигает по выборке временное окно шириной K, в каждый момент наблюдая только его содержимое - последовательность x0, x-1, x-2, … x-(K-1) , где x0 - последний известный на текущий момент элемент ряда, x-1 – предпоследний и.т.д. В начале работы буфер пуст, и первые K тактов работы алгоритма уходят на его заполнение. Пока буфер не будет заполнен, никакие другие действия не предпринимаются. Введем понятие верхней (xmax) и нижней (xmin) границ окна:
1. Общая идея применения метода ААУ к прогнозированию
xmax = max (xi) + w; и xmin = min (xi) – w,
Задача прогнозирования временного ряда заключается в следующем. Известен ряд xk(tk) … x-2(t-2) x-1(t-1) x0(t0) - временная последовательность эмпирических данных, представляющих наблюдения величины x в моменты времени ti. Интервалы между моментами xi, xi+1 равны. Требуется построить последовательность x1(t1), x2(t2) … xn(tn), наилучшим образом приближающую последовательность x1(t1), x2(t2) … xn(tn) будущих значений ряда.
где w – выбираемая некоторым образом константа, а i = -(K-1)...0.
Основная аксиома в прогнозировании временных рядов – утверждение о том, что в эмпирических данных есть закономерность. Другими словами, во входных данных существуют похожие друг на друга последовательности значений. Распознав часть такой последовательности, можно с большой вероятностью угадать ее оставшуюся часть.
xi0, xi1, … xi(k-1), ij {0…K-1}, где k {1…K} – число значимых элементов. Предполагается, что только они повлияют на прогноз, прочие элементы будут проигнорированы. Номера ij выбираются из некоторых соображений перед началом работы и затем остаются неизменными. Одним из этих элементов в силу изложенных ниже соображений непременно должен являться x0 – последний по времени (и последний в буфере) элемент ряда.
Структура метода автономного адаптивного управления (ААУ) [1] подходит к решению задачи прогнозирования. Теоретически, система ААУ может находить в потоке входных данных образы некоторых последовательностей, запоминать их, а во время прогноза -восстанавливать эти последовательности по их начальным частям. В этом состоит общая идея применения метода ААУ к прогнозированию.
2. Устройство и принцип действия модели При построении прогнозирующей системы на базе метода ААУ общая схема системы управления [1] была изменена в соответствии с конкретной задачей. Перечислим основные компоненты системы и опишем их устройство и работу в рассматриваемом случае.
161
Смысл верхней и нижней границ следующий: это значения, между которыми с некоторым запасом (величина запаса определяется константой w) помещается все текущее содержимое окна. Эти величины в каждый момент времени могут иметь разные значения. Блок датчиков выбирает из содержимого буфера значимые элементы
Затем для каждого из значимых элементов xij строится разбиение {T0…T(dj-1)} ; Tk=[ xmin+ k(xmax - xmin)/dj ; xmin+ (k+1)(xmax - xmin)/dj ], где dj – число интервалов для элемента xij. То есть, для каждого xij мы разбиваем окно по высоте (по ординате x) на dj равных интервалов. Числа dj также выбираются заранее и в процессе работы не изменяются. В общем случае интервалы могут быть разного размера. Наконец, значение каждого элемента xij кодируется номером того интервала из разбиения, Tj, в который оно попало. В итоге блок датчиков формирует целочисленный вектор таких номеров {p0…pj…pk}, в котором закодированы с некоторой погрешностью все значимые элементы буфера. Этот вектор является результатом работы блока датчиков и передается далее блоку формирования образов. 162
Смысл такого вектора следующий. Все его компоненты кроме p0, соответствующего элементу ряда x0, представляют собой «предысторию» p0, т.е. в векторе содержится информация о том, что за последовательностью {p1…pj…pk} в этот раз следовала последовательность {p0}. В дальнейшем мы будем называть такие последовательности образами.
применяется хэш-функция вида p0d1d2…dk + p1d2…dk + … + pk. Легко убедиться, что эта функция действительно однозначно переводит любой вектор {p0…pj…pk} в целое число – фактически, она преобразует это число в привычный вид из записи в позиционной системе счисления с «переменным основанием», которой и является вектор {p0…pj…pk}. Номер распознанного образа является результатом действия блока ФРО и поступает на вход блока формирования базы знаний.
Поясним работу блока датчиков с помощью рисунка 1.
2.3. Блок формирования базы знаний База знаний в нашем случае устроена просто – это целочисленный массив размером в максимальное количество образов, которые способен распознать блок ФРО. Получая на вход номер распознанного образа, блок формирования базы знаний увеличивает значение соответствующей номеру ячейки массива. Если это значение превышает некоторый порог M, то отвечающая номеру пара «причина следствие» признается устойчивой, и в дальнейшем считается, что такая причина статистически связана с таким следствием. У каждого следствия может быть несколько разных причин, и наоборот.
xmax T2i2
T1i2 T0i2 xmin
2.4. Блок оценки состояния объекта управления ti2
ti1
t0 Этот блок отсутствует за ненадобностью. Однако имеется «эмоциональная оценка» входных образов: чем чаще образ встречается во входном потоке, тем он «лучше», и тем большее предпочтение будет отдано ему при выборе действия.
Рис. 1. Представление исходных данных, полученых с помощью «блока датчиков». На рис. 1 t0, ti1, ti2, - моменты времени, соответствующие значимым элементам, пунктиром обозначено окно, заштрихованными прямоугольниками - интервалы из разбиений T, в которые попадают значимые элементы. Все прямоугольники в совокупности образуют схематическое представление того, как блок датчиков «видит» поступающую к нему на вход информацию.
2.5. Блок определения времени принятия решения Этот блок вырожденный – задержка между восприятием образа и принятием решения всегда равна 0.
2.6. Блок принятия решений 2.2. Блок формирования и распознавания образов Блок формирования и распознавания образов в каждый момент времени получает на вход вектор {p0…pj…pk}, сформированный блоком датчиков и представляющий собой закодированное представление пары образов «причина следствие» (или «хвост буфера голова буфера»). Так как природа исследуемого нами ряда, вообще говоря, неизвестна, либо недостоверна, и никаких априорных сведений о возможных встречающихся в нем образах мы не имеем, было принято решение в качестве образов использовать все возможные входные векторы. Таким образом, общее число элементов базы знаний будет равно произведению d0 d1 … dk , где dj – число интервалов в разбиении Tj , соответствующем элементу xij. Для перевода входного вектора в номер, однозначно определяющий закодированную в нем пару и, соответственно, определяющий один и только один элемент базы знаний, 163
Перед блоком принятия решений стоит следующая задача: зная образ, воспринимаемый системой в данный момент, на основании хранящейся в базе знаний информации определить, какой образ с наибольшей вероятностью последует за ним в следующий момент времени. Это делается следующим способом: за образ «причины» принимается вектор {p1…pj…pk}. Затем в базе знаний находятся все устойчивые пары, соответствующие такой причине, среди них выбирается пара с наибольшим весом (т.е. с наибольшим значением в соответствующей ячейке базы знаний), и образ соответствующего этой паре «следствия» p0 провозглашается искомым. Этот образ передается исполняющему органу. Если блок принятия решений не может найти ни одной такой пары, он возвращает образ самого последнего известного элемента ряда (предполагая, что никаких изменений не предвидится). 164
2.7. Исполняющий орган Задача исполняющего органа состоит в том, чтобы на основании переданного ему образа действия p0 получить вещественное число – ожидаемый в следующий момент элемент ряда. В качестве такого числа берется середина интервала из разбиения T, соответствующего p0.
Метод оптимизировался на последовательности значений курса доллара к рублю по данным ЦБ РФ за 1995 - 1998 годы. В качестве отклонения P была выбрана функция k[K,N-1-K] ((n[i,I+K-1] |(xn - pn,K) / xn|)/(K))/(N-1-K) – среднее относительное отклонение от реальности всевозможных прогнозов длины K на выборке. Число K в случае реального использования вытекает из требуемого горизонта прогноза, в нашем случае оно колебалось от 30 до100.
3. Оптимизация. Эксперименты и результаты
Вначале на оптимизируемые параметры были наложены следующие ограничения:
3.1. Цель, постановка и решение задачи оптимизации
1)
Первоначальные эксперименты производились на достаточно больших выборках (несколько тысяч значений), в качестве исходных данных брался курс доллара по отношению к рублю за последние несколько лет.
2 dj dmax - число интервалов в разбиении не должно превышать заданного и не должно быть меньше двух. Первое нужно для избежания неограниченного роста базы знаний, а при разбиении из одного интервала данный узел не даст нам никакой полезной информации.
2)
0 ij imax – значимые узлы не должны попадать в будущее (так как там еще ничего не известно) и не должны уходить в прошлое более чем на imax периодов, чтобы избежать неограниченного увеличения буфера.
Проводился прогноз двух типов. Прогноз 1-го типа - кратковременный, когда на основании достоверных данных предсказывалась ситуация только на один шаг вперед. Прогноз 2-го типа – долговременный: вначале на основании достоверных данных {x0…x-K} предсказывалось следующее значение x1 , затем, на основании данных { x1 , x0…x-(K-1)} - значение x2 , и.т.д. В ходе экспериментов выяснилось, что результаты прогноза очень сильно зависят от подбора количества интервалов dij и значимых элементов xi0, xi1, … xi(k-1). В зависимости от выбранных значений качество прогноза колебалось от отклонения в 1.2 % при прогнозе на несколько сотен дней (на относительно ровных участках) до полного вырождения прогноза в параллельную оси t прямую после первых нескольких итераций. Стало ясно, что метод необходимо оптимизировать для каждой конкретной выборки. Постановка задачи оптимизации выглядит следующим образом: для заданного количества значимых элементов k требуется подобрать их номера ij и количество интервалов dij так, чтобы минимизировать среднее отклонение прогноза от реальных значений P(i0…ij…ik , d0…dj…dk , {xn}), где {xn}, n [0,N-1] – выборка исходных значений. Очевидно, данная функция является сеточной. Введены ограничения на максимальное количество интервалов dmax и на максимальную ширину окна K. Эти ограничения вызваны требованиями реализации: количество памяти, нужной алгоритму, не должно превышать разумных пределов. Для решения задачи был выбран метод автоматной оптимизации [2], предложенный А.Н. Рапопортом. Выбор обусловлен тем, что данный метод не требует от функции явного вида, и потому удобен для минимизации сеточных функций. При оптимизации использовался коллектив стохастических автоматов с глубиной памяти от 2 до 6 и вероятностью принятия противоположного решения 0.1. В случае попытки выйти за границы штраф становился положительным, независимо от изменения минимизируемой функции. Все значения подобраны экспериментальным путем. 165
Оптимизация с такими параметрами привела к неожиданным результатам: все значимые узлы собрались в точке 0. Из этого следовал полностью вырожденный прогноз – прямая, параллельная оси t. Введение следующего ограничения : | ij - ik | < imax ; i j (расстояние между значимыми узлами не должно быть меньше заданного) существенно не повлияло на качество прогноза. Узлы все равно распределялись так, чтобы прогноз оказывался вырожденным, т.е. чтобы встречающиеся во входном потоке образы как можно реже распознавались. Причиной такого поведения системы, видимо, является то, что тактика выжидания при «угадывании» следующего значения – не самая худшая из возможных. В точке, соответствующей этой тактике, метод автоматной оптимизации находит локальный минимум и зацикливается на нем. Поэтому было введено еще одно ограничение. Всякий раз, когда в процессе оптимизации система давала вырожденный прогноз (т.е. не могла распознать текущий образ как устойчивый), коллектив оптимизирующих автоматов наказывался. Это положительно повлияло на результат оптимизации и в ряде случаев привело к достаточно высокому качеству прогноза.
4. Эксперименты Проведены эксперименты на реальных входных данных: значениях курса доллара к рублю за 1993 – 2002 г, значениях индекса S&P500, значениях процентной ставки ЦБ РФ. Приведем несколько примеров, иллюстрирующих работу модели на разных выборках.
166
Рис. 2. Прогноз (тонкая линия) курса доллара (жирная линия) на 300 периодов (дней) вперед. Отклонение от реальных значений – 0.04 (примерно 0.6%). Заметна периодичность (“горбы” на графике через равные промежутки времени), выявленная системой ААУ во входных данных.
Рис.3. Прогноз (тонкая линия) процентной ставки ЦБ РФ (толстая линия) на 300 периодов (дней) вперед. Отклонение от реальных значений – 17 (примерно 14%). Система ААУ не может найти достаточного количества устойчивых образов во входном потоке, и поэтому на протяжении последних двух третей прогнозируемого промежутка не способна принять решение (двойная линия). Из приведенных примеров видно, что качество работы модели очень сильно зависит от исходной выборки. Чем глаже прогнозируемая функция, тем выше точность прогноза. Дать оценку погрешности метода в общем случае, на основании которой можно было бы сопоставить данный метод с другими и сделать выводы об их сравнительном качестве и области применимости, авторы пока не в состоянии. Такая оценка должна представлять собой зависимость средней ошибки прогнозирования от некоторых характеристик исходного ряда. На данном этапе непонятно, какие именно характеристики следует учитывать. Рис.3.
Прогноз (тонкая линия) курса S&P500 (жирная линия) на 50 периодов (дней) вперед. Отклонение от реальных значений – 35 (примерно 3%). Качество прогноза хуже, чем в первом случае, так как входные данные более хаотичны. Система ААУ работает в условиях нехватки информации. Участки с двойной линией на графике прогноза – промежутки, на которых имеющихся в базе знаний сведений недостаточно для принятия решения.
5. Выводы К преимуществам прогнозирования с помощью метода ААУ можно отнести:
167
168
Отсутствие необходимости описывать математическую модель исследуемого процесса.
Возможность обрабатывать информацию поточно, без переучивания после появления каждого нового значения. Другими словами, в системе ААУ реализуется принцип самообучения в процессе управления.
Гибкость, способность отбрасывать некогда найденные, но уже долго не встречавшиеся закономерности.
Достаточно высокое качество прогноза (при горизонте от 50 до 300 периодов на тестовых выборках достигнуто отклонение 0.6 – 3%). Недостатками являются:
несколько экспериментов, однако об однозначных результатах говорить еще рано.
Список использованной литературы 1) Жданов А. А. Накопление и использование информации при управлении в условиях неопределенности. Сб. н. тp. ИФТП РАH "Информационная технология и численные методы анализа распределенных систем." М.1992, 112-133.
Устойчивая работа только на больших (сотни, тысячи значений) выборках.
2) Жданов А. А. Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134.
Большой объем необходимых вычислений. По вычислительной сложности метод сравним с нейросетевыми алгоритмами.
3) Рапопорт А.Н. Автоматные модели поисковой оптимизации и управления. Монография. Киров, 1999.
Невозможность представления алгоритма в виде явно заданной функции, что затрудняет классические методы его исследования.
5.1. Варианты развития. Возможны несколько путей развития описанного способа предсказания временных рядов: 1) Введение эффекта «забывания». В случае изменения свойств прогнозируемого ряда образы «старых» закономерностей, сохранившиеся в базе знаний, будут мешать прогнозу. Возможно, следовало бы в соответствии с некоторым законом уменьшать вес пары образов, долгое время не наблюдавшейся во входном потоке. 2) Усовершенствование исполнительного органа. Зная интервал, в котором ожидается появление следующего значения, можно не брать это значение из середины интервала, а вычислять более точно на основании сведений о поведении ряда за последние несколько тактов. 3) Усовершенствование блока датчиков. a) Разбиение T для каждого из значимых узлов вовсе не обязательно должно содержать интервалы равной длины. Может оказаться, что введение разбиений с неравными интервалами, выбираемыми из неизвестных пока соображений, положительно скажется на качестве прогноза. b) Количество значимых узлов в данной работе подбиралось экспериментально. Необходимо более детально исследовать эту проблему. c) Высота окна также подбиралась экспериментально, требуется теоретически обосновать ее выбор и научиться определять оптимальную высоту. d) Образы могут кодироваться отличным от описанного способом. Например, можно представлять их в виде набора коэффициентов полинома заданной степени, приближающего соответствующую образу кривую. Не исключено, что такое кодирование окажется более эффективным. e) Блок датчиков может воспринимать элементы ряда, полученного из исходного каким-либо способом. Например, взятием знака от первой производной. Или, в общем случае, вычислением тренда (тенденции ряда). Во многих экономических задачах важно качественное, а не количественное предсказание, поэтому такая замена уместна. К тому же она позволяет сократить размерность базы знаний, так как диапазон наблюдаемых значений сокращается. В этой области проведено 169
170