Нелинейное программирование Е.А. Нурминский 8 марта 2003 г. Аннотация Будет рассмотрена теория и вычислительные методы р...
11 downloads
148 Views
226KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Нелинейное программирование Е.А. Нурминский 8 марта 2003 г. Аннотация Будет рассмотрена теория и вычислительные методы решения задачи минимизации нелинейных функций.
Содержание 1 Условия оптимальности 1.1 Oптимум без ограничений . . . . . . . . . . . . . . . . . . . 1.1.1 Необходимые условия . . . . . . . . . . . . . . . . . . 1.1.2 Достаточные условия экстремума . . . . . . . . . . . 1.2 Oптимум с ограничениями . . . . . . . . . . . . . . . . . . . 1.2.1 Условия оптимума с ограничениями-равенствами . 1.2.2 Седловая точка . . . . . . . . . . . . . . . . . . . . . 1.2.3 Дифференциальная форма условий оптимальности
. . . . . . .
. . . . . . .
2 2 2 4 5 6 7 10
2 Методы безусловной оптимизации 2.1 Градиентные методы . . . . . . . . 2.2 Скорость сходимости градиентного 2.3 Методы одномерной минимизации 2.3.1 Метод дихотомии . . . . . . 2.3.2 Поиск Фибоначчи . . . . . . 2.3.3 Тестовые задачи . . . . . . . 2.4 Метод Ньютона . . . . . . . . . . . 2.5 Метод сопряженных градиентов . . 2.6 Учебные задачи . . . . . . . . . . . 2.6.1 План на месяц . . . . . . . . 2.6.2 Производство товара . . . . 2.6.3 Газопровод . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
11 11 13 15 15 16 17 17 19 23 23 23 24
1
. . . . . метода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
Будет рассмотрена теория и вычислительные методы решения задачи
(1)
Функция называется целевой функцией, а множество — допустимым множеством. Множество обычно задается системой равенств или неравенств. Не умаляя общности это множество можно считать заданым некоторой системой неравенств:
!" $#&%' "()+*, .-' //0132,
4 5 "(67*! 8-9 0//5 81
Задачи нелинейного программирования отличаются тем, что либо инейна, либо нелинейна какая-либо из функций
1
(2)
.
нел1
Условия оптимальности
Один из первых результатов теории экстремальных задач были попытки характеризации точек, которые являются или могут быть решениями различных классов проблем. Такие условия делятся на достаточные (исследуемая точка ”являются” решением) и необходимые (исследуемая точка ”может быть” решением). Естественно, необходимые условия являются менее жесткими и, с точки зрения формулировок, более простыми. Достаточные условия сводятся к необходимым плюс некоторые дополнительные требования к задаче и исследуемой точке. Формулировки услоловий оптимальности зависят от классов задач и здесь мы рассмотрим два класса задач — без ограничений и с ограничениями.
1.1
Oптимум без ограничений
Теория признаков оптимальности без ограничений, хотя и весьма проста, тем не менее может служить неплохим введением в предмет. 1.1.1
Необходимые условия
Необходимые условия оптимальности были, повидимому, одними из первых результатов, полученных в этой области.
Теорема 1 (T. Fermat, 1653) Если точка ференцируемой функции :
то
>? : ;<%@
1 Задача
:
доставляет минимум диф-
: ;<= 5
A4BDC!E была линейна: FHGJILK A4BC!ENMOCQPSRUTV FHGJIWK"X M XHY A4BDC!EZMZCQPSRUT/[
(1) всегда может преобразована так, чтобы
2
Д о к а з а т е л ь с т в о. Сейчас доказательство этого факта представляет собой легкое упражнение для студентов первого года изучения основ математического анализа. Однако оно предоставляет шанс ввести некоторые полезные понятия и продемонстрировать генезис некоторых обобщений и численных методов. Определим производную по направлению:
> D ?
(3)
которая характеризует скорость роста функции в точке по направлению . Элементарные вычисления показывают, что для дифференцируемой функции с производной (градиентом)
> > > Положим :4 Если > :L <% , то % / > : > : " > : ; > : > : "5
O : > : " : " !0 > : " #$ 5 #% & % # '$ +&(*Q 0 %@ > :" L ) : , > : : -*./ 0/ > : "12L -3* %@ :3' > :L4* :L :
(4)
По определению
где при остаточный член
Следовательно, для достаточно малых и, соответственно,
%
Отсюда получаем и, следовательно, не может быть точкой минимума. Важные уроки, которые можно извлечь из этого доказательства, заключаются в том, что оно, во-первых, вводит важное понятие производной по направлению и, во-вторых, подсказывает направление, в котором можно улучшить ( уменьшить ) целевую функцию, если ее градиент отличен от нуля. Первое дает возможность формулировать условия оптимальности и для других классов фуннкций, лишь бы у них существовала производная по направлению: примерами таких функций являются кусочно-гладкие функции и пр. Второе порождает градиентный метод минимизации, все еще используемый в специальных случаях. Из оптимальности точки можно получить и информацию о поведении и ее вторых производных в этой точке.
:
Теорема 2 Если точка уемой функции :
:
доставляет минимум дважды дифференцир-
: ;<= 5 то матрица вторых производных функции в точке : % для всех . определена: > > @:L
5
56
5
3
неотрицательно
Д о к а з а т е л ь с т в о. Из оптимальности
:
следует, что
-* ' > > : 9 1 9 & % & % % +& 5 5 > > @:L 56 % : # : '; :
для всех , причем Разделив неравенство (5) на получим . 1.1.2
(5)
при . и устремив к
так, чтобы
Достаточные условия экстремума
%
,
<
Легко видеть, что обращение теоремы 1 неверно: функция в нуле имеет нулевую производную, однако точка не является ни минимумом, ни максимумом . Условия, гарантирующие оптимальность некоторой точки, называются достаточными условиями экстремума.
Теорема 3 Если в точке
> :L;<% ,
1.
:
выполнены условия:
2. Матрица вторых производных то точка
5
:
> > @:L
5
> > @:L
положительно определена,
является изолированой точкой локального минимума.
%
5
<%
Д о к а з а т е л ь с т в о. Положительная определенность что для . Обозначим
*L2
+ 5 & 4& 5
5 > > : 5
> > @:L
означает,
> > 5 : 5 5 5 как
В силу замкнутости и ограниченности единичной сферы , а также в силу непрерывности квадратичной фуннкции функции величина . Положим и оценим
5
% < : < : ; : > > : 9 W5 % при % . Отсюда следует, что где 9 :W > > @:L 9 @: 9 :W L- @:L > % для достаточно малых % . Другими словами, существует % с > 5 : # выполняется неравенство такое, что для всех % : > : : и, следовательно, : является изолированой точкой локального минимума.
5
5 5 3*! , 6
4
5 5 6 6
1.2
Oптимум с ограничениями
Как бы не знаменит результат теоремы 1 не был, он имеет весьма ограниченную практическую ценность. Оптимизационные задачи, возникающие на практике, имеют, как правило, нетривиальные ограничения, а теорема 1 в этом случае неприменима. Дальнейший прогресс в этой области был достигнут другим гигантом математической мысли: Ж. Лагранжем. Для решения условных экстремальных задач с нелинейными ограничениямиравенствами (6)
= +0 !" <%@ ()7*! 8-9 /0/ 2
им была введена функция
;
" (; *! 8-9 /0/
названная в его честь функцией Лагранжа. Эта функция содержит дополн , которые называют множителями ительные переменные Лагранжа. Условия оптимальности для задач вида (6) формулируются в виде условий на функцию Лагранжа. 2 Пожалуй проще всего эти условия оптимальности доказываются с помощью теоремы о неявной функции, которую мы в связи с этим приведем в подходящей формулировке.
— дифференцируемая вектор-функция, которая Теорема 4 Пусть отображает -мерное пространство в -мерное пространство и в точке , такой, что (7) якобиан ! " " "
< :
%,;
= == /= 0 ==
: ; % = == /= / ==
= == 0= / ==
/0 /0 /0 /0
этого преобразования невырожден. Тогда из существования решения уравнения (7) следует существование решения у уравнения (8)
%
для всех достаточно малых , причем решение рерывно зависит от в точке . 2 Функцию
:9 '
уравнения (8) неп-
Лагранжа записывают иногда в больее +0общем виде как /+
#
+
BC M%$,E@V&$'5A4BDC!E(*)
,.-
$
BDC!E
Это связано с тем, что в определенных вырожденных ситуациях множитель Лагранжа $ ' может быть равен нулю. Если он не равен нулю, что чаще всего и бывает, то функцию Лагранжа можно отнормировать так, что коэффициент при будет равен единице.
A4BC!E
5
1.2.1
Условия оптимума с ограничениями-равенствами
Для задачи (6) справедлива следующая теорема.
:
локального минимума или максимума, то //—0 точка не все равные нулю, такие, что > : > : ; %'
Теорема 5 Если существуют
:; > @:L > : (S *, .-' //05
%
Д о к а з а т е л ь с т в о. Не умаляя общности можно считать, что . Если предположить противное, то векторы , линейно независимы и, следовательно, якобиан системы уравнений
% (9) <%' "()+*, .-' //0 :. отличен от нуля в точке Из теоремы о неявной функции следует, что при достаточно малых &% существует решение :9 системы @: <%' "()+*, .-' //0 причем при малых точка :4 близка к : . Следовательно, точка : не
*
является точкой локального минимума, что противоречит предположению теоремы. Полученное противоречие доказывает теорему.
, L &*
Пример. Рассмотрим задачу
D! ! +*
Функция Лагранжа этой задачи имеет вид
после чего получаем систему уравнений — необходимые условия экстремума и условия допустимости:
-- <<%% *!
7 4
!
решением которой являются две точки и . Непосредственной проверкой убеждаемся, что вторая из них является точкой минимума со значением .
6
Пример.(Теорема Релея) Пусть — -мерный вектор, ческая положительно определенная матрица. Рассмотрим задачу
0
— симметри-
*
(10)
%' <% %
Функция Лагранжа этой задачи имеет вид
5
Условия оптимальности имеют вид
%
< %
%
Если , то и, следовательно, . Однако не удовлетворяет ограничениям задачи и, следовательно . Разделив на получим то есть оптимальный с необходимостью является собственным вектором матрицы , а множитель Лагранжа — собственным числом. Задача (10) при этом приобретает вид
0
+*
D
— собственное число матрицы
что дает альтернативное описание минимального собственного числа — утверждение известное в линейной алгебре как теорема Релея. В дальнейшем условия оптимальности были обобщены на случай ограниченийнеравенств. Эти обобщения были выполнены в общем-то в рамках формализма Лагранжа, хотя и с использованием другого математического аппарата. 1.2.2
Седловая точка
Существует и другая форма условий экстремума, которая формулируется в виде неравенств на значения функции Лагранжа. Оказывается существование экстремума тесно связано с наличием у функции Лагранжа так называемой седловой точки. , Определение 6 Точка называется седловой точкой функции если для любых выполнены неравенства
6
%' "
: :
:
6
: :
6
: 5
(11)
Связь между седловой точкой функции Лагранжа и решением соответствующей оптимизационной задачей описывается следующими двумя теоремами. Первая из них показывает, что существование седловой точки влечет за собой оптимальность ее -компоненты: Теорема 7 Если — седловая точка функции Лагранжа, то
и
: :W : ; =
= D 5
7
:U
Д о к а з а т е л ь с т в о. Из правой части (11) следует, что
6
: :
%
6
:
(12)
@:LH# %
для любых . Отсюда ясно. что как минимум , т.е. точка с необходимостью удовлетворяет ограничениям задачи (1-2). Более того, полагая в (12) получаем
%
6
%
: :
6
:
%
а учитывая то, что все слагаемые этой суммы неположительны, то
: ! : <%' (+*, .-9 0/0
(13)
Эти условия носят название условий дополняющей нежесткости или условий комплементарности. Из (13) следует, в частности, что для ограничений, выполняющихся как строгие неравенства, соответствующие двойственные переменные равны нулю. При выполнении некоторых дополнительных условий регулярности выполняются и условия строгой дополняющей нежесткости:
: !" : ; %' "()7*! .-' /0/
или условия строгой комплементарности. Далее, из (11) следует, что
: ; Если
, то
: : #
: !. $# %
+
: ! : &%'
: ;
: ! 5
и, следовательно,
: # 5 что доказывает оптимальность : .
Доказательство обратного утверждения требует выполнения некоторых дополнительных условий. — выпуклые функции, и сущеТеорема 8 Пусть и . Тогда для люб ствует точка такая, что
*
"( !* 8-9 /0/5 %' "( *! 8-9 /0/ : ой точки решением задачи (1) существуют величины % # : : , являющейся : /0/ : такие, что : :W является седловой точкой
функции Лагранжа.
5 5 5 5 5 5 6
*
-мерное Д о к а з а т е л ь с т в о. Для доказательства рассмотрим и определим в нем множество пространство векторов
//0 7 : 5 (;*, .-9 0/0 8
% +O%' "%@ /0/ .%,
для некоторого . Заметим, что точка не принадлежит и, следовательно, отделима от этого множества некоторой гиперплоскостью т.е.
(14)
: #
% %
:Q7 : : 0/0/ : ,
: % : 5 6 5
, т.к. иначе левую часть можно Отсюда следует в первую очередь, что устремить к , неограниченнно увеличивая , соответствующее какомулибо строго отрицательному . Кроме этого, вычисляя правой части (14) по или получаем
:
D
5 !" 5 (;7*! .-' /0/5
5 & : 5 6 : : # : : ! 5 : % : % : * %' % # : % : : !. : 5 : # : 5 & Q % : !" $#&% %# %' "()*, .-' //0 : : : : $# : 5 :
(15)
. Действительно, Можно показать, что в предположениях теоремы если предположить, что и взять , то (15) приводит к противоречию:
Таким образом чаем
Теперь положим
: :;
или
и, разделив (15) на
и устремим
(16)
. Из (16) получаем
. Тогда (16) может быть переписано в виде
после переобозначений полу-
(17)
что почти убеждает в наличие седловой точки функции Лагранжа. Для завершения доказательства необходимо лишь удостовериться в том, что
:
или
: ;
6
%
: #
: : < :
! : #
: :
: !. :
для . Последнне, впрочем, тривиально, т.к. правая чать равна нулю, а левая — неположительна. 9
1.2.3
Дифференциальная форма условий оптимальности
Условия связывающие оптимальность с седловой точкой функции Лагранжа имеют большое теоретическое значение, так как применимы к весьма общим ситуациям. Вместе с тем они недостаточно конструктивны, так как представляют собой по сути дела бесконечную систему неравенств. На практике чаше применяют дифференциальную форму условий оптимальности, известную под названием условий Куна-Таккера. Для формулировки этих условий введем для задачи (1) несколько дополнительных определений.
( Пусть : — некоторая ( фиксированная ) точка. %
индексов ограничений, таких что Определение 9 Множество при называется множеством активных ограничений.
*
: ), % # : $#&%' (6*, .-9 0/0 (18) Множество ( конус ) :W допустимых направлений можно охарактириз%
Определение 10 Направление называется допустимым (в точке если существует такое, что для всех
&%
овать следующей леммой. Лемма 11 Если
, то
> :
такого, что существует
#&%@ (; :
при котором
— допустимое направление.
@:L
&%
Д о к а з а т е л ь с т в о. Проблему представляют только ограничения группы , для остальных любое направление являтся допустимым. Пусть и удовлетворяют (18) с . Тогда
. * +
! @: !" @:L > :W 9 H# 9 H# 9 $# !- %' % , т.е. точка : будет допустимой. для достаточно малых
Доказанная лемма дает нам возможность доказать основной результат.
@:L
:
6
%@ ( *, .-9 0/05
> :L5 (
Теорема 12 Если является точкой локального минимума и , такие, линейно независимы, то существуют что
> :
> : %'
Д о к а з а т е л ь с т в о. Заметим, что если то система неравенств
:
> @:L #&%' "(; @:L5 > @:L # %
10
допустима и оптимальна, (19) (20)
# %
неприменно имеет решение с . В противном случае направление является допустимым (лемма 11), а так как
) * +*
> : ; > : H# &%@ & @:L , откуда следует, что : не может быть то, аналогично, и : точкой локального минимума. Таким образом для любой пары , удовлетворяющей (19)-(20) & # % , что может быть записано как % <* # &% (21) с %' 0* . Лемма Фаркаша при этом утверждает, что существуют % # "(; @: такие, что %U > : > : (22) =
*S
= :L и того, что в силу последнего Из линейной независимости > : (S равенства все могут быть одновременно равными нулю следует, что % . Нормируянеуравнение (22) на получаем утверждение теоремы.
и
2
Методы безусловной оптимизации
Хотя теория необходимых условий экстремума в оптимизационных задачах без ограничений почти тривиальна, методы поиска решений этих задач — далеко нет.
2.1
Градиентные методы
Одним из простейших методов является градиентный, идею которого можно проследить к доказательству теоремы 1. Сам метод состоит в построениии последовательности точек по следующей схеме:
0 42
> 5 <%@ /*! 0/0 % — шаговый множитель, — некоторое начальное приближение, которое выбирается за пределами метода. Простейший вариант метода имеет constant. Теорема 13 Пусть > удовлетворяет условию Липшица с константой : / > ' > Q#
0 11
множества линий уровня
1 , $# 2 * . Тогда последовательность 0 2 схофункции ограничены: и % и > :L;<% . диться к некоторой предельной точке : , > ! Д о к а з а т е л ь с т в о. Покажем прежде всего монотонность W L52, По %@ /* теореме о среднем для некоторого L; > L" ,; > L" L > !/O > ! > ! > L" / > , > L/O > L" > !"$# 0 > ! / > , 0 > L > ! Q# 0 > L / > , 5 L Q# 0 > ! / > ! L L Q# / > ! 0 > ! / > , / > L / > ! / > , * / > , &% где * . Откуда следует, что W L52, не возрастает и если не останавливается в некоторой точке с > !U % , то строго монотонно убывает. Следовате1 = , и, следовательно, льно принадлежат ограниченному множеству : ! : имеется предельная точка и . Из # / > # % получаем > :L;<% . предельным переходом по Так как ключевым моментом доказательства являлась демонстрация монотонного убывания L , то немедленно возникает идея вибирать из условия > ;< > "5 (23)
* 2
&
/ 0 " 0 " " 0 " 0 0 0
&
&
которое это убывание только усилит. Такой метод носит название метода наискорейшего спуска и хотя этот метод не дает особенного ускорения сходимости он свободен от параметров и на практике может дать некоторый выигрыш, особенно на начальных итерациях. Задача (23) сама по себе достаточно сложна и интересна. Для ее решения применяются методы так называемой одномерной минимизации, которые будет рассмотрены ниже. Однако прежде мы ознакомимся с таким важным понятием, как скорость сходимости.
12
2.2
Скорость сходимости градиентного метода
В вычислительной практике большое значение имеет не только сам факт сходимости метода к решению задачи, но и то, насколько быстро он достигает приемлимую точность решения. Точность решения при этом можно измерять отклонением вычисляемого значения целевой функции от минимума: или отклонением самой точки от истиного положения оптимума: то говорят, что имеет место сходимость по функцЕсли при ионалу, а если , то говорят, что имеет место сходимость по решению. Величины , могут убывать как геометрические прогресии:
:
&
%
=
:
& =& %
= 5
#
= # = 7*! 8-9 0//
= . В этом случае говорят о линейной ско-
для некоторых констант рости сходимости и эффективность определяется значениеми множителей , . Для дважды дифференцируемых функций в окрестности минимума обычно оценивается как , в силу квадратичного характера поведения в этой окрестности. Если близко к , то сходимость быстрая, если близко к ( как это к несчастью чаще всего и бывает ), то реальная сходимость может быть довольно медленной. Некоторые высокоэффективные численные методы обладают и более высокой скоростью сходимости, например
=
=
%
#
или
*
#
В этом случае сходимость называют квадратичной. Как легко видеть, при этом количество точных знаков на каждой итерации удваивается. Квадратичную сходимость имеют методы Ньютоновского типа, с которыми мы ознакомимся позднее, а пока исследуем скорость сходимости простейших вариантов градиентных методов.
> >
— дважды дифференцируемая функция с полоТеорема 14 Пусть жительно определенной матрицей вторых производных , удовлетв . 3 Тогда градиентный оряющей неравенствам метод с постоянным шагом
# > > # > 5 %' 0*! 0//
: S #
имеет следующую оценку скорости сходимости: где
= 5 # * * 2 .
+
3 Матричное неравенство единичная матрица.
означает, что
13
неотрицательно определена,
—
Д о к а з а т е л ь с т в о. В силу дважды диференцируемости
> ; > > : где очевидно Далее
#
#
: / :
: 5
.
/ ! . 5 5
= 5 @ : H : > L L @:L S# L 5 @ :
(24)
используем определение нормы
Для оценки нормы
5
Симметричная матрица имеет ортогональные собственные векторы, которые, не умаляя общности, можно считать нормироваными. Вектор можно разложить по этим векторам и тогда
5
5
. Учитывая
где — собственные векторы, а — собственные числа ортогональность получаем эквивалентную задачу
.
*
* L
1 * S7 * + D
которая имеет очевидное решение
* 2W
где . Подставляя эту оценку в (24), получаем утверждение теоремы. Выбирая в условиях теоремы 14 так, что бы миниммизировать оценку множителя получаем следующую оценку
+ - '
градиентный Следствие 15 В условиях теоремы 14 при метод с постоянным шагом сходится линейно с множителем .
9
#
Может создасться впечатление, что выбирая шаг градиентного метода из условий полной релаксации (23) можно ускорить сходимость. К сожалению, это не так. Даже если сходимость действительно несколько улучшается на начальных итерациях метода, оценка асимптотической скорости сходимости имеет для метода (23) точно такой же вид [?, стр. 65].
14
2.3
Методы одномерной минимизации
&
#
Задача одномерной минимизации состоит в нахождении минимума функц , обычно на некотором интервале: ии одной переменной или при выполнении одностороннего ограничения .
#
:
)#
: * * называется следует унимодальной, если сущест : +* -*
Определение 16 Функция вует такое , что из
а из
:
следует
+* -*
: Другими словами, слева от : функция J монотонно убывает, а справа — возрастает. Точка : является единственным минимумом и, следовательно, задача (25) хорошо определена для унимодальных функций. Далее мы будем предполагать унимодальность, не оговаривая это особо. Для задачи (25) вводиться понятие интервала неопределенности , . Разность относительно которого можно утверждать, что определяет точность решения задачи (25). Методы одномерной минимизации обычно строят последовательность вложенных интервалов неопределенности, сходящихся к .
2.3.1
: :
Метод дихотомии
Если — дифференцируема, то решение (25) эквивалентно поиску корня уравнения
> <%
> -&%
> -*
Тогда при известном начальном интервале неопределенности с он может рекуррентно пересчитываться следующим образом:
%'
7 L-9 > 2. вычислим 3. если *&% , то 1. положим
4.
& <*
иначе
.
.
Видно, что этот метод программируется буквально ”в одну строку” и обеспечивает гарантированное убывание интервала неопределенности вдвое на каждом шаге, независимо от характеристик таких, например, как скорость роста или убывания , поорядок значений вторых проиводных и пр. Это 15
является одновременно и сильными и слабыми сторонами метода: с одной стороны он черезвычайно надежен, с другой стороны его скорость сходимости невелика и он не использует возможного ”хорошего” поведения в окрестности .
:
2.3.2
Поиск Фибоначчи
Если вычисление производный функции затруднено, то возникает интересная задача построения эффективного метода решения (25), используя лишь значения функции. Если в качестве показателя эффективности метода считать длину интервала неопределенности после вычисления заданого числа значений целевой функции, оптимальным является метод использующий так называемые числа Фибоначчи, впервые рассмотренные в XIII веке итальянским математиком Фибоначчи. Эти числа образуют последовательность , построенную по следующим правилам:
2
+*,
<%' 0*! /0/ , которые мы можем себе
Пусть — количество вычислений функции позволить. Отмасштабировав соответствующим образом начальный интервал, можно считать, что он имеет исходную длину, равную . Мы покажем, что после вычислений длина интервала неопределенности может быть сделана равной . В качестве первого шага вычислим в точках . В зависимости от результатов интервал неопределенности можно уменьшить либо до ( см. рис. 1) или до ( см. рис. 2). Поскольку , то второй случай сдвигом координат приводится к первому. Следовательно, в любом случае длина интервала неопределенности уменьшается до . Более того, внутри этого интервала находиться уже вычисленная точка ( в первом случае ) или ( во втором ). Дополни или , восстанавливаем ситуацию начального теьно вычислив в интервала, лишь с заменой на . Проделав таких шагов, получим интервал неопределенности, равный с вычисленной внутри точкой . Так как , то можно вычислить в точках для достаточно малого и сузить интервал неопределенности до . Количество вычислений функции при этом составляет . ) скорость сходимости поиска ФибоначАсимптотическая ( при чи зависит от того, как быстро растут числа Фибоначчи. Представив в виде и использовав реккурентное соотношение для чисел Фибоначчи получим для характеристическое уравнение
%'
*
*
с корнями
*
*
&
& *<%
*
/ - -
L !-9 7* , L-' 16
%@
-
-
*
*
+*, @*!% 4-%H0/ * а ! %' '*,% ,-% // * *! то асимптотически числа Фибоначчи растут как и следовательно, точТак как
ность метода увеличивается как 2.3.3
2 *
%' '*,% !-L%$0/
.
Тестовые задачи
Задача о цепочке
6
Задача о развитии производства Предприятие выпускает некий прод укт в соответствии с производственной функцией Кобба-Дугласа , где - фонд рабочего времени (человеко-часы), - фондовооружен ность предприятия, измеряемая отношением машинно-часов к человекочасам. Пусть предприятие располагает бюджетом развития 100 000 у.е., а увеличение основных фондов требует у.е. на один машинный час при стоимости одного челевеко-часа. Прогнозируемый рост цен на продукцию предприятия составляет 25 %, а оценка роста зарплаты на рынке труда составляет 12 %. Требуется найти оптимальное ( т.е. максимизирующее будущий доход ) распределение бюджета развития между увеличением трудовых резервов предприятия и его фондовооруженностью.
2.4
Метод Ньютона
Медленная сходимость градиентного метода заставила вычислителей искать новые походы. Для ускорения сходимости очень естесственной представляется идея использовать более точную квадратичную аппроксимацию
'; > в которой остаточный член
Задача минимизации дачу вида
J
'
1 &
'
* - 9 > >
&
'
имееет порядок малости
%
при
%'
9 , т.е.
в квадратичном приближении замещается на за-
>
* ' > > / -
которая имеет аналитическое решение,
Рассматривая методу
UO > > " > 5
как очередное приближение, приходим к итеративноу
<
O > > > 17
(26)
который носит имя метода Ньютона. Фундаментальное исследование этого метода провел В.Л. Канторович [?]. Теория этого метода весьма интересна, а его глобальное поведение ди сих пор не вполне изучено. Здесь мы ограничимся лишь локальным исследованием.
>>
— дважды дтфференцируемая функия и удовТеорема 17 Пусть летворяет условию Липшица ( в евклидовой норме ) с константой , — сильно выпуклая функция с константой сильной выпуклости и начальная точка удовлетворяет соотношению
/ > * :
*!
: *
Тогда 26 сходится к точке минимума
с квадратичной скоростью:
/ > '0 > > > Q# 1W ' < 0 > S # L? > > / > 1 > >? 6 O
" # > > 5 0 > Q # / > / > Q# / > "5( / > 6 :
Д о к а з а т е л ь с т в о. Из условия Липшица и теоремы о среднем получаем (27) Полагая из 27 получаем
Из сильно выпуклости следует, что для любого . Отсюда
, в том смысле, что
, т.е.
5 > > 5 5
Итерируя, получаем
С другой стороны для сильно выпукых функций
что завершает доказательство. Приведенная теорема утверждает сходимость метода Ньютона лишь при достаточно хорошем начальном приближении. Полученная в ней оценка для этого приближения приводит к курьезным результатам при решении плохо обусловленных задач. Рассмотрим, например, применение метода барьеров для решения простейшей задачи
= D
0DH 2
Мето логарифмического барьера рекомендует решение безусловной задачи
= 0
18
+%
:
& - % & * %
с малым параметром и решение этой задачи при . Константы оцениваются в окрестности минимума как
и
(глобальная оценка этих констант лишь ухудшит ситуацию). Применение условий теоремы потребует выполнения для начального приближения неравенства
- # # -
-
L*+ W Q #
*!
. Игпче говоря, начальное приближение должно быть т.е. порядка точности окончательного решения !
2.5
Метод сопряженных градиентов
>>
Основой применения метода Ньютона является точные вычисления элементов матрицы вторых производных . К сожалению, во многих случаях это представляется затруднительным. Альтернативой являются методы, имеющие как и метод Ньютона, высокую скорость сходимости, но использующие лишь первые производные целевой функции. Одним из наиболее известных методов такого сорта является метод сопряженных градиентов. Для изложения теории этого метода введем необходимые вспомогательные понятия. Определение 18 Система векторов ной ( или -ортогональной ), если
для
/0/0
%
( .
называется сопряжен(28)
Если — положительно определенная матрица, то, не умаляя общности, можно счмтать (29)
7*
и условия (28)-(29) определяют систему нормированых сопряженных векторов. Очевидно, что сопряженность определяется по отношению к некоторой матрице , но наличие такой матрицы обычно ясно из контекста. Далее мы будем предполагать положительную определенность , не оговаривая это особо. Сопряженные вектора имеют ряд полезных свойств, в частности, линейной независимости.
— система нормированых сопряженных " / 0/ 0 "/ /0 линейно независимы.
Лемма 19 Пусть векторов. Тогда
Д о к а з а т е л ь с т в о. Предположим, что
% 19
, получим
Умножив это равенство слева на произвольное
%' 7*! 8-9 0///
На вопрос о существовании сопряженных векторов можно дать конструктивный ответ, указав процедуру построения нормированой сопряженной системы. Такая система может быть построена, взяв за начальный материал некоторую линейно независимую систему и применив к ней алгоритм, аналогичный процедуре ортогонализации Грамма-Шмидта.
/ 0/0
— Процедура построения сопряженной системы Пусть . Очевидно, что вектор линейно независимы. Положим образует нормированую сопряженную систему из одного вектора. Кроме этого, заметим, что lin lin
;
0/0
0//
! /0/
где lin — линейная оболочка векторов ( в данном случае одного ). Далее построение нормированой сопряженной системы проведем по индукции. Предположим, что нормированая сопряженная система уже построена и lin lin В силу линейной независимости lin . вектор Положим
/ /0
L 0/0/ L 0/// //0
< %
lin
для ()7*! 8-9 /0/5
так, чтобы
/0/0 при был сопряжен /0/0 .
lin
(30)
%
% *
и, следовательно,
Поскольку
" ( 3*, .-' //0 разность @ % ,
* %
*
0/0/
. Поскольку для любых
то
очевидно, что при этом . Подберем коеффициенты Условие сопряжения дает
@ 5 0//0 ; %
@
. Тогда из (30) получаем
(6*! 8-9 0///
20
то можно выбрать
так, чтобы
;7*
В частности, выбрав для определенности положительный корень для получим
"
Полезность сопряженных систем для оптмизации связана с тем, что в системе координат, построенной на сопряженных векторах, задача оптимизации квадратичной функции выглядит обобенно просто. Действительно, пусть — некоторая нормированая сопряженная система из векторов -мерного пространства переменных. В силу своей линейной независимости эта система образует базис исходного пространства и, следовательно, любой вектор может быть представлен в виде линейной комбинации
//0
В системе координат, связанной с сопряженными векторами, квадратичная функция принимает исключительно простой вид
; Z5 где и задача минимизации имеет простое решение = D -* ; -* ; -*
!
Применить этот подход на практике мешает отсутствие сопряженной системы векторов. Такую ситему можно было бы построить, взяв за исходный материал произвольную ( например, ортонормированую ) систему линейно независимых векторов, однако, при этом необходимо вычислять призведения матрицы на некоторые векторы, что на первый взгляд требует знания этой матрицы. Однако, если — известна, что мешает нам применить метза один шаг ? од Ньютона и решить задачу минимизации Так вот метод сопряженных градиентов умудряется совместить построение системы сопряженных векторов с поэтапным ремением задачи минимизации и все это без явного использования матрицы ! Рассмотрим теперь собственно алгоритм. Пусть решается задача минимизации
(31)
= < = -*
;
21
//0
-*
/ /0/
и задана начальная точка . Как следует из процедуры построения сопряженной системы на начальном шаге нам нужен единственный вектор . Требование линейной незаыисимости означает, в частности, что этот вектор не должен быть нулевым. Для задачи оптимизации в качестве такого вектора можно выбрать градиент целевой функции в начальной точке:
> 5
Если этот вектор равен нулю, то — решение (31). Поэтапная решение задачи минимизации (31) означает ( на первом шаге ) нахождение
D
>O >
; 5
Шаг легко вычисляется, но это не суть важно. Существенно при этом, что градиент целевой функции в точке ортогонален и, следовательно, линейно независим от (и ). можно использовать для построения втоСледовательно, вектор рого сопряженното направления , которое, с точностью до нормировки будет иметь вид:
%'
<% L > > " > > " > > > " > " % > "12 > "1L 0 ;< D 0 ;< D 0
Умножив это условие на
или
> *W
и условие сопряжения имеют вид
его можно представить его в виде
откуда
Критически важным является следуюший шаг. Знание второго сопряженного направления дает нам возможность минимизировать по подпространству, натянутому на оба вектора . В силу сепарабельности в системе координат, связаной с эта минимизация сводиться к раздельной минимизации вдоль ( что уже было проделано ) и ( что происходит на этом шаге ). Таким образом
D
22
2.6
Учебные задачи
Эти задачи использовались в курсе ”Методы оптимизации” для отработки практических навыков решения оптимизационных задач. От студентов требовалось грамотно составить математическую формулировку задачи и решить ее, используя типовое программное обеспечение. В качестве такового как правило использовался программа оптимизации MINOS. 2.6.1
План на месяц
Компания ”Владбулка” производит 10000 батонов в день. При производстве хлеба расходы подсчитываются следующим образом: 1. 2. 3.
Оплата труда Оплата сырья Налоги и пр.
18 000 руб/день. 2.25 руб/батон. 9 млн руб в год.
Расходы по п. 1. растут в зависимости от обьема производства, расходы п. 3 от обьема производства не зависят. По данным обследования предприятия себестоимость 1 батона задается соотношением:
L%,%
*W-L%!%
-' - +'D*!*%
где — фактический выпуск продукции ( батонов в день ) — номинальный ( 10000 батонов в день ) Определить оптимальный обьем производства на следующий месяц. при условии, что прогноз средних цен составляет 5.43 руб/батон. 2.6.2
Производство товара
Фирма может производить товар А с затратами 6 руб за 1 кг и товар Б с затратами 3 руб/кг. Отдел сбыта полагает, что при цене товара А - a и товара Б - b, фирма может продавать тыс. тонн товара А и тыс. тонн товара Б. Определить:
*
-
максимальную прибыль, если А и Б будут продаваться по одинаковой цене. максимальную прибыль, если А и Б будут продаваться по разным ценам.
23
2.6.3
Газопровод
Расходы, связанные с пропуском газа на газопроводе "Северное сияние"описываются формулой:
где
-' +
*%
— обьем пропуска, задаваемый соотношением:
Остальные величины имеют следующий смысл:
— эксплуатационные расходы,
— расстояние между компрессорами, — давление на выходе, — давление на входе, — диаметр трубопрвода,
, — константы, параметры зависимости. *,* Принимая 3*! * L%' -!%' *, ' %' %@*! *0%!%@
найти , минимизирующие расходы.
24