© Михаил Доррер

Имитация психологической интуиции с помощью искусственных нейронных сетей

««« К началу

Глава 1. Психодиагностика и нейронные сети

1.1. Задачи и методы современной психодиагностики

Важное место среди задач современной психологии занимает психодиагностика — принятие решения о наличном психологическом состоянии человека в целом или по отношению к какому либо отдельно взятому человеческому свойству. Целью психодиагностики по современным понятиям согласно [26] является описание индивидуально — психологических особенностей, свойств личности в интересах теории и практики.

По одной из наиболее употребляемых в настоящее время трактовок [71] психодиагностика является наукой, в русле которой решаются следующие вопросы:

1. Какова природа психологических явлений и принципиальная возможность их научной оценки?

2. Каковы в настоящее время общие научные основания для принципиальной познаваемости и количественной оценки психологических явлений?

3. В какой мере применяемые средства психодиагностики соответствуют принятым общенаучным, методологическим требованиям?

4. Каковы основные методические требования, предъявляемые к различным средствам психодиагностики?

5. Каковы основания достоверности результатов, предъявляемые к условиям проведения психодиагностики, средствам обработки полученных результатов и способам ее интерпретации?

6. Каковы основные процедуры конструирования и проверки научности методов психодиагностики, включая тесты?

Точная психодиагностика в любом психологическом эксперименте предполагает оценивание психологических свойств испытуемого.

Одним из ключевых в современной психодиагностике является понятие диагноза, которое в [61] трактуется следующим образом: «Понятие «диагноз» является своеобразным выражением и конкретизацией общенаучного понятия «состояние», отражающего доминирующий способ изменеия и развития систем в данных отношениях, в определенном месте и времени».

Согласно [21] диагностика как практическая деятельность осуществляется в целях преобразования реального состояния объекта. Диагностическое познание в целом является таким видом познания, в котором субъект, исходя из своих практических потребностей, ставит вполне определенную цель — использовать законы функционирования диагностируемого объекта для осуществления вмешательства в систему, то есть приведение ее в состояние нормального функционирования методами управления.

Однако психодиагностический метод согласно [7], [26] имеет свои особенности. Его анализ позволяет выделить специфические мотивы, определяющие активность субъекта, особую стратегию его поведения, специфику ситуации — как социальную (взаимодействие психолога и исследуемого), так и стимульную (например, с разной степенью структурированности) — и т.д.

Существенную сложность в психодиагностике составляет парадокс теоретического и психодиагностического описания одной и той же реальности, суть которого заключается в гносеологическом различии между «теоретической» и «измеренной» личностью, отличающейся в свою очередь от личности реальной. Следствием данной сложности является то, что попытки отождествления «теоретической» и «измеренной» личности оказываются, в конечном счете, малопродуктивными, носят искусственный характер.

Область применения психодиагностики согласно [71] весьма широка. В нее входят:

— Проверка гипотез, проверяемых в экспериментах;

— прикладные исследования, в которых требуется проверить результат введения тех или иных нововведений;

— психологическое консультирование, для проведения которого психолог должен иметь правильный диагноз исследуемого, видеть суть его проблемы;

— практическая психокоррекционная работа;

— медицинская психология;

— патопсихология;

— инженерная психология;

— психология труда.

Можно утверждать, что психодиагностика может применяться всюду, где требуется точное знание о степени развития тех или иных свойств человека.

Согласно [47] психодиагностика характеризуется широким спектром методических подходов. Данное многообразие обуславливает существование различных систем классификации психодиагностического эксперимента в зависимости от значимых для классификации атрибутов. Для компьютерной психодиагностики таким значимым атрибутом может служить формализуемость психодиагностической методики, которая позволяет определить возможность использования в психодиагностическом эксперименте компьютерной информационной технологии.

Понятие «формализуемость» конкретизируется разбиением на самостоятельно систематизирующиеся элементы: воздействие на испытуемого в ходе эксперимента (стимулы), ответы (отклики) испытуемого на это воздействие и операции с информацией, рожденной реакцией испытуемого на стимулы.

1.2. Сущность интуитивного метода

Согласно [81] интуиция — знание, возникающее без осознания путей и условий его получения, в силу чего субъект имеет его как результат «непосредственного усмотрения». Интуиция трактуется и как специфическая способность (например, художественная и научная интуиция) и как «целостное охватывание» условий проблемной ситуации (чувственная интуиция, интеллектуальная интуиция) и как механизм творческой деятельности (творческая интуиция).

Научная психология рассматривает интуицию как необходимый, внутренне обусловленный природой творчества момент выхода за границы сложившихся стереотипов поведения и, в частности, логических программ поиска решения задачи.

Согласно [80] интуиция — эвристический процесс, состоящий в нахождении решения задачи на основе ориентиров поиска, не связанных логически или недостаточных для получения логического вывода. Для интуиции характерна быстрота (иногда моментальность) формулирования гипотез и принятия решений, а также недостаточная осознанность его логических оснований.

Интуиция проявляется в условиях субъективно или объективно неполной информации и органически входит в присущую мышлению человека способность к экстраполяции.

Механизм интуиции состоит в симультантном объединении нескольких информативных признаков разных модальностей в комплексные ориентиры, направляющие поиск решения. В таком одновременном учете различной по своему качеству информации состоит отличие интуитивных процессов от дискурсивных, в которых в одном мыслительном акте (логическом шаге) может учитываться только какая-то одна модификация признаков задачи, связываемых между собой.

Ориентиры поиска в интуитивных и дискурсивных процессах не имеют принципиального различия по составу входящей в них информации. Логические принципы, в том числе формальные, включаются в интуитивно формируемый информативный комплекс и, будучи сами по себе недостаточными для получения решения, в сочетании с другими информационными связями определяют направление поиска.

Основную роль в интуиции играют семантические обобщения, относящиеся к данной области задач. Такова интуиция врача или ученого.

1.3. Математические модели и алгоритмы психодиагностики

В работе исследователя по конструированию психодиагностического теста принято выделять три этапа [20], [47].

На первом этапе конструируется «черновой» вариант теста. В него включаются задания, ответы на которые, по мнению экспериментатора, должны отражать индивидуально-психологические различия испытуемых по данному конструкту.

На втором этапе исследователь выбирает диагностическую модель и определяет ее параметры. Под диагностической моделью понимается способ компоновки (преобразования, агрегирования) исходных диагностических признаков (вариантов ответов на задания теста) в диагностический показатель.

На третьем этапе проводится стандартизация и испытание построенной диагностической модели.

Наиболее употребляемой в психодиагностике является линейная диагностическая модель. Без применения эмпирико-статистического анализа не обходится ни одна серьезная попытка конструирования или адаптации тестов [97]. Исходным материалом для такого анализа служат результаты экспериментального обследования репрезентативной выборки испытуемых с помощью «чернового» варианта психодиагностического теста. Из полученных данных формируется таблица экспериментальных данных (см. табл. 1)

Таблица 1. Структура таблицы экспериментальных данных

Объекты (испытуемые) Исходные признаки
x1 x2 ... xi ... xp
X1 x11 x12 ... x1j ... x1p
... ... ... ... ... ... ...
Xi xi1 xi2 ... xij ... xip
... ... ... ... ... ... ...
XN xN1 xN2 ... xNi ... xNp

В табл. ... N — общее количество объектов (испытуемых), p — общее количество признаков, xj - j-й признак, xij - значение j-го признака, измеренное у i-го объекта, X=( x1, ... , xp)T — вектор признаков, Xi=( xi1, ... , xip)T — i-й объект, X={ Xi} — множество объектов.

Исходные признаки xj, как правило, измерены в номинальных и порядковых (ординальных) шкалах [18],[82],[89]. Для большинства объективных методик нельзя априорно установить ни количественных отношений ни отношений порядка, поскольку их признаки представляют собой номинальные измерения. Зачастую при формализации тестовых методик применяют «дихотомизацию» [65] — процедуру преобразования исходных показателей в набор признаков с двумя градациями.

Для ординальных признаков существенен лишь порядок градаций на шкале, и для них считаются допустимыми любые монотонные преобразования не нарушающие этот порядок. Методически строгим является применение к ординальным признакам методов обработки, результат которых инвариантен относительно допустимых преобразований порядковой шкалы [49].

Далее, после сформирования таблицы экспериментальных данных, производится построение диагностической модели. Считается, что модель должна в определенной форме выражать зависимость между вектором входных признаков и тестируемым свойством (значение выраженности свойства далее будет обозначаться y). Модель должна отражать механизм преобразования y=y(x).

Предварительным этапом в построении диагностических моделей является как правило выяснение структуры таблицы экспериментальных данных. На этом этапе производится оценка корреляции между факторами и близости между объектами. Набор математических моделей и алгоритмов, используемых для этого, определяется исходя из специфики экспериментальных данных в психодиагностике.

Для определения степени связи между признаками используются [48],[65],[73]:

— Коэффициент корреляции Пирсона, являющийся мерой линейной связи двух переменных:  и , предназначенный для измерения связи двух дихотомических признаков [73]. Коэффициент вычисляется на базе таблиц сопряженности признаков (см. табл. 2) по формуле

коэффициент Пирсона.

Таблица 2. Таблица сопряженности дихотомических признаков

Признак Признак Итог
1 0
1 a b a+b
0 c d c+d
Итог a+c b+d

— Коэффициент ранговой корреляции «тау» Кенделла, основанный на подсчете числа несовпадений в ранжировке объектов по сопоставляемым переменным. Данный коэффициент разработан исходя из задачи истолкования процесса измерения связи между переменными без помощи принципа произведения моментов. Рассматриваются два признака и , на каждый из которых N объектов отображаются в N последовательных рангов. Из N объектов формируется пар. Тогда коэффициент вычисляется по формуле тау Кенделла, где P — количество совпадений порядка на признаке с порядком на признаке , Q — количество несовпадений.

Степень связи между признаками может быть использована для оценки избыточности набора признаков «черновой» модели, для взаимоконтроля шкал и т.п.

Для определения близости объектов используются различные меры расстояния:

— Евклидово расстояние Евклидово растояние

— Взвешенное евклидово расстояние Взвешенное евклидово расстояние.

— Расстояние Махаланобиса Расстояние Махаланобиса, где S — ковариационная матрица генеральной совокупности, из которой извлечены объекты и .

— Расстояние Минковского Расстояние Минковского(городская метрика), применяющееся для измерения расстояния между объектами, описанными ординальными признаками. равно разнице номеров градаций по k-му признаку у сравниваемых объектов и .

— Расстояние Хэмминга Расстояние Хэмминга, которое используется для определения различий между объектами, задаваемыми дихотомическими признаками и интерпретируется как число несовпадений значений признаков у рассматриваемых объектов и

Полученная на основе какой-либо метрики (подробнее — [25], [48], [50]) информация о степени близости объектов может быть использована для выделения их группировок.

Представление информации о структуре экспериментальных данных служит промежуточным звеном в построении диагностической модели. Независимо от типа модели ее создание может опираться на два подхода:

1. Стратегия, основанная на автоинформативности экспериментальных данных.

Высокая степень близости между группой признаков может свидетельствовать о том, что признаки, вошедшие в группу, отражают эмпирический фактор, соответствующий диагностическому конструкту.

Выделение геометрических группировок в пространстве объектов может свидетельствовать о различии изучаемых объектов по тестируемому свойству, что позволяет строить диагностический алгоритм.

Для стратегий, основанных на автоинформативности экспериментальных данных, важной категорией является согласованность заданий теста.

Согласованность измеряемых реакций испытуемых на тестовые стимулы означает, что они должны иметь статистическую направленность на выражение общей, главной тенденции теста.

На стратегии, основанной на автоинформативности экспериментальных данных, строятся конструирование диагностического алгоритма при помощи метода главных компонент [17], [18], [19], факторного анализа [66] и метода контрастных групп [97].

2. Стратегия, основанная на критериях внешней информативности. Внешняя информация может быть представлена в виде привязки к объектам значений «зависимой» переменной, измеренной в количественной шкале, в виде номера однородного по тестируемому свойству класса, в виде порядкового номера (ранга) объекта в ряду всех объектов, упорядоченных по степени проявления диагностируемого свойства или в виде совокупности значений набора внешних (не включенных в таблицу экспериментальных данных) признаков, характеризующих тестируемый психологический феномен.

Методы, основанные на внешней информативности признаков, принято подразделять на экспертные, экспериментальные и жизненные.

К числу экспертных критериев относят оценки, суждения, заключения об испытуемых, вынесенные одним экспертом или их группой.

Экспериментальными критериями служат результаты одновременного и независимого исследования испытуемого другим тестом, который считается апробированным и измеряющим то же свойство, что и конструируемый тест.

В качестве жизненных критериев используются объективные социально — демографические и биографические данные.

На стратегии, основанной на внешней информативности экспериментальных данных, строятся конструирование диагностического алгоритма при помощи регрессионного анализа, дискриминантного анализа [49] и типологического подхода [60], [99].

Наиболее широко в настоящее время употребляются линейные диагностические модели. Однако в условиях неоднородности обучающей выборки они обладают практической успешностью не выше 70-80% [60].

Построенная диагностическая модель может считаться психодиагностическим тестом только после прохождения ею испытаний на предмет проверки психометрических свойств — надежности и валидности [20],[27].

Надежность теста — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к воздействию посторонних случайных факторов [27].

Валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности [60].

1.4. Перспективные алгоритмы построения психодиагностических методик

Перспективным направлением в построении психодиагностических методик в настоящее время считается использование аппарата теории распознавания образов [2], [13], [47].

Классификация методов распознавания образов многообразна. Выделяются параметрические, непараметрические и эвристические методы, существуют классификации основанные на терминологии сложившихся научных школ. В [52] методы распознавания образов классифицируются следующим образом:

— методы, основанные на принципе разделения;

— статистические методы;

— методы типа «потенциальных функций»;

— методы вычисления оценок (голосования);

— методы, основанные на аппарате исчисления высказываний.

Кроме того существенным для метода, основанного на теории распознавания образов, может быть способ представления знаний. В настоящее время выделяют два основных способа [78]:

1. Интенсиональные представления — схемы связей между атрибутами (признаками)

2. Экстенсиональные представления — конкретные факты (объекты, примеры).

Группа интенсиональных методов распознавания образов включает в себя следующие подклассы:

1) Методы, основанные на оценках плотностей распределения значений признаков (методы непараметрической статистики) [18].

2) Методы, основанные на предположениях о классе решающих функций (методы, использующие в качестве решающего алгоритма минимизацию функционала риска или ошибки) [6], [15],[36], [41], [94].

3) Логические методы, базирующиеся на аппарате алгебры логики и позволяющие оперировать информацией, заключенной не только в отдельных признаках, но и в сочетании их значений [49].

4) Лингвистические (структурные) методы, основанные на использовании специальных грамматик, порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов [93].

Группа экстенсиональных методов включает в себя:

1) Метод сравнения с прототипом, применяющийся когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками.

2) Метод k-ближайших соседей, в котором решение об отнесении объекта к какому-либо классу принимается на основе информации о принадлежности k его ближайших соседей.

3) Алгоритм вычисления оценок (голосования), состоящий в вычислении приоритетов (оценок сходства), характеризующего «близость» распознаваемого и эталонных объектов по системе ансамблей признаков, представляющей собой систему подмножеств заданного множества признаков [51],[52],[53].

При сравнении экстенсиональных и интенсиональных методов распознавания образов в [47] употребляется следующая аналогия: интенсиональные методы соответствуют левополушарному способу мышления, основанному на знаниях о статических и динамических закономерностях структуры воспринимаемой информации; экстенсиональные же методы соответствуют правополушарному способу мышления, основанному на целостном отображении объектов мира.

1.5. Методы восстановления зависимостей

Наиболее широко в данной работе будут рассмотрены методы построения психодиагностических методик на базе интенсиональных методов, основанных на предположениях о классе решающих функций. Поэтому рассмотрим их более подробно.

Основным достоинством методов, основанных на предположении о классе решающих функций является ясность математической постановки задачи распознавания как поиска экстремума. Многообразие методов этой группы объясняется широким спектром используемых функционалов качества решающего правила и алгоритмов поиска экстремума. Обобщением данного класса алгоритмов является метод стохастической аппроксимации [94].

В данном классе алгоритмов распознавания образов содержательная формулировка задачи согласно [29] ставится следующим образом:

Имеется некоторое множество наблюдений, которые относятся к p различных классов. Требуется, используя информацию об этих наблюдениях и их классификациях, найти такое правило, с помощью которого можно было бы с минимальным количеством ошибок классифицировать вновь появляющиеся наблюдения.

Наблюдение задается вектором x, а его классификация — числом ().

Таким образом, требуется, имея последовательность из l наблюдений и классификаций построить такое решающее правило , которое с возможно меньшим числом ошибок классифицировало бы новые наблюдения.

Для формализации термина «ошибка» принимается предположение о том, что существует некоторое правило , определяющее для каждого вектора x классификацию , которая называется «истинной». Ошибкой классификации вектора x с помощью правила называется такая классификация, при которой и не совпадают.

Далее предполагается, что в пространстве векторов x существует неизвестная нам вероятностная мера (обозначаемая плотность ). В соответствии с   случайно и независимо появляются ситуации x, которые классифицируются с помощью правила . Таким образом определяется обучающая последовательность

Качество решающего правила записывается в виде , где

Проблема следовательно заключается в построении решающего правила таким образом, чтобы минимизировать функционал

Сходной с задачей распознавания образов является задача восстановления регрессии, предпосылки к которой формулируются следующим образом:

Два множества элементов связаны функциональной зависимостью, если каждому элементу x может быть поставлен в соответствие элемент y. Эта зависимость называется функцией, если множество x — векторы, а множество y — скаляры. Однако существуют и такие зависимости, где каждому вектору x ставится в зависимость число y, полученное с помощью случайного испытания, согласно условной плотности . Иначе говоря, каждому x ставится в соответствие закон , согласно которому в случайном испытании реализуется выбор y.

Существование таких связей отражает наличие стохастических зависимостей между вектором x и скаляром и скаляром y. Полное знание стохастической зависимости требует восстановления условной плотности , однако, данная задача весьма трудна и на практике (например, в задачах обработки результатов измерения) может быть сужена до задачи определения функции условного математического ожидания. Эта суженная задача формулируется следующим образом: определить функцию условного математического ожидания, то есть функцию, которая каждому x ставит в соответствие число y(x), равное математическому ожиданию скаляра y: . Функция y(x) называется функцией регрессии, а задача восстановления функции условного математического ожидания — задачей восстановления регрессии.

Строгая постановка задачи такова:

В некоторой среде, характеризующейся плотностью распределения вероятности P(x), случайно и независимо появляются ситуации x. В этой среде функционирует преобразователь, который каждому вектору x ставит в соответствие число y, полученное в результате реализации случайного испытания, согласно закону . Свойства среды P(x) и закон неизвестны, однако известно, что существует регрессия . Требуется по случайной независимой выборке пар восстановить регрессию, то есть в классе функций отыскать функцию , наиболее близкую к регрессии

Задача восстановления регрессии является одной из основных задач прикладной статистики. К ней приводится проблема интерпретации прямых экспериментов.

Задача решается в следующих предположениях:

— 

— Целью исследования является определение зависимости в ситуации, когда в любой точке x может быть проведен прямой эксперимент по определению этой зависимости, то есть проведены прямые измерения величины . Однако вследствие несовершенства эксперимента результат измерения определит истинную величину с некоторой случайной ошибкой, то есть в каждой точке x удается определить не величину , а величину , где — ошибка эксперимента,

— Ни в одной точке x условия эксперимента не допускают систематической ошибки, то есть математическое ожидание измерения функции в каждой фиксированной точке равно значению функции в этой точке:

— Случайные величины и независимы.

В этих условиях необходимо по конечному числу прямых экспериментов восстановить функцию . Требуемая зависимость есть регрессия, а суть проблемы состоит в отыскании регрессии по последовательности пар

Задача восстановления регрессии принято сводить к проблеме минимизации функционала на множестве (интегрируемых с квадратом по мере функций) в ситуации, когда плотность неизвестна, но зато задана случайная и независимая выборка пар .

1.6. Алгоритмы и методы безусловной оптимизации

Как было показано в предыдущем параграфе данной главы, решение основных задач восстановления зависимостей достигается при помощи процедуры оптимизации функционала качества.

Ее решение будет рассмотрено в подходах задачи безусловной минимизации гладкой функции [77].

Данная задача непосредственно связана с условиями существования экстремума в точке:

— Необходимое условие первого порядка. Точка называется локальным минимумом на , если найдется для . Согласно теореме Ферма если — точка минимума на и дифференцируема в , то

— Достаточное условие первого порядка. Если — выпуклая функция, дифференцируемая в точке и , то — точка глобального минимума на

— Необходимое условие второго порядка. Если — точка минимума на и дважды дифференцируема в ней, то

— Достаточное условие второго порядка. Если в точке дважды дифференцируема, выполнено необходимое условие первого порядка () и , то — точка локального минимума.

Условия экстремума являются основой, на которой строятся методы решения оптимизационных задач. В ряде случаев условия экстремума хотя и не дают возможности явного нахождения решения, но сообщают много информации об его свойствах.

Кроме того, доказательство условий экстремума или вид этих условий часто указывают путь построения методов оптимизации.

При обосновании методов приходится делать ряд предположений. Обычно при этом требуется, чтобы в точке выполнялось достаточное условие экстремума. Таким образом, условия экстремума фигурируют в теоремах о сходимости методов.

И, наконец, сами доказательства сходимости обычно строятся на том, что показывается, как «невязка» в условии экстремума стремится к нулю.

При решении оптимизационных задач существенны требования существования, единственности и устойчивости решения.

Существование точки минимума проверяется при помощи теоремы Вейерштрасса:

Пусть непрерывна на и множество для некоторого непусто и ограничено. Тогда существует точка глобального минимума на

При анализе единственности точки экстремума применяются следующие рассуждения:

Точка минимума называется локально единственной, если в некоторой ее окрестности нет других локальных минимумов. Считается, что — невырожденная точка минимума, если в ней выполнено достаточное условие экстремума второго порядка (,).

Доказано, что точка минимума (строго) выпуклой функции (глобально) единственна.

Проблема устойчивости решения возникает в связи со следующим кругом вопросов:

—–локального минимума называется локально устойчивой, если к ней сходится любая локальная минимизирующая последовательность, то есть если найдется такое, что из следует

При обсуждении проблемы устойчивости решения задачи оптимизации можно выделить следующие важные теоремы.

— Точка локального минимума непрерывной функции локально устойчива тогда и только тогда, когда она локально единственна.

— Пусть — локально устойчивая точка минимума непрерывной функции , а — непрерывная функция. Тогда для достаточно малых функция имеет локально единственную точку минимума в окрестности и при

— Пусть — невырожденная точка минимума , а функция непрерывно дифференцируема в окрестности точки . Тогда для достаточно малых существует — локальная точка минимума функции в окрестности , причем

Помимо качественной характеристики точки минимума (устойчива она или нет) существенным является вопрос количественной оценки устойчивости. Такие оценки, позволяющие судить о близости точки к решению , если близко к записываются следующим образом:

Для сильно выпуклых функций:

где — константа сильной выпуклости.

Для невырожденной точки минимума:

где — наименьшее собственное значение матрицы .

Как видно, в каждом из этих определений играет роль характеристики «запаса устойчивости» точки минимума.

Кроме в качестве характеристики устойчивости точки минимума используют «нормированный» показатель , называемый обусловленностью точки минимума .

Можно сказать, что характеризует степень вытянутости линий уровня в окрестности — «овражность» функции (чем больше , тем более «овражный» характер функции).

Наиболее важны в идейном отношении следующие методы безусловной оптимизации: градиентный и Ньютона.

Идея градиентного метода заключается в том, чтобы достигнуть экстремума путем итерационного повторения процедуры последовательных приближений начиная с начального приближения в соответствии с формулой , где — длина шага.

Сходимость данного метода подтверждается в доказательстве следующей теоремы:

Пусть функция дифференцируема на , градиент удовлетворяет условию Липшица:

,

ограничена снизу:

и удовлетворяет условию

Тогда в градиентном методе с постоянным шагом градиент стремится к 0: , а функция монотонно убывает:

Для сильно выпуклых функций доказываются более сильные утверждения о сходимости градиентного метода.

При решении задачи оптимизации методом Ньютона используется подход, заключающийся в итерационном процессе вида

и в нахождении точки экстремума как решения системы из n уравнений с n неизвестными

.

В методе Ньютона производится линеаризация уравнений в точке и решение линеаризованной системы вида

Анализ достоинств и недостатков итерационных методов оптимизации можно свести в таблицу (см. табл. 3).

Таблица 3. Достоинства и недостатки итерационных методов оптимизации

Метод Достоинства Недостатки
Градиентный Глобальная сходимость, слабые требования к , простота вычислений Медленная сходимость, необходимость выбора .
Ньютона Быстрая сходимость Локальная сходимость, жесткие требования к , большой объем вычислений.

Видно, что достоинства и недостатки этих методов взаимно дополнительны, что делает привлекательной идею создания модификаций этих методов, объединяющих достоинства методов и свободных от их недостатков.

Модификацией градиентного метода является метод наискорейшего спуска:

,

Модификация метода Ньютона с целью придания ему свойства глобальной сходимости возможна, например, способом регулировки длины шага:

Такой метод называют демпфированным методом Ньютона. Возможные подходы к способу выбора шага :

— Вычисление по формуле

;

— Итерационный алгоритм, заключающийся в последовательном дроблении шага на константу начиная со значения до выполнения условия

,

или условия ,

Демпфированный метод Ньютона глобально сходится для гладких сильно выпуклых функций.

Помимо одношаговых методов, к которым относятся градиентный метод и метод Ньютона, существует целый класс многошаговых методов, использующих для оптимизации информацию, полученную с предыдущих шагов. К ним относятся:

— , где , — некоторые параметры. Введение инерции движения (член ) в некоторых случаях приводит к ускорению сходимости за счет выравнивания движения по «овражистому» рельефу функции;

— Метод сопряженных градиентов. Здесь параметры оптимизации находятся из решения двумерной задачи оптимизации:

,

Кроме всех вышеперечисленных методов оптимизации существует еще класс методов, основанных на идее восстановления квадратичной аппроксимации функции по значениям ее градиентов в ряде точек. К ним относятся:

— , где матрица пересчитывается рекуррентно на основе информации, полученной на k-й итерации, так что . К числу таких методов относятся ДФП (метод Давидона-Флетчера-Пауэлла) и BFGS или БФГШ (метод Бройдена-Флетчера-Гольдфарба-Шанно) [46].

— , , может рассматриваться как градиентный в метрике , а оптимальным выбором метрики является .

««« Назад  К началу  

© М. Г. Доррер
© Публикуется с любезного разрешения автора