© Вячеслав Дюк


Конструирование психодиагностических тестов: традиционные математические модели и алгоритмы (продолжение)

Публикуется по материалам монографии В. А. Дюка
«Компьютерная психодиагностика», (С-Пб., 1994)

3. Методы, использующие внешний критерий

Выделяют три основные группы внешних критериев: экспертные, экспериментальные и «жизненные».

К числу экспертных критериев относятся оценки, суждения, заключения об испытуемых, вынесенные экспертом или группой экспертов, в качестве которых выступают специалисты, педагоги, руководители, психологи, врачи и т. п. Объективизация внешнего критерия достигается увеличением числа экспертов. При этом применяется четыре возможных метода определения экспертного критерия: коллективная оценка, средневзвешенная оценка, ранжирование, парное сравнение.

При коллективной оценке эксперты совместно оценивают испытуемого по диагностируемому качеству с помощью предложенной разработчиком теста балльной шкалы. Условием коллективной оценки является выработка общего компромиссного мнения. Достижение консенсуса при коллективной оценке зависит от личностных особенностей и характера группового взаимодействия экспертов. Также немаловажным фактором является разрешающая способность заданной оценочной шкалы. Чем меньше баллов в этой шкале, тем легче достигается соглашение между экспертами, но тем грубее выставляемые ими оценки. В то же время излишняя детализация шкалы не только не приводит к повышению точности оценки, а нередко вызывает ненужные и длительные разногласия экспертов. Поэтому обычно применяются оцененные шкалы, содержащие до 10 баллов.

При средневзвешенном оценивании эксперты независимо друг от друга определяют значения критериального показателя, которые затем усредняются. Здесь следует обратить внимание на то, что перед усреднением оценок из них должны быть исключены явно отклоняющиеся, аномальные оценки. Метод ранжирования в отличие от средневзвешенной оценки связан не с проецированием того или иного качества испытуемого на числовую оценочную шкалу, а с определением рангов выраженности исследуемого качества в группе испытуемых. Полученные ранговые места при независимом оценивании также могут усредняться, но корректнее в данном случае пользоваться медианными оценками: каждому испытуемому приписывается ранг, равный медиане ряда рангов, присвоенных ему всеми экспертами..

При использовании слабо дифференцированных оценочных показателей или при низкой квалификации экспертов применяется метод парного сравнения. Задача экспертов состоит в попарной расстановке испытуемых по позициям альтернативных признаков («общительный-замкнутый», «завистливый-бескорыстный» и т. п.). Показателем места, занимаемого в ряду других, наиболее часто служит общее число предпочтений данного испытуемого. Этот показатель обычно нормируется по отношению к числу экспертов и общему количеству сравниваемых испы­туемых и выражается в процентах.

Более сложные варианты приведения результатов ранжирования и парного сравнения испытуемых к одномерному критериальному показателю связаны с применением компьютерных алгоритмов многомерного шкалирования. Метрические и неметрические методы многомерного шкалирования в достаточно полном объеме представлены в /Айвазян С. А. и др., 1989/. Там же приведены ссылки на литературу для более подробного ознакомления с этими методами.

На практике значительно большее распространение получили экспериментальные критерии внешней информативности. Это обусловлено в основном трудностью организации экспертиз и использования обычных количественных методов измерения требуемого качества. Экспериментальными критериями служат результаты одновременного и независимого обследования испытуемых другим тестом, который считается апробированным и предположительно измеряющим то же свойство, что и конструируемый тест. Естественно, что просто конструирование теста-дубликата имеет смысл в случае необходимости создания параллельной формы. Наиболее целесообразен такой подход, когда ставится задача улучшить собственно диагностические и эксплуатационные характеристики известного психодиагностического инструментария.

В качестве жизненных критериев используют объективные социально-демографические и биографические данные (стаж, образование, профессия, прием или увольнение с работы), показатели успеваемости, производственные показатели эффективности выполнения отдельных видов профессиональной деятельности (рисование, моделирование, музыка, составление рассказа и т. д.). Эти критерии наиболее часто применяются для конструирования тестов способностей к обучению, дости­жений в отдельных дисциплинах, интеллекта, методик для профотбора и профориентации, тестов общих и специальных способностей и т. п. Внешний критерий может быть представлен номинальным, ранговым или количественным показателем, «привязанным» к объектам анализируемой ТЭД. Этот показатель в дальнейшем будет обозначаться z. Специфика z влияет на выбор метода определения параметров диагностической модели.

Регрессионный анализ

С позиции регрессионного анализа критериальный показатель z рассматривается как «зависимая» переменная (как правило, ранговая или количественная), которая выражается функцией от «независимых» признаков xi,...,xp. Для оценки эффективности регрессионной диагностической модели вводится вектор остатков ε=(ε1,...,εn)', который отражает влияние на z совокупности неучтенных случайных факторов либо меру достижимой аппроксимации значений критериального показателя zi функциями типа у(хi). Линейная функция регрессии записывается следующим образом

zi = wo + w'xi + εi

w0 называется свободным членом, а элементы весового вектора w=(w1 ..., wр) называются коэффициентами регрессии.

Различают два подхода в зависимости от происхождения матрицы данных. В первом считается, что признаки xj являются детерминированными и случайной величиной является только зависимая переменная (критериальный показатель) z. Эта модель используется наиболее часто и называется моделью с фиксированной матрицей данных. Во втором подходе считается, что признаки x1, ..., xр и z — случайные величины, имеющие совместное распределение. В такой ситуации оценка уравнения регрессии есть оценка условного математического ожидания случайной величины z в зависимости от случайных величин xi,..., xp /Андерсон Т., 1963/. Данная модель называется моделью со случайной матрицей данных /Енюков И. С., 1986/. Каждый из приведенных подходов имеет свои особенности. В то же время показано, что модели с фиксированной матрицей данных и со случайной матрицей данных отличаются только статистическими свойствами оценок параметров уравнения регрессии, тогда как вычислительные аспекты этих моделей совпадают /Демиденко Е. 3., 1981/. В уравнении линейной функции регрессии обычно полагают, что величины εi(i=1,N) независимы и случайно распределены с нулевым средним и дисперсией σ2ε, а оценка параметров w0 и w производится с помощью метода наименьших квадратов (МНК). Ищется минимум суммы квадратов невязок

Это приводит к нормальной системе линейных уравнений:

где czx — вектор оценок ковариации между критериальным по­казателем z и признаками х1, ..., xp; mz — оценка среднего значения z; mx и S — вектор средних значений и матрица ковариации признаков xi, ..., xp. Основные показатели качества регрессионной диагностической модели следующие /Енюков И. С., 1986/: — остаточная сумма квадратов

— несмещенная оценка дисперсии ошибки

— оценка дисперсии прогнозируемой переменной

— коэффициент детерминации

— оценка дисперсии коэффициентов регрессии

где sii — соответствующий элемент S-1;

Особого внимания заслуживает приведенный выше коэффициент детерминации R2. Он представляет собой квадрат коэффициента корреляции между значениями критериальной переменной z и значениями, рассчитываемыми с помощью модели у(х)=w'x+w0 (квадрат коэффициента множественной корреляции). Статистический смысл коэффициента детерминации заключается в том, что он показывает, какая доля зависимой переменной z объясняется построенной функцией регрессии у(х). Например, при коэффициенте детерминации 0,49 регрессионная модель объясняет 49% дисперсии критериального показателя, остальные же 51% считаются обусловленными факторами, не отраженными в модели.

Еще одним важным показателем качества регрессионной модели является статистика

С помощью этой статистики проверяется гипотеза Н0: w1=w2= =...=wp=0, то есть гипотеза о том, что совокупность признаков xi,...,xp не улучшает описания критериального показателя по сравнению с тривиальным описанием zi=mz. Если FO>fp,N-p-1, где fp,N-p-1 — случайная величина, имеющая F-pacпределение c р и N-p-l степенями свободы, то Н0 отклоняется (критерий Фишера).

В регрессионном анализе нередко проверяется другая гипотеза о равенстве нулю каждого из коэффициентов регрессии в отдельности Н0: wi=0. Для этого вычисляется Р-значение Р ( |tN-р| > ti}, где ti = wi/√Dwi, а величина tN-p имеет t-распределение с (N-р) степенями свободы. Здесь следует подчеркнуть, что принятие Hо (высокое Р-значение) еще не говорит о том, что рассматриваемый признак xi нужно исключить из модели. Этого делать нельзя, поскольку суждение о ценности данного признака может выноситься, исходя из анализа совокупного взаимодействия в модели всех признаков. Поэтому высокое p-значение служит только «сигналом» о возможной неинформативности того или иного признака.

Описанная выше технология оценки параметров линейной диагностической модели относится к одной из классических схем проведения регрессионного анализа. Известно большое количество других вариантов такого анализа, опирающихся на различные допущения о структуре экспериментальных данных и свойствах линейной модели (например, Демиденко Е. 3., 1982; Дрейпер Н. и др., 1973; Мостеллер Ф. и др., 1982). Однако в практике конструирования психодиагностических тестов применение классических схем регрессионного анализа с развитым математическим аппаратом оценки параметров регрессионной модели часто вызывает большие сложности. Причин указанных сложностей немного, но они весьма весомы.

Во-первых, сюда относится специфический характер исходных психодиагностических признаков и критериального показателя, которые, как правило, измеряются в дихотомических и ординальных шкалах. Меры связи таких признаков, как указывалось выше, имеют несколько отличную от коэффициента корреляции количественных признаков трактовку и сравнительно трудно сопоставимое поведение внутри интервала [0,1]. Поэтому расчетные формулы регрессионного анализа, полученные для количественных переменных, приобретают значительную степень приблизительности.

Во-вторых, число исходных признаков, подвергающихся эмпирико-статистическому анализу в психодиагностических исследованиях, велико (может достигать несколько сотен) и между ними, как правило, встречаются объемные группы сильно связанных признаков. В этих условиях возникает явление мультиколлинеарности, приводящее к плохой обусловленности и в предельном случае вырожденности матрицы ковариации S. При плохой обусловленности S решение системы является неустойчивым — норма вектора оценок коэффициентов регрессии и отдельные компоненты w могут стать весьма большими, в то время как, например, знаки коэффициентов wi могут инвертироваться при малом изменении исходных данных /Демиденко Е. 3., 1982; Айвазян С. А. и др., 1985/.

Указанные обстоятельства, ряд которых можно продолжить, обусловили приоритет в психодиагностике «грубых» методов построения регрессионных моделей. В основном проблема оценки параметров линейной психодиагностической модели сведена к задаче отбора существенных признаков.

Известно много подходов к решению задачи определения группы информативных признаков: рассмотрение всех возможных комбинаций признаков; метод «k» лучших признаков /Барабаш Б. А., 1964; Загоруйко Н. Г., 1964/; методы последовательного уменьшения и увеличения группы признаков /Marill T. et al., 1963/; обобщенный алгоритм «плюс l минус r» /Kittrer J., 1978/; методы, основанные на стратегии максмина /Backer E. et al., 1911/; эволюционные алгоритмы, в частности, алгоритмы случайного поиска с адаптацией /Лбов Г. С., 1965/; метод ветвей и границ /Narendra P. M. et al., 1976/ и другие.

Значительные вычислительные трудности, связанные с высокой размерностью пространства исходных признаков, привели к тому, что в практике конструирования психодиагностических тестов применяются наиболее простые алгоритмы определения состава линейной регрессионной модели.

1) Метод «k» лучших признаков.

В основе этого метода лежит предположение о статистической независимости анализируемых признаков. Если в качестве критерия эффективности линейной диагностической модели используется коэффициент детерминации R2, то мерой информативности отдельно взятого признака может служить его коэффициент корреляции с критериальным показателем r(xi, z) (в зависимости от типа исходных признаков и от шкалы, в которой измерен критериальный показатель, используются соответствующие меры связи). Исходное множество признаков xi....,xp упорядочивается по модулю коэффициента корреляции

и из построенного ряда отбирается «k» первых, наиболее ценных признаков.

Чем строже соблюдается условие независимости отбираемых признаков, тем лучше получается конечный результат. В /Общая психодиагностика..., 1987/ приводится следующая иллюстрация X. Гаррета эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов теста. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с внешним критерием порядка 0,30. Если эти пункты коррелируют друг с другом на уровне r(xi,xj)=0,60, то множественный коэффициент корреляции линейной диагностической модели равняется 0,38, если же r(xi,xj)=0,30, множественная корреляция повышается до 0,52. Наконец, при r(xi,xj)=0,10 эффективность теста достигает высокого значения 0,79. Этот факт хорошо исследован в теории регрессионного анализа (например, Хей Дж., 1987). Он также достаточно понятен на качественном уровне рассуждений, так как сильная зависимость признаков означает дублирование большой части информации о проявлении диагностируемого свойства у исследуемых объектов. пользуют более сложные методы анализа экспериментальной информации.

2) Методы последовательного увеличения и уменьшения группы признаков (ПУВГ) и (ПУМГ).

В зависимости от критерия оптимальности группы признаков возможны различные варианты алгоритма ПУВГ. Чаще всего применяется вариант, основанный на анализе частных корреляций между внешним критерием и пунктами теста. Алгоритм ПУВГ выглядит следующим образом.

Шаг 1. Из набора исходных признаков xi,...,xp выбирается переменная xi1, имеющая максимальное значение квадрата коэффициента парной корреляции с критериальным показателем r2(xi1,z). Признак xi1 составляет начальный набор диагностических переменных Х(1).

Шаг 2. Пусть уже построен информативный набор из j признаков X(j)=xi1, ... , xij. Ищется признак xij+1 из условия

где rХ(j)(xk,z) — частный коэффициент корреляции между xk и z при фиксированных значениях переменных из Х(j). При этом дополнительно проверяется условие линейной независимости признака xk от набора признаков Х(j), которое обеспечивает вычислительную устойчивость алгоритма,

где R2[xk, X(j)] — квадрат коэффициента множественной корреляции набора X(j) с проверяемым признаком хk

τпор — заданная малая положительная величина. После определения переменной xij+1 проверяются условия остановки алгоритма ПУВГ. Возможно одно из следующих условий остановки /Енюков И. С., 1986/.

— Достигнуто заданное количество признаков р3, то есть j+1=p3. — Проверяется гипотеза о равенстве нулю максимального по абсолютной' величине коэффициента частной корреляции из р—j коэффициентов частной корреляции признаков, не входящих в X(j). Если эта гипотеза подтверждается, то набор признаков считается окончательным.

— Достигнуто максимальное значение FО-статистики для оценки качества регрессионного уравнения, которое определяется по формуле расчета FО. Если ни одно из условий не выполняется, то признак xij+1, присоединяется к набору Х(j) и происходит возвращение к шагу 2. После остановки алгоритма каждому из признаков, вошедших в информативную группу, могут быть присвоены веса, выражающие вклад каждого признака в критерий, не сводимый к вкладу других признаков /Аванесов В. С., 1982/.

Несмотря на более изощренные операции с экспериментальной информацией по сравнению с методом «k» лучших признаков, метод ПУВГ является во многом эвристичным. Он не гарантирует получения оптимального результата, который может быть достигнут с помощью полного перебора всех возможных комбинаций исходных признаков. Отклонение от оптимального решения вероятно уже на первом шаге работы алгоритма ПУВГ, когда выбирается начальный диагностический признак из информативной группы. Хотя этот признак имеет максимальную корреляцию с критериальным показателем, это вовсе не означает, что он обязательно вошел бы в группу информативных признаков, если бы начальным был выбран какой-либо другой признак.

Не гарантирует получения оптимального результата и метод последовательного уменьшения группы признаков ПУМГ, в котором начальное уравнение регрессии строится для полного набора исходных признаков. Из этого полного уравнения затем последовательно удаляется по одной переменной и для оставшихся признаков подсчитывается значение коэффициента детерминации R2 или какого-либо иного интегрального показателя качества функции регрессии. Алгоритм ПУМГ останавливается, когда дальнейшее упрощение уравнения регрессии начинает ухудшать его качество. С помощью указанного алгоритма могут быть получены более эффективные результаты, чем для ПУВГ, в случае сравнительно небольшого объема группы исходных признаков. Для высоких размерностей пространства исходных признаков (а при конструировании психодиагностических тестов размерность достигает десятков и даже сотен) возникают серьезные проблемы оценки показателя качества регрессионного уравнения, так как влияние отдельно взятого признака на суммарный эффект диагностической модели становится сопоставимым с погрешностью его измерения.

Обобщением ПУВГ и ПУМГ служит метод «плюс l минус r», который, как следует из его названия, поочередно работает то на добавление, то на исключение признаков в уравнение регрессии. В целом можно отметить, что все упомянутые методы определения состава признаков в уравнении регрессии содержат в той или иной мере эвристическую составляющую. В каждом конкретном случае трудно заранее предугадать, какой из этих методов приведет к результатам, более близким к оптимальным. Поэтому на практике попытки приблизиться к желаемому оптимуму всегда сопряжены с комбинированным применением различных алгоритмов поиска группы информативных признаков в диагностической регрессионной модели.

««« Назад  Начало