.
  

© Вячеслав Дюк


Конструирование психодиагностических тестов: традиционные математические модели и алгоритмы (продолжение)

Публикуется по материалам монографии В. А. Дюка
«Компьютерная психодиагностика», (С-Пб., 1994)

6. Стандартизация и испытания диагностических моделей

Результат тестирования испытуемого хi, вычисленный с помощью диагностической модели yi=у(хi), обычно называют первичной тестовой оценкой или, часто, «сырым» баллом. Для лучшего понимания этого результата в ряду других результатов производится его дальнейшее искусственное преобразование, основанное на анализе эмпирического распределения тестовых оценок в репрезентативной выборке испытуемых. Процедура такого преобразования носит название стандартизации.

Известно три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация /Мельников В. М. и др., 1985/.

Приведение распределения тестовых оценок к нормальному виду.

Существуют два главных обстоятельства, которыми объясняется целесообразность искусственного приведения распределения первичных тестовых оценок к нормальному виду. Во-первых, значительная часть процедур классической математической статистики разработана для случайных величин с гауссовым нормальным распределением. И, во-вторых, это дает возможность описывать диагностические нормы в компактной форме.

Для определения способа преобразования у обычно рассматриваются гистограммы распределения первичных тестовых оценок. Они позволяют выявлять лево- и правостороннюю асимметрию, положительный или отрицательный эксцесс и другие отклонения от нормальности. В психологических исследованиях нередко встречаются логарифмические нормальные распределения «сырых» баллов. В этом случае приближение распределения к гауссовой форме достигается путем логарифмирования у. Напротив, для нормализации кривых распределений с пологой левой ветвью и крутой правой нередко применяются тригонометрические и степенные преобразования «сырых» баллов.

Применение компьютеров позволяет автоматизировать подбор и подгонку требуемого преобразования первичных тестовых оценок из заданного класса аналитических функций. Также компьютеры дают возможность достаточно просто реализовывать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оценкам путем новой оцифровки выходного тестового показателя. Эта процедура обычно одновременно используется для приведения тестовых оценок к стандартной форме и будет подробно рассмотрена ниже.

Преобразование тестовых оценок в стандартную форму.

Под стандартной формой понимают линейное преобразование нормальной (или искусственно нормализованной) тестовой оценки следующего вида

где Zi — стандартная тестовая оценка i-го испытуемого;

yi
— нормальная оценка i-го испытуемого;

ту
и σу — среднее арифметическое значение и среднеквадратическое отклонение у.

Стандартные Z-оценки распределены по нормальному закону с нулевым средним и единичной дисперсией. Это полезно для проведения сравнительного анализа стандартных оценок различных психодиагностических показателей. Но так как Z-оценки могут принимать дробные и отрицательные значения, что неудобно для восприятия, на практике чаще используются взвешенные стандартные оценки (Vi)

Vi=a+bZi,

где а и b — константы центрирования и пропорциональности соответственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешенной стандартной оценки V, a b интерпретируется как среднеквадратическое отклонение V.

В психодиагностике наиболее популярны следующие значения констант центрирования и пропорциональности (Общая психодиагностика, 1987):

1. Т-шкала Мак-Колла — а=50, b=10.

2. Шкала IQ — а=100, b=15.

3. Шкала «стэнайнов» (целочисленные значения от 1 до 9 — стандартная девятка) — а=5.0, b=2.

4. Шкала «стэнов» (стандартная десятка) — а=5.5, b=2. Как указывалось ранее, компьютеры позволяют достаточно просто осуществить нелинейную нормализацию сырых тестовых оценок у и перейти к взвешенным стандартным оценкам в любой из приведенных выше шкал. Процедура такого перехода заключается в новой оцифровке у и может выглядеть, например, следующим образом. Для любой отметки выбранной стандартной шкалы V известен ее процентильный ранг PR(Vk)=С. Он равен площади под кривой теоретического нормального распределения со средним а и среднеквадратическим отклонением b, вычисленной для значений V<Vk и умноженной на 100. По гистограмме эмпирического распределения сырых тестовых баллов ищется точка yi, которой соответствует такой же процентильный ранг PR(yi)=C. После этого отметке yi присваивается новое значение Vk. Так производится перенос всех значений V на у.

Квантильная стандартизация.

Примером квантильной стандартизации служит процентильная стандартизация, когда отметке «сырой» шкалы у присваивается новое значение ее процентильного ранга PR(у). Квантиль является общим понятием, частными случаями которого могут быть, например, кроме процентилей, квартили, квинтели и децили. Три квартильные отметки (Q1, Q2, Q3) разбивают эмпирическое распределение тестовых оценок на 4 части (кварты) таким образом, что 25% испытуемых располагаются ниже Q1, 50% — ниже Q2 и 75% — ниже Q3. Четыре квинтеля (K1, К2, Кз, К4) делят выборку аналогичным образом на 5 частей с шагом 20% и девять децилей (D1, ..., D9) разбивают выборку на десять частей с шагом 10%.

Номер соответствующего квантиля используется в качестве новой преобразованной тестовой оценки. Квантильная шкала отличается тем, что ее построение никак не связано с видом распределения первичных тестовых оценок, которое может быть нормальным или иметь любую другую форму. Единственным условием для ее построения является возможность ранжирования испытуемых по величине у. Квантильные ранги имеют прямоугольное распределение, то есть в каждом интервале квантильнои шкалы содержится одинаковая доля обследованных лиц /Кулагин Б. В., 1984/. Стандартизация тестовых оценок путем их перевода в квантильную шкалу стирает различия в особенностях распределения психодиагностических показателей, так как сводит любое распределение к прямоугольному. Поэтому с позиции теории измерений квантильные шкалы относятся к шкалам порядка: они дают информацию, у кого из испытуемых сильнее выражено тестируемое свойство, но ничего не позволяют сказать о том, насколько или во сколько раз сильнее.

Построенная диагностическая модель может считаться психодиагностическим тестом только после прохождения всесторонних испытаний на предмет оценки психометрических свойств. Основными психометрическими свойствами психодиагностических методик, кроме стандартизированности, являются надежность и валидность /Анастази А., 1982; Гайда В. К. и др., 1982; Гильбух Ю. 3., 1982; 1986; Кулагин Б. В., 1984; Общая психодиагностика, 1987; Бурлачук Л. Ф. и др., 1989/.

Надежность теста — это характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов /Бурлачук Л. Ф. и др., 1989/.

Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов (например, эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, освещенность, температура и другие особенности помещения, в котором проводится тестирование, уровень мотивированности испытуемых и т. д.). Поэтому любая эмпирически полученная оценка по тесту yi представляется как сумма истинной оценки у¥ и ошибки измерения ε: yi¥ + е . В целях анализа надежности вводится понятие «параллельных тестов», которыми называются тесты, в одинаковой мере измеряющие данное свойство посредством одних и тех же действий и операций /Кулагин Б. В., 1984/. Это понятие является обобщенным, так как параллельными тестами могут быть и параллельные формы и повторные обследования испытуемых одной и той же методикой. Если принять допущения, что измеряемые у индивидуумов свойства мало изменяются во времени, а ошибки полностью случайны и несистематичны, то параллельные тесты дают результаты с одинаковыми средними значениями, среднеквадратическими отклонениями, интеркорреляциями и корреляциями с другими переменными.

Коэффициент надежности Ryy определяется как корреляция параллельных тестов, которая, в свою очередь, равна отношению

где σ2у¥ — дисперсия истинной оценки, а σ2у — дисперсия эмпирической оценки.

Корреляция параллельных тестов с какой-либо другой переменной z определяется соотношением

где Ry¥z — корреляция истинных оценок i>у¥  с переменной z. Эта формула показывает, что корреляция теста с любой внешней переменной ограничивается коэффициентом надежности. Например, если корреляция истинной оценки у¥ с переменной z (Ry¥z) равна 1,0, а коэффициент надежности (Ryy) равен 0,70, то эмпирическая корреляция (Ryz) составит 0,84.

Коэффициент надежности связан со стандартной ошибкой измерения (σε — среднеквадратическое отклонение ошибок измерения ε)

Отсюда следует, что при увеличении коэффициента надежности Ryy уменьшается ошибка σε.

Корреляция эмпирических и истинных оценок Ryy¥ называется индексом надежности и определяется соотношением

Существует три основных подхода к оценке надежности тестов, которые различаются факторами, принимаемыми за ошибки измерения.

Тест-ретест надежность. Коэффициент надежности (Ryy) измеряется с помощью повторного обследования одних и тех же испытуемых через определенное время и равен коэффициенту корреляции результатов двух тестирований. Ошибки измерения в данном случае обусловлены различиями в состоянии испытуемых, организации и условиях повторных обследований, запоминанием ответов, приобретением навыков работы с тестом и др. Тест-ретест надежность называют также надежность — устойчивость.

Надежность параллельных форм теста. Коэффициент надежности равен корреляции параллельных форм теста. Ошибки измерения в данном случае, кроме вышеуказанных факторов, связаны с различиями в характере действий и операций, присущих параллельным формам теста. Высокое значение коэффициента корреляции, помимо высокой надежности результатов сравниваемых тестов, указывает на эквивалентность содержания этих тестов. Поэтому коэффициент надежности для параллельных форм теста носит еще одно название — эквивалентная надежность.

Надежность как гомогенность тестов. В данном случае надежность оценивается путем вычисления интеркорреляций частей или элементов методики, рассматриваемых как отдельные параллельные тесты. Такой подход справедлив для оценки тестов, при построении которых использовалась диагностическая модель, основанная на критерии автоинформативности системы исходных признаков (на принципе внутренней согласованности тестовых заданий). Наиболее распространена процедура расщепления теста на две части: в одну входят, например, результаты четных заданий, а в другую — нечетных. Для определения надежности целого теста применяют формулу Спирмена — Брауна:

где R — корреляция между половинами теста.

С учетом того, что тест, построенный по принципу внутренней согласованности заданий, можно расщеплять на части разными способами, в психометрике для оценки надежности не редко используется коэффициент Кронбаха

где а — обозначение коэффициента Кронбаха;
k — число заданий теста;
σ2i — дисперсия i-ro пункта теста;
σ2у —дисперсия целого теста.

Если ответы на каждый пункт теста являются дихотомическими переменными, то применяется аналогичная коэффициенту Кронбаха формула Кьюдера — Ричардсона

где KR20 — традиционное обозначение данного коэффициента надежности;
 pi — доля 1-го варианта ответа на i-й вопрос;
qi = ( 1 — pi) — доля второго варианта ответа на i-и вопрос.

Известны другие коэффициенты надежности для гомогенных тестов. Большинство критериев, положенных в основу этих коэффициентов, опираются на тот факт, что матрица интеркорреляций заданий надежного теста имеет ранг, близкий к единице. Например, применяется коэффициент, получивший название тета-надежности теста /Общая психодиагностика, 1987/:

где k — количество пунктов теста.

l1 — наибольшее собственное число, соответствующее 1-й главной компоненте матрицы интеркорреляций пунктов теста.

Приведенные выше формулы могут использоваться только тогда, когда каждый испытуемый работает со всеми элементами теста. Это относится к методикам, которые не имеют ограничений во времени. Независимо от выполнения данного условия часто производится оценка надежности отдельных пунктов психодиагностического теста.

Надежность отдельных пунктов теста. Ретестовая надежность теста в целом зависит от устойчивости ответов испытуемых на отдельные пункты теста. Для проверки этой устойчивости вычисляется корреляция ответов испытуемых на проверяемый пункт с ответами при повторном тестировании. Для дихотомических пунктов обычно используется коэффициент φ и пункт считается недостаточно устойчивым, если φ< 0,5 .

Также нередко производится проверка так называемой дискриминативности заданий теста /Бурлачук Л. Ф. и др., 1989/, под которой понимается способность отдельных пунктов дифференцировать обследуемых относительно «максимального» или «минимального» результата теста в целом. Процедура проверки надежности пунктов направлена на повышение внутренней согласованности теста и соответствует описанному ранее методу контрастных групп. В качестве меры надежности пункта может использоваться коэффициент φ. Кроме того, часто применяется точечный бисериальный коэффициент корреляции rрв, который в данном случае называют коэффициентом (индексом) дискриминации.

В отличие от надежности валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности /Кулагин Б. В., 1984/. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную).

Содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств /Бурлачук Л. Ф. и др., 1989/. Традиционно эта характеристика имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающей с реальной (чаще всего учебной или профессиональной). Так как данная деятельность нередко складывается из разнородных факторов (проявления способностей личности, комплекс необходимых знаний и навыков, специфические способности), то подбор заданий, охватывающих главные аспекты изучаемого феномена, является одной из важнейших задач формирования адекватной модели тестируемой деятельности. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Этот вопрос рассмотрен выше, когда речь шла о формировании исходного множества диагностических признаков. Заключение о содержательной валидности, как правило, производится экспертами, которые выносят суждение о том, насколько охватывает данный тест декларируемые свойства и явления.

Следует отличать содержательную валидность от очевидной, лицевой, внешней валидности, которая является таковой с точки зрения испытуемого. Очевидная валидность означает то впечатление о предмете измерения, которое формируется у испытуемых при знакомстве с инструкцией и материалом теста. Она тоже играет заметную роль в тестировании, поскольку в первую очередь определяет отношение испытуемых к обследованию. Поэтому очевидную валидность иногда называют доверительной валидностью. В некоторых случаях содержательная и внешняя валидность совпадают, в других —очевидная валидность используется для маскировки истинных целей исследования.

Эмпирическая валидность — совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать уже рассмотренные ранее экспертные оценки, экспериментальные и «жизненные» критерии. Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования у с критериальным показателем z. Известно, что корреляция двух переменных зависит от их надежности:

где Ry¥z¥ — корреляция истинных значений теста и критерия; Ryy — надежность теста; Rzz — надежность критерия. Эта формула показывает, что максимально возможная валидность ограничена величинами надежности теста и внешнего критерия.

Эмпирическая валидность может быть представлена другими показателями. Например, если внешний критерий характеризуется дихотомической переменной, в качестве показателя эмпирической валидности способен выступать процент лиц, оценки которых находятся в зоне перекрытия распределения показателей по тесту в дихотомических группах /Dunnette M. D., 1966/. Также распространенным способом представления статистической связи результатов тестирования служит табличная форма, в которой интервалы тестовых баллов сопоставлены с вероятностями принадлежности испытуемых различным диагностическим классам.

При оценке эмпирической валидности тестов необходимо устанавливать ее по крайней мере в 2 группах, так как корреляция теста и критерия может быть обусловлена специфическими для данной выборки факторами и не иметь общего значения /Кулагин Б. В., 1984/. Особенно важно, чтобы валидность теста определялась на выборке испытуемых, отличной от той, с помощью которой производился отбор заданий /Анастази А., 1982/. Для выполнения этого условия можно, например, разделить имеющийся экспериментальный материал пополам. В то же время предпочтительнее проведение нескольких исследований с последующим анализом и обобщением полученных данных.

Конструктная валидность — это валидность теста по отношению к психологическому концепту — научному понятию (или их совокупности) об измеряемом психическом свойстве (состоянии). Она выражает степень обоснованности индивидуальных различий, обнаруживаемых тестом, с позиций современного теоретического знания. Распространенным приемом определения конструктной валидности теста является его соотнесение с известными методиками, отражающими другие конструкты, предположительно как связанные, так и не зависимые от данного. При этом делается попытка априорно предсказать наличие или отсутствие связи между ними. Тесты, которые по предположению высоко коррелируют с валидизируемым тестом, называются конвергирующими, а не коррелирующие — дискриминантными. Концептуальная валидность может считаться удовлетворительной, если коэффициенты корреляции валидизируемого теста с группой конвергирующих тестов статистически значимо выше коэффициентов корреляции с группой дискриминантных тестов.. Подтверждение совокупности ожидаемых связей составляет важный круг сведений конструктной валидности и в зарубежной литературе носит также название «предполагаемой валидности».

В заключение главы представим в сжатом виде все этапы конструирования психодиагностического теста и кратко охарактеризуем основные операции на этих этапах. Современная методология психологического тестирования считает наиболее оптимальной рационально-эмпирическую стратегию решения данной задачи /Общая психодиагностика, 1987/.

1) Формирование исходного варианта психодиагностического теста.

— Теоретический анализ диагностируемого конструкта, разработка теоретической концепции тестируемого свойства. Выявление (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.

— Выделение составных частей теоретического конструкта, формирование системы «эмпирических индикаторов» (системы исходных признаков) — операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста.

В случае заимствования отдельных частей нового теста у известных психодиагностических методик производится выбор таких методик (как правило, многомерных тестов), части которых теоретически способны отражать требуемое диагностическое свойство.

— Формулирование релевантного внешнего критерия, который будет использоваться для проверки эмпирической валидности теста и может также быть использован при проведении эмпирико-статистического анализа данных для определения параметров диагностической модели.

2) Проведение экспериментальных обследований и определение параметров диагностических моделей.

— Планирование и проведение обследования исходным вариантом нового психодиагностического теста специально подобранной выборки испытуемых, для которых известны (или будут известны) значения критериального показателя, а также результаты по родственным тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью обеспечения в дальнейшем проверки конструктной валидности нового теста (экспертные оценки в данном случае рассматриваются как одна из параллельных процедур получения критериальной или психологической информации).

В настоящее время не существует однозначного ответа на вопрос об объеме обследуемой выборки. По крайней мере такой ответ невозможно дать априорно до проведения разведочного статистического анализа и установления вида распределений изучаемых переменных. Исследование большого числа реальных задач многомерного анализа данных показывает, что основная масса использовавшихся таблиц экспериментальных данных содержала от 30 до 200 объектов и медиана эмпирического распределения объема выборки составляет 100 /Александров В. В. и др., 1990/. В зависимости от объема выборки используются различные статистические критерии. Проблема малой выборки при построении линейных решающих правил рассмотрена, например, в /Раудис Ш. и др., 1975/.

— Определение параметров диагностических моделей (отбор информативных пунктов теста, нахождение весовых коэффициентов) производится с помощью методов многомерного статистического анализа, описанных в данной главе. Эти методы в достаточно полном объеме реализованы практически во всех известных пакетах прикладных программ для статистической обработки данных типа STATGRAPHICS, SPSS, BMDP, которые функционируют на персональных компьютерах. Однако, как отмечалось выше, специфика психологических измерений (высокая размерность, номинальный и качественный характер исходных признаков) накладывает свой отпечаток на применение этих методов в психодиагностике. Часто бывает нецелесообразно, а то и невозможно использовать классические версии того или иного метода. Нередко исследователю имеет смысл ограничиться упрощенными моделями указанных методов и остановиться на их реализации в форме отбора признаков и самой приблизительной оценки весовых коэффициентов для пунктов теста, вошедших в правило вычисления результирующего психодиагностического показателя.

3) Анализ распределения тестовых баллов, построение тестовых норм и проверка их репрезентативности.

Таблица. Методы определения параметров диагностических моделей

Открыть таблицу »»»

При построении тестовых норм психолог должен произвести следующие действия /Общая психодиагностика, 1987/.

— Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом испытуемом выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

— Произвести группировку «сырых» баллов с учетом выбранного интервала квантования.

— Построить распределение частот тестовых баллов (для заданных интервалов) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты.

— Произвести расчет среднего и стандартного отклонения, а также асимметрии и эксцесса. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределений.

— Произвести проверку нормальности закона распределения частот тестовых баллов с помощью, например, критерия Колмогорова или с помощью других более мощных критериев.

— Если гипотеза о нормальности распределения отвергается, произвести процентильную нормализацию с переводом в выбранную стандартную шкалу. Проверить устойчивость распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки считать нормализованную шкалу устойчивой.

— Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях этих графиков разбить выборку на разнородные выборки.

— Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала «сырого» балла). При наличии разнородных выборок для каждой из них строится своя таблица.

— Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне -Р<СО,01) с учетом стандартной ошибки в определении среднего значения.

— Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма решения того или иного теста.

— В случае негативных результатов — отсутствия устойчивости норм для шкалы с заданным числом градаций (с заданной точностью) — осуществить обследование более широкой выборки или отказаться от плана использования данного теста.

4) Анализ надежности.

— Для тестов, построенных по принципу внутренней согласованности (без использования внешнего критерия), производится расчет коэффициентов надежности по формулам 2.69—72.

— Если имеются результаты обследования выборки стандартизации параллельными формами теста, то рассчитываются коэффициенты корреляции этих результатов с баллами, полученными с помощью нового теста.

— Проверка надежности как устойчивости к перетестированию совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности — согласованности) совмещен с исследованием информативности отдельных пунктов.

5) Анализ валидности.

Рассчитываются коэффициенты корреляции сконструированного теста с релевантным внешним критерием, а также с результатами дополнительных тестов для оценки конструктной валидности.

Требования кпсихометристу, разрабатывающему психодиагностический тест изложены в /Бурлачук Л. Ф. и др., 1989/. Там же излагаются требования к использованию компьютеров в психодиагностике.

««« Назад  Начало  

Канал в Telegram: @PsyfactorOrg
 
.
   

© Copyright by Psyfactor 2001-2017.
© Полное или частичное использование материалов сайта допускается при наличии активной ссылки на Psyfactor.org. Использование материалов в off-line изданиях возможно только с разрешения администрации.
Контакты | Реклама на сайте | Статистика | Вход для авторов