© С.М. Морозов

2.3. Коефіцієнти валідності

Морозов С. М. Засоби контролю діагностичних якостей психологічних тестів. — K., 1994.

Для визначення міри валідності у кількісних показниках на практиці найчастіше вживаються різні види корелятивного аналізу зв'язку між індивідуальними оцінками тесту та валідізаційним критерієм (або характеру зв'язку між результатами тесту, що валідізується, та іншою методикою, яка використовується як еталонна). Здебільшого розподіл тестових оцінок у репрезентативній вибірці валідізації наближається до нормального. Якщо тестові та критеріальні оцінки мають континуальний характер, тоді може бути використаний коефіцієнт кореляції добутку моментів Пірсона:

коефіцієнт кореляції Пірсона

де хi, уi — порівнювані кількісні ознаки; n — число порівнюваних спостережень; σх, σу — стандартні відхилення у зіставлюваних рядах. Зручнішою для розрахунку rху є така формула:

Залежно від того, у якій вимірювальній шкалі подані тестові та критеріальні показники, використовують ті або інші засоби кореляційного аналізу. Якщо один з рядів поданий у дихотомічній шкалі, а інший — в інтервальній або порядковій, використовують бісеріальний коефіцієнт кореляції Піпсона:

бісеріальний коефіцієнт кореляції Піпсона

де х1 — середнє за X об'єктами зі значенням одиниця за Y; x0 — середнє за X об'єктами зі значенням нуль за Y; Sx — стандартне відхилення всіх значень за X; nх — число об'єктів з одиницею за Y; nо — число об'єктів з нулем за Y, тобто n=n1+n0. Рівняння для розрахунку грb є алгебраїчним спрощенням формули визначення коефіцієнта rху для випадку, коли Y — дихотомічна змінна. Можна навести ряд інших еквівалентних виразів, зручних для практичного використання. Це:

де х — загальне середнє за X.

Можливий такий випадок, коли тестові оцінки та критеріальні показники представлені дихотомічними альтернативними визначеннями (наприклад, нормальний розвиток — затримка розвитку; збіг — незбіжність відповіді з ключем); тоді використовують коефіцієнт асоціації Пірсона, який за своєю суттю є спрощенням рівняння для визначення rху:

коефіцієнт асоціації Пірсона

Припустимо, що змінна приймає значення одиниці та нуля. Тоді рх, ру — частка випадків з одиницею за ознаками X та Y; qx, qy — з нулем за X та Y; q=P-1; рху — частка випадків з одиницею як за X, так і за Y.

Наскладнішим випадком є такий, коли обидва порівнюваних ряди являють собою оцінки, що виражені у якісній шкалі найменувань. Тоді використовують критерій узгодженості Пірсона:

критерій узгодженості Пірсона

У цьому рівнянні як проміжну величину використовують критерій хі-квадрат.

Поряд з коефіцієнтами валідності, що визначаються традиційним способом, існують і деякі інші вимірники кількісної оцінки валідності тесту. Серед них можна назвати j — коефіцієнт (запропонований Е.Примовим (1975)), який є одним із показників синтетичної валідності. Процедура його визначення передбачає наявність переліку елементів складної діяльності або здібності, що виражені мовою професійних або інших спеціальних дій, та оцінку відносної важливості цих елементів, що встановлюється експертами. Кінцевий аналіз проводиться за допомогою корелювання оцінок тесту та окремих елементів реальної діяльності з урахуванням їх питомої ваги. Статистична обробка базується на обчисленні множинної регресії. Показники кореляції кожного елемента діяльності з критеріальною діяльністю в цілому помножуються на часткову вагу кожного з елементів у тесті; одержані таким чином добутки підсумовуються.

Коефіцієнти валідності є важливими, але далеко не вичерпними характеристиками валідності тесту. Потрібно зазначити, що валідність не вимірюється, про неї тільки судять. У методичних матеріалах до тесту можуть бути наведені коефіцієнти валідності, але про реальну валідність тесту за умов його конкретного використання судять за сукупністю найрізноманітніших видів інформації, що отримана різними способами. Валідність трактується не як щось, виражене кількісно, а як «адекватна», «задовільна», «недостатня» і т.ін. Таким чином, коефіцієнти валідності є лише елементом складного процесу характеристики валідності тесту.

Сумнівність окремого розрахованого коефіцієнта валідності може опосередковуватися багатьма факторами. По-перше, умови валідності тесту неможливо всебічно урахувати. Завжди лишається чимало неврахованих фактів, ситуацій, умов тощо. По-друге, сама логіка критеріальної валідізації передбачає вимогу валідності критерію. Перевірка ж такої валідності є дуже складною проблемою. До того ж тести нерідко валідізуються не за допомогою найсуттєвішого критерію, а на базі використання наявного, найбільш доступного критерію. Так, тести загальних здібностей зіставляються не з критеріями якостей мислення, нейрофізіологічними та психологічними корелятами задатків та здібностей, а з показниками успішності навчання або виконання певної діяльності. Ці показники самі по собі є складними, і крім інтелекту на них впливає багато інших факторів. По-третє, умови валідізації за критерієм передбачають, що вибірка валідізації повністю репрезентативна щодо популяції, дія якої роблять остаточні висновки за тестом. На практиці цю вимогу задовольнити надзвичайно складно, особливо у випадку прогностичної валідації.

Найбільша складність інтерпретації коефіцієнтів валідності пов'язуються із такими обставинами. Критеріальна валідація ґрунтується, як правило, на сукупності зовнішніх, соціально-прагматичних критеріїв. Це спричинюється тим, що найголовніша мета валідації — визначення практичної цінності розроблюваної методики. Критерії у цьому випадку виступають як показники, що мають безпосередню цінність для окремих галузей практики. Наприклад, «успішність навчання», «продуктивність праці», «злочинність», «стан здоров'я» і т.ін. При орієнтації на ці категорії під час валідізації вирішуються одразу два завдання: власне вимірювання валідності та оцінювання прагматичної ефективності психодіагностичної методики. Якщо виявлено кореляцію, то можна вважати, що з певною мірою імовірності позитивно вирішені обидва завдання. Але якщо кореляції не виявлено, лишається невизначеність: або невалідна сама процедура (тестовий бал не відображає, наприклад, стресової стійкості оператора), або несправедлива гіпотеза про наявність причинного зв'язку між психічною властивістю та соціально-прагматичним показником (стійкість до стресу не впливає на кількість аварійних ситуацій).

Поряд з названими теоретичними та методичними складностями необхідно брати до уваги і забезпечення статистичної достеменності обчислюваних коефіцієнтів. Роблячи висновки про валідність на базі коефіцієнтів, треба бути впевненим у тому, що даний коефіцієнт не з'явився через випадкові відхилення у вибірці. Необхідно оцінити стандартну похибку тестових оцінок. Використовуваний при цьому показник похибки вимірювання вказує на допустимі межі помилки в індивідуальних показниках внаслідок обмеженої надійності тесту. Аналогічно похибка оцінки вказує на межі імовірної помилки у прогнозованому значенні індивідуального критеріального показника як результат обмеженої валідності тесту.

Похибка оцінки може визначатися за таким рівнянням:

де σу — стандартне відхилення критеріальних показників; rху — коефіцієнт валідності; √(l — r2) — вираз, що вказує на величину похибки відносно похибки простого вгадування, тобто за нульової валідності. Якщо √(l — r2)=1, то похибка так само велика, як і при вгадуванні. Якщо коефіцієнт валідності дорівнює 0,80, то √(l — r2)=0,60, тобто частка похибок становить 60% тієї величини, яка б була за випадкового розподілу.

  Начало