© С.М. Морозов

2. Валідність психологічного тесту

Морозов С. М. Засоби контролю діагностичних якостей психологічних тестів. — K., 1994.

Переходячи до розгляду питань, пов'язаних із визначенням показників валідності тесту, передусім зазначимо, що ця категорія психологічного тестування належить до малорозробленого комплексу знань психологічної діагностики: налічуються лише кілька фундаментальних розробок з цього питання.

Валідність (бід англ. valid — дійсний, маючий силу, придатний) — це комплексна характеристика методики (тесту), що відбиває інформацію про коло досліджуваних явищ, а також міру репрезентативності процедури дослідження по відношенню до них.

У спрощеному і узагальненому формулюванні валідність тесту — це «поняття, яке вказує на те, що тест вимірює і наскільки добре він це робить» (А.Анастазі, 1982). У стандартних вимогах до педагогічних та психологічних тестів (Standarts..., 1974) валідність визначається як сукупність відомостей про те, відносно яких груп психологічних властивостей особистості можуть виноситися кваліфікаційні судження, а також відомості про міру обґрунтованості останніх на основі тестових оцінок або якихось інших засобів оцінювання. У сучасній психологічній діагностиці валідність розглядається як обов'язкова та найважливіша партитура інформації про методику, що містить відомості про міру узгодженості даних тесту з іншими відомостями про обстежувану особистість (теоретичні сподівання, обсервацію, експертні оцінки, дані інших методик, психологічне значення яких є встановленим, тощо. У сукупність відомостей про валідність також входить судження про достатність обґрунтованості передбачення розвитку психологічної якості, риси чи характеристики особистості, сфери її поведінки.

Викладене свідчить: характеристики валідності психодіагностичного тесту надзвичайно складні, адже це комплексні описи змісту тесту як діагностичного інструменту. І все ж щойно сформульована дефініція охоплює не усю сукупність суттєвих ознак цієї категорії теоретичної психодіагностики. У комплекс відомостей про валідність має входити інформація про конкретну орієнтованість методики — перелік та характеристика контингентів піддослідних за віком, освітою, фаховими ознаками, соціокультурною належністю тощо. У кожному з таких конкретних випадків орієнтація тесту дещо змінюється. Така зміна теж є елементом параметру валідності. Крім того, у сукупність відомостей про валідність тесту має включатися інформація про адекватність використаної моделі діяльності щодо відображення у ній досліджуваної психологічної особливості, а також про міру однорідності завдань (субтестів), що входять до складу тесту, їх конгруентність при кількісній оцінці даних тесту загалом.

Чи не найголовніша складова частина валідності — континуум досліджуваних властивостей. Цей аспект домінує при визначенні конкретного набору методик, які мають бути використані при дослідженні якихось наперед означених психологічних властивостей. Ця частина комплексної дифініції валідносгі, на наш погляд, потребує додаткової інтерпретації. Вдамося до прикладу. Загальна інформація, що має відношення до назви тесту, часто недостатня для судження про сферу його використання. Це лише назва, «Ім'я» конкретної процедури дослідження. І далеко не кожне таке «Ім'я» відповідає суті методики, її конкретному призначенню з точки зору досліджуваної психологічної властивості. Можна навести приклад широковідомої у різних галузях прикладної психології коректурної проби. Сфера досліджуваних особливостей особистості базується на визначенні усталеності та ступеня концетрації уваги (психомоторної рухомості). Коректурна проба за своїми показниками добре узгоджується з результатами інших методик, що націлені на такі самі показники (наприклад, з Таблицями Шульте, Горбова-Платонова, та ін.). Таким чином, коректурна проба до визначення цих показників має високу валідність. Водночас на показники виконання коректурної проби впливають багато інших факторів. Серед них: нейродинамічні особливості — психофізіологічні або темпераментні властивості, показники короткочасної пам'яті, оперативної пам'яті, толерантність до монотонії, розвиток навички читання, особливості гостроти зору та ін. Такі фактори можуть вимірюватись коректурною пробою, але цей тест не є специфічним для них. Якщо ми використовуватимемо коректурну пробу для вимірювання цих показників, її валідність буде або невелика, або сумнівна.

Отже, окреслюючи сферу використання методики, валідність тесту відбиває рівень обґрунтованості результатів вимірювання. Зрозуміло, що у разі відносно незначної кількості побічних факторів, що впливають на кінцевий результат тесту, кількісна оцінка такого тесту буде більш точною. Ще більшою мірою достеменність даних тесту забезпечується комплексом вимірюваних властивостей та їх вагомістю відносно критеріальної діяльності, повнотою та суттєвістю відображення у змісті тесту об'єкта вимірювання. Так, для задоволення вимог валідності методика, яка орієнтована на професійний відбір, має вбирати у себе показники різних за своєю природою якостей. Ці показники, однак, мають бути найважливішими, найбільш точно відображаючими професіограму конкретної професії, успіх діяльності у якій діагностується даною методикою (наприклад, рівень уваги, особливості пам'яті, якості психомоторики, емоційна врівноваженість, нахили та багато ін.).

Як бачимо, дефініція валідності охоплює велику кількість різноманітної інформації про тест. Різні категорії, а також принципи організації інформації про часткові галузі валідності утворюють типи валідності (рис.). Такі типи валідності конкретно розглядатимуться у наступних розділах. Перед поданням цієї інформації зауважимо: підрозділи валідності виокремлюються лише умовно, а під час розгляду побачимо, що варіанти розгляду критеріїв валідності великою мірою перетинаються за своїм змістом та шляхами визначення.

2.1. Валідність змісту

Валідність змісту — один з головних типів валідності, що відбиває міру репрезентативності складу завдань тесту — відповідно до досліджуваної психічної властивості або функції, яка, в свою чергу, може виступати як складний психологічний конструкт. Для ефективного вимірювання такої складної психологічної особливості необхідно якомога повніше відобразити усі її складові. Таким чином, психологічний тест можна розуміти як сукупність кількох наборів тестових завдань, кожен з яких орієнтований на дослідження однієї або кількох сутнісних частин складового психологічного конструкту.

Відомості про валідність тесту за змістом у практичній психологічній діагностиці звичайно мають найбільшу вагу для тестів досягнень, що досліджують діяльність — близьку або таку, що збігається з реальною, найчастіше навчальною або професійною.

Тести досягнень — це тип психодіагностичних методик, які орієнтовані на кваліфікацію досягнутого рівня розвитку спеціальних здібностей, навичок та здобутих знань у окремих галузях людської діяльності. Від тестів інтелекту ці методики відрізняються тим, що вони відбивають не стільки вплив нагромадженого досвіду, загальних здібностей на поведінку та вирішення широкого кола життєвих завдань, скільки вимірюють вплив спеціальних навчальних програм, професійної підготовки на ефективність засвоєння того чи іншого комплексу знань та формування різних спеціальних вмінь. Таким чином, тести досягнень орієнтовані на оцінку досягнень особистості після завершення певного етапу навчання.

Іншою особливістю тестів досягнень, що відрізняє їх від тестів інтелекту, є їх переважна спрямованість на вимір досягнень в час проведення обстеження, тоді як дослідження загальних здібностей орієнтоване на прогноз досягнень, передбачення майбутнього розвитку.

Тести досягнень — найчисленніша група психодіагностичних методик — як за кількістю конкретних тестів, так і за їх різновидами. Серед них можна виокремити універсальні, широко орієнтовані тести, які застосовуються для оцінки навичок та знань у межах головних, розрахованих на довгий час напрямів навчання (тести розуміння наукових принципів, тести сприйняття літератури, розуміння технічних схем, володіння комп'ютером тощо). Деякі з них призначені для вимірювання впливу навчання на логічне мислення, засвоєння способів вирішення широкого кола завдань. За складом завдань та змістом результатів ці тести найближчі до тестів інтелекту. Комплексні батареї тестів загальних здібностей — Multiply Aptitude Batteries; General Aptitude Test Battery, GATB.

Іншу велику групу тестів досягнень становлять методики, що орієнтовані на аналіз якості вивчення конкретних навчальних програм, власне кажучи, окремих предметів (досягнення в читанні, математиці, інформатиці тощо). Існують і більш спеціалізовані тести досягнень, що використовуються при дослідженні засвоєння окремих тем, частин навчальної програми.

Тести досягнень, що використовуються у шкільній та професійній психодіагностиці, мають помітні переваги у порівнянні з існуючою системою оцінювання академічної успішності учнів. їх показники орієнтовані на аналіз засвоєння наріжних понять, елементів навчальних програм, а не якоїсь конкретної, нерідко випадкової сукупності знань, як це мас місце за традиційної шкільної системи. Завдяки стандартизації показників тести досягнень дають змогу зіставити рівень досягнень учня з результатами в академічній групі, а також у будь-якій іншій вибірці. Зрозуміло, що така оцінка досягнень піддослідних буде об'єктивнішою і матиме відношення до прогнозу успішності засвоєння тієї чи іншої галузі знань, професії. І ця якість тестів досягнень, а також незначні витрати часу та зусиль на їх проведення у відносно великих групах абітурієнтів робить тести досягнень надзвичайно корисним інструментом для проведення вступних іспитів. Але для того, щоб тест досягнень насправді об'єктивно відбивав суттєві сторони засвоєння якоїсь галузі знань, потрібно, щоб контрольні завдання дійсно торкалися важливих елементів навчального матеріалу, що забезпечують його розуміння. Саме для цього і є необхідним аналіз валідності тесту за змістом.

Головне завдання розробки адекватної моделі діяльності, що підлягає тестуванню, — це з'ясування питання: чи охоплює підбірка завдань тесту саме такі аспекти феномену, що вивчається, які є провідними, та чи підібрані вони у відповідній до реальної діяльності пропорції?

Вимоги дотримання валідності до змісту закладаються у тест вже на початку його конструювання. Першим етапом валідізації є окреслення кола властивостей та видів діяльності, що досліджуються, а також поділ складної здібності (властивості) або діяльності на складові. Модель самої тестової діяльності розробляється на другому етапі. Склад елементів моделі групується згідно з найважливішими елементами реальної діяльності. На останньому етапі проводиться аналіз ступеня репрезентації у розробленій моделі реальної діяльності або властивості та перевірка сумісності пропорцій елементів складної діяльності у завданнях тесту. Так, для тестів досягнення, спеціально орієнтованих на аналіз розуміння конкретних навчальних предметів, спочатку проводиться повна систематична перевірка підручників та навчальних програм, а також консультації з спеціалістами-методистами, добре обізнаними зі змістом конкретної галузі навчальної програми. На базі зібраної таким чином інформації складається специфікація тесту, де зазначаються теми, що підлягають тестуванню, кінцеві цілі, на які спрямоване вивчення конкретних тем, а також відносна вага кожної з тем щодо досягнення мети навчання. Специфікація тесту і є обґрунтуванням добирання конкретних завдань. Ці завдання знову оцінюються експертами за принципом їх близькості до реальних вимог. Експерти формулюють остаточне судження про те, чи репрезентує тест суттєві навички та знання досліджуваної галузі навчання.

У випадках аналізу валідності змісту досить широко використовуються експерті оцінки. Завдяки цьому процедура визначення валідностиі змісту наближається до аналізу критеріальної валідності (див. розділ 2.2). Але суттєвою різницею між вказаними типами валідності є те, що експертні судження при дослідженні змісту належать до самого тесту, у той час, як у випадку критеріальної валідізації такі оцінки подаються відповідно до піддослідних.

Експертне дослідження адекватності змісту завдань тесту при валідізації може доповнюватись додатковими емпіричними процедурами. Так, можна перевірити якою мірою змінюються показники тесту в учнів, які тільки приступають до вивчення якоїсь галузі знань, і у тих, котрі вже мають значний досвід вивчення предмета. В останньому випадку результати тесту, певна річ, будуть значно кращими, але за умови, що цей тест справді відбиває суттєві складові частини навчального предмета. Така процедура, в свою чергу, зближує валідізацію за змістом з процедурою визначення конструктної валідності (див. розділ 2.3), що здійснюється за допомогою критерію вікової диференціації. Зауважимо: значення цього критерію за аналізу змісту полягає не в ідентифікації конструкту, що впливає на відповіді, а лише у ствердженні чи відхиленні певних гіпотез, які зумовили вибір того чи іншого складу завдань, їх складність, послідовність розміщення у матеріалі тесту тощо.

Разом із тестами досягнень аналіз змісту виступає як одна з провідних форм валідізації критеріально орієнтованих тестів, методів професійного відбору.

При валідізації тестів особистості та тестів здібностей критерії валідності змісту мають обмежене використання і вживання лише на початкових етапах складання тесту. Методики дослідження особистості найчастіше не мають достатньої подібності за досліджуваної сфери поведінки у такій мірі, як у випадку тестів досягнення. Відповіді на запитання анкети, опитувальника, дані проективних досліджень лише побічно дають змогу судити про реальну діяльність індивіда. Прояв властивостей особистості, а також реалізація здібностей мають індивідуалізований характер. При виконанні тесту здібностей ефективне вирішення завдань може досягатися за рахунок логічного мислення, механічної пам'яті, психомоторної рухливості тощо. Результат може досягатися різними шляхами та засобами. До того ж тести здібностей прямо не пов'язані з вивченням конкретних галузей знання, а також з опануванням конкретного життєвого та професійного досвіду.

Отже, значення процедур визначення валідності тесту за змістом набуває важливості серед інших видів валідності завдяки обов'язковому використанню при розробці тестів досягнень та критеріально орієнтованих тестів, які, на думку А.Анастазі (1982), становлять одну з найперспективніших галузей прикладної психологічної діагностики.

  Начало