© С.М. Морозов
1. Надійність психологічних тестів та засоби її визначення
Морозов С. М. Засоби контролю діагностичних якостей психологічних тестів. — K., 1994.
1.1. Визначення надійності як показника якості психологічного тесту
Надійність (в англомовній психологічній літературі еквівалентом цього терміну є термін «reliability») — це характеристика психодіагностичної методики, що відбиває ступінь точності вимірів, які здійснюються за допомогою даного тесту, а також усталеність результатів тесту відносно впливу сторонніх випадкових факторів, які не є об'єктами дослідження. Як свідчать чинні у США Стандарти розробки навчальних та психологічних тестів (Standards for Educational and Psychological Tests), надійність та валідність є найважливішими характеристиками методики як інструменту психодіагностичного дослідження.
На результат психологічного дослідження звичайно впливає величезна кількість неврахованих факторів. Наприклад, стан емоційної сфери, ступінь втомленості досліджуваного, мотиваційна спрямованість на дослідження з боку його суб'єкта, якщо ці показники не входять до кола спеціально досліджуваних, а також такі випадкові фактори, як освітлення у приміщенні, температура та вологість, рівень шуму, годину доби та безліч інших. Будь-яка зміна ситуації дослідження підсилює вплив одних чи послаблює дію інших. У сукупності вплив неврахованих факторів зумовлює розсіювання (дисперсію) результатів психологічного виміру. Загальне розсіювання результатів тестового обстеження можна, таким чином, вважати результатом впливу двох категорій чинників: мінливості самого вимірюваного психологічного явища, риси особистості, інтелекту тощо і нестабільності самої вимірювальної процедури.
У найширшому розумінні надійність тесту — це показник того, якою мірою виявлені у піддослідних осіб відмінності у тестових даних є відбиттям справжньої відмінності у вимірюваних психологічних властивостях, і навпаки, якою мірою вони можуть бути наслідком випадкових помилок і артефактів.
У вужчому розумінні поняття надійності, що безпосередньо пов'язане з методиками визначення сталості показників тесту, є надійність як міра узгодженості результатів тесту, здобутих при первинному та наступному його використанні для одних і тих самих піддослідних у різні моменти часу, або при використанні різних (але таких, що можна зіставляти за результатами) наборів тестових завдань, або при якихось інших змінах умов дослідження.
Розподіл оцінок, що мають члени вибірки за виконання тесту, який вимірює якусь одну психологічну характеристику, в ідеальному випадку теоретично збігається з нормальним розподілом. При цьому дисперсія може вважатися як «дозтеменна» (тобто така, що відбиває варіативність лише показника, який досліджується). Кожний піддослідний займає своє місце, що визначається оцінкою тесту, і теоретично це місце для кожного піддослідного з вибірки є усталеним. У цьому випадку при повторному виконанні тесту тими самими особами ми будемо спостерігати розподіл місць на шкалі оцінок, що ідентичний попередньому. Тоді методика, як інструмент вимірювання даного психологічного чинника, вважається точною та максимально надійною. За реальних обставин оцінки та рангові місця піддослідних за кожного наступного дослідження можуть змінюватись і розподіл рангових місць тією чи іншою мірою відрізнятися від первинного. Отже, дисперсія нового розподілу реально вища за «достеменну» на значення дисперсії похибки вимірювання. Все це можна подати у вигляді формули, що характеризує надійність як відношення «достеменної» до реальної (емпіричної) дисперсії:

де а — надійність тесту; S2t — «достеменна» дисперсія; S2e — дисперсія похибки; S2x — емпірична дисперсія оцінок тесту.
Як бачимо, надійність тесту щільно пов'язана з похибкою вимірювання, яка використовується для визначення діапазону ймовірних коливань вимірюваної величини під впливом випадкових та побічних факторів. Величина S2t/S2х виступає як основний показник достеменності та сталості вимірювань і має назву коефіцієнта надійності тесту (rt).

Похибка вимірювання перебуває у оберненій залежності стосовно показника достовірності (чим ширше діапазон значень, у якому ймовірно реєструється результат певного піддослідного, тим менша точність вимірювання). Відносну частку дисперсії похибки легко встановити, виходячи з рівняння

У більшості методик, що застосовують на практиці, рідко вдається досягти таких коефіцієнтів надійності, що перевищують значення 0,7-0,8. При rt=0,8 відносна частка стандартної похибки вимірювання становить 0,45=√(1 — 0,8), а емпіричне значення відхилення тестового балу від середнього його значення виявляється завищеним. Для корекції емпіричного значення у практичних дослідженнях використовують рівняння

де хt — достовірне значення тестового балу; X1 — емпіричний бал піддослідного; rt — коефіцієнт надійності; х — середнє значення оцінок за тестом.
Наприклад, у піддослідного при обстеженні за шкалою Векслера оцінка вербального показника інтелекту дорівнює 107 балам. Ceреднє значення для шкали становить 100, надійність rt=0,89. Вірогідне значення хt становитиме, балів:
Xt=0,89*107+0,11*100=106,2.
Особливе значення для правильної інтерпретації оцінок тесту а урахуванням його надійності має показник похибки вимірювання. Спинимось докладніше на розкритті суті цього критерію.
1.2. Похибка вимірювання та надійність тесту
Похибка вимірювання — це статистичний показник, що відображає ступінь точності конкретних вимірів у вибірці.
При проведенні емпіричних психологічних досліджень майже ніколи не вдається досягти повного збігу значень вимірюваних параметрів у різних серіях дослідів, навіть при використанні вибірки, що складається з тих самих піддослідних. Звичайно, значення вимірюваного показника флуктуює у певних межах. Наприклад, багаторазово повторюючи тест щодо виявлення загальних здібностей у однієї і тієї самої дитини, можна виявити, що оцінки змінюються у певному інтервалі — припустимо, від 108 до 115 балів. Аналогічно при повторному аналізі однієї або кількох вибірок середнє значення (х) також розподіляється в інтервалі на осі X.
Коливання результатів вимірювання у певному діапазоні значень можуть бути пов'язані з систематичними чи випадковими факторами. До категорії факторів, що викликають систематичні похибки, можна, зокрема, віднести якесь постійне і однакове відхилення від стандарту проведення тесту, до якого вдається конкретний дослідник, неточності у процедурі обробки первинної інформації (наприклад, технічні помилки у «ключі») тощо. У цих випадках результати вимірювань відрізняються від істинних на більш-менш сталу величину. Випадкові помилки виникають з самих різних — об'єктивних чи суб'єктивних — причин. Величина випадкових помилок і характеризує головним чином точність методу.
За великої кількості спостережень Індивідуальні оцінки або їх середні значення утворюють свій розподіл, статистичні показники якого відображають похибку вимірювання, характерну для. даного методу.
Похибка вимірювання — статистичне явище, у визначенні якого певну роль відіграють закономірності, що притаманні закону нормального розподілу. Завдяки випадковим помилкам, що залежать від величезної кількості різноманітних факторів, які впливають на кінцевий результат, розподіл емпіричних оцінок та їх середніх при повторних спостереженнях має вигляд нормального закону. Виходячи з основних властивостей нормального розподілу, можна підрахувати, що приблизно 68% вимірів розташовуються в інтервалі ±σ, близько 95% — в інтервалі ±2σ і 99% — в діапазоні ±2,5σ розподілу значень повторних спостережень. Таким чином, для того щоб встановити, у яких межах і з якою наперед заданою імовірністю знаходитиметься справжня оцінка, необхідно визначити стандартне відхилення такого розподілу. У табл. 1 наведені дані десятиразового обстеження одного піддослідного за допомогою тесту загальних здібностей. Стандартне відхилення

у даному разі становить 3; з цього випливає: з ймовірністю P=0,05 (95% від загальної кількості вимірювань) можна сподіватись, що достовірне значення показника знаходитиметься у межах значень 100±6 балів, або від 94 до 106 балів за шкалою даного тесту (середнє значення вимірюваного показника становить 100).
Таблиця 1. Розподіл похибки вимірювання загального показника тесту за шкалою Векслера

Надійність тесту можливо визначити у вигляді стандартної похибки вимірювання (σm), що також має назву стандартної похибки. У разі інтерпретації індивідуальних показників ця міра є кориснішою за коефіцієнт надійності (rt). Виходячи з коефіцієнта надійності стандартну похибку вимірювання визначають за формулою

де Sx — стандартне відхилення результатів тесту у вибірці; rt — коефіцієнт надійності, визначений для цієї ж вибірки.
Важливим аспектом використання критерію похибки вимірювання у психологічній діагностиці є оцінювання надійності методики та ймовірності помилки стосовно аналізу та інтерпретації різниць між даними у піддослідних. Подання результатів у вигляді інтервальних вірогідних значень застерігає від помилкового тлумачення різних результатів як відображення реальної динаміки вимірюваної властивості у піддослідних, а також помилкової інтерпретації розбіжностей між середніми показниками у вибірках, що зіставляються.
При зіставленні тестових оцінок — при наявності відомостей про стандартні показники похибки для одного та іншого тестів (або субтестів) — стандартну похибку розбіжності можна визначити як

або те ж саме з використанням коефіцієнта надійності:

де Sx — стандартне відхилення, що в даному разі однакове для двох тестів.
Для ілюстрації викладеного у розділі наведемо такий приклад. Припустимо, нам необхідно впевнитися у тому, чи справді у конкретного піддослідного має місце розбіжність в оцінках вербальних і практичних субтестів за шкалою Векслера, чи різниця в даних може бути пов'язана з похибкою вимірювання. Відомо, що для шкали вимірювання інтелекту Д.Векслера значення rt вербальних субтестів становить 0,96, практичних — 0,93; значення стандартного відхилення для обох шкал — 15. Тоді

Таким чином, для встановлення різниці з імовірністю 68% необхідна різниця в оцінках (що свідчитиме про розбіжність у результатах) приблизно у 5 балів. При стандартній імовірності P 0,05, яка прийнята за граничну для психологічних досліджень, значення σд множиться на 2 і одержуємо близько 10 балів. Іншими словами, якщо у піддослідного оцінка за вербальною шкалою становить 105, а за практичною — 115 балів, то при сторазовому повторенні дослідження лише 5 разів ймовірно станеться те, що оцінки за шкалами будуть однаковими. Цього буде достатньо для твердження: конкретний піддослідний справляється з вербальними завданнями тесту краще, ніж з практичними. Якщо різниця у балах буде меншою, ніж 10, таке твердження вважатиметься недостовірним.