© С.М. Морозов
1.3. Методики визначення надійності психологічних тестів
Морозов С. М. Засоби контролю діагностичних якостей психологічних тестів. — K., 1994
Потрібно, мабуть, визнати, що жодна з існуючих психодіагностичних процедур не є ідеальною з точки зору її надійності. Показники надійності тесту можуть істотно змінюватись у разі незначних, на перший погляд, варіацій умов проведення тестування, зміни характеру тестових завдань, а також залежно від ступеня складності завдань для піддослідного. Стандартний комплекс відомостей про психодіагностичні методики має, звичайно, інформацію про ті чи інші показники надійності, але підрахувати або визначити критерії стабільності результату для жодного випадку використання того чи іншого тесту практично неможливо.
На характеристики надійності, що визначаються емпіричним шляхом, суттєвий вплив чинить характер вибірки, яка використовується для перевірки тесту за показниками надійності. Особливе значення тут має діапазон розбіжності в оцінках, точніше у рангових місцях піддослідних або їх груп у загальній вибірці. Так, якщо оцінки піддослідних локалізуватимуться у відносно вузькому діапазоні значень і будуть близькі одна до одної, можна сподіватися, що і у разі повторного дослідження ці оцінки також розташовуватимуться щільною гомогенною групою. Імовірні зміни рангових місць окремих піддослідних будуть зовні незначними. Коефіцієнт надійності у такому разі буде завищений. Таке саме безпідставне завищення коефіцієнтів може виникнути у разі аналізу надійності, що провадиться на матеріалі вибірки, яка складається з контрастних груп, наприклад з осіб, котрі мають найвищі та найнижчі оцінки за тестом. Тоді ці віддалені один від одного результати не перекриватимуться за рахунок випадкових чинників.
У практичній психодіагностиці при розробці вказівок та методичних матеріалів до тесту звичайно обумовлюється характер груп, для яких визначались показники надійності. Індекси надійності нерідко підраховуються для контингентів піддослідних, які відрізняються за статтю, віком, рівнем освіти, фахом і т. ін. У деяких випадках показники надійності підраховують окремо і для високих та низьких оцінок тесту.
Розмаїття характеристик та показників надійності тесту так само велике, як і розмаїття умов, що можуть впливати на результат тесту. У все ж найширше практичне застосування набули кілька методів характеристики надійності. Це:
- ретестова надійність;
- надійність паралельних форм тесту;
- надійність частин тесту.
1.3.1. Ретестова надійність
Ретестова надійність — це засіб визначення надійності пси-ходіагностичної методики, за якого показники точності та усталеності результатів визначаються шляхом повторного дослідження. Надійність у цьому разі встановлюється як міра збігу результатів першого і повторного обстежень або як ступінь збереження рангових місць обстежених у виборці за ретесту. Коефіцієнт надійності rt дорівнює коефіцієнту кореляції між даними таких обстежень. Якщо у досліджуваному тесті для вимірювання психологічної властивості використовують кількісну інтервальну шкалу, то при визначенні результатів можна застосувати коефіцієнт кореляції Пірсона. Для порядкових шкал як міру усталеності результатів при перетестуванні можна використати коефіцієнт рангової кореляції Спірмена або Кендела.
При визначенні показника ретестової надійності особливого значення набуває вибір інтервалу ретесту, тобто часу, що проходить між первинним і наступним дослідом. Цілком Природним є те, що зі збільшенням цього інтервалу показники кореляції між даними досліджень набувають тенденції до зниження. Після проходження значного проміжку часу ретесту імовірність виникнення побічних факторів суттєво зростає; можуть також виявитись наслідки цілком закономірних вікових змін психологічних властивостей, що вимірюються за допомогою тесту, можуть статися певні події, що впливають на стан і особливості розвитку досліджуваних психологічних властивостей. З цієї причини при визначенні ретестової надійності намагаються встановлювати не дуже тривалі інтервали часу (до кількох місяців). При визначенні надійності методик, що
використовують для обстеження дітей молодшого віку, такі інтервали мають бути ще меншими через те, що у цьому контингенті піддослідних вікові зміни більшості психологічних властивостей особистості здійснюються інтенсивніше. Незважаючи на вказану тенденцію, при встановленні якості тесту проводяться повторні випробування із значним інтервалом ретесту, що може становити кілька років. Така процедура використовується з метою оцінити не стільки ретестову надійність, скільки визначити прогностичну валідність, елементи конструктної валідності, особливо ті, що пов'язані з так званою диференціацією показників тесту за віковим критерієм.
Вказані показники розглядатимуться у наступних розділах посібника.
Щодо визначення ретестової надійності, то тут, звичайно, обмежуються аналізом короткочасних випадкових змін у результатах, які саме і характеризують тест як вимірювальну процедуру. Інтервал ретесту підбирають лише виходячи з визначення динаміки усталеності результату методики протягом певного часу. Незважаючи на явну простоту визначення ретестової надійності як принципу аналізу усталеності показників тесту, цей спосіб має суттєві недоліки. Опишемо найзначніші з них.
При повторному використанні одних і тих самих завдань, особливо за умов відносно короткого інтервалу ретесту, у піддослідних можливе формування навичок роботи з 'даною психодіагностичною методикою. Поліпшення показників під впливом результатів, що виникають при цьому, буде різнитися ступенем вияву у окремих піддослідних залежно від їх індивідуальних особливостей.. Це призведе до помітнішої зміни рангових місць окремих піддослідних і — відповідно — до штучного зменшення коефіцієнта надійності. До ще помітнішого впливу на результати аналізу надійності призводить запам'ятовування піддослідними окремих рішень чи відповідей. У цьому разі людина відбиває у повторному дослідженні попередній розподіл правильних та хибних рішень. З цієї причини результати обох випадків використання тесту не будуть незалежними один від одного, показник кореляції між ними виявиться штучно завищеним.
Одним із шляхів зменшення впливу фактору тренування на оцінку ретестової надійності може стати попереднє формування стійкої навички до роботи з даною методикою. Але за такого підходу кількість повторів тесту неминуче зростатиме, що призведе до збільшення кількості рішень, які запам'ятовуються піддослідним. Такі заходи можуть бути рекомендовані лише для методик типу тестів швидкості (speed test), що складаються з великої кількості зовні однакових завдань.
Для інших методик єдиним прийнятним шляхом зниження впливу тренування є збільшення інтервалу ретесту. Однак, як було вказано, збільшення цього інтервалу вступає у суперечність з визначенням надійності як характеристики тесту, а не як міри усталеності самого психологічного конструкту.
Для більшості тестів загальних здібностей характерним є поступове поліпшення показників ретестової надійності у старших контингентів піддослідних. Це є наслідком ретельнішого контролю умов виконання тесту, що, звичайно, легше реалізувати під час роботи з піддослідними старшого віку. Іншим фактором, що призводить до таких змін обчислюваних показників ретестової надійності, є відносне уповільнення з плином часу темпів розвитку. При вимірюванні показників надійності за допомогою повторного тестування у вікових групах, що схильні до відносно слабких динамічних змін досліджуваної психологічної риси, буде зареєстровано менше випадкових коливань результатів у проміжку між дослідами. Існування цієї закономірності потребує окремих визначень ретестової надійності для різних вікових груп піддослідних. Особливо істотне це для тестів, призначених для досліджень у широкому віковому діапазоні. До таких методик переважно відносять батареї тестів інтелекту широкого призначення (таких, як шкала Станфорд-Біне, дитячі шкали Векслера, Матриці Равена, тест структури інтелекту R.Amthauer та деякі інші). Зауважимо, що відносне поліпшення показників надійності з віком обстежуваних не є універсальним законом. Цілком природно — із цим доводиться рахуватись при визначенні надійності тестів, що призначені для людей похилого віку, — є вплив факторів різного темпу інволюційних змін, що, навпаки, сприятимуть погіршенню показників надійності у старших вікових групах.
Наведені особливості та недоліки методу разрахунку надійності шляхом ретесту призводять до того, що такий підхід може вважатися придатним лише для обмеженого кола методик, для яких можливе багаторазове використання одного і того самого комплексу завдань. До таких методів можна віднести сенсомоторні проби, вже згадані тести швидкості, а також ряд інших, що відрізняються великою кількістю тестових завдань (наприклад, Мінесотський багатофакторний опитувальник особистості).
1.3.2. Надійність паралельних форм
Спроба компенсувати частину недоліків методу визначення надійності шляхом ретесту призвела до розробки засобу надійності паралельних форм. При цьому використовується така процедура. Одні і ті самі піддослідні з виборки визначення надійності досліджуються за основним варіантом тесту, а потім — з якимось завданим інтервалом ретесту — з використанням допоміжного набору, яким може стати паралельна чи спільна форма тесту. Поняття паралельної форми тесту потребує додаткового пояснення. Під такою формою звичайно розуміють близький до первинного за критеріями надійності та валідності, а також за іншими психодіагностичними характеристиками варіант тесту. Останній розроблюється з метою еквівалентної заміни первинного тесту. Розробка кількох модифікацій одного і того самого тесту, які розрізняються за конкретним складом тестових завдань, орієнтована на підвищення достемен-ності повторного тестування одних і тих самих піддослідних через невеликі інтервали ретесту. Наведемо приклад. Перед практичним психодіагностичним дослідженням стоїть завдання з'ясувати характер психофармакологічної дії розробленого препарату на емоційну сферу пацієнтів. Для цього перед прийомом ліків хворим пропонується відповісти на запитання опитувальника, призначеного для вимірювання деяких особливостей емоційних станів. Через деякий час після початку дії препарату процедура обстеження повторюється. При повторному використанні одних і тих самих пунктів (завдань, питань) має місце небезпека прояву тенденції у піддослідних відбивати у своїх відповідях не поточний стан, а пригадування того що відповідалося на ті самі запитання у попередньому обстеженні. Природно, це призведе до викривлення результатів. Використання у двох варіантах різних, але еквівалентних за визначуваними показниками наборів завдань дозволяє мінімізувати негативний ретестовий вплив.
Незважаючи на те, що паралельна форма тесту добирається у такий спосіб, щоб обидва варіанти тесту були максимально сумісними за головними діагностичними характеристиками, обрані варіанти тесту не завжди мають однакові середні показники та стандартне відхилення. У цьому разі обов'язковою умовою до паралельної форми тесту є забезпечення можливості приведення показників обох форм один до одного за допомогою спеціальних коефіцієнтів, або таблиць евківалентності.
Паралельні форми тесту слід відрізняти від так званих врівноважених форм, що складаються із завдань, які попарно підбирають таким чином, щоб був дотриманий принцип найможливішого збігу структури та складу завдань. Паралельні та врівноважені форми, в свою чергу, слід відрізняти від еквівалентних форм. Останні можуть складатися з різних по суті завдань, але давати досить близькі за кількістю або за суттю статистичні висновки. Загальний термін, що поєднує наведені варіанти тестів — зіставлені форми. В американській психологічній літературі вживаються дещо інші найменування різновидів зіставлених форм — корельовані (correlated), дубльовані (dubiicated), рівні (equal) та подібні (similar).
Найвідоміші та поширеніші у вітчизняній психологічній діагностиці методики, що мають парале;. лі форми, — опитувальник особистості Айзенка, тест R.Amthauer'a та деякі інші.
Наявність одного з видів паралельних форм — важлива якість тесту, за рахунок якої забезпечуються більші зручності його використання у прикладних дослідженнях. Водночас певне коло методик не потребує таких форм. До них можна віднести великі за обсягом завдань тести. За повторного використання таких методик стає малопомітним вплив навичок або згадуваних варіантів відповідей. Паралельні форми не потрібні також для тестів швидкості.
Досить простим та поширеним засобом підвищення достеменності результатів повторного дослідження за допомогою методик, що не мають паралельних форм, є розщеплення сукупності пунктів на парні та непарні за порядковим номером. Зрозуміло, що такий поділ завдань тесту на частини можливий у тестах, що побудовані за принципом шкали, тобто кожне наступне завдання на якусь більш-менш сталу величину має бути важчим за попереднє. Тоді парні та непарні завдання будуть відносно врівноважені. До речі, питання суб'єктивної важкості наборів тестових завдань є важливим у справі конструювання, адаптації та перевірки психодіагностичних якостей психологічних тестів (спинимося на цьому питанні докладніше у наступних розділах). Треба також враховувати, що метод розщеплення, як засіб формування псевдопаралельної форми тесту, є абсолютно непридатним для традиційного використання опитувальників особистості. Насамперед це пояснюється тим, що різні пункти опитувальника мають такі показники дискримінативності (див. наступні розділи), що не збігаються, але, якщо застосувати принцип обробки даних, що грунтуються на підрахунку індексів статистичної вагомості кожної відповіді відносно кінцевого результату, то із загальної сукупності питань можна підібрати набори, що будуть врівноваженими за діагностичними та дискримінативними якостями.
До того ж зауважимо, що надійність частин завдань тесту не збігається з надійністю його частин. Наведемо таку аналогію: у складному механізмі, де взаємодіє велика кількість частин, імовірність виходу з ладу є вищою, ніж у простого пристрою, де таких частин значно менше; так само і в психологічному тесті, що складається з великої кількості завдань або інших елементів, імовірність іншої відповіді при повторному використанні також значно зростає. На щастя, ми маємо змогу підрахувати, а також скоригувати показники надійності переходу від цілого набору до його частин за допомогою спеціальних рівнянь (див. розд. 1.3.3).
Повернемося до питання характеристики надійності за допомогою принципу застосування паралельних форм. Перше, що потрібно відмітити, це вищу достеменність твердження про надійність тесту порівняно із застосуванням принципу ретестової надійності. При використанні паралельної форми піддослідним подається відносно новий набір завдань. Таким чином, вплив тренування і відновлення у пам'яті вже виконаних рішень значно (але не зовсім) зменшується. Суттєвою перевагою методу паралельних форм є також можливість використання відносно малого інтервалу ретесту.
Основним показником надійності паралельних форм є коефіцієнт кореляції між результатами первинного та повторного обстеження. У цьому випадку коефіцієнт відбиває як міру стабільності результатів тесту протягом певного часу (власне надійність), так і ступінь збігу результатів двох форм тесту. Якщо дві форми використовуються безпосередньо одна за одною коефіцієнт здебільшого орієнтований на міру сумісності паралельних форм.
Найскладнішою проблемою, що виникає під час аналізу надійності паралельних форм, є характер відношень між цими формами тесту. Обидва набори завдань мають бути підібраними у такий спосіб, щоб, відповідаючи одним і тим самим вимогам, будучи зорієнтованими на вимір ідентичних показників і подаючи близькі результати, вони водночас були б відносно незалежними один від одного. Ця вимога, по суті, є протиріччям. Практичне досягнення цього можливе далеко не для усіх тестових завдань. З цим пов'язаний головний недолік принципу визначення надійності за методом паралельних форм. Кількість тестів, що мають такі форми, обмежена. Інша вада методу — присутність у коефіцієнті надійності міри взаємозв'язку між основною та паралельною формами. Через наведені причини аналіз надійності за методом паралельних форм набув у сучасній прикладній та теоретичній психологічній діагностиці досить обмежене використання.
1.3.3. Надійність частин тесту
З розгляду принципів визначення надійності психологічного тесту, викладених у попередніх розділах, можна дійти висновку: застосування методу надійності паралельних форм здебільшого пояснюється спробою максимально послабити вплив ретестових закономірностей на результати аналізу. Насправді, використання іншого за змістом формулювання набору пунктів знижує роль фактору тренування. Але таке зниження не є докорінним. Як зазначалося, надзвичайно складним є завдання підбору різних тестових задач, які водночас вимірювали б одні і ті самі психологічні показники. І все ж структура та суть завдань, характер їх побудови у паралельних формах лишаються однаковими, а змінюються лише формулювання, засоби виразу одного і того самого змісту. Через це матеріал паралельної форми при повторному дослідженні не є зовсім новим для піддослідного. Отже, ми знову не уникаємо фактору тренування.
Можна дійти висновку, що головним недоліком ретестової надійності та надійності паралельних форм є принципова необхідність проведення ретесту у тій чи іншій формі. Але чи є така необхідність дійсно принциповою? На перший погляд повторне дослідження випливає із самої дефініції надійності — як усталеності результатів методики у часі. Але надійність можна розглядати і як усталеність результатів в одних частинках тесту відносно інших. У такому розумінні надійність виступає як внутрішня відносна еквіваленція даних елементів сукупності тестових завдань.
Такий підхід у тлумаченні надійності дає змогу розробити абсолютно інший напрям кваліфікації міри усталеності тесту як вимірювального інструменту і обійти головне обмеження, пов'язане з необхідністю ретесту.
Кваліфікація надійності частин тесту — характеристика надійності психодіагностичної методики шляхом аналізу усталеності результатів часткових сукупностей тестових завдань або одиничних пунктів тесту. Найпростішим та найпоширенішим видом аналізу надійності частин тесту є метод розщеплення, змістом якого є виконання піддослідним завдань двох рівноцінних частин тесту. Teoретичним обґрунтуванням методу є припущення того, що у разі нормального або близького до нього розподілу оцінок по тесту в цілому виконання будь-якого випадкового набору завдань з частин тесту дає аналогічний розподіл (за умови, що частини однорідні за характером завдань, а також щодо результату тесту загалом).
Найпростішим випадком є розщеплення тесту на дві еквівалентні частини (про це вже йшлося у попередньому розділі). У додаток до розподілу еквівалентних половин за парними та непарними номерами, поділу пунктів за принципом близькості або еквіваленції значень індексів важкості та дискримінативності (див. подальші розділи) можливий і поділ завдань за часом, що потрібний для їх виконання (такий спосіб використовується у разі поділу на еквівалентні частини тестів швидкості).
Безпосередньо процедура отримання емпіричних оцінок надійності виглядає простішою, ніж у попередніх випадках визначення коефіцієнтів ретестової надійності та надійності паралельних форм. Піддослідні з вибірки визначення надійності проходять обстеження єдиний раз за повним набором завдань тесту. Після цього окремо оцінюються відповіді у еквівалетних частинах тесту. Ці результати корелюють між собою, отриманий коефіцієнт кореляції і буде показником rt, що відбиває міру усталеності результату протягом виконання різних частин тесту.
У попередньому розділі вже підкреслювалось застереження про нееквівалентність показників надійності тесту в цілому та його частин.
Рівняння Спірмена-Брауна дає змогу врахувати вплив збільшення або зменшення кількості завдань тесту на коефіцієнт

де rt — коефіцієнт надійності для повного набору завдань; r1t — його значення зміни кількості завдань; n — відношення нової кількості завдання до початкової (якщо кількість завдань повного тесту 100, а його частини, отриманої методом розщеплення на половини, — 50, то n=0,5).
Таким чином, для повного тесту

Наведені формули мають сенс для випадків однакових стандартних відхилень обох половин тесту (σХі=σX2). Якщо σx1 відрізняється від σX2, для визначення коефіцієнта надійності використовують формулу Фланагана:

Цей самий показник для малих виборок розраховують за формулою Крістофа:

При визначенні rt( повного обсягу тесту можна скористатися формулою Рюлона:

де σ2д — дисперсія різниці між результатами кожного піддослідного за половинами тесту; σ2х — дисперсія сумарних результатів. У даному разі коефіцієнт надійності розраховують як частку достеменної дисперсії результатів тесту.
При розщепленні тестів швидкості застосовують спеціальну процедуру групування завдань. Визначають мінімальний проміжок часу tm|n, необхідний для виконання тесту в цілому. Після цього відраховують половину та четвертину цього часу. Усі піддослідні працюють протягом половини мінімального часу, після чого роблять позначку проти завдання, яке виконувалося на момент контрольного часу, і продовжують роботу ще протягом чверті мінімального часу. Коефіцієнт надійності у цьому разі дорівнюватиме показнику кореляції між кількістю завдань, розв'язаних за 0,5 tmin та 0,25 tmin.
Розщеплення завдань тесту на рівноцінні половини є лише частковим випадком аналізу надійності частин тесту. Дійсно, можливе розщеплення на три, чотири і більше частин. У граничному випадку кількість таких частин дорівнює кількості пунктів тесту. Тоді аналіз надійності, по суті, стає аналізом внутрішньої узгодженності.
При поділі структури завдань тесту на довільну кількість груп правильне визначення надійності частин тесту буде великою мірою залежати від дотримання умови рівноцінності таких груп. Через це при визначенні коефіцієнта надійності методом аналізу внутрішньої узгодженості треба враховувати, що відібрані завдання мають бути гомогенними, тобто однорідними за змістом та важкістю. При порівнянні гетерогенних завдань значення rt, звичайно, нижче справжнього.
Найпоширенішим засобом оцінки надійності окремих завдань є обчислення коефіцієнта К'юдера-Річардсона:

де σ2х — дисперсія первинних оцінок тесту; р — індекс важкості, який визначається як частка UT/100 (див. розділ «Важкість завдань тесту»); q= l-p; rpb — коефіцієнти дискримінації (див. розділ 4).
З метою спрощення розрахунків може бути використана формула Гуліксена:

де R — кількість завдань у тесті.
Це рівняння може бути спрощене у такий спосіб:

За відсутності коефіцієнта дискримінації припустимий для використання такий варіант формули К'юдера-Річардсона:

Наведемо приклад розрахунку rt, за методом К'юдера-Річардсона (табл. 2).
Наведені рівіяння обчислення коефіцієнта надійності можуть бути використані у випадках, коли оцінка градуйована дихотомічною шкалою (тобто шкалою, що побудована за принципом «виконано — не виконано»). Для випадків з більш диференційованими оцінками може бути використана формула «коефіцієнта альфа»:

де Σσ2Хi — сума дисперсій результатів окремих завдань.
Таблиця 2. Визначення коефіцієнта надійності за методом К'юдера-Річардсона (n=50; σ2х=8,01; R=16)

У практиці психологічної діагностики вважається: тест достатньо надійний, якщо показник rt, більший або дорівнює 0,6.
Коефіцієнт надійності має певний інтервал довіри, визначення якого особливо важливе у зв'язку з великою кількістю факторів, що можуть впливати на його значення. Інтервал довіри для rt, визначається як
Ert = Z(r) + Zкрит σrt
де σrt — стандартна
похибка коефіцієнта надійності
(Zr-Z) — перетворення Фішера (визначається за допомогою статистичних таблиць). На практиці береться до уваги тільки нижня межа rt (Zкрит при у = 0,05, а = 0,01 - 2,58).
Визначення надійності методом поділу тесту на частини має вагомі переваги перед ретестовою надійністю та надійністю паралельних форм здебільшого за рахунок відсутності необхідності у повторному дослідженні. Це пояснює поширення методу у сучасній психологічній діагностиці. Проте метод має певні недоліки. До них можна віднести неможливість встановити надійність результатів тесту відносно проміжку часу. Це потребує комбінування визначення надійності за допомогою методу розщеплення з засобами ретестової надійності та надійності паралельних форм.
Завершуючи розгляд голорних засобів визначення надійності психодіагностичного тесту, ще раз підкреслимо виняткову важливість означених критеріїв у справі професійного та науково обгрунтованого застосування існуючих психологічних тестів. Досліднику, який інтерпретує емпіричні дані, слід мати чітку уяву про міру точності та імовірні межі реального результату, який досягається конкретною вимірювальною процедурою.
На жаль, слід визнати, що психологічні тести взагалі відзначаються порівняно невисокою надійністю. Необхідно пам'ятати: через цю обставину індивідуальний результат (тобто якісне або кількісне твердження про вираженість певної психологічної особливості у конкретної людини) буде завжди поступатися статистичним висновкам, що грунтуються на дослідженні вибірки. Чим більшою буде така вибірка, чим одноріднішим буде її склад, тим надійнішою буде психодіагностична інформація.
На завершення додамо: різні види психодіагностичних методик мають відносно різні показники надійності. Найбільше значення коефіцієнтів надійності мають об'єктивні тести. Значно нижчі ці показники для опитувальників особистості. Великої складності набуває визначення кількісних показників надійності проективних технік, де ми не обчислюємо, а судимо про надійність у якісній формі, хоча принципи визначення надійності проективних технік загалом такі самі, як і будь-яких інших психодіагностичних методів.