Библиотека » Математические методы » Показники важкості завдань тесту

Внутрішня узгодженість та дискримінативність завдань тесту

Морозов С. М. Засоби контролю діагностичних якостей психологічних тестів. — K., 1994.

3. Внутрішня узгодженість завдань тесту

Внутрішня узгодженість (консистенція, консистентність) — характеристика тестової методики, що вказує на ступінь однорідності складу завдань щодо вимірюваної тестом якості, здібності або лінії поведінки. Критерій внутрішньої узгодженості є суттєвим елементом конструктної валідності тесту, адже він визначає завдання за їх спрямованістю на певний конструкт, вимірює внесок кожного пункту (завдання або питання) у відображення досліджуваної психологічної властивості. Зрозуміло, що максимальна валідність тесту досягається за рахунок відбору саме таких пунктів, які, маючи позитивну кореляцію з загальним результатом тесту, водночас мінімально корелюють між собою. Якщо між окремими завданнями будуть спостерігатися високі показники кореляції (додатні або від'ємні), такий тест буде перевантажений зайвими пунктами (завданнями), які є практично однозначними.. Це зумовить невиправдане збільшення обсягу завдань тесту, а це, в свою чергу, призведе до збільшення терміну та обсягу роботи піддослідного та дослідника, а також спричинить погіршення надійності методики. Таким чином, відбір завдань за критерієм внутрішньої узгодженості забезпечує найбільшу прагматичну ефективність тесту. Завдяки такому критерію, як правило, методика комплектується переважно такими завданнями, що максимально пов'язані з досліджуваним показником.

На практиці внутрішня узгодженість визначається шляхом дослідження кореляції між результатом тесту в цілому та кожним окремим завданням. Найчастіше для цього використовується показник бісеріальної кореляції між характером вирішення кожного завдання («виконано» — «не виконано», підтримка або заперечення твердження в анкеті, варіант відповіді на запитання опитувальника тощо) з сумарною оцінкою усіх пунктів тесту. Таким чином, найбільш узгодженим буде таке запитання чи завдання або їх сукупність, що «працює» відповідно до усієї сукупності пунктів методики. Не треба бути надто спостережливим, щоб помітити деяке протиріччя між двома частинами дефініції критерію внутрішньої узгодженості: завдання має максимально належати до однієї сфери поведінки, і такі завдання не можуть корелювати між собою. Просте визначення бісеріальної кореляції зазначеним способом не дозволяє розв'язати таку контроверсу. Цього можна досягти завдяки використанню складнішої процедури визначення внутрішньої узгодженості через аналіз часткових кореляцій між загальним результатом тесту та окремими завданнями, що передбачає складання рівняння множинної регресії. У такому рівнянні кожний пункт має свій «ваговий» коефіцієнт, що кількісно відбиває внесок цього завдання у загальний результат. Цей внесок відокремлюється від внесків інших завдань. Перевага такого методу ще і у тому, що такий «ваговий» коефіцієнт (питома вага пункту в загальній діагностиці) може використовуватися як «ключ» для даного завдання. Це суттєво підвищує достеменність результатів особистісних опитувальників. Завдяки наявності таких коефіцієнтів по кожному з питань остаточну суму балів можна підраховувати диференційовано, відповідно до важливості кожного симптому. Традиційно підрахунок результату опитувальника проводиться за системою «+1» або «0» балів у залік кінцевого результату у випадку збігу або незбігу відповіді з «ключем». При цьому на важливість окремих відповідей — з точки зору досліджуваної риси — не звертається увага, що погрублює точність дослідження.

Під час аналізу внутрішньої узгодженості іноді використовується метод рівняння контрастних груп, які формуються з піддослідних, котрі мають найвищі та найнижчі сумарні бали. Виконання кожного пункту у групі осіб з найвищими результатами за тестом в цілому порівнюють з його виконанням у групі з низькими балами. Ті завдання, за якими піддослідні з першої групи не мають значно кращих результатів, ніж піддослідні другої групи, визнаються невалідними. Виявлені недосконалі завдання або відкидаються або переглядаються.

Досі було розглянуто випадки аналізу показників внутрішньої узгодженості окремих завдань ізольованого психологічного тесту. Однак внутрішня узгодженість — важлива характеристика діагностичної цінності субтестів комплексної тестової батареї. У цьому випадку критерій внутрішньої узгодженості має відношення до наявної кореляційної взаємодії між даними окремих субтестів та інтегративним результатом. Велика кількість тестів інтелекту, наприклад, складається з субтестів, котрі використовуються окремо один від одного (словарні, арифметичні, практичні, субтести загальних відомостей тощо). При побудові таких батарей тестів визначається ступінь зв'язку показників з загальним IQ і, так само як в попередньому випадку, субтести, що погано корелюють з батареєю у цілому, відкидаються або переробляються. Коефіцієнти кореляції у вигляді матриці, де наведені кількісні міри зв'язку між окремими субтестами, а також між ними та загальним показником, є свідоцтвом внутрішньої узгодженості тестової батареї, ступеня внеску («цінності») окремих субтестів щодо дослідження складного конструкту. Пригадаємо, що корелятивні зв'язки між окремими субтестами мають бути мінімальними у той час, як зв'язок кожного з них з кінцевим результатом — максимальним.

Аналіз внутрішньої узгодженості складових частин методики орієнтований не лише на практичні цілі підвищення однорідності завдань. Цей критерій дає змогу поглибити уявлення про природу досліджуваного конструкту, його контекстуально-теоретичний статус. На базі аналізу змісту пунктів, що вже відібрані за критерієм внутрішньої узгодженості, можна визначити і конкретні межі досліджуваного конструкту, наприклад набір окремих якостей інтелекту, які вивчаються, за допомогою тесту.

За процедурою визначення критерій внутрішньої узгодженості наближається до характеристики дискримінативності завдань тесту. Цей показник розглядатиметься у наступному — четвертому розділі. Зазначимо: незважаючи на споріднену техніку визначення, ці критерії докорінно відрізняються. Критерій внутрішньої узгодженості орієнтований на оцінку усього тесту, його своєрідної «внутрішньої» валідності, що притаманна сукупності завдань. Індекси дискримінативності відображають діагностичну силу тільки окремих пунктів. Отже, визначення дискримінативності окремих завдань є підготовчою процедурою аналізу внутрішньої узгодженості тесту в цілому.

4. Дискримінативність завдань тесту

Дискримінативність завдань тесту — це здатність окремих завдань методики розрізняти піддослідних з високим або низьким тестовим результатом, а також суб'єктів з високою продуктивністю реальної (критеріальної) діяльності від тих, у котрих вона низька.

Будь-яка відповідь піддослідного може бути подана у дихотомічній шкалі — «правильно», «так» — один бал, «не правильно», «ні» — нуль балів. Сума таких балів за всіма завданнями тесту являє собою первинну («сиру») оцінку. Міра збігу успішності розв'язання окремих завдань і всього тесту у вибірці піддослідних є безпосереднім показником дискримінативності завдань тесту, який обчислюється у вигляді крапково-бісеріального коефіцієнта кореляції і має назву коефіцієнта дискримінації (індексу дискримінації):

де х — середнє арифметичне значення усіх індивідуальних оцінок за тестом; х_n — середнє арифметичне значення оцінок у тих піддослідних, які правильно виконали даний пункт (у разі опитувальника особистості — збіг з «ключем»); σ_х — середньоквадратичне відхилення індивідуальних оцінок за тестом для вибірки; N_n — кількість піддослідних, що правильно розв'язали завдання (або тих, чия відповідь на даний пункт опитувальника відповідає «ключу»); N — загальна кількість піддослідних.

Наведене рівняння є придатним для розрахунку коефіцієнта дискримінації лише у випадках, коли усі піддослідні подали відповіді на усі без винятку завдання тесту. Коли кількість відповідей неповна, є сенс розраховувати коефіцієнт дискримінації за іншою формулою, а саме:

де х — середнє арифметичне значення індивідуальних оцінок тих піддослідних, які дали відповідь на завдання; σ_хд — середньоквадратичне відхилення індивідуальних оцінок за тестом у тих, хто дав відповідь на завдання; Nд — загальна кількість піддослідних, які дали відповідь на завдання.

Коефіцієнт дискримінації може набувати значень від -1 до +1. Високий додатній r_рb означає, що конкретний пункт тесту надійно розподіляє піддослідних, що мають високі та низькі бали. Високий від'ємний r_рb засвідчує непридатність завдання, недостатній зв'язок часткового результату з кінцевим висновком.

Коефіцієнт дискримінативності завдань тесту являє собою, по суті, показник критеріальної валідності завдання, оскільки він визначається відносно зовнішнього критерію — підсумкового результату або продуктивності критеріальної діяльності піддослідного. Індекс дискримінативності може визначатися із застосуванням методу контрастних груп. Необхідною умовою використання цього засобу є наявність близького до нормального розподілу оцінок за критерієм валідізації. Частка піддослідних у контрастних групах може змінюватися у широких межах залежно від обсягу вибірки: чим більшою за обсягом є вибірка, тим меншим відсотком піддослідних можна обмежитись при виокремленні груп з високим та низьким результатами. Нижня межа виокремлення групи становить по 10% для кожної з груп від загальної кількості членів вибірки, верхня межа — по 33%. Десятивідсоткові групи використовуються досить рідко, оскільки мала кількість випадків знижує статистичну надійність індексів дискримінації. Частіше з вибірки виокремлюють по 25-27% піддослідних.

Індекс дискримінації обчислюють як різницю між частками осіб, що успішно розв'язали завдання — окремо по високо- та низькопродуктивних групах. Такий індекс позначається Д. Отже,

Оскільки N_max = N_min = 0,10 : 0,33, рівняння набуває вигляду

Врешті-решт, можна використати чотириклітковий коефіцієнт кореляції

де f_g — частка осіб, що правильно розв'язали завдання, у загальній кількості піддослідних, що належать до групи з максимальним результатом; f_d — частка осіб, що правильно розв'язали завдання у групі мінімальних результатів; р — загальна частка (f_g + f_d) осіб, що правильно розв'язали завдання; q — частка осіб, що дали неправильний розв'язок (1-р).

Критичні значення коефіцієнта, що свідчать про діагностичну цінність пункту на рівні достеменності р < 0.05 залежно від кількості обстежених (n):

Максимальна точність визначення r_phi досягається при обсязі контрастних груп близько 27% від вибірки у кожній.

При аналізі дискримінативності особливу увагу слід приділяти статистичній вазі коефіцієнтів кореляції, їх достеменності. У випадках, коли значення коефіцієнта дискримінативності наближається до нуля і рівень достеменності невеликий, пункт тесту, що перевіряється, має бути переглянутий. Важливість визначення дискримінативності завдань тесту — одного з найголовніших показників, що характеризують діагностичну вартість опитувальників особистості, пояснюється орієнтованістю великої кількості факторних опитувальників та анкет на дихотомічний розподіл піддослідних за полярними характеристиками особистості. Значення індексу дискримінативності для опитувальників підсилюється можливістю диференційованого підрахунку кінцевого результату (див. попередній розділ). Аналіз дискримінативності завдань широко застосовується у випадках розробки та контролю об'єктивних тестів, тестів загальних та спеціальних здібностей тощо. Неабияке значення цей показник має і для тестів досягнень. Вирішальним етапом процедури створення та контролю методик, що мають скринінговий характер, є також добір найбільш дискримінативних пунктів. Навпаки, аналіз дискримінативності у проективних тестах, хоч і є принципово важливим, але відступає на другий план через труднощі, пов'язані з кількісною кваліфікацією показників проективних тестів, іноді неможливістю проведення кореляційного аналізу, характеристикою дискримінативності у якісній формі.

Розрахунки індексів дискримінативності досить трудомісткі, особливо тоді, коли тест складається з великої кількості завдань, але такі процедури можуть стати простішими за наявності спеціальних програм для обробки емпіричної інформації на ПЕОМ.

5. Показники важкості завдань тесту

Важкість завдань тесту — це така характеристика пункту, що відбиває її статистичний рівень можливості вирішення. Разом із аналізом дискримінативності та внутрішньої узгодженості цей комплекс показників посідає чільне місце у процедурі комплектації тесту адекватними цілям вимірювання завданнями.

У психології вирізняють суб'єктивно-психологічну та статистичну (об'єктивну) важкість. Суб'єктивна важкість завдання пов'язана з індивідуально-психологічним бар'єром, розміри якого опосередковані умовами вирішення (лімітом часу, зрозумілістю інструкції, мірою нетривіальності вирішення тощо), рівнем формування необхідних для вирішення завдання знань, умінь та навичок, психічним станом піддослідного, а також деякими іншими факторами. Індивідуальний вплив комплексу цих факторів на результати виконання тесту знижує надійність та достеменність даних. З огляду на це вживають заходи, націлені на нівелювання факторів суб'єктивної важкості, що досягається за допомогою спеціальної комплектації вибірки та стандартизації процедури дослідження.

Одним із показників статистичної важкості є відсоток осіб вибірки, які розв'язали або не розв'язали завдання. Наприклад, якщо тільки 20% піддослідних відшукали правильний розв'язок, то таке завдання можна характеризувати як занадто важке для конкретної вибірки, а якщо з завданнями успішно справилися 80% піддослідних, таке завдання, відповідно, вважається легким. Важкість завдань тесту є відносною характеристикою, оскільки вона залежить від особливостей вибірки (вікові, професійні, соціокультурні особливості). Важкість є передусім характеристикою інтелектуальних завдань, для яких може існувати критерій «правильного» чи «неправильного» розв'язку. Для питань або ситуативних завдань (тобто таких завдань, що моделюють якусь ситуацію), які входять до складу методик дослідження особистості, статистичне поняття важкості є непридатним.

Для успішної реалізації психодіагностичної методики велике значення має етап комплектації завдань за показниками важкості реалізації. Так, за наявності надто складних завдань надійність та валідність методики різко знижуватимуться. Це станеться через погіршення статистичних характеристик оцінювання внаслідок невеликої кількості здобутих вирішень, зростання кількості випадкових оцінок через намагання піддослідних вгадати правильну відповідь. Переживання постійних невдач під час роботи з тестом негативно впливають на піддослідного, а це, в свою чергу, знижує очевидну валідність не тільки певного тесту, а я наступних досліджень. Невдачі роботи з завданнями тесту можуть викликати і таку емоційну реакцію піддослідного як відмову від подальшого співробітництва. Надто прості завдання призведуть до однакових результатів, тобто більшість піддослідних швидко справиться з усім набором завдань, і з цього моменту тест втратить здатність до ранжирування результатів. До того ж у цьому випадку спостерігатиметься незначна варіативність показників, негативний вплив на суб'єктивне ставлення до тесту.

Головне завдання аналізу важкості завдань тесту — підбір оптимальних за складністю пунктів тесту, а також розміщення їх у певному порядку. Звичайно, якщо статистична важкість незначна, таке легке завдання розміщують на початку тесту, і навпаки, складні завдання розташовують наприкінці методики. Одне-два найпростіші завдання ставлять перед основним комплектом та використовують як приклади. Диспозиція завдань за зростаючою важкістю, що представлена частками осіб з вибірки, які виконують завдання успішно, дає змогу орієнтовно визначити поріг (щабель) важкості кожного конкретного піддослідного. Цей пороговий щабель вже може означати рангове місце піддослідного у групі за успішністю виконання тесту. Подібний принцип покладений в основу вимірювання у перших тестах розумових здібностей (наприклад, шкали Біне-Симона), де показником «розумового віку» було виконання завдання середньої важкості для даної вікової групи. Принцип розміщення завдань за зростаючою важкістю залишився і в більшості сучасних психометричних тестів, орієнтованих на дослідження загальних здібностей, професійної успішності, у тестах досягнень та деяких інших.

У тестах швидкості на відміну від тестів результативності (power tests) важкість окремих завдань, звичайно, є малою та практично незмінною. Кількість таких завдань беруть такою, щоб жодний піддослідний з вибірки не вклався у відведений термін.

Основним показником важкості завдань тесту є індекс важкості.

де U_t — кількість піддослідних, що не розв'язали завдання; N₀ — кількість піддослідних, що правильно розв'язали завдання; N — загальна кількість піддослідних.

При урахуванні випадкового успіху шляхом вгадування для завдань з «нав'язаною» відповіддю

де N_н — кількість піддослідних, що не розв'язали задачу; m — число варіантів відповіді.

У тих випадках, коли вибірка та кількість пунктів, що перевіряються, численні, індекс важкості можна визначити за допомогою контрастних підгруп. У кожну з таких Підгруп входять 27% осіб від загальної чисельності вибірки осіб, що мають найкращі та найгірші результати за тестом в цілому. Індекс важкості визначають як середнє арифметичне значення індексів для груп з максимальними та мінімальними результатами:

Якщо уявити, що частоти розподілу оцінок піддослідних, які вирішують завдання, підпорядковуються нормальному закону, то у межах M±σ знаходиться близько 68% усіх піддослідних, за цими межами — по 16% осіб. Вказані частоти приймаються за порогові при відборі завдань з первинної розробки тесту. Таким чином, після визначення індексів важкості у першу чергу відкидаються завдання, які розв'язали понад 84% (більше, ніж M-σ) піддослідних, а також такі, що не змогли виконати 84% членів вибірки (М+σ) (рис 2).

Рис. 2. Порогові частоти випадків розв'язання завдань тесту при відборі за індексом важкості

Більш диференційованим аналізом важкості завдань є розділ піддослідних на групи за зовнішнім критерієм валідності, Hanpиклад, за продуктивністю у реальній діяльності. Усіх піддослідних розподіляють за принципом успішності у критеріальній діяльності — на підгрупи. За кожною з них аналізується успішність розв'язання конкретних завдань. На рис. 3 у вигляді ламаних ліній наведені залежності між успішністю розв'язання завдань та оцінками за критерієм валідізації для чотирьох гіпотетичних пунктів тесту.

Рис. 3. Зміни успішності розв'язання завдань у групах з різною продуктивністю

Завдання № 1 практично не диференціює піддослідних. Частки осіб, що його розв'язали, дуже мало відрізняються у підгрупах, що мають різну продуктивність (на рис. 3 наведені дані 50 підгруп}). Сталої закономірності змін кількості осіб, що розв'язали завдання, залежно від підвищення показників продуктивності не спостерігається.

Для завдання № 2 така залежність знаходиться у діапазоні 0-5 балів. Завдання № 2 є надто легким і може використовуватися у тесті, якщо воно потрапляє у 84%-й інтервал.

Завдання № 3 є досить важким. Воно добре диференціює піддослідних, які мають високі бали, а якщо це завдання виконують більше, ніж 16% піддослідних, його можна включити до тесту.

Найкращим з усіх є завдання Ns 4. Його важкість близька до середньої для даної вибірки. Завдання добре диференціює піддослідних за зовнішнім критерієм валідізації.

При відборі завдань тесту може застосовуватися не лише індекс важкості, а й показник, що виводиться на його основі. Таким показником може бути середнє квадратичне відхилення для якісних ознак. Воно обчислюється на основі часток піддослідних, які розв'язали та не розв'язали завдання. Такий показник можна використовувати у випадках біноміального розподілу результатів розв'язання завдання у вибірці. Для великих за обсягом виборок

Зручнішим є показник, що обчислюється у бітах:

Залежність між (100σ)² та U_т має параболічний характер (рис.4). Чим легшим або складнішим виявиться завдання, тим гірше воно диференціює піддослідних. Найкращим у цьому аспекті є завдання, які виконують близько 50% членів вибірки. Завдання, що потрапляють у заштриховану зону та мають значення (100σ)²*16*84=1344, за параметром важкості можуть бути включеними до тесту. Вони мають бути рівномірно розподіленими у матеріалі тесту відповідно до індексів важкості.

Відбір завдань за показником важкості може здійснюватися водночас з розрахунками інших коефіцієнтів кореляції.

Рис. 4. Залежність між індексом важкості і здатністю завдання диференціювати піддослідних

Список літератури

Анастази А. Психологическое тестирование: Пер. с англ.: В 2 кн. /Под ред. К.М.Гуревича, В.ИЛубовского. — M.: Педагогика, 1982. — Кн. 1.
Бешелев С.Д., Гурвич Ф.Г. Математико-статистические методи зкспертньїх оценок. — M.: Статистика, 1980.
Бурлачук Л.Ф., Морозов CM. Словарь-справочник по психологической диагностике. — K.: Наук, думка, 1989.
Гайда В.К., Захаров В.П. Психологическое тестирование. — JI.: Изд-во Ленингр. ун-та, 1982.
Гласс Дж., Стенди Дж. Статистические методи в педагогике и психологии: Пер. с англ. — M.: Прогресе, 1976.
Забродин Ю.М., Похилько В.И., Шмелев А.Г. Статистические и семантические проблеми конструирования и адаптации мно-гопрофильних личностньїх тест-опросников //Психол. журнал. — 1987. — № 6. - С.79-89.
Кулагин Б.В. Основи проф ссиональной психодиагностики. — Л. Медицина, 1984.
Михалевская М.Б., Измайлов Ч.А. Практикум по психологии. Измерение в психологии 4.1. Общая психометрика. — M.: Изд-во Моск. ун-та, 1983.
Нормативньїе предписания к разработчикам и пользователям психодиагностических методик //Вопр. психологии. — 1987. — № 5. — C 176-181.
Общая психодиагностика. — M.: Изд-во Моск. ун-та, 1987.
Практикум по психодиагностике. Дифференциальная психометрика /Под ред. В.В.Столина, А.Г.Шмелева. — M.: Изд-во Моск. ун-та, 1984.
Суходольский Г.В. Основи математической статистики для психологов. — Л.: Изд-во Ленинград. ун-та, 1972.
Шмелев А.Г., Похилько В.И. Анализ пунктов при конст-руировании и применении тест-опросников: ручние и компьютерньїе алгоритми //Вопр. психологии. — 1985. — № 4. — С. 126—134.
Cronbach LJ.Essentials of Psychological Testing, — 4 ed. — New York; Harper, 1984.
Rust J., Goiombok S. Modern Psychometrics. — Ixmdon: Routlenge, 1989.
Handbook of Reserch Methods in Clinical Psychology (Ed by Ph.C.Kendali, J.N.Butcher. — New York: Widey₁ 1982.
Meile R. Podrecznik diagnostyk і psychologicznej. Warszawa: PWN, 1969.
Standarts fov Educational and Psychological Tests. — Washinqton: D.C., 1974.
Wybrane zapadnienia z psychometrii і diagnostyki psychologiczny /Red. J.Rtzezinski. — Poznan: PWN1 1984.

««« Назад Начало