ТОП авторов и книг ИСКАТЬ КНИГУ В БИБЛИОТЕКЕ
Но именно этот этап традицион-
но считается конструированием теста. Для него разработан весь существующий
в настоящее время аппарат эмпирико-статистической теории теста, предназна-
ченный для оценки валидности и надежности теста и отдельных его заданий.
Процедура валидизации и проверки на надежность, гомогенность (однород-
ность), дифференцирующую силу, прогностичность и т. д. сводится к отбору за-
даний теста и представляет собой итерационную процедуру доведения теста до
требуемого уровня качества за счет замены заданий, их модификации, а также
изменения процедуры проведения и интерпретации данных тестирования.
Все существующие тесты интеллекта можно условно разделить на две груп-
пы: 1) тесты лскорости» и 2) тесты луровня». Если при проведении первых
вводится жесткий лимит времени, то при проведении вторых, хотя и есть ограни
чение времени выполнения теста или субтеста, но главную трудность для испы
туемого составляют особенности заданий. Встречаются варианты тестов, гд1
используются оба вида затруднений.
Тесты лскорости» представляют собой несколько однотипных и близких п
уровню сложности заданий. Испытуемый должен решить их за определенно
время. Показателем успешности служит число правильно решенных заданий
Уровень сложности их должен быть близок 0,5, то есть задание решает правил]
но половина людей выборки, на которой проверяется тест.
В тестах луровня», как уже было отмечено, время, которое дается испытуем!
му, значительно превышает время, необходимое среднему испытуемому для р>
шения теста. Создатель теста всегда полагает, что испытуемый, не справивший
с заданием за отведенное время, не решит его никогда. В качестве лизмерите
ной линейки интеллекта» в тестах луровня» используется шкала сложное-
тестового задания.
Главное затруднение вызывает оценка сложности задания. Согласно моде.
Раша, сложность оценивается экспериментально, следовательно, имеет статис1
ческий характер. Кроме того, возникает необходимость установить: 1) миг
мально необходимое число заданий для каждого уровня сложности, 2) необходи-
мое число уровней сложности, 3) достоверность различий оценок сложности
заданий, принадлежащих разным уровням.
Эти проблемы решены в работе Ф. М. Юсупова [5], который предложил
вероятностную модель прогнозирования параметров теста луровня». Расчеты
показывают, что в тестовом задании целесообразно брать от 6 до 10 вариантов
ответа, чтобы минимизировать вероятность случайного решения.
Число заданий в тесте уровня не должно быть слишком велико для того,
чтобы значения показателей сложности соседних по уровню сложности заданий
надежно различались. Кроме того, нужно учесть, что правильный ответ может
быть выбран испытуемым случайно.
При 6 вариантах ответа в каждом тестовом задании количество заданий не
может быть более 6-7 (см. табл. 3).
Таблица 3. Расчетные значения показателей сложности тестовых задании
Номер задания1234567
Показатель0,0350,1460,3090,50,690,8340,97
сложности
Модель, предложенная Ф. М. Юсуповым, позволяет спрогнозировать мини-
мальный объем выборки, достаточной для стандартизации теста.
Соответствующая модель для расчета параметров теста с эквивалентными
по трудности заданиями (тест лскорость») предложена в работе В. Н. Дружини-
на [б].
Эмпирически проверка теста интеллекта на валидность и надежность Д про-
цедура стандартная и хорошо отражена в методических руководствах [11.
Главное, что следует заметить: все разработанные тесты рассматривают ин-
теллект как некоторую непрерывную величину (по аналогии с ростом или ве-
сом), которой люди характеризуются в разной степени.
Рис. 14. Отношения между шкалой IQ и шкалами отдельных тестов интеллекта
Подразумевается, что, как большинство биологических и социальных пара-
метров, интеллект характеризуется нормальным распределением людей вдоль
оси континуума.
Можно предположить, что существующие тесты интеллекта, включающие в
себя задания разной сложности, захватывают разные участки этого континуума.
Парадоксально, что это не отражается на характеристиках распределения людей
по результатам тестирования! Возможно, к этому приводит искусственный под-
бор заданий и процедура нормализации шкалы.
Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю грани-
цы, а не простирается в бесконечность, следовательно, уместно говорить лишь о
квазинормальности любого распределения людей по отношению к шкале тесто-
вого балла.
При подсчете баллов во всех тестах используется кумулятивная аддитивная
модель: суммируются баллы, набранные за выполнение каждого отдельного зада-
ния, несмотря на их (заданий) содержательную разнородность.
На первый взгляд пользоваться гипотезой о прямой зависимости вероятно-
сти решения задачи от уровня способности, с определенными оговорками, можно
лишь для тестов с эквивалентными по трудности заданиями. В тестах луровня»
более целесообразно было бы применять шкалу трудности, измеряя способность
самым сложным заданием, которое решил испытуемый. Однако решение зави-
сит от массы случайных факторов, начиная с угадывания и кончая индивидуаль-
ной интерпретацией тестовой задачи испытуемым.
На примере теста Равена мой аспирант Ф. М. Юсупов проверил, в какой
мере валидны различные модели подсчета тестовых баллов:
1) традиционный, применявшийся в тесте балльный показатель,
2) сумма рангов сложности решенных заданий,
3) количество правильно выполненных заданий (оценка трудности заданий не
учитывалась),
Таблица 4.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
но считается конструированием теста. Для него разработан весь существующий
в настоящее время аппарат эмпирико-статистической теории теста, предназна-
ченный для оценки валидности и надежности теста и отдельных его заданий.
Процедура валидизации и проверки на надежность, гомогенность (однород-
ность), дифференцирующую силу, прогностичность и т. д. сводится к отбору за-
даний теста и представляет собой итерационную процедуру доведения теста до
требуемого уровня качества за счет замены заданий, их модификации, а также
изменения процедуры проведения и интерпретации данных тестирования.
Все существующие тесты интеллекта можно условно разделить на две груп-
пы: 1) тесты лскорости» и 2) тесты луровня». Если при проведении первых
вводится жесткий лимит времени, то при проведении вторых, хотя и есть ограни
чение времени выполнения теста или субтеста, но главную трудность для испы
туемого составляют особенности заданий. Встречаются варианты тестов, гд1
используются оба вида затруднений.
Тесты лскорости» представляют собой несколько однотипных и близких п
уровню сложности заданий. Испытуемый должен решить их за определенно
время. Показателем успешности служит число правильно решенных заданий
Уровень сложности их должен быть близок 0,5, то есть задание решает правил]
но половина людей выборки, на которой проверяется тест.
В тестах луровня», как уже было отмечено, время, которое дается испытуем!
му, значительно превышает время, необходимое среднему испытуемому для р>
шения теста. Создатель теста всегда полагает, что испытуемый, не справивший
с заданием за отведенное время, не решит его никогда. В качестве лизмерите
ной линейки интеллекта» в тестах луровня» используется шкала сложное-
тестового задания.
Главное затруднение вызывает оценка сложности задания. Согласно моде.
Раша, сложность оценивается экспериментально, следовательно, имеет статис1
ческий характер. Кроме того, возникает необходимость установить: 1) миг
мально необходимое число заданий для каждого уровня сложности, 2) необходи-
мое число уровней сложности, 3) достоверность различий оценок сложности
заданий, принадлежащих разным уровням.
Эти проблемы решены в работе Ф. М. Юсупова [5], который предложил
вероятностную модель прогнозирования параметров теста луровня». Расчеты
показывают, что в тестовом задании целесообразно брать от 6 до 10 вариантов
ответа, чтобы минимизировать вероятность случайного решения.
Число заданий в тесте уровня не должно быть слишком велико для того,
чтобы значения показателей сложности соседних по уровню сложности заданий
надежно различались. Кроме того, нужно учесть, что правильный ответ может
быть выбран испытуемым случайно.
При 6 вариантах ответа в каждом тестовом задании количество заданий не
может быть более 6-7 (см. табл. 3).
Таблица 3. Расчетные значения показателей сложности тестовых задании
Номер задания1234567
Показатель0,0350,1460,3090,50,690,8340,97
сложности
Модель, предложенная Ф. М. Юсуповым, позволяет спрогнозировать мини-
мальный объем выборки, достаточной для стандартизации теста.
Соответствующая модель для расчета параметров теста с эквивалентными
по трудности заданиями (тест лскорость») предложена в работе В. Н. Дружини-
на [б].
Эмпирически проверка теста интеллекта на валидность и надежность Д про-
цедура стандартная и хорошо отражена в методических руководствах [11.
Главное, что следует заметить: все разработанные тесты рассматривают ин-
теллект как некоторую непрерывную величину (по аналогии с ростом или ве-
сом), которой люди характеризуются в разной степени.
Рис. 14. Отношения между шкалой IQ и шкалами отдельных тестов интеллекта
Подразумевается, что, как большинство биологических и социальных пара-
метров, интеллект характеризуется нормальным распределением людей вдоль
оси континуума.
Можно предположить, что существующие тесты интеллекта, включающие в
себя задания разной сложности, захватывают разные участки этого континуума.
Парадоксально, что это не отражается на характеристиках распределения людей
по результатам тестирования! Возможно, к этому приводит искусственный под-
бор заданий и процедура нормализации шкалы.
Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю грани-
цы, а не простирается в бесконечность, следовательно, уместно говорить лишь о
квазинормальности любого распределения людей по отношению к шкале тесто-
вого балла.
При подсчете баллов во всех тестах используется кумулятивная аддитивная
модель: суммируются баллы, набранные за выполнение каждого отдельного зада-
ния, несмотря на их (заданий) содержательную разнородность.
На первый взгляд пользоваться гипотезой о прямой зависимости вероятно-
сти решения задачи от уровня способности, с определенными оговорками, можно
лишь для тестов с эквивалентными по трудности заданиями. В тестах луровня»
более целесообразно было бы применять шкалу трудности, измеряя способность
самым сложным заданием, которое решил испытуемый. Однако решение зави-
сит от массы случайных факторов, начиная с угадывания и кончая индивидуаль-
ной интерпретацией тестовой задачи испытуемым.
На примере теста Равена мой аспирант Ф. М. Юсупов проверил, в какой
мере валидны различные модели подсчета тестовых баллов:
1) традиционный, применявшийся в тесте балльный показатель,
2) сумма рангов сложности решенных заданий,
3) количество правильно выполненных заданий (оценка трудности заданий не
учитывалась),
Таблица 4.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115