ТОП авторов и книг ИСКАТЬ КНИГУ В БИБЛИОТЕКЕ
Глава 6. Отбор и оценивание заданий
В этой главе будут описаны процедуры, используемые для отбора
заданий с целью получения надежных, валидных и дискриминатив-
ных тестов. До сих пор изучение заданий в этой книге касалось
мастерства разработчика тестов - искусства приемов формулирова-
ния эффективных заданий. В этой главе предметом нашего рассмот-
рения являются научные методы.
Целью анализа заданий является отбор заданий, формирующих
однородную, дискриминативную шкалу. Наиболее часто используе-
мый метод состоит в определении корреляции каждого задания с
общим показателем и вычислении по полной выборке доли тех испы-
туемых, которые дали ключевые ответы. Однородный и дискримина-
тивный тест может быть получен путем отбора заданий, имеющих
высокую корреляцию с общим показателем и, помимо этого, долю
правильно ответивших (в соответствии с "ключом") испытуемых в
пределах 80%-20%.
Будучи сформулированными, задания теста должны быть испы-
таны на некоторой выборке испытуемых и подвергнуты процедуре
анализа. То, как это делается, описано ниже.
Проблемы анализа заданий
Первое критическое замечание касается порочного круга, кото-
рый вытекает из этой процедуры. Если все задания из нашей выбо-
рочной совокупности будут иметь широкий разброс показателей и не
будут измерять то, что мы хотели, то по данной процедуре задания
будут отбираться в соответствии с таким критерием, как их корреля-
ции с общим показателем, который никогда не будет адекватным.
Следует заметить, что те же самые аргументы применимы к проце-
дуре факторизации множества заданий. Возможно существование
генерального фактора для множества неэффективных заданий. Это
критическое замечание имеет веские основания и должно быть опро-
вергнуто эмпирически. Получив при помощи процедуры анализа
заданий множество однородных заданий, мы тем не менее должны
представить доказательства их валидности. То есть недостаточно
сконструировать однородный тест, должно быть осуществлено иссле-
дование его валидности. Таком образом, это критическое замечание
легко опровергнуто.
Второе критическое замечание может быть сделано исходя из того
факта, что хотя процедура анализа заданий и обеспечивает однород-
ность теста, она не обеспечивает чистоту факторов. Возможно, что
тест, таким образом сконструированный, будет нагружать несколько
182
коррелирующих факторов. Так, если, например, в тесте способно-
стей в одно и то же множество заданий были включены задания,
измеряющие кристаллизованные способности (gc) и вербальные спо-
собности, то весьма вероятно, что по процедуре анализа заданий
будут отобраны оба эти вида заданий, поскольку эти факторы высоко
коррелируют. Следовательно, процедура анализа заданий как метод
конструирования тестов имеет меньшее значение, чем факторный
анализ.
Это последнее критическое замечание может быть опровергнуто
только дальнейшими исследованиями теста. Факторный анализ дан-
ного теста со средствами измерения других факторов покажет, изме-
ряет ли этот тест один фактор или нет. Если нет, то необходим
факторный анализ заданий (по методике, описанной в главе 9).
Однако, если в результате процедуры анализа заданий может
быть получен тест, не являющийся факторно чистым, возникает оче-
видный вопрос: почему используется этот метод? Почему нельзя
сразу использовать факторный анализ? Ответом является то, что, как
будет указано в главе 9, существуют серьезные технические пробле-
мы при факторизации заданий, которые не были преодолены полно-
стью. Помимо этого, необходимы очень большие выборки; Nunnally
(1978) утверждает, чтонеобходимовдесятьразбольшеиспытуемых,
чем имеется заданий. Все это делает сомнительной эффективность
непосредственного проведения факторизации заданий, особенно
когда процедура анализа заданий и факторно-аналитические иссле-
дования высоко коррелируют (Nunnally, 1978). Следовательно, в
качестве первого шага процедура анализа заданий является очень
ценным методом конструирования тестов.
Задания
Сконструируйте примерно вдвое больше заданий, чем необходи-
мо для окончательного теста. Величина окончательного теста будет
зависеть от его назначения и сущности. Тест способностей для детей
начальной школы должен занимать не более, чем 30 минут, в против-
ном случае на результаты повлияют усталость и скука. Личностный
тест для взрослых также должен быть не длиннее. В идеале тесты
должны быть настолько краткими, насколько возможно, в соответ-
ствии с оценками надежности и валидности. Это означает, что в
выборочной совокупности должно быть по крайней мере пятьдесят
заданий (для надежности). Задания должны отбираться из генераль-
ной совокупности заданий (для валидности).
Аналогично, в тесте, определяющем нейротические или психоти-
ческие симптомы, доля испытуемых, давших ключевые ответы, бу-
183
дет значительно отличаться в группе нормальных испытуемых и
группе, составленной из пациентов психиатрических клиник.
Важные переменные выборки
Сказать, что выборка должна отражать конкретную категорию
лиц (популяцию) - это значит не сказать ничего, пока не установ-
лены основные переменные, характеризующие данную категорию
(популяцию). Очевидно, что такие определяющие переменные будут
различными для разных тестов. Так, в тестах способностей возраст
и, в случае со взрослыми испытуемыми, уровень образования будут
существенными переменными, поскольку тест способностей для оп-
ределения некоторой переменной для всех возрастов и на всех уров-
нях способностей был бы чрезвычайно длинным.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114