ТОП авторов и книг ИСКАТЬ КНИГУ В БИБЛИОТЕКЕ
264
Оценка процедур шкалирования по Рашу
Мы более не будем углубляться в конструирование шкал Раша,
потому что существует ряд проблем с методом их использования, за
исключением определенных случаев, имеющих ограниченное значе-
ние. В общем, за двадцать лет, с тех пор, когда была разработана эта
модель, она не являлась широко используемой, несмотря на очевид-
ные значительные преимущества, которые она предоставляет по
сравнению с тестами, основанными на классической модели погреш-
ностей измерения. Конечно, небольшое количество энтузиастов -
например, Wright (1967) и Andrich (1978) - продолжают поддержи-
вать ее, но пока на замечания, которые будут обсуждаться ниже, не
будет дано удовлетворительного ответа, шкалирование по Рашу не
заменит классическую модель.
Являются ли статистические оценки заданий
независимыми от выборки?
С моей точки зрения утверждение, что статистические оценки
заданий, полученные в соответствии с моделью Раша, независимы от
выборки, не является полностью верным. Конечно, могут быть най-
дены задания, которые для испытуемых, имевших наилучшие и наи-
худшие показатели, давали одинаковые значения уровня трудности
по Рашу. Однако, подлежат обсуждению два момента: во-первых, те
задания, которые не дают одинаковых результатов и, во-вторых,
результаты на других выборках.
Во-первых, это означает, что если задания не дают одинакового
результата на двух выборках, то, вследствие этого, не удовлетворяют
данной модели и отбрасываются. В некоторых случаях параметры
могут быть искажены угадыванием ответов, и некоторые особенности
формулировки заданий (вероятно, необходимость их понимания)
могут повлиять на поведение в группе с высокими показателями по
сравнению с группами менее способных испытуемых. Часто, однако,
не существует очевидной причины тому, что задание не проходит
отбор.
Во-вторых, задания удаляются как не соответствующие модели,
если они работают по-разному в этих двух группах. Однако, такое
оценивание заданий могло бы продолжаться до бесконечности, если
бы мы и дальше пытались испытать их на новых группах. Chopin
(1976), имевший значительный опыт работы с банками заданий,
утверждает, что "ни одно задание не удовлетворяет модели в точно-
сти"; если проверять их достаточное количество раз, то все задания
должны быть удалены.
265
Wood (1976) также указывает, что оценивание (калибровка) за-
даний является основной проблемой метода шкалирования по Рашу
и нелегко найти задания, удовлетворяющие модели; то есть задания
действительно отличаются от выборки к выборке и, таким образом,
не являются независимыми от выборки.
Рассмотрим пример Andrich и Kline ( 1981), в котором личностные
тесты применялись на двух популяциях, австралийских и британ-
ских студентах. Утверждалось, что шкалирование по Рашу путем
получения независимых от заданий средств измерения личностных
качеств будет полезно для кросс-культурных исследований. Конеч-
но, были найдены задания, удовлетворявшие модели Раша как для
австралийских, так и для британских испытуемых. Однако, означает
ли это, что мы могли бы использовать их для сравнения, скажем,
эскимосов и китайцев? Очевидно, что должны быть предприняты
исследования для получения новых оценок (калибровок) заданий.
Следовательно, результаты не являются независимыми от выборок.
Чтобы по-настоящему продемонстрировать независимость шкал
Раша от выборок, явно различным популяциям должны быть даны
задания тестов из разнообразных банков, причем статистические
оценки заданий должны оставаться теми же самыми. Замечания Cho-
pin (1976) и Wood (1976) указывают на то, что это не может быть
сделано. Если же это не может быть сделано, то исчезает одно из
важнейших преимуществ метода Раша. Конечно, если независимое
от выборок измерение при помощи заданий - это химера, то таким
же является и производное от него, независимое от заданий измере-
ние индивидуальности, поскольку так как калибровки заданий не
вызывают доверия, то доверия не вызывают также и измерения сте-
пени выраженности черт, в которых эти калибровки учитываются.
Так что "независимоеотвыборок" неявляетсяточнымопределением
шкалирования по Рашу. Как утверждает Wood (1976), а за ним и Lord
(1980), калибровку (оценивание заданий) лучше всего выполнять на
соответствующим образом стратифицированных выборках.
Дальнейшие критические замечания по шкалам Раша
Nunnally (1978) резюмирует некоторые дальнейшие возражения
против модели Раша и других подобных моделей, основанных на
характеризующих задания показателях, как это обсуждалось в Lord
и Novick (1968). В целом, дело заключается в предположениях, по-
ложенных в основу этих моделей, которые являются, вероятно, не-
верными,- момент, всячески подчеркивавшийся Levy (1973), кото-
рый утверждает, что попытка сконструировать психологический тест
на основе любой из этих моделей приводит к противоречию с психо-
266
логической природой переменных, которые мы пытаемся измерить.
Например, в этих моделях предполагается, что все задания имеют
одну и ту же дискриминативность (заданную крутизной кривой). В
теории латентных черт также предполагается, что ответам на зада-
ния соответствует только один фактор, - предположение, ошибоч-
ность которого была показана при помощи факторного анализа даже
для тех тестов, которые наиболее очевидно нагружали только один
фактор, такой, как g . Кроме того, в простой двухпараметрической
модели остается неучтенным влияние угадывания ответов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114