Рассматривается модель адаптивного тестирования, построенная на основе модели Раша. Данная модель позволяет естественным путем связать трудности тестовых заданий с уровнями подготовленности испытуемых. Предложенная автором модель компьютерного тестирования может применяться при разработке систем автоматизированного контроля и обучения.
Классическая модель адаптивного тестирования основывается на таком важном понятии как трудность задания. Следует отметить, что это понятие также присутствует в других моделях, под другими названиями и определениями, но только классическая модель опирается на общепринятую, четко обоснованную математическую теорию расчета трудности заданий — модель Раша. Использование данной модели имеет существенное преимущество, которое заключается в том, что она позволяет естественным путем связать трудности заданий с уровнями подготовленности испытуемых и перенести их на метрическую шкалу.
Сущность классической модели адаптивного тестирования при дихотомической оценке вопросов заключается в следующем. Согласно модели Раша [1] уровень трудности вопросов δj и уровень подготовленности пользователей θ7 определяется в логитах, но для перевода в условные единицы или баллу можно использовать линейное преобразование, например, приравняв самый маленький уровень подготовленности пользователей θ7 к нулю, а самый большой θ7 к 100 баллам. Кроме того, для перевода θj и δj можно предпринять следующее:
θj -Ө
Bi = a + γ-
B σ(θ) _
где В i — балл на 100-бальной шкале, Ө — среднее значение уровня подготовленности, θj — уровень подготовленности i-участника, σ(θ) —
среднеквадратичное отклонение, γ,ε a — некоторые эмпирические коэффициенты подбираемые вручную (например а = 50,/ = 15 ). Аналогичным образом можно поступить и с δ .
Пусть имеется некоторый испытуемый, уровень знаний которого (уровень подготовленности) соответствует уровню трудности вопроса в 50 баллов. Выбор первого вопроса не является критическим для проведения испытания, но имеет существенное психологическое значение. Если уровень трудности первого вопроса будет ниже максимального уровня трудности вопроса, на который в состоянии ответить испытуемый, то, вероятнее всего, он правильно ответит на первый вопрос и это создаст для него психологически более комфортные условия и дружественную предрасположенность к тестированию. Поэтому испытание необходимо начинать с более легких вопросов. Если первый вопрос имеет трудность 30 баллов (см, рис.28), вероятно, что испытуемый ответит на этот вопрос правильно и компьютер предложит ему вопрос в 40 баллов. В случае положительного исхода испытания будет задан вопрос в 50 баллов. Однако, чем ближе величина трудности заданного вопроса к величине уровня подготовленности, тем выше вероятность ошибки. Следовательно, после ошибки будет задан менее трудный вопрос, например, в 45 баллов, после которого в случае успеха трудность вопроса будет повышена до 50 баллов (см. рис.1), затем до 52 и т.д. Но вблизи уровня трудности в 50 баллов вероятность неправильного ответа достаточно велика, и будут
происходить колебания трудности на уровне 50 баллов. Спустя некоторое время тестирование прекращается.
Адаптивное тестирование можно использовать и при политомической оценке правильности ответов на вопрос. В этом случае алгоритм принципиально не изменяется, но несколько усложняется.
Расчет трудности заданий
Адаптивное тестирование опирается на такое важное понятие как уровень трудности заданий, который можно определить с помощью модели Раша, и без обсуждения этого вопроса невозможно обсуждение моделей адаптивного тестирования. Статистическая обработка результатов тестирования на основе модели Раша превращает измерения, сделанные в дихотомических и порядковых шкалах, в линейные измерения, в результате качественные данные анализируются с помощью количественных методов. Это позволяет использовать широкий спектр статистических процедур.
Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых была получена, и оценка уровня знаний испытуемых аналогично не зависит от используемого набора тестовых заданий. Пропуск данных для некоторых комбинаций (испытуемый - тестовое задание) не является критическим. Кроме того, модель Раша характеризуется наименьшим числом параметров: один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания.
Модель Раша опирается на понятия «трудность задания» и «уровень подготовленности». Так, одно задание считается более трудным, чем
21 другое, если вероятность правильного ответа на первое задание меньше, чем на второе, независимо от того, кто их выполняет. Аналогично, более подготовленный студент имеет большую вероятность правильно ответить на все задания, чем менее подготовленный.
Благодаря простой структуре модели существуют удобные вычислительные процедуры для проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа.
Рассмотрим модель Раша более подробно [2]. Пусть тест состоит из К различных заданий бинарного типа, (испытуемый получает 1, если ответил правильно и 0 при неверном ответе) и его выполняют N –студентов. В результате получается матрица ответов A состоящая из N строк (i) и К -
Формула (8) является основным уравнением однопараметрической логистической модели Раша, единица измерения δ и Ө называется логитом. При одном логите (δ = 1 и θ0 = 1) вероятность успеха P(δ,ff) = 0,5, т.е. вероятность выполнения стандартного задания стандартным участником должна быть равна 0,5 (см. рис.2). Физический смысл логита трудности заданий определяется из выражения ln q / p , где значение натурального логарифма берется от отношения доли неправильных к доле правильных ответов на задание j, определяемых по множеству студентов, а логит знаний как ln pr /qr , где pr - доля правильных
23 ответов студента i, а q1 - доля неправильных ответов на те же на задания. Модель Раша позволяет сделать один очень важный вывод: чем выше уровень подготовки участника, тем больше вероятность выполнения задания любого уровня трудности. Стоит отметить, что параметры δ и θ называют латентными параметрами, т.к. они не измеряются непосредственно в процессе тестирования.
Оценки уровня подготовленности участников тестирования θλ и уровней трудности заданий δj характеризуют взаимное расположение латентных параметров на единой шкале логитов, но не их независимые значения (шкала не нормированная, а метрическая), нет информации определяющей начало отсчета. Замена θ =0 на θ =1 лишь смещает оценки по шкале не менее 1, не меняя их взаимного расположения.
Следует отметить, что для практики одним из наиболее важных критериев является точность оценивания. Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель в смысле точности измерения работает идеально. Но на практике ошибки всегда есть, и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель.
На основе имитационного моделирования можно исследовать точность оценивания уровня знаний и трудностей заданий, а, также число итераций, требуемых для вычисления этих оценок (методом наибольшего правдоподобия) в многофакторной ситуации в зависимости от:
- диапазона уровней знаний испытуемых;
- диапазона трудностей заданий;
- степени соответствия диапазонов уровней знаний испытуемых и трудностей заданий;
- числа испытуемых;
- числа заданий;
- степени соответствия данных модели;
- доли пропущенных данных.
Для статистической обработки результатов моделирования используется многофакторный дисперсионный анализ [3].
Предложенная нами модель компьютерного тестирования может применяться при разработке систем автоматизированного контроля и обучения.
ЛИТЕРАТУРА
- Rasch G. Probabilistic Models for some Intelligence and Attainment Tests. - Chicago: Mesa Press, 1993. – Р.123.
- Карданова Е.Ю., Карпинский В.Б. Обнаружение искажений при тестировании с использованием математической модели Г. Раша // Обозрение прикладной и промышленной математики. - 2007.- № 14.- С.716-717.
- Карданова Е.Ю. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша // Информационные технологии. - 2008. - № 4.- С.72-80.