Технология оценки достоверности результатов автоматизированного тестирования

Широкое внедрение информационных и коммуникационных технологий в сферу образования и решение проблемы качества обучения обуславливают необходимость разработки моделей, адекватных процессам учебной деятельности. Повышение качества обучения является приоритетным направлением развития системы образования. Одной из основных задач управления качеством образования в учебном заведении является задача контроля качества обучения.

Развитию классических моделей и методов программированного обучения и контроля посвятили свои работы наши отечественные и зарубежные ученые: Сарыпбеков Ж.С., Тукеев У.У., Бидайбеков Е.Ы., Боранбаев С.Н., Баймухамедов М.Ф., В.П. Беспалько, В.Д. Алексеев, В.А. Первушин, А.М.Довгялло, О.Л. Ахремчик, и др.

Однако в их трудах не в достаточной мере представлены методы, позволяющие делать заключение о достоверности результатов компьютерного тестирования. Эффективность применяемых методов программированного обучения и контроля недостаточна в случае массового тестирования, характерного, например, для единого национального тестирования (ЕНТ), где число испытуемых измеряется сотнями тысяч, поскольку в этом случае цена вопроса особенно велика, и требуется разработка более эффективных методов.

В данной работе предлагается технология (совокупность методов и алгоритмов) обработки данных автоматизированного тестирования (мониторинга) с целью выявления недостоверных результатов. Эта технология предусматривает оптимизацию критических значений статистик согласия на специально конструируемых модельных данных [1], построение более эффективного композиционного критерия и на его основе принятие решения о достоверности или недостоверности измерения по каждому испытуемому индивидуально.

В ходе исследования эффективности рассмотренных нами статистик согласия можно сделать вывод, что ни одна из них не является достаточно эффективной. Необходимо повысить эффективность выявления искажённых профилей испытуемых, то есть снизить суммарные потери от совершения ошибок. В силу принципа синергизма следует предположить, что композиционный критерий, построенный на основе статистик согласия, будет более эффективен, чем каждая из них отдельно. Перед сведением воедино статистические критерии проверки гипотезы о достоверности измерения испытуемых приводятся к единому виду посредством индикаторной функции

i(s,p)

(1)

где s - статистика, p- критическое значение.

Статистика K для композиционного критерия определяется как

J

k =∑ɪ aji(, sj, Pj ), (2)

где sj - базисная статистика, pj - её критическое значение, J - количество статистик в линейной комбинации, а коэффициенты выбираются так, чтобы величина K оказалась нормирована к единице. В этом случае семантика значения K очевидна – это степень уверенности в том, что результаты тестирования данного испытуемого содержит искажения.

Сочетая идею композиционного статистического критерия с раннее описанным методом оптимизации критических значений статистик, формулируется алгоритм выявления случаев недостоверного измерения испытуемых (наличия искажений) при массовом тестировании. Этот алгоритм состоит в следующем.

На основе реальных результатов тестирования описанным выше методом генерируются модельные аналоги с заданным количеством искажений.

  1. По полученным модельным матрицам ответов оцениваются значения параметров модели Раша так же, как и для реальных данных [2].
  2. Для реальных результатов тестирования и для всех модельных матриц, с учётом результатов оценивания параметров модели Раша, вычисляются значения всех статистик согласия для каждого испытуемого. Попутно при исследовании распределения нормированных уклонений реальных данных можно получить предварительный прогноз возможного в них количества искажений (в силу зависимости характера распределения этой статистики от количества искажённых профилей).
  3. На модельных данных выполняется оптимизация критических значений всех статистик.
  4. С использованием полученной оптимальной схемы вычисляются значения композиционной статистики (2).
  5. Аналогично п. 4 выполняется оптимизация критического значения композиционной статистики.
  6. По композиционному критерию, с учётом полученных на модельных данных сведений о точности измерения, для каждого реального испытуемого принимается решение: признать результаты его тестирования достоверными или недостоверными.

Схема алгоритма приведена на рисунке 1. Для его реализации и для выполнения эмпирических исследований в форме вычислительных экспериментов разработано специализированное программное обеспечение. Программное обеспечение представляет собой комплекс программ. В него входят компоненты, обеспечивающие генерацию модельных матриц всех требуемых для исследования и для реализации разработанного здесь алгоритма типов. Другие компоненты программного обеспечения осуществляют вычисление значений всех статистик согласия

для каждого испытуемого, формирование композиционного критерия, а также определение частот ошибок первого и второго рода на модельных данных и построение функции суммарных потерь для оптимизации критических значений.

Нами проведена экспериментальная проверка применимости разработанной технологии обработки результатов массового тестирования с целью оценки их достоверности. Она выполнялась на данных ЕНТ прошлых лет и включала в себя анализ как на индивидуальном, так и на групповом (аудитория, пункт проведения экзамена, регион) уровне. По результатам проверки предложенные нами методы и алгоритмы показали высокую эффективность.

В заключение следует отметить, что предложенная нами технология оценки достоверности результатов автоматизированного тестирования использована при разработке автоматизированной системы компьютерного тестирования.

Литература

  1. Карданова Е.Ю. Технология обработки информации в многокритериальном мониторинге. / Системы управления и информационные технологии.- №3, 2007.
  2. Карданова Е.Ю., Карпинский В.Б. Обнаружение искажений при тестировании с использованием математической модели Г. Раша // Обозрение прикладной и промышленной математики, 2007.- Т.14.- Выпуск
Год: 2011
Город: Костанай