Тесты по адаптивным системам управления. Понятие адаптивного тестирования и принципы его реализации. Построенная диаграмма вариантов использования для подсистемы адаптивного тестирования находится в приложение А

Одним из приоритетных направлений развития российского образования на современном этапе является обеспечение доступности и равных возможностей получения полноценного образования, а также достижение принципиально нового качества профессиональных образовательных услуг. Очевидно, что основным средством достижения этих целей является увеличении роли и значения информационных технологий. Построение интеллектуальных обучающих систем – это большой шаг в направлении развития и накопления электронного педагогического контента, который сегодня состоит из гипертекстовых, электронных материалов и тестов. Основные требования к новым обучающим системам включают в себя: интеллектуальность, масштабируемость, открытость, гибкость и адаптивность на всех этапах организации процесса обучения.

В последнее время все большее применение на разных стадиях учебного процесса получили различного рода электронные диагностические механизмы (материалы) – компьютерные тесты . К сожалению, традиционное тестирование, которое реализуется с помощью стандартизированных тестов, постепенно утрачивает свою актуальность . Оно развивается и эволюционирует в современные, более эффективные интеллектуальные формы адаптивного тестирования. Интеллектуальные формы диагностики знаний базируются на отличных от традиционных теоретико-методологических основах и иных технологиях построения и воспроизведения тестов. В модель системы должны быть включены модули, которые реализуют адаптивные алгоритмы.

Ключевое достоинство адаптивного тестирования перед традиционной формой – это его очевидная эффективность. Адаптивный тест позволяет диагностировать уровень знаний испытуемого с помощью значительно меньшего количества вопросов. При взаимодействии с одним и тем же адаптивным тестом испытуемые с высоким уровнем подготовки и испытуемые с низким уровнем подготовки будут решать совершенно разные подмножества заданий. Первый испытуемый увидит значительно большее количество вопросов с высоким коэффициентом сложности, а второй с низким. Процент правильных ответов у испытуемых может совпадать, но количество баллов будет существенно различаться.

Адаптивное тестирование позволяет более точно строить модель знаний (освоенных компетенций) испытуемых. Система компьютерного тестирования адаптируется под уровень пользователя прямо в процессе тестирования. Благодаря гибким адаптационным механизмам система может определить, какой именно вопрос и с каким коэффициентом сложности предъявить испытуемому в каждый конкретный момент времени. Например, испытуемый начинает решать диагностический набор и ему предъявляется задание с коэффициентом сложности b, решение которого проверяет знания в рамках некоторой мелкой дидактической единицы S. Если испытуемый решает предъявленное ему задание правильно, то аналитическое ядро системы выбирает следующее задание в рамках той же единицы S, но уже с более высоким коэффициентом сложности и т.д. Если испытуемый отвечает неверно на инициализационный вопрос дидактического элемента, то ему предъявляется задание с более низким коэффициентом сложности и т.д. Граничные значения коэффициентов сложности описываются в используемой при диагностике модели.

Компьютерная интеллектуальная адаптивная система тестирования должная обладать следующим набором характеристик:

Открытость и расширяемость . Система должна быть построена по модульному принципу. Примерный состав базовых модулей может быть следующим: «База», «Тестер», «Конструктор», «Конфигуратор», «Конструктор отчетов», «Модуль планирования», «База» предназначена для ведения списка пользователей установленной копии программы, подготовки списка испытуемых, управления справочником групп испытуемых, конфигурирования специального пространства (декомпозиция на тематические блоки). «Конструктор» предназначен для работы с базой тестовых заданий и разработки тестовых пакетов. «Конфигуратор» предназначен для настройки рабочих пунктов тестирования (подключения тестов, назначение сеансов тестирования). «Конструктор отчетов» предназначен для обработки первичных протоколов тестирования и построения различных отчетов. «Модуль планирования» предназначен для планирования и мониторинга процесса тестирования. Тестер непосредственно реализует адаптивный механизм диагностики уровня знаний .

Нелинейность воспроизведения диагностического контента. Должен быть реализован адаптивный интеллектуальный выбор следующего тестового задания в зависимости от результатов решения предыдущих.

Известная трудность . Все тестовые задания должны быть разделены по категориям трудности и иметь соответствующий коэффициент, которым можно манипулировать в процессе адаптации .

Универсальность диагностической модели. Система позволяет производить полную и качественную проверку знаний большого количества испытуемых без существенных затрат времени и ресурсов в пределах дидактических единиц любых размеров

Достоверность и точность результатов адаптивного тестирования. Используется подход, который полностью исключает эффективный фактор при анализе индивидуальной модели знаний испытуемого.

В настоящее время разработано и внедрено огромное количество систем компьютерного тестирования. Такие системы значительно различаются по классификационным параметрам . И уже сейчас можно с уверенностью сказать, что адаптивные системы компьютерного тестирования активно занимают свою нишу на рынке программного обеспечения для организации и поддержки педагогических процессов.


Библиографический список

  1. Никифоров, О.Ю. Применение среды компьютерного тестирования на основе базы заданий в тестовой форме в системе контроля качества высшего учебного заведения. / О.Ю. Никифоров, Ю.И. Никоарэ // Управление качеством непрерывного образования: Сборник статей 2-й межрегиональной научно-практической конференции // Отв. редактор Е.Ю. Бахтенко; Мин-во образования и науки РФ; Департ. Образования Волог. обл.; Вологод. гос. пед. ун-т. – Вологда: ВГПУ, 2011. – 192 с. , с. 72-79.
  2. Никифоров,О.Ю. Анализ подсистемы тестирования СДО MOODLE // Информационные технологии в науке и образовании: Материалы Международной научно-практической интернет-конференции. –Шахты: Изд-во ЮРГУЭС, 2008. – 238 с.
  3. Никифоров, О.Ю. Обобщенная компонентная модель системы компьютерного тестирования / О. Ю. Никифоров // Образование, наука, бизнес: особенности регионального развития и интеграции: Материалы Всероссийской научно-методической конференции. – Череповец, – 2006. – с.309-311.
  4. Никифоров, О.Ю. Основные элементы заданий в тестовой форме / О. Ю. Никифоров // Образование, наука, бизнес: особенности регионального развития и интеграции: Материалы Всероссийской научно-методической конференции. – Череповец, – 2006. – с.315-316.
  5. Никифоров О.Ю., Кокшарова Е.И. Комплекс признаков классификация систем компьютерного тестирования // Современные научные исследования и инновации. 2013. № 6
  6. Никифоров, О.Ю. Признаки классификации систем компьютерного тестирования / О. Ю. Никифоров // Образование, наука, бизнес: особенности регионального развития и интеграции: Материалы Всероссийской научно-методической конференции. – Череповец, – 2006. – с.312-314.
Количество просмотров публикации: Please wait 1

Согласно Концепции модернизации российского образования можно отметить, что основные усилия по реализации реформы сегодня сосредоточены на увеличении роли информационных технологий. Используются они по-разному: для управления образовательным процессом, для непосредственного обучения, для контроля и проверки усвоения и практического применения полученных знаний обучаемыми. Для этого в последнее время все большее применение на разных этапах обучения получили различного рода тестовые опросы. Спектр применения тестов очень широк от короткого опроса после объяснения текущей темы до итоговых, выпускных или вступительных экзаменов. При этом для многих высших учебных заведений актуальным вопросом является использование информационных технологий при разработке автоматизированных систем обучения и контроля знаний. Ведь использование подобного типа систем в образовательном процессе позволит применить новые адаптивные алгоритмы тестового контроля, использовать в тестовых заданиях мультимедийные возможности компьютеров, уменьшить объем бумажной работы, ускорить процесс подсчета результатов опроса, упростить администрирование, снизить затраты на организацию и проведение тестирования. В заключение можно отметить, что компьютерные системы контроля знаний приобретают все большую популярность, что объясняется их объективностью, доступностью и экономической эффективностью.

Исходя из вышесказанного, было принято решение по разработке программного комплекса, универсальной автоматизированной системы адаптивного тестирования (АСАТ) - являющейся средством разработки и создания различного рода тестов, а также используемая для проведения тестирования и обработки результатов. Основным требованием к разработанной системе являлось ее интеллектуальность, достигающаяся за счет организации адаптивности процесса тестирования.

Программный комплекс АСАТ предоставляет следующие возможности по организации процесса тестирования:

Автоматизация процесса создания тестов, качественное проведение процесса тестирования.

Открытость и наращиваемость системы.

Отсутствие жесткой привязки к какому-либо предмету.

Легкость создания и модификация тестов.

Обеспечение возможности многопользовательской работы. Персонифицированный доступ для всех категорий пользователей.

Защита от несанкционированного доступа к тестируемым заданиям.

Развитые средства навигации на всех уровнях при проведении процесса тестирования. Наличие средства динамического контроля процесса тестирования со стороны преподавателя.

Настройка (адаптация) тестового материала под индивидуальные особенности обучаемого (студента, учащегося, специалиста и т.п.).

Адаптивный выбор следующего вопроса в зависимости от правильности предыдущих ответов обучаемого.

Наполнение базы данных тестовыми заданиями, позволяющими работать как с текстовой, графической, так и с динамической тестовой информацией.

Возможность создания различных заданий из одного набора вопросов.

Возможность проведения тестирования по частям курса и как следствие проведение итогового экзаменационного тестирования по всему курсу.

Обеспечение полной и качественной проверки знаний большого количества обучаемых (студентов, учащихся, специалистов) без особых временных затрат и материальных средств по всем разделам учебного процесса.

Достоверность, точность и объективность результатов тестирования. Исключение субъективного подхода к оценке знаний обучаемых.

Уменьшение вероятности возникновения ошибок при подсчете результатов тестирования и выведения итоговой оценки.

Освобождение преподавателей от трудоемкой работы по обработке результатов тестирования.

Оперативный сбор и анализ результатов тестирования на любой момент времени с возможностью формирования периодических отчетов и ведомостей по различным запросам.

Внедрение АСАТ в процесс обучения студентов СурГУ и в общеобразовательные учреждения ХМАО - Югры.

По способу оценки результатов, тесты бывают двух видов: традиционные и адаптивные. Преимущество адаптивного теста перед традиционным - его эффективность. Адаптивный тест может определить уровень знаний тестируемого с помощью меньшего количества вопросов. При выполнении одного и того же адаптивного теста тестируемые с высоким уровнем подготовки и тестируемые с низким уровнем подготовки увидят совершенно разные наборы вопросов: первый увидит большее число сложных вопросов, а последний - легких. Доли правильных ответов у обоих могут совпадать, но так как первый отвечал на более сложные вопросы, то он наберет большее количество баллов. Еще один значимый эффект - повышение достоверности, так как в этом случае исключается быстрое изучение банка заданий путем простого "прощелкивания" вариантов на компьютере (таким образом, можно узнать лишь легкие задания, а трудные и часть средних оказываются неизученными).

В данной системе тестирования адаптивность выражается в изменении относительных пропорций в предъявлении легких, средних, трудных заданий в зависимости от числа правильных ответов, зарегистрированных в ходе сеанса тестирования. Следует заметить, что переход на адаптивную методику возможен только в результате накопления значительного банка заданий с эмпирическим измеренным уровнем трудности. Адаптивность сочетается с принципом "лестничного алгоритма" - предъявления заданий с систематическим нарастанием уровня трудности. Вначале предъявляются легкие задания, затем - средние и, если тестируемый успешен на предыдущих уровнях, - трудные. После каждого ответа программа тестирования определяет обоснованность так называемого «досрочного перевода» тестируемого на более высокий уровень трудности. На каждом шаге оценивается значимость различий между числом правильных и неправильных ответов. При значениях меньших чем 5%-ый уровень ошибки (в отвержении гипотезы равновероятной встречаемости правильных ответов и ошибок) осуществляется перевод тестируемого на более высокий уровень трудности. Если задания данного уровня исчерпались, а тестируемый не перешел на следующий уровень трудности, то процесс тестирования завершается и осуществляется определение уровня знаний тестируемого.

Система реализована в виде трех независимых модулей:

модуля тестирования (предназначенного для тестируемых);

модуля создания и редактирования тестов (предназначенного для преподавателя);

модуля статистики и анализа результатов (предназначенного для преподавателя), которые могут устанавливаться независимо друг от друга на различные клиентские машины;

для сохранения исходных данных и результатов проводимых тестов используется база данных, которая хранит банк тестовых заданий, параметры настройки теста и процесса тестирования, информацию для аутентификации пользователей, результаты тестирования и другую информацию по обработке данных.

Модуль создания и редактирования тестов осуществляет идентификацию зарегистрированных или регистрацию новых преподавателей, обращается к базе данных, в которой хранятся тестовые задания и ответы к каждому тесту, а также его параметры, и позволяет преподавателю создать новый тест, изменить настройки имеющегося теста, редактировать вопросы и ответы.

Следует заметить, что преподаватель, зайдя в систему под своим регистрационным именем и паролем, получает доступ только к своей совокупности тестов, не имея возможности просмотреть или изменить тесты другого преподавателя.

Используя базу данных, модуль тестирования проводит идентификацию зарегистрированных или регистрацию новых пользователей, выбор теста, осуществляет тестирование испытуемого посредством вывода на экран вопроса и последующего получения ответа, обрабатывает поступившие данные и записывает полученные результаты тестирования в базу данных для возможности дальнейшего анализа и использования преподавателем.

Тестируемые могут получить доступ только к определенным тестам, заранее назначенным преподавателем. При этом используется адаптивный алгоритм контроля знаний, обуславливающий выбор очередного задания в зависимости от ответов тестируемого на предыдущие вопросы. В данной системе отсутствует возможность пропустить вопрос и вернуться к нему в конце тестирования, это связано с тем, что в зависимости от того, как тестируемый ответит на текущий вопрос, обуславливается выбор очередного задаваемого вопроса. По окончании выполнения теста для тестируемого выводится результат тестирования и краткий комментарий. Результатом тестирования является оценка, которую пользователь получает исходя из критериев, заданных преподавателем для данного теста.

Модуль статистики и анализа результатов тестирования предоставляет преподавателю возможность просмотреть результаты тестирования отдельного студента или целой группы, по одному или нескольким тестам с различной степенью детализации. При этом в отчете отображаются результаты всех студентов по всем пройденным ими тестам, относящимся к выбранному предмету определенного преподавателя.

Так как тестирование основывается на принципе адаптивности, то вопросы, а также их количество в пределах одного теста для каждого пользователя будет неодинаковым. Поэтому в данном модуле предусматривается возможность вывода не только общей информации, но и более детального отчета о прохождении теста, который содержит информацию о том, какие пользователь получал вопросы и как он на них отвечал.

Созданная система соответствует современным требованиям, предъявляемым к классу подобного типа систем, как в области педагогического тестирования, так и в области информационных технологий.

Библиографическая ссылка

Бушмелева К.И. АВТОМАТИЗИРОВАННАЯ СИСТЕМА АДАПТИВНОГО ТЕСТИРОВАНИЯ // Фундаментальные исследования. – 2007. – № 2. – С. 48-50;
URL: http://fundamental-research.ru/ru/article/view?id=2517 (дата обращения: 18.09.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Под адаптивным тестовым контролем понимают компьютеризованную систему научно обоснованной проверки и оценки результатов обучения, обладающую высокой эффективностью за счет оптимизации процедур генерации, предъявления и оценки результатов выполнения адаптивных тестов. Эффективность контрольно-оценочных процедур повышается при использовании многошаговой стратегии отбора и предъявления заданий, основанной на алгоритмах с полной контекстной зависимостью, в которых очередной шаг совершается только после оценки результатов выполнения предыдущего шага. После выполнения испытуемым очередного задания каждый раз возникает потребность в принятии решения о подборе трудности следующего задания в зависимости от того, верным или неверным был предыдущий ответ. Алгоритм отбора и предъявления заданий строится по принципу обратной связи, когда при правильном ответе испытуемого очередное задание выбирается более трудным, а неверный ответ влечет за собой предъявление последующего более легкого задания, чем то, на которое испытуемым был дан неверный ответ. Также есть возможность задания дополнительных вопросов по темам, которые обучаемый знает не очень хорошо для более тонкого выяснения уровня знаний в данных областях. Таким образом, можно сказать, что адаптивная модель напоминает преподавателя на экзамене – если обучаемый отвечает на задаваемые вопросы уверенно и правильно, преподаватель достаточно быстро ставит ему положительную оценку. Если обучаемый начинает «плавать», то преподаватель задает ему дополнительные или наводящие вопросы того же уровня сложности или по той же теме. И, наконец, если обучаемый с самого начала отвечает плохо, оценку преподаватель тоже ставит достаточно быстро, но отрицательную.

Достоинства:

Позволяет более гибко и точно измерять знания обучаемых;

Позволяет измерять знания меньшим количеством заданий, чем в классической модели;

Выявляет темы, которые обучаемый знает плохо и позволяет задать по ним ряд дополнительных вопросов.

Недостатки:

Заранее неизвестно, сколько вопросов необходимо задать обучаемому, чтобы определить его уровень знаний. Если вопросов, заложенных в систему тестирования, оказывается недостаточно, можно прервать тестирование и оценивать результат по тому количеству вопросов, на которое ответил обучаемый;

Возможно применение только на ЭВМ.

Классические шкалы оценки знаний и Item Response Theory.

Классическая теория тестирования ( Clasical Test Theory - CTT ) изначально создана для интерпретации диагностических процедур. Эта теория создавалась под чисто прикладные задачи, поэтому некоторые предположения, используемые в основаниях этой теории, необходимо прояснить, тем более что в литературе эти основания почти не обсуждаются.

В классической теории тестирования предполагается явно:

1. Одномерность, т.е. процедура тест измеряет только одно качество, готовность или способность.

2. Репрезентативность, в рамках CTT понимаемая как независимость вероятности той или иной оценки от того, какая подгруппа из общей популяции будет выполнять тест.

3. Независимость заданий, т.е. задания не зависят друг от друга.

4. Независимость ответов испытуемых.

Обе упомянутых независимости понимаются как минимум в статистическом смысле.

Поскольку диагностические процедуры в большинстве случаев проводились в виде тестов, причём в большинстве тестов в форме закрытых или, реже, открытых вопросов, то результат каждого ответа предполагался измеримым в баллах по некоторой шкале.

Кроме явных предположений, в этой теории заложены некоторые неявные предположения. В частности, неявно предполагается:

- измеримость всех возможных ответов, т.е. существование эффективной процедуры получения ответа на любой поставленный вопрос,

- полнота ответов, т.е. получение ответов на все поставленные вопросы, из чего следует, что отказы от ответов во внимание не принимаются,

- равнозначимость всех вопросов и, следовательно, равные веса всех поступивших ответов,

- равенство дисперсий при использовании параллельных форм ответов,

- нормальное распределение ответов.

Как и в случае технических измерений, неявно предполагается, что любой результат измерений складывается из истинного значения и ошибки измерения, и ошибки измерения предполагаются аддитивными, что нужно для корректности перехода от сумм ошибок к одной интегральной ошибке, причём интегральная ошибка тоже предполагается нормально распределённой.

Насколько корректны эти допущения, обычно не обсуждается. Во всяком случае, самые серьёзные вопросы по поводу CTT связаны с обеспечением реальной независимости заданий. Не обсуждается также и вопрос о выборе оценочных шкал, в качестве исходного допущения предполагается, что «сырые баллы» уже получены.

Более тонкий вопрос связан с метрологическим смыслом категории «ошибка». В технических измерениях неявно предполагается, что ошибка и порождённая ею погрешность - свойство измерительной процедуры, и, следовательно, погрешность в принципе можно оценить и учесть по результатам поверки и калибровки. При измерениях эргатических элементов появляется ещё один источник ошибок - нестабильность самого измеряемого, возникающая вследствие действия различных факторов, к самым важным из которых можно отнести обучение, забывание, утомление и динамику функционального состояния. Поправки на эти факторы в метрологии не обсуждаются.

Для получения итоговой оценки используются различные вычислительные процедуры. Чаще всего вычисляется средний балл по обычной формуле среднего арифметического , где- итоговый баллi -го испытуемого, и квадрат отклонения от среднего или варианты этого показателя - среднеквадратическое отклонение или дисперсия. Для сравнения результатов используется коэффициент корреляции между заданиями и между испытуемыми.

Как вариант, иногда используется взвешенный средний балл вида , где- соответствующие весовые коэффициенты.

Из всех перечисленных выше предположений труднее всего доказывать равнозначимость ответов, поскольку это требует доказательств субъективного равенства всех трудностей соответствующих ответов и одновременно доказательств одинаковой важности всех поставленных вопросов. Предположение о вычислимости упомянутых статистических показателей требует содержательных доказательств корректности гомеоморфного вложения шкалы баллов в шкалу действительных чисел, в которой на самом деле выполняются подобные вычисления. Другими словами, вопросы как по критериальной, так и по конструктной валидности обычно остаются открытыми.

Кроме упомянутых стандартных статистических показателей (вопрос о математической корректности которых обычно не обсуждается) для испытуемых, оцениваются некоторые психометрические характеристики измерительных процедур с ясным прагматическим, но сомнительным математическим смыслом, например,

Коэффициент лёгкости задания (или аналогичный коэффициент трудности), где- средняя оценка, полученная за задание,- максимально возможная оценка за это же задание, при том, что минимальная возможная оценка за любое задание по умолчанию предполагается нулевой,

Коэффициент дискриминации задания, т. е. коэффициент корреляции между результатом задания и итоговым результатом, или считающийся более информативным вариант - коэффициент корреляции между результатом задания и итоговым результатом без учёта этого задания,

и некоторые другие коэффициенты, толкование которых в этой науке отличается от общепринятого.

В частности, надёжность здесь, в отличие от стандартного понимания, считается качеством не системы или объекта, а измерения, и оценивается не через время исправной работы или какие-либо варианты этого времени, например, в терминах наработки на отказ, а как возможность получения сопоставимых показателей, оцениваемых через коэффициент корреляции. Из такого толкования получаются последовательная надёжность , т. е. коэффициент корреляции между результатами выполнения двух заданий, расстояние по времени между которыми достаточно для того, чтобы эти задания можно было бы считать субъективно независимыми, параллельная надёжность, т.е. коэффициент корреляции между результатами вариантов заданий, надёжность частей, т.е. коэффициент корреляции между результатами всей процедуры измерений и какой-либо его части, и другие показатели. Другими словами, последовательной надёжностью в этой науке называют то, что в профессиональной теории измерений считают количественной мерой test-retest-валидности, параллельной надёжностью и надёжностью форм - мерой test-subtest-валидности, и в целом наблюдается путаница в терминологии, что приводит к смешиванию валидности и надёжности.

По другой версии, коэффициент надёжности определяется как , где- дисперсия ошибок измерения,- дисперсия набранных баллов, т. е. время в таком определении коэффициента надёжности вообще не упоминается.

Сомнительность подобных вычислений с математической точки зрения связана с тем, что исходные данные изначально получены по шкале баллов, на которой бывает задано отношение порядка, и даже линейного порядка, но не определены арифметические операции. Следовательно, сложение и вслед за ним вычисление средних, взвешенных средних, дисперсий и корреляций на шкале баллов не определено. Ещё одно предположение, понятное с прагматической точки зрения, но с явно неадекватным теоретическим обоснованием, сводится к утверждениям о нормальном распределении ответов и, следовательно, с распределением «сырых баллов» на шкале действительных чисел. Предположение о логнормальном распределении тех же баллов часто кажется более правдоподобным, но содержательно обычно тоже не обосновывается. Эти предположения позволяют использовать при статистической обработке результатов хорошо известные методы, но математическая корректность всех последующих вычислений после этого предположения не обсуждается.

В литературе широко обсуждаются многие проблемы традиционного подхода к построению шкал (метрик) знаний как баллов за выполнение некоторых специально подобранных наборов заданий.

Прежде всего, практически невозможно доказать test-to-test- и intertest-валидность, следовательно, вопрос о сравнении и тем более об общем учёте результатов измерений, выполненных по разным методам, остаётся открытым.

Многократно отмечены «эффекты края», т. е. относительная устойчивость результатов ближе к медиане распределения ответов и неустойчивые результаты по краям этого распределения, что обычно объясняется возрастанием роли инородных факторов как в «нижней», так и в «верхней» части распределения. В качестве борьбы с этими эффектами обычно предлагается эмпирически обоснованная рекомендация задать некоторый «доверительный квантиль» распределения , обычно предлагается принять,или, и при попадании ответа нижеили вышевносить поправки на нестабильность, главным образом, завышать полученные оценки по эмпирически подобранным поправочным формулам.

В случае закрытых вопросов возможны ситуации случайного угадывания, для коррекции данных в этом случае предлагается вносить поправки вида , где- результат после коррекции,- результат (в баллах или другим шкалам) ответа на-й вопрос до коррекции,- количество возможных ответов на-й вопрос,w - количество невыполненных заданий в серии измерений. Эта формула обосновывается эмпирически, в частности, обсуждается вопрос о целесообразности учёта в этой формуле невыполненных заданий, для которых соответствующее значение , что уменьшает значение, и идут дискуссии о содержательном смысле подобных поправок.

В целом, метрики качества знаний при классическом подходе обоснованы статистической калибровкой методов по соответствующей популяции. Со времён создания IQ метрологическое обоснование измерений знаний проводится по распределениям баллов, вычисленных по соответствующему контингенту респондентов. Например, указываются средние значения IQ по возрастным, социальным или профессиональным группам. Однако из разницы IQ непонятно, какие принципиальные отличия в структуре знаний различают эти группы.

Источник:
  • http://cblis.utc.sk/cblis-cd-old/2003/3.PartB/Papers/Science_Ed/Testing-Assessment/Papanastasiou.pdf
  • Аннотация

    Компьютерное обучение (КО) может иметь большой потенциал, при надлежащем использовании в целях повышения качества обучения. Однако это качество может повышаться путём использованием компьютерного тестирования (КТ) и, более конкретно, с использованием компьютерного адаптивного тестирования (КAT). В целях данной работы автор описывает механизм и преимущества компьютерного адаптивного тестирования, а также каким образом оно может улучшить процесс обучения в предметной области науки. Педагогу предлагается принять к рассмотрению некоторые ограничения и проблемы в реализации, также будет обсуждаться естественнонаучное образование. КЛЮЧЕВЫЕ СЛОВА Компьютерное адаптивное тестирование, КАТ, компьютерное тестирование, компьютерное обучение, естественнонаучное образование, оценивание, формирование обратной связи.

    ВВЕДЕНИЕ

    Компьютерное обучение имеет крайне большой потенциал для улучшения обучения во многих областях и дисциплинах, в том числе и в предметной области науки. Однако, компьютерное обучение должно тесно и постоянно контролироваться, для обеспечения его эффективности. Это особенно верно, так как некоторые предварительные исследования показали, что использование компьютера отрицательно коррелирует с достижениями в области математики и науки (Papanastasiou и Фердиг, 2003). Хотя не ясно, при каких обстоятельствах эти негативные последствия развиваются, и если есть причинно-следственная связь между этими переменными, почему она все еще существует. Следовательно, эти отношения должны напомнить педагогу, что использование компьютера - не обязательно "панацея", и что он не должен использоваться безответственно и занимать внимание студентов, которым трудно иметь дело с ним. Также эта отрицательная связь между использованием компьютера и достижением результатов должна напомнить педагогам о существовании значительной потребности в непрерывной созидательной и итоговой оценки в науке. С помощью правильного оценивания, проблемы, которые возникают во время обучения, могут быть определены и, возможно, исправлены, если их обнаружили достаточно рано. Однако, оценка также должна использоваться с умом таким образом, чтобы она могла дополнять процесс обучения. Так как компьютерное обучение является целью этой конференции, эта статья будет связана с компьютерным оцениванием. Цель данной работы - выйти за рамки простого компьютерного обучения для описания компьютерного адаптивного тестирования, и обсудить его последствия, преимущества, и как оно может эффективно дополнять компьютерное обучение в данной области науки.

    Описание

    Компьютерное тестирование (КT) может быть определено как любой вид оценивания, который осуществляется посредством компьютера. Однако компьютерное тестирование может принимать различные формы, в зависимости от того, насколько адаптирован тест (College Board, 2000). Например, некоторые компьютерные тесты, которые также называются фиксированные компьютеризированные испытания, являются чисто линейными (Парсхолл, брызг, Kalohn и Дэви, 2002). Это тесты, которые наиболее близко напоминают бумагу и карандаш для тестирования, поскольку они фиксированной формы, фиксированной длины, и тестовые задания заранее поставлены в определенном порядке. В отличие от фиксированных компьютеризированных испытаний, компьютерные адаптивные тесты (КАТ) представляют собой компьютерные тесты, которые имеют максимальную степень адаптивности, так как они могут быть адаптированы для каждого студента, исходя из суммарной сложности и порядка, в котором вопросы предоставляются испытуемому. Так что компьютерные адаптивные тесты (КAT) это компьютерны е тесты, которые созданы и адаптированы специально для каждого испытуемого на основе оценивания способностей тестируемого, и исх одя из ответов на предыдущих шагах.

    Преимущества компьютерных адаптивных тестов

    Основными преимуществами компьютерного адаптивного тестирования связаны с тем, что они являются эффективными с точки зрения времени, а также используемых ресурсов. Эти преимущества будут обсуждены в следующем разделе с точки зрения испытуемых, с точки зрения педагога, который хочет определить уровень знаний студента, а также с точки зрения разработчика теста.

    Эффективность

    Адаптивные тесты дают возможность оценить способности испытуемого более точно и с меньшими затратами, чем с помощью бумажных тестов. Типичные бумажные тесты создаются для массового тестирования, так чтобы тест использовался для большой группы студентов, различных по способностям. Для того чтобы сделать это большинство вопросов этого теста среднего уровня сложности (так как большинство студентов имеют среднюю успеваемость) В результате, тест такого содержания создает проблемы для студентов с высокой и низкой успеваемостью. Испытуемый с низким уровнем знаний в состоянии ответить на первые несколько относительно лёгких вопросов. А на вопросы среднего и высокого уровня сложности студенту будет нелегко ответить. Следовательно, испытуемый может в конечном итоге угадать ответы на эти вопросы, или может просто оставить их пустыми. В таком случае тяжело реально оценить его знания и возможности, так как какие-либо выводы должны основываться только на ответах на первые несколько вопросов, которые студент смог разобрать. Другой, более конкретный пример такой ситуации приводится ниже. Преподаватель хочет провести тестирование по биологии на тему «печень» Вопрос низкого уровня требует установить место положения печени на картинках человека, а вопросы высокого уровня предполагают способность студента диагностировать болезнь печени по картинкам. В этом случае, если студент не может даже определить местонахождение печени на картине человеческого тела, нет причин задавать ему более сложный вопрос. При рассмотрении таких испытаний с точки зрения студента с глубокими знаниями биологии, ситуация несколько лучше, хотя она по-прежнему не совершенна. Большинство вопросов для него будет слишком легким для этого человека. Адаптивные тесты позволяют эффективно подбирать вопросы, которые специально предназначены для определённого уровня знаний каждого испытуемого. Когда все вопросы чётко направлены на способности каждого студента, педагог может достичь более надежных и достоверных выводов о фактических знаниях студента.

    Обратная связь

    Еще один из преимуществ компьютерного испытания в целом, а также компьютерных адаптивных тестов, является то, что они могут управлять прямой и непосредственной обратной связью студента и преподавателя (Wise & Plake, 1990). С типичным бумажным тестом, всегда возникает задержка по времени между преподавателем и тестируемым. Без формирования оценки, преподаватели не смогут определить призвано ли компьютерное обучение действительно помогать студенту в обучении или нет. Это особенно важно, потому что без надлежащего оценивания, некоторые студенты могут оказаться в невыгодном положении из компьютерного обучения. В дополнение к суммарной оценке, такой вид оценивания показывает, как каждый студент усвоил материал в целом, также возможно предоставление списка областей и предметов, вопросы по которым встречались у каждого студента, на основе его показателей в адаптивном тестировании. Однако у преподавателя может возникнуть такой вопрос, при непрерывном тестировании, возможно, что некоторые студенты запомнят тестовые вопросы и проинформируют других студентов о них. Однако, если адаптивный тест содержит относительно большую базу вопросов, такой проблемы не возникнет, особенно в свете того, что разные студенты должны получить разные задания, основанные на уровне их индивидуальных способностей.

    Время

    С точки зрения разработчика тестов, создание адаптивного теста отнимает много времени, но является более эффективным с точки зрения педагога. В частности, студенты при адаптивном тестировании должны ответить на меньшее количество вопросов, чем во время обыкновенного тестирования. Кроме того, обычное тестирование, как правило, проводится всей группой, определённое количество времени, которое может не устраивать некоторых студентов. Преподаватель и вся группа должна ждать, пока все студенты завершат тестирование, прежде чем они смогут перейти к другому виду деятельности. С компьютерным адаптивным тестированием, студенты могут сдавать экзамен, когда будут готовы, единственным условием является доступность компьютера, и они не должны ждать, пока вся группа будет готова приступать к тестированию, или пока вся группа закончит его. С точки зрения преподавателя, адаптивное тестирование является экономным по времени, а также ему больше не придется беспокоиться о создании тестов для группы до тех пор, пока КАТ в состоянии охватить изученный материал. Кроме того, преподаватель экономит время на проверке работ, так как тест оценивается компьютером.

    Другие преимущества

    Компьютерное адаптивное тестирование также имеет некоторые дополнительные преимущества. В компьютерном адаптивном тестировании высокий уровень безопасности, так как список вопросов больше не может быть украден, и списывание у соседей не выгодно, так как большинство вопросов теста для каждого индивидуально. Кроме того, при помощи КАТ могут быть собраны другие типы данных, такие как количество времени, затраченное для ответа на каждый вопрос или количество изменений, которые сделаны для студентов во время прохождения теста.

    ЗАКЛЮЧЕНИЕ

    Современные исследования в области тестирования и оценивания показали, что потенциал компьютер адаптивных тестов увеличился. Преимущества и возможности компьютерного адаптивного тестирования дают возможность шагнуть ещё дальше. Это заметно по количеству крупномасштабных тестирований (например, GRE, TOEFL, ASVAB), которые стали или становятся адаптивными (Papanastasiou, 2001). Тем не менее, на такой шаг всегда нужно идти с умом, чтобы такая процедура оценивания хорошо интегрировалась в процесс обучения для обеспечения его максимальной эффективности.

    Ссылки

    1.Bennett, R. E. (1999). Using new technology to improve assessment. RR99-6. Princeton, NJ: Educational Testing Service. 2. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum associates. 3. Meijer, R. R. & Nerling, M. L. (1999). Computerized adaptive testing: Overview and introduction. Applied psychological measurement, 23(3), 187-194. 4. O’Neill, K. (1995). Performance of examinees with disabilities on computer-based academic skills tests. Paper presented at the American educational research association, San Francisco, April, 1995. 5. Papanastasiou, E. C. (2001). A ‘Rearrangement Procedure’ for administering adaptive tests when review options are permitted. (Doctoral dissertation, Michigan State University, 2001). 6. Papanastasiou, E. (2002a). A ‘rearrangement procedure’ for scoring adaptive tests with review options. Paper presented at the National Council of Measurement in Education, New Orleans, LA. 7. Papanastasiou, E. (2002b). Factors that differentiate mathematics students in Cyprus, Hong Kong, and the USA. Educational Research and Evaluation, 8 (1), 129-146. 8. Papanastasiou, E. C. & Ferdig, R. E. (2003, January). Computer use and mathematical literacy. An analysis of existing and potential relationships. Paper presented at the third Mediterranean conference on mathematics education, Athens, Greece, January 3-5, 2003. 9. Parshall, C. G., Spray, J. A., Kalohn, J. C. & Davey, T. (2002). Practical considerations in computer- based testing. NY: Springer. 10. Parshall, C. G., Stewart, R. & Ritter, J. (1996). Innovations: Graphics, sound and alternative response modes. Paper presented at the National Council of Measurement in Education, April 9-11, 1996, New York. 11. The College Board. (2000, April). An overview of computer-based testing. RN-09. 12. Wainer, H. (2000). CATs: Whither and whence. Psicologica, 21(1-2), 121-133. 13. Wise, S. L. & Plake, B. S. (1990). Computer-based testing in higher education. Measurement and evaluation in counseling and development, 23, 3-10.

    Elena C. Papanastasiou, Ph.D. University of Kansas and University of Cyprus Department of Education P.O. Box 20537 1678 Nicosia Cyprus

    Одним из активно развивающихся и перспективных направлений в современной методике обучения иностранным языкам является использование компьютерных технологий для контроля уровня сформированности речевых навыков и умений.

    Компьютерное тестирование дает возможность интегрировать в тестовых заданиях текстовую, графическую, звуковую и видеоинформацию, а также полностью автоматизировать процесс проведения контрольного измерения.

    Компьютерное тестирование позволяет:

    быстро обрабатывать вводимую информацию;

    обеспечивать оперативную обратную связь, которая дает возможность испытуемому постоянно и незамедлительно получать подкрепление правильности ответа, а преподавателю - осуществлять поэтапный или пооперационный контроль действий тестируемого;

    повышать мотивацию тестируемого, поскольку при работе с компьютерной программой присутствует элемент необычности, схожий с игровой ситуацией, появляется дух состязательности с компьютером;

    значительно экономить время и затраты на организацию и проведение тестирования.

    Итак, первая задача, которую позволяет эффективно решить компьютер, - хранить тестовые задания и создавать из них тесты, а именно обрабатывать первичный, исходный авторский материал, вносить в него необходимые уточнения, исправления, дополнения; хранить информацию, отбирать задания из электронного банка данных по заданным критериям и производить нужную компоновку тестов.

    Вторая задача, которую реализует компьютер, - регистрация тестируемых и подготовка последних к выполнению заданий. Например, регистрация, которая может быть как предварительной, так и непосредственно перед тестированием, включает заполнение на экране компьютера регистрационной карты. Получив необходимые сведения, система выдает тестируемому идентификационный номер.

    Компьютер может подготовить испытуемого к сдаче теста - провести инструктаж. В компьютерную программу включается информация о методике работы с тестом: рекомендации по технологии выполнения теста, данные о времени тестирования, процедуре оценивания и т. д. Подготовка к выполнению теста может включать и тренировку, поясняющую, как реагировать на те или иные задания, не допускать случайных (не имеющих отношения к языковой и речевой компетенции тестируемого) ошибок, выработать необходимые временные стереотипы.

    Следующий этап - проведение сеанса тестирования с помощью компьютера. Ключевой проблемой этого этапа является длительность работы. Поэтому важно в компьютерную программу для тестирования заложить показ, учет и контроль отведенного, потраченного и оставшегося у испытуемого времени.

    Чтобы начать работу, тестируемый обязан указать свой идентификационный номер, т. е. номер, полученный при регистрации. После этого ему предъявляется тест с заданиями и инструкциями по их выполнению.

    Завершение сеанса тестирования может быть как добровольным (по желанию тестируемого и с разрешения инструктора, по мере выполнения заданий), так и принудительным (при окончании лимита времени).

    Если авторы-составители теста специально не упорядочили тестовые задания по степени трудности, не разделили тест на автономные по целям выполнения и видам речевой деятельности разделы-субтесты, то допустимо выполнение теста в произвольном порядке. В противном случае пропуск отдельных, например показавшихся трудными, заданий и возврат к ним запрещаются компьютерной программой.

    После выполнения заданий теста наступает этап обработки ответов и подсчета баллов. Согласно классификации В. И. Нардюжева, И. В. Нардюжева обработка может быть:

    локальной, выполняемой на месте проведения тестирования;

    удаленной, осуществляемой за пределами места проведения сеансов тестирования;

    формальной, если возможно простое сравнение с ключами;

    экспертной, если подобное сравнение невозможно и требуется привлечение экспертов, специалистов (например, для оценки развернутого устного или письменного ответа);

    оперативной, позволяющей продемонстрировать результаты сразу же после тестирования;

    отложенной по причине сложного алгоритма расчетов баллов или необходимости получения заключения рейтера, эксперта.

    Использование компьютера позволяет осуществлять статистический анализ информации, т. е., с одной стороны, дать информацию об участниках тестирования, с другой - что наиболее важно на современном этапе развития лингводидактического тестирования - собрать данные о качестве тестовых материалов.

    В первом случае алгоритм анализа предполагает:

    )выбор объекта статистического анализа (субтеста);

    )определение количества участников тестирования данного уровня;

    )ранжирование тестируемых по числу набранных баллов;

    )определение процента правильных ответов на каждое задание теста;

    )построение по цифровым данным графиков;

    )при необходимости сравнение результатов тестирования по различным объектам.

    Во втором случае статистический анализ осуществляется через:

    )определение минимального, среднего, максимального значения тестовых результатов;

    )установление статистических параметров задания: уровня трудности, дифференцирующей способности (способности задания отличать сильных учащихся от слабых);

    )анализ работы дистракторов, включающий определение частоты выбора ответов всеми, а также слабыми и сильными;

    )определение независимости заданий в тесте .

    Компьютерное тестирование возможно при наличии специально разработанного программного обеспечения, которое реализует предлагаемую авторами информационно-педагогическую модель тестирования.

    Компьютерное обеспечение существенно влияет как на содержание тестовых заданий (например, использование звукового сопровождения предполагает оборудование компьютера звуковой картой), так и на способ реализации информационно-педагогической модели (например, подключение компьютеров к Интернету позволяет организовывать и проводить тестирование в режиме реального времени).

    Компьютерные программы для проведения тестирования по иностранному языку можно классифицировать в зависимости от способа программирования. Программа может быть линейной: в этом случае предусматривается единственно возможное направление работы с тестом независимо от качества ответа учащихся на конкретный вопрос или задание. Например, тестируемый должен выбрать один из вариантов ответа, выполняя задания на проверку понимания прочитанного текста:

    Линейная программа может быть осложнена этапом корректировки (например, при выполнении заданий на проверку грамматических навыков). В таком случае при неправильном ответе компьютер возвращает тестируемого к исходному заданию, инструкции или правилу.

    В разветвленной программе предусмотрены разъяснение, дополнительные, наводящие вопросы, указания, помогающие выполнить исходные задания и получить разрешение на последовательное движение или движение через кадр.

    Программы, сочетающие в себе линейные и разветвленные участки, относят к группе смешанных или комбинированных. Они обеспечивают и большую гибкость контроля, и приспосабливают работу к индивидуальным возможностям обучающихся. Вместе с тем компьютерное тестирование по иностранному языку имеет свою специфику и свои требования к презентации контролируемого материала и к выполнению заданий. Одной из основных задач является максимальное использование всех каналов подачи информации, привлечение для этого мультимедиатехнологий (графиков, анимационных клипов, видеоизображения), а также различных ссылок на документы и ресурсы (справочники, лексические минимумы, интонационные контуры и т. д.). В свою очередь, использование компьютерной дидактической наглядности, моделирующей ситуации общения и организующей выполнение заданий и корректировку ответа, повышает продуктивность контролирующих компьютерных программ и мотивацию тестируемых к овладению иностранным языком.

    Возможности компьютерного тестирования

    Сегодня в мире существуют различные организации, занимающиеся не только разработкой проблем, но и систем компьютерного тестирования. В их ряду Educational Testing Service (ETS) - Служба тестирования в образовании (#"justify">), которая с 1970 г. занимается вопросами компьютерного тестирования и предлагает на данный момент компьютерные варианты TOEFL (#"justify">) - Test of English as a Foreign Language. Этот тест по английскому языку как иностранному используется при поступлении в колледжи США и Канады.

    Во Франции Национальный центр дистанционного обучения (Centre national denseignement à distance) предлагает компьютерный вариант теста по английскому языку как иностранному: Test FLE - Test de Français langue étrangère et seconde - niveau général (élémentaire, intermédiaire, avancé): compréhension écrite, grammaire, vocabulaire, compréhension orale (#"justify">). Тест позволяет определить уровень владения английским языком как иностранным. Английская языковая школа "LEcole des Trois Ponts" также предлагает выполнить в интерактивном режиме тесты на общее владение английским языком (#"justify">).

    В России компьютерным тестированием одними из первых начали заниматься сотрудники кафедры гуманитарных технологий МГУ. Были разработаны технологии компьютерного дистанционного тестирования, в которых функции образовательного или психологического тестирования распределены между локальным компьютером пользователя ("клиентом") и центральным компьютером разработчика ("сервером"). Эта новая информационная технология обеспечивает быстрое и широкое распространение тестов, отвечающих международным научным стандартам. Ежегодно во время весенних каникул проводится телекоммуникационная олимпиада "Телетестинг" для выпускников (#"justify">). На указанном выше сайте можно в интерактивном режиме потренироваться в выполнении некоторых заданий (с выбором ответа) демонстрационных вариантов тестов разных лет, в том числе и по английскому языку.

    Компьютерное тестирование по английскому языку проводят также различные языковые школы в России. Например, языковые школы BKC-International House (#"justify">), Transparent Language (#"justify">) предлагают тесты на определение уровня владения английским языком.

    Компьютеризированная система контроля открывает широкие возможности для индивидуализации процесса усвоения знаний обучаемыми. Принцип индивидуализации обучения лежит в основе адаптивного тестирования. Адаптивное тестирование - это контроль, который позволяет регулировать трудность и число предъявляемых заданий каждому учащемуся в зависимости от его ответа на предыдущее задание: в случае правильного ответа учащийся получит более трудное следующее задание, в случае неправильного ответа - задание легче предыдущего . Режим адаптивного тестирования (и не только тестирования, но и обучения) предполагает набор заданий в тестовой форме, требующих от учащегося работы на пределе своих возможностей и обеспечивающих тем самым максимальный эффект. Использование заданий, соответствующих уровню подготовки ученика в адаптивном тестировании, повышает точность измерений, сокращает время индивидуального тестирования.

    На основе анализа результатов адаптивного тестирования можно строить процесс обучения с позиций личностно ориентированного подхода, т. е. отбирать учебные задания на оптимальном уровне трудности для каждого ученика. Известно, что легкие задания не способствуют развитию, а трудные - снижают мотивацию обучения. Поэтому оптимальным уровнем трудности4 заданий в тестологии считается 50%.

    Компьютеризация образования, развитие теории педагогических измерений позволяют создать рейтинговую систему контроля для более объективной и точной оценки знаний, навыков и умений учащихся. Рейтинговая оценка обученности дает возможность с большой степенью достоверности охарактеризовать качество подготовки учащегося по данному учебному предмету. "Рейтинг" в переводе с английского - это оценка, некоторая численная характеристика какого-либо качественного понятия. Обычно под рейтингом понимается "накопленная оценка" или оценка, учитывающая "предысторию".

    Модульное обучение предполагает жесткое структурирование учебной информации, содержания обучения и организацию работы учащихся с полными, логически завершенными учебными блоками (модулями). Модуль по своему содержанию совпадает с темой изучения учебного предмета. Например, модуль изучения темы "География Англии и Америки". Однако в отличие от темы в модуле все измеряется, все оценивается: выполнение каждого задания, работа на занятии, посещение занятий, стартовый, промежуточный и итоговый уровни подготовки учащихся. В модуле четко определены цели обучения, задачи и уровни изучения данного модуля, названы навыки и умения.

    Учащиеся при модульном обучении всегда должны знать перечень основных понятий, навыков и умений по каждому конкретному модулю, включая количественную меру оценки качества усвоения учебного материала. На основе этого перечня составляются вопросы и учебные задания, охватывающие все виды работ по модулю, и выносятся на контроль после изучения модуля. Как правило, в модульной технологии обучения используется тестовая форма контроля.

    Учебные модули и тесты могут быть легко перенесены в компьютерную среду обучения. Многие российские институты дистанционного образования строят свои учебные программы именно на основе модулей.

    В модульном обучении оценивается в баллах каждое задание, устанавливаются его рейтинг и сроки выполнения (своевременное выполнение задания тоже оценивается соответствующим количеством баллов), т. е. основной принцип рейтингового контроля - это контроль и оценка качества знаний, навыков и умений с учетом систематичности работы учащихся.

    После окончания обучения на основе модульных оценок определяется общая оценка, которая учитывается при определении результатов итогового контроля по предмету.

    Итак, компьютерное тестирование наряду с обучением является сегодня одним из основных методов новой информационной технологии оценки уровня владения иностранным языком.

    Loading...Loading...