La difficulté croissante des tâches dans cette technique est déterminée. Tests de technologie d'enseignement en bloc des mathématiques aux lycéens. Caractère discriminatoire de la tâche de test

L'article précédent traitait de neuf principes pour l'élaboration du contenu des tests pédagogiques. Cet article se concentre sur le dixième principe : augmenter la difficulté des éléments de test.

Si un test pédagogique est brièvement défini comme un système de tâches de difficulté uniformément croissante, il deviendra alors clair que la difficulté des tâches est l'indicateur formatif le plus important, disons, du test. De nombreux chefs d’établissement estiment que leurs enseignants sont capables de « proposer » un bref délais Ils peuvent faire autant de « tests » qu’ils le souhaitent. En fait, vous pouvez proposer de nombreuses tâches sous forme de test. Et pas du tout des tests, mais seulement des devoirs. Ils ne doivent pas être inclus dans le présent test tant que leur degré de difficulté et d’autres caractéristiques ne sont pas connus. La mesure de la difficulté est testée empiriquement. De cette exigence, il devient clair que des tests empiriques préliminaires de chaque tâche sont obligatoires avant le début des tests. Au cours du processus de vérification, de nombreuses tâches ne répondent pas à leurs exigences et ne sont donc pas incluses dans le test. Première exigence pour les tâches de test : dans le test, les tâches doivent varier en niveau de difficulté, ce qui découle de la définition précédemment donnée du test et du principe considéré.

Le lecteur attentif a probablement déjà perçu les différences de vocabulaire des trois concepts fondamentaux de la théorie des mesures pédagogiques introduits ici, comme « imperceptiblement » : la notion de test pédagogique, de tâche sous forme de test et de tâche de test. Les exigences du premier d'entre eux ont déjà été évoquées dans l'article « Définition d'un test pédagogique » (USh n° 30, août 1999).

Il est préférable d'introduire maintenant les exigences du deuxième concept, au moins en les énumérant brièvement, afin de ne pas se laisser distraire du sujet principal de l'article. Les exigences suivantes s'appliquent aux tâches du formulaire de test :

Brièveté;

Fabricabilité ;

Exactitude de la forme ;

Exactitude du contenu

Forme logique de l'énoncé ;

Mêmes règles pour évaluer les réponses ;

Avoir un endroit précis pour les réponses ;

Consignes identiques pour toutes les matières ;

Emplacement correct des éléments de tâche ;

Avanessov V.S. Fondements de la théorie pédagogique des mesures // Mesures pédagogiques, 1, 2004. P. 17.

Une interprétation détaillée de ces exigences suivra dans les articles suivants, mais je voudrais maintenant attirer l'attention du lecteur sur le fait qu'il n'y a aucune exigence relative à une difficulté connue de la tâche, alors qu'une telle exigence est imposée au test et au tâche de test. De la réflexion sur ce document et sur des documents déjà publiés, deux conclusions peuvent être tirées. La première est que le test ne laisse pas de place aux tâches dont le degré de difficulté est inconnu. Et la seconde est que toutes les tâches proposées sous forme de test ne peuvent pas devenir des tâches de test : ce sont des concepts différents. Dans le premier concept, les exigences les plus essentielles sont le contenu et la forme. Pour les tâches de test, il existe tout d'abord une exigence de difficulté connue, ce qui n'est clairement pas requis pour les tâches sous forme de test. On peut répéter que les tâches n'ont une chance de devenir des tests qu'après avoir testé empiriquement la mesure de leur difficulté sur des groupes typiques de sujets.

Indicateur de difficulté du test et tâches de test est à la fois significatif et formel. Significatif parce que Bon test la difficulté ne peut dépendre que de la difficulté du contenu des tâches et du niveau de préparation des sujets eux-mêmes. Alors que dans un mauvais test, les résultats commencent à être sensiblement influencés par la forme des tâches (surtout si elles ne sont pas adaptées au contenu), par une mauvaise organisation des tests, s'il existe des possibilités de tricherie et de fuite d'informations. À cet égard, la pratique néfaste de la préparation ciblée des étudiants à l'examen d'État unifié mérite une mention particulière. En 1907, le ministre russe de l'Éducation, I. Tolstoï, qualifiait les enseignants impliqués dans ce type de travail de « formateurs ». Mais les enseignants sont les moins responsables. La faute en est au système défaillant du « egg », qui encourage de telles pratiques erronées. Tout comme le contrôle, l’éducation aussi.

La composante formelle de l'indicateur de difficulté apparaît lorsque l'épreuve est considérée comme un processus de confrontation entre le sujet et la tâche qui lui est proposée. Il est utile de considérer le résultat final comme le résultat d’une telle confrontation. Dans une interprétation simplifiée de chaque cas de présentation d'une tâche, deux issues sont souvent, mais pas nécessairement, envisagées : la victoire du sujet à la bonne décision tâches, pour lesquelles il reçoit un point, ou échec, pour lequel il reçoit zéro point. L'évaluation du résultat de la confrontation dépend du rapport entre le niveau de connaissance du candidat et le niveau de difficulté de la tâche, de l'unité de mesure des connaissances choisie et de la règle (convention) pré-adoptée - quoi est considéré comme une « victoire » du candidat, et si un match nul est acceptable, si l'on parle dans le langage du sport.

Le principe de difficulté croissante est utilisé lors de la présentation du contenu de nombreux manuels et manuels, en particulier dans les disciplines académiques construites sur un principe cumulatif, ce qui signifie : la connaissance des éléments ultérieurs du cours dépend explicitement de la connaissance des éléments pédagogiques antérieurs. Cette structure est inhérente aux manuels de mathématiques, de logique, langues étrangères, statistiques, techniques et bien d’autres sciences. Dans ceux-ci, les concepts précédemment étudiés sont activement utilisés dans les sujets ultérieurs. Par conséquent, vous ne devez étudier ces disciplines que dès le début et sans interruption.

La plupart des auteurs, notamment étrangers, ne font pas de distinction entre les notions de « difficulté » et de « complexité ». De nombreux développeurs de tests sont pareils. Il existe cependant des ouvrages dans lesquels ces concepts sont définis différemment. Par exemple, A.N. Zakharov et A.M. Matyushkin notent que le degré de difficulté d'une tâche d'apprentissage ne coïncide pas avec sa complexité. Degré de difficulté Matériel pédagogique se caractérise par l'intensité réelle (objective) de la tâche éducative et la forme de sa présentation, et le degré de difficulté implique toujours une corrélation du matériel pédagogique à maîtriser avec le matériel pédagogique préalablement acquis et les capacités intellectuelles des étudiants (1) .

L.N. Landa a expliqué la difficulté tâche éducative car les étudiants ne connaissent souvent pas les opérations à effectuer pour trouver une solution. Si un système d'opérations pour résoudre une certaine classe de problèmes est appelé méthode de solution, alors, à son avis, la difficulté est associée à l'ignorance de la méthode, à l'ignorance de la façon de penser dans le processus de solution, comment et dans quel ordre il faut agir avec les conditions du problème (2). Les difficultés qui surviennent s'expliquent par le fait que l'enseignant essaie souvent de donner des connaissances sur le contenu de ce qui est étudié et se soucie beaucoup moins de la manière de penser et de raisonner (ibid.). Cette interprétation recoupe l’idée selon laquelle la complexité d’une tâche est liée au nombre d’opérations qui doivent être réalisées pour réussir. Ces définitions de la difficulté et de la complexité sont en grande partie psychologiques ; ils sont utiles pour analyse psychologique contenu des tâches de test.

La mesure traditionnelle de la difficulté de chaque tâche de longues annéesétait la proportion de réponses correctes dans le groupe de sujets, représentée par le symbole p j, où l'indice j indique le numéro de la tâche d'intérêt (1, 2, etc.). Par exemple, si les réponses correctes des sujets à la troisième tâche du test sont évaluées par un point et les réponses incorrectes par zéro, alors la valeur de l'indicateur p 3 peut être trouvée à partir de la relation élémentaire :

P 3 = R 3 /N,

où R 3 signifie le nombre de réponses correctes à une tâche donnée, et N est nombre total sujets dans le groupe. Formule générale calculer la proportion de réponses correctes à une tâche (j) a la forme

p j = R j / N

Indicateur p j . a longtemps été utilisé comme mesure de difficulté dans ce qu'on appelle théorie classique essais (3). Plus tard, on s'est rendu compte de l'inexactitude sémantique qu'il contenait : après tout, une augmentation de la valeur de p j n'indique pas une augmentation de la difficulté, mais, au contraire, une augmentation de la facilité, si un tel mot peut être utilisé. Donc dans dernières années les statistiques opposées ont commencé à être associées à l'indicateur de difficulté de la tâche - la proportion de réponses incorrectes (q j). Cette proportion est calculée à partir du rapport du nombre de réponses incorrectes (Wj- du mot anglais Wrong - incorrect) au nombre de sujets (N) :

q j = W j / N

On suppose naturellement que p j + q j = 1. Dans la théorie classique des tests, pendant de nombreuses années, seuls des indicateurs empiriques de difficulté ont été pris en compte. Dans les nouvelles versions des théories psychologiques et pédagogiques des tests, une plus grande attention a été accordée à la nature de l'activité mentale des étudiants en train d'effectuer des tâches de test. Formes variées (4).

Le contenu du test ne peut pas être seulement facile, moyen ou difficile. Ici, l'idée bien connue de la dépendance des résultats de la méthode utilisée se manifeste pleinement. Les éléments de test faciles ne donnent aux étudiants qu’une apparence de connaissances, car ils testent des connaissances minimales. À cet égard, on peut noter que l'accent mis par l'organisme fédéral de gestion de l'éducation sur le test du niveau minimum de connaissances ne donne pas et ne peut pas, même par définition, donner une idée du niveau réel de connaissances, c'est-à-dire fournir les informations dont la société et les autorités gouvernementales ont depuis longtemps besoin. Cela fausse les résultats des tests et la sélection des tâches manifestement difficiles, ce qui fait que la majorité des écoliers obtiennent de faibles résultats. Se concentrer sur des tâches difficiles est souvent considéré comme un moyen d’accroître la motivation à apprendre. Cependant, ce remède a des effets mitigés. Les devoirs difficiles peuvent pousser certaines personnes à étudier, tandis que d’autres peuvent les en éloigner. Une telle orientation fausse les résultats et réduit in fine la qualité de la mesure pédagogique. Si le test est construit strictement à partir de tâches de difficulté croissante, cela ouvre la voie à la création de l'une des échelles de mesure les plus intéressantes - l'échelle de L. Gutman.

Lors de la définition du test, il a déjà été noté que toutes les tâches de test, je voudrais souligner, quel que soit le contenu des sujets, sections et disciplines académiques, sont classés par ordre de difficulté croissante. La recommandation largement répandue, jusqu'à récemment, d'inclure davantage de tâches de difficulté moyenne dans le test est justifiée du point de vue de la détermination de la fiabilité de la mesure à l'aide des soi-disant formules. théorie classique des tests. Les méthodes d'évaluation de la fiabilité des tests existantes dans cette théorie entraînent une diminution de la fiabilité lorsque des tâches faciles et difficiles sont incluses dans le test. Dans le même temps, se laisser emporter par des tâches de difficulté moyenne entraîne une grave déformation du contenu de l'épreuve : ce dernier perd la capacité de refléter normalement le contenu de la discipline étudiée, dans laquelle il y a toujours du facile et du difficile. matériel. Ainsi, dans la recherche d’une fiabilité théoriquement élevée, la validité substantielle des résultats des tests est perdue. Le désir d'augmenter la validité des résultats des tests s'accompagne souvent d'une diminution de leur précision. Ce phénomène est théoriquement connu sous le nom de paradoxe du théoricien américain de la psychométrie F. Lord.

Si un groupe d'élèves faibles est testé, il s'avère que les éléments de test difficiles ne fonctionnent tout simplement pas car aucun élève ne peut y répondre correctement. Ces tâches sont supprimées du traitement ultérieur des données. Ils ne sont pas proposés dans les systèmes de contrôle adaptatifs. Le contenu du test pour les étudiants faibles différera sensiblement du contenu du test pour les étudiants forts. Pour ces derniers, au contraire, les tâches faciles ne fonctionnent pas, puisque tous les sujets bien informés répondent correctement aux tâches faciles. Ainsi, le contenu d'un test traditionnel varie considérablement en fonction du niveau de préparation des groupes d'étudiants dont le test vise à mesurer les connaissances.

La cartographie optimale du contenu du matériel pédagogique en tâches de test du niveau de difficulté requis nécessite la possibilité de choisir une forme appropriée. Le contenu du test s'exprime sous l'une des quatre formes principales de tâches. Il s'agit : 1) de tâches avec choix d'une ou plusieurs réponses correctes parmi celles proposées ; 2) tâches formulaire ouvert, où le sujet complète lui-même la réponse, dans l'espace prévu à cet effet ; 3) tâches pour établir la conformité, et 4) tâches pour établir la séquence correcte d'actions.

Littérature

1. Zakharov A.I., Matyushkin A.M. Problèmes systèmes adaptatifs formation // Cybernétique et problèmes de formation. - M. : Progrès, 1970.- 389 p.

2. Landa L.N. Algorithmisation en formation. M.., Lumières, 1966

3. Gulliksen H. Théorie des tests mentaux. N-Y. Wiley. 1950 - 486 p. et beaucoup plus etc.

4. Tatsuoka, K.K. Construction d'items et modèles psychométriques appropriés pour une réponse construite. Princeton, New Jersey, 1993. - 56 pages ; Frederiksen, N., Mislevy R.J., Bejar I.J. (éd.). Théorie des tests pour une nouvelle génération de tests. Lawrence Erlbaum Ass. Pub. 1993, Hillsdale, New Jersey, 404 pages. et etc .

L'article précédent traitait de neuf principes pour l'élaboration du contenu des tests pédagogiques. Aujourd'hui, nous continuons à considérer le dixième principe : la difficulté croissante des tâches de test.

Si un test pédagogique est brièvement défini comme un système de tâches de difficulté croissante, il deviendra alors clair que la difficulté des tâches est, disons, l'indicateur le plus important pour la formation du test. De nombreux chefs d’établissement estiment que leurs enseignants sont capables de « proposer » autant de « tests » qu’ils le souhaitent en peu de temps ; J'ai moi-même lu l'ordre de l'école, selon lequel les enseignants devaient soumettre des « tests » au directeur dans un délai de trois jours. En fait, vous pouvez proposer autant de tâches que vous le souhaitez sous forme de test (et ce ne sont pas encore des tests). Ils ne devraient pas être inclus dans le présent test tant qu’une mesure de difficulté pouvant être testée empiriquement n’est pas connue. De cette exigence, il devient clair que des tests empiriques préliminaires de chaque tâche sont obligatoires avant le début des tests. Au cours du processus de test, de nombreuses tâches (généralement plus de la moitié) ne répondent pas à leurs exigences et ne sont donc pas incluses dans le test. Première exigence pour les tâches de test : dans le test, les tâches doivent varier en niveau de difficulté, ce qui découle de la définition précédemment donnée du test et du principe considéré.

Le lecteur attentif a probablement déjà saisi les différences dans le vocabulaire des trois concepts fondamentaux de la théorie du test, comme s'ils étaient introduits ici « imperceptiblement » : test pédagogique, tâche sous forme de test et tâche de test. Les exigences du premier d'entre eux ont déjà été évoquées dans l'article « Définition d'un test pédagogique » (USh n° 30, août 1999).

exactitude du contenu
forme logique de déclaration;
Forme correcte;
brièveté;
avoir un endroit précis pour les réponses ;
emplacement correct des éléments de tâche ;
les mêmes règles d'évaluation des réponses ;
consignes identiques pour toutes les matières ;
adéquation des instructions à la forme et au contenu de la tâche.

Une interprétation détaillée de ces exigences suivra dans les articles suivants, mais je voudrais maintenant attirer l'attention du lecteur sur le fait qu'il n'y a aucune exigence relative à une difficulté connue de la tâche, alors qu'une telle exigence est imposée au test et au tâche de test. De la réflexion sur ce document et sur des documents déjà publiés, deux conclusions peuvent être tirées. La première est que le test ne laisse pas de place aux tâches dont le degré de difficulté est inconnu. Et la seconde est que toutes les tâches proposées sous forme de test ne peuvent pas devenir des tâches de test : ce sont des concepts différents. Dans le premier concept, les exigences les plus essentielles sont le contenu et la forme. Pour les tâches de test, il existe tout d'abord une exigence de difficulté connue, ce qui n'est clairement pas requis pour les tâches sous forme de test. Les tâches n'ont une chance de devenir des tests qu'après une vérification expérimentale, ou plus strictement parlant, empirique, de la mesure de leur difficulté, sur des groupes typiques de sujets.

L'indicateur de la difficulté du test et des items du test est à la fois significatif et formel. Un indicateur significatif, car dans un bon test, la difficulté ne peut dépendre que du contenu et du niveau de préparation des candidats eux-mêmes, tandis que dans un mauvais test, les résultats commencent à être sensiblement influencés par la forme des tâches (surtout si ce n'est pas adéquat au contenu), mauvaise organisation des tests, s'il y a possibilité de tricherie, fuite d'informations. À cet égard, il mérite une mention spéciale pratique controversée préparation ciblée aux tests centralisés.

La composante formelle de l'indicateur de difficulté apparaît lorsque le test est considéré comme un processus de confrontation entre chaque sujet testé et chaque tâche qui lui est proposée. Il est utile de considérer le résultat final comme le résultat d’une telle confrontation. Avec une interprétation simplifiée de chaque cas de confrontation d'un sujet avec la tâche suivante, seuls deux résultats sont généralement pris en compte : la victoire du sujet avec la bonne solution de la tâche, où il reçoit un point, ou la défaite, pour laquelle il reçoit zéro. points. L'évaluation du résultat de la confrontation dépend du rapport entre le niveau de connaissance du candidat et le niveau de difficulté de la tâche, de l'unité de mesure des connaissances choisie et de la règle (convention) pré-adoptée - quoi est considéré comme une « victoire » pour le candidat et si un match nul est acceptable, si l’on parle dans le langage du sport.

Le principe de difficulté croissante est utilisé lors de la présentation du contenu de nombreux manuels et manuels, en particulier dans les disciplines académiques construites sur un principe cumulatif, ce qui signifie : la connaissance des éléments ultérieurs du cours dépend explicitement de la connaissance des éléments pédagogiques antérieurs. Cette structure est inhérente aux manuels de mathématiques, de logique, de langues étrangères, de statistiques, de techniques et bien d'autres sciences. Dans ceux-ci, les concepts précédemment étudiés sont activement utilisés dans les sujets ultérieurs. Par conséquent, vous ne devez étudier ces disciplines que dès le début et sans interruption.

La plupart des auteurs, notamment étrangers, ne font pas de distinction entre les notions de « difficulté » et de « complexité ». De nombreux développeurs de tests sont pareils. Il existe cependant des ouvrages dans lesquels ces concepts sont définis différemment. Par exemple, A.N. Zakharov et A.M. Matyushkin notent que le degré de difficulté d'une tâche d'apprentissage ne coïncide pas avec sa complexité. Le degré de complexité du matériel pédagogique est caractérisé par la richesse réelle (objective) de la tâche éducative et la forme de sa présentation, et le degré de difficulté présuppose toujours une corrélation du matériel pédagogique à maîtriser avec le matériel pédagogique préalablement acquis et le capacités intellectuelles des étudiants (1).

L.N. Landa explique la difficulté de la tâche éducative par le fait que les élèves ne connaissent souvent pas les opérations à effectuer pour trouver une solution. Si un système d'opérations pour résoudre une certaine classe de problèmes est appelé méthode de solution, alors, à son avis, la difficulté est associée à l'ignorance de la méthode, à l'ignorance de la façon de penser dans le processus de solution, comment et dans quel ordre il faut agir avec les conditions du problème (2). Les difficultés qui surviennent s'expliquent par le fait que l'enseignant essaie souvent de donner des connaissances sur le contenu de ce qui est étudié et se soucie beaucoup moins de la manière de penser et de raisonner (ibid.). Cette interprétation recoupe l’idée selon laquelle la complexité d’une tâche est liée au nombre d’opérations qui doivent être réalisées pour réussir. Ces définitions de la difficulté et de la complexité sont en grande partie psychologiques ; ils sont utiles dans l'analyse psychologique du contenu des tâches de test.

Pendant de nombreuses années, la mesure traditionnelle de la difficulté de chaque tâche était la proportion de réponses correctes dans un groupe de sujets, représentée par le symbole pj, où l'indice j indique le numéro de la tâche qui nous intéresse (1, 2, etc. ). Par exemple, si les réponses correctes des sujets à la troisième tâche du test sont évaluées par un point et les réponses incorrectes par zéro, alors la valeur de l'indicateur p3 peut être trouvée à partir de la relation élémentaire

où R3 signifie le nombre de réponses correctes à une tâche donnée et N est le nombre total de sujets dans le groupe. La formule générale pour calculer la proportion de réponses correctes à toute tâche (j) a la forme suivante :

Indicateur pj. a longtemps été utilisée comme mesure de difficulté dans la théorie dite classique des tests (3). Plus tard, on s'est rendu compte de l'inexactitude sémantique qu'il contenait : après tout, une augmentation de la valeur de pj n'indique pas une augmentation de la difficulté, mais, au contraire, une augmentation de la facilité, si un tel mot peut être utilisé. Ainsi, ces dernières années, la statistique opposée - la proportion de réponses incorrectes (qj) - est devenue associée à l'indicateur de difficulté de la tâche. Cette proportion est calculée à partir du rapport du nombre de réponses incorrectes (Wj- du mot anglais Wrong - incorrect) au nombre de sujets (N) :

On suppose naturellement que pj + qj = 1. Dans la théorie classique des tests, pendant de nombreuses années, seuls des indicateurs empiriques de difficulté ont été pris en compte. Dans les nouvelles versions des théories psychologiques et pédagogiques des tests, une plus grande attention a été accordée à la nature de l’activité mentale des étudiants lors de l’exécution de tâches de test de diverses formes (4).

Lors de la définition du test, il a déjà été noté que toutes les tâches du test, je voudrais souligner, quel que soit le contenu des sujets, des sections et des disciplines académiques, sont classées par ordre de difficulté croissante. La recommandation largement répandue, jusqu'à récemment, d'inclure davantage de tâches de difficulté moyenne dans le test est justifiée du point de vue de la détermination de la fiabilité de la mesure à l'aide des soi-disant formules. théorie classique des tests. Les méthodes d'évaluation de la fiabilité des tests existantes dans cette théorie entraînent une diminution de la fiabilité lorsque des tâches faciles et difficiles sont incluses dans le test. Dans le même temps, se laisser emporter par des tâches de difficulté moyenne entraîne une grave déformation du contenu de l'épreuve : ce dernier perd la capacité de refléter normalement le contenu de la discipline étudiée, dans laquelle il y a toujours du facile et du difficile. matériel. Ainsi, dans la recherche d’une fiabilité théoriquement élevée, la validité du contenu des résultats des tests est perdue. Le désir d'augmenter la validité des résultats des tests s'accompagne souvent d'une diminution de leur précision.

La cartographie optimale du contenu du matériel pédagogique en tâches de test du niveau de difficulté requis nécessite la possibilité de choisir une forme appropriée. Le contenu du test s'exprime sous l'une des quatre formes principales de tâches. Il s'agit : 1) de tâches avec choix d'une ou plusieurs réponses correctes parmi celles proposées ; 2) des tâches de forme ouverte, où le sujet complète lui-même la réponse, dans l'espace prévu à cet effet ; 3) tâches pour établir la conformité, et 4) tâches pour établir la séquence correcte d'actions.

Caractéristiques des tâches de test

Collecte et traitement statistique des résultats des tests

Pour faciliter le traitement des données de test, les résultats sont saisis dans un tableau spécial - la matrice des résultats de test. Travailler avec la matrice des résultats des tests est présenté dans leçon pratique 2 (p. 33).

Sur la base des résultats des tests d'approbation, les caractéristiques des tâches de test sont déterminées - difficulté, caractère discriminant et validité de la tâche.

La difficulté d'une tâche dans la théorie classique des tests est déterminée par le rapport entre le nombre de candidats qui ont accompli une tâche donnée et nombre total sujets, c'est-à-dire difficulté de la tâche – c'est le pourcentage d'élèves qui ont terminé la tâche.

La difficulté de la tâche est calculée à l'aide de la formule

Où p j est la proportion de réponses correctes à la j-ème tâche ; Y j est le nombre de sujets qui ont terminé correctement la jème tâche, N est le nombre de sujets dans le groupe, j est le numéro de la tâche. Ou en pourcentage, P j est la difficulté de la jème tâche en pourcentage :.

Le test, bien équilibré en difficulté, contient plusieurs des items les plus difficiles d'une valeur de . Il existe certains des plus simples avec . Autres tâches par valeurs p occupent une position intermédiaire entre des situations extrêmes et ont surtout des difficultés 60 - 70 % dans un test critérié et 40-60 % d'une manière normative.

Caractère discriminatoire de la tâche de test

Discrimination(capacité de différenciation, capacité de discrimination) les tâches sont la capacité de la tâche à différencier les sujets par niveau de réussite, en forts et faibles. Si une tâche est exécutée de manière égale par des personnes faibles et fortes, nous pouvons alors parler d'un faible caractère discriminant de la tâche. Si la tâche est accomplie par des sujets forts et que les faibles donnent résultat négatif, alors nous avons une forte discrimination.

Le caractère hautement discriminatoire des items des tests est important pour les tests normatifs, dont l'objectif principal est de classer les étudiants en fonction de leur niveau de réussite.

Si l'indice de criminativité est supérieur à zéro ( plus de 0,3 est considéré comme satisfaisant), et encore mieux tend vers 1, cela indique que la tâche a un bon effet différenciateur (maximum).

Pour évaluer le caractère discriminatif de la tâche, nous utiliserons méthode de groupe extrême , calcul selon la formule :

Où est l'indice de discriminativité pour le j-ième élément de test ; (P 1) j – le pourcentage d'élèves ayant terminé correctement la j-ème tâche dans un sous-groupe de 27 % des meilleurs élèves selon les résultats du test ; (P 0) j – pourcentage d'élèves ayant terminé correctement la j-ème tâche dans un sous-groupe de 27 % les pires étudiants sur la base des résultats des tests.

L'indice de discriminabilité varie entre [-1 ; 1]. Il atteint sa valeur maximale dans le cas où tous les élèves du sous-groupe fort accomplissent correctement cette tâche et qu'aucun des élèves du sous-groupe faible n'effectue correctement cette tâche. Dans ce cas, la tâche aura le maximum d’effet différenciateur. L’indice de discriminativité atteint une valeur nulle lorsque dans les deux sous-groupes les proportions d’élèves ayant réalisé la tâche sont égales. Il n’y a donc aucun effet différenciateur. Une valeur inférieure à 0 correspondra à une situation où les étudiants faibles accompliront cette tâche de test avec plus de succès que les étudiants forts. Naturellement, les tâches pour lesquelles l'indice de scriminabilité est égal ou inférieur à zéro doivent être retirées du test (tableau 6).

En comptant les valeurs corrélation bisériale ou ponctuelle-bisérialeégalement évalué validité tâches individuelles test. En général, la tâche peut être considérée comme valide si r pbis est proche de 0,5. L'évaluation de la validité d'un élément évalue dans quelle mesure l'élément est approprié. Si l’objectif est de différencier les étudiants selon leur niveau de préparation, alors les tâches valides doivent clairement distinguer les étudiants bien préparés des étudiants mal préparés dans le groupe test. Les valeurs de r pbis proches de zéro indiquent une faible capacité de différenciation des éléments de test. Toutes les tâches avec r pbis<0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Tableau 6

Numéro de travail	P j pour toutes les matières	Groupe	Index rdis
P j pour faible	P j pour fort
	21,0	6,5	32,0	0,26
	94,0	90,0	97,0	0,065
	64,0	42,0	97,0	0,55
	59,0	68,0	58,0	-0,097
	27,0	16,0	29,0	0,13
	70,0	29,0	94,0	0,65
	30,0	13,0	42,0	0,29
	12,0	9,7	16,0	0,065
	33,0	16,0	52,0	0,35
	73,0	42,0	90,0	0,48

Analyse de la qualité des distractions dans les tâches fermées

L'une des exigences les plus importantes pour les tâches fermées est plausibilité des distractions – probabilité égale de choisir un distraction en cas de réponse incorrecte. L'évaluation de la qualité d'un distraction s'appelle analyse des distractions.

L'analyse des distractions consiste à compter la proportion de sujets qui ont choisi chaque distraction. Idéalement, chaque distraction devrait être sélectionnée dans une proportion égale de toutes les réponses incorrectes. Le tableau 7 montre la répartition idéale des actions.

Tableau 7

Numéro de travail	1 réponse	2 réponse*	3 réponse	4 réponse
j	0,1	0,7	0,1	0,1

Le tableau 8 montre que 70 % des sujets ont complété la tâche correctement (choisi la 2ème réponse). Les 30 % restants qui ont donné des réponses incorrectes ont choisi uniformément les réponses 1, 3, 4, c'est-à-dire : Des distractions équiprobables ont été données dans la tâche.

Si un test pédagogique est brièvement défini comme un système de tâches de difficulté uniformément croissante, il deviendra alors clair que la difficulté des tâches est l'indicateur formatif le plus important, disons, du test. De nombreux chefs d’établissement estiment que leurs enseignants sont capables de « proposer » autant de « tests » qu’ils le souhaitent en peu de temps. En fait, vous pouvez proposer de nombreuses tâches sous forme de test. Et pas du tout des tests, mais seulement des devoirs. Ils ne doivent pas être inclus dans le présent test tant que leur degré de difficulté et d’autres caractéristiques ne sont pas connus. La mesure de la difficulté est testée empiriquement. De cette exigence, il devient clair que des tests empiriques préliminaires de chaque tâche sont obligatoires avant le début des tests. Au cours du processus de vérification, de nombreuses tâches ne répondent pas à leurs exigences et ne sont donc pas incluses dans le test. Première exigence pour les tâches de test : dans le test, les tâches doivent varier en niveau de difficulté, ce qui découle de la définition précédemment donnée du test et du principe considéré.

brièveté;
fabricabilité ;
Forme correcte;
exactitude du contenu
forme logique de déclaration;
les mêmes règles d'évaluation des réponses ;
avoir un endroit précis pour les réponses ;
consignes identiques pour toutes les matières ;
emplacement correct des éléments de tâche ;
adéquation des instructions à la forme et au contenu de la tâche

Avanessov V.S. Fondements de la théorie pédagogique des mesures // Mesures pédagogiques, 1, 2004. P. 17.

L'indicateur de la difficulté du test et des items du test est à la fois significatif et formel. Significatif, car dans un bon test, la difficulté ne peut dépendre que de la difficulté du contenu des tâches et du niveau de préparation des candidats eux-mêmes. Alors que dans un mauvais test, les résultats commencent à être sensiblement influencés par la forme des tâches (surtout si elles ne sont pas adaptées au contenu), par une mauvaise organisation des tests, s'il existe des possibilités de tricherie et de fuite d'informations. À cet égard, la pratique néfaste de la préparation ciblée des étudiants à l'examen d'État unifié mérite une mention particulière. En 1907, le ministre russe de l'Éducation, I. Tolstoï, qualifiait les enseignants impliqués dans ce type de travail de « formateurs ». Mais les enseignants sont les moins responsables. La faute est au système défaillant de « l’egging », qui encourage de telles pratiques erronées. Tout comme le contrôle, l’éducation aussi.

La composante formelle de l'indicateur de difficulté apparaît lorsque l'épreuve est considérée comme un processus de confrontation entre le sujet et la tâche qui lui est proposée. Il est utile de considérer le résultat final comme le résultat d’une telle confrontation. Avec une interprétation simplifiée de chaque cas de présentation d'une tâche, deux issues sont souvent, mais pas nécessairement, envisagées : la victoire du sujet avec la bonne solution de la tâche, pour laquelle il reçoit un point, ou la défaite, pour laquelle il est donné zéro point. L'évaluation du résultat de la confrontation dépend du rapport entre le niveau de connaissance du candidat et le niveau de difficulté de la tâche, de l'unité de mesure des connaissances choisie et de la règle (convention) pré-adoptée - quoi est considéré comme une « victoire » du candidat, et si un match nul est acceptable, si l'on parle dans le langage du sport.

Le principe de difficulté croissante est utilisé lors de la présentation du contenu de nombreux manuels et manuels, en particulier dans les disciplines académiques construites sur un principe cumulatif, ce qui signifie : la connaissance des éléments ultérieurs du cours dépend explicitement de la connaissance des éléments pédagogiques antérieurs. Cette structure est inhérente aux manuels de mathématiques, de logique, de langues étrangères, de statistiques, de techniques et bien d'autres sciences. Dans ceux-ci, les concepts précédemment étudiés sont activement utilisés dans les sujets ultérieurs. Par conséquent, vous ne devez étudier ces disciplines que dès le début et sans interruption.

La plupart des auteurs, notamment étrangers, ne font pas de distinction entre les notions de « difficulté » et de « complexité ». De nombreux développeurs de tests sont pareils. Il existe cependant des ouvrages dans lesquels ces concepts sont définis différemment. Par exemple, A.N. Zakharov et A.M. Matyushkin notent que le degré de difficulté d'une tâche d'apprentissage ne coïncide pas avec sa complexité. Le degré de complexité du matériel pédagogique est caractérisé par la richesse réelle (objective) de la tâche éducative et la forme de sa présentation, et le degré de difficulté présuppose toujours une corrélation du matériel pédagogique à maîtriser avec le matériel pédagogique préalablement acquis et le capacités intellectuelles des étudiants (1).

L.N. Landa a expliqué la difficulté de la tâche éducative par le fait que les étudiants ne connaissent souvent pas les opérations à effectuer pour trouver une solution. Si un système d'opérations pour résoudre une certaine classe de problèmes est appelé méthode de solution, alors, à son avis, la difficulté est associée à l'ignorance de la méthode, à l'ignorance de la façon de penser dans le processus de solution, comment et dans quel ordre il faut agir avec les conditions du problème (2). Les difficultés qui surviennent s'expliquent par le fait que l'enseignant essaie souvent de donner des connaissances sur le contenu de ce qui est étudié et se soucie beaucoup moins de la manière de penser et de raisonner (ibid.). Cette interprétation recoupe l’idée selon laquelle la complexité d’une tâche est liée au nombre d’opérations qui doivent être réalisées pour réussir. Ces définitions de la difficulté et de la complexité sont en grande partie psychologiques ; ils sont utiles dans l'analyse psychologique du contenu des tâches de test.

P3 = R3/N,
où R3 signifie le nombre de réponses correctes à une tâche donnée et N est le nombre total de sujets dans le groupe. La formule générale pour calculer la proportion de réponses correctes à toute tâche (j) a la forme suivante :

Pj = Rj/N
Indicateur pj. a longtemps été utilisée comme mesure de difficulté dans la théorie dite classique des tests (3). Plus tard, on s'est rendu compte de l'inexactitude sémantique qu'il contenait : après tout, une augmentation de la valeur de pj n'indique pas une augmentation de la difficulté, mais, au contraire, une augmentation de la facilité, si un tel mot peut être utilisé. Ainsi, ces dernières années, la statistique opposée - la proportion de réponses incorrectes (qj) - est devenue associée à l'indicateur de difficulté de la tâche. Cette proportion est calculée à partir du rapport du nombre de réponses incorrectes (Wj- du mot anglais Wrong - incorrect) au nombre de sujets (N) :

On suppose naturellement que pj + qj = 1. Dans la théorie classique des tests, pendant de nombreuses années, seuls des indicateurs empiriques de difficulté ont été pris en compte. Dans les nouvelles versions des théories psychologiques et pédagogiques des tests, une plus grande attention a été accordée à la nature de l’activité mentale des étudiants lors de l’exécution de tâches de test de diverses formes (4).

Lors de la définition du test, il a déjà été noté que toutes les tâches du test, je voudrais souligner, quel que soit le contenu des sujets, des sections et des disciplines académiques, sont classées par ordre de difficulté croissante. La recommandation largement répandue, jusqu'à récemment, d'inclure davantage de tâches de difficulté moyenne dans le test est justifiée du point de vue de la détermination de la fiabilité de la mesure à l'aide des soi-disant formules. théorie classique des tests. Les méthodes d'évaluation de la fiabilité des tests existantes dans cette théorie entraînent une diminution de la fiabilité lorsque des tâches faciles et difficiles sont incluses dans le test. Dans le même temps, se laisser emporter par des tâches de difficulté moyenne entraîne une grave déformation du contenu de l'épreuve : ce dernier perd la capacité de refléter normalement le contenu de la discipline étudiée, dans laquelle il y a toujours du facile et du difficile. matériel. Ainsi, dans la recherche d’une fiabilité théoriquement élevée, la validité substantielle des résultats des tests est perdue. Le désir d'augmenter la validité des résultats des tests s'accompagne souvent d'une diminution de leur précision. Ce phénomène est théoriquement connu sous le nom de paradoxe du théoricien américain de la psychométrie F. Lord.

La cartographie optimale du contenu du matériel pédagogique en tâches de test du niveau de difficulté requis nécessite la possibilité de choisir une forme appropriée. Le contenu du test s'exprime sous l'une des quatre formes principales de tâches. Il s'agit : 1) de tâches avec choix d'une ou plusieurs réponses correctes parmi celles proposées ; 2) des tâches de forme ouverte, où le sujet complète lui-même la réponse, dans l'espace prévu à cet effet ; 3) tâches pour établir la conformité, et 4) tâches pour établir la séquence correcte d'actions.

Littérature

Zakharov A.I., Matyushkin A.M. Problèmes des systèmes d'apprentissage adaptatifs // Cybernétique et problèmes d'apprentissage. - M. : Progrès, 1970.- 389 p.
Landa L.N. Algorithmisation en formation. M., Éducation, 1966
Gulliksen H. Théorie des tests mentaux. N-Y. Wiley. 1950 - 486 p. et beaucoup plus etc.
Tatsuoka, K.K. Construction d'items et modèles psychométriques appropriés pour une réponse construite. Princeton, New Jersey, 1993. - 56 pages ; Frederiksen, N., Mislevy R.J., Bejar I.J. (éd.). Théorie des tests pour une nouvelle génération de tests. Lawrence Erlbaum Ass. Pub. 1993, Hillsdale, New Jersey, 404 pages. et etc.

Difficulté. La difficulté du test est le degré de difficulté de l’ensemble des tâches incluses dans le test. Lors du processus de création d'un test, la mesure de difficulté est régulièrement vérifiée sur un échantillon aléatoire de la population à laquelle le test est destiné. Dans un test équilibré, les auteurs obtiennent généralement facilement une distribution normale. Une nouvelle amélioration du test suit la voie du remplacement d'un certain nombre de tâches, de réponses à

qui violent la distribution normale. La difficulté des éléments affecte la fiabilité et la validité. Si le test est très difficile, les étudiants sont alors plus souvent obligés de deviner quelle réponse est correcte, mais plus ils ont recours à la supposition, plus la distribution des résultats du test se rapproche d'une distribution aléatoire. Par conséquent, plus le test est difficile, plus le test est adapté à l'évaluation des connaissances de l'ensemble des étudiants. Le même effet sur la fiabilité, mais pour une raison différente, est exercé par un test simple dans lequel les élèves devinent rarement, leurs réponses sont cohérentes, mais il n'y a aucune différence entre elles.

Efficacité. L'efficacité d'un test pédagogique est déterminée par l'approche créative des compilateurs dans le développement d'un système de tâches correspondant à des objectifs de test spécifiques.

A ce jour, il n'y a pas d'unité au sein de la communauté pédagogique dans la classification des épreuves. V. S. Avanesov, A. N. Mayorov, M. B. Chelyshkova, T. D. Makarova voient différents signes de démarcation. Cependant, conformément à la méthodologie de création du test, tous les auteurs identifient à l'unanimité : des critères, destinés à identifier le fait du seuil de maîtrise du matériel pédagogique ; normatif, assurant un classement des étudiants selon le niveau de maîtrise de la matière par rapport à la norme. En fonction des caractéristiques professionnelles, vous pouvez définir : des tests standardisés et non standardisés.

Résumant les recherches des scientifiques, à partir de la variété existante des typologies de tests, nous soulignerons tout d'abord celles qui peuvent être corrélées à des types de contrôle : préventif, courant, final. Il s’agit donc des tests d’installation, formatifs et finaux. Le test d'installation révèle le niveau initial de préparation des écoliers, il contient à la fois des tâches faciles et difficiles. En mesurant le niveau de base de l’élève, l’enseignant peut suivre le développement de chaque enfant et introduire des éléments d’individualisation dans le processus éducatif. Le test formatif détermine les progrès réalisés dans l'apprentissage. Nous incluons des tests de base et de diagnostic dans ce type de tests. Les premières incluent des tâches de reproduction et sont réalisées au niveau de la formation des concepts. Les seconds contiennent des tâches allant de la reproduction à la création et révèlent le niveau de maîtrise d'un sujet ou d'une section du programme. Le test final, plus communément appelé Scholastic Achievement Test, doit répondre à toutes les exigences d’un test standardisé fondé sur des preuves.

Après avoir analysé la variété des classifications des tâches de test présentées dans la littérature et les avoir comparées avec les documents réglementaires, il convient de proposer une classification selon les types et types de tâches : types - fermés (tâches avec choix de la bonne réponse), ouvert (tâches avec une réponse librement construite) ; types - avec le choix d'une bonne réponse, avec le choix de plusieurs bonnes réponses, pour établir la correspondance, pour établir la séquence correcte, pour l'addition avec une réponse courte, pour l'addition avec une réponse détaillée.

L'une des orientations de la modernisation de l'éducation est l'introduction de l'examen d'État unifié (USE). Bien qu'il n'y ait pas de point de vue unique au sein de la communauté pédagogique, un nombre croissant d'enseignants et d'administrateurs à différents niveaux reconnaissent que l'examen d'État unifié est un outil plus fiable pour évaluer les résultats scolaires des écoliers. Les résultats des tests de masse panrusse fixent des normes statistiques moyennes de réussite scolaire, par rapport auxquelles les sujets du processus éducatif peuvent s'identifier dans un espace unique de contrôle et de mesure. Une analyse des réussites et des échecs est requise par les établissements d'enseignement et les systèmes de gestion à tous les niveaux hiérarchiques pour corriger le processus éducatif. L'examen de mathématiques étant obligatoire pour tous les diplômés, les résultats de l'examen d'État unifié peuvent être considérés comme une base d'information pour organiser un suivi multi-niveaux. Nous soulignons particulièrement que le système d'évaluation indépendant mis en place, réalisé dans le cadre de l'examen d'État unifié, est un outil pédagogique puissant. D’où la fonction pédagogique du suivi, qui se manifeste indirectement.

L'une des tâches importantes de la formation est d'évaluer rapidement et de manière fiable les connaissances d'une personne. Nous essayons de développer un système d'indicateurs de qualité des connaissances qui identifieraient les conditions d'augmentation de la réussite des élèves, ainsi que le niveau des buts et objectifs du contrôle pédagogique.

Nous avons développé une approche de la technologie de construction de compteurs d'essai dans laquelle nous avons identifié quatre étapes : recherche, modélisation, mise en forme, évaluation.

Étape de recherche. Il est extrêmement important que les activités d’évaluation des enseignants soient adéquates, justes et objectives. À cet égard, nous avons organisé une recherche de types de tâches de test fiables et efficaces, de méthodes de test utilisant des moyens techniques et des ordinateurs personnels (PC). Utiliser un PC permet de passer au suivi des connaissances sur une longue durée.

A ce stade, l'état des connaissances des étudiants est déterminé à l'aide de testeurs. Les tests sont l’une des formes de contrôle automatisé les plus avancées technologiquement avec des paramètres de qualité contrôlés. La méthode sélective de construction des items de test permet d'assimiler rapidement tous types de phénomènes, de mieux comprendre leurs qualités générales et distinctives, et de classer plus facilement les phénomènes et types de connaissances spécifiques.

Ainsi, les tests, tout en remplissant une fonction de contrôle dans le cadre du diagnostic du processus éducatif, sont utilisés en même temps comme moyen de diagnostic des apprentissages des élèves. Le diagnostic est considéré comme une détermination précise des résultats du processus d'apprentissage, tandis que la formation est considérée comme le niveau (degré) de réalisation de l'objectif visé atteint au moment du diagnostic » (I.P. Podlasy).

A ce stade, les principaux problèmes d'utilisation des tests sont identifiés : la qualité et la validité du contenu des items de test, la fiabilité des résultats des tests, les lacunes du traitement des résultats selon la théorie classique des tests, le manque d'utilisation des outils modernes. théorie du traitement des matériaux de test à l'aide d'un PC. Le nombre insuffisant de tests thématiques pour le contrôle continu des connaissances des élèves a un impact négatif sur l’apprentissage, empêchant son individualisation dans le contexte du processus éducatif de masse. Les tâches assignées doivent être résolues dans le cadre des tests en cours et finaux des étudiants.

Étape de modélisation. Dans un deuxième temps, un algorithme de cycle de formation et un concept de contrôle des tests sont développés. Le cycle d'apprentissage doit garantir une orientation cohérente de l'apprentissage vers les objectifs visés. Grâce à cette structure, le processus éducatif acquiert un caractère « en bloc ». Bloc - ingénierie des connaissances didactiques, qui permet de formaliser la compression de l'information pédagogique en utilisant les acquis des théories de généralisation significative (V.V. Davydov et ses disciples), l'élargissement des unités didactiques (P.M. Erdniev), le concept de formation d'une connaissance systématique (L.L. Zorina).