Dificultatea crescândă a sarcinilor din această tehnică este determinată. Teste în tehnologia predării în bloc a matematicii elevilor de liceu. Discriminarea sarcinii de testare

Articolul anterior a discutat nouă principii pentru dezvoltarea conținutului testelor pedagogice. Accentul acestui articol este al zecelea principiu: creșterea dificultății itemului de test.

Dacă un test pedagogic este definit pe scurt ca un sistem de sarcini cu o dificultate în creștere uniformă, atunci va deveni clar că dificultatea sarcinilor este cel mai important, să spunem, indicatorul formativ al testului. Mulți lideri de școală cred că profesorii lor sunt capabili să „vină cu” un timp scurt Ei pot face oricâte „teste” doresc. De fapt, puteți veni cu o mulțime de sarcini sub formă de test. Și nu teste, ci doar sarcini. Ei nu ar trebui să fie incluși în prezentul test până când nu se cunoaște gradul de dificultate și alte caracteristici. Măsura de dificultate este testată empiric. Din această cerință devine clar că testarea empirică preliminară a fiecărei sarcini este obligatorie înainte de începerea testării. În timpul procesului de verificare, multe sarcini nu îndeplinesc cerințele pentru ele și, prin urmare, nu sunt incluse în test. Prima cerință pentru sarcinile de testare: în test, sarcinile trebuie să varieze ca nivel de dificultate, ceea ce decurge din definiția dată anterior a testului și din principiul luat în considerare.

Cititorul atent a surprins probabil deja diferențele în vocabularul celor trei concepte de bază ale teoriei măsurătorilor pedagogice introduse aici, parcă „imperceptibil”: conceptul de test pedagogic, o sarcină sub formă de test și o sarcină de test. Cerințele pentru prima dintre ele au fost deja discutate în articolul „Definiția unui test pedagogic” (USh nr. 30, august 1999).

Este mai bine să introduceți acum cerințele pentru cel de-al doilea concept, cel puțin enumerându-le pe scurt, pentru a nu fi distras de la subiectul principal al articolului. Următoarele cerințe se aplică sarcinilor din formularul de testare:

Concizie;

Fabricabilitatea;

Corectitudinea formei;

Corectitudinea conținutului

Forma logică a enunțului;

Aceleași reguli pentru evaluarea răspunsurilor;

Având un loc specific pentru răspunsuri;

Instructiuni identice pentru toate subiectele;

Amplasarea corectă a elementelor sarcinii;

Avanesov V.S. Fundamentele teoriei pedagogice a măsurătorilor // Pedagogical Measurements, 1, 2004. p. 17.

O interpretare detaliată a acestor cerințe va urma în articolele următoare, dar acum aș dori să atrag atenția cititorului asupra faptului că nu există nicio cerință pentru o dificultate cunoscută a sarcinii, în timp ce o astfel de cerință este impusă testului și testului. sarcina de testare. Din reflecția asupra acestui material și a materialului publicat anterior, se pot trage două concluzii. Primul este că testul nu are loc pentru sarcini cu un grad de dificultate necunoscut. Și al doilea este că nu toate sarcinile propuse sub formă de test pot deveni sarcini de testare: acestea sunt concepte diferite. În primul concept, cele mai esențiale cerințe sunt conținutul și forma. Pentru sarcinile de testare, în primul rând, există o cerință de dificultate cunoscută, lucru care în mod clar nu este necesar pentru sarcinile sub formă de test. Se poate repeta faptul că sarcinile au șansa de a deveni teste numai după testarea empirică a măsurii dificultății lor pe grupuri tipice de subiecți.

Indicatorul de dificultate a testului și sarcini de testare este semnificativă și formală în același timp. Semnificativ pentru că test bun dificultatea nu poate depinde decât de dificultatea conținutului sarcinilor și de nivelul de pregătire al subiectelor înșiși. În timp ce într-un test prost rezultatele încep să fie vizibil influențate de forma sarcinilor (mai ales dacă nu este adecvată conținutului), organizarea slabă a testării, dacă există oportunități de înșelăciune și scurgere de informații. În acest sens, o mențiune deosebită merită practica nocivă a pregătirii țintite a elevilor pentru examenul unificat de stat. Ministrul rus al Educației din 1907, I. Tolstoi, i-a numit „formatori” pe profesorii care erau implicați în acest tip de muncă. Dar profesorii sunt cel mai puțin de vină. De vină este sistemul defectuos de „egging”, care încurajează astfel de practici eronate. Așa cum este controlul, așa este și educația.

Componenta formală a indicatorului de dificultate apare atunci când testarea este considerată ca un proces de confruntare între subiect și sarcina care i se oferă. Este util să se considere rezultatul rezultat ca rezultat al unei astfel de confruntări. Într-o interpretare simplificată a fiecărui caz de prezentare a unei sarcini, sunt adesea luate în considerare, dar nu neapărat, două rezultate: victoria subiectului la decizia corectă sarcini, în care primește un punct, sau eșec, pentru care primește zero puncte. Evaluarea rezultatului confruntării depinde de raportul dintre nivelul de cunoștințe al examinatorului și nivelul de dificultate al sarcinii, de unitatea de măsură ale cunoștințelor aleasă și de regula (convenția) preadoptată - ce este considerată o „victorie” a testatorului și dacă o remiză este acceptabilă, dacă vorbim în limba sportului.

Principiul dificultății crescânde este utilizat atunci când se prezintă conținutul multor manuale și manuale, în special în acele discipline academice care sunt construite pe un principiu cumulativ, ceea ce înseamnă: cunoașterea elementelor ulterioare ale cursului depinde în mod explicit de cunoașterea elementelor educaționale anterioare. Această structură este inerentă manualelor de matematică, logică, limbi straine, statistică, tehnică și multe alte științe. În ele, conceptele studiate anterior sunt utilizate în mod activ în subiectele ulterioare. Prin urmare, trebuie să studiați astfel de discipline numai de la început și fără lacune.

Majoritatea autorilor, în special cei străini, nu fac distincție între conceptele de „dificultate” și „complexitate”. Mulți dezvoltatori de teste sunt la fel. Cu toate acestea, există lucrări în care aceste concepte sunt definite diferit. De exemplu, A.N. Zakharov și A.M. Matyushkin notează că gradul de dificultate al unei sarcini de învățare nu coincide cu complexitatea acesteia. Grad de dificultate material educativ se caracterizează prin intensitatea reală (obiectivă) a sarcinii educaționale și forma de prezentare a acesteia, iar gradul de dificultate implică întotdeauna o corelare a materialului educațional de însușit cu materialul educațional dobândit anterior și capacitățile intelectuale ale elevilor (1) .

L.N. Landa a explicat dificultatea sarcina educațională deoarece elevii de multe ori nu cunosc operaţiile care trebuie efectuate pentru a găsi o soluţie. Dacă un sistem de operații pentru rezolvarea unei anumite clase de probleme se numește o metodă de rezolvare, atunci, în opinia sa, dificultatea este asociată cu ignorarea metodei, cu ignorarea modului de a gândi în procesul de rezolvare, cum și în ce secvență. ar trebui să acţionăm cu condiţiile problemei (2). Dificultățile care apar sunt explicate prin faptul că profesorul încearcă deseori să ofere cunoștințe despre conținutul a ceea ce este studiat și îi pasă mult mai puțin de modul în care să gândească și să raționeze (ibid.). Această interpretare se intersectează cu ideea că complexitatea unei sarcini este legată de numărul de operațiuni care trebuie finalizate pentru a obține succesul. Aceste definiții ale dificultății și complexității sunt în mare măsură psihologice; sunt utile pentru analiza psihologica conținutul sarcinilor de testare.

Măsura tradițională a dificultății fiecărei sarcini ani lungi a fost proporția răspunsurilor corecte în grupa de subiecți, reprezentată de simbolul p j, unde indicele j indică numărul sarcinii de interes (1, 2 etc.). De exemplu, dacă răspunsurile corecte ale subiecților la a treia sarcină a testului sunt evaluate cu un punct, iar cele incorecte - cu zero, atunci valoarea indicatorului p 3 poate fi găsită din relația elementară:

P3 = R3/N,

unde R 3 înseamnă numărul de răspunsuri corecte la o anumită sarcină, iar N este numărul total subiectii din grup. Formula generala calcularea proporției de răspunsuri corecte la orice sarcină (j) are forma

p j = R j / N

Indicatorul p j . a fost mult timp folosit ca măsură a dificultății în așa-numitul teoria clasică teste (3). Mai târziu, s-a realizat inexactitatea semantică conținută în el: la urma urmei, o creștere a valorii lui p j nu indică o creștere a dificultății, ci, dimpotrivă, o creștere a ușurinței, dacă un astfel de cuvânt poate fi folosit. Prin urmare în anul trecut statisticile opuse au început să fie asociate cu indicatorul de dificultate a sarcinii - proporția de răspunsuri incorecte (q j). Această proporție se calculează din raportul dintre numărul de răspunsuri incorecte (Wj- din cuvântul englezesc Wrong - incorect) și numărul de subiecte (N):

q j = W j / N

Se presupune în mod firesc că p j + q j = 1. În teoria testelor clasice, timp de mulți ani au fost luați în considerare doar indicatorii empiric de dificultate. În noile versiuni ale teoriilor psihologice și pedagogice ale testelor, s-a acordat mai multă atenție naturii activității mentale a elevilor în procesul de îndeplinire a sarcinilor de testare. diferite forme (4).

Conținutul testului nu poate fi doar ușor, mediu sau dificil. Aici se manifestă pe deplin ideea binecunoscută despre dependența rezultatelor metodei utilizate. Elementele de testare ușoare oferă elevilor doar aspectul de cunoștințe, deoarece testează cunoștințe minime. În această privință, se poate observa că concentrarea organului federal de management al educației pe testarea nivelului minim de cunoștințe nu oferă și nu poate, chiar prin definiție, să ofere o idee despre nivelul real de cunoștințe, adică. furnizează informațiile de care societatea și autoritățile guvernamentale au nevoie de mult timp. Denaturează rezultatele testelor și selecția sarcinilor evident dificile, în urma cărora majoritatea școlarilor ajung să obțină scoruri scăzute. Concentrarea asupra sarcinilor dificile este adesea văzută ca un mijloc de creștere a motivației de a învăța. Cu toate acestea, acest remediu are efecte mixte. Misiunile dificile îi pot împinge pe unii oameni să studieze, în timp ce alții îi pot îndepărta de ele. O astfel de orientare denaturează rezultatele și în cele din urmă reduce calitatea măsurării pedagogice. Dacă testul este construit strict din sarcini de dificultate crescândă, atunci aceasta deschide calea spre crearea uneia dintre cele mai interesante scale de măsurare - scara L. Gutman.

La definirea testului, sa remarcat deja că toate sarcinile de testare, aș dori să subliniez, indiferent de conținutul subiectelor, secțiunilor și disciplinele academice, sunt aranjate în ordinea dificultății crescânde. Recomandarea pe scară largă, până de curând, de a include în test mai multe sarcini de dificultate medie este justificată din punctul de vedere al determinării fiabilității măsurării folosind așa-numitele formule. teoria testelor clasice. Metodele de evaluare a fiabilității testului existente în această teorie au ca rezultat o scădere a fiabilității atunci când sarcinile ușoare și dificile sunt incluse în test. În același timp, a fi purtat de sarcini de dificultate moderată duce la o deformare gravă a conținutului testului: acesta din urmă își pierde capacitatea de a reflecta în mod normal conținutul disciplinei studiate, în care există întotdeauna ușor și dificil. material. Astfel, în căutarea unei fiabilități abstracte teoretic ridicate, validitatea substanțială a rezultatelor testelor se pierde. Dorința de a crește validitatea rezultatelor testelor este adesea însoțită de o scădere a preciziei acestora. Acest fenomen este cunoscut teoretic ca paradoxul teoreticianului american în psihometrie F. Lord

Dacă este testat un grup slab de studenți, se dovedește că itemii dificili de test pur și simplu nu funcționează, deoarece nici un singur elev nu le poate răspunde corect. Astfel de sarcini sunt eliminate de la prelucrarea ulterioară a datelor. Ele nu sunt oferite în sistemele de control adaptiv. Conținutul testului pentru elevii slabi va diferi semnificativ de conținutul testului pentru elevii puternici. Pentru cei din urmă, dimpotrivă, sarcinile ușoare nu funcționează, deoarece toate subiectele cu cunoștințe răspund corect la sarcinile ușoare. Astfel, conținutul unui test tradițional variază semnificativ în funcție de nivelul de pregătire al acelor grupuri de elevi ale căror cunoștințe testul urmărește să le măsoare.

Maparea optimă a conținutului materialului educațional în sarcini de testare cu nivelul de dificultate cerut necesită posibilitatea de a alege o formă adecvată. Conținutul testului este exprimat în una dintre cele patru forme principale de sarcini. Acestea sunt: 1) sarcini cu alegerea unuia sau mai multor răspunsuri corecte dintre cele propuse; 2) sarcini formă deschisă, unde subiectul completează el însuși răspunsul, în spațiul prevăzut pentru aceasta; 3) sarcini de stabilire a conformității și 4) sarcini de stabilire a secvenței corecte de acțiuni.

Literatură

1. Zaharov A.I., Matyushkin A.M. Probleme sisteme adaptative antrenament // Cibernetica si problemele antrenamentului. - M.: Progres, 1970.- 389 p.

2. Landa L.N. Algoritmizare în antrenament. M., Iluminismul, 1966

3. Gulliksen H. Teoria Testelor Mentale. N - Y. Wiley. 1950 - 486 p. si multe altele etc.

4. Tatsuoka, K.K. Construcția itemului și modelele psihometrice adecvate pentru răspunsul construit. Princeton, N-J, 1993. - 56 p.; Frederiksen, N., Mislevy R. J., Bejar I. J. (Eds). Teoria testelor pentru o nouă generație de teste. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404 pp. si etc .

Articolul anterior a discutat nouă principii pentru dezvoltarea conținutului testelor pedagogice. Astăzi continuăm să luăm în considerare al zecelea principiu - dificultatea crescândă a sarcinilor de testare.

Dacă un test pedagogic este definit pe scurt ca un sistem de sarcini cu dificultate crescândă, atunci va deveni clar că dificultatea sarcinilor este cel mai important, să spunem, indicator de formare a testului. Mulți lideri de școală cred că profesorii lor sunt capabili să „vină” cu câte „teste” doresc într-un timp scurt; Eu însumi am citit ordinul pentru școală, unde profesorilor li s-a ordonat să depună „teste” directorului în termen de trei zile. De fapt, puteți veni cu câte sarcini doriți sub formă de test (și acestea nu sunt încă teste). Ele nu ar trebui incluse în testul de față până când nu se cunoaște o măsură a dificultății care poate fi testată empiric. Din această cerință devine clar că testarea empirică preliminară a fiecărei sarcini este obligatorie înainte de începerea testării. În timpul procesului de testare, multe sarcini (de obicei mai mult de jumătate) nu îndeplinesc cerințele pentru ele și, prin urmare, nu sunt incluse în test. Prima cerință pentru sarcinile de testare: în test, sarcinile trebuie să varieze ca nivel de dificultate, ceea ce decurge din definiția dată anterior a testului și din principiul luat în considerare.

Cititorul atent a surprins probabil deja diferențele în vocabularul celor trei concepte de bază ale teoriei testului, parcă „imperceptibil” introduse aici: test pedagogic, sarcină sub formă de test și sarcină de test. Cerințele pentru prima dintre ele au fost deja discutate în articolul „Definiția unui test pedagogic” (USh nr. 30, august 1999).

corectitudinea conținutului
forma logică a enunțului;
forma corectă;
concizie;
având un loc specific pentru răspunsuri;
amplasarea corectă a elementelor sarcinii;
aceleași reguli de evaluare a răspunsurilor;
instrucțiuni identice pentru toate subiectele;
adecvarea instrucțiunilor la forma și conținutul sarcinii.

O interpretare detaliată a acestor cerințe va urma în articolele următoare, dar acum aș dori să atrag atenția cititorului asupra faptului că nu există nicio cerință pentru o dificultate cunoscută a sarcinii, în timp ce o astfel de cerință este impusă testului și testului. sarcina de testare. Din reflecția asupra acestui material și a materialului publicat anterior, se pot trage două concluzii. Primul este că testul nu are loc pentru sarcini cu un grad de dificultate necunoscut. Și al doilea este că nu toate sarcinile propuse sub formă de test pot deveni sarcini de testare: acestea sunt concepte diferite. În primul concept, cele mai esențiale cerințe sunt conținutul și forma. Pentru sarcinile de testare, în primul rând, există o cerință de dificultate cunoscută, lucru care în mod clar nu este necesar pentru sarcinile sub formă de test. Sarcinile au șansa de a deveni teste numai după o verificare experimentală, sau mai strict vorbind, empirică a măsurii dificultății lor, pe grupuri tipice de subiecți.

Indicatorul de dificultate a testului și itemilor de testare este semnificativ și formal în același timp. Un indicator semnificativ, pentru că într-un test bun dificultatea poate depinde doar de conținutul și de nivelul de pregătire al participanților la testare înșiși, în timp ce într-un test prost rezultatele încep să fie influențate vizibil de forma sarcinilor (mai ales dacă nu este adecvat conținutului), organizarea proastă a testării, dacă există posibilitatea de a înșela, scurgere de informații. În acest sens, merită o mențiune specială practică controversată pregătirea țintită pentru testarea centralizată.

Componenta formală a indicatorului de dificultate apare atunci când testarea este considerată ca un proces de confruntare între fiecare subiect de testare și fiecare sarcină care i se oferă. Este util să se considere rezultatul rezultat ca rezultat al unei astfel de confruntări. Cu o interpretare simplificată a fiecărui caz de confruntare a unui subiect cu următoarea sarcină, de obicei sunt luate în considerare doar două rezultate: victoria subiectului cu rezolvarea corectă a sarcinii, în care acesta primește un punct, sau înfrângerea, pentru care i se acordă zero. puncte. Evaluarea rezultatului confruntării depinde de raportul dintre nivelul de cunoștințe al examinatorului și nivelul de dificultate al sarcinii, de unitatea de măsură ale cunoștințelor aleasă și de regula (convenția) preadoptată - ce este considerată o „victorie” pentru testatorul și dacă o remiză este acceptabilă, dacă vorbim în limba sportului.

Principiul dificultății crescânde este utilizat atunci când se prezintă conținutul multor manuale și manuale, în special în acele discipline academice care sunt construite pe un principiu cumulativ, ceea ce înseamnă: cunoașterea elementelor ulterioare ale cursului depinde în mod explicit de cunoașterea elementelor educaționale anterioare. Această structură este inerentă manualelor de matematică, logică, limbi străine, statistică, tehnică și multe alte științe. În ele, conceptele studiate anterior sunt utilizate în mod activ în subiectele ulterioare. Prin urmare, trebuie să studiați astfel de discipline numai de la început și fără lacune.

Majoritatea autorilor, în special cei străini, nu fac distincție între conceptele de „dificultate” și „complexitate”. Mulți dezvoltatori de teste sunt la fel. Cu toate acestea, există lucrări în care aceste concepte sunt definite diferit. De exemplu, A.N. Zakharov și A.M. Matyushkin notează că gradul de dificultate al unei sarcini de învățare nu coincide cu complexitatea acesteia. Gradul de complexitate al materialului de învățământ se caracterizează prin bogăția reală (obiectivă) a sarcinii educaționale și forma de prezentare a acesteia, iar gradul de dificultate presupune întotdeauna o corelare a materialului educațional de însușit cu materialul educațional dobândit anterior și capacităţile intelectuale ale elevilor (1).

L.N. Landa explică dificultatea sarcinii educaționale prin faptul că elevii de multe ori nu cunosc operațiunile care trebuie efectuate pentru a găsi o soluție. Dacă un sistem de operații pentru rezolvarea unei anumite clase de probleme se numește o metodă de rezolvare, atunci, în opinia sa, dificultatea este asociată cu ignorarea metodei, cu ignorarea modului de a gândi în procesul de rezolvare, cum și în ce secvență. ar trebui să acţionăm cu condiţiile problemei (2). Dificultățile care apar sunt explicate prin faptul că profesorul încearcă deseori să ofere cunoștințe despre conținutul a ceea ce este studiat și îi pasă mult mai puțin de modul în care să gândească și să raționeze (ibid.). Această interpretare se intersectează cu ideea că complexitatea unei sarcini este legată de numărul de operațiuni care trebuie finalizate pentru a obține succesul. Aceste definiții ale dificultății și complexității sunt în mare măsură psihologice; sunt utile în analiza psihologică a conținutului sarcinilor de testare.

Timp de mulți ani, măsura tradițională a dificultății fiecărei sarcini a fost proporția de răspunsuri corecte într-un grup de subiecți, reprezentată prin simbolul pj, unde indicele j indică numărul sarcinii de interes (1, 2 etc. ). De exemplu, dacă răspunsurile corecte ale subiecților la a treia sarcină a testului sunt evaluate cu un punct, iar cele incorecte - cu zero, atunci valoarea indicatorului p3 poate fi găsită din relația elementară

unde R3 înseamnă numărul de răspunsuri corecte la o anumită sarcină, iar N este numărul total de subiecți din grup. Formula generală pentru calcularea proporției de răspunsuri corecte la orice sarcină (j) are următoarea formă:

Indicator pj. a fost mult timp folosit ca măsură a dificultății în așa-numita teorie clasică a testelor (3). Mai târziu, s-a realizat inexactitatea semantică conținută în el: la urma urmei, o creștere a valorii lui pj nu indică o creștere a dificultății, ci, dimpotrivă, o creștere a ușurinței, dacă un astfel de cuvânt poate fi folosit. Prin urmare, în ultimii ani, statisticile opuse - proporția de răspunsuri incorecte (qj) - au devenit asociate cu indicatorul de dificultate a sarcinii. Această proporție se calculează din raportul dintre numărul de răspunsuri incorecte (Wj- din cuvântul englezesc Wrong - incorect) și numărul de subiecte (N):

Se presupune în mod firesc că pj + qj = 1. În teoria testelor clasice, timp de mulți ani, au fost luați în considerare doar indicatorii empiric de dificultate. În noile versiuni ale teoriilor psihologice și pedagogice ale testelor, s-a acordat mai multă atenție naturii activității mentale a elevilor în procesul de îndeplinire a sarcinilor de testare de diferite forme (4).

La definirea testului, s-a remarcat deja că toate sarcinile de testare, aș dori să subliniez, indiferent de conținutul subiectelor, secțiunilor și disciplinelor academice, sunt aranjate în ordinea dificultății crescânde. Recomandarea pe scară largă, până de curând, de a include în test mai multe sarcini de dificultate medie este justificată din punctul de vedere al determinării fiabilității măsurării folosind așa-numitele formule. teoria testelor clasice. Metodele de evaluare a fiabilității testului existente în această teorie au ca rezultat o scădere a fiabilității atunci când sarcinile ușoare și dificile sunt incluse în test. În același timp, a fi purtat de sarcini de dificultate moderată duce la o deformare gravă a conținutului testului: acesta din urmă își pierde capacitatea de a reflecta în mod normal conținutul disciplinei studiate, în care există întotdeauna ușor și dificil. material. Astfel, în căutarea unei fiabilități ridicate teoretic, se pierde validitatea conținutului rezultatelor testelor. Dorința de a crește validitatea rezultatelor testelor este adesea însoțită de o scădere a preciziei acestora.

Maparea optimă a conținutului materialului educațional în sarcini de testare cu nivelul de dificultate cerut necesită posibilitatea de a alege o formă adecvată. Conținutul testului este exprimat în una dintre cele patru forme principale de sarcini. Acestea sunt: 1) sarcini cu alegerea unuia sau mai multor răspunsuri corecte dintre cele propuse; 2) sarcini în formă deschisă, în care subiectul completează el însuși răspunsul, în spațiul prevăzut pentru aceasta; 3) sarcini de stabilire a conformității și 4) sarcini de stabilire a secvenței corecte de acțiuni.

Caracteristicile sarcinilor de testare

Colectarea și prelucrarea statistică a rezultatelor testelor

Pentru confortul procesării datelor de testare, rezultatele sunt introduse într-un tabel special - matricea rezultatelor testelor. Lucrul cu matricea rezultatelor testării este prezentat în lectie practica 2 (pag. 33).

Pe baza rezultatelor testării de aprobare, se determină caracteristicile sarcinilor de testare - dificultatea, caracterul discriminator și validitatea sarcinii.

Dificultatea unei sarcini în teoria clasică a testelor este determinată de raportul dintre numărul de examinatori care au finalizat o anumită sarcină și numărul total subiecte, adică dificultatea sarcinii - acesta este procentul de elevi care au finalizat sarcina.

Dificultatea sarcinii este calculată folosind formula

Unde p j este proporția de răspunsuri corecte la sarcina j-a; Y j este numărul de subiecți care au finalizat corect sarcina a j-a, N este numărul de subiecți din grup, j este numărul sarcinii. Sau ca procent, P j este dificultatea sarcinii a j-a în procent:.

Testul, bine echilibrat în dificultate, conține câteva dintre cele mai dificile itemi cu o valoare de . Există unele dintre cele mai ușoare cu . Alte sarcini după valori p ocupă o poziţie intermediară între situaţiile limită şi au în principal dificultăţi 60 - 70 % într-un test criteriu-referit şi 40-60 % într-un mod orientat normativ.

Discriminarea sarcinii de testare

Discriminare(capacitate de diferențiere, capacitate de discriminare) sarcinile sunt capacitatea sarcinii de a diferenția subiecții după nivelul de realizare, în puternici și slabi. Dacă o sarcină este îndeplinită în mod egal de oameni slabi și puternici, atunci putem vorbi despre discriminarea scăzută a sarcinii. Dacă sarcina este îndeplinită de subiecți puternici, iar cei slabi dau rezultat negativ, atunci avem o discriminare ridicată.

Caracterul discriminatoriu ridicat al itemilor testului este important pentru testele normative, al căror scop principal este de a clasifica elevii în funcție de nivelul lor de performanță.

Dacă indicele de discriminare este peste zero ( mai mult de 0,3 este considerat satisfăcător), și chiar mai bine tinde la 1, aceasta indică faptul că sarcina are un efect de diferențiere bun (maxim).

Pentru a evalua caracterul discriminativ al sarcinii pe care o vom folosi metoda grupului extrem , calcul folosind formula:

Unde este indicele de discriminare pentru al-lea element de testare; (P 1) j – procentul de elevi care au finalizat corect sarcina a j-a într-un subgrup de 27% dintre cei mai buni elevi conform rezultatelor testului; (P 0) j – procentul de elevi care au finalizat corect sarcina a j-a într-un subgrup de 27% cei mai răi studenți pe baza rezultatelor testelor.

Indicele de discriminare variază în intervalul [-1; 1]. Ea atinge valoarea maximă în cazul în care toți elevii din subgrupul puternic îndeplinesc corect această sarcină și nimeni din subgrupul slab nu finalizează corect această sarcină. În acest caz, sarcina va avea efectul de diferențiere maxim. Indicele de discriminare atinge valoarea zero atunci când în ambele subgrupe proporțiile elevilor care au finalizat sarcina sunt egale. Prin urmare, nu există deloc efect de diferențiere. O valoare mai mică de 0 va fi într-o situație în care elevii slabi execută această sarcină de test cu mai mult succes decât elevii puternici. Desigur, sarcinile pentru care indicele de discriminare este egal sau sub zero trebuie eliminate din test (Tabelul 6).

Prin numărarea valorilor corelație biserială sau punct-biserială de asemenea evaluat valabilitate sarcini individuale Test. În general, sarcina poate fi considerată validă dacă r pbis este aproape de 0,5. Evaluarea validității itemului evaluează cât de potrivit este elementul. Dacă scopul este de a diferenția elevii după nivelul de pregătire, atunci sarcinile valide ar trebui să separe în mod clar elevii bine pregătiți de elevii slab pregătiți din grupul de testare. Valorile lui r pbis apropiate de zero indică o capacitate scăzută de diferențiere a elementelor de testare. Toate sarcinile cu r pbis<0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Tabelul 6

Job Nr.	P j pentru toate subiectele	grup	Index r dis
P j pentru slab	P j pentru puternic
	21,0	6,5	32,0	0,26
	94,0	90,0	97,0	0,065
	64,0	42,0	97,0	0,55
	59,0	68,0	58,0	-0,097
	27,0	16,0	29,0	0,13
	70,0	29,0	94,0	0,65
	30,0	13,0	42,0	0,29
	12,0	9,7	16,0	0,065
	33,0	16,0	52,0	0,35
	73,0	42,0	90,0	0,48

Analiza calității distractorilor în sarcini în formă închisă

Una dintre cele mai importante cerințe pentru sarcinile în formă închisă este plauzibilitatea distractorilor – probabilitate egală de a alege un distractor în cazul unui răspuns incorect. Evaluarea calității unui distractor se numește analiza distractorului.

Analiza distractorului implică numărarea proporției de subiecți care au ales fiecare distractor. În mod ideal, fiecare distractor ar trebui selectat într-o proporție egală din toate răspunsurile incorecte. Tabelul 7 arată distribuția ideală a acțiunilor.

Tabelul 7

Job Nr.	1 raspuns	2 raspuns*	3 raspuns	4 raspuns
j	0,1	0,7	0,1	0,1

Tabelul 8 arată că 70% dintre subiecți au finalizat sarcina corect (au ales al 2-lea răspuns). Restul de 30% care au dat răspunsuri incorecte au ales uniform răspunsurile 1, 3, 4, adică. În sarcină au fost date distractoare echipabile.

Dacă un test pedagogic este definit pe scurt ca un sistem de sarcini cu o dificultate în creștere uniformă, atunci va deveni clar că dificultatea sarcinilor este cel mai important, să spunem, indicatorul formativ al testului. Mulți lideri de școală cred că profesorii lor sunt capabili să „vină cu” câte „teste” doresc într-un timp scurt. De fapt, puteți veni cu o mulțime de sarcini sub formă de test. Și nu teste, ci doar sarcini. Ei nu ar trebui să fie incluși în prezentul test până când nu se cunoaște gradul de dificultate și alte caracteristici. Măsura de dificultate este testată empiric. Din această cerință devine clar că testarea empirică preliminară a fiecărei sarcini este obligatorie înainte de începerea testării. În timpul procesului de verificare, multe sarcini nu îndeplinesc cerințele pentru ele și, prin urmare, nu sunt incluse în test. Prima cerință pentru sarcinile de testare: în test, sarcinile trebuie să varieze ca nivel de dificultate, ceea ce decurge din definiția dată anterior a testului și din principiul luat în considerare.

concizie;
fabricabilitatea;
forma corectă;
corectitudinea conținutului
forma logică a enunțului;
aceleași reguli de evaluare a răspunsurilor;
având un loc specific pentru răspunsuri;
instrucțiuni identice pentru toate subiectele;
amplasarea corectă a elementelor sarcinii;
adecvarea instrucțiunilor la forma și conținutul sarcinii

Avanesov V.S. Fundamentele teoriei pedagogice a măsurătorilor // Pedagogical Measurements, 1, 2004. p. 17.

Indicatorul de dificultate a testului și itemilor de testare este semnificativ și formal în același timp. Semnificativ, pentru că într-un test bun dificultatea poate depinde doar de dificultatea conținutului sarcinilor și de nivelul de pregătire al celor care susțin testul înșiși. În timp ce într-un test prost rezultatele încep să fie vizibil influențate de forma sarcinilor (mai ales dacă nu este adecvată conținutului), organizarea slabă a testării, dacă există oportunități de înșelăciune și scurgere de informații. În acest sens, o mențiune deosebită merită practica nocivă a pregătirii țintite a elevilor pentru examenul unificat de stat. Ministrul rus al Educației din 1907, I. Tolstoi, i-a numit „formatori” pe profesorii care erau implicați în acest tip de muncă. Dar profesorii sunt cel mai puțin de vină. De vină este sistemul defectuos de „egging”, care încurajează astfel de practici eronate. Așa cum este controlul, așa este și educația.

Componenta formală a indicatorului de dificultate apare atunci când testarea este considerată ca un proces de confruntare între subiect și sarcina care i se oferă. Este util să se considere rezultatul rezultat ca rezultat al unei astfel de confruntări. Cu o interpretare simplificată a fiecărui caz de prezentare a unei sarcini, sunt adesea luate în considerare, dar nu neapărat, două rezultate: victoria subiectului cu rezolvarea corectă a sarcinii, pentru care primește un punct, sau înfrângerea, pentru care este. dat zero puncte. Evaluarea rezultatului confruntării depinde de raportul dintre nivelul de cunoștințe al examinatorului și nivelul de dificultate al sarcinii, de unitatea de măsură ale cunoștințelor aleasă și de regula (convenția) preadoptată - ce este considerată o „victorie” a testatorului și dacă o remiză este acceptabilă, dacă vorbim în limba sportului.

Principiul dificultății crescânde este utilizat atunci când se prezintă conținutul multor manuale și manuale, în special în acele discipline academice care sunt construite pe un principiu cumulativ, ceea ce înseamnă: cunoașterea elementelor ulterioare ale cursului depinde în mod explicit de cunoașterea elementelor educaționale anterioare. Această structură este inerentă manualelor de matematică, logică, limbi străine, statistică, tehnică și multe alte științe. În ele, conceptele studiate anterior sunt utilizate în mod activ în subiectele ulterioare. Prin urmare, trebuie să studiați astfel de discipline numai de la început și fără lacune.

Majoritatea autorilor, în special cei străini, nu fac distincție între conceptele de „dificultate” și „complexitate”. Mulți dezvoltatori de teste sunt la fel. Cu toate acestea, există lucrări în care aceste concepte sunt definite diferit. De exemplu, A.N. Zakharov și A.M. Matyushkin notează că gradul de dificultate al unei sarcini de învățare nu coincide cu complexitatea acesteia. Gradul de complexitate al materialului de învățământ se caracterizează prin bogăția reală (obiectivă) a sarcinii educaționale și forma de prezentare a acesteia, iar gradul de dificultate presupune întotdeauna o corelare a materialului educațional de însușit cu materialul educațional dobândit anterior și capacităţile intelectuale ale elevilor (1).

L.N. Landa a explicat dificultatea sarcinii educaționale prin faptul că de multe ori elevii nu cunosc operațiunile care trebuie efectuate pentru a găsi o soluție. Dacă un sistem de operații pentru rezolvarea unei anumite clase de probleme se numește o metodă de rezolvare, atunci, în opinia sa, dificultatea este asociată cu ignorarea metodei, cu ignorarea modului de a gândi în procesul de rezolvare, cum și în ce secvență. ar trebui să acţionăm cu condiţiile problemei (2). Dificultățile care apar sunt explicate prin faptul că profesorul încearcă deseori să ofere cunoștințe despre conținutul a ceea ce este studiat și îi pasă mult mai puțin de modul în care să gândească și să raționeze (ibid.). Această interpretare se intersectează cu ideea că complexitatea unei sarcini este legată de numărul de operațiuni care trebuie finalizate pentru a obține succesul. Aceste definiții ale dificultății și complexității sunt în mare măsură psihologice; sunt utile în analiza psihologică a conținutului sarcinilor de testare.

P3 = R3/N,
unde R3 înseamnă numărul de răspunsuri corecte la o anumită sarcină, iar N este numărul total de subiecți din grup. Formula generală pentru calcularea proporției de răspunsuri corecte la orice sarcină (j) are următoarea formă:

Pj = Rj/ N
Indicator pj. a fost mult timp folosit ca măsură a dificultății în așa-numita teorie clasică a testelor (3). Mai târziu, s-a realizat inexactitatea semantică conținută în el: la urma urmei, o creștere a valorii lui pj nu indică o creștere a dificultății, ci, dimpotrivă, o creștere a ușurinței, dacă un astfel de cuvânt poate fi folosit. Prin urmare, în ultimii ani, statisticile opuse - proporția de răspunsuri incorecte (qj) - au devenit asociate cu indicatorul de dificultate a sarcinii. Această proporție se calculează din raportul dintre numărul de răspunsuri incorecte (Wj- din cuvântul englezesc Wrong - incorect) și numărul de subiecte (N):

La definirea testului, s-a remarcat deja că toate sarcinile de testare, aș dori să subliniez, indiferent de conținutul subiectelor, secțiunilor și disciplinelor academice, sunt aranjate în ordinea dificultății crescânde. Recomandarea pe scară largă, până de curând, de a include în test mai multe sarcini de dificultate medie este justificată din punctul de vedere al determinării fiabilității măsurării folosind așa-numitele formule. teoria testelor clasice. Metodele de evaluare a fiabilității testului existente în această teorie au ca rezultat o scădere a fiabilității atunci când sarcinile ușoare și dificile sunt incluse în test. În același timp, a fi purtat de sarcini de dificultate moderată duce la o deformare gravă a conținutului testului: acesta din urmă își pierde capacitatea de a reflecta în mod normal conținutul disciplinei studiate, în care există întotdeauna ușor și dificil. material. Astfel, în căutarea unei fiabilități abstracte teoretic ridicate, validitatea substanțială a rezultatelor testelor se pierde. Dorința de a crește validitatea rezultatelor testelor este adesea însoțită de o scădere a preciziei acestora. Acest fenomen este cunoscut teoretic ca paradoxul teoreticianului american în psihometrie F. Lord

Maparea optimă a conținutului materialului educațional în sarcini de testare cu nivelul de dificultate cerut necesită posibilitatea de a alege o formă adecvată. Conținutul testului este exprimat în una dintre cele patru forme principale de sarcini. Acestea sunt: 1) sarcini cu alegerea unuia sau mai multor răspunsuri corecte dintre cele propuse; 2) sarcini în formă deschisă, în care subiectul completează el însuși răspunsul, în spațiul prevăzut pentru aceasta; 3) sarcini de stabilire a conformității și 4) sarcini de stabilire a secvenței corecte de acțiuni.

Literatură

Zaharov A.I., Matyushkin A.M. Probleme ale sistemelor de învățare adaptive // Cibernetică și probleme de învățare. - M.: Progres, 1970.- 389 p.
Landa L.N. Algoritmizare în antrenament. M., Educație, 1966
Gulliksen H. Teoria Testelor Mentale. N - Y. Wiley. 1950 - 486 p. si multe altele etc.
Tatsuoka, K.K. Construcția itemului și modelele psihometrice adecvate pentru răspunsul construit. Princeton, N-J, 1993. - 56 p.; Frederiksen, N., Mislevy R. J., Bejar I. J. (Eds). Teoria testelor pentru o nouă generație de teste. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404 pp. si etc.

Dificultate. Dificultatea testului este gradul de dificultate în totalitatea sarcinilor incluse în test. În timpul procesului de creare a unui test, măsura dificultății este verificată în mod regulat pe un eșantion aleatoriu din populația căreia este destinat testul. Într-un test echilibrat, autorii obțin de obicei cu ușurință distribuția normală. Îmbunătățirea ulterioară a testului urmează calea înlocuirii unui număr de sarcini, răspunsuri la

care încalcă distribuția normală. Dificultatea elementului afectează fiabilitatea și validitatea. Dacă testul este foarte dificil, atunci elevii sunt forțați mai des să ghicească care răspuns este corect, dar cu cât recurg mai des la ghicire, cu atât distribuția rezultatelor testului se apropie de o distribuție aleatorie. Prin urmare, adecvarea testului pentru evaluarea cunoștințelor întregii mase de elevi va fi mai mică, cu atât testul este mai dificil. Același efect asupra fiabilității, dar dintr-un motiv diferit, este exercitat de un test ușor în care elevii ghicesc rar, răspunsurile lor sunt consistente, dar nu există nicio diferență între ele.

Eficienţă. Eficacitatea unui test pedagogic este determinată de abordarea creativă a compilatorilor pentru dezvoltarea unui sistem de sarcini care corespund unor obiective specifice de testare.

Până în prezent, în comunitatea pedagogică nu există o unitate în clasificarea testelor. V. S. Avanesov, A. N. Mayorov, M. B. Chelyshkova, T. D. Makarova văd diferite semne de demarcație. Cu toate acestea, în conformitate cu metodologia de realizare a testului, toți autorii identifică în unanimitate: criterii, menite să identifice faptul pragului de însuşire a materialului educaţional; normativ, oferind ierarhizarea elevilor în funcție de nivelul de stăpânire a materialului raportat la normă. Pe baza caracteristicilor profesionale, puteți defini: teste standardizate și nestandardizate.

Rezumând cercetările oamenilor de știință, din varietatea existentă de tipologii de teste, le vom evidenția în primul rând pe cele care pot fi corelate cu tipuri de control: preventiv, curent, final. Acestea sunt, în consecință, teste de instalare, formative și finale. Testul de instalare dezvăluie nivelul inițial de pregătire al școlarilor; conține atât sarcini ușoare, cât și dificile. Măsurând nivelul de bază al elevului, profesorul poate monitoriza dezvoltarea fiecărui copil și poate introduce elemente de individualizare în procesul educațional. Proba formativă determină progresul realizat în învăţare. Includem teste de bază și de diagnostic în acest tip de teste. Primele includ sarcini de reproducere și sunt efectuate la nivelul formării conceptului. Cele doua conțin sarcini de la reproductiv la creative și dezvăluie nivelul de stăpânire a unui subiect sau secțiune a programului. Testul final, mai frecvent numit Testul de realizare scolastică, trebuie să îndeplinească toate cerințele unui test standardizat, bazat pe dovezi.

După ce a analizat varietatea de clasificări ale sarcinilor de testare prezentate în literatură și comparându-le cu documentele de reglementare, este recomandabil să se propună o clasificare în funcție de tipurile și tipurile de sarcini: tipuri - închise (sarcini cu alegerea răspunsului corect), deschis (sarcini cu un răspuns liber construit); tipuri - cu alegerea unui răspuns corect, cu alegerea mai multor răspunsuri corecte, pentru stabilirea corespondenței, pentru stabilirea succesiunii corecte, pentru adăugare cu răspuns scurt, pentru adăugare cu răspuns detaliat.

Una dintre direcțiile de modernizare a educației este introducerea Examenului Unificat de Stat (USE). Deși nu există un punct de vedere unic în rândul comunității pedagogice, un număr tot mai mare de profesori și administratori la diferite niveluri recunosc că Examenul Unificat de Stat este un instrument mai de încredere pentru evaluarea realizărilor educaționale ale școlarilor. Scorurile testelor de testare în masă din toată Rusia stabilesc standarde statistice medii ale realizărilor educaționale, față de care subiecții procesului educațional se pot autoidentifica într-un singur spațiu de control și măsurare. O analiză a succeselor și neajunsurilor este necesară de către instituțiile de învățământ și sistemele de management de la toate nivelurile ierarhice pentru a corecta procesul educațional. Întrucât examenul de matematică este obligatoriu pentru toți absolvenții, rezultatele Examenului Unificat de Stat pot fi considerate ca bază de informare pentru organizarea monitorizării pe mai multe niveluri. Subliniem în special că sistemul de evaluare independent introdus, realizat în cadrul examenului unificat de stat, este un instrument educațional puternic. De aici funcția educațională a monitorizării, care se manifestă indirect.

Una dintre sarcinile importante ale instruirii este de a evalua rapid și fiabil cunoștințele unei persoane. Încercăm să dezvoltăm un sistem de indicatori de calitate a cunoștințelor care să identifice condițiile pentru creșterea performanței elevilor, precum și nivelul scopurilor și obiectivelor controlului pedagogic.

Am dezvoltat o abordare a tehnologiei de construire a contoarelor de testare în care am identificat patru etape: căutare, modelare, formare, evaluare.

Etapa de căutare. Este extrem de important ca activitățile de evaluare ale cadrelor didactice să fie adecvate, corecte și obiective. În acest sens, am organizat o căutare de tipuri fiabile și eficiente de sarcini de testare, metode de testare folosind mijloace tehnice și computere personale (PC-uri). Utilizarea unui PC vă permite să treceți la monitorizarea cunoștințelor pe o perioadă lungă de timp.

În această etapă, starea cunoștințelor elevilor este determinată cu ajutorul contoarelor de testare. Testarea este una dintre cele mai avansate forme tehnologice de control automat cu parametri de calitate controlați. Metoda selectivă la construirea itemilor de testare face posibilă asimilarea rapidă a tuturor tipurilor de fenomene, înțelegerea mai bună a calităților generale și distinctive ale acestora și clasificarea mai ușor a fenomenelor și a tipurilor de cunoștințe specifice.

Astfel, testarea, în timp ce îndeplinește o funcție de control în cursul diagnosticării procesului de învățământ, este folosită în același timp ca mijloc de diagnosticare a învățării elevilor. Diagnosticarea este considerată ca o determinare precisă a rezultatelor procesului de învățare, în timp ce formarea este considerată ca nivelul (gradul) de realizare a scopului urmărit atins în momentul diagnosticării” (I.P. Podlasy).

În această etapă, sunt identificate principalele probleme la utilizarea testelor: calitatea și validitatea conținutului itemilor de testare, fiabilitatea rezultatelor testelor, deficiențele procesării rezultatelor conform teoriei clasice a testelor, lipsa utilizării celor moderne. teoria procesării materialelor de testare cu ajutorul unui PC. Numărul insuficient de teste tematice pentru monitorizarea continuă a cunoștințelor elevilor de școală are un impact negativ asupra învățării, împiedicând individualizarea acesteia în contextul procesului educațional de masă. Sarcinile atribuite trebuie rezolvate în cadrul testării curente și finale ale studenților.

Etapa de modelare. În a doua etapă, sunt dezvoltate un algoritm de ciclu de antrenament și un concept de control al testului. Ciclul de învățare trebuie să asigure o orientare consecventă a învățării către obiectivele urmărite. Datorită acestei structuri, procesul educațional capătă un caracter de „bloc”. Bloc - ingineria cunoștințelor didactice, care vă permite să formalizați comprimarea informațiilor educaționale folosind realizările teoriilor generalizării semnificative (V.V. Davydov și adepții săi), lărgirea unităților didactice (P.M. Erdniev), conceptul de formare a cunoștințelor sistematice (L.L. Zorina) .