Review af evalueringen af de statistiske aspekter ved de nationale test

Baggrund

Denne undersøgelse er en del af en større evaluering af de nationale test, som Styrelsen for Undervisning og Kvalitet (STUK) under Børne- og Undervisningsministeriet har bedt VIVE om at gennemføre.

VIVEs samlede evaluering analyserer både brugen af nationale test og giver viden om, hvordan nationale test kan bruges og udvikles fremadrettet. Evalueringen danner derfor også grundlag for den rådgivningsgruppe, som ministeriet har nedsat til at komme med anbefalinger omkring de nationale test.

VIVEs evaluering belyser både styrker og svagheder i indholdet og brugen af de nationale test i folkeskolen. Evalueringen udmønter sig i fem delrapporter og en tværgående evalueringsrapport. Denne rapport indgår i den samlede evaluering af de nationale test som delrapport 1 af 5.

VIVE har haft til opgave at nedsætte og facilitere en uafhængig gruppe af danske og nordiske forskere, som har særlig viden om test af elever. Forskergruppen har reviewet Styrelsen for It og Lærings (STIL) evaluering af de nationale tests statistiske sikkerhed og pålidelighed. STIL har dokumenteret deres arbejde i en rapport bestående af fem notater. Delrapport 1 har til formål at afrapportere dette review.

Notaterne består af en validering af den tekniske beregning bag de nationale test, det vil sige spørgsmål om, hvorvidt de nationale test regner rigtigt, om opgavernes sværhedsgrader stadig er korrekte og stadig passer til Rasch-modellen. STIL har også vurderet, om man kan reducere den statistiske usikkerhed ved at forbedre den adaptive algoritme, altså den algoritme, der i testsituationen tilpasser testen til elevens faglige niveau. Desuden undersøger STILs notater, hvorvidt målesikkerheden af elevernes færdigheder kan forbedres ved at kombinere resultater fra forskellige profilområder.

Resultater

Sværhedsgraden af opgaverne i de nationale test er, som dokumenteret af STIL, beregnet ud fra en lineær test, hvor alle elever får de samme spørgsmål. Brug af lineære test er én måde at fastlægge sværhedsgraderne i spørgsmål. En anden måde er via en adaptiv test, som de nationale test gør brug af i de obligatoriske nationale test, hvor det ikke er spørgsmålenes sværhedsgrader, men elevernes niveau, der fastlægges.

STIL viser i sin dokumentation af de nationale test, at opgavernes sværhedsgrad ændrer sig, når man går fra den lineære test i opgaveafprøvningen til de adaptive test i de obligatoriske test. Reviewerne anbefaler, at alle sværhedsgrader for nationale test skal genberegnes ved at bruge den samme testtype: enten lineære test eller adaptive test.

Desuden mener reviewerne, at der mangler svære opgaver i de nationale test, og at man bør undersøge nærmere, om der er belæg og behov for tre profilområder af faget for hver af de nationale test, eller om man kunne samle resultaterne fra de tre områder til ét samlet resultat. Det mindsker testenes præcision og giver elever, forældre og lærere usikre resultater af elevernes faktiske faglige dygtighed.

Metode

VIVE har haft til opgave at reviewe STILs evaluering ved at nedsætte og facilitere en uafhængig gruppe af danske og nordiske forskere med særlig viden om test af elever. Forskerne vurderer styrker og svagheder ved resultaterne af STILs dokumentation og analyser af de nationale tests usikkerhed, pålidelighed og øvrige måleegenskaber.

VIVE har kontaktet fire eksterne forskere fra Danmark, Sverige og Norge til kritisk at gennemgå STILs dokumentation af de nationale test. Disse fire eksterne forskere har udarbejdet et skriftligt review. VIVE har på baggrund af forskergruppens kommentarer vurderet styrker og svagheder ved de nationale tests usikkerhed, pålidelighed og øvrige måleegenskaber og STILs dokumentation.