Studenter förväntas visa prov på en lång rad olika färdigheter när de skriver en kandidatuppsats. Betygsättande lärare förväntas därmed också att bedöma alla dessa färdigheter, vanligen uttryckt i ett enda summerande betyg. Hur går detta till och går det att urskilja delar som är mer tongivande för betyget än andra?

Att förstå detta är viktigt för examinatorer, men förstås också för handledare och studenter, så att de vet vilka delar de ska fokusera på. För utbildningsledare är det också viktigt att få kännedom kring detta så att de kan försäkra sig om att det som bedöms återspeglar utbildningarnas kursmål. Ett sätt att komma åt detta är genom att undersöka hur olika kriterier i protokollförda betygsmatriser (eng. rubrics) bidrar till de slutgiltiga betygen på uppsatserna. I en nyligen publicerad artikel i tidskriften Assessment and Evalutation in Higher Education redovisas resultatet från en sådan undersökning av kandidatuppsatser (eng. Bachelor theses) i biologi vid ett Nederländskt universitet. Resultaten visar tydligt att vissa kriterier är mer avgörande för betyget än andra.

I studien ingick 318 uppsatser från åren 2014—2017 och deras bedömningsmatriser. Fördelningen mellan manliga och kvinnliga studenter var jämn. Bedömningarna av uppsatserna gjordes alltid av två oberoende bedömare och totalt var 202 olika personer engagerade som bedömare. Uppsatserna är teoretiska arbeten med peer-reviewade vetenskapliga tidskrifter som främsta källmaterial. Något fältarbete eller laboratoriearbete ingår alltså inte i själva uppsatsarbetet men studenternas arbetsprocess bedömdes likväl. Flera kunde dock utföra fält- och laboratoriearbeten i parallella projekt inom samma eller likartat område som uppsatsen berörde. I början av uppsatskursen får studenterna tillgång till en onlineversion av bedömningsmatrisen så att de får en uppfattning om vad som förväntas av dem.

Bedömningsmatrisen är indelad i tretton kategorier; titel, abstrakt, introduktion, omfattning, struktur, diskussion, slutsatser, vetenskaplig kvalitet, stavning och grammatik, stil, längd och layout, figurer, samt referenser. Varje kategori har sedan 1—6 olika underkriterier och examinatorerna har tre rutor att kryssa i — otillräckligt, tillräcklig, bra — för var och en av kriterierna. Studenternas uppsatser betygsätts sedan på en skala från 1,0 (sämst) till 10,0 (bäst) med en gräns för godkänd på 5,5. Bedömningsmatrisen är framtagen både som en vägledning för bedömning och för återkoppling till studenterna. Det finns ingen formel eller beräkningstabell för att översätta bedömningen av kriterier till slutbetyg men examinatorerna ska ge ett baserad på matrisen. I examinatorernas anvisningar lyfts dock kriterierna ”vetenskaplig kvalitet” och ”professionell attityd” fram som särskilt viktiga att beakta när man bestämmer betyget, och om alla kriterier för uppsatsen bedöms till nivån "tillräcklig" så är det föreslagna betyget 7. Att man trycker på kriteriet ”professionell attityd” visar att processen väger ganska tungt vid bedömningen.

För analysen sattes nivå ”otillräckligt” till 1, ”tillräckligt” till 2 och ”bra” till 3, och när bedömare kryssat i flera rutor sattes dessa till 1,5 respektive 2,5. Dessa numreringar användes sedan för kvantitativa analyser (Crombach’s , linjär regression, linjär modellering med flera) av effekter gentemot slutbetyget på uppsatserna i syfte att undersöka kriteriernas samvariation och inverkan.

Resultaten antyder att alla kriterier är viktiga, vilket visar att studenterna bör vara uppmärksamma på alla kriterier. Artikelförfattarna menar dock att regressionsanalysen visar att studenterna på denna utbildning bör prioritera kriterierna ”vetenskaplig kvalitet”, ”struktur” och ”professionell attityd” framför kriterier som ”korrekt användning av stavning och grammatik” och ”en fängslande titel som motiverar dess innehåll” då de förstnämnda har en starkare inverkan på bra betyg än de efterföljande. I praktiken innebär detta att studenterna uppmuntras till att visa entusiastism och engagemang (”professionell attityd”), att förklara, diskutera och integrera sina resultat (”vetenskaplig kvalitet”) på ett tydligt, konsekvent och strukturerat sätt (”struktur”). Tips till handledare utifrån resultaten av studien är enligt artikelförfattarna att i samband med handledning lägga vikt vid dessa de mest betydelsefulla kriterierna och alltså ge studenterna mest vägledning och återkoppling kring sådant som rör uppsatsens struktur och vetenskapliga kvalitet. Handledare kan också tipsa om kriterier som sällan poängsätts som utmärkta, så som ”titel”, ”abstrakt” och ”omfattning”.

Artikelförfattarna menar att regressionsanalyser av det slag som här genomförts är av särskilt intresse för utbildningsledare. Regressionsanalysen kan nämligen hjälpa till i bedömningen av huruvida läroplanernas kursmål uppnås och om de kriterier som de anser vara av högsta vikt också är de som mest förutsäger tilldelade betyg. I det aktuella fallet föll det sig så lyckligt att den kategori som av utbildningsledarna ansågs vara den viktigaste, nämligen ”vetenskaplig kvalitet”, också verkar vara den som bäst förutsäger slutbetyg. På samma sätt framhävs ”professionell attityd” som viktig och verkar i studien vara mycket förutsägande för ”tillräckliga” slutbetyg. Hur stor inverkan det har att just dessa kriterier också lyfts fram som viktiga i anvisningarna för betygsättningen kan man fråga sig. Hur som helst tyder dessa resultat på att examinatorer i första hand bedömer de kriterier som också bedöms vara mest relevanta av granskningsnämnden och institutionella direktiv. Artikelförfattarna rekommenderar alltså att göra liknande analyser med jämna mellanrum för att uppskatta om betygsättningen verkligen återspeglar kvaliteten på elevernas arbete och validera om uppsatserna huvudsakligen bedöms utifrån de kriterier som anses vara mest relevanta.

Kommentar: Det finns inte allt för många studier som på det här sättet i detalj analyserar kopplingen mellan bedömningskriterier och slutbetyg på kandidatuppsatser, och synnerligen inte med den metod som här tillämpas. Det finns fallgropar med det förfaringssätt som tillämpas där bedömningar översätts till siffror på en ordinal skala vilket kan locka till att behandla detta som en variabel på en kvotskala. Men det är något jag tycker att artikelförfattarna lyckas undvika bra. Att på detta sätt utvärdera både kriterier, hur kriterier tillämpas och hur de är tillpassade till kursmålen är angeläget; till exempel som ett mått på graden av konstruktiv länkning (constructive alignment). Det ställer dock krav på institutionens bedömningspraktik, det vill säga att protokollförda bedömningsmatriser finns arkiverade som kan jämföras med slutbetyg. En viktig sak som poängteras i artikeln är att detta inte är något som är klart i och med publiceringen av denna artikel; arbetet med analysen fortsätter alltjämt och det är den kontinuerliga tillämpningen av den metod för att utvärdera bedömningar som presenteras som är artikelns huvudbudskap — en sytematisk och kontinuerlig utvärdering av bedömning och betygsättning av kandidatuppsatser. För den som är nyfiken på denna typ av bedömningsmatriser (eng. rubrics) rekommenderas följande länkar:

Text: Sven Isaksson, Institutionen for arkeologi och antikens kultur

Studien
Haagsman, M., Snoek, B., Peeters, A., Scager, K., Prins, F., & van Zanten, M. (2021). Examiners’ use of rubric criteria for grading bachelor theses. Assessment & Evaluation in Higher Education, 1-15.

Nyckelord: bedömningsmatris; betygsättning; kandidatuppsats; validering; utbildningsmål, vetenskapligt skrivande