Название: Testen und Bewerten fremdsprachlicher Kompetenzen
Автор: Barbara Hinger
Издательство: Bookwire
Жанр: Документальная литература
Серия: narr studienbücher
isbn: 9783823300670
isbn:
Bei Dlaska & Krekeler (2009, 35) findet sich ObjektivitätObjektivität als Teil der Reliabilität dem Qualitätskriterium Gerechtigkeit zugeordnet (s. oben). Dies ist vor allem dem Umstand geschuldet, dass eine möglichst objektive Durchführung und Auswertung eines Tests für eine konsistente, also reliable, Bewertung unabdingbar ist. Reliabilität wiederum ist Voraussetzung für die Validität (s. Abschnitt 4.1.3) – allein, ein reliabler Test bedeutet noch nicht, dass er auch valide ist (vgl. Jones 2012, 352). Nach Dlaska & Krekeler (2009, 47) ist die Qualität einer Bewertung abhängig von den PrüferInnen, ihren Fähigkeiten, Einstellungen und Werthaltungen. Für die Leistungsbeurteilung im Unterricht erachten sie Reliabilität aber nicht als zentral und fordern sie nur als Bedingung für standardisierte und formelle high stakes testshigh stakes test ein – Tests, bei denen die Ergebnisse für jede/n einzelne/n KandidatIn gewichtige Folgen haben. Das Pilotieren von Klassen-/Schularbeiten zur Messung ihrer Qualität – sei es in Form von Paralleltests oder Testwiederholungen, um sich z. B. über den Schwierigkeitsgrad oder die Unmissverständlichkeit der Aufgabenstellung klar zu werden – ist im Schulalltag, wenn überhaupt, nur bedingt möglich. Eine Arbeit im Team würde allerdings der Qualität von Klassen-/Schularbeiten zuträglich sein – erhöht doch Arbeitsgenauigkeit die Reliabilität der Messung. Auch die Kenntnis der genannten Methoden (parallel test methodparallel test method und test-retest methodtest-retest method) wäre geeignet, sich über die Konsistenz von Prüfungen klar(er) zu werden, denn auch Klassen-/Schularbeiten sollten über jene Qualität verfügen, die eine genaue(re) und konsistente Auswertung und Interpretation der Ergebnisse ermöglicht.
Salkind (2006) setzt Reliabilität mit Testqualität gleich, wenn konsistente Messungen garantiert sind1 – ein Ziel, dem sich Lehrpersonen auch im Schulalltag nähern könnten, wenn sie sich z. B. für das gemeinsame Ausarbeiten von TestspezifikationenTestspezifikationen (s. Abschnitt 5.3) entschließen und bereit sind, über die Fachteams oder -arbeitsgemeinschaften an den Schulen Tests (Klassen-/Schularbeiten) in Parallelklassen einzusetzen oder in vergleichbaren Jahrgängen auch an anderen Schulen durchzuführen.
Ein wesentliches Kennzeichen von Reliabilität ist der ReliabilitätskoeffizientReliabilitätskoeffizient, der den Grad der Messfehlerfreiheit eines Tests wiedergibt, oder der Wert der inneren Konsistenz (internal reliability) von Items – ermittelbar mithilfe eines Computer-Software-Programms wie SPSS (= Statistical Package for the Social Sciences). Der Koeffizient drückt aus, dass die einzelnen Items eines Tests zueinander passen, dasselbe theoretische KonstruktKonstrukt (z.B. Leseverständnis) überprüfen und dass die einzelnen SchülerInnen auf die gleichen Rangplätze verwiesen werden (vgl. Fulcher & Davidson 2007, 106). Auch wenn LehrerInnen nicht über die zeitlichen und technischen Ressourcen verfügen, die innere KonsistenzInnere Konsistenz von Testitems ist Voraussetzung für das Messen eines Konstrukts. von Testitems zu ermitteln (wie z. B. in Green 2013, 35–40 dargestellt), so können sie doch eine Reihe von einfachen statistischen Maßnahmen ergreifen, die ihre Klassen-/Schularbeiten und Tests reliabler machen2. Neben einer präzisen und klaren Aufgabenstellung sind dafür u.a. die Testlänge (Anzahl der Items bzw. der Aufgaben), die Homogenität der Items, der Schwierigkeitsgrad der einzelnen Aufgaben sowie die Bandbreite der Aufgaben (scope), die Wahlmöglichkeiten eher ausschließt, ausschlaggebend (vgl. Green 2014, 73; Schelten 1997, 117).
Je länger der TestTestlänge, homogene Items und trennscharfe Aufgaben erhöhen die Reliabilität. ist, desto geringer wird der Zufall sein, der das Testergebnis beeinflusst. Eine Aufgabe zu erstellen, die aus lediglich drei oder vier Items zum Gebrauch von Adverb/Adjektiv im Englischen oder aus vier oder fünf Items zur Verwendung der глаголы движения (Verben der Fortbewegung) im Russischen besteht, wird nur eine sehr geringe Aussagekraft über die grammatische Kompetenz der/des Sprachverwendenden haben. Je mehr Items zum Einsatz kommen und je homogener diese sind, desto reliabler wird das Ergebnis und die damit verbundene Interpretation in Bezug auf das gemessene Konstrukt (z.B. jenes der grammatischen Kompetenz). Ein Test zur Überprüfung des Leseverständnisses, der sowohl Items zum selektiven als auch zum detaillierten Lesen enthält, wird das Konstrukt Lesen deutlicher und umfassender repräsentieren, als wenn nur globales Lesen überprüft wirdKonstruktunterrepräsentation.
Je trennschärfer die Aufgaben sind, desto klarer kann zwischen lernstarken und lernschwachen SchülerInnen unterschieden werden und umso messgenauer ist die Klassen-/Schularbeit. Das bedeutet, dass mehrere schwache SchülerInnen nicht jene Items eines Tests lösen können sollen, an denen ein/eine gute/r SchülerIn scheitert. Man spricht in diesem Fall von ItemdiskriminierungItemdiskriminierung: Trennschärfe von Testitems. Deswegen gilt es zu leichte bzw. zu schwierige Items, Items, die das Erraten von Lösungen zulassen, oder Items, die Ausnahmen überprüfen, zu vermeiden, da sie die Reliabilität einer Aufgabe verringern (vgl. Alderson, Clapham & Wall 1995).
Die Beachtung der angeführten Punkte führt bei large-scalelarge-scale test oder high stakeshigh stakes test testing definitiv zu konsistenteren und genaueren Messungen, die Ergebnisse einer Überprüfung werden zuverlässiger und die Interpretationen gültiger. Reliabilität ist deshalb die Grundvoraussetzung für das folgende Testprinzip, die Validität oder Gültigkeit. Die Notwendigkeit, reliable, also konsistente Messungen im Schulkontext bzw. in classroom-based assessmentclassroom-based assessment zu erzielen, wird in der Testforschung erst in jüngster Zeit kontroversiell diskutiert (vgl. z. B. Jang 2012; Turner 2012) – auch in Zusammenhang mit der Ausbildung von FremdsprachenlehrerInnen (vgl. Graham 2005) und dem Begriff der Bewertungskompetenz (assessment literacyassessment literacy, s. Kapitel 10). WissenschaftlerInnen scheinen sich aber einig zu sein, dass die Anwendung psychometrischer Testverfahren mit exakter Datenaufbereitung und -evaluation im Klassenzimmerkontext nicht wirklich zielführend ist (vgl. u.a. Ingenkamp & Lissmann 2008, 173). Der Hauptunterschied zwischen large-scale- СКАЧАТЬ