Schreibkompetenzen in der Fremdsprache. Группа авторов
Чтение книги онлайн.

Читать онлайн книгу Schreibkompetenzen in der Fremdsprache - Группа авторов страница 16

СКАЧАТЬ Research Association et al., 2014, S. 67–70, 190–191 sowie auch die Ausführungen zum TestkonstruktTestkonstrukt in Kapitel 5).

      Außerdem ist etwa im Rahmen einer lernorientierten Evaluation, die darauf zielt, mit Hilfe von Feedback das Lernen zu fördern, eine StandardisierungStandardisierung der Evaluation in der Regel weder sinnvoll noch wünschenswert (vgl. hierzu Jones & Saville, 2016 sowie auch Kapitel 9 im vorliegenden Band).

      4.2.2 ReliabilitätReliabilität

      4.2.2.1 ReliabilitätReliabilität als umfassendes Konzept

      Eine ausreichende ObjektivitätObjektivität gilt in der Regel als eine notwendige Voraussetzung für eine zufriedenstellende ReliabilitätReliabilität (Zuverlässigkeit/Verlässlichkeit) und wird deshalb auch häufig als ein spezifischer Aspekt der ReliabilitätReliabilität gesehen. Wenn z.B. eine Lehrkraft aufgrund subjektiver Vorlieben bei bestimmten Schülerinnen und Schülern besonders milde urteilt, so hat dies Auswirkungen auf die Messgenauigkeit.

      ReliabilitätReliabilität kann sich u.a. auf die Präzision der verwendeten Instrumente, die Konsistenz der resultierenden Messwerte (Punktwerte) und die Verlässlichkeit der anhand der Messwerte getroffenen kriterialen Entscheidungen beziehen1Reliabilität – und zwar unabhängig davon, ob wirklich die Merkmale gemessen werden, die gemessen werden sollen. Bei den kriterialen Entscheidungen kann es sich z.B. um die Zuordnung zu einer GERGemeinsamer europäischer Referenzrahmen-NiveaustufeNiveaustufe oder um die Zulassung zu einem Sprachkurs handeln (vgl. auch Kapitel 4.2.2.5). Zur Bezeichnung dieser unterschiedlichen Bedeutungen und Verwendungsweisen wird in der neuesten Version der Standards for Educational and Psychological Testing auch das Begriffspaar Reliability/Precision verwendet (siehe American Educational Research Association et al., 2014, Kap. 2). Zur Vereinfachung der Darstellung verwenden wir im Folgenden ReliabilitätReliabilität in einer weiten Bedeutung, die alle genannten Aspekte mit beinhaltet.

      ReliabilitätReliabilität im Sinne von Messfehlerfreiheit wird im Hinblick auf eine bezugsgruppenorientierteEvaluationgruppenorientiert Messung in der klassischen Testtheorie als Anteil der Varianz der ‚wahren‘ (idealen, messfehlerfreien) Werte an der tatsächlichen Varianz der vom Test gelieferten Messwerte definiert und anhand der beobachteten Testwerte in Form eines ReliabilitätskoeffizientenReliabilität geschätzt (vgl. z.B. Schermelleh-Engel & Werner, 2012).2ReliabilitätEvaluationgruppenorientiertReliabilitätEvaluationkriteriumsorientiertEvaluationgruppenorientiertEvaluationkriteriumsorientiertReliabilität Bei standardisierten Tests ist die Berechnung eines ReliabilitätskoeffizientenReliabilität ein notwendiger Bestandteil der Qualitätssicherung. Der Wert 0 zeigt völlig fehlende ReliabilitätReliabilität an (der Test produziert nur Messfehler) und der Wert 1 eine perfekte ReliabilitätReliabilität (keine Messfehler). Beim Testen sprachlicher Kompetenzen treten stets Messfehler auf (vgl. die folgenden Ausführungen). Je nach Kontext und zu treffenden Entscheidungen ist man daher mit deutlich niedrigeren ReliabilitätswertenReliabilität als 1 zufrieden.

      Die klassische ReliabilitätstheorieReliabilität geht davon aus, dass die beobachtete Varianz der Testwerte ausschließlich durch das zu messende Merkmal sowie zufällige Messfehler bedingt ist. Dabei wird das zu messende Merkmal, wie z.B. Schreibkompetenz, in der Regel als relativ konstante Disposition der aktuellen und potenziellen Testteilnehmenden verstanden. Die sogenannte Generalisierbarkeitstheorie als Weiterführung der klassischen ReliabilitätstheorieReliabilität teilt die Messfehler darüber hinaus in einen nichtsystematischen Anteil (Zufallsfehler) und einen systematischen konstruktirrelevanten Anteil auf (vgl. auch die Ausführungen zur konstruktirrelevanten Varianz in Kapitel 4.2.3.3).

      Unter die Kategorie Zufallsfehler fällt etwa die unsystematische Beeinträchtigung der Leistung durch äußere Einflüsse wie z.B. nicht vorhersehbare Müdigkeit. Der systematische konstruktirrelevante Anteil kann im Fall der Messung von Schreibkompetenzen z.B. in folgende Komponenten (Facetten) zerlegt werden: Prüfungsteilnehmende (z.B. Gruppen von Erstsprachen), AufgabenAufgaben (z.B. unterschiedliche ThemenThemen und TextsortenTextsorte), Beurteilende (z.B. Muttersprachler vs. Nicht-Muttersprachler) und BewertungskriterienBeurteilungskriterien (z.B. analytisch vs. holistisch) (vgl. Brennan, 2011; Eckes, 2015a, S. 164 sowie auch Kapitel 6). Ziel ist eine Schätzung des Effekts sowohl des Zufallsfehlers als auch der systematischen konstruktirrelevanten Messfehlerkomponenten auf die Güte der Messung der Schreibkompetenz. Damit sollen Aussagen ermöglicht werden hinsichtlich der Generalisierbarkeit der Interpretation der Testwerte (z.B. über die jeweils eingesetzten Aufgaben hinaus) und der Verlässlichkeit der anhand der Testwerte getroffenen kriterialen Entscheidungen. Entsprechende Informationen können dann für eine Optimierung des Messinstruments sowie der Test- und Auswertungsprozeduren genutzt werden, z.B. bezüglich der Zahl der einzusetzenden Schreibtexte und Beurteilenden. Die Generalisierbarkeitstheorie fokussiert damit zugleich auch wichtige Aspekte der ValiditätValidität (vgl. Kapitel 4.2.3).3

      Bezieht man sich ohne weitere Differenzierung auf die Zuverlässigkeit des gesamten Messinstruments im Hinblick auf eine bestimmte Population von Testteilnehmenden und einen bestimmten Einsatzbereich, spricht man auch von der TestreliabilitätReliabilitätTestreliabilität. Vor dem Hintergrund der Generalisierbarkeitstheorie kann man konzeptuell und statistisch insbesondere folgende in komplexer Wechselwirkung stehende Facetten der Testreliabilität unterscheiden: Reliabilität der Aufgaben (AufgabenreliabilitätReliabilitätAufgabenreliabilität), Reliabilität der BeurteilungskriterienReliabilitätKriterienreliabilität bzw. Beurteilungsskalen (SkalenreliabilitätReliabilitätSkalenreliabilität) sowie Reliabilität der Beurteilenden (BeurteilerreliabilitätReliabilitätBeurteilerreliabilität/Raterreliabilität).

      Häufig wird im Zusammenhang mit der ReliabilitätReliabilität eines Messinstruments noch der sogenannte Standardmessfehler zur Beurteilung der Güte der Messung herangezogen. Der Standardmessfehler lässt sich im Rahmen der klassischen Testtheorie anhand der ReliabilitätReliabilität und Streuung der Messwerte berechnen. Er zeigt an, wie gut ein beobachteter Testwert den „wahren“ Wert des Testteilnehmenden schätzt und gilt in seiner klassischen Form global für die gesamte Messwertskala. Darüber hinaus lässt sich – allerdings aufwändiger – z.B. mit Hilfe der Generalisierbarkeitstheorie oder probabilistischer Messmodelle ein bedingter, variabler Messfehler für jeden Skalenwert berechnen. Dieser trägt der Tatsache Rechnung, dass mit zunehmender Diskrepanz zwischen der Fähigkeit der Testteilnehmenden und der Test- bzw. AufgabenschwierigkeitAufgabenschwierigkeit auch der Fehler bei der Messung der individuellen Leistung tendenziell zunimmt.

      4.2.2.2 AufgabenreliabilitätReliabilitätAufgabenreliabilität

      AufgabenreliabilitätReliabilitätAufgabenreliabilität bedeutet u.a., dass die AufgabenAufgaben – unter Einschluss der Instruktion, Situierung sowie InputmaterialienAufgabenInputmaterial – eine über die betreffenden Aufgaben hinausgehende Generalisierung hinsichtlich der zu erwartenden Leistungen bei äquivalenten TestaufgabenAufgabenTestaufgaben, Testsituationen, BewertungskriterienBeurteilungskriterien und Beurteilenden erlauben (Gültigkeit der sogenannten Generalisierungsinferenz). Gerade bei Schreibaufgaben ist das Erreichen einer zufriedenstellenden AufgabenreliabilitätReliabilitätAufgabenreliabilität im Sinne von statistischer Generalisierbarkeit ein massives Problem, da die Art der eingesetzten Aufgaben einen deutlichen Einfluss auf das Messergebnis haben kann. So führen Unterschiede im Genre (z.B. zwischen Erzählungen und Beschreibungen) oder auch Aufgaben mit unterschiedlichen thematischen Schwerpunkten oder mit unterschiedlichen Zeitvorgaben bei den gleichen Testteilnehmenden häufig zu deutlich divergierenden Messwerten. Zudem konnten z.T. massive Wechselwirkungen zwischen Aufgabe, Beurteilenden und BeurteilungskriterienBeurteilungskriterien nachgewiesen werden (vgl. z.B. Bouwer, Béguin, Sanders & van den Bergh, 2015; In’nami & Koizumi, 2016; Schoonen, 2005; Van Steendam, Tillema & Rijlaarsdam, 2012).

      Das Problem der AufgabenreliabilitätReliabilitätAufgabenreliabilität stellt sich gerade auch im unterrichtlichen СКАЧАТЬ