Schreibkompetenzen in der Fremdsprache. Группа авторов
Чтение книги онлайн.

Читать онлайн книгу Schreibkompetenzen in der Fremdsprache - Группа авторов страница 17

СКАЧАТЬ ein weit gefasstes Konstrukt „Schreibkompetenz“ interpretieren. Angesichts des Einflusses insbesondere der eingesetzten AufgabenAufgaben auf das Messergebnis, sollte ein Urteil über ein breit definiertes Konstrukt stets auf mehreren, in ihren Anforderungen deutlich unterschiedlichen Schreibaufgaben beruhen. Werden nur eine Schreibaufgabe oder mehrere vom Typ her homogene Aufgaben eingesetzt (z.B. Aufgaben zum Schreiben argumentativer Texte), dann ist die Breite des Konstrukts hinreichend einzuschränken (z.B. als Fähigkeit zum Schreiben argumentativer Texte).

      Ist der Einsatz mehrerer Schreibaufgaben innerhalb einer Prüfung nicht möglich, sollte zumindest zeitlich versetzt mit unterschiedlichen AufgabenformatenAufgabenformate geprüft werden. Sind aus Gründen der PraktikabilitätPraktikabilität lediglich kurze Textproduktionen gefordert, sollte man sich zudem darüber im Klaren sein, dass möglicherweise andere Kompetenzen erfasst werden als anhand von längeren Texten (z.B. im Bereich KohärenzKohärenz/KohäsionKohäsion; vgl. Kapitel 5, 6 und 8). Die Beispiele zeigen zugleich, dass eine Erhöhung der ReliabilitätReliabilität, z.B. durch Vergrößerung der Zahl der AufgabenAufgaben, zwar prinzipiell wünschenswert ist, aber nicht notwendigerweise auch zu einer valideren Messung führt und unter bestimmten Voraussetzungen die ValiditätValidität (im Sinne von Konstruktrepräsentation) sogar verringern kann (vgl. zum Verhältnis von ReliabilitätReliabilität und ValiditätValidität sowie zur Unterrepräsentation des Konstrukts auch Kapitel 4.2.3.3).

      4.2.2.3 Kriterien- und BeurteilerreliabilitätReliabilitätBeurteilerreliabilität

      Die KriterienreliabilitätReliabilitätKriterienreliabilität bezieht sich auf den Einfluss der eingesetzten Kriterien, Skalen und Raster (z.B. holistische oder analytische Skala; Fokus der jeweiligen Skala) auf die Beurteilung von Schreibkompetenzen (vgl. auch Kapitel 6). Entsprechend wird im vorliegenden Band zuweilen auch der Begriff SkalenreliabilitätReliabilitätSkalenreliabilität verwendet.

      Die BeurteilerreliabilitätReliabilitätBeurteilerreliabilität erfasst den Einfluss der eingesetzten Bewertenden auf das resultierende Urteil. Dabei ist zwischen der Intrarater-ReliabilitätReliabilität und der Interrater-Reliabilität zu unterscheiden. Bezogen auf den Unterrichtskontext bedeutet dies u.a.: Eine hinreichende Intrarater-Reliabilität ist dann gegeben, wenn ein und dieselbe Lehrkraft sich bei der Beurteilung der Schreibprodukte seiner Schülerinnen und Schüler in konsistenter Weise an den BewertungskriterienBeurteilungskriterien orientiert (z.B. die Kriterien bei den einzelnen Schülerinnen und Schülern in vergleichbarer Weise interpretiert oder auch in vergleichbarer Weise streng oder milde urteilt). Eine hinreichende Interrater-Reliabilität ist gegeben, wenn unterschiedliche Lehrkräfte bei der Bewertung ein und desselben Schreibprodukts an Hand derselben Kriterien in ihrem Urteil möglichst weitgehend übereinstimmen, d.h. z.B. nur wenig differierende Punktzahlen vergeben oder die Schülerinnen und Schüler zumindest in eine weitgehend gleiche Rangreihe bringen.

      4.2.2.4 RetestreliabilitätReliabilitätRetestreliabilität

      Schließlich sollte im Sinne der sogenannten RetestreliabilitätReliabilitätRetestreliabilität (Testwiederholungsreliabilität) ein erneuter Einsatz ein und desselben Schreibkompetenztests bei den gleichen Schülerinnen und Schülern zu einer annähernd gleichen Einschätzung der Schreibkompetenz führen, sofern sich in der Zwischenzeit die Schreibkompetenz – verstanden als relativ stabile Disposition – nicht z.B. aufgrund des Unterrichts (deutlich) verändert hat und es keine Transfereffekte gibt. ReliabilitätReliabilität der eingesetzten Beurteilenden, AufgabenAufgaben und Kriterien sind wichtige Voraussetzungen für eine adäquate TestwiederholungsreliabilitätReliabilitätRetestreliabilität.

      Aufgrund der komplexen Wechselwirkungen zwischen Merkmalen der getesteten Person, Merkmalen der Aufgabe, Merkmalen der BewertungskriterienBeurteilungskriterien, Merkmalen der Bewertenden und Merkmalen des produzierten Textes ist der spezifische Einfluss der eingesetzten AufgabenAufgaben, der verwendeten Kriterien und Skalen sowie der jeweiligen Beurteilenden auf die ReliabilitätReliabilität des resultierenden Messwerts nur sehr eingeschränkt und mit hohem Aufwand abschätzbar. Aufgrund der Wechselwirkungen sind in der Regel die üblichen Maße der Beurteilerübereinstimmung auch nicht als Maß der ReliabilitätReliabilität z.B. der Ratingskala selbst, d.h. als inhärente Eigenschaft der Skala, zu interpretieren, sondern als Maß der Zuverlässigkeit der Ratingskala in Verbindung mit bestimmten Aufgaben und Ratern in einer bestimmten Stichprobe. Wir werden auf die ReliabilitätReliabilität der Beurteilung und insbesondere auf die Frage nach der ReliabilitätReliabilität der verwendeten Kriterien und Skalen noch in Kapitel 6 zurückkommen.

      4.2.2.5 Verlässlichkeit von Entscheidungen

      Ordnet man Testteilnehmende verschiedenen KompetenzniveausKompetenzniveau zu, handelt es sich um sogenannte absolute Entscheidungen. Diese stellen höhere Anforderungen an die Messgenauigkeit als sogenannte relative Entscheidungen, die lediglich die Rangordnung der Testteilnehmenden betreffen (vgl. Sawaki, 2016 sowie auch die Ausführungen zur kriteriumsorientierten vs. bezugsgruppenorientiertenEvaluationkriteriumsorientiertEvaluationgruppenorientiert Evaluation in den Kapiteln 3.2.1 und 6.3).

      Unterteilt man die Testwerteverteilung mit Hilfe von Schwellenwerten (Trennwerten; Cut-Scores) in KompetenzniveausKompetenzniveau, dann ist im Fall eines hohen Standardmessfehlers (vgl. Kapitel 4.2.2.1) die Klassifikation von Teilnehmenden mit Testwerten in der Nähe der Schwellenwerte mit einer hohen Unsicherheit und Gefahr der Fehlklassifikation verbunden. Muss z.B. für die Zulassung zu einem Kurs eine bestimmte Punktzahl erreicht werden, dann ist bei einem Ergebnis knapp unter oder knapp über dem geforderten Wert im Fall eines hohen Standardmessfehlers die Gefahr einer Fehlentscheidung tendenziell größer als im Fall eines geringen Standardmessfehlers. Hierüber sollte man sich beim Einsatz von Schreibprüfungen für Klassifikationsentscheidungen im Klaren sein. Genauere Aussagen zur tatsächlichen Verlässlichkeit von Klassifikationsentscheidungen im Hinblick auf spezifische Trennwerte lassen sich mit Hilfe von speziell für kriteriale Messungen entwickelten Koeffizienten treffen (vgl. z.B. Brown & Hudson, 2002; Hudson, 2014; Sawaki, 2016).

      4.2.2.6 Generalisierbarkeit von Schreibleistungen

      Wie oben bereits angedeutet, belegt mittlerweile eine zunehmende Zahl von statistischen Generalisierbarkeitsstudien, dass der Anteil der Varianz in den Messwerten, der auf die jeweilige Methode der Messung – und zwar insbesondere auf die Facetten „AufgabenAufgaben“ und „Beurteilende“ – zurückzuführen ist, zum Teil größer ist als der Anteil, der durch Unterschiede in der Schreibkompetenz bedingt ist (vgl. z.B. Bouwer et al., 2015; Van Steendam, Tillema & Rijlaarsdam, 2012). Insbesondere der starke Effekt von Genre und ThemaThemen auf die Schreibleistung sollte in der unterrichtlichen Prüfungspraxis verstärkt beachtet werden. Geht man von einer weiten Definition von Schreibkompetenz aus, dann reicht es nicht aus, zur Überprüfung nur auf ein einziges Genre und Thema zurückzugreifen.

      Außerdem ist noch kritisch anzumerken, dass die beobachteten Aufgabeneffekte nicht notwendigerweise als konstruktirrelevant anzusehen sind. Konzeptualisiert man Schreibkompetenz nicht als eine stabile Disposition, sondern als dynamisches, kontextuell variierendes mehrdimensionales und sich nichtlinear entwickelndes Konstrukt (vgl. z.B. Chalhoub-Deville, 2003; Mislevy & Yin, 2009; Van Steendam, Tillema & Rijlaarsdam, 2012, S. xx; Verspoor, Schmid & Xu, 2012), dann ist in Abhebung von der Generalisierbarkeitstheorie die Varianz, die auf die eingesetzten AufgabenAufgaben zurückgeht, als konstruktrelevant zu interpretieren (vgl. auch Bouwer et al., 2015, S. 96). Folgt man dieser Argumentation, hätte dies allerdings u.a. zur Folge, dass Aussagen zum Stand der Schreibkompetenzen stets einschränkend im Hinblick auf die eingesetzten Aufgaben zu formulieren sind, z.B. als Fähigkeit zum Schreiben argumentativer und deskriptiver Texte (vgl. auch die Ausführungen zum TestkonstruktTestkonstrukt in Kapitel 5).

      Abschließend СКАЧАТЬ