Название: Schreibkompetenzen in der Fremdsprache
Автор: Группа авторов
Издательство: Bookwire
Жанр: Документальная литература
Серия: narr studienbücher
isbn: 9783823300595
isbn:
4.2.3 ValiditätValidität
Die ValiditätValidität (Gültigkeit) gilt als das wichtigste GütekriteriumGütekriterien eines Tests. Es handelt sich allerdings um ein komplexes, kontrovers diskutiertes „polymorphes Konzept“ (Eckes, 2015b), das häufig in einem sehr weiten und unscharfen Sinne oder auch in sehr unterschiedlichen und z.T. inkompatiblen Bedeutungen verwendet wird (vgl. Newton & Shaw, 2014, 2016). Bevor man ValiditätValidität als TestgütekriteriumGütekriterien verwendet, ist deshalb stets zu klären, von welchem Verständnis des Konzepts man ausgeht.
4.2.3.1 ValiditätValidität als umfassendes Konzept
ValiditätValidität kann sich zunächst einmal auf das Ausmaß beziehen, in dem die Testergebnisse das erfassen, was sie erfassen sollen oder auch inwieweit wir mit Hilfe der Testergebnisse auf die angezielten fremdsprachlichen Verwendungskontexte extrapolieren können (Gültigkeit der Extrapolationsinferenz). Weiterhin kann sich ValiditätValidität auf die Frage beziehen, inwieweit die mit Hilfe der Testergebnisse getroffenen Entscheidungen gerechtfertigt sind. Die ValiditätValidität wird damit als von der Interpretation und Verwendung der Testergebnisse abhängig gesehen (vgl. bereits Messick, 1989, 1996, 1998). Ändert sich die Interpretation und/oder Verwendung oder sprechen neue theoretische und/oder empirische Belege für oder gegen die bisherige Interpretation und Verwendung, ist auch die ValiditätValidität jeweils neu zu bewerten (vgl. hierzu auch Moss, 2016).
Der beschriebene Sachverhalt spiegelt sich auch in der folgenden Definition von ValiditätValidität in der jüngsten Auflage der international höchst einflussreichen Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014) wider:
Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests. The process of validation involves accumulating relevant evidence to provide a sound scientific basis for the proposed score interpretations. It is the interpretations of test scores for proposed uses that are evaluated, not the test itself. (S. 11)
Es ist allerdings nicht unumstritten, inwieweit bei der Bewertung der ValiditätValidität die Verwendung der Testwerte überhaupt eine Rolle spielen sollte. So schließen einige Autoren diesen Aspekt explizit aus ihrem Verständnis von ValiditätValidität aus und propagieren ein eher enges, konservatives Konzept von ValiditätValidität. Dies bedeutet allerdings nicht, dass diese Autoren die Wichtigkeit der Testwertverwendung für die Bewertung der Qualität eines Testinstruments negieren (vgl. die Diskussion dieses Aspekts in Kane, 2016; Markus, 2016; Newton & Shaw, 2016; Sireci, 2016).
Für eine explizite Ausweitung der ValiditätstheorieValidität in Richtung auf eine stärkere Berücksichtigung der tatsächlichen Verwendung von Testergebnissen in der Praxis spricht sich u.a. Moss (2016) aus – und zwar mit folgendem Argument:
By focusing validity theory exclusively on intended interpretations and uses of test scores, we overlook an important aspect of how tests actually inform and impact teaching and learning. Intended interpretations from standardised tests are always locally mediated and provide, at best, partial answers to local questions … A comprehensive validity theory in educational assessmentassessment needs to acknowledge the ways that education professionals – teachers, school and district leaders, and policy-makers – use tests and other evidence relevant to their students learning in their ongoing work. (S. 247)
Bei der Betrachtung der ValiditätValidität als umfassendes Konzept können eine Reihe von Einzelaspekten unterschieden werden. ObjektivitätObjektivität und ReliabilitätReliabilität (Generalisierbarkeit/Verlässlichkeit) gelten zumeist als notwendige, jedoch nicht hinreichende Voraussetzungen für ValiditätValidität. Dies bedeutet, dass eine hohe ObjektivitätObjektivität und ReliabilitätReliabilität nicht notwendigerweise auch eine hohe ValiditätValidität implizierten, dass aber ohne eine hinreichende ObjektivitätObjektivität und ReliabilitätReliabilität keine ausreichende ValiditätValidität erreicht werden kann (vgl. auch Hartig, Frey & Jude, 2012). So hat z.B. ein in hohem Maße objektiver und reliabler computerbasiertercomputerbasiertes Testen LexiktestLexik im Hinblick auf die Messung eines breiten Konstrukts von Schreibkompetenz nur eine sehr eingeschränkte ValiditätValidität. Gleichzeitig gilt, dass eine Beurteilung von Schreibkompetenzen anhand von unzuverlässigen Kriterienrastern und Bewertenden nicht hinreichend valide sein kann – z.B. im Sinne einer Übereinstimmung mit einem unabhängigen Außenkriterium. Vor diesem Hintergrund ist bei der Betrachtung der ValiditätValidität von Schreibaufgaben eine Berücksichtigung der GütekriterienGütekriterien der ObjektivitätObjektivität und ReliabilitätReliabilität und der verwendeten BewertungskriterienBeurteilungskriterien unverzichtbar.
Legt man allerdings ein sehr enges Verständnis von ValiditätValidität zugrunde, bei dem es lediglich darum geht, inwieweit die zu messenden Kompetenzen die Unterschiede in den Messergebnissen kausal bewirken, dann ist eine hohe ReliabilitätReliabilität weder notwendig noch hinreichend für die Erfüllung des Kriteriums der ValiditätValidität. Nach diesem Verständnis können Schreibaufgaben durchaus valide sein, auch wenn sie die angezielten Schreibkompetenzen wenig reliabel messen (vgl. zu dieser Position Markus, 2016, S. 256f.; Markus & Borsboom, 2013, S. 64; Newton & Shaw, 2016, S. 283f. sowie auch die Ausführungen zur KonstruktvaliditätValiditätKonstruktvalidität weiter unten).
Üblicherweise versucht man bereits beim Design und der Entwicklung eines Tests u.a. durch eine genaue Spezifikation der Testziele und des TestkonstruktsTestkonstrukt sowie durch strenge Qualitätskontrollen bei der Entwicklung der AufgabenAufgaben und Beurteilungsskalen soweit a priori möglich die ValiditätValidität eines Tests zu gewährleisten (Design-ValiditätValidität oder a priori ValiditätValidität; vgl. auch Kim & Davidson, 2014; Mislevy & Yin, 2012). Zum (vorläufigen) Nachweis der ValiditätValidität eines vorliegenden Tests im Hinblick auf eine bestimmte Verwendung bedarf es allerdings, wie bereits angedeutet, einer mehr oder minder komplexen Argumentation unter Rückgriff auf theoretische Überlegungen und empirische Befunde. Folgt man Kane (2012, 2013, 2016), dann besteht der erste Schritt dabei in einer möglichst detaillierten Spezifikation der vorgesehenen Interpretationen und Verwendungen der Testwerte (Interpretations- und Verwendungsargument). Anschließend ist in einem zweiten Schritt die Gesamtplausibilität der Interpretationen und Verwendungen zu prüfen (ValiditätsargumentValidität; vgl. auch Chapelle, 2012; Eckes, 2015b). Hierbei wird man z.B. im Fall eines eher informellen unterrichtsbezogenen SchreibtestsEvaluationinformell geringere Ansprüche an die argumentbasierte Validierung stellen als bei einem Hochschulzulassungstest wie dem TOEFL iBT oder IELTS (vgl. das umfassende ValiditätsargumentValidität zum TOEFL iBT in Chapelle, Enright & Jamieson, 2008 sowie auch Chapelle & Voss, 2014, S. 1091f.). Zentrale Kriterien sind aber in allen Fällen die Klarheit und KohärenzKohärenz des Gesamtarguments sowie die Plausibilität der einzelnen Inferenzen und der impliziten und expliziten Annahmen.
Es kann konzeptuell zwischen einer Reihe von Einzelaspekten der ValiditätValidität als übergreifendes Konzept oder auch – in Übereinstimmung mit den Standards for Educational and Psychological Testing (American Educational Research Association et al., 2014, S. 13ff.) – zwischen unterschiedlichen Quellen für die Begründung der ValiditätValidität differenziert werden. Da die Ergebnisse der Evaluation von Schreibkompetenzen u.a. von den eingesetzten AufgabenAufgaben, von den verwendeten BewertungskriterienBeurteilungskriterien und von den jeweiligen Beurteilenden abhängen, СКАЧАТЬ