Testen und Bewerten fremdsprachlicher Kompetenzen. Barbara Hinger
Чтение книги онлайн.

Читать онлайн книгу Testen und Bewerten fremdsprachlicher Kompetenzen - Barbara Hinger страница 15

СКАЧАТЬ 1997). Diese Auswirkungen können positiv oder negativ sein (Brown & Hudson 2002) bzw. als solche wahrgenommen werden (Alderson & Wall 1993) und sowohl Individuen (LernerInnen, LehrerInnen, …) als auch Systeme betreffen. Sprachtests entscheiden bspw. über Zugang zu tertiärer Bildung (Abitur, Reife- oder Diplomprüfung), Zulassung zu Arbeits- und Studienmöglichkeiten im Ausland (z.B. Pearson Academic Test of English (PTE Academic), Test of English as a Foreign Language (TOEFL), International English Language Testing System (IELTS), Occupational English Test (OET) etc.) oder auch über Einwanderungs- und Einbürgerungsbescheide (McNamara & Roever 2006).

      Auswirkungen von Tests auf Institutionen, größere schulische oder politische Systeme oder die Gesellschaft als Ganzes werden gemeinhin als ImpactWashback: Auswirkungen eines Tests auf den Unterricht, das Lernen und Lehren sowie die involvierten Personen bezeichnet. Als Washback (oder auch BackwashBackwash) wird speziell der Rückkoppelungseffekt benannt, den Tests auf das Lehren und Lernen von Sprachen, also den Schulunterricht, haben (Hughes 2003)Impact: Auswirkungen von Tests auf das soziale oder politische System und auf das Bildungssystem. Was Teil eines Tests ist, wird im Allgemeinen als wichtig, lern- und unterrichtenswert wahrgenommen. Testinhalte und -praktiken wirken daher oft in verschiedenen Formen auf den Fremdsprachenunterricht. Dies ist sogar wünschenswert, denn Lehren, Lernen und Testen sollten nicht abgekoppelt voneinander oder isoliert betrachtet werden, sondern als gegenseitige Ergänzung und damit integriert gesehen werden (s. Kapitel 10). Es gilt dabei für LehrerInnen, den Balanceakt zwischen solider Testvorbereitung und dem zu Recht kritisch gesehenen teaching-to-the-testteaching-to-the-testTeaching-to-the-test: Unterricht, der ausschließlich auf Testvorbereitung ausgerichtet ist zu meistern. Cheng (2008) hält fest, dass Tests häufig beeinflussen, was gelehrt wird, aber nur bedingt, wie unterrichtet wird (s. auch Alderson & Wall 1993; Cheng 2005), was damit zusammenhängen mag, dass Inhalte einfacher zu gestalten, zu ändern und umzusetzen sind als Unterrichtsmethoden, die meist auf langjähriger Praxis beruhen.

      Das Kriterium des erwarteten positiven Washbacks wird von vielen als derart wichtig eingestuft, dass es mittlerweile auch als Basis einiger prominenter Validierungsmodelle fungiert. Bachman & Palmers (2010) assessment use argument geht beispielsweise davon aus, dass der Start- und Endpunkt jeglicher Testkonstruktion und -verwendung die Frage nach den erwünschten Konsequenzen sein muss. Während die Auswirkungen von Tests bereits in früheren Validitätskonzeptionen mitgedacht wurden (vgl. Messick 1989; Weir 2005a), baut Bachman & Palmers Ansatz deutlich stärker auf diesem Kriterium auf und stellt es gewissermaßen über die anderen Prinzipien. Eine Fokussierung auf die Frage nach dem „Warum“ des Testens ist zwar wünschenswert, dennoch birgt eine solche Schwerpunktsetzung durchaus Probleme in sich, da Konsequenzen nur selten abzuschätzen und klar zu bewerten sind (Bailey 1996; Fulcher 2014). McNamara (2000) hält fest, dass WashbackWashback nicht nur von einem Testinstrument selbst, sondern auch von zahlreichen anderen Faktoren wie den lokalen Bedingungen in einer Klasse, den etablierten Lehr- und Lerntraditionen, der Motivation der Beteiligten und der Interaktionsdynamik in einer Lerngruppe abhängig sein kann. In diesem Sinne ist es wichtig, die individuellen und sozialen Konsequenzen von Tests zu berücksichtigen und ggf. auch entsprechend zu hinterfragen.

      Hughes (2003) schlägt Fremdsprachenlehrenden folgende Strategien vor, um positiven Washback für den Unterricht zu erwirken:

       Überprüfen Sie die sprachlichen Fertigkeiten, Fähigkeiten und Kompetenzen, die Sie fördern wollen, anstatt das zu überprüfen, was sich leicht überprüfen lässt.

       Testen Sie direkt und authentisch, um die Kongruenz zwischen Unterrichtszielen und Testschwerpunkten zu erhöhen.

       Stellen Sie sicher, dass LernerInnen mit dem Test, seinen Formaten und Anforderungen vertraut sind.

       Bewerten Sie kriterienorientiertkriterienorientierte Bewertung anstatt normorientiertnormorientierte Bewertung, um den LernerInnen ein klares Bild über ihre Erfolge und Entwicklungen zu ermöglichen, unabhängig von der Performanz anderer.

       Tauschen Sie sich mit FachkollegInnen über Tests und Bewertungsmethoden aus.

      Wall & Alderson (1993), Cheng, Watanabe & Curtis (2004) sowie Cheng (2008) merken jedoch in ihren Studien und Analysen an, dass ein Washback-Effekt nicht zwangsläufig entstehen muss. Vielmehr obliegt es LehrerInnen und TestexpertInnen systematisch zu untersuchen, ob ein solcher Effekt vorhanden ist und wie dieser zu interpretieren ist.

      4.2.3 PraktikabilitätPraktikabilität

      Jede Entwicklung, Durchführung und Auswertung von Sprachtests erfordert menschliche, räumliche und/oder finanzielle Ressourcen. Sprachtests müssen daher praktikabel und rentabel sein. Das Gütekriterium der PraktikabilitätPraktikabilität: Kosten-Nutzen-Rechnung: Ein Test ist praktikabel, wenn er nicht mehr Ressourcen in Anspruch nimmt als nötig. ist kaum zu unterschätzen. Bachman & Palmer (2010, 232) definieren Praktikabilität als einfache Gleichung, die ein positives Ergebnis aufweisen sollte: Praktikabilität = verfügbare Ressourcen – benötigte Ressourcen.

      Praktikable Tests sind demnach Tests, deren Entwicklung und Verwendung nicht mehr Ressourcen benötigen als vorhanden sind. Ressourcen können dabei sowohl finanzieller, materieller, zeitlicher, personen- oder kompetenzbezogener Natur sein (Bachman & Palmer 2010). Ein Test muss einfach und kostengünstig zu erstellen, zu administrieren, auszuwerten und zu interpretieren sein (Hughes 2003). Das Kriterium der Praktikabilität betrifft beinahe alle Entscheidungen, die im Rahmen der Testerstellung und -durchführung getroffen werden. Dies gilt sowohl im Rahmen von Klassen-/Schularbeiten oder Mitarbeitsüberprüfungen als auch für QualifikationsprüfungenQualifikationsprüfung wie das deutsche Abitur oder die österreichische teilzentrale SRDP. Selbstverständlich ist zu beachten, dass Tests, bei denen mehr für alle Beteiligten auf dem Spiel steht, auch ein größeres Volumen an Ressourcen erfordern dürfen und müssen, als dies bei Klassen-/Schularbeiten der Fall ist, um sicherzustellen, dass die Testgütekriterien der Validität und Reliabilität erfüllt sind (Bachman & Palmer 1996).

      Sind Tests nicht praktikabel, werden sie entweder nicht eingesetzt oder sie sind auf Dauer nicht verwend- oder recyclebar (Bachman & Palmer 2010). Die Praktikabilität eines Tests ist schon vor Beginn der Testentwicklung zu bedenken. Sie soll jedoch keine leichtfertige Ausrede für eventuelle Schwächen eines Tests, wie z. B. den Verzicht auf PilotierungPilotierung oder Ähnliches sein. Im schulischen Kontext kann besonders die Arbeit mit FachkollegInnen anderer Klassen helfen, Tests trotz limitierter Ressourcen nach einem Best Practice-Modell zu erstellen und durchzuführen.

      4.3 Neuere Konzeptionen

      Bei dieser Vielzahl an Kriterien, die zu berücksichtigen sind, wäre es unrealistisch, eine hundertprozentige Umsetzung in allen Bereichen zu erwarten (Bachman & Palmer 1996). Die Überprüfung einer Sprache besteht immer aus Kompromissen, bei denen die einzelnen Kriterien abhängig vom Zweck des Tests/der Prüfung gegeneinander abgewogen werden müssen. Ein Test mit denkbar höchster ValiditätValidität und ReliabilitätReliabilität wird nicht verwendet werden, wenn er beispielsweise nicht praktikabel ist.

      Die Konzeptualisierungen all der oben genannten Prinzipien sowie deren Beziehungen zueinander unterlagen über die Jahrzehnte einem ständigen Wandel. Alle Prinzipien eint allerdings die zentrale Rolle der Validität, wie auch immer diese definiert sein mag. So sieht beispielsweise Weir (2005a) eine Rückwirkung aller oben genannten Prinzipien auf die Gesamtvalidität eines Tests und verankert diese terminologisch, indem er sie als „scoring validity“ (= u.a. Reliabilität), „context validity“ (= u.a. AuthentizitätAuthentizität) oder „consequential validity“ (= u.a. WashbackWashback) bezeichnet. Da Validität jedoch ein komplexes und abstraktes Konzept ist, wird der Fokus in neueren Modellen oft weg vom theoretischen СКАЧАТЬ