Schreibkompetenzen in der Fremdsprache

Bettina Akukwe / Rüdiger Grotjahn / Stefan Schipolowski

Narr Francke Attempto Verlag Tübingen

Inhalt

Fußnoten

1.2 Inhalte des vorliegenden Bands

Das IQB ist ein wissenschaftliches Institut, das die Länder in der Bundesrepublik Deutschland bei der Qualitätsentwicklung und Qualitätssicherung im allgemeinbildenden Schulsystem unterstützt. Den Ausgangspunkt und die Grundlage dieser Arbeit bilden Bildungsstandards, die von der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (KMK) verabschiedet worden sind. Auf Basis der Bildungsstandards werden am IQB Tests entwickelt, mit denen überprüft werden kann, welche Kompetenzen Schülerinnen und Schüler bis zu einem bestimmten Zeitpunkt in ihrer Schullaufbahn entwickelt haben.

2.4 Curriculare Vorgaben und Lehrwerke

Ähnliche Ausführungen finden sich in vielen weiteren Lehrplänen der Länder – so z.B. im Rahmenlehrplan RLP-Online Berlin-Brandenburg (siehe http://bildungsserver.berlin-brandenburg.de/rlp-online/startseite/).

3.3 Funktionen der Evaluation

Kniffka (2016, S. 404f.) unterscheidet zwischen Lernstandserhebung und Lernstandsdiagnostik. Im ersten Fall ist die Evaluationsebene die Schule und/oder die Klasse bzw. Lerngruppe, im zweiten Fall geht es um die Erfassung von individuellen Lernständen.

4.1 Evaluation von Schreibkompetenzen: Spezifika

Kompetenz ist im vorliegenden Band im Sinne eines nicht unmittelbar beobachtbaren latenten Merkmals und komplexen theoretischen Konstrukts zu verstehen. Schreibleistungen sind damit lediglich mehr oder minder reliable und valide Indikatoren für die zu messenden Schreibkompetenzen, dürfen aber nicht mit diesen gleich gesetzt werden (vgl. die tiefer gehenden Ausführungen zum Kompetenzbegriff und zum Testkonstrukt in Kapitel 5).

ReliabilitätReliabilität als umfassendes Konzept

Geht es speziell um die Verlässlichkeit von kriterialen Entscheidungen, wird in englischsprachigen Publikationen in Abhebung zum klassischen Konzept der Reliabilität auch der Terminus dependability verwendet (vgl. Hudson, 2014; Jones, 2012; Sawaki, 2016). Dabei kann zwischen der Konsistenz und der Genauigkeit von Entscheidungen differenziert werden.

Reliabilität im Sinne einer bezugsgruppenorientierten Evaluation auf der Basis der klassischen Testtheorie ist deutlich zu unterscheiden von der Konzeptualisierung von Reliabilität im Rahmen einer kriteriumsorientierten Evaluation (zum Unterschied zwischen bezugsgruppenorientierter und kriteriumsorientierter Evaluation vgl. Kapitel 3.2.1 und 6.3). Zur Reliabilität im Sinne von dependability und zu statistischen Verfahren zur Beurteilung des Grades des Verlässlichkeit (Konsistenz, Genauigkeit) kriterialer Entscheidungen siehe z.B. Brown & Hudson (2002), Hudson (2014), Jones (2012) und Sawaki (2016).

Das sogenannte Multifacetten-Rasch-Modell ermöglicht ebenfalls eine Berücksichtigung systematischer konstruktirrelevanter Einflüsse. Zusätzlich erlaubt dieses Modell auch eine Adjustierung der Ergebnisse der Testteilnehmenden in Form sogenannter fairer Werte (vgl. z.B. Eckes, 2010, 2015a). In Anbetracht der Komplexität des Modells und der für den Einsatz notwendigen relativ großen Teilnehmergruppen werden wir im vorliegenden Band nicht weiter auf das Multifacetten-Rasch-Modell eingehen.

Scoring-ValiditätValiditätScoring-Validität

Dies bedeutet nicht, dass Weir (2005) und Shaw & Weir (2007) auf die Verwendung des Begriffs der Reliabilität und auf die Diskussion spezifischer Aspekte der Messgenauigkeit verzichten (vgl. Weir, 2005, S. 22ff.).

RückwirkungRückwirkung

Insbesondere wenn es um die Rückwirkung des Testens auf den unterrichtlichen Mikrokontext des Lehrens und Lernens geht, wird in englischsprachigen Publikationen häufig von washback (oder auch backwash) gesprochen. Impact wird dagegen zumeist als übergeordnetes Konzept zur Bezeichnung gesellschaftlicher makrokontextueller Rückwirkungseffekte von Tests verwendet – z.B. im Zusammenhang mit Zuwanderung und Einbürgerung (vgl. z.B. Saville & Khalifa, 2016). Werden die Termini Washback oder Backwash in deutschsprachigen Publikationen benutzt, beziehen sie sich dagegen zumeist auch auf den Makrokontext.

5 Testkonstrukt und Testspezifikationen

Entsprechend dieser Sicht kann ein Testkonstrukt aus mehreren (psychometrisch) unterscheidbaren Komponenten bestehen. Außerdem können einer Menge von Prüfungsaufgaben oder auch einer einzelnen Prüfungsaufgabe mehrere (psychometrisch) unterscheidbare Testkonstrukte zugrunde liegen (siehe auch die Kapitel 5.4.6 und 5.4.7 sowie Kapitel 6). Dieser Sachverhalt ist zu beachten, wenn im Folgenden vereinfachend von dem Testkonstrukt gesprochen wird.

5.1 Aufgabenbasierte Evaluation von Schreibkompetenzen

Vgl. auch die Beschreibung der in der DESI-Studie eingesetzten Schreibaufgaben durch Harsch, Neumann, Lehmann & Schröder (2007, S. 44): „Schulische Aufsätze, wie sie auch den Testkonzepten von DESI zu Grunde liegen, sind Texte, die in einer künstlich geschaffenen Situation entstehen, in der die Probanden wissen, dass sie für einen fiktiven Empfänger schreiben. Dieser – in der schulischen Praxis normalerweise der Lehrer – bewertet ihre ‚Arbeiten‘. In dieser spezifischen Situation ist die Authentizität nur noch bedingt vorhanden … Dennoch sind handlungsorientierte Testaufgaben zumindest Annäherungen an die außerschulische Wirklichkeit, weshalb sich von diesen in gewissem Rahmen Verallgemeinerungen auf die kommunikative Handlungsfähigkeit im realen Leben ableiten lassen.“

5.2 Kompetenz: begriffliche Klärungen

In der englischsprachigen Literatur nordamerikanischer Provenienz findet man insbesondere zur Bezeichnung von Qualifikationsvoraussetzungen für bestimmte berufsbezogene Tätigkeiten zunehmend auch das Akronym KSA. KSA steht für knowledge, skills und abilities und bezeichnet ähnlich wie der Begriff Kompetenz zumeist ein komplexes Konstrukt bestehend aus deklarativem Wissen, prozeduralen Fertigkeiten und (auf Anlage beruhenden) Fähigkeiten (vgl. auch Krumm, Mertin & Dries, 2012, S. 9ff.). Ein aktuelles Beispiel für die Verwendung des Akronyms im Kontext der Evaluation von L2-Kompetenzen ist Purpura (2016).

5.4 Definition des Testkonstrukts: grundlegende Aspekte

Chapelle (1998) verwendet die Begriffe behaviorist approaches/perspectives, trait approaches/perspectives und interactionalist approaches/perspectives. Messick (1981, 1989) diskutiert auch Übergangsformen und kombinierte Ansätze.

5.4.2 Traitzentrierte Ansätze

Entsprechend definiert Messick (1989) Trait folgendermaßen: „A trait is a relatively stable characteristic of a person – an attribute, enduring process, or disposition – which is consistently manifested to some degree when relevant, despite considerable variation in the range of settings and circumstances“ (S. 15; Hervorhebung im Original) Unter den Begriff Trait fallen damit sowohl an bestimmte Problemlösungssituationen gebundene Kompetenzen als auch spezifische Kontexte und Domänen übergreifende Merkmale wie Intelligenz (vgl. Kapitel 5.2).

5.4.3 Interaktionale Ansätze

Vgl. auch die Aufteilung der Messfehler im Rahmen der Generalisierbarkeitstheorie in einen nichtsystematischen Anteil (Zufallsfehler) und einen Kontexteinflüsse berücksichtigenden systematischen konstruktirrelevanten Anteil (siehe Kapitel 4.2.2 im vorliegenden Band). Vgl. ferner die Berücksichtigung von Situations- und Aufgabeneffekten im Rahmen von Latent-State-Trait-Theorien (Kelava & Schermelleh-Engel, 2012) und Multitrait-Multimethod-Analysen (Schermelleh-Engel & Schweizer, 2012). Eine systematische Korrektur von die Fairness mindernden Situations- und Aufgabeneffekten erlaubt das bei der Messung von Schreibkompetenzen zunehmend eingesetzte Multifacetten-Rasch-Modell (vgl. Eckes, 2010; 2015).

Vgl. auch die Beschreibung der Konzepte der internen und externen „Interactiveness“ in Bachman & Palmer (1996, S. 62; 2010, S. 34) sowie die Diskussion der Dialektik von Fähigkeiten und Kontext in Bachman (2007).

5.4.4 Interaktionistische Ansätze

Der von mir als „interaktionistisch“ bezeichnete Ansatz kann auch als eine extreme Variante des in Abbildung 1 dargestellten interaktionalen Ansatzes gesehen werden. Der interaktionistische Ansatz ist nicht zu verwechseln mit dem „interactionist approach“ im Sinne von Purpura (2016). Purpura unterscheidet folgende Ansätze der Konstruktdefinition: 1trait-based; 2task-centered; 3interactionist; 4sociointeractional. Dabei ordnet der Autor die Ansätze von Bachman (1990) und Bachman & Palmer (1996, 2000) als „trait-based“ ein (vgl. S. 194f.). Den von Chapelle (1998) als „interactionalist approach“ und von mir als „interaktional“ bezeichneten Ansatz ordnet Purpura dagegen seinem breit definierten „interactionist approach“ zu (vgl. S. 196f.).

Auch der interaktionistischen dynamischen Evaluation (vgl. Kapitel 9.5 im vorliegenden Band) liegt entsprechend dieser Differenzierung ein interaktionistisches Verständnis von Kompetenz zugrunde (vgl. Grotjahn, 2015). Purpura (2016, S. 198) nennt diese Richtung dagegen als Beispiel für seinen als „sociointeractional approach“ bezeichneten vierten Ansatz.

5.4.7 Level-spezifischer vs. Multi-Level-Ansatz

Unterscheidet man innerhalb des Niveaus B1 z.B. noch die Stufen B1.1 und B1.2, dann ist auch eine Aussage dazu möglich, in welchem Umfang ein Testteilnehmender die Stufe B1 erreicht hat (vgl. hierzu auch Kapitel 8.2).

Es handelt sich um ein mittlerweile ausgelaufenes Aufgabenentwicklungsprojekt des IQB. Speziell die Bewertung von Schreibprodukten im Rahmen des Uni-Level-Ansatz illustriert eine weitere Grafik in Porsch & Tesch (2010, S. 163). Mögliche Unterschiede zwischen Uni-Level- und Multi-Level-Ansatz im Hinblick auf die Dimensionalität der Bewertung von Schreibproduktionen hat Porsch (2010, S. 128138) untersucht.

5.5.2 Modell kommunikativer Kompetenz von Bachman & Palmer (1996)

Eine Vielzahl von weiteren Hinweisen zu Modellen kommunikativer Kompetenz findet sich in Fulcher & Davidson (2007). Eine relativ ausführliche Taxonomie von für das Schreiben in einer L2 relevanten sprachlichen und metakognitiven Wissensbeständen haben Grabe & Kaplan (1996) mit explizitem Bezug auf Modelle kommunikativer Kompetenz vorgestellt. Die Taxonomie ist in adaptierter Form bei Weigle (2002, S. 3031) abgedruckt.

5.6 Schreibaktivitäten und Schreibkompetenzen im GER

Die Entwicklung von skalierten Deskriptoren für den Bereich Sprachmittlung (Mediation) ist ein Schwerpunkt aktueller Projekte zur Aktualisierung und Erweiterung der Deskriptoren des GER (vgl. North & Docherty, 2016; North & Panthier, 2016).

Auf die Konfundierung von sprachlichen Kompetenzen und (entwicklungsabhängigen) intellektuellen Fähigkeiten hat u.a. Hulstijn (2015, Kap. 10) hingewiesen (vgl. auch Fulcher, 2016). Die Modellierung und Messung des Schreibens im Rahmen der Bildungsstandards für die fortgeführte Fremdsprache für die Allgemeine Hochschulreife beschreiben Schröder, Nold & Tesch (2017).

Es ist z.B. nicht hinreichend klar, was unter „kleinere Schnitzer“ oder „begrenzter Wortschatz“ zu verstehen ist. Eine ausführliche kritische Analyse der GER-Skalen zur lexikalischen Kompetenz findet sich in Wisniewski (2014, S. 276287).

5.7 Schreibaktivitäten und Schreibkompetenzen in den Bildungsstandards

Ich verzichte auf eine kritische Kommentierung der Ausführungen in den Bildungsstandards. Da sich die Bildungsstandards allerdings im starken Maße an den Skalen und Deskriptoren des GER orientieren, trifft zumindest ein Teil der zuvor in den Kapiteln 5.5 und 5.6 im Hinblick auf den GER genannten Kritik auch auf die Bildungsstandards zu. Weitere problematische Aspekte der fremdsprachlichen Bildungsstandards werden in der im Kapitel 2 in den Hinweisen zum Weiterlesen genannten Literatur diskutiert.

5.8 Psycholinguistische und sozio-kognitive Modelle fremdsprachlichen Schreibens

Für die empirische Analyse des Schreibprozesses kann man auf Verfahren wie Videografie, Aufzeichnung der Blickbewegungen, Protokollierung der Tastatureingaben oder Lautes Denken zurückgreifen (vgl. hierzu auch Krings, 2016, S. 108f.).

Vgl. z.B. das in Grießhaber (2008, S. 232) abgedruckte Modell, das auch zu finden ist unter http://spzwww.uni-muenster.de/griesha/eps/wrt/prozess/hayesuflowers.html. Der GER unterscheidet u.a. zwischen den kommunikativen Sprachprozessen Planung“, „Ausführung“ und „Kontrolle (Monitoring)“ (vgl. im vorliegenden Kapitel 5.5.1, Tabelle 1). Auch die Autoren der Bildungsstandards differenzieren zwischen den Phasen „Entwerfen“, „Schreiben“ und „Überarbeiten“. Problematisch ist m.E., dass sie die genannten Phasen zusammen u.a. mit „Techniken des Notierens zur Vorbereitung eigener Texte oder Präsentationen“ unter Methodenkompetenzen aufführen (vgl. KMK, 2004, S. 17 sowie auch Kapitel 5.5.2).

Aus Gründen der Lesbarkeit verzichte ich im Folgenden auf eine genderspezifische Differenzierung zwischen Novize und Novizin sowie Experte und Expertin und verwende stattdessen die maskulinen Formen wie weithin üblich im generischen Sinne.

Es sind natürlich noch weitere Konstellationen und Erklärungen möglich. So ist es z.B. denkbar, dass Lernende, selbst wenn sie über eine hinreichende Schreibexpertise verfügen, vor allem lexiko-grammatikalische Aspekte fokussieren – z.B. weil sie (irrtümlich) annehmen, dass bei der Bewertung die Qualität von Lexik und Grammatik ausschlaggebend ist. Das Beispiel zeigt, wie wichtig es ist, dass die Schreibenden mit den Bewertungskriterien und deren Gewichtung vertraut gemacht werden (vgl. Kapitel 6).

5.9 Test- und Aufgabenspezifikationen

Es ist allerdings auch bei den ‚großen‘ internationalen Testanbietern eine zunehmende Tendenz zu Transparenz und zur Rechtfertigung der entwickelten Instrumente zu beobachten. So haben Chapelle, Enright & Jamieson (2008a) zusammen mit weiteren Autoren ein umfassendes Validitätsargument für den neuen TOEFL iBT vorgelegt – mit Angabe von Bewertungskriterien und Zusammenfassungen der Spezifikationen für Writing, Speaking, Listening und Reading.

Da am IQB aktuell keine fremdsprachlichen Schreibaufgaben entwickelt werden, wurden diese Spezifikationen nicht mehr aktualisiert.

6.1 Performanzbasierte beurteilergestützte Evaluation

Zuweilen wird zwischen Bewerten und Beurteilen differenziert. So wird unter Bewertung etwa ein wertender Vergleich mit Soll-Werten (z.B. Bildungsstandards; Lernzielen; Schwellenwerte für ein Zertifikat), unter Beurteilung dagegen die deskriptive Feststellung von Ist-Werten (z.B. in Form einer Zuweisung zu einer Kompetenzstufe ohne gleichzeitige Notenvergabe) verstanden. Wir verzichten – u.a. angesichts der häufigen Unschärfe – auf eine entsprechende Differenzierung und verwenden die Begriffe Bewerten, Beurteilen und Messen in (weitgehend) synonymer Bedeutung.

Vgl. die Definition eines „direct test of writing“ bei Weigle (2013, S. 2).

6.2 Urteilsprozess: Einflussfaktoren

Vgl. auch Eckes, Müller-Karabil & Zimmermann (2016, S. 152); Grotjahn & Kleppin (2008, S. 188f.); Van Moere (2014).

Vgl. für ein Beispiel unterschiedlich schwieriger Kriterien die Untersuchung von Bärenfänger (2016) zur Validität von GER-Skalen aus dem Bereich „Linguistische Kompetenzen“ (u.a. „Beherrschung der Orthografie“ und „Grammatische Korrektheit“) bei der Bewertung deutscher und italienischer L2-Schreibproduktionen. Vgl. auch Harsch & Rupp (2011, S. 24).

Neben Ratingskala werden im Hinblick auf die Evaluation von Schreibleistungen auch die Termini Bewertungsskala, Beurteilungsskala, Bewertungsraster und Beurteilungsraster verwendet. Dabei wird der Begriff „Raster“ eher zur Bezeichnung komplexerer Instrumente mit mehreren Skalen verwendet. Wir verzichten in diesem Kapitel auf eine mögliche Differenzierung zwischen den genannten Begriffen und verwenden die Begriffe z.T. parallel und synonym. In Kapitel 8 wird der Begriff „Bewertungsraster“ benutzt.

Eine neuere, leicht modifizierte und komplexere Version des in Abbildung 1 dargestellten Rahmenmodells findet sich in Eckes (2015, S. 49). Dort werden auch Wechselwirkungen zwischen proximalen Faktoren aufgeführt.

Vgl. z.B. die entsprechenden Befunde in Canz (2015, Kap. 8) aus der 2011 in 9. und 10. Klassen durchgeführten Normierungsstudie zur Überprüfung des Erreichens der Bildungsstandards im Kompetenzbereich Schreiben für das Fach Deutsch. In Bezug auf Englisch in der Sekundarstufe I siehe Porsch (2010b, S. 203). Hinweise zu Unterschieden zwischen Ratern bei der Bewertung von mutter- und fremdsprachlichen Schreibprodukten finden sich bei Kuiken & Vedder (2014).

6.3 Bezugsnormen bei der Bewertung

Rossa (2016, S. 400) weist in diesem Zusammenhang u.a. auf folgenden wichtigen Sachverhalt hin: „Im schulischen Fremdsprachenunterricht lässt sich bspw. beobachten, dass Lehrkräfte die Leistungsunterschiede zwischen den Lernenden in einer Gruppe in der Regel recht gut einschätzen können. Allerdings bedeutet dies nicht, dass verschiedene Lehrkräfte für vergleichbare Leistungen auch dieselben Noten vergeben würden. Es zeigt sich, dass für eine faire Einschätzung von Schülerleistungen die klasseninternen Bezugsmaßstäbe um ein vergleichbares, externes Kriterium (z.B. curricular erwartete Kompetenzbeschreibungen) ergänzt werden müssen …“

6.5 Bewertungsskalen und Bewertungsraster

Kriteriale Bewertungsskalen/Bewertungsraster werden insbesondere im amerikanischen Englisch zumeist als rubrics bezeichnet. Vor allem im britischen Englisch bezeichnet rubric dagegen auch die Arbeitsanweisung einer Testaufgabe (vgl. Kapitel 7 im vorliegenden Band). Eine allerdings nicht fremdsprachenspezifische Diskussion der Vor- und Nachteile unterschiedlicher Typen von Bewertungsrastern und -skalen im Kontext des formativen Testens findet sich in Brookhart (2013). Dabei trennt die Autorin zwischen rubrics im Sinne von kriterialen Beurteilungsrastern mit deskriptiver Funktion und Rating-Skalen mit primärer Bewertungsfunktion (z.B. zur Benotung).

Die Entwicklung von Skalen und Rastern kann zudem mit unterschiedlichen Zielsetzungen erfolgen (für eine gängige, auf Alderson, 1991 zurückgehende Dreiteilung vgl. Europarat, 2001, Kap. 3.8; Knoch, 2009, S. 41f.). Im vorliegenden Kapitel beziehen wir uns ausschließlich auf Skalen und Raster, die der Beurteilung von Schreibprodukten dienen sollen. Ein Beispiel für eine Skala zur Rückmeldung der Testergebnisse an die betroffenen Schülerinnen und Schüler oder auch Eltern ist in Kapitel 9.2.1 aufgeführt. Hinweise zur Verwendung von Skalen im Rahmen der Definition des Testkonstrukts und der Aufgabenentwicklung finden sich u.a. in den Kapiteln 5.1, 5.7 und 7.

6.5.2 Aufgabenspezifische versus aufgabenübergreifende Bewertung

Als Beispiel für eine aufgabenspezifische Bewertung wird häufig das sogenannte „primary trait scoring“ im Rahmen des National Assessment of Educational Progress (NAEP) in den USA genannt (vgl. Weigle, 2002, S. 110112). Weigle weist in diesem Zusammenhang u.a. darauf hin, dass die Entwicklung entsprechender Skalen extrem aufwändig ist, mit ihrer Hilfe allerdings z.B. Eltern gut vermittelt werden könne, welche konkreten Schreibhandlungen ihre Kinder ausführen können. Hinweise auf weitere Typen aufgabenspezifischer Skalen findet man z.B. bei Wisniewski (2014, S. 29f.).

6.5.3 Holistische Bewertung

Anstelle von „holistisch“ wird in diesem Zusammenhang in der Literatur mit gleicher Bedeutung auch der Terminus „global“ verwendet. Aus Gründen der terminologischen Klarheit trennen wir im Folgenden jedoch zwischen den beiden Begriffen und verwenden „global“ lediglich im Sinne eines (zusätzlichen) aggregierten Urteils im Fall einer analytischen Bewertung (vgl. die entsprechenden Hinweise weiter unten).

6.5.4 Analytische Bewertung

Vgl. auch die Hinweise zur Bewertung der sprachlichen Leistung in den Aufgaben für die Fächer Englisch und Französisch in den Gemeinsamen Abituraufgabenpools für die Länder unter https://www.iqb.hu-berlin.de/abitur/dokumente/englisch/Aufgabensammlung_2.pdf. Die Bewertung (Benotung) erfolgt hier anhand eines Globalurteils (Summenscore) auf der Basis einer analytischen Punkteskala.

6.5.5 Globale Bewertung

Zum Zusammenhang zwischen holistischer und nachfolgender globaler Bewertung von Schreibkompetenz im Fach Französisch vgl. Porsch (2010a, S. 270274, 281).

Da die Höhe einer Korrelation von einer Vielzahl von Faktoren abhängen kann, bedeutet eine substanzielle Korrelation nicht notwendigerweise, dass die korrelierenden Variablen auch die gleiche Eigenschaft in einem substanziellen Ausmaß messen. Weitere Hinweise zur theoretischen und psychometrischen Unterscheidbarkeit von Dimensionen von Schreibkompetenz finden sich in Kapitel 5.4.6 des vorliegenden Bandes.

6.5.7 Analytische versus holistische Bewertung im Vergleich

Weitere Kriterienraster finden sich u.a. auf den Bildungsservern der Länder – wie etwa in Berlin und Brandenburg zur Bewertung von „Klausuren und Zentralabitur in den Fächern Englisch und Französisch für Kurse, die zum Abitur 2017 führen“ (http://bildungsserver.berlin-brandenburg.de/unterricht/pruefungen/deutsch000/?L=0). Analytische Skalen zur Bewertung von Schreibkompetenzen im Hinblick auf die Bildungsstandards für Englisch als erste Fremdsprache sind in Rupp, Vock, Harsch & Köller (2008, S. 157164) jeweils für die Niveaus A1 bis C1 abgedruckt.

6.6.2 VERA-6 Englisch 2016

VERA-6 ist ein Verbundprojekt der Länder Mecklenburg-Vorpommern, Sachsen, Schleswig-Holstein und Thüringen sowie der Autonomen Provinz Bozen – Südtirol (vgl. https://www.iqb.hu-berlin.de/vera). Die Projektleitung für VERA-6 Englisch liegt beim Institut für Qualitätsentwicklung Mecklenburg-Vorpommern (IQ M-V).

Die Nummerierung im Glossary bezieht sich auf Fußnotennummern im Text der Rating Scales.

6.6.4 Standardisierte Schularbeiten für die Sekundarstufe II in Österreich

Siehe auch https://www.srdp.at/schriftliche-pruefungen/lebende-fremdsprachen/allgemeine-informationen/.

Die Klassen 58 der österreichischen Oberstufe Allgemeinbildender höherer Schulen entsprechen den Schulstufen 912 der Sekundarstufe II.

6.8 Erwartungshorizont

Beispiele für textsortenspezifische Raster für die Erstellung von Klausur-Erwartungshorizonten für Schreibaufgaben im Fach Deutsch finden sich auf dem Bildungsserver Berlin-Brandenburg unter http://bildungsserver.berlin-brandenburg.de/index.php?id=deutsch00.

Vgl. die Festlegung von Trennwerten in Kompetenzstufenmodellen und standardisierten Tests im Zuge eines formalisierten Standard-Settings. Einen kurzen aktuellen Überblick zum Standard-Setting im Hinblick auf die Kompetenzstufen des GER gibt Kecker (2016, S. 2633).

7.2.3 Spezifizierung des Testkonstrukts

Entsprechend dieser Sicht kann ein Testkonstrukt aus mehreren (psychometrisch) unterscheidbaren Komponenten bestehen. Außerdem können einer Menge von Prüfungsaufgaben oder auch einer einzelnen Prüfungsaufgabe mehrere (psychometrisch) unterscheidbare Testkonstrukte zu Grunde liegen (siehe Kapitel 5.3 und 6). Dies ist zu beachten, wenn wir im Folgenden vereinfachend von dem Testkonstrukt sprechen.

Siehe für den Einsatz von integrierten Aufgaben im schulischen Kontext z.B. die Konstruktionshinweise für neue Aufgabenformate für das Abitur in Nordrhein-Westfalen (MSW, 2015).

7.2.8 Auswahl der Inputmaterialien

Anstelle von Inputmaterial werden häufig auch die Termini Vorgabe oder Prompt verwendet, wobei sich beide Termini allerdings auch auf eine Kombination aus Inputmaterial und Arbeitsanweisung beziehen können.

7.2.9 Erstellen der Arbeitsanweisung und Situierung

Die Arbeitsanweisung wird im Englischen auch als rubric bezeichnet (vgl. z.B. Tankó, 2005, S. 41). Insbesondere im amerikanischen Englisch bezeichnet rubric dagegen zumeist das jeweilige kriteriale Bewertungsraster (vgl. Kapitel 6 im vorliegenden Band). Dieser unterschiedliche Gebrauch führt zuweilen zu Missverständnissen. Ein sehr breites Verständnis von rubric, das u.a. die Durchführungsanweisungen, Zeit- und Umfangsvorgaben sowie Angaben zur Leistungsbewertung umfasst, findet sich bei Bachman & Palmer (2010, S. 6973).

VerständlichkeitVerständlichkeit

In den Beispielen wird unterschieden zwischen Germanismen und dem Ersatz zielsprachlicher Wörter durch lautlich ähnliche, semantisch jedoch nicht passende Lexeme. Une *glace de bierre soll bedeuten: ein Glas Bier. Glace, das französische Wort für Eis, ist damit direkt dem deutschen Wort Glas entlehnt. Ähnlich verhält es sich mit I *become a new toy, was übersetzt bedeuten soll: ich bekomme ein neues Spielzeug. Das deutsche Wort bekommen wird hierbei direkt übersetzt, obwohl das englische Wort become für werden steht. In den weiteren Beispielen handelt es sich um Wörter, deren Unterschied in der Aussprache kaum hörbar ist und deren Nutzung somit trotz der falschen schriftlichen Verwendung noch die kommunikative Absicht erfüllt. Home is *were your heart is zeigt eine Verwechslung mit dem lautsprachlich ähnlichen Wort where. Das französische Beispiel verdeutlicht dies noch besser: J’ai nagé dans la *mère bedeutet ich bin in der Mutter geschwommen. Korrekt wäre das Wort mer für das Meer.

9.2.1 Rückmeldung eines ermittelten Kompetenzniveaus

Allerdings werden im Rahmen von VERA-6 (einem Verbundprojekt der Länder Mecklenburg-Vorpommern, Sachsen, Schleswig-Holstein und Thüringen sowie der Autonomen Provinz Bozen – Südtirol) seit mehreren Jahren auch Aufgaben zur Überprüfung von Schreibkompetenzen im Englischen eingesetzt (vgl. Kapitel 6.6.2 sowie die Hinweise in Siebold & Hyatt, 2011).

In der aktuell verwendeten Version (2017) der Grafik fehlen die Angaben für die Vergleichsgruppe auf Landesebene.

9.5 Feedback auf der Basis der interaktionistischen dynamischen Evaluation

Mediation im Sinne von Vygotskij unterscheidet sich damit grundlegend von Mediation z.B. im Sinne einer Schlichtung eines Konflikts oder im Sinne von Sprachmittlung. Das Konzept unterscheidet sich ebenfalls vom Ansatz des Scaffolding (vgl. weiter unten) sowie von Hilfestellungen auf der Basis des Unterstützungsmodells interaktiver Evaluation von Ahmed & Pollitt (2010). Wie Ahmed & Pollitt (2010, S. 157f.) explizit feststellen, zielt ihr Unterstützungsmodell auf die Messung des aktuellen Lernstands und nicht des Lernpotentials.

10.1 Kompetenzorientierter Unterricht und Assessment Literacy

Zu nennen ist hier insbesondere das KMK-Projekt „Fortbildungskonzepte und -materialien zur kompetenz- bzw. standardbasierten Unterrichtsentwicklung“ (for.mat). Die Materialien sind frei zugänglich auf den Seiten der KMK einzusehen, z.B. für den Kompetenzbereich Schreiben in der Fremdsprache unter http://www.kmk-format.de/FS-Schreiben.html.

Informationen zum Projekt finden sich auf den Seiten der Universität Potsdam (http://www.uni-potsdam.de/erziehungswissenschaftliche-bildungsforschung/forschung/elias.html).

10.2 Überprüfung von Sprechkompetenzen

Informationen zu den einzelnen Testeinheiten sind einsehbar unter http://www.cambridgeenglish.org/exams/advanced/exam-format/.

Die Aufgaben zum Sprechen sind abrufbar unter: https://www.iqb.hu-berlin.de/bista/teach/sprech_frz.

1 Kompetenzorientiertes Schreiben als Teil modernen Fremdsprachenunterrichts

Bettina Akukwe, Rüdiger Grotjahn & Stefan Schipolowski

Spätestens mit Verabschiedung der BildungsstandardsBildungsstandards für die erste Fremdsprache für den Mittleren Schulabschluss im Jahr 2003 (KMK, 2004a) hat kompetenzorientierter Fremdsprachenunterricht in allgemeinbildenden Schulen mehr und mehr an Bedeutung gewonnen. Insbesondere wird auch die Förderung der Teilkompetenzen HörverstehenHörverstehen und SprechenSprechen mittlerweile verstärkt in den Unterricht integriert. Das Schreiben von Texten in der Fremdsprache stellte dagegen schon immer einen wichtigen Bestandteil des Sprachenlernens in der Schule dar, jedoch lag der Fokus des Schulunterrichts bis vor wenigen Jahren zumeist auf der korrekten Verwendung der Sprache und weniger auf der Erfüllung der kommunikativen Absicht. In Schulleistungsuntersuchungen wie dem Nationalen Bildungspanel (NEPS) oder dem IQBIQB-BildungstrendLändervergleich/Bildungstrend werden im Fremdsprachenbereich – auch aufgrund des damit verbundenen hohen Aufwandes – die produktiven KompetenzenKompetenzproduktiv bisher nur selten getestet – trotz ihrer Bedeutung für einen kompetenzorientierten Fremdsprachenunterricht. Jones & Seville machen die Bedeutung gerade auch des Lehrens und Testens der produktiven KompetenzenKompetenzproduktiv deutlich:

In the classroom or the real world the impression of a learner’s overall proficiency level is undoubtedly based primarily on the performance skills – precisely because they are directly apprehended productive skills – rather than the indirectly apprehended receptive skills of reading and listening. This suggests that the performance skills are a more relevant, practical and meaningful target for aligning judgements of level across classroom and large scale assessmentassessment… (Jones & Saville, 2016, S. 74)

Mit der Einführung von verbindlichen Standards im Rahmen eines kompetenzorientierten Unterrichts geht es nicht mehr in erster Linie um die Kenntnis von Fakten und Zusammenhängen, sondern vor allem um Handlungsfähigkeit. Kompetenzorientierter Unterricht geht hierbei einher mit einer lernorientierten Leistungsbeurteilung (learning-orientedassessmentlearning-oriented assessment), die den Fokus nicht nur auf den reinen Output legt, sondern auch den Lernprozess berücksichtigt, der durch Feedback und WeiterarbeitWeiterarbeit konstruktiv gestaltet wird. Für eine lernorientierte Leistungsbeurteilung müssen bestimmte Rahmenbedingungen geschaffen werden, z.B. ein angenehmes Klassenklima, motivierende Unterrichtsinhalte, didaktische und fachliche KompetenzKompetenz der Lehrkraft sowie eine positive Unterrichtsinteraktion, die sich beispielsweise durch gezieltes Nachfragen und unmittelbares respektvolles Feedback auszeichnet (Turner & Purpura, 2016). Die Leistungsbeurteilung erfolgt in der Regel mithilfe von mehr oder minder authentischen AufgabenAufgaben (task-basedassessmenttask-based assessment). Wichtig ist hierbei, dass verschiedene Aufgaben zur Auswahl gestellt werden, sodass sich Lernende entsprechend ihrem KompetenzniveauKompetenzniveau für sie passende Aufgabenstellungen auswählen können. Alternativ kann ein Input mit adäquater ArbeitsanweisungAufgabenArbeitsanweisung gewählt werden, der von Lernenden unterschiedlicher Leistungsniveaus bearbeitet werden kann. Für den Kompetenzbereich Schreiben könnte dies beispielsweise ein Foto von einer Person sein, deren Porträt beschrieben werden soll, oder es wird eine Szene dargestellt, zu der eine Handlung beschrieben werden soll. Hier ist nicht nur die Kreativität der Lernenden gefragt, sondern es wird zugleich das Niveau der Aufgabenbearbeitung durch die Lernenden bestimmt.

Neben der stärkeren KompetenzorientierungKompetenzorientierung im Fremdsprachenunterricht wurde in den zurückliegenden Jahren in verschiedenen Ländern das Schulsystem hin zu einem Zwei-Säulen-Modell und einer größeren Durchlässigkeit reformiert. Infolge dieser Reformen sowie der Bemühungen um eine Inklusion von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarfsonderpädagogischer Förderbedarf entstehen immer heterogenere Klassenzusammensetzungen, die Unterrichtsmaterialien voraussetzen, die die Lernenden auf ihrem individuellen Niveau fordern und fördern. Dies stellt Lehrkräfte vor die Herausforderung, kompetenzorientierte AufgabenAufgaben zu erstellen, die trotz sehr unterschiedlicher Ausgangsvoraussetzungen von der jeweiligen LerngruppeLerngruppe bearbeitet werden können.

Der vorliegende Band zeigt Möglichkeiten und Wege, um Schreibkompetenzen unter Berücksichtigung verschiedener Voraussetzungen zu überprüfen. Er beinhaltet eine Vielzahl an Beispielaufgaben und Benchmark-Texten (Leistungsbeispiele) aus Aufgabenerprobungen mit Schülerinnen und Schülern der Jahrgangsstufen 8 und 9. In Abgrenzung zu vielen anderen Publikationen werden auch die Rahmenbedingungen und Kontexte für die Evaluation von Schreibkompetenzen relativ ausführlich thematisiert. Des Weiteren ist der Band im Gegensatz zu vielen anderen Handbüchern zur (Messung von) Schreibkompetenz konsequent aufgaben- und kompetenzorientiert.

Der vorliegende Band ist so gestaltet, dass Lehrkräfte, Fortbildnerinnen und Fortbildner, Studierende und Fachdidaktikerinnen und -didaktiker die Zielgruppe bilden. Dabei sind die Ausführungen nicht sprachspezifisch, sondern können von allen Personen, die Fremdsprachen (inklusive Deutsch als Fremdsprache) lehren oder lernen, sinnvoll genutzt werden. Die Illustration erfolgt anhand von Beispielen für die Fächer Englisch und Französisch.

1.1 Evaluation und Lehrerkompetenz

In Deutschland haben Lehrkräfte einer Fremdsprache in der Regel einen engeren Bezug zu standardisierter Evaluation und zum Testen als Vertreterinnen und Vertreter anderer Fächer. Bedingt durch die Globalisierung und die moderne Arbeitswelt steigt im Kontext des Lehrens und Lernens von Fremdsprachen auch die Bedeutung formaler Qualifikationsnachweise z.B. in Form des Diplôme d’Études en langue française (DELF) oder des Test of English as a Foreign Language (TOEFL). In diesem Zusammenhang hält die Vorbereitung und Durchführung entsprechender Zertifikatsprüfungen auch immer stärker Einzug in den Bereich der allgemeinbildenden Schulen. Allerdings genügen die regulären LehrwerkeLehrwerke für die Fremdsprachen oft nicht den Anforderungen, Lernende auf kompetenzorientierte TestsEvaluationkompetenzorientiert vorzubereiten, sondern folgen eher einer inhaltlichen oder sprachlichen Progression. Lehrkräfte stehen somit vor der Herausforderung, Unterrichtsmaterialien selbstständig entwickeln zu müssen. Dies erfordert Kompetenzen, die Lehrkräfte in dieser Form ggf. noch nicht erwerben konnten. Aktuelle internationale Studien zeigen: Auf Gebieten wie TestspezifikationenTestspezifikation, Testtheorie, Leistungsbeurteilung der eigenen Klasse, Kriterienerstellung und Testbedingungen mangelt es vielen Lehrkräften noch an notwendigen Kompetenzen (Jeong, 2013).

International ist der Trend zur stärkeren Förderung diagnostischer KompetenzKompetenzdiagnostisch von Lehrkräften für eine (Fremd-)Sprache unter dem Schlagwort language assessment literacyassessmentassessment literacy schon länger festzustellen, wie u.a. Harding & Kremmel (2016) in einer aktuellen Publikation darstellen. Taylor (2013, S. 410) fasst die für Sprachlehrkräfte, Testautorinnen und Testautoren, universitäre Testadministratorinnen und Testadministratoren sowie für professionelle Sprachtesterinnen und Sprachtester relevantesten Kompetenzbereiche wie folgt zusammen:

KompetenzKompetenzdiagnostischWeiterarbeitWeiterarbeit2015