Bei der Übernahme von Subtests aus vorhandenen Verfahren sind Änderungen und Adaptierungen nur mit größter Behutsamkeit und immer nur in Absprache mit den AutorInnen der Originalversionen vorzunehmen. Änderungen in der Anzahl der Items für Subtests sind in der Regel nach Rücksprache mit den AutorInnen der Originaltests problemlos vorzunehmen. Zur Durchführung der Änderungen lassen sich Informationen aus den Manualen oder den Publikationen zu psychometrischen Kennwerten wie Schwierigkeit, Streuung und Trennschärfe heranziehen. Einschneidende Änderungen sind jedoch zu vermeiden, insbesondere wenn die Änderung den Antwortmodus im Hinblick auf die Anzahl der Stufen oder gar Skalierungsdimension betrifft. Diese Art der Änderung macht eine psychometrische Überprüfung und/oder vollständige Neuentwicklung notwendig.
Auch wenn Items aus bestehenden Verfahren an einen neuen Antwortmodus angepasst und reformuliert werden, sollten die Quellen stets angemessen zitiert werden. Bei der Fragebogenentwicklung ist eine Dokumentation über die „Herkunft“ der Items ein theoretisch, praktisch und juristisch notwendiger und normativ wertvoller Schritt.
2.2 Konzeptgeleitete Zusammenstellung von Subtests und Items
Items sollten wo immer möglich theoriegeleitet anhand vorliegender Modelle, Konzepte oder Taxonomien erstellt werden. Dies ist im Bereich der Wissenschaft unerlässlich. Der Abgleich der Items und Subtests mit vorliegenden Modellen, Konzepten und Theorien kennzeichnet hochwertige Fragebogen auch bei den weiter unten beschriebenen Optionen zur Entwicklung des Itempools. Bei der theoriegeleiteten Formulierung von Items wird entweder ein Modell als Grundlage ausgewählt oder es werden mehrere verwandte Konzepte herangezogen. Zu den in der Theorie dargestellten Facetten werden Items gebildet, die möglichst repräsentativ die Facetten im Verhalten und Erleben von Personen abbilden können. Für jede Facette werden mindestens sechs bis acht Items für einen potenziellen Subtest formuliert. Die Formulierung von Items orientiert sich immer konkret an der Perspektive der Antwortenden. Items können auch dann theoretischen Konzepten folgen, wenn sie konkret formuliert sind. Theoretisch formulierte Items sind typische „Anfängerfehler“. Die Frage „Sind Sie bei Ihrer Arbeit primär erfolgsmotiviert?“ (ja/nein) sollte besser lauten „Lob spornt mich besonders an“ (ja/nein). Es hat sich besonders bewährt, die Merkmalsbereiche möglichst konkret auf der Verhaltens- und Erlebensebene oder durch Beschreibung konkreter Situationen oder Zustände aus dem Merkmalsbereich abzubilden.
Das theoriegeleitete Vorgehen bei der Zusammenstellung von Subtests/Items sei am Beispiel des Erholungs-Belastungs-Fragebogens (EBF; Kallus, 1995) kurz dargestellt. Der Beanspruchungsbereich wurde ausgehend von der Taxonomie für Stressoren bei Janke (1976) in die Bereiche „äußere Belastungen“, „Belastungen durch Deprivation primärer Bedürfnisse wie Schlaf “, „Leistungsüber/-unterforderungen“, „soziale Belastungen“ und „sonstige Belastungsfaktoren wie Konflikte und Ungewissheit“ gegliedert. Für jede Facette wurden anschließend mindestens acht Items formuliert. Zuvor war festgelegt, dass sich der aktuelle Beanspruchungszustand aus der Häufigkeit von Belastungen „in den letzten Tagen“ ergeben sollte. Als Annahme galt zudem, dass sich besonders intensive Stressereignisse in vielen Teilbereichen niederschlagen und sich intensive Belastungen daher auch in Häufigkeitsangaben relativ gut abbilden lassen. Ergänzend wurde die Annahme einbezogen, dass Belastungen dann besonders bedeutsam für den Beanspruchungszustand einer Person sind, wenn nur unzureichende Möglichkeiten zur Regeneration der Ressourcen vorliegen. Initial stand der Versuch, die Erholungsbereiche komplementär zu den Belastungsbereichen in Items abzubilden.
Während sich für den Beanspruchungsbereich die theoretisch abgeleiteten Belastungsdimensionen weitestgehend abbilden ließen, konnten aufgrund hoher Überlappung der Merkmalsbereiche nur einige korrespondierende Regenerationsbereiche abgebildet werden. Interessanterweise konnten, passend zu kognitiven Stressmodellen (z. B. Lazarus, 1966, 1991), überwiegend positiv bewertete Ereignisse und Zustände als „gute Items“ für Erholung in die Endform des Erholungs-Belastungs-Fragebogens übernommen werden.
Weitere Beispiele für eine theoriegeleitete Entwicklung von Itempools finden sich im Instrument zur Erfassung der Konflikteskalation am Arbeitsplatz (IKEAr; Kolodej, Voutsinas, Jiménez & Kallus, 2005), im EBF-Sport (Kellmann & Kallus, 2000, 2016), im Test zur Erfassung des Mobbingrisikos am Arbeitsplatz (TEMA; Kolodej, Essler & Kallus, 2010), in der Profilanalyse zur Arbeitszufriedenheit (PAZ; Jiménez, 2008) und auch in einer Vielzahl von Verfahren anderer Arbeitsgruppen, wie dem bereits erwähnten arbeitsanalytischen Fragebogen (ISTA; Semmer, Zapf & Dunckel, 1999), im Trierer Inventar zu chronischem Stress (TICS; Schulz, Schlotz & Becker, 2004) oder beim Verfahren zu Beanspruchungsmessung bei der Arbeit (BMS; Debitz, Plath & Richter, 2016). Bögel und Rosenstiel (1997) empfehlen auch für MitarbeiterInnenbefragungen ein stärker theoriegeleitetes Vorgehen.
Eine theoretische Konzeption zur „Messung“ der Facetten eines hypothetischen Konstrukts oder eines hinreichend klar operationalisierten Merkmals stellt die Generalisierbarkeitstheorie (Cronbach, Gleser, Nanda & Rajaratnam, 1972) dar. Danach sollten Items in einem Fragebogen möglichst in „paralleler“ Form Informationen zur Ausprägung einer Facette des Merkmals erfassen. Mehrere dieser Items lassen sich dann zusammenfassen und spiegeln Unterschiede zwischen Personen in der Facette wider. Die Generalisierbarkeitstheorie betont auch die Bedeutung von Situationen, in denen sich das relevante Merkmal widerspiegeln sollte. Situationen sollten bei der Itemzusammenstellung nicht unbeachtet bleiben. Wenn möglich, sollte die jeweils relevante Situation für die Formulierung der Frage berücksichtigt werden. Die Berücksichtigung von Situationen stößt an Grenzen, weil gerade Situationen oft spezifisch oder typisch für bestimmte Bevölkerungs- oder Berufsgruppen sind. Dadurch ergibt sich der unerwünschte Fall, dass der Einsatzbereich eines Fragebogens dann auf spezifische Gruppen einzugrenzen ist oder dass hypothetische Situationen einzubeziehen sind. Hypothetische Situationen erhöhen die Komplexität von Fragen und müssen sehr geschickt formuliert werden, damit alle Antwortenden eine angemessene Vorstellung entwickeln können. Aufgrund dieser Schwierigkeiten reduzieren hypothetische Situationen oft die Qualität des Fragebogens (vgl. Faulbaum, Prüfer & Rexroth, 2009; Porst, 2009). Reaktionen auf hypothetische Situationen lassen sich allerdings nicht ohne Weiteres mit realen Verhaltensweisen und solchen in realen Situationen „mischen“.
Wichtig ist die Generalisierbarkeitstheorie für die Entwicklung von Fragebogen insoweit, als ein Item als Beispiel für eines von vielen möglichen Items betrachtet wird und als solches eine Stichprobe aus dem zu messenden Merkmal darstellt. Daher kann bei einer Prüfung des eigenen Itempools die aus der Generalisierbarkeitstheorie ableitbare Frage „Ist dieses Item typisch für das zu messende Merkmal?“ eine wesentliche Hilfe darstellen. Bei der Itementwicklung sollten nach der Generalisierbarkeitstheorie die TestentwicklerInnen für jeden Subtest ein Bild der möglichen Items vor Augen haben und aus den „möglichen“ Items einige „günstige“, am besten „repräsentative“ Items auswählen. Dabei ist eine ähnliche Varianz für unterschiedliche Facetten (Subtests) anzustreben, wenn die Items (wie im Regelfall) zu einem ungewichteten Mittelwert (oder einer ungewichteten Summe) zusammengefasst werden sollen.
Wenn möglich, sollte zudem ein Pretest an einer größeren Stichprobe durchgeführt werden. Dieser Pretest erlaubt (n ≥ 50) eine erste Einschätzung der psychometrischen Eigenschaften und eine Identifikation von „Ausreißeritems“. Ausreißeritems entstehen durch unerwartete Varianzeinschränkung und z. B. durch missverständliche (mehrdeutige) Formulierung der Iteminhalte, die nicht von der gesamten Stichprobe als Merkmal der zu messenden Facette verstanden werden. Beispiel: Die Selbstbeschreibung mit der Ausprägung von „gar nicht“ bis „sehr stark“ zu dem Zustand „dösig“ wird in Deutschland oberhalb der Main-Linie im Sinne eines Desaktivierungszustandes verstanden. Südlich der Main-Linie ist das Item z. T. „unverständlich“.
Pilotstudien erlauben Schätzungen zur Reliabilität und damit die Schätzung einer sinnvollen Itemzahl СКАЧАТЬ