Kursthemen

  • Einführung in das Data Wrangling - Konzepte und Umsetzung in SPSS

  • Allgemeines und Hinweise

    Titel des Kurses: Einführung in das Data Wrangling (mit SPSS)

    Liebe Teilnehmende, 

    in diesem Kurs werden Sie in das Data Wrangling mit SPSS eingeführt. Sie erhalten einen Überblick darüber, was der Prozess des Data Wranglings alles umfasst, was die einzelnen Schritte bei der eigenen Datenerhebung bedeuten und wie Sie diese in SPSS umsetzen können. 

    Dabei werden Sie mit einem Beispieldatensatz arbeiten, der Daten aus einer Evaluation mit Studierenden enthält. Hier wurden neben Daten zur Qualität einer Vorlesung, auch Daten zur Motivation der Studierenden erhoben und dazu, wie wichtig Sie die Inhalte der Vorlesung für sich selbst und Ihren zukünftigen Beruf halten. 

    Um diesen Kurs bearbeiten zu können, benötigen Sie das Statistikprogramm SPSS.

  • Übersicht: Was erwartet Sie?

  • Prozessmodell des Data Wrangling

    In diesem Kursabschnitt wollen wir zunächst erklären, was unter dem Begriff "Data Wrangling" zu verstehen ist. Dabei wird die Frage erläutert, warum es wichtig ist, Rohdaten vor einer Analyse aufzubereiten. Im Anschluss wird dann ein kurzer Überblick über die einzelnen Schritte im Prozess der Datenaufbereitung gegeben.

    Lernziele:

    • Die Teilnehmenden kennen den Begriff "Data Wrangling".
    • Die Teilnehmenden können einzelne Schritte des Data Wrangling benennen.
  • Die Datenmaske

    In diesem Kursabschnitt stellen wir Ihnen den Datensatz vor, mit dem Sie arbeiten werden. Wenn Sie mit Daten umgehen, dann müssen Sie wissen, was hinter diesen Daten steckt und zu welchem Zweck Sie erhoben wurden. Sie erhalten also eine kleine Einführung in die der Datenerhebung zugrundeliegenden Annahmen. 

    Zusätzlich werfen wir einen ersten Blick auf den Datensatz. Wenn wir Daten erhoben haben, dann liegt uns (nach der Eingabe der Daten in eine Datenmaske) zunächst ein Datensatz vor, mit dem wir noch nicht viel anfangen können. Auch sind die Daten wahrscheinlich noch nicht sortiert, nicht verständlich bezeichnet und die Eigenschaften der verschiedenen Datentypen wurden noch nicht festgelegt. 

    Hier lernen Sie, wie Sie einen Datensatz in SPSS erstellen können und was ein Codebuch ist.

    Speichern Sie sich die Dokumente wie das Codebuch (hier eine Excel-Datei) gut ab. Sie werden im Laufe des Kurses immer wieder darauf zurückverwiesen. Im Laufe dieses Kurses wird Ihr Codebuch immer umfangreicher und es dient der Dokumentation der Schritte, die hier durchlaufen werden.

    Lernziele:

    • Die Teilnehmenden kennen die der Datenerhebung zugrundeliegenden Annahmen.
    • Die Teilnehmenden sind in der Lage, einen Datensatz in SPSS zu erstellen.
    • Die Teilnehmenden kennen den Begriff "Codebuch".
    • Die Teilnehmenden können ein eigenes Codebuch anlegen und pflegen.

  • Skalenniveaus

    Hier schauen wir uns das Konzept der Skalenniveaus noch genauer an. Was sind Skalenniveaus? Welche Rechnungen kann ich mit welchen Daten machen? Was bedeutet das für meine Analyseverfahren? Und was haben sie mit Data Wrangling zu tun?

    Lernziele:

    • Die Teilnehmenden kennen die Bedeutung von Skalenniveaus für Analyseverfahren.
    • Die Teilnehmenden kennen Eigenschaften der verschiedenen Skalenniveaus.
    • Die Teilnehmenden sind in der Lage, Skalenniveaus in SPSS zu spezifizieren.

  • Daten bereinigen und anreichern

    Was machen wir, wenn einzelne Daten fehlen?

    Es kommt häufig vor, dass Daten im Datensatz fehlen. Vielleicht hat eine Teilnehmerin eine Frage übersehen und daher kein Kreuz gesetzt oder vielleicht hat ein Teilnehmer eine Frage nicht beantwortet, weil er sie nicht verstanden hat.

    Was machen wir, wenn einzelne Daten stark von den anderen abweichen?

    Es kann auch vorkommen, dass einzelne Daten stark von den anderen abweichen. Eventuell ist beispielsweise eine Person in der Stichprobe, die deutlich älter ist als die anderen. Je nach Fragestellung kann es sein, dass diese Ausreißer die Analyse beeinflussen. 

    In diesem Abschnitt lernen Sie, wie Sie fehlende Daten und Ausreißer identifizieren können und wie sie mit ihnen umgehen.

    Lernziele:

    • Die Teilnehmenden kennen die Bedeutung von fehlenden Werten und Ausreißern im Kontext einer wissenschaftlichen Studie.
    • Die Teilnehmenden kennen verschiedene Möglichkeiten, um mit fehlenden Werten und Ausreißern umzugehen.
    • Die Teilnehmenden sind in der Lage, fehlende Werte in SPSS zu definieren, zu identifizieren und zu ersetzen.
    • Die Teilnehmenden sind in der Lage, Ausreißer mit SPSS zu identifizieren.

  • Maße zentraler Tendenz

    In diesem Abschnitt lernen Sie verschiedene Maße zentraler Tendenz kennen. Sie sagen uns etwas darüber, wie unsere Daten verteilt sind. Sie lernen außerdem, wie Sie diese in SPSS berechnen können.

    Lernziele:

    • Die Teilnehmenden kennen die Bedeutung von Maßen zentraler Tendenz (Modalwert, Median, Arithmetisches Mittel).
    • Die Teilnehmenden sind in der Lage, die Maße zentraler Tendenz in SPSS zu berechnen.

  • Verteilungen

    In dieser Einheit werden Sie ausgewählte, wichtige Häufigkeitsverteilungen kennenlernen oder auffrischen, mit deren Hilfe Sie sich einen ersten Eindruck über Ihre Daten verschaffen können und außerdem die Plausibilität Ihrer bisherigen Bearbeitungen überprüfen können.

    Lernziele:

    • Die Teilnehmenden haben Kenntnis über Häufigkeitsverteilungen und die Bedeutung der Normalverteilung.
    • Die Teilnehmenden kennen die Begriffe "Schiefe" und "Kurtosis".

  • Skalenbildung

    Es kommt häufig vor, dass wir mehrere Datenpunkte (z.B. die Antworten auf Fragen) zusammenfassen müssen, damit wir unsere Analysen sinnvoll umsetzen können. In diesem Abschnitt lernen Sie, wie Skalen in Fragebögen zusammengefasst werden und wie Sie dies in SPSS umsetzen können.

    Lernziele:

    • Die Teilnehmenden haben Kenntnis über das Zusammenfassen von Skalen in Fragebögen.
    • Die Teilnehmenden können die Skalenbildung in SPSS umsetzen.

    • Nach der Bearbeitung dieser Abschlussaufgaben haben Sie Ihre Datenmaske wieder verändert. 

      Bitte aktualisieren Sie Ihr Codebuch entsprechend. Tragen Sie alle Änderungen ein, die Sie vorgenommen haben und speichern Sie sie gut ab. Das Codebuch sollte immer dem aktuellen Stand der Datenmaske entsprechen und Änderungen müssen entsprechend markiert sein.

      Wieder gilt es, sich die Fragen zu stellen: würden Dritte verstehen, was ich mit den Rohdaten gemacht habe? Könnten Dritte wiederholen, was ich getan habe, wenn Sie nur den Rohdatensatz bekämen?


  • Reliabilität

    Reliabilität ist ein Maß für die Genauigkeit und Verlässlichkeit von Messungen. Im Prozess des Data Wrangling sollten Sie die Reliabilität Ihrer Instrumente überprüfen. Welche Arten von Reliabilität es gibt, wie sie berechnet werden und wie Sie Ihre Rechnungen in SPSS umsetzen können, lernen Sie in diesem Kursabschnitt.

    Lernziele:

    • Die Teilnehmenden kennen Arten von Reliabilität.
    • Die Teilnehmenden kennen Methoden, um die Reliabilität von Instrumenten zu überprüfen.
    • Die Teilnehmenden sind in der Lage, die Reliabilität eines Instruments in SPSS zu berechnen.

  • Standardisierung

    In diesem Abschnitt werden Sie lernen, wie Sie ursprünglich vielleicht weniger vergleichbare Daten so transformieren können, dass Sie sie vergleichen können. Sie lernen Verfahren kennen, mit denen Sie Daten standardisieren können, und lernen, wozu dies gut ist.

    Lernziele:

    • Die Teilnehmenden sind in der Lage, Gründe zu nennen, warum Daten standardisiert werden müssen.
    • Die Teilnehmenden kennen Verfahren, um Daten für eine Vergleichbarkeit zu transformieren.
    • Die Teilnehmenden haben Kenntnis über die z-Standardisierung und Prozentränge (Perzentile).

  • Dokumentation und Abschluss

    Der gesamte Prozess des Data Wrangling muss gewissenhaft dokumentiert werden, damit Andere und nicht zuletzt Sie selbst auch nach der Aufbereitung der Daten noch nachvollziehen können, was Sie an den Daten verändert haben. Wenn Andere beispielsweise Ihre Daten nutzen wollen, um eigene Analysen durchzuführen, dann ist es dringend notwendig, dass Sie wissen, was mit den Daten seit der Erhebung passiert ist.

    Lernziele:

    • Die Teilnehmenden haben Kenntnis über die Wichtigkeit der Dokumentation in der Datenaufbereitung.
    • Den Teilnehmenden ist die Bedeutung des Codebuchs als Instrument zur Dokumentation bewusst.

  • Übungsdatensätze

  • Verwendete Literatur

    Bortz, J. (2013). Statistik: Für Sozialwissenschaftler. Springer-Verlag.

    Bryman, A. (2016). Social research methods. Oxford University Press.

    Field, A. (2013). Discovering statistics using IBM SPSS statistics. sage.

    Langdridge, D., & Hagger-Johnson, G. (2009). Introduction to research methods and data analysis in psychology. Pearson Education.

    Rattenbury, T., Hellerstein, J. M., Heer, J., Kandel, S., & Carreras, C. (2017). Principles of data wrangling: Practical techniques for data preparation. " O'Reilly Media, Inc.".

    Schmidt-Atzert, L., Amelang, M., Fydrich, T., & Moosbrugger, H. (2012). Psychologische Diagnostik (Vol. 5). Berlin: Springer.