Vier Tipps für deine wasserdichte Datenmatrix

Darauf solltest du unbedingt achten !

In unseren  1:1 Coaching-Sessions erleben wir leider immer wieder, dass Begriffe wie nominale, ordinale und metrische Datenanalyse für die Coachees völliges Neuland sind. Meist ist ihnen gar nicht bewusst, welche wesentlichen Dinge ihnen bereits bei der Dateneingabe in die vorbereitete Matrix das Leben langfristig erleichtern könnten. Kurz gesagt: es fehlt häufig eine zugrundeliegende Struktur, sowie der Fokus auf die wesentlichen Daten. Ziel sollte ja nicht sein, dass der/die die Statistiker*in erst einmal Stunden damit verbringen muss, den Datensatz auswertungstauglich zu machen. Das kostet ihn/sie nicht nur Zeit und Nerven, sondern euch im Zweifel auch eine Menge Geld!

Das kannst du anderweitig einsetzen, wenn du dir von vornherein eine Struktur für deine Dateneingabe zurechtlegst. Dabei wollen wir dir helfen und dir anhand dieses Blogartikels den Einstieg in deine Datenauswertung erleichtern. 

Tipp 1: Überlege dir bereits vor der Datenerhebung, wie du die einzelnen Variablen für deine Auswertung aufbereiten willst.

Schon bei der Erstellung deiner Datenmatrix solltest du dir bereits Gedanken über den Modus deiner Datenerhebung machen. Ein guter Anfang wären hier zunächst die metrischen Daten deiner Fallkohorte. Je nach Auswertungsziel können beispielsweise das Patientenalter, das Gewicht oder die Laborwerte von Bedeutung sein. Aber auch hier solltest du dir bereits im Hinterkopf die Frage stellen, ob es sich in deiner Studie anbietet, das Alter in Jahren oder doch lieber in Monaten einzugeben oder in welcher Einheit deine Laborwerte dargestellt werden sollen. Du kannst dir, wenn du in Excel arbeitest, hierfür natürlich dann auch separate Spalten anlegen, bei denen dein Alter in Monaten und zusätzlich parallel in Jahre umgerechnet wird. Wichtig ist immer, dass du dir bereits hierbei überlegst, was wirklich später für die Vergleichbarkeit deiner Arbeit und für die Auswertung sinnvoll erscheint. Und wenn du dich beispielsweise für das Alter in Monaten entschieden hast, bleib dabei. Einheitlichkeit in der Datenmatrix ist das A und O.

Bei nominalen Daten handelt es sich immer um eine Ausprägung zweier oder mehrerer Merkmale ohne ein spezielles Rangsystem (z.B. männlich/weiblich/divers). Sind nur zwei Ausprägungen vorhanden (z.B. ja/nein) spricht man von dichotomen Daten. Die ordinalen Variablen unterliegen hingegen einer gewissen Rangordnung, wie es beispielsweise bei Schulnoten der Fall ist.

Die Statistik mit metrischen Daten ist immer am beliebtesten, weil hiermit teilweise leichter als mit z.B. ordinalen Variablen gearbeitet werden kann. (Aber merke dir: Statistiker*innen haben für fast alles eine Lösung ☺). 

Ein gutes Beispiel dafür sind Auswertungen von psychologischen Fragebögen. Hast du einen Fragebogen, bei dem für die Summen-Scores ein ordinales Rangsystem existiert, könntest du z.B. in deine Datenmatrix ausschließlich die Grade 1(leicht), 2 (Mittelschwer), 3 (Schwer) eintragen und mit einer entsprechenden Legende versehen. Somit würdest du bereits den Fokus auf die klinisch relevanten Informationen lenken und eine Übersichtlichkeit generieren.

In Studien werden jedoch häufig metrische Daten (d.h. Summenwerte) als Grundlage für Korrelationsanalysen oder Mittelwertvergleiche bevorzugt. Das heißt für dich nun folgendes: Solltest du die Möglichkeit dazu haben, würden wir dir raten, immer beide Varianten in deiner Datenmatrix darzustellen. 

Benenne eine Variable als Fragebogen X-Score (metrisch) und eine Variable als Fragebogen X-Schweregrad (ordinal). Dann kannst du später zusammen mit der Statistikberatung wählen, mit welcher Version ihr arbeiten wollt. Das übergeordnete Ziel sollte hierbei natürlich immer medizinisch sinnvoll sein. 

Deshalb ist es außerdem sehr wichtig, dass du dir für jeden Fragebogen, der in deiner Studie berücksichtigt wird, vorher einzeln anschaust, wie du diesen auswerten und in Anlehnung an deine Hypothesen interpretieren könntest. Teilweise lassen sich aus Fragebögen keine speziellen Scores bilden und sind somit schwer für eine Statistik nutzbar. Wenn du dir unsicher bist, besprich dies ggf. mit deiner Betreuung. 

Bedenke bei der Eingabe deiner Daten immer, dass jede Zelle der Matrix für einen Wert steht. Sollte es z.B. bei einem erhobenen Wert zu Abweichungen gekommen sein und du möchtest dies gern begründen, dann schreibe die Begründung NIE in diese Zelle. Eine gute Möglichkeit wäre es, wenn du dir am Ende der Matrix eine oder mehrere Kommentarspalten schaffst. 

Wenn du z.B. die Anzahl der richtigen Antworten einträgst und in diese Zelle hinter die Zahl 4 noch eine Ergänzung wie (mit Hilfestellung) einträgst, kann das Statistikprogramm das nicht mehr als Zahlenwert zuordnen und der/die Statistiker*innen haben erst einmal zu tun, diese „Fehler“ zu finden und in den Zellen zu beheben. Viele Statistiker*innen behaupten von sich, sie seien „bequem“. Dasselbe, sagen sie, gilt auch für die Statistikprogramme. Deshalb ist es besonders wichtig, dass du Wörter in Zahlenwerte umcodierst. Vor Augen führen möchten wir dies anhand der numerischen Variablen „Geschlecht“. Nehmen wir einmal an, dass die Studienteilnehmer in deinem Fragebogen zwischen folgenden Antwortmöglichkeiten wählen können: „männlich“; „weiblich“; „divers“. In einer guten Datenmatrix stehen für die drei Antwortmöglichkeiten der Kategorie Geschlecht ausschließlich Zahlen. In einer Anfängermatrix findet man hierfür gerne die Originalausdrücke. Dies ist jedoch leider für eine Vielzahl der  Statistikprogramme nicht von Vorteil. Überlege dir deshalb lieber für jedes Wort einen nummerischen Code, z.B. „männlich“ = 1; „weiblich“ = 2; „divers“ = 3. Außerdem solltest du eine weitere Ziffer hinzufügen, welche den Fall abdeckt, dass ein Studienteilnehmer das Feld dieser Kategorie nicht ausgefüllt hat (z.B. „fehlend“ = -999). Der fehlend Wert sollte möglichst weit weg von den anderen Werten sein, damit es hier nicht zu Eingabefehlern kommt. 

Eine weitere Hürde für die Datenmatrix stellen „von-bis“ Angaben dar. Hier ist es für die spätere Berechnung immer gut, wenn du dir eine weitere Spalte schaffst. Du kannst für deine  „von-bis“ Angaben entweder entsprechende Gruppierungen (ordinale Codes) bilden oder diese eben direkt eintragen. Ein gutes Beispiel hierfür ist der errechnete IQ. Füllen Patienten einen IQ Test während der Studie aus, könnten die Werte wie folgt lauten: „IQ 91-101“. Das könntest du jetzt natürlich so in deine Matrix übernehmen. Hinderlich ist hierbei jedoch, dass daraus keine Berechnung erfolgen kann. Sinnvoller wäre es, du nutzt diese „von-bis“ Angaben für die Legende deiner künftigen Abbildungen und trägst direkt deine entsprechende Gruppierung (ordinalen Code) ein, die zum Beispiel lauten könnten: „IQ 81-90“ = 1; „IQ 91-101“ = 2; etc.. Eine weitere Option, die wir dir an die Hand geben möchten, ist es, eine Spalte mit Minimalwerten und eine Spalte mit Maximalwerten deiner Datenmatrix hinzuzufügen. Triff deine Entscheidung immer mit Hinblick auf deine Hypothese/deine Fragestellung und dem übergeordneten medizinischen Ziel, was du bei deiner Datenauswertung verfolgst.

So kannst du später in den Statistikprogrammen wie SPSS oder R wunderbar sehen, wie viele Patient*innen sich in welcher IQ-Spanne befanden. Sollte es auch hier wieder Rohwerte geben (also den exakten IQ), dann wäre es sehr sinnvoll, diese ebenfalls als weitere Spalte in deiner Datenmatrix aufzuführen. Mit den metrischen IQ-Werten könnte man im schriftlichen Teil deiner Promotion möglicherweise leichter Fragen beantworten wie: „Steigt mit zunehmendem IQ-Punkt auch das Risiko an einer Depression zu erkranken?“. Dabei kann man dann über die Regression auch genau sehen, wie viele IQ Punkte sich hier bemerkbar machen. Das wäre bei der gruppierten Variante lediglich schwer bis nicht möglich. 

Kennst du schon den R-Grundlagenkurs, der dich spielend leicht durch deine deskriptive Statistik führt und sich ebenfalls mit diesen speziellen Themen auseinandersetzt? Klick hier für mehr Informationen.

Das Programm R kannst du hier kostenfrei downloaden.

Tipp 2: Benenne deine Variablen eindeutig und für Dritte verständlich.

Es klingt sehr banal, und trotzdem erleben wir es in unseren  Coachings immer wieder: Daten werden eingegeben und am Ende weiß nicht einmal der/die Doktorand*in mehr, was diese Zahlen eigentlich bedeuten. Manche Variablennamen bestehen z.B. aus kryptischen Abkürzungen, dass maximal jemand, der/die immer mit diesen Daten gearbeitet hat, damit etwas anfangen kann. Stelle dir nun bitte vor, du gibst deiner Statistikberatung die Daten und erwartest, dass diese*r ohne weitere Rücksprache deine Daten auswertet. Das wird e /sie im Zweifel sogar anstandslos tun, jedoch ist die Frage, ob dies dann am Ende Sinn ergibt. Dies führt zu einem Chaos und Verzweiflung, vor dem wir euch bewahren wollen.

Falls du mit Excel arbeitest und die Daten anschließend in SPSS übertragen willst, dann raten wir dir dringend, direkt die Schreibweise von SPSS zu nutzen. SPSS mag keine Bindestriche oder Punkte in der Variablenbeschriftung, weshalb die beste Schreibweise die folgende ist: „Alter_Erkrankungsbeginn“. Du könntest die Variable natürlich auch A_EB nennen, wenn du weißt, was gemeint ist. Jedoch kann es für Dritte sehr verwirrend sein und die Arbeit unnötig erschweren. Es ist darüber hinaus auch nicht notwendig, sich in der Variablenbeschriftung extrem kurz zu halten, viel besser ist es doch, wenn man nicht lange überlegen muss, was diese bedeutet.

Tipp 3: Führe von vornherein eine gute Legende für die Bedeutung deiner Zahlen jeder Variablen.

Wir empfehlen die Erstellung der primären Datenmatrix für die Rohdaten immer in Excel vorzunehmen. Dies hat einen einfachen Grund: Excel ist ein wahnsinnig flexibles und vielseitiges Tool, das deutlich mehr kann, als nur eure Daten zu verwalten! Wir persönlich nutzen immer diesen Lizenzschlüssel, mit dem du dein Microsoft Office auf dem PC wunderbar aktivieren kannst. So kamen wir bisher immer um das teure Office Paket herum. Excel kann dir fortlaufend Umrechnungen und Berechnungen von Scores etc. ermöglichen, was insbesondere SPSS nicht richtig kann, bzw. dies zumindest nicht bei der Neueingabe von Daten fortführt. 

Doch kommen wir zurück zur Legende. Wenn du deine Excel-Matrix erstellst, dann beginne am besten nicht in der ersten Zeile mit dem Variablennamen, sondern lege dir zunächst 1-10 Zeilen für deine Legenden zurecht. Wie unsere Großeltern immer so schön sagen: „Ordnung ist das halbe Leben“.

Die Legende/Codierung über jeder Variablen stehen zu haben, ist für deine Eingabe sehr zeitsparend, weil du nicht ständig wieder in deine „Schlüsseltabelle“ schauen musst. Viele führen Schlüsseltabellen, in denen bsp. aufgeführt wird, dass für die Variable Geschlecht 1= „männlich“ und 2= „weiblich“ bedeutet. Wir fanden das immer etwas umständlich zwischen den Tabellen hin und her springen zu müssen, und handhaben es deshalb wie auf dem nachfolgenden Bild.

Ein weiterer Vorteil an dieser Strategie ist, dass du dem/der Statistiker*in theoretisch nur die Excel geben musst und er/sie weiß dann direkt, was die Daten bedeuten und kann die Beschriftung der Variablen in SPSS oder R exakt so übernehmen. Auch hier gilt, wie bei allem im System von Step-by-Step zum Dr. med. – Promovieren leicht gemacht: Gut geplant ist halb geschrieben :).

Falls du jedoch eigenständig mit dem Statistikprogramm R arbeitest, möchten wir dir folgenden Hinweis mitgeben: Lege dir nach Vervollständigung deiner Excel-Matrix ein weiteres Blatt an, in dem ausschließlich deine Matrix zu finden ist. Somit erleichterst du dir den Import deiner Daten in das Programm R, da du einfach das zugehörige Blatt auswählen kannst. 

Tipp 4: Ordne deine Spalten möglichst thematisch passend an.

Je mehr du über die Datenmatrix im Vorhinein nachdenkst, desto leichter fallen dir die Schritte bei deiner deskriptiven Datenauswertung sowie der späteren Inferenzstatistik. Am besten hat man sogar bereits jetzt schon einen groben Plan davon, wie der spätere Ergebnisteil strukturiert werden soll, aber keine Sorge, wenn du das jetzt noch nicht genau weißt. Zu Beginn eines jeden Ergebnisteils kommen aber eigentlich immer die Basischarakteristika wie Durchschnittsalter, Geschlechterverteilung und all die Dinge, die DU eben für sinnvoll hältst, weil sie der Studie dienen. Vergiss nie: es ist deine Promotionsarbeit. 

Geht es bei der Studie um den Risikofaktor Übergewicht, macht der Durchschnitts-BMI in der Basiserhebung durchaus Sinn. Geht es jedoch um die Schuhgröße der Patient*innen, überlegt man sich, ob die Erhebung der Wohnverhältnisse jetzt zielführend sein könnte (natürlich überspitzt ausgedrückt). Wir beginnen unsere Matrizen deshalb stets mit den Stammdaten und den Daten, die wir als Grundlage der Studie für wichtig erachten. Dazu zählen häufig auch Laborwerte, die einen gewissen Überblick über den Gesundheitszustand verraten. Danach könnten dann spezielle Variablen, wie zum Beispiel Summen-Scores von Fragebögen folgen. Bei Fragebögen handhaben wir es persönlich gerne so, dass wir für jeden Fragebogen eine extra Matrix (in derselben Excel-Datei) anlegen (neues Blatt) und hier sowohl die Rohdaten der Items übertrage als auch am Ende den Summen-Score berechnen. In die so genannte „Hauptmatrix“ werden dann jeweils nur noch die Werte gespiegelt (Funktion = „dann in den Wert klicken, den ihr braucht“), die für die Statistik wichtig sind. Das hat den Vorteil, dass deine eigentliche Datenmatrix nicht so mit Daten zugemüllt wird, die kein Mensch zur Berechnung benötigt. Gleichzeitig hast du jedoch die Möglichkeit, in derselben Datenmatrix bei Bedarf auf die Rohwerte und dessen Berechnungsgrundlage zurückgreifen.

Gerne möchten wir dich auch auf den bereits veröffentlichten Artikel mit dem Titel „BEREIT FÜR DIE DATENAUSWERTUNG?“ verweisen. Hier findest du zusätzliche hilfreiche Tipps und Tricks, die dir ein effizientes Arbeiten ermöglichen.

Wenn du diese und die weiteren Tipps, die wir dir in Modul 4 des Online-Kurses vermitteln, richtig umsetzt, dann hast du eine wasserdichte Datenmatrix, die du später erstens selbst sehr gut und zweitens zusammen mit deiner Statistikberatung super effizient nutzen kannst. So kann Statistik am Ende auch Spaß machen. Warum du IMMER in engem Kontakt mit deiner Statistikberatung stehen solltest, das erklären wir dir in einem anderen Blogbeitrag.

 Eine ausführliche Beschreibung der Kurses erhältst du hier. Dieser Kurs ist nicht nur für die Promotion in der Humanmedizin Deutschland, sondern auch für medizinische Diplomarbeiten im Ausland, Promotionen in der Zahn- und Veterinärmedizin sowie Masterarbeiten in der Medizin und Promotionen der Physiotherapie geeignet. 

Wir wünschen euch viel Erfolg bei eurer Promotion und freuen uns euch bei Fragen beratend zur Seite zu stehen.

Eure Désirée und Laura 

Hier geht es zum Online-Kurs