t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

In diesem Tutorial geht es um die z-Standardisierung (z-Transformation). Wir besprechen was der z-Wert ist, wie die z-Standardisierung funktioniert und was die Standardnormalverteilung ist. Außerdem wird hier erklärt, was die z-Wert-Tabelle ist und wofür sie verwendet wird.

Was ist die z-Standardisierung?

Die z-Standardisierung ist ein statistisches Verfahren, das dazu dient, Datenpunkte aus verschiedenen Datensätzen vergleichbar zu machen. Bei diesem Verfahren wird jeder Datenpunkt in einen z-Score umgewandelt. Ein z-Score gibt an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert des Datensatzes entfernt ist.

Beispiel z-Standardisierung

Angenommen, du bist Arzt oder Ärztin und möchtest den Blutdruck deiner Patienten untersuchen. Dazu hast du bei einer Stichprobe von 40 Patienten den Blutdruck gemessen. Aus den gemessenen Daten kannst du nun den Mittelwert berechnen, also den Wert, den die 40 Patienten im Durchschnitt haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (1)

Nun fragt dich einer der Patienten, wie hoch sein Blutdruck im Vergleich zu den anderen Patienten ist. Du sagst ihm, dass sein Blutdruck 10mmHg über dem Durchschnitt liegt. Jetzt stellt sich natürlich die Frage, ob 10mmHg viel oder wenig ist.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2)

Wenn die anderen Patienten sehr eng um den Mittelwert streuen, dann sind 10 mmHg viel im Verhältnis zur Streuung. Wenn die anderen Patienten jedoch sehr weit um den Mittelwert streuen, dann sind 10 mmHg vielleicht nicht so viel.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (3)

Wie stark die Daten streuen, sagt uns die Standardabweichung. Wenn die Daten nahe am Mittelwert liegen, haben wir eine kleine Standardabweichung, wenn sie stark streuen, haben wir eine große Standardabweichung.

Sagen wir, für unsere Daten erhalten wir eine Standardabweichung von 20 mmhg. Das heißt, dass im quadratischen Mittel die Patienten um 20 vom Mittelwert abweichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (4)

Der z-Wert sagt uns nun, wie weit eine Person in Einheiten der Standardabweichung vom Mittelwert entfernt ist. Also eine Person, die eine Standardabweichung vom Mittelwert abweicht, hat einen z-Wert von 1, eine Person, die doppelt so weit vom Mittelwert abweicht, hat einen z-Wert von 2 und eine Person, die drei Standardabweichungen vom Mittelwert abweicht, hat einen z-Wert von 3.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (5)

Dementsprechend hat eine Person, die um minus eine Standardabweichung abweicht, einen z-Wert von -1, eine Person, die um minus zwei Standardabweichungen abweicht, einen z-Wert von minus 2 und eine Person, die um minus drei Standardabweichungen abweicht, einen z-Wert von minus 3.

Und wenn eine Person genau den Wert des Mittelwertes hat, dann weicht sie natürlich um null Standardabweichung vom Mittelwert ab und erhält den Wert null.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (6)

Der z-Wert gibt also an, wie viele Standardabweichungen ein Messwert vom Mittelwert entfernt ist. Wie bereits erwähnt, ist die Standardabweichung nur ein Maß für die Streuung des Blutdrucks der Patienten um den Mittelwert.

Kurz gesagt, der z-Wert hilft uns zu verstehen, wie außergewöhnlich oder normal ein bestimmter Messwert im Vergleich zum Gesamtdurchschnitt ist.

z-Wert berechnen

Wie berechnen wir den z-Wert? Wir wollen die Ausgangsdaten, in unserem Fall den Blutdruck, irgendwie in z-Werte umrechnen, also eine z-Standardisierung durchführen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (7)

Hier sehen wir die Formel für die z-Standardisierung. Hier ist z jener z-Wert, den wir berechnen wollen, x ist der beobachtete Wert, in unserem Fall der Blutdruck der betreffenden Person, μ ist der Mittelwert der Stichprobe, in unserem Fall also der Mittelwert aller 40 Patienten, und σ ist die Standardabweichung der Stichprobe, also die Standardabweichung unserer 40 Patienten.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (8)

Achtung: Eigentlich sind μ und σ der Mittelwert und die Standardabweichung der Grundgesamtheit. In unserem Fall haben wir aber nur eine Stichprobe. Unter bestimmten Voraussetzungen, auf die wir später noch eingehen werden, können wir jedoch den Mittelwert und die Standardabweichung mit Hilfe der Stichprobe schätzen.

Angenommen, in unserem Beispiel haben die 40 Patienten einen Mittelwert von 130 und eine Standardabweichung von 20. Wenn wir beide Werte einsetzen, erhalten wir für z: x-130 geteilt durch 20

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (9)

Nun können wir den Blutdruck von jedem einzelnen Patienten für x einsetzen und uns den z Wert berechnen. Machen wir das einfach mal für den ersten Patienten. Nehmen wir an, dieser Patient hat einen Blutdruck von 97, dann setzen wir einfach 97 für x ein und erhalten damit einen z-Wert von -1,65.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (10)

Diese Person weicht also um -1,65 Standardabweichungen vom Mittelwert ab. Das können wir jetzt für alle Patienten machen.

Unabhängig von der Einheit der Ausgangsdaten haben wir jetzt eine Übersicht, in der wir sehen können, wie weit eine Person vom Mittelwert in Einheiten der Standardabweichung abweicht.

Jetzt haben wir natürlich nur eine Stichprobe, die aus einer bestimmten Grundgesamtheit stammt. Aber wenn die Daten normalverteilt sind und die Stichprobengröße größer als 30 ist, dann können wir mit Hilfe des z-Wertes sagen, wie viel Prozent der Patienten einen niedrigeren Blutdruck als z.B. 110 haben und wie viel Prozent einen höheren Blutdruck als 110 haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (11)

Aber wie geht das? Wenn die Ausgangsdaten normalverteilt sind, erhalten wir durch die z-Standardisierung eine sogenannte Standardnormalverteilung.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (12)

Die Standardnormalverteilung ist eine bestimmte Art der Normalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (13)

Die Besonderheit besteht darin, dass jede Normalverteilung, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung, in eine Standardnormalverteilung umgewandelt werden kann.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (14)

Da wir nun eine standardisierte Verteilung haben, brauchen wir eigentlich nur noch eine Tabelle, die uns für möglichst viele z-Werte sagt, wie viel Prozent der Werte unter diesem Wert liegen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (15)

Und eine solche Tabelle findest du in fast jedem Statistik Buch oder hier: Tabelle der z-Verteilung. Jetzt ist natürlich die Frage, wie man diese Tabelle liest?

Wenn wir z.B. einen z-Wert von -2 haben, dann können wir aus dieser Tabelle einen Wert von 0,0228 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (16)

Das bedeutet, dass 2,28% der Werte kleiner als ein z-Wert von -2 sind. Da die Summe immer 10% oder 1 beträgt, sind 97,72 % der Werte größer.

Bei einem z-Wert von Null liegen wir genau in der Mitte und erhalten einen Wert von 0,5. Dies bedeutet, dass 50% der Werte kleiner als ein z-Wert von 0 und 50% der Werte größer als 0 sind. Da die Normalverteilung symmetrisch ist, können wir die Wahrscheinlichkeiten für positive z-Werte genau ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (17)

Wenn wir einen z-Wert von 1 haben, brauchen wir nur nach -1 zu suchen. Wir müssen jedoch beachten, dass wir in diesem Fall einen Wert erhalten, der uns sagt, wie viel Prozent der Werte größer als der z-Wert sind. Bei einem z-Wert von 1 sind also 15,81% der Werte größer und 84,14% der Werte kleiner.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (18)

Was aber, wenn wir z.B. aus der Tabelle einen z-Wert von -1,81 ablesen wollen? Dazu brauchen wir die anderen Spalten. Einen z-Wert von -1,81 können wir bei -1,8 und bei 0,01 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (19)

Nun schauen wir uns das Ganze noch einmal für einen Blutdruckwert an. Wenn wir z.B. wissen wollen, wie viel Prozent der Patienten einen Blutdruck unter 123 haben, können wir mit Hilfe der z-Standardisierung einen Blutdruck von 123 in einen z-Wert umrechnen. In diesem Fall erhalten wir einen z-Wert von -0,35.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (20)

Nun können wir die Tabelle mit den z-Verteilungen nehmen und nach einem z-Wert von -0,35 suchen. Hier haben wir einen Wert von 0,3632. Also 36,32 Prozent der Werte sind kleiner als ein z-Wert von -0,35 und 63,68 Prozent sind größer.

Verschiedene Datensätze vergleichen

Es gibt aber noch einen wichtigen Anwendungsfall für die z-Standardisierung. Die z-Standardisierung kann helfen, auf unterschiedliche Weise gemessene Werte vergleichbar zu machen. Hier ein Beispiel.

Angenommen, wir haben zwei Klassen, Klasse A und Klasse B, die einen unterschiedlichen Test in Mathematik geschrieben haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (21)

Die Tests sind unterschiedlich gestaltet, haben einen unterschiedlichen Schwierigkeitsgrad und eine unterschiedliche maximale Punktzahl.

Um die Leistungen der Schüler der beiden Klassen fair vergleichen zu können, können wir die Z-Standardisierung anwenden.

Die durchschnittliche Punktzahl bzw. der Mittelwert der Klasse A betrug 70 Punkte mit einer Standardabweichung von 10 Punkten. Die durchschnittliche Punktzahl für den Test in Klasse B betrug 140 Punkte mit einer Standardabweichung von 20 Punkten.

Wir wollen nun die Leistung von Max aus der Klasse A, der 80 Punkte erreicht hat, mit der Leistung von Emma aus der Klasse B, die 160 Punkte erreicht hat, vergleichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (22)

Hierfür berechnen wir den z-Wert von Max und Emma. Wir tragen für x einmal 80 ein und erhalten einen z-Wert von 1. Und wir tragen 160 für x ein und erhalten ebenfalls einen z-Wert von 1.

Die z-Werte von Max und Emma sind also gleich. Das bedeutet, dass beide Schulkinder in Bezug auf die durchschnittliche Leistung und die Streuung in ihrer jeweiligen Klasse gleich gut abgeschnitten haben. Beide liegen genau eine Standardabweichung über dem Mittelwert ihrer Klasse.

Voraussetzungen

Aber was ist mit den Voraussetzungen? Können wir einfach eine z-Standardisierung berechnen und die Tabelle der Standardnormalverteilung verwenden?

Die z-Standardisierung selbst, d.h. die Umrechnung der Datenpunkte in z-Werte mit Hilfe dieser Formel, unterliegt im Wesentlichen keinen strengen Voraussetzungen. Sie kann unabhängig von der Datenverteilung durchgeführt werden.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (23)

Wenn wir jedoch die resultierenden z-Werte im Kontext der Standardnormalverteilung für statistische Analysen verwenden (z.B. für Hypothesentests oder Konfidenzintervalle), müssen bestimmte Bedingungen erfüllt sein.

Die z-Verteilung setzt voraus, dass die zugrunde liegende Grundgesamtheit normalverteilt ist und dass der Mittelwert (μ) und die Standardabweichung (σ) der Grundgesamtheit bekannt sind.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (24)

Da in der Praxis aber selten die gesamte Grundgesamtheit vorhanden ist und auch Mittelwert und Standardabweichung meist nicht bekannt sind, ist diese Voraussetzung natürlich oft nicht erfüllt. Glücklicherweise gibt es aber noch eine alternative Voraussetzung.

Obwohl die z-Verteilung für normalverteilte Grundgesamtheiten definiert ist, kann der Zentrale Grenzwertsatz auf große Stichproben angewendet werden. Dieser Satz besagt, dass sich die Verteilung der Stichprobe einer Normalverteilung annähert, wenn der Stichprobenumfang größer als 30 ist.

Wenn also die Stichprobe größer als 30 ist, kann die Standardnormalverteilung als Annäherung verwendet werden und der Mittelwert und die Standardabweichung können mit Hilfe der Stichprobe geschätzt werden.

Wenn die Standardabweichung aus der Stichprobe geschätzt wird, schreibt man üblicherweise s anstelle von σ und für den Mittelwert x Strich anstelle von mu.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (25)

Die z-Standardisierung darf nicht mit dem z-Test oder dem t-Test verwechselt werden. Wenn du wissen möchtest, was der t-Test ist, kannst du dir das folgende Video ansehen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

FAQs

What is the difference between ANOVA and t-test and chi-square test? ›

While t-tests and ANOVA primarily deal with continuous dependent variables, Chi-Square tests come into play when there is a categorical dependent variable, often in the context of logistic regression.

What is the difference between t-tests and ANOVA versus regression? ›

In this sense, a t-test is just a simple linear regression with a single categorical predictor (independent) variable that has two levels (e.g., Male & Female) while ANOVA is a simple linear regression with a single predictor variable that has more than two levels (e.g., Cat, Dog, Fish).

Is ANOVA correlation or regression? ›

Thus, ANOVA can be considered as a case of a linear regression in which all predictors are categorical. The difference that distinguishes linear regression from ANOVA is the way in which results are reported in all common Statistical Softwares.

What is the difference between regression and chi-square test? ›

Chi-square test is used to analyze nominal data mostly in chi-square distributions (Satorra & Bentler 2001). The distribution of data in the chi-square distribution is positively skewed. Regression analysis is used to test the relationship between independent and dependent variables in a study.

Should I use chi-square or t-test? ›

Both chi-square tests and t tests can test for differences between two groups. However, a t test is used when you have a dependent quantitative variable and an independent categorical variable (with two groups). A chi-square test of independence is used when you have two categorical variables.

When should you use ANOVA instead of t-tests? ›

The Student's t test is used to compare the means between two groups, whereas ANOVA is used to compare the means among three or more groups.

Why use ANOVA instead of regression? ›

Regression focuses on predicting the value of a dependent variable based on one or more independent variables. ANOVA is primarily used to compare means between two or more groups. Regression involves fitting a line or curve to a set of data points to establish a predictive relationship.

When to use t-test vs correlation? ›

Correlation is a statistic that describes the association between two variables. The correlation statistic can be used for continuous variables or binary variables or a combination of continuous and binary variables. In contrast, t-tests examine whether there are significant differences between two group means.

What is the difference between chi-square and correlation? ›

Both correlations and chi-square tests can test for relationships between two variables. However, a correlation is used when you have two quantitative variables and a chi-square test of independence is used when you have two categorical variables.

What is the difference between Pearson chi square test and chi-square test? ›

pearson chi square can be used as an inferential test of the independence of two nominal variables . and chi-squared test can be used to attempt rejection of the null hypothesis that the data are independent.

Why use regression instead of t-test? ›

This flexibility of the regression models allows us to perform most analyses using a unified approach. Using linear regression instead of a t test or ANOVA allows us to directly obtain estimates (differences between treatment groups) along with their confidence intervals instead of only P values.

Do I use correlation or regression? ›

The most commonly used techniques for investigating the relationship between two quantitative variables are correlation and linear regression. Correlation quantifies the strength of the linear relationship between a pair of variables, whereas regression expresses the relationship in the form of an equation.

When to use ANOVA vs correlation? ›

Analysis of variance (ANOVA) is a collection of statistical models used to analyze the differences among group means and their associated procedures (such as "variation" among and between groups). A correlation is a single number that describes the degree of relationship between two variables.

What is the difference between correlation and regression? ›

Regression: Difference between Correlation and Regression. Correlation measures the degree of relationship between two variables. Regression is about how one variable affects the other. To find the numerical value that defines and shows the relationship between two variables.

What is the difference between chi-square test and t-test and F-test? ›

Both the t-test and the z-test are usually used for continuous populations, and the chi-square test is used for categorical data. The F- test is used for comparing more than two means.

What is a chi-square test used for? ›

A chi-square test is a statistical test used to compare observed results with expected results. The purpose of this test is to determine if a difference between observed data and expected data is due to chance, or if it is due to a relationship between the variables you are studying.

When to use an ANOVA test? ›

You might use ANOVA when you want to test a particular hypothesis between groups, determining – in using one-way ANOVA – the relationship between an independent variable and one quantitative dependent variable. An example could be examining how the level of employee training impacts customer satisfaction ratings.

What is the difference between ANOVA t-test and F-test? ›

An F-test, also known as the analysis of variance (ANOVA) test, is used to determine if there is a significant difference between the means of two or more groups. Unlike the t-test, which compares two groups, the F-test compares variances among groups to assess if there is a significant difference in means.

Top Articles
Latest Posts
Article information

Author: Eusebia Nader

Last Updated:

Views: 6755

Rating: 5 / 5 (60 voted)

Reviews: 91% of readers found this page helpful

Author information

Name: Eusebia Nader

Birthday: 1994-11-11

Address: Apt. 721 977 Ebert Meadows, Jereville, GA 73618-6603

Phone: +2316203969400

Job: International Farming Consultant

Hobby: Reading, Photography, Shooting, Singing, Magic, Kayaking, Mushroom hunting

Introduction: My name is Eusebia Nader, I am a encouraging, brainy, lively, nice, famous, healthy, clever person who loves writing and wants to share my knowledge and understanding with you.