VO Grundzüge der angewandten Mathematik und Statistik II

1999-03-10 Einführung
1999-03-17
1999-03-18 Übung
1999-03-24
1999-04-14
1999-04-15
1999-04-21
1999-04-28
1999-04-29
1999-05-05
1999-05-12
1999-05-19
1999-05-20
1999-05-26
1999-06-02
1999-06-09
1999-06-16


1999-03-10 Einführung

Nachbesprechung der Prüfungsfragen

Beispiel: Fehltage einer Klasse von Kindern

Wir nahmen an, daß eine Binomialverteilung zugrundeliegt. N ist 20 (Anzahl der Tage); p ist 0,1, weil durchschnittlich 2 Kinder gefehlt haben. (Binomialverteilung: Mittelwert(x)=n*p)

Die Wahrscheinlichkeit, daß bei Binomialverteilung(20, 0,1) x=7 ist, ist sehr gering.

Beispiel: Kommunikation im LehrerInnenzimmer

Noten können dann (so gut wie) normalverteilt sein, wenn unabhängige Faktoren auf sie wirken. Wenn viel im LehrerInnenzimmer geredet wird, sind die Faktoren nicht mehr so unabhängig.

Beispiel: Heiratsinstitut

Werbung: "Von 100 Kontakten sind 98 erfolgreich."

Max Huber hat 10 erfolglose Kontakte (von 10 Versuchen).

Direktorin sagt: jedem 10. geht es wie Ihnen.

Kann das stimmen?

Nein. Die Mißerfolgswahrscheinlichkeit ist 0,02; die Wahrscheinlichkeit, 10mal erfolglos zu sein, ist 0,0210=0,0000.... <> 0,1

Beispiel: 4 StudentInnen

sie gehen in die selbe Vorlesung. Sie stehen jeweils eine Minute vor dem Lift und kommen immer zwischen 8:45 und 9:00. Von 14 Vorlesungseinheiten treffen sich achtmal 2 oder mehr.

Weisheit für den weiteren Lebensweg

Wir sollen versuchen, uns klar auszudrücken.

Die Statistik, die wir lernen, ist nicht kochbuchartig zu verwenden, sondern als Teil der Argumentation.

Hinschreiben, was die Zahlen bedeuten.


Vorbesprechung für die Übung

Die Übungen finden in diesem Semester nicht mehr im Alten AKH, sondern im NIG im 1. Stock im PC-Raum 2 statt.

Neuerungen

SPSS läuft in den BenutzerInnenräumen jetzt unter Windoofs NT. Auch SPSS ist jetzt neuer; es gibt aber keine großen Änderungen.

Im Sommersemester wird das topaktuelle Social Survey 1993 verwendet.

BenutzerInnen-Identifikationen gelten nicht mehr; neue IDs werden im EDV-Zentrum im Tutoriumsraum vergeben. Es handelt sich um UNet-Accounts, wer also schon bei UNet ist, kann weiterhin sein/ihr Passwort verwenden.

Diskette mitnehmen.

30 öS für die Unterlagen mitnehmen.

Stoff

im neuen Datensatz gibt es auch neue Fragen

Einführung SPSS 8.0; Wiederholung

Grafische Analyse: Boxplots

Mehrfachantworten

Grafische Analyse: Polaritätsprofil (Antwortmöglichkeiten von einem Extrem zum anderen)

Grafische Analyse: Liniendiagramm

Signifikanztests (z.B. t-Test)

Grafische Analyse: Streudiagramme

Lineare Regressionsanalyse


1999-03-17

Signifikanz in der Vierfeldertafel

(a-h: wahre Werte; kursiv: erwartete Werte)

MannFrau
Blonda | (e*g)/nb usw. = e
Nicht blondc | (f*g)/nd = f
= g= h= n

Wie setzen wir nun a und (e*g)/n in Beziehung?

Wann ist a-(e*g)/n groß oder klein?

Wir können die Wahrscheinlichkeit jeder möglichen Abweichung berechnen.

BINOMVERT(n, (e*g)/n2) würde genau zurückliefern, wie oft ein a vorkommen kann.

Problem: in der Forschung haben wir meist Variablen mit mehr als zwei Ausprägungen.

Kontingenztabelle: Anzahl(Zeilen) und Anzahl(Spalten) >= 2

ÖstTürJug
SPÖ   
ÖVP fe | fo  
FPÖ   
n

fe: Erwarteter Wert der Zelle (expected)

fo: Wahrer Wert der Zelle (observed)

fe-fo: "Residuum".

Die Summe der Residuen ist immer 0:

A
E
Not A
E
Sum
B50 42,105263250 57,8947368
100
7,89473684 -7,8947368
Not B30 37,894736860 52,1052632
90
-7,8947368 7,89473684
80
110
190

(Die Abweichungen sind nicht unabhängig. Sobald (Anzahl der Spalten - 1) Werte feststehen, steht auch der letzte Wert der letzten Zelle fest.

Freiheitsgrade (DF = degrees of freedom) = (k - 1)(l - 1) (k: Spalten, l: Zeilen)

Da wir die Residuen nicht so einfach addieren können, weil 0 rauskommt, werden wir die Quadrate summieren.

Das n in einer Kreuztabelle ist unendlich, weil wir so oft wir wollen eine Stichprobe ziehen können; die erwarteten Werte würden wir durch unendlich viele Experimente erreichen.

Deswegen können wir statt der Binomialverteilung die Normalverteilung verwenden.

(fo - fe) ... N(0, Schätzung(Wurzel(fe)))

Die angenommene Normalverteilung hat den Mittelwert 0, weil wir genau diese Hypothese testen wollen.

Standardisierte Residuen: wenn wir sie berechnen (lassen), können wir mit Hilfe der Tabelle der Standardnormalverteilung einfach sagen, ob ein bestimmtes Std-Res wahrscheinlich oder unwahrscheinlich ist.

Diese Analyse ist nicht "ganz sauber", weil noch immer die Binomial/Normalverteilung für alle Zellen angenommen wird.

Wenn wir die Quadrate der standardisierten Residuen (=normalverteilte Zufallsvariablen) quadrieren, erhalten wir eine neue Verteilung: c2-Verteilung (= Chi-Quadrat-Verteilung) mit einem Freiheitsgrad.

Der Erwartungswert der c2-Verteilung ist die Anzahl der Freiheitsgrade.


1999-03-18 Übung

IDs für die Übung: k0[PC-Nr+10]aaia pw student

Es werden öfter in der Übung Dateien per e-mail verschickt. Deswegen in der Übung bitte immer mit diesem Login und nicht mit dem UNet-User einloggen.

Die SPSS-Oberfläche sollte nach Login mit dem Übungsuser nicht verändert werden; als UNet-User ist das kein Problem.

Vorsicht mit Fußnoten: Sie sind nur dann zu beachten, wenn in der Tabelle ein Fußnotenzeichen vorkommt.

Es ist SPSS 8.0 leicht möglich, die Tabellen wild zu formatieren. Davon sollte bei den Hausübungen Abstand genommen werden.

Drucken: Druckauftrag losschicken, mit Copy-Card in den Druckerraum gehen, Paßwort nochmal eingeben.

SPSS 8 erlaubt, das Datenniveau der Statistiken auch anzugeben. Achtung, in alten Datendateien ist das nicht enthalten, also muß SPSS schätzen.


1999-03-24

Chi-Quadrat-Verteilung:

Summe

Zufallsvariablen

Die Varianzen von Stichproben haben auch diese Form.

Varianzen normalverteilter Zufallsvariablen sind immer Chi-Quadrat-verteilt. Das kann uns nützen, wenn wir später Varianzen so untersuchen wollen, wie Verteilungen.

Varianzen von Mittelwerten fiktiver Stichproben

Stichprobe = Grundgesamtheit => Varianz = 0

Stichprobe = 1 => Varianz = Varianz(Grundgesamtheit)

Wie groß ist nun die Varianz der Mittelwerte in Abhängigkeit von der Stichprobengröße?

Die Kovarianz von unabhängigen Zufallsvariablen ist 0. Wir haben es hier mit unabhängigen Zufallsvariablen zu tun, also:

Varianz der Summe der Zufallsvariablen = Summe der Varianzen der Zufallsvariablen

sz2=sa2+sb2

Standardfehler (standard error) = Standardabweichung der Mittelwerte:


1999-04-14

Ein Ergebnis ist statistisch signifikant, wenn die Wahrscheinlichkeit, daß es zufällig zustande gekommen ist, klein ist.

Ein signifikantes Ergebnis ist nie "statistisch gesichert" (weil nie etwas durch Statistik gesichert wurde).

Der Standardfehler ist eine theoretische Größe und beantwortet die Frage: Wie würde die Standardabweichung der Mittelwerte von vielen Stichproben der angegebenen Größe aussehen?

Bis zum nächsten Mal überlegen: Was könnte uns dazu veranlassen, zu überlegen, wie groß die Differenz zweier Mittelwerte sein könnte?


Vorbesprechung für die nächste Übung

Grafische Darstellung - metrisch skalierte Daten

Boxplots

In der "Box" befinden sich 50 % der Fälle. Der Median ist mit einer Linie gekennzeichnet.

In den sog. "Whiskers", die unten und oben hervorstehen, sind die Extremwerte der Verteilung ersichtlich, wenn es keine Ausreißer gibt. Ausreißer sind Werte, die mehr als 1,5 Boxlänge von der Boxgrenze entfernt sind. Sie werden durch separate Punkte dargestellt. Die Extremwerte, in SPSS mit einem * gekennzeichnet, sind mehr als 3 Boxlängen entfernt.


1999-04-15 Übung

Bei der Hausübung bitte die Achsen bei 0 beginnen lassen!


1999-04-21

Wenn wir die Differenz der Mittelwerte 2er Stichproben betrachten, definieren wir eine neue Zufallsverteilung, die angibt, wie wahrscheinlich ein konkreter Unterschied zwischen den Differenzen ist.

: t- oder Student-Verteilung

Nullhypothese für den t-Test: die Mittelwerte sind gleich. Wir ermitteln anhand dieser t-Verteilung die Wahrscheinlichkeit für die Hypothese.

Quotient zweier Varianzen

Wenn wir die Varianzen zweier Stichproben durcheinander dividieren, wäre der Erwartungswert unter der Nullhypothese ("die Varianz ist gleich") 1.

F-Verteilung (Fischer): Quotient zweier Chi-Quadrat-Verteilungen, die standardisiert (durch ihre Freiheitsgrade dividiert) wurden.

Bedeutung der F-Verteilung:

Aufgabe bis zum nächsten Mal: Wieso soll uns der Oberstleutnant glauben, daß das eine signifikante Ergebnis nichts bedeutet?


1999-04-28

W
Bgld
Kt
St
T
V
W 168
X
3
2
1
1
7
5
Nö 171
X
1
2
4
4
2
Bgld 170
X
1
3
5
3
Kt 169
X
2
6
4
St 167
X
8
6
T 175
X
2
V 173
X

8 ist signifikant auf dem 5 %-Niveau. Müssen wir diesen Unterschied weiter untersuchen? Nein. Auf dem 5 %-Niveau wird immer jedes 20te Ergebnis signifikant sein, selbst bei Zufallszahlen.

Die bloße Betrachtung von Signifikanz ohne vorherige theoretische Überlegung ist sinnlos!

Ein sinnvolles signifikantes Ergebnis bedeutet, daß eine sinnvolle, vorher gut durchdachte Hypothese anhand von Überlegungen aufgestellt wurde und diese durch die Stichprobe "untermauert" wird.

Wie können wir die Summe aller Mittelwertsunterschiede betrachten?

Fragen für nächstes mal:

Wie können wir das interpretieren:?


Übungs-Vorbesprechung

Stoff der nächsten Übungseinheit

t-Test.

Voraussetzungen: metrisches Niveau, Normalverteilung

U-Test

geht auch mit ordinalen und nicht normalverteilten Daten.


1999-04-29

Grundsatzentscheidungen für t-Tests

z.B. für den Vergleich von Männern und Frauen in der Stichprobe

(Varianztest hilft zu entscheiden, welcher t-Test genommen wird.)

Für Paarvergleiche (z.B. Frau Huber mit Herrn Huber vergleichen oder Vorher-Nachher-Untersuchung)

H0: Mittelwerte gleich

H1: Mittelwerte ungleich

H0: Varianzen sind gleich

H1: Varianzen ungleich

Kolmogorov-Smirnov-Test

Test, ob eine Verteilung der Normalverteilung entspricht

Mann-Whitney-U-Test

Haben zwei unabhängige Stichproben die gleiche Verteilung?

Es ist nicht notwendig, daß eine Normalverteilung vorliegt, und auch ordinales Datenniveau ist schon ausreichend.

Wenn wir uns nicht sicher sind, daß die Voraussetzungen für den t-Test ausreichen, können wir zuerst einen U-Test machen. Wenn da das selbe wie beim t-Test rauskommt, können wir den t-Test beruhigt interpretieren.

Hausübung: Nur Aufgabe 1!

Grundsätzlich:

1. Fragestellung überlegen

2. Datenniveau anschauen

3. Test auswählen


1999-05-05

... F-Verteilung mit n-k, k-1 Freiheitsgraden

Voraussetzung: Gruppen, die nach einem Merkmal unterschieden werden (z.B. SoldatInnen aus Bundesländern)

1. Teil des Ausdrucks: "erklärte Varianz": Einfluß der Varianz der Gruppen (im Gegensatz zu den individuellen Daten)

2. Teil: Varianz ohne Gruppeneinfluß

F-Test (mit Hilfe der F-Verteilung) testet den Unterschied zwischen zwei Varianzen (ob er zufällig zustandegekommen ist)

Der F-Test der Varianzanalye ist rechnerisch genauso, nur ist die Varianzanalyse die Zerlegung der Varianz in zwei Anteile, und testet, ob der Unterschied zwischen diesen Anteilen zufällig ist.

Wie finden wir eine Gerade, die eine halbwegs große Korrelation zwischen zwei Variablen beschreibt? ("Was-wäre-wenn-Linie")


1999-05-12

Regression

Steigung der Regressionsgerade: b ist der Anteil der Kovarianz an der Varianz von X.

;

Die Regressionsgerade ist die Gerade, von der die y-Abweichungen der Variablen nur mehr zufällig sind (die y-Werte "müßten" auf der Geraden liegen; wenn sie es nicht tun, ist es ein Zufall).


1999-05-19

Unabhängige und abhängige Variablen

z.B. Gewicht und Größe: SPSS und andere Programme bezeichnen eine Variable als "dependent", abhängig. In Wirklichkeit hängen die Variablen zusammen, wir können nicht sagen, daß das Gewicht von der Größe abhängt.

Der y-Abstand eines Punktes vom Mittelwert(y) besteht aus zwei Komponenten: Abstand zwischen y und y. und y. und Mittelwert(y).

==>

"Erklärte Varianz": Quadrat des Korrelationskoeffizienten. Die "erklärte Varianz" kommt daher, daß eine andere Variable variiert.


1999-05-20 Übung

Anmeldelisten für die Prüfung ab 9. Juni

R2 in SPSS: "Bestimmtheitsmaß": hat Werte zwischen 0 und 1.

0: kein Zusammenhang

1: Zusammenhang perfekt (Alle Punkte auf der Regressionsgeraden)

Punkte, die sehr weit von der Linie entfernt sind, sind "Ausreißer". Sie können nach reiflicher Überlegung ausgeschlossen werden.

ANOVA

Nullhypothese für Signifikanz: R2 = 0 (überhaupt kein Zusammenhang)

Alternativhypothese: R2 <> 0: es besteht ein Zusammenhang

Ermittlung der Geradengleichung

Tabelle "Koeffizienten", B-Spalte: ^y = (Konstante) * Variable

Residuum bei der Regression: Fehler, den ich bei meiner Schätzung begehe. Positives Residuum: Wert unterschätzt.

"Fallweise Diagnose" zeigt, welcher Wert sehr von der Geraden abweicht

Histogramm der standardisierten Residuen sollte normalverteilt sein. Wenn die Fehler nicht normalverteilt sind, können wir nicht von Zufall ausgehen.

Dummy-Variablen: wir gehen davon aus, daß sie metrisches Datenniveau haben (für Regression ausschließlich metrisch skalierte Variablen verwenden!). 0 bedeutet "Nein", 1 "ja".

Regression mit mehreren unabhängigen Variablen: Dummy-Variablen müssen gebildet werden.

Bei der Hausübung können Werte wie 6,743E-03 rauskommen: das ist wissenschaftliche Notation für 0,006743.


1999-05-26

Die Residuen sind mit dem erklärten Varianzanteil unkorreliert.

Nicht erklärte Varianz (Residualvarianz): 1 - r2

"Erklärte" Varianz (Bestimmtheitsmaß): r2

"Multiple Regression": Eine weitere Variable wird ins Modell eingefügt. Dadurch wird die erklärte Varianz größer.

Wenn wir den "reinen" Zusammenhang zwischen zwei Variablen ohne den Einfluß einer dritten (z.B. Körpergewicht => Nahrungsmenge ohne Einfluß der Körpergröße) untersuchen wollen, rechnen wir die Residuen aus und vergleichen nur mehr sie (z.B. ResiduumKörpergewichti mit ResiduumNahrungsmengei). ==> Partielle Korrelation

Für identische Varianzen gilt: r = b

Überlegen: was kommt bei der partiellen Korrelation raus?


1999-06-02

Partielle Korrelation (Korrelation zwischen x und y unter Ausschaltung von z):

... (bei standardisierten Variablen)

... (bei nichtstandardisierten Variablen)

rxy: Korrelation "0-ter Ordnung" ("zero-order")

rxy*z: Korrelation "1-ter Ordnung"

Partielle Korrelationen haben meist einen niedrigeren Wert als die Korrelationen 0-ter Ordnung.


1999-06-09

Nachtrag zum Korrelationskoeffizienten

Für eine Vierfeldertafel, in die nur Ergebnisse eingetragen werden, die die Werte 0 oder 1 annehmen können.

Implikationen:

1. Wenn der Korrelationskoeffizient bekannt ist, braucht dieser nur quadriert und mit n multipliziert zu werden: dann erhalten wir die Chi-Quadrat-Verteilung, um die Signifikanz zu berechnen

2. r2/(1-r2): erklärte Varianz / nicht erklärte Varianz

Lösung einiger Beispiele aus dem Skriptum

23. (Weinbauern in Genossenschaften)

Erheben: Gewinn, Genossenschaft Ja/Nein, Betriebsgröße

Stichprobengröße hängt von der Streuung des Gewinns ab

(Scheinkorrelation: Merkmal, das mit beiden untersuchten Merkmalen korreliert.)

=> t-Test (vorher Varianzen auf Gleichheit testen)

=> (partielle Korrelation)

=> Weinbauern gleicher Größe vergleichen!

21. (Notendurchschnitte Mathematik)

=> Residuen berechnen

=> Schulnoten sind nicht normalverteilt, Notendurchschnitte schon

"Parteipräferenz hängt mit ethnischer Herkunft des Familienoberhauptes zusammen"

Abhängige Variable: Parteipräferenz

Unabhängige Variable: ethnische Herkunft (Paß? Selbstangabe? Muttersprache?)

=> Kreuztabelle, Chi-Quadrat-Test

=> Standardisierte Residuen in den Zellen anschauen, <-2 oder >2 ist "interessant"


Nachbesprechung der 4. Hausübung

2. r2 ist bei älteren Männern ziemlich groß, bei jüngeren viel niedriger, weil diese noch am Anfang ihrer beruflichen Laufbahn stehen, und da hängen Einkommen und Berufsprestige noch nicht so sehr zusammen.

3. a. yi= 23,7 + 0,00095 * 13.000 = 36,05

3. b. Wieso schauen wir uns an, ob die Residuen normalverteilt sind? Wären sie normalverteilt, wüßten wir, daß die Streuung zufällig ist. Sonst gibt es auch andere systematische Einflüsse => Modell verbessern!

Mögliche Prüfungsfragen:


1999-06-16

Ab SS 2000: Seminar zur mathematischen Soziologie

Inhalt: einfache oder einfach darstellbare mathematische Verfahren werden auf ihre Eignung für die Mikrosoziologie überprüft.

Bsp. 30 (Fluß)

Daten erheben (Wasserstandsstatistik der letzten 100 Jahre)

=> Schauen, ob die Abweichungen zufällig sind

=> Regression, um festzustellen, ob ein Trend vorliegt (steigend/fallend)

=> Korrelation zwischen Schneemenge und Hochwasser. Nicht erklärte Varianz.

=> Ist das Merkmal oder die Residuen normalverteilt? (diese Frage immer stellen!)

=> Test, ob die Residuen normalverteilt sind

=> Chi-Quadrat-Test: Unterschied zwischen empirischer und Normalverteilung

=> Wenn die Verteilung bekannt ist, kann ermittelt werden, wo die 5 % liegen

Bsp. 26 (Prüfungsnoten)

1. F-Test: sind die Varianzen gleich?

2. t-Test der Mittelwertsunterschiede für gleiche oder ungleiche Varianzen, je nach (1.)

=> Ergebnis signifikant = Prüfer bevorzugt Männer

Achtung, das Ergebnis ist problematisch, weil die Noten ordinal skaliert sind!

+ F- und t-Test auch auf andere Prüfungen anwenden, um zu sehen, ob das die einzige ungleich benotete Prüfung ist

sozialwissenschaftlicher Ansatz: Arbeiten von Frauen und Männern vertauschen und das Ergebnis vergleichen

(z-Transformation: Wir nehmen an, daß die "Kenntnis" normalverteilt ist und versuchen, daraus die Noten abzuleiten.)

Bsp. 28 (Autobahngebühr)

Benötigte Information: Autobahnkilometer, Dauer des Besitzes oder wie oft das Auto gewechselt wurde, von einer repräsentativen Stichprobe.

1-r2 (nicht erklärte Varianz) berechnen: Das gibt an, wie groß der Fehler ist, den wir bei dieser "Regression" machen.

Allgemeine Antwort auf solche Fragen: 1. Welche Daten brauche ich? 2. Was tue ich mit den Daten? 3. Was für Fehleinschätzungen können wir dabei machen?

Bsp. 27 (GefangeneR)

Über einen Zeitraum die Rundgangsintervalle und die Personen protokollieren

Einfacher (nicht-statistischer) Ansatz: abzählen, wieviele Rundgänge unter 20 Minuten

Chi-Quadrat-Test, ob die Verteilung zufällig ist (z.B. signifikante Abweichung von der Normalverteilung)

Bsp. 31... Untersuchungsplan: Kilometer/Jahr und Land

Stichprobeneinheit: ein Auto

Daten: Kilometer/Jahr; Herkunftsland

=> Kreuztabelle nach Land und Gruppen von km: nicht so gut, weil Daten "weggeworfen" werden

Berechnen: Durchschnitte, Varianzen für jede Landesgruppe

Signifikanz für jeden Unterschied zwischen zwei Klassen berechnen.

Varianzanalyse zwischen und innerhalb der Gruppen


© Balázs Bárány, Univ. Prof. Dr. Anselm Eder. Nicht autorisiert. Für Nutzungsbedingungen siehe http://www.tud.at/uni/kleingedrucktes.htm.
zuletzt geändert (JMT): 1999-10-01