VO Grundzüge der angewandten Mathematik und Statistik II
Wir nahmen an, daß eine Binomialverteilung zugrundeliegt. N ist 20 (Anzahl der Tage); p ist 0,1, weil durchschnittlich 2 Kinder gefehlt haben. (Binomialverteilung: Mittelwert(x)=n*p)
Die Wahrscheinlichkeit, daß bei Binomialverteilung(20, 0,1) x=7 ist, ist sehr gering.
Noten können dann (so gut wie) normalverteilt sein, wenn unabhängige Faktoren auf sie wirken. Wenn viel im LehrerInnenzimmer geredet wird, sind die Faktoren nicht mehr so unabhängig.
Werbung: "Von 100 Kontakten sind 98 erfolgreich."
Max Huber hat 10 erfolglose Kontakte (von 10 Versuchen).
Direktorin sagt: jedem 10. geht es wie Ihnen.
Kann das stimmen?
Nein. Die Mißerfolgswahrscheinlichkeit ist 0,02; die Wahrscheinlichkeit, 10mal erfolglos zu sein, ist 0,0210=0,0000.... <> 0,1
sie gehen in die selbe Vorlesung. Sie stehen jeweils eine Minute vor dem Lift und kommen immer zwischen 8:45 und 9:00. Von 14 Vorlesungseinheiten treffen sich achtmal 2 oder mehr.
Wir sollen versuchen, uns klar auszudrücken.
Die Statistik, die wir lernen, ist nicht kochbuchartig zu verwenden, sondern als Teil der Argumentation.
Hinschreiben, was die Zahlen bedeuten.
Die Übungen finden in diesem Semester nicht mehr im Alten AKH, sondern im NIG im 1. Stock im PC-Raum 2 statt.
SPSS läuft in den BenutzerInnenräumen jetzt unter Windoofs NT. Auch SPSS ist jetzt neuer; es gibt aber keine großen Änderungen.
Im Sommersemester wird das topaktuelle Social Survey 1993 verwendet.
BenutzerInnen-Identifikationen gelten nicht mehr; neue IDs werden im EDV-Zentrum im Tutoriumsraum vergeben. Es handelt sich um UNet-Accounts, wer also schon bei UNet ist, kann weiterhin sein/ihr Passwort verwenden.
Diskette mitnehmen.
30 öS für die Unterlagen mitnehmen.
im neuen Datensatz gibt es auch neue Fragen
Einführung SPSS 8.0; Wiederholung
Grafische Analyse: Boxplots
Mehrfachantworten
Grafische Analyse: Polaritätsprofil (Antwortmöglichkeiten von einem Extrem zum anderen)
Grafische Analyse: Liniendiagramm
Signifikanztests (z.B. t-Test)
Grafische Analyse: Streudiagramme
Lineare Regressionsanalyse
(a-h: wahre Werte; kursiv: erwartete Werte)
| Mann | Frau | ||
| Blond | a | (e*g)/n | b usw. | = e |
| Nicht blond | c | (f*g)/n | d | = f |
| = g | = h | = n |
Wie setzen wir nun a und (e*g)/n in Beziehung?
Wann ist a-(e*g)/n groß oder klein?
Wir können die Wahrscheinlichkeit jeder möglichen Abweichung berechnen.
BINOMVERT(n, (e*g)/n2) würde genau zurückliefern, wie oft ein a vorkommen kann.
Problem: in der Forschung haben wir meist Variablen mit mehr als zwei Ausprägungen.
Kontingenztabelle: Anzahl(Zeilen) und Anzahl(Spalten) >= 2
| Öst | Tür | Jug | |
| SPÖ | |||
| ÖVP | fe | fo | ||
| FPÖ | |||
| n |
fe: Erwarteter Wert der Zelle (expected)
fo: Wahrer Wert der Zelle (observed)
fe-fo: "Residuum".
Die Summe der Residuen ist immer 0:
| B | 50 | 42,1052632 | 50 | 57,8947368 | |
| 7,89473684 | -7,8947368 | ||||
| Not B | 30 | 37,8947368 | 60 | 52,1052632 | |
| -7,8947368 | 7,89473684 | ||||
(Die Abweichungen sind nicht unabhängig. Sobald (Anzahl der Spalten - 1) Werte feststehen, steht auch der letzte Wert der letzten Zelle fest.
Freiheitsgrade (DF = degrees of freedom) = (k - 1)(l - 1) (k: Spalten, l: Zeilen)
Da wir die Residuen nicht so einfach addieren können, weil 0 rauskommt, werden wir die Quadrate summieren.
Das n in einer Kreuztabelle ist unendlich, weil wir so oft wir wollen eine Stichprobe ziehen können; die erwarteten Werte würden wir durch unendlich viele Experimente erreichen.
Deswegen können wir statt der Binomialverteilung die Normalverteilung verwenden.
(fo - fe) ... N(0, Schätzung(Wurzel(fe)))
Die angenommene Normalverteilung hat den Mittelwert 0, weil wir genau diese Hypothese testen wollen.
Standardisierte Residuen: wenn wir sie berechnen (lassen), können wir mit Hilfe der Tabelle der Standardnormalverteilung einfach sagen, ob ein bestimmtes Std-Res wahrscheinlich oder unwahrscheinlich ist.
Diese Analyse ist nicht "ganz sauber", weil noch immer die Binomial/Normalverteilung für alle Zellen angenommen wird.
Wenn wir die Quadrate der standardisierten Residuen (=normalverteilte Zufallsvariablen) quadrieren, erhalten wir eine neue Verteilung: c2-Verteilung (= Chi-Quadrat-Verteilung) mit einem Freiheitsgrad.
Der Erwartungswert der c2-Verteilung ist die Anzahl der Freiheitsgrade.
IDs für die Übung: k0[PC-Nr+10]aaia pw student
Es werden öfter in der Übung Dateien per e-mail verschickt. Deswegen in der Übung bitte immer mit diesem Login und nicht mit dem UNet-User einloggen.
Die SPSS-Oberfläche sollte nach Login mit dem Übungsuser nicht verändert werden; als UNet-User ist das kein Problem.
Vorsicht mit Fußnoten: Sie sind nur dann zu beachten, wenn in der Tabelle ein Fußnotenzeichen vorkommt.
Es ist SPSS 8.0 leicht möglich, die Tabellen wild zu formatieren. Davon sollte bei den Hausübungen Abstand genommen werden.
Drucken: Druckauftrag losschicken, mit Copy-Card in den Druckerraum gehen, Paßwort nochmal eingeben.
SPSS 8 erlaubt, das Datenniveau der Statistiken auch anzugeben. Achtung, in alten Datendateien ist das nicht enthalten, also muß SPSS schätzen.
Chi-Quadrat-Verteilung:
Summe
Zufallsvariablen
Die Varianzen von Stichproben haben auch diese Form.
Varianzen normalverteilter Zufallsvariablen sind immer Chi-Quadrat-verteilt. Das kann uns nützen, wenn wir später Varianzen so untersuchen wollen, wie Verteilungen.
Stichprobe = Grundgesamtheit => Varianz = 0
Stichprobe = 1 => Varianz = Varianz(Grundgesamtheit)
Wie groß ist nun die Varianz der Mittelwerte in Abhängigkeit von der Stichprobengröße?
Die Kovarianz von unabhängigen Zufallsvariablen ist 0. Wir haben es hier mit unabhängigen Zufallsvariablen zu tun, also:
Varianz der Summe der Zufallsvariablen = Summe der Varianzen der Zufallsvariablen
sz2=sa2+sb2
Standardfehler (standard error) = Standardabweichung der Mittelwerte:
Ein Ergebnis ist statistisch signifikant, wenn die Wahrscheinlichkeit, daß es zufällig zustande gekommen ist, klein ist.
Ein signifikantes Ergebnis ist nie "statistisch gesichert" (weil nie etwas durch Statistik gesichert wurde).
Der Standardfehler ist eine theoretische Größe und beantwortet die Frage: Wie würde die Standardabweichung der Mittelwerte von vielen Stichproben der angegebenen Größe aussehen?
Bis zum nächsten Mal überlegen: Was könnte uns dazu veranlassen, zu überlegen, wie groß die Differenz zweier Mittelwerte sein könnte?
In der "Box" befinden sich 50 % der Fälle. Der Median ist mit einer Linie gekennzeichnet.
In den sog. "Whiskers", die unten und oben hervorstehen, sind die Extremwerte der Verteilung ersichtlich, wenn es keine Ausreißer gibt. Ausreißer sind Werte, die mehr als 1,5 Boxlänge von der Boxgrenze entfernt sind. Sie werden durch separate Punkte dargestellt. Die Extremwerte, in SPSS mit einem * gekennzeichnet, sind mehr als 3 Boxlängen entfernt.
Bei der Hausübung bitte die Achsen bei 0 beginnen lassen!
Wenn wir die Differenz der Mittelwerte 2er Stichproben betrachten, definieren wir eine neue Zufallsverteilung, die angibt, wie wahrscheinlich ein konkreter Unterschied zwischen den Differenzen ist.
: t- oder Student-Verteilung
Nullhypothese für den t-Test: die Mittelwerte sind gleich. Wir ermitteln anhand dieser t-Verteilung die Wahrscheinlichkeit für die Hypothese.
Wenn wir die Varianzen zweier Stichproben durcheinander dividieren, wäre der Erwartungswert unter der Nullhypothese ("die Varianz ist gleich") 1.
F-Verteilung (Fischer): Quotient zweier Chi-Quadrat-Verteilungen, die standardisiert (durch ihre Freiheitsgrade dividiert) wurden.
Bedeutung der F-Verteilung:
Aufgabe bis zum nächsten Mal: Wieso soll uns der Oberstleutnant glauben, daß das eine signifikante Ergebnis nichts bedeutet?
8 ist signifikant auf dem 5 %-Niveau. Müssen wir diesen Unterschied weiter untersuchen? Nein. Auf dem 5 %-Niveau wird immer jedes 20te Ergebnis signifikant sein, selbst bei Zufallszahlen.
Die bloße Betrachtung von Signifikanz ohne vorherige theoretische Überlegung ist sinnlos!
Ein sinnvolles signifikantes Ergebnis bedeutet, daß eine sinnvolle, vorher gut durchdachte Hypothese anhand von Überlegungen aufgestellt wurde und diese durch die Stichprobe "untermauert" wird.
Fragen für nächstes mal:
Wie können wir das interpretieren:?
Übungs-Vorbesprechung
t-Test.
Voraussetzungen: metrisches Niveau, Normalverteilung
U-Test
geht auch mit ordinalen und nicht normalverteilten Daten.
z.B. für den Vergleich von Männern und Frauen in der Stichprobe
(Varianztest hilft zu entscheiden, welcher t-Test genommen wird.)
Für Paarvergleiche (z.B. Frau Huber mit Herrn Huber vergleichen oder Vorher-Nachher-Untersuchung)
H0: Mittelwerte gleich
H1: Mittelwerte ungleich
H0: Varianzen sind gleich
H1: Varianzen ungleich
Test, ob eine Verteilung der Normalverteilung entspricht
Haben zwei unabhängige Stichproben die gleiche Verteilung?
Es ist nicht notwendig, daß eine Normalverteilung vorliegt, und auch ordinales Datenniveau ist schon ausreichend.
Wenn wir uns nicht sicher sind, daß die Voraussetzungen für den t-Test ausreichen, können wir zuerst einen U-Test machen. Wenn da das selbe wie beim t-Test rauskommt, können wir den t-Test beruhigt interpretieren.
Hausübung: Nur Aufgabe 1!
Grundsätzlich:
1. Fragestellung überlegen
2. Datenniveau anschauen
3. Test auswählen
... F-Verteilung mit
n-k, k-1 Freiheitsgraden
Voraussetzung: Gruppen, die nach einem Merkmal unterschieden werden (z.B. SoldatInnen aus Bundesländern)
1. Teil des Ausdrucks: "erklärte Varianz": Einfluß der Varianz der Gruppen (im Gegensatz zu den individuellen Daten)
2. Teil: Varianz ohne Gruppeneinfluß
F-Test (mit Hilfe der F-Verteilung) testet den Unterschied zwischen zwei Varianzen (ob er zufällig zustandegekommen ist)
Der F-Test der Varianzanalye ist rechnerisch genauso, nur ist die Varianzanalyse die Zerlegung der Varianz in zwei Anteile, und testet, ob der Unterschied zwischen diesen Anteilen zufällig ist.
Wie finden wir eine Gerade, die eine halbwegs große Korrelation zwischen zwei Variablen beschreibt? ("Was-wäre-wenn-Linie")
Steigung der Regressionsgerade: b ist der Anteil der Kovarianz an der Varianz von X.
;
Die Regressionsgerade ist die Gerade, von der die y-Abweichungen der Variablen nur mehr zufällig sind (die y-Werte "müßten" auf der Geraden liegen; wenn sie es nicht tun, ist es ein Zufall).
z.B. Gewicht und Größe: SPSS und andere Programme bezeichnen eine Variable als "dependent", abhängig. In Wirklichkeit hängen die Variablen zusammen, wir können nicht sagen, daß das Gewicht von der Größe abhängt.
Der y-Abstand eines Punktes vom Mittelwert(y) besteht aus zwei Komponenten: Abstand zwischen y und y. und y. und Mittelwert(y).
==>
"Erklärte Varianz": Quadrat des Korrelationskoeffizienten. Die "erklärte Varianz" kommt daher, daß eine andere Variable variiert.
Anmeldelisten für die Prüfung ab 9. Juni
R2 in SPSS: "Bestimmtheitsmaß": hat Werte zwischen 0 und 1.
0: kein Zusammenhang
1: Zusammenhang perfekt (Alle Punkte auf der Regressionsgeraden)
Punkte, die sehr weit von der Linie entfernt sind, sind "Ausreißer". Sie können nach reiflicher Überlegung ausgeschlossen werden.
Nullhypothese für Signifikanz: R2 = 0 (überhaupt kein Zusammenhang)
Alternativhypothese: R2 <> 0: es besteht ein Zusammenhang
Tabelle "Koeffizienten", B-Spalte: ^y = (Konstante) * Variable
Residuum bei der Regression: Fehler, den ich bei meiner Schätzung begehe. Positives Residuum: Wert unterschätzt.
"Fallweise Diagnose" zeigt, welcher Wert sehr von der Geraden abweicht
Histogramm der standardisierten Residuen sollte normalverteilt sein. Wenn die Fehler nicht normalverteilt sind, können wir nicht von Zufall ausgehen.
Dummy-Variablen: wir gehen davon aus, daß sie metrisches Datenniveau haben (für Regression ausschließlich metrisch skalierte Variablen verwenden!). 0 bedeutet "Nein", 1 "ja".
Regression mit mehreren unabhängigen Variablen: Dummy-Variablen müssen gebildet werden.
Bei der Hausübung können Werte wie 6,743E-03 rauskommen: das ist wissenschaftliche Notation für 0,006743.
Die Residuen sind mit dem erklärten Varianzanteil unkorreliert.
Nicht erklärte Varianz (Residualvarianz): 1 - r2
"Erklärte" Varianz (Bestimmtheitsmaß): r2
"Multiple Regression": Eine weitere Variable wird ins Modell eingefügt. Dadurch wird die erklärte Varianz größer.
Wenn wir den "reinen" Zusammenhang zwischen zwei Variablen ohne den Einfluß einer dritten (z.B. Körpergewicht => Nahrungsmenge ohne Einfluß der Körpergröße) untersuchen wollen, rechnen wir die Residuen aus und vergleichen nur mehr sie (z.B. ResiduumKörpergewichti mit ResiduumNahrungsmengei). ==> Partielle Korrelation
Für identische Varianzen gilt: r = b
Überlegen: was kommt bei der partiellen Korrelation raus?
Partielle Korrelation (Korrelation zwischen x und y unter Ausschaltung von z):
... (bei standardisierten Variablen)
... (bei nichtstandardisierten Variablen)
rxy: Korrelation "0-ter Ordnung" ("zero-order")
rxy*z: Korrelation "1-ter Ordnung"
Partielle Korrelationen haben meist einen niedrigeren Wert als die Korrelationen 0-ter Ordnung.
Für eine Vierfeldertafel, in die nur Ergebnisse eingetragen werden, die die Werte 0 oder 1 annehmen können.
Implikationen:
1. Wenn der Korrelationskoeffizient bekannt ist, braucht dieser nur quadriert und mit n multipliziert zu werden: dann erhalten wir die Chi-Quadrat-Verteilung, um die Signifikanz zu berechnen
2. r2/(1-r2): erklärte Varianz / nicht erklärte Varianz
Erheben: Gewinn, Genossenschaft Ja/Nein, Betriebsgröße
Stichprobengröße hängt von der Streuung des Gewinns ab
(Scheinkorrelation: Merkmal, das mit beiden untersuchten Merkmalen korreliert.)
=> t-Test (vorher Varianzen auf Gleichheit testen)
=> (partielle Korrelation)
=> Weinbauern gleicher Größe vergleichen!
=> Residuen berechnen
=> Schulnoten sind nicht normalverteilt, Notendurchschnitte schon
Abhängige Variable: Parteipräferenz
Unabhängige Variable: ethnische Herkunft (Paß? Selbstangabe? Muttersprache?)
=> Kreuztabelle, Chi-Quadrat-Test
=> Standardisierte Residuen in den Zellen anschauen, <-2 oder >2 ist "interessant"
2. r2 ist bei älteren Männern ziemlich groß, bei jüngeren viel niedriger, weil diese noch am Anfang ihrer beruflichen Laufbahn stehen, und da hängen Einkommen und Berufsprestige noch nicht so sehr zusammen.
3. a. yi= 23,7 + 0,00095 * 13.000 = 36,05
3. b. Wieso schauen wir uns an, ob die Residuen normalverteilt sind? Wären sie normalverteilt, wüßten wir, daß die Streuung zufällig ist. Sonst gibt es auch andere systematische Einflüsse => Modell verbessern!
Ab SS 2000: Seminar zur mathematischen Soziologie
Inhalt: einfache oder einfach darstellbare mathematische Verfahren werden auf ihre Eignung für die Mikrosoziologie überprüft.
Daten erheben (Wasserstandsstatistik der letzten 100 Jahre)
=> Schauen, ob die Abweichungen zufällig sind
=> Regression, um festzustellen, ob ein Trend vorliegt (steigend/fallend)
=> Korrelation zwischen Schneemenge und Hochwasser. Nicht erklärte Varianz.
=> Ist das Merkmal oder die Residuen normalverteilt? (diese Frage immer stellen!)
=> Test, ob die Residuen normalverteilt sind
=> Chi-Quadrat-Test: Unterschied zwischen empirischer und Normalverteilung
=> Wenn die Verteilung bekannt ist, kann ermittelt werden, wo die 5 % liegen
1. F-Test: sind die Varianzen gleich?
2. t-Test der Mittelwertsunterschiede für gleiche oder ungleiche Varianzen, je nach (1.)
=> Ergebnis signifikant = Prüfer bevorzugt Männer
Achtung, das Ergebnis ist problematisch, weil die Noten ordinal skaliert sind!
+ F- und t-Test auch auf andere Prüfungen anwenden, um zu sehen, ob das die einzige ungleich benotete Prüfung ist
sozialwissenschaftlicher Ansatz: Arbeiten von Frauen und Männern vertauschen und das Ergebnis vergleichen
(z-Transformation: Wir nehmen an, daß die "Kenntnis" normalverteilt ist und versuchen, daraus die Noten abzuleiten.)
Benötigte Information: Autobahnkilometer, Dauer des Besitzes oder wie oft das Auto gewechselt wurde, von einer repräsentativen Stichprobe.
1-r2 (nicht erklärte Varianz) berechnen: Das gibt an, wie groß der Fehler ist, den wir bei dieser "Regression" machen.
Allgemeine Antwort auf solche Fragen: 1. Welche Daten brauche ich? 2. Was tue ich mit den Daten? 3. Was für Fehleinschätzungen können wir dabei machen?
Über einen Zeitraum die Rundgangsintervalle und die Personen protokollieren
Einfacher (nicht-statistischer) Ansatz: abzählen, wieviele Rundgänge unter 20 Minuten
Chi-Quadrat-Test, ob die Verteilung zufällig ist (z.B. signifikante Abweichung von der Normalverteilung)
Stichprobeneinheit: ein Auto
Daten: Kilometer/Jahr; Herkunftsland
=> Kreuztabelle nach Land und Gruppen von km: nicht so gut, weil Daten "weggeworfen" werden
Berechnen: Durchschnitte, Varianzen für jede Landesgruppe
Signifikanz für jeden Unterschied zwischen zwei Klassen berechnen.
Varianzanalyse zwischen und innerhalb der Gruppen
© Balázs Bárány,
Univ. Prof. Dr. Anselm Eder.
Nicht autorisiert. Für Nutzungsbedingungen siehe http://www.tud.at/uni/kleingedrucktes.htm.
zuletzt geändert (JMT):