608290 VO Grundzüge der angewandten Mathematik und Statistik I

(siehe auch: meine Mitschrift von Statistik 1 für StatistikerInnen)

1998-10-14 Einführung Excel-Modul für Konfidenzintervalle
1998-10-15 Übung (und andere statistische Funktionen)
1998-10-21 1. Hausübung
1998-10-28
1998-11-042. Hausübung
1998-11-11
1998-11-12 Übung 3. Hausübung
1998-11-18
1998-11-254. Hausübung
1998-12-02
1998-12-09
1998-12-10
1998-12-165. Hausübung
1999-01-13
1999-01-20 Prüfung


1998-10-14

Übung

In der Übung wird die Theorie nicht erklärt, nur das Handwerkszeug (=Lösen von Aufgaben am Computer) unterrichtet.

An der Uni wird hauptsächlich SPSS verwendet.

Skriptum: im Skriptenverlag erhältlich.

Bei der Prüfung darf alles verwendet werden, außer das Wissen von KollegInnen.

Einführung

Statistik hat sich zu einem Instrument, die Wahrheit über eine Aussage zu bestätigen, entwickelt. Sie überprüft "Vorurteile", macht die Unsicherheit, die mit ihnen verbunden ist, meßbar.

Sehr viele Aussagen sind gleichzeitig richtig und falsch, die Statistik hilft, zu ermitteln, wie richtig oder falsch sie sind.

Beschreibende = deskriptive Statistik

Schließende = induktive Statistik

faßt großes Zahlenmaterial zusammen

Sucht Kriterien, in denen große Unterschiede bestehen

beschäftigt sich mit Annahmen, deren Eintreffen vorhergesagt werden soll

Variablen

Beispiele: Anzahl, männl/weibl, Alter, Haarfarbe, ...

Diese Merkmale heißen Variablen, weil sie über Personen hinweg variieren.

Die Einschätzung, welche Variablen "wichtig" sind, basieren großteils auf Vorurteilen (=nicht überprüfte Annahmen).

Eine deskriptive Statistik gibt es nur im Lehrbuch. Eine Beschreibung ohne Theorie ist nicht möglich.

Eine wissenschaftliche Beschreibung würde erfordern, zu begründen, welche Variablen wieso "wichtig" sind.

Ohne theoretische Begründung sind alle Maßzahlen sinnlos.

Datenmatrix

Üblicherweise werden die Variablen in einer Datenmatrix erfaßt:

Variable1Variable2 Variable3 ...
Person1x017,5
Person2y134,5
Person3z0-40,5
Person4x190

Die Merkmale werden meist kodiert, also z.B. 1 für männlich und 2 für weiblich. Für diese Codes sind Rechenoperationen sinnlos (z.B. Mittelwert = 1,47?)

Mögliche Auswertungen:

Skalierung der Variablen

Verteilung: Welche Werte kommen vor, und wie oft.

Histogramm: Diagramm einer Verteilung, in die horizontale Richtung wird die Variable, in die vertikale Richtung die Anzahl der MerkmalträgerInnen in dieser Kategorie eingetragen.

Diskrete Verteilung: Die Variablen können eindeutig unterschieden werden, z.B. Würfel.

Stetige Verteilung: Die möglichen Meßwerte können nur in Intervalle eingeteilt werden, es ist unwahrscheinlich, daß mehrere MerkmalträgerInnen die gleiche Merkmalsausprägung haben.


Übung

Ort: EDV-Schulungsraum 1, Hof 7 im Alten AKH

Empfohlene Literatur

Jürgen Jansen, Wilfried Laatz: Statistische Datenanalyse mit SPSS

Jürgen Bortz: Statistik für Sozialwissenschaftler


1998-10-15 Übung

Themen

1. Datenerhebung und Datenaufbereitung

2. Datenauswertung

3. Datendarstellung

Vom Fragebogen zur Datenmatrix

Fragebogen:FrageAntwortmöglichkeiten
Datenmatrix:Merkmal bzw. Variable Merkmalsausprägung

Fragebogen-Kodierung

1. den Fragen Variablenbezeichnungen zuweisen

2. den Antwortmöglichkeiten Zahlen zuordnen (falls notwendig)

Z.B.:

"Sagen Sie ihren Familienstand":

Ledig = 1, geschieden = 2 usw.

Vercodung: eine Frage des Skalenniveaus

Merkmalsausprägungen: Unterscheidung auf Gleichheit

Merkmalsausprägungen: Unterscheidung auf Gleichheit, Rangordnung

Zuordnung der Zahlen: Wiedergabe der Rangordnung

Mathematische Operationen: Vergleichsoperationen, Ordnungsrelationen

Nullpunkt gibt es nur durch Konvention (z.B. Temperatur in Celsius)

Merkmalsausprägungen: Unterscheidung auf Gleichheit, Rangordnung, Unterschiede bzw. Intervalle gleich groß

Merkmalsausprägungen: Unterscheidung auf Gleichheit, Rangordnung, natürlicher bzw. absoluter Nullpunkt

Zuordnung der Zahlen: Meßwert "null" entspricht der tatsächlichen Abwesenheit des gemessenen Merkmals

Kategoriale bzw. diskrete Skalenniveaus

Nominal-, Ordinalskala

Metrische bzw. stetige Skalenniveaus

Intervallskala, Verhältnis/Ratioskala


1998-10-21

Intervallskala

Interpretierbare Abstände ("Intervalle") zwischen den einzelnen Skalenpositionen.

Ordinalskala

(in der Sozialforschung sehr häufig)

Stellt eine Ordnung von Elementen her, aber nicht mit interpretierbaren Abständen (z.B. Schularbeitsnote: wer 1 bekommen hat, ist besser als andere mit anderen Noten).

Berechnung der Notendurchschnitte ist statistisch falsch!

Nominal"skala"

dient nur zum Auseinanderhalten der Variablen, keine mathematischen Operationen möglich.

Verteilungen

Auf einem Diagramm wird in die eine Richtung der Wertebereich, in die andere die Anzahl der zu jedem Wert gehörenden Messungen aufgetragen.

Stetige Verteilung: "durchgehende Linie", sämtliche Werte im Wertebereich "besetzt"

Diskrete Verteilung: Einzelne Werte, dazwischen "Sprünge" (=Histogramm)

Empirische Verteilung: durch Messung gewonnen. Kann nicht stetig im eigentlichen Sinn sein.

Theoretische Verteilung: wir schließen aus bisherigen Ergebnissen und anhand einer Theorie auf zukünftige Ergebnisse

Maßzahlen für Abweichung vom Mittelwert

1/n * Summe(xi - Mittelwert(x)) ist immer 0 => keine geeignete Größe

1/n * Summe(Absolutwert(xi - Mittelwert(x))): "mittlere Abweichung". Mathematisch unangenehm, deswegen selten verwendet.

1/n * Summe((xi - Mittelwert(x))2): (Mittelwert der quadrierten Abweichungen): "Varianz" SX2

1/n * Summe((xi - Mittelwert(x))2) = 1/n * Summe(xi) - Mittelwert(x)2 (Andere Möglichkeit, die Varianz aufzuschreiben, händisch leichter auszurechnen: "Steiner'scher Verschiebungssatz")

Wurzel(1/n * Summe((xi - Mittelwert(x))2)): "Standardabweichung" SX

Mittelwert: Jener Wert, hinsichtlich dessen die Summe der Abweichungsquadrate minimal und die Summe der Abweichungen 0 ist.

Varianz: "Kürze der Wege zum Mittelwert" (z.B. Kirche in der Mitte der Stadt). Gutes Maß dafür, wie "gut" der Mittelwert ist. => Maß für Unschärfe. => Maß für das Ausmaß der erzielbaren Information (bei großer Varianz kann ich viel erfahren, wenn ich mehr Leute frage)

Varianz = 0 => alle Werte gleich

Varianz sehr klein => Fast alle Werte um den Mittelwert herum ("in der Nähe")

Für viele Entscheidungen über die Stichprobengröße ist die Varianz von Bedeutung!

z.B. Ist eine Stichprobe von 1.000 Personen repräsentativ? => Es kommt auf die Varianz an!


1998-10-28

Abziehen des Mittelwertes oder eines konstanten Wertes von einer Verteilung bedeutet die Verschiebung der Verteilung. (Der neue Mittelwert ist 0, wenn der Mittelwert abgezogen wurde. Sonst ist der neue Mittelwert: Mittelwert(x) - k)

Addition oder Subtraktion einer konstanten Wertes aus einer Verteilung ändert nicht die Varianz (und natürlich auch nicht die Standardabweichung). Die Varianz ist die "Breite" der Verteilung, der Abstand der Meßwerte vom Mittelwert, sie bleibt unverändert, solange sich dieser Abstand nicht ändert. "Die Varianz ist bei additiven Konstanten invariant."

Division/Multiplikation mit der Konstante h: Mittelwert muß auch mit h multipliziert/dividiert werden, die Varianz mit h2. Die Standardabweichung natürlich mit h.

Anwendungen für solche Transformationen: Skalentransformation (z.B. von cm auf Zoll), Standardisierung (Mittelwert auf 0, Varianz = StdAbweichung auf 1 bringen)

Setzen wir für k den Mittelwert von x ein, kommt als neuer Mittelwert 0 raus.
Setzen wir für h die Standardabweichung von x ein, ist die neue Standardabweichung (und somit Varianz) = 1.

Dies nennt sich Standardisierung. Damit können beliebige, völlig verschiedene Verteilungen zusammen betrachtet werden.

Kovarianz

Formel für Kovarianz oder Andere Formel für Kovarianz

Die Varianz der Summe von zwei Variablen ist die Summe der Varianzen der Summen + zweimal die Kovarianz.


1998-11-04

Wie groß ist die Kovarianz, wenn gilt: yi = k*xi? (lineare Abhängigkeit)

Sxy = Sx*Sy (Aber nur in diesem Fall!)

Wenn die Unabhängigkeit "sehr groß" ist, ist die Kovarianz 0.

Je stärker die Abhängigkeit ist, desto mehr Punkte tragen "gleichsinnig" zur Kovarianz bei, entweder im positiven oder im negativen Bereich. Die Kovarianz ist also größer.

Die Kovarianz ist noch kein ideales Maß, um Verteilungen zu vergleichen, weil sie stark von den Varianzen abhängt.

Korrelation - Zusammenhang zwischen Variablen

Um den Maßstab auszuschalten, sprich immer einen Wert zwischen -1 und 1 zu erhalten, müssen wir durch den maximal erreichbaren Wert durchdividieren. Das nennt sich dann (Pearson'scher) Korrelationskoeffizient:

Formel für Korrelationskoeffizient

(r deutet auf "relation" hin)

Werte in der Nähe von -1 bedeuten: je mehr x, desto weniger y.

Werte in der Nähe von 0 bedeuten: kein Zusammenhang zwischen x und y.

Werte in der Nähe von 1 bedeuten: je mehr x, desto mehr y.

Für n = 2 (also zwei Meßwerte) ist r immer -1, 1 oder eventuell 0 (wenn beide doppelten Meßwerte gleich sind). Das heißt, daß dies nichts aussagt. Allgemein: Je kleiner die Stichprobe ist, desto weniger sagt der Korrelationskoeffizient aus, weil der Zufall eine größere Wirkung entfaltet.

Der Korrelationskoeffizient sagt uns ungefähr: "wie viele Fälle unterstützen unsere Hypothese, wie viele widerlegen sie?"

Zusätzlich zur Maßzahl für den Zusammenhang der Variablen brauchen wir auch eine Maßzahl, die uns sagt, wie sicher wir uns sein können.

Überlegung bis zum nächsten Mal: Was heißt es, jemanden zufällig auf der Straße getroffen zu haben?


1998-11-11

Di. 24. 11. 14:00-16:00: Zusätzliches Computertutorium im Instituts-PC-Raum für StudentInnen aus dem ersten Abschnitt

Dichotome Variablen: Nominalskalierte Variablen mit n möglichen Ausprägungen

Wenn beide Variablen nur zwei Ausprägungen haben (z.B. vorhanden/nicht vorhanden = 0 und 1), kann sogar eine Art Korrelation sinnvoll ausgerechnet werden.

Wie können wir berechnen, ab wie vielen untersuchten Fällen eine Korrelation sinnvoll ist?

1. Größe der Stichprobe (Wann ist die Stichprobe groß genug? Hängt mehr von der Varianz als von der Größe der Grundgesamtheit ab.)

2. Erwartete Sicherheit

Repräsentative Stichprobe: Alle Elemente der Grundgesamtheit haben die gleiche Wahrscheinlichkeit, in die Stichprobe zu kommen.

Erster Ansatz, um eine Stichprobengröße zu berechnen: zuerst eine kleine Stichprobe ziehen, Korrelation berechnen, eine doppelt so große Stichprobe, davon auch die Korrelation berechnen. Das wiederholen, bis die Korrelationen sich irgendwann nicht mehr ändern.

Das ist aus mehreren Gründen nicht sinnvoll. Es kann zufällig sein, daß schon bei den ersten zwei Messungen die selbe Korrelation herauskommt, aber wir können nicht bestimmen, ob das Zufall war oder schon eine genügend große Stichprobe.

Was genau ist ein Zufall?

Ereignisse, die nicht vorhersagbar sind?

Was wir als Zufall bezeichnen, ist unsere Interpretation der Wirklichkeit.

Das, was dem Alltagskonzept von Zufall zugrunde liegt, ist nur ein einfaches Modell einer komplizierten Wirklichkeit. Zufall ist eine Betrachtungsweise, das, was wir im Alltag als Zufall bezeichnen. Manche Prozesse sind einfach nur zu kompliziert, um sie zu verstehen -- das nennen wir dann auch Zufall. Das Modell "Zufall" verzichtet bewußt darauf, Kausalitäten zu untersuchen.

Das statistische Zufall orientiert sich an Beobachtungen.

Die Wahrscheinlichkeit eines Ereignisses hängt sehr entscheidend davon ab, wie genau wir sie definieren. (Z.B. Wie groß ist die Wahrscheinlichkeit, daß ich jemanden treffe, der exakt so groß ist wie der Mittelwert? Antwort: 0.)

Bevor wir Wahrscheinlichkeiten berechnen, müssen wir also genau definieren, was wir erwarten.

Hausübung: Es heißt, daß die Wahrscheinlichkeit, daß auf einem Flugzeug eine Bombe ist, angebbar ist. Es ist also noch viel unwahrscheinlicher, daß zwei Bomben sind. Um sicherzugehen, kann mensch also eine Bombe mitnehmen. Warum ist das lustig?

Die Formulierung "an Bord ist eine Bombe" stimmt nicht. Es müßte heißen "ein (mir nicht bekannter) Passagier nimmt eine Bombe mit". Daran kann ich mit meiner Bombe nichts ändern (die einzige Änderung ist, daß ich, dadurch, daß ich auf dem Flugzeug bin, einem anderen Menschen den Platz wegnehme. Also ist die Wahrscheinlichkeit, daß jemand andereR eine Bombe mitnimmt, geringer, wenn ich auf dem Flugzeug bin (mit oder ohne Bombe), als wenn ich nicht dort bin. (Je nach Kapazität des Flugzeugs 1/180 bis 1/600. Ich gehe davon aus, daß die Kontrollen zumindest so gut sind, daß niemand Gepäck aufgeben kann, ohne auf dem Flugzeug zu sein.)


Zwischenbesprechung

Es ist üblicher, die gültigen Antworten ("valid percent") zu verwenden, weil mensch nicht weiß, wie die "Nichtdaten" zustandekommen.

Wenn wir das arithmetische Mittel interpretieren, sollten die Verteilungen "eingipflig" und nach Möglichkeit symmetrisch sein.

Die Normalverteilung hat folgende Charakteristika: Mittelwert, Median und Modus befinden sich in einem Punkt. Die Streuung ist symmetrisch um das arithmetische Mittel herum. Beim ersten Wendepunkt ist Mittelwert - Standardabweichung, beim dritten Wendepunkt ist Mittelwert + Standardabweichung.

Zwischen Mw - StdAbw und Mw + StdAbw befinden sich ca. 66 % der Werte.

"Schiefe Verteilungen" kommen öfter vor. Bei ihnen sind Mittelwert, Median und Modus nicht mehr im selben Punkt.

Linksschief bedeutet, daß "links" (im unteren Wertebereich) mehr Fälle sind als "rechts" (im oberen Wertebereich). Die Einkommensverteilung ist ein gutes Beispiel dafür. Rechtsschief ist genau umgekehrt.

Die Schiefe ("skewness") läßt sich errechnen. Wenn der Wert positiv ist, handelt es sich um eine rechtsschiefe Verteilung.

Die Steilheit ("Kurtosis") der Verteilung gibt an, ob die empirische Verteilung "steiler" ist als die Normalverteilung (wenn sie positiv ist, dann ist die Verteilung steiler).


1998-11-12

Normalverteilung

Mit 95 %iger Wahrscheinlichkeit werden die Mittelwerte von Zufallsstichproben innerhalb von [Mittelwert - 1,96 StdAbw; Mittelwert + 1,96 StdAbw] liegen.

Konfidenzintervall

SPÖ: 50,4 %

p = 0,504 (Die Wahrscheinlichkeit, daß jemand, der zufällig ausgewählt wird, SPÖ wählt)

Sp = Wurzel((0,504*(1-0,504))/1385)=0,0134 (Stichprobenfehler)

95 % Konfidenzintervall: KI95% = [p-1,96 * Sp; p+1,96*Sp] = [0,478; 0,530] = 47,8 % - 53 %

99 % Konfidenzintervall: KI99% = 0,504+/- 2,54*0,0134

Je größer der Konfidenzintervall, desto breiter die "Grenzen" der Verteilung.

Je größer die Stichprobe, desto größer ist die Sicherheit, die Grenzen liegen näher aneinander.


1998-11-18

P(1 Bombe) = 1/100.000

P(2 Bomben) = 1/100.000 * 1/100.100

Wenn ich selbst eine Bombe mitnehme, ist die erste Wahrscheinlichkeit nicht 1/100.000, sondern 1. Die zweite Wahrscheinlichkeit ist dann 1/100.000.

Entscheidend ist die Abhängigkeit der beiden Ereignisse.

Allgemein:

A: beim 1. Wurf 6er würfeln. P(A) = 1/6

B: beim 2. Wurf 6er würfeln. P(B) = 1/6

Bei beiden Würfen 6er würfeln: P(AB) = 1/6 * 1/6 = 1/36

Wieso Multiplikation? Beim ersten Wurf "teilen wir die Zukunft in 6 Möglichkeiten". Mit dem zweiten Wurf teilen wir diese "Untermöglichkeiten" wieder in jeweils 6 Möglichkeiten, also insgesamt 36.

Gilt P(AB)=P(A)*P(B) immer? Nein. Es kann sein, daß A und B meist zusammen auftreten (z.B. W(Hubert treffen) und W(Monika treffen) hängt davon ab, ob die beiden zusammen sind).

Dies nennt die Statistik Abhängigkeit. Wenn zwei Ereignisse abhängig sind, gilt P(AB)=P(A)*P(B) nicht.

P(AB) = P(A)*P(B/A) <=> P(A)*P(A/B) ... Allgemeine Formel, stimmt immer.

(P(x/y) bedeutet "x tritt ein, wenn y eingetreten ist")

Wir nennen zwei Ereignisse "stochastisch unabhängig", wenn die Wahrscheinlichkeit, daß beide auftreten, das Produkt ihrer Einzelwahrscheinlichkeiten ist.

Erwartungswert: Der Wert, hinsichtlich dessen die quadrierten Abweichungen der einzelnen Fälle minimal sind (Ähnlichkeiten mit dem arithmetischen Mittelwert nicht ausgeschlossen). Der Erwartungswert ist der (theoretische) Mittelwert einer theoretischen Verteilung. Bezeichnung: E(x)

Hausübung: Welche Information brauche ich, um zu beurteilen, ob Hubert und Monika zusammen sind? Genügt es zu wissen, wie oft die Ereignisse zusammen aufgetreten sind, wenn nicht, was muß ich noch wissen, um daraus Schlüsse ziehen zu können?


1998-11-25

Sehr viele Merkmale haben einen "kategorialen Charakter", sie sind nicht meßbar (z.B. männlich/weiblich). Bei solchen Merkmalen kann keine Korrelation berechnet werden.

A: Hubert getroffen
B: Monika getroffen
AB: Hubert und Monika zusammen getroffen

Unabhängigkeit: P(AB) =? P(A) * P(B)

A
Hubert getroffen
^A
Hubert nicht getroffen
B Monika getroffen17017
^B Monika nicht getroffen0(170) (170)
17(170)(187)

P(AB) =? P(A)*P(B)

P(17/187) =? P(17/187)*P(17/187)

P(1/11) <> P(1/11)*P(1/11) => keine Unabhängigkeit

A^A
Babe
^Bcdf
ghn

P(AB)=a/n; P(A)=g/n; P(B)=e/n

a/n ?= g/n * e/n

E(a)=(e*g)/n

A^A
Be*g/ne*h/ne
^Bf*g/nf/h*nf
ghn

"Indifferenztabelle": Theoretische Tabelle, die besagt, wie groß die Werte wären, wenn Unabhängigkeit bestünde.

Für kategoriale und Intervallzahlen haben wir das selbe Problem: bei n=2 ist jede Aussage über Korrelation/Abhängigkeit sinnlos.

Neue Frage: Wie groß ist die Wahrscheinlichkeit, daß bei x Versuchen mit gegebener Einzelwahrscheinlichkeit y "Erfolge" auftreten?


Die Interpretation der Daten sollte bei der Hausübung mehr beachtet werden.

Prüfungstermine für die Übung: (voraussichtlich)

20. Jänner, 27. Jänner, 3. März, 17. März

Für die Prüfungen wird es Anmeldelisten geben.


1998-12-02

Mittwoch, 9. Dez. wieder Termin im PC-Raum.

Belcredis Wettervorhersage:

Anot A
B15 2540 A: es regnet
not B15 4560 B: Regen wurde vorausgesagt
3070 100

Theoretische Verteilung, wenn Unabhängigkeit angenommen wird:

1228 40
1842 60
3070 100

Frage: Ist die Prognose sinnvoll?

Alternative zum Warten auf Regentage: Würfel konstruieren, die nicht 1/6, sondern eine beliebige Wahrscheinlichkeit (z.B. 30/100 = 30 %) für eine besonders markierte Seite hat.

Die Wahrscheinlichkeit, daß bei 40 Würfen 40mal AB ("markierte Seite") kommt, ist 0,340.

P(39 * AB) = (0,7)39*0,3*40

P(38 * AB) = (0,7)38*(0,3)2*(40*39/2) (Möglichkeiten, aus 40 Stellen 2 Ergebnisse auszuwählen)

Neue Frage: Auf wie viele Arten kann ich aus n Elementen k auszuwählen?

___n!___
k!(n-k)!

k! ("k Faktorielle") bedeutet: k*(k-1)*(k-2)....1

Andere Bezeichnung für diese Formel: (nk). Excel-Formel: "KOMBINATIONEN"

Angenehmer Sonderfall: (n2) = (n*(n-1))/2

Allgemeine Formel für diese Verteilung ("Binomialverteilung"):

P(n, k) = pk * (1-p)(n-k) * (nk)

siehe matstat1.xls:Wetter


1998-12-09

Prüfungstermine: 20., 27. Jänner, Anfang März, evt. Februar -- Nach Möglichkeit nur 40 Personen pro Prüfung.

1. Art der Wahrscheinlichkeit: Wie wahrscheinlich ist z.B. ein Sechser?

2. Art: Wie oft wird ein Sechser kommen, wenn wir n-mal würfeln?

P(kein Sechser) = (5/6)5

P(5) = (1/6)5

P(1) = (5/6)4 * (1/6) * 5

P(2) = (5/6)3 * (1/6)2 * (52)

Der Koeffizient (nk) wird immer größer, wenn sich n und k näher kommen.

Signifikanz

Wenn wir das Experiment unter der Annahme von Unabhängigkeit (=Nullhypothese) oft wiederholten, dann ließe sich angeben, in wieviel % der Fälle ein Ergebnis wie das gefundene auftreten würde. Ist dieser Prozentsatz klein, sprechen wir von Signifikanz ("Nicht unabhängig" = Abhängig). (Ist der Prozentsatz groß, sprechen wir nicht von Signifikanz.)

Die Berechnung des Signifikanzwertes stellt eine Beziehung zwischen dem Ergebnis und der theoretischen Wahrscheinlichkeit her.

Wie legen wir die Grenze fest? Wenn wir das Signifikanzniveau auf x % festsetzen, werden bei völliger Unabhängigkeit genau x % signifikant sein.

Das Signifikanzniveau hängt in der industriellen Qualitätskontrolle von den Kosten einer Fehleinschätzung ab. In der Sozialforschung gibt es keine "Kosten einer Fehleinschätzung", also muß eine Art Konsens hergestellt werden: Übliche Signifikanzniveaus liegen zwischen 1 und 5 %.

1 % Signifikanz bedeutet, daß ich mich in jedem hundertsten Fall irren werde: ich werde einen Zusammenhang vermuten, obwohl keiner besteht.

Aufgabe: Warum schaut die Verteilung der Körpergrößen ungefähr so aus wie die Verteilung der Münzwürfe?

Siehe matstat1.xls:Münzwurf


Übung-Besprechung

Prüfungstermine (eigene Prüfungen für die Übung)

20., 27. Jänner 1999, 3., 17. März 1999, jeweils 18:45-19:45 HS II NIG

Anmeldung (max. 30 Personen pro Termin): Anmeldelisten am Soziologieinstitut ab 7. Jänner.

Wer nicht zur Prüfung antritt, muß sich spätestens drei Tage vor der Prüfung aus der Liste austragen, sonst Nicht Genügend.

Taschenrechner notwendig! Unterlagen: keine mitnehmen, Formeln werden zur Verfügung gestellt. Ausgefülltes Zeugnis.

Optional: eigene Kreuztabelle, wenn sinnvoll und originell, Zusatzpunkte möglich. Auf keinen Fall eine Tabelle, die bereits in der Übung oder Hausübung vorgekommen ist; ausschließlich allein. Keine zu große Tabelle. Keine Mobilitätstabelle.

Notwendige Daten: Count, [Exp Count], Col|Row Pct, Std Res, Chi2


1998-12-10 Übung

Mögliche Prüfungsaufgaben:

Immer die Valid Percent interpretieren, sonst begründen!

Wenn eine Konfidenzintervallberechnung kommt, immer den Rechengang dazuschreiben, damit bei falschen Ergebnissen erkennbar ist, ob nur ein Rechenfehler passiert ist.

Bei der Antwort immer dazuschreiben, was die Einheit ist (Personen, Äpfel, Punkte?).


1998-12-16

Prüfung: 4 Beispiele (ähnlich denen im Skriptum), alle Unterlagen und Hilfsmittel erlaubt. Es wird aber vermutlich unnötig sein, besonderen Aufwand zu treiben. Max. 4 Punkte pro Beispiel. Ausgefülltes Zeugnis!

Wenn n (=Anzahl der Möglichkeiten) bei einer Binomialverteilung sehr groß wird, kann die Funktion nicht mehr berechnet werden. Stattdessen kommt eine andere Dichtefunktion, die der Normalverteilung, zur Anwendung. n ist nicht mehr diskret, sondern stetig.

Formel der Normalverteilung    x: Zufallsvariable

s: Varianz

m: arithm. Mittelwert

Zufallsvariablen, die durch ein besonderes Entstehungsprinzip zustandekommen, sind annähernd normalverteilt:

  1. Die Zufallsvariable muß eine Summe von (vielen) anderen Einflußvariablen sein.
  2. Diese Einflußfaktoren müssen untereinander unabhängig sein.
  3. Es darf nicht einen (einzelnen) Faktor geben, der die anderen sehr beeinflußt. (Oder als Folge von 2.: mehrere Faktoren dürfen nicht korreliert sein)

1999-01-13

Beispiel 16

Bei größerer Standardabweichung ist die Verteilung flacher und breiter. Bei großen Stichproben gibt es mehr Fälle, die beiden Kategorien angehören könnten. Wenn die Verteilungen also steiler sind (geringere Standardabweichung), dann ist es wahrscheinlicher, daß die Stichprobe zufällig entstanden ist.

Beispiel 20

1. Daten sammeln

2. Daten auswerten

3. Versuchen, herauszufinden, welcher theoretischen Verteilung die empirische Verteilung entspricht

4. Wenn eine theoretische Verteilung gefunden wurde, kann gerechnet werden

Beispiel 7

Idee: 17 % sind durchgefallen. Sie haben kein oder ein Beispiel gelöst.

W(0)+W(1)=(1-p)4+p(1-p)3*4 = 0,17

(ca. 0,607)

Beispiel 19

Anicht A
B10
nicht B01

Die Korrelation ist maximal, weil nur zwei Punkte existieren.

Die Signifikanz ist gering, weil eine solche Verteilung bei nur zwei Proben sehr leicht zustandekommen kann.

Anderer Fall (hohe Signifikanz, geringe Korrelation):

Beispiel 4

insolventnichtinsolvent
vorherg1000 999010990
nicht vorherg0 989010989010
1000999000 1000000

Die Wahrscheinlichkeit, insolvent zu werden, wenn der Experte es vorhergesagt hat, ist 1000/10990= 0,091=9,1 % ?

Beispiel 15

arbeitsloserw berufstätigerw
gesund60 70640 630700
krank40 30260 270300
100 9001000

Die Wahrscheinlichkeit, krank zu sein, ist 30 %. Die Wahrscheinlichkeit, krank zu sein, wenn mensch arbeitslos ist, ist 40 %. Arbeitslosigkeit macht also anscheinend krank.


1999-01-20

Prüfungsfragen (Gruppe A):

A1: Folgende Liste zeigt die Anzahl der SchülerInnen, die an einzelnen Tagen gefehlt haben:

Tag Anzahl der Fehlenden
1 2
2 3
3 3
4 2
5 2
6 1
7 1
8 3
9 1
10 2
11 7
12 3
13 1
14 3
15 2
16 0
17 2
18 1
19 1
20 0

Der Schulinspektor meint, daß der Tag 11 genau untersucht werden muß. Der Direktor sagt, daß es Zufall ist. Wer hat recht?

A2: (siehe auch Skriptum, Beispiel 10.) Zeichnen Sie eine Ihnen plausibel erscheinende Skizze der Verteilung jeder der unten angeführten Variablen in einer österreichischen repräsentativen Stichprobe an Erwachsenen (n = 1000) und geben Sie Ihnen plausibel erscheinende Schätzungen für die folgenden Verteilungsparameter zu jeder unten angeführten Variable an:

Mittelwert, Modalwert, Median, Standardabweichung, Minimum, Maximum, Symmetrie?, Steilheit links/rechts

Variablen:

Alter des Haushaltsvorstandes

Notendurchschnitt der letzten abgeschlossenen Schulbildung

Körpertemperatur zum Zeitpunkt der Befragung

Gewicht zum Zeitpunkt der Befragung

Wohnungsgröße in Quadratmeter

A3: Es soll angeblich Lehrerzimmer geben... (Skriptum, Beispiel 8)

A4: Die untenstehenden drei Vierfeldertafeln... (Skriptum, Beispiel 18)


© Balázs Bárány, Univ. Prof. Dr. Anselm Eder. Nicht autorisiert. Für Nutzungsbedingungen siehe http://www.tud.at/uni/kleingedrucktes.htm.
zuletzt geändert (JMT): 1999-10-01