Statistik 1 für StatistikerInnen

Univ.-Doz. Erich Neuwirth VO 405009

1997-10-21 Einführung

1997-11-04 Grafische Darstellung

1997-11-11

(1997-11-12 Übung: Principles of Graphical Excellence)

1997-12-02

1997-12-09

1997-12-16

1998-01-20

1998-01-27

1998-03-26 (Statistik 2)


1997-10-21 Einführung

sunsite.univie.ac.at/spreadsite/: Tabellen für Pensionsberechnung usw.

Was ist Statistik?

(Es gibt Wissenschaften, die sich mit einem bestimmten Thema auseinandersetzen; andere beschäftigen sich mit bestimmten Methoden; Statistik ist eine Methodenwissenschaft.)

Denksportaufgabe: Nehmen wir an, es gäbe eine sehr leicht übertragbare Krankheit. Es gäbe einen Test dafür. Jeder medizinische Test hat eine Fehlerquote; dieser hat eine Quote von 1 % (1 % der "kranken" sind gesund, 1 % der "gesunden" sind krank).

Wozu Statistik?

Wie Statistik?


Beispiel: Wir haben das komplette Material der Volkszählung, wollen aber nur eine kleine Untersuchung machen, also wählen wir Daten eines Hauses. Wir untersuchen die Nachnamen, und finden, daß es sehr viele Leute mit dem Anfangsbuchstaben V gibt. Grund könnte sein: HausmeisterInnen slawischer Abstammung.

Statistische Daten

Die Grundgesamtheit muß genau definiert sein, z.B. "alle ÖsterreicherInnen": StaatsbürgerInnen? In Österreich lebende? Es muß gewährleistet werden, daß jede einzelne Person eindeutig (ja/nein) zugeordnet werden kann.

Die Merkmale der MerkmalsträgerInnen liefern uns die Daten.

Statistische Merkmale

Erhoben werden die Werte von Merkmalen, genannt Merkmalsausprägungen, an den MerkmalsträgerInnen.

Beispiel: Haarfarbe ist ein Merkmal, Herr Maier ist ein Merkmalsträger, blond ist "seine" Merkmalsausprägung des Merkmals Haarfarbe.

Merkmalsskalen

Skalen sind charakterisiert durch zulässige Transformationen (Transformationen, die die Daten nicht verfälschen):

Empirische Verteilungen

Fehlerquelle bei Klasseneinteilung: Ungenaue Spezifikation der Grenzen; Achtung bei Klassenmittelpunkt (Gut: Klassengrenzen zwischen gerundete Ausprägungen, z.B. 139,5-144,5 cm)

In beiden Fällen werden Häufigkeiten gezählt

Achtung, in der Regel sind Anzahl der möglichen Werte und tatsächliche Anzahl der Werte verschieden (oft mit k und n bezeichnet).


1997-11-04 Grafische Darstellung

Wenn Daten gerundet werden sollen, bietet sich als Methode das Werfen einer Münze an 8-).

Verfahren, um self-report-Daten zu verifizieren (wenn keine wahrheitsgemäßen Antworten zu erwarten sind): Personen werfen eine Münze. Wenn (z.B.) Kopf herausgekommen ist, wird die Frage wahrheitsgemäß beantwortet (natürlich auf einem anonymen Fragebogen). Alle werfen nocheinmal; diejenigen, die beim ersten Wurf Zahl geworfen haben, schreiben das Ergebnis dieses Wurfes als Antwort. Auf diese Weise kann niemandem eine Antwort zugeordnet werden, aber StatistikerInnen

Histogramme

Wenn Häufigkeiten von Daten dargestellt werden, wird ein Histogramm verwendet.

Wenn die Daten stetig sind, sollte für die optische Darstellung kein Abstand zwischen den Balken gemacht werden.

Excel-Funktion FREQUENCY (englisch) = HÄUFIGKEIT (deutsch): rechnet aus, wie viele Daten in eine Kategorie fallen.

Streuung von Daten (läßt sich gut aus einem Histogramm ablesen): nicht nur der Mittelwert interessiert uns, sondern auch die Unterschiede "links" und "rechts".

Mehrdimensionale Verteilungen

z.B. Mann/Frau, RaucherIn/NichtraucherIn

Erstellen einer Pivot-Tabelle in Excel

  1. Datenbereich markieren
  2. Daten/Pivot-Tabelle
  3. Daten aus Excel
  4. (selektierten Datenbereich)
  5. rechts stehen Knöpfe für die Variablen
  6. in "Spalte" und "Zeile" die entsprechenden Variablen hineinziehen
  7. in "Daten" die gewünschten Variablen hineinziehen

Graphische Darstellung

Kumulierte Häufigkeiten

Stetige Merkmale: Wir zeichnen Punkte und verbinden sie linear

Bei diskreten Merkmalen werden die Punkte nicht verbunden, sondern waagrechte Linien gezeichnet. (die "Funktion" ist unstetig)

Die Funktion ist bei kumulierten Häufigkeiten monoton steigend, müssen aber nicht streng monoton sein (z.B. wo keine Daten liegen).


1997-11-11

Summenhäufigkeitsfunktion

typisch: "S-Gestalt"

Kleiner-gleich ist einfach abzulesen; Größer-gleich kann mit 1 - Kleiner-gleich ausgerechnet werden (bei stetigen Merkmalen spielt die Doppelzuordnung der Grenze keine Rolle). Bei a < x < b rechnen wir f(b) - f(a).

Die Verteilungsfunktion liefert einen Prozentwert, wenn wir als Parameter die Merkmalsausprägung angeben.

Die Umkehrfunktion F-1 zu F läßt auch die umgekehrte Ablesung (Merkmalswert => Häufigkeit) zu.

Median

Jener Wert, wo rechts und links gleich viele Daten liegen. Er ist nicht dem arithmetischen Mittel gleichzusetzen!

Quartile (Q1 und Q3)

"Median", aber nicht mit 50%:50%, sondern die "linken 25 %" oder die "rechten 25 %"

Zentile, Perzentile

10- oder 100-basiert

Quantile

ganz allgemein: z ist a-Quantil von F, falls F(z)=a.

z Median falls F(z) >= 1/2 und 1-F(z) >= 1/2 (eigentlich mit limes)

Formel für Berechnung des Medians, wenn kumulierte Häufigkeiten gegeben sind

xi-1+(xi-xi-1)*(a-F(xi-1))/(F(xi)-F(xi-1))

"gleitendes Histogramm"

Es wird nicht auf die herkömmliche Art in Klassen eingeteilt, sondern für "jeden" Wert wird gezählt, wie viele Werte innerhalb eines Abstandes liegen.

"Kernschätzer":

gleitendes Histogramm, indem die "Fensterbreite" durch eine Formel (z.B. Dreieckskern) ersetzt wird.


1997-11-12 Übung

Principles of Graphical Excellence


1997-12-02

Gini-Maß: (S(1<=i<j<=n)|xi-xj|)/(n(n-1)/2)

Spannweite: max - min

Semiinterquartilsdistanz: (3. Quartil - 1. Quartil)/2

Standardabweichung: Formel

Alternative: Formel

Variationskoeffizient: Formel


1997-12-09

Formel für den Fall, daß wir die Varianz sn und noch einen Datenpunkt xn+1 kennen:

Herfindahl-Index: Formel (Summe der Quadrate der Anteile (an der Gesamtsumme)). Bei gleicher Verteilung 1/n, bei sehr ungleicher Verteilung (eineR hat alles, alle anderen nichts) 1.

Wenn Nullwerte dazukommen, ändert sich der Herfindahl-Index nicht (Lorenz-Münzner schon).

Herfindahl: Maßzahl für absolute Konzentration, Lorenz-Münzner: Maßzahl für relative K.

: Weitere Konzentrationsmaßzahl.

Indexrechnung

Beobachtungsgröße für Preisentwicklung. (Zeitreihen)

Wichtige Eigenschaft von Zeitreihen: Aufhebung der Unabhängigkeit, die wir bei den Zufallsvariablen hatten.

qi: Menge der Güter pi: Preis eines Guts. Summe pi*qi: Monatsausgabe der Durchschnittsfamilie.

qi(0): Menge im ersten Jahr.

U(0)=Summe pi(0)qi(0) ... Umsatz im Jahr "0"

Laspeyres-Index: Früherer Bezugszeitpunkt, Mengen aus Jahr "0" ("Basisperiode"):

PL = Laspreyes-Index

Paasche-Index: Späterer Bezugszeitpunkt, Mengen aus Jahr "1" ("Beobachtungsperiode"):

PP = Formel

Problem beim Paasche-Index: Jedes Jahr muß der Warenkorb neu erhoben werden.


1997-12-16 Indexrechnung

Indifferenzkurve: Eine Maßzahl wird berechnet und andere mögliche Datenreihen werden gesucht, die die selbe Maßzahl ergeben (z.B. arithmetisches Mittel des Einkommens einer Gruppe => Mögliche andere Verteilungen, die das selbe Mittel ergeben).

Wichtige Beziehungen zwischen Paasche- und Laspeyres-Mengenindex:

Umbasieren

Zu einem vorgegebenen Zeitpunkt einen vorgegebenen Wert erzwingen (z.B. verschiedene Indizes "zusammenfügen": "Verketteter Index").

Dazu wird die ganze Reihe mit einer Konstanten multipliziert:

alte Reihe: I(0), I(1)

Wir wollen: I(k)=C

Neue Reihe: cI(0), cI(1)...

mit c=C/I(k)

Verketten

Zwei ähnliche Reihen zu einer fiktiven gemeinsamen Reihe zusammensetzen. Dazu wird zu einem bestimmten Zeitpunkt (oft Start der zweiten Reihe) ein Wert der zweiten durch Umbasieren dem entsprechenden Wert der ersten Reihe angeglichen.

Mehrdimensionale Datenanalyse

Es werden immer Zusammenhänge zwischen mehreren Variablen gesucht. Beispiel:

Kovarianz

Kovarianz ist "skalenempfindlich".

Korrelationskoeffizient

Invariant unter linearer Transformation der Daten.

Regression

(xi, yi) sind Datenpunkte.

Welche Gerade paßt am besten durch all diese Datenpunkte?

Früher konnte die Gerade nur linear berechnet werden, seit es Computer gibt, gibt es auch andere Möglichkeiten.

; (L2-Regressionsgerade)

L1-Regressionsgerade: nicht die Quadrate, sondern die Abweichungen werden minimiert. Es gibt keine geschlossene Formel, aber mit Computereinsatz läßt sich diese Gerade ausrechnen.

Regressionsgerade mit ortogonalen Abständen: die genauen Abstände (anstelle der x- oder y-Abstände) werden berechnet.


1998-01-20

Prüfungen immer mündlich, Voranmeldung, nach Möglichkeit in Dreier-Vierergruppen.

Induktive Statistik

Es geht darum, aus unvollständiger Information sinnvolle Schlüsse zu ziehen.

"Gütefunktion": Irrtumswahrscheinlichkeit möglichst klein bei einem Test, der möglichst "gut" ist. Nötig, um Stichprobenumfänge bei Untersuchungen zu berechnen.


1998-01-27

Buchempfehlung: Berk, Carey: Data analysis with Microsoft Excel (Duxbury Verlag)

Fehler 1. Art (Alpha-Fehler, Ablehnungswahrscheinlichkeit): Alarm, obwohl Bedingung nicht erfüllt. (z.B. 50%-Münze wird für schlecht gehalten)

Fehler 2. Art (Beta-Fehler): Kein Alarm, obwohl Bedingung erfüllt. (z.B. 60%-Münze wird für gut gehalten)

"Trennscharfer" Test: sagt sicherer, ob der Test gut ist.


1998-03-26 Statistische Verteilungen

Diskrete Verteilungen

Erwartungswert: n*p, Varianz: n*p(1-p)

Erwartungswert: n*(M/N), Varianz:

Bei großen Grundgesamtheiten nähern sich die Binomial- und die Hypergeometrische Verteilung stark an.

Erwartungswert: l, Varianz: l

Stetige Verteilungen

Stetige Verteilungen sind durch eine stetige Verteilungsfunktion charakterisiert, die folgendes erfüllen sollte:

Dichte(funktion): theoretisches Äquivalent zum Histogramm. Die Fläche unter der Kurve ergibt die Wahrscheinlichkeit. In der Statistik werden Verteilungen üblicherweise durch die Dichtefunktion beschrieben.

Erwartungswert einer stetigen Verteilung:

Varianz:

Alle Fälle sind gleich wahrscheinlich (aber die Wahrscheinlichkeit ist 0 8-)).

Gleichverteilung zwischen 0 und 1: Die Wahrscheinlichkeit eines Intervalls ist die Länge des Intervalls.

Höhe: 1/(b-a), Erwartungswert: (a+b)/2

Varianz: (b-a)2/12

mit Erwartungswert m und Varianz s2.

Standardnormalverteilung: mit Erwartungswert 0 und Varianz 1.

Die nächsten drei Funktionen kommen "in der Natur" nicht vor, sind aber für die Statistik wichtig. Sie sind aus der Normalverteilung abgeleitet.

Entsteht als Summe der Quadrate unabhängiger standardnormalverteilter Zufallsvariablen.

Entsteht als Quotient einer Standardnormalverteilung im Zähler und der Quadratwurzel des Mittelwerts quadrierter Standardnormalverteilungen im Nenner (alle voneinander unabhängig).

Entsteht als Quotient modifizierter unabhängiger Chi-Quadrat-Verteilungen.

Gammafunktion: analytische Interpolation der Faktorielle. ("Faktorielle für reele Zahlen")

Gesetz der großen Zahlen

Wenn wir unabhängige Wiederholungen desselben Experiments immer wieder durchführen, dann konvergieren die relativen empirischen Häufigkeiten gegen die Wahrscheinlichkeiten.

Wenn wir ein Experiment, das einer Zufallsvariable X folgt, oft und in unabhängigen Versuchen wiederholen, dann konvergiert das arithmetische Mittel der Versuchsausgänge gegen den Erwartungswert der Zufallsvariablen.

Zentraler Grenzwertsatz

Die Summe sehr vieler unabhängiger Zufallsvariablen mit gleicher Verteilung ist annähernd normalverteilt.


© Balázs Bárány
zuletzt geändert (JMT): 1999-10-01