Einführung in die Kommunikationswissenschaft

Prof. Maximilan Gottschlich

Semesterarbeit über

eine neue Methode der

Rezipientenforschung im Internet

Inhalt

Einführung

Gegenstand der Untersuchung, Vorgehensweise

Diskussion der Methode

Ergebnisse


Einführung

Das Internet hat in den letzten Jahren extrem schnell eine große Verbreitung gefunden. Folgende Gründe waren dafür ausschlaggebend:

Es ist abzusehen, daß ein beachtlicher Teil der heutigen Medien (sowohl Print- als auch elektronische) bald ohne das Internet nicht auskommen wird. Sie müssen jedoch beachten, daß das Konsumverhalten im Internet etwas anders ist. Die Leute beziehen nicht jede Information und Unterhaltung aus einer Hand (wie z.B. Zeit im Bild und Abendkrimi aus dem ORF), sondern aus einzelnen spezialisierten Quellen (z.B. Innenpolitik vom ORF, Weltpolitik von CNN, Abendkrimi von RTL). Aus diesem Grund wäre es wichtig, Aussagen über die Interessen der KonsumentInnen zu treffen.

Um im ungeordneten Datenberg die brauchbaren Informationen zu finden, gibt es sogenannte Suchmaschinen (search engines, searchers, Suchdienste). Sie funktionieren so, daß der/die BenutzerIn einen oder mehrere Suchbegriffe (z.B. "Publizistik" oder "Charles Chaplin") eingibt, worauf die Suchmaschine sämtliche Dokumente sucht, die dieses Wort enthalten. Die Titel der Dokumente werden zurückgeliefert, mensch muß sie nur anklicken, um den vollen Text zu sehen.

Magellan, eine der am meisten verbreiteten Suchmaschinen, hat auch eine Funktion namens "Search Voyeur". Dieser Dienst speichert die zwanzig zuletzt eingegangenen Suchbegriffe und zeigt sie auf Wunsch an (die Anfragenden sind, wie im Internet allgemein üblich, völlig anonym, die Herkunft des Suchbegriffs kann nicht ermittelt werden). Die Seite, die die eingegebenen Suchbegriffe enthält, wird alle zwanzig Sekunden aktualisiert. Wenn in diesem Zeitraum weniger als zwanzig Anfragen eingehen, werden die letzten Begriffe aus dem vorherigen Durchgang angezeigt, wenn mehr als zwanzig kommen, entscheidet der Zufall darüber, welche von ihnen angezeigt werden.

Es ist möglich, die Suchwörter über einen längeren Zeitraum automatisiert herunterzuladen, um sie auszuwerten.

Gegenstand der Untersuchung und Vorgehensweise

Datenbeschaffung

Es wurde ein Programm geschrieben, das in gleichmäßigen Intervallen die Seite, die die Suchbegriffe enthält, anfordert. Der Abstand betrug jeweils 40 Sekunden, um die Wahrscheinlichkeit möglicher Verdopplungen aufgrund zu weniger Anfragen (besonders in der Vormittagszeit) zu minimieren. Das Ergebnis wird dadurch nicht verfälscht, da die Suchbegriffe üblicherweise (bei mehr als einer Anfrage pro Sekunde) zufällig ausgewählt werden. Bei dieser großen Anzahl der erfaßten Suchanfragen ist es ohnehin gleichgültig, ob alle oder nur ein gewisser Prozentsatz (der aber gegen 50 % geht) der Anfragen erfaßt werden (können).

Die erhaltenen Dokumente lagen anschließend numeriert in einem Verzeichnis. Mit Hilfe eines anderen Programmes wurden die eigentlichen Suchbegriffe aus ihnen extrahiert. In jeder Stunde, in der beobachtet wurde, kamen so 60 * 1,5 * 20 = 1.800 Suchbegriffe zusammen, die von anonymen Personen aus der ganzen Welt bei dieser Suchmaschine angefragt wurden.

Die so ermittelten Suchbegriffe wurden anschließend in eine Datenbank eingefügt, um für eine statistische Auswertung zur Verfügung zu stehen.

Datenauswertung

Ca. ein Drittel der Suchanfragen wurde Kategorien zugeordnet, um damit ihre "Bedeutung" - was die Leute wirklich sehen wollten - zu erfassen. Das mußte durch menschliche Eingabe erfolgen, da der Computer dazu (noch) nicht in der Lage ist.

Es wurde auch versucht, die "Suchqualität" zu ermitteln. Das ist deswegen eine wichtige Information, weil sie beschreibt, wie "erwachsen" die Menschen mit dem neuen Medium umgehen. Suchqualität wird in dieser Untersuchung definiert als "Eingabe von Suchbegriffen, die zu verwertbarer Information führen". Wegen der enormen Datenmenge, die im Internet verfügbar ist und von der Suchmaschine erfaßt wurde, führen einfache Anfragen wie "Bilder Tiere" oder "Pizza essen" nicht zu verwertbaren Ergebnissen, da mehrere Tausend Adressen zurückgemeldet werden. Vielmehr muß mensch Suchbegriffe wie "Bild Löwe Afrika" oder "Pizza Restaurant Wien bestellen" eingeben, um ein überschaubares und somit verwendbares Ergebnis zu erhalten.

Obwohl diese Information allgemein bekannt ist und auch bei den Suchmaschinen leicht abrufbar ist, werden weiterhin in zu großer Anzahl solche "einfachen" Suchanfragen durchgeführt. Die Suchqualität wurde auf folgende Weise ermittelt:

Einige Beispiele: "academy players directory and actors": 6 Punkte, "batman": 1 Punkt, "end of the world": 0 Punkte.

Diese Einteilung konnte automatisiert durchgeführt werden.

Diskussion der Methode

Da diese Forschungsmethode im Rahmen der Rezipientenforschung noch relativ neu ist, bedarf es einer grundsätzlichen Rechtfertigung der Vorgehensweisen.

Datenbeschaffung

Die Daten werden von Menschen in aller Welt eingegeben, sollten jedoch nicht als self-report-Daten betrachtet werden:

Natürlich erfolgt eine Verbalisierung der Wünsche, jedoch auf einer niedrigeren Stufe als z.B. bei einer Befragung. Dazu kommt allerdings die Hürde der Fremdsprache für immer mehr Anfragende. Wie wir noch sehen werden, wird das Ergebnis wegen dieser Faktoren etwas verfälscht.

Die Personen, die untersucht werden, stellen keine präformierte Gruppe dar. Sie bilden einen völlig zufällig ausgewählten Querschnitt der Internet-AnwenderInnen:

Die Benutzung der Suchmaschine ist nicht an irgendwelche Bedingungen wie Region, Computersystem, finanzielle Faktoren usw. gebunden. Wie bereits erwähnt, kommt ein erheblicher Teil der Anfragen mit der Vermittlung von Meta-Suchdiensten zustande.

Es gibt nur eine Beschränkung, die sich auf die Anzeige der Ergebnisse bezieht: auf der Web-Seite heißt es "The McKinley Group reserves the right to not present searches that fall outside of our editorial guidelines". Das bedeutet wohl, daß Anfragen, die sich auf verbotene Themen (z.B. Kinderpornographie, Drogenmißbrauch, Terrorismus) beziehen, nicht beantwortet werden. Die Auswirkungen dieser Einschränkung sind schwer abzuschätzen, dürften aber nicht signifikant sein. (Fraglich ist auch, ob es technisch überhaupt möglich ist, solche Anfragen zu blockieren.)

Die einzige Möglichkeit zur Unterscheidung der BenutzerInnen ist die Zeit des Abrufens der Daten. Aufgrund der Zeitverschiebung kann mit relativer Sicherheit auf den Teil der Erde, von dem die Anfragen nicht stammen, geschlossen werden. Zum Beispiel kommen die Anfragen, die am Vormittag unserer Zeit erfaßt werden, mit sehr hoher Wahrscheinlichkeit aus Ostasien, Australien und aus Europa (in Afrika, den arabischen Ländern und im Westteil Asiens ist das Internet kaum verbreitet) und kaum aus den USA bzw. Kanada. Das ändert sich gegen Abend deutlich, da die AmerikanerInnen beginnen, das Internet zu benutzen. Um diese Zeit ist für Leute aus Europa das Weiterkommen auf dem Datenhighway stark erschwert, da die Verbindungen über den Atlantischen Ozean relativ langsam sind und die BenutzerInnen in den USA einen viel größeren Teil der Bevölkerung darstellen.

Diese Untersuchung wurde zweimal am Vormittag und einmal am frühen Nachmittag insgesamt einige Stunden lang durchgeführt, kann jedoch sehr leicht auf den ganzen Tag ausgedehnt werden (das ist nur ein Problem des Internet-Zugriffs; der Speicherplatz und die Arbeitsgeschwindigkeit moderner Heimcomputer reichen bereits aus, um die Untersuchung durchzuführen).

Einteilung in Kategorien

Als Schwachpunkt der Untersuchung hat sich die willkürliche Einteilung der Suchbegriffe in Kategorien erwiesen. Während es bei "arnold schwarzenegger", "fetal microphotograph" und "military high schools" noch relativ einfach zu erkennen ist, was die Anfragenden wollten, wird es bei "mjf", "pintura el quijote" und "surfing" schwieriger, entweder weil die auswertende Person sich unter dem Begriff nichts vorstellen kann, ihn nicht versteht, oder weil der Begriff mehrdeutig ist. Außerdem war die Einteilung der Begriffe der einzige Teil der Untersuchung, der manuell erfolgte, und war somit sehr zeitaufwendig (länger als die Erstellung der kompletten Programme zur Erfassung und Auswertung). Deswegen konnte nur ca. ein Drittel der Suchanfragen in Kategorien eingeteilt werden.

Bewertung der Suchqualität

Die Bewertung der Suchqualität mit dem angegebenen Algorithmus ist zugegebenermaßen sehr primitiv, erfüllt jedoch den grundsätzlichen Zweck. Die Methode könnte überprüft werden, indem zufällig ausgewählte Suchbegriffe eingegeben werden, und mensch ermittelt, ob die erhaltenen Ergebnisse tatsächlich der Bewertung entsprechen. Es ist aber zu erwarten, daß für ca. 90 % der Suchbegriffe die ermittelte Punktzahl zutreffend ist, d.h. ein Suchbegriff mit 3 Punkten liefert bessere Ergebnisse als einer mit 2.

Ein Kriterium, das die Qualität der Suchbegriffe beeinflußt, konnte in der automatisierten Auswertung aus technischen Gründen (grammatikalische Analyse von Begriffen in unbekannten Sprachen wäre nötig) nicht berücksichtigt werden: viele Leute geben, ohne viel nachzudenken, Abfragen wie "laser printer drivers" oder "chat lines" im Plural ein. In den Dokumenten, nach denen gesucht wird, stehen die gesuchten Wörter allerdings in seltensten Fällen im Plural. Diese Unachtsamkeit der Anfragenden kann die Anzahl der als passend eingestuften Dokumente drastisch verringern und das Ergebnis verschlechtern.

Ergebnisse

Die nachgefragten Inhalte

Rohdaten

Die Rohdaten, d.h. die Suchbegriffe ohne jegliche Einteilung in Kategorien lieferten folgendes Ergebnis: An erster Stelle lag in jeder Einzeluntersuchung das Wort "sex". Der Abstand zum zweitplazierten Suchbegriff war immer zwei- bis dreifach. Danach kommen, schon mehr dem Zufall folgend, populäre computer- und internet-bezogene sowie andere dem Bereich des Sex angehörende Begriffe. Wichtig ist allerdings die Feststellung, daß "sex" trotz auf den ersten Blick übergroßer Häufigkeit nur in 1,49 % der Fälle angefragt wurde, die zweitplazierten Begriffe kamen auf 0,3 bis 0,4 %. Auf diese Weise ist natürlich keine Aussage über die anderen 97 % der Suchbegriffe möglich. Deswegen wurden die am meisten nachgefragten Suchbegriffe bzw. viele zufällig ausgewählte Begriffe in Kategorien eingeteilt.

Ein Grund für die überzufällige Verwendung des Suchbegriffs "sex" ist wohl in der mangelhaften Verbalisierung der Wünsche und der Verwendung von Englisch als Fremdsprache zu suchen.

Nach Einteilung in Kategorien

Wie bereits erwähnt, war es in vielen Fällen problematisch, eine Zuordnung nur aufgrund des Suchbegriffs zu treffen. Die Leute, von denen der Suchbegriff kam, konnten ja nicht befragt werden, was sie meinen. Das erklärt, daß an erster Stelle der Ergebnisse die nicht zugeordneten Begriffe stehen. Hier sind die Kategorien mit ihren Summen und Beispielen für Suchbegriffen, die der Kategorie zugeordnet wurden:

Kategorie
Anzahl
%
Beispiele
Unbekannt
1106
20,7aftonbladet, rembrandt rijn, red hat, ship wreck
Sex
954
17,9adult, sex, erotic pictures, playboy
Computer
496
9,29mpeg, ultrasound, emulator, gzip, tcl
Unterhaltung
326
6,1disney, cartoons, baywatch, greek songs
Wissenschaft
308
5,77hemochromatosis, heart disease, brain cells alcohol
Orte
235
4,4thessaloniki, argentina, sidney city map
Internet
193
3,61chat, aol, yahoo, altavista, proxy server
Technik
191
3,58telemetry, fuel additive, low noise downconverter
Beratung
183
3,43advice, consult, counselling, selfhelp
Leute
167
3,13kuti judit, rex applegate, ron jearmy
Stars
150
2,81pamela anderson, brad pitt, beatles
und 15 weitere
1031
19,3Firmen, Daten, Einkauf, Sport, Bildung, Job, Reisen
Gesamt
5340
100

Diese Ergebnisse sind natürlich nicht völlig genau, können jedoch durchaus mit den Daten von Umfragen über das Fernsehprogramm oder dem ORF-Teletest verglichen werden. Sie könnten als Grundlage für die Entscheidung dienen, welche Inhalte ein Medium verstärkt anbieten soll.

Das Ergebnis ist auf jeden Fall als repräsentativ für Internet-BenutzerInnen, die Suchdienste verwenden, zu betrachten. Ohne Suchdienste ist es kaum möglich, Inhalte im Internet zu finden, sodaß auch eine Aussage über Internet-KonsumentInnen im Allgemeinen getroffen kann.

Es wird in diesem Rahmen nicht versucht, die Ergebnisse zu deuten; sie sprechen für sich. Nur soviel sollte erwähnt werden, daß die Leute ihre Interessen in den konventionellen Medien offensichtlich nicht in genügendem Ausmaß widerspiegelt sehen.

Ermittelte Suchqualität

Es hat sich gezeigt, daß ca. 80 % der Suchanfragen von niedriger Qualität (null bis zwei Punkte) waren. Mindestens zwei Drittel davon, also 53 % aller Anfragen sind als unbrauchbar einzustufen. Es wird interessant sein, ob sich dieser Wert im Laufe der Jahre ändert, als neue Bevölkerungsgruppen ans Internet angeschlossen werden sowie die Informationsmenge und die "computer literacy" der BenutzerInnen steigen.

Die fertigen Daten:

PunkteAnzahl der Anfragen%
0140,11
1713445,9
2530234,1
3193412,4
48005,15
51871,20
6 - 161751,12
15546~ 100

Regionale Unterschiede

Aus den bestehenden Daten ließen sich keine regionalen Unterschiede ableiten. Möglicherweise könnte eine Untersuchung, die über mehrere Tage läuft, hier Differenzen in der Größenordnung von einigen Prozentpunkten liefern. Ein Grund dafür könnte sein, daß in den USA bereits viele Schulen ans Internet angeschlossen sind, weswegen dort eine große Anzahl von Kindern im Internet surft. Auch der Anteil der Frauen nähert sich 50 %. In Europa hingegen steckt das Projekt, Schulen ans Netz anzubinden, noch in den Kinderschuhen und Frauen stellen nur 20-30 % der Benutzenden.

Zeitlicher Verlauf

Es wird interessant sein, welche Ergebnisse herauskommen, wenn diese Untersuchung in einigen Jahren wiederholt wird. Vermutlich werden folgende Änderungen auftreten:


Literatur, Hinweise

Der Search Voyeur ist im Internet unter http://voyeur.mckinley.com/cgi-bin/voyeur.cgi zu erreichen.

Alle angegebenen Beispiele sind den Original-Suchbegriffen entnommen.


© Balázs Bárány
zuletzt geändert (JMT): 1999-10-01