Information und Dokumentation
Herwig Jobst
Übungsarbeit
Vergleich computerunterstützter Suchdienste

Diese Arbeit beschäftigt sich mit verschiedenen Suchdiensten, die für einen ähnlichen Zweck (nämlich das Finden von Information) entworfen sind, jedoch auf völlig anderen Konzepten basieren. Auf folgende Dienste wird eingegangen:

BIBOS: Katalog der Bibliothek der Universität Wien

Das BIBOS-System ist ein Dienst des Österreichischen Bibliothekenverbundes. Sein Datenbestand kann sowohl nach Büchern in einzelnen Bibliotheken als auch im gesamten Verbund durchsucht werden. Die Daten kommen aus der manuellen Erfassung der Bücher durch BibliothekarInnen. BIBOS wird schätzungsweise von einigen Tausenden Anfragenden täglich kontaktiert.

AltaVista: Auch stellvertretend für andere Internet-Suchdienste

AltaVista ist relativ spät im World Wide Web erschienen, hat jedoch durch seine überlegene Technologie extrem schnell an Popularität gewonnen und ist heute laut eigenen Angaben das meistfrequentierte Suchsystem. Es arbeitet so, daß es das Web ständig nach neuen oder geänderten Inhalten durchsucht und die gefundenen Information in einem gigantischen Index abspeichert. Angeblich werden pro Tag mehr als 22 Millionen Anfragen beantwortet.

Hilfe-Assistent in der Microsoft Word für Windows 95 - Hilfe

Der Hilfe-Assistent ist ein Werkzeug, um in der komplexen und umfangreichen Hilfedatei des Textverarbeitungsprogramms Microsoft Word für Windows 95, Version 7.0 (im Folgenden "Winword 7" genannt) eine angenehme und schnelle Suche zu ermöglichen. Es sind natürlichsprachige Abfragen zugelassen, mensch wird sogar dazu ermutigt. Diese Technologie steckt jedoch noch in den Kinderschuhen, was sich durch Variation der eingegebenen Fragen leicht zeigen läßt.

Der Grund für die Auswahl dieser Systeme ist, daß sie die großen Richtungen der computerunterstützten Suche repräsentieren und die Vor- und Nachteile dieser Vorgangsweisen sehr gut beleuchten.

BIBOS: Katalog der Bibliothek der Universität Wien

Das BIBOS-System ist im Internet unter http://bibopac.univie.ac.at (WWW, bequemer, stellt jedoch größere Anforderungen an den Computer der Benutzenden), telnet://opac.univie.ac.at (Telnet, Textoberfläche, dadurch relativ schnell und von jedem Computersystem aus bedienbar, jedoch unbequemer in der Benutzung) sowie an vielen Terminals (wie über Telnet) der Bibliothek der Universität Wien erreichbar. Für einen Computerdienst relativ ungewöhnlich ist, daß es festgelegte Betriebszeiten (und somit Nichtbetriebszeiten) gibt, auch wenn die Verfügbarkeit an Wochentagen für 23 Stunden gewährleistet ist.

Ein Nachteil von BIBOS ist, daß es auf menschliche Eingabe der neuen Dokumente angewiesen ist. Aus diesem Grund sind nur Bücher seit 1989 in der EDV erfaßt, für ältere Quellen muß weiterhin die Papierkartei bemüht werden. Es gibt auch keine Möglichkeit, online festzustellen, ob das gewünschte Buch verfügbar ist, oder es gleich zu bestellen (es müssen Zettel ausgefüllt werden!).

Bei Einstieg über WWW ist eine relativ gute und intuitive Benutzendenführung vorhanden. Es wird gleich ein Verweis zur allgemeinen Hilfeseite angeboten. Diese Hilfeseite ist gut gemacht, alle wichtigen Hinweise sind zusammengefaßt. Was vielleicht fehlt, wären Links zu den anderen Hilfeseiten (wie Erweiterte Suche).

Absolut ungewöhnlich ist, daß zur Wildcard-Suche (Suche mit nur teilweise angegebenen Wörtern, so wie "Teilchenbeschleunig$" für Teilchenbeschleuniger und Teilchenbeschleunigung) das Dollarzeichen ($) verwendet werden muß. In der EDV-Welt ist diese Funktion allgemein mit dem Stern (*) verbunden, alle mir bekannten Systeme (Online-Suchdienste, Dateisysteme, CD-ROMs) verwenden ihn.

Als Vorteil könnte betrachtet werden, daß es für die Funktion, für die das System zuständig ist (nämlich vollständige Informationsträger auswählen), keinen Ersatz gibt und BIBOS zumindest im Vergleich mit der Handkartei immer noch um Klassen besser abschneidet.

AltaVista: Volltextsuche in WWW und Usenet

AltaVista basiert auf einer relativ einfachen Technologie, die jedoch mit extremem Aufwand eingesetzt wird. Der Rechner, an dem die Indexerstellung erfolgt, ist angeblich der schnellste jemals von Digital (einer Computerfirma, die auf große Rechner spezialisiert ist) gebaute.

Die Dokumente (HTML und News) werden vom sogenannten "Scooter" gesammelt. Dieser ruft in regelmäßigen Abständen die bereits erfaßten Seiten ab. Zusätzlich werden Verweise mit noch nicht bekannten Dokumenten verfolgt. Es gibt auch die Möglichkeit, neue Dokumente, die durch diesen stark auf Zufall basierenden Mechanismus nicht erfaßt werden, explizit zu melden. (Das macht der/die AutorIn der Seite, im Unterschied zu Bibliotheken) Aus diesem Input (nach eigenen Angaben 3 Millionen Dokumente pro Tag!) werden nun Indizes generiert. Da AltaVista im Unterschied zu BIBOS auch mit Wildcards am Anfang der Suchbegriffe (z.B. *medien für Massenmedien und Kommunikationsmedien) arbeiten kann, braucht es auch einen Index, in dem die Begriffe rückwärts erfaßt werden.

Die Suche in so großen Datenbeständen erfolgt immer mit Indizes, in denen die Begriffe in der Regel alphabetisch sortiert sind. So kann mit binärer Suche sehr schnell etwas gefunden werden. Ein Beispiel: Suche nach dem Wort "banal". Es ist bekannt, daß hundert Wörter im Index sind. Diese Zahl wird durch zwei geteilt. Das System schaut, ob das fünfzigste Wort "größer" (=im Alphabet weiter hinten) ist. In unserem Fall wird z.B. "natürlich" gefunden. Diese Position wird jetzt als Obergrenze verwendet und das fünfundzwanzigste (50 : 2) Wort ausgelesen usw. Auf diese Weise können 128 Suchbegriffe mit maximal 7, 1024 mit maximal 10 und eine Million Begriffe mit maximal 20 Zugriffen durchsucht werden. Jede Verdopplung der Information verursacht nur einen zusätzlichen Zugriff.

Die Indizes enthalten nicht nur Verweise auf die URLs (Universal Resource Locator, universelle Dokumentadresse), sondern auch Anzahl und Positionen der Wörter in den Dokumenten. Diese Angaben werden für die korrekte Aufbereitung benötigt, sodaß nach "Relevanz" sortiert werden kann. Zum Beispiel wird ein Dokument, in dem die Suchbegriffe bereits im Titel vorkommen, als "relevanter" (=besser zur Anfrage passender) beurteilt. Diese Sortierung läßt sich in der erweiterten Suche auch beeinflussen, indem zusätzliche Suchbegriffe eingegeben werden, die zwar nicht Bedingung für das Finden der Seite sind, aber dazu führen, daß Dokumente mit diesem Inhalt vorgereiht werden.

Die gefundenen Dokumente können, wenn sie noch an ihrem von AltaVista erfaßten Ort sind (was im WWW leider nicht selbstverständlich ist), direkt angewählt werden. Es ist nicht mehr nötig, aufgrund der Angaben zu Autor, Titel usw. ein Dokument zusätzlich zu besorgen, auch wenn die Informationen im Internet nur sehr selten so ausführlich sind, wie in Büchern. Einfachere Arbeiten können jedoch in der Regel ohne Probleme allein aufgrund dieser Informationen geschrieben werden.

Der größte Vorteil eines Suchdienstes wie AltaVista ist seine Geschwindigkeit. Wenn am Tag ca. 22 Millionen Suchanfragen bearbeitet werden und die Bearbeitung einer Anfrage ca. 10 Sekunden dauert, sind das ca. 250 Anfragen pro Sekunde und ca. 2500 Anfragen gleichzeitig. Bei menschlichen BibliothekarInnen, die sich so gut auskennen, daß sie jede Anfrage in zwei Minuten aus dem Katalog beantworten können, wären für die selbe Leistung 15.000 MitarbeiterInnen an 15.000 Schaltern oder Telefonen rund um die Uhr nötig.

Hilfe-Assistent in Microsoft Word

Das Hilfesystem von Winword 7 umfaßt ca. 3,5 MB, wovon geschätzte 2,5 MB Texte sind. Das wären ca. 1250 gedruckte A4-Seiten. Diese Informationsmenge macht ein gut durchdachtes Suchsystem notwendig.

Mit der Version 7.0 des gesamten Microsoft Office wurde der "Hilfe-Assistent" eingeführt. Dieser erlaubt "natürlichsprachige" Suchanfragen, als Beispiel ist "Gleichzeitiges Drucken mehrerer Exemplare" angeführt. Diese Abfrage funktioniert perfekt, als Antwort wird an erster Stelle der Hilfetext zu "Gleichzeitiges Drucken mehrerer Kopien" zurückgeliefert. Jedoch schon die Formulierung "Mehrere Kopien drucken" führt zu "Erstellen einer Tabelle", "Gleichzeitiges Drucken mehrerer Dateien", "Gleichzeitiges Drucken mehrerer Kopien", usw., in dieser Reihenfolge. Offensichtlich werden hier die Eingaben sehr primitiv, ohne Beachtung der Wortfunktion im Satz usw. ausgewertet. Das System in seinem jetzigen Zustand ist also kaum mehr als eine Volltextsuche in den Titeln der Hilfetexte (die echte Volltextsuche, die in Windows 95 eingeführt wurde, funktioniert natürlich auch). Das einzige Gebiet, auf dem es einer reinen Volltextsuche überlegen ist, ist die Auswertung der Synonyme.

Aussichten

Obwohl das Gebiet der computerisierten Erfassung natürlicher Sprache seit sehr langer Zeit erforscht wird, gibt es bis heute kein System, das einen "Sinn" oder "Zusammenhänge" aus natürlichsprachlichen Dokumenten erfassen kann. Vielmehr gibt es "Expertensysteme", die zusammen mit einem primitiven "Parser" (Auswertungsmechanismus für natürliche Sprache) auf einem beschränkten Themengebiet (Halskrankheiten, Mozarts Leben usw.) pseudointellektuelle Dialoge führen können.

Nachdem einige KI-Forscher erkannt haben, daß nicht die Qualität der Algorithmen, sondern das Wissen für die Intelligenz ausschlaggebend ist, haben sie vor ca. 10 Jahren begonnen, das Wissen der Menschheit in den Computer hineinzubringen ("Cyc"-Projekt). Unter Wissen ist nicht lexikalisches Wissen zu verstehen, sondern Informationen wie "Bücher enthalten üblicherweise Buchstaben" und "Menschen leben eine Zeit lang, dann sterben sie und nachher können sie sich nicht bewegen". In Kenntnis einer Unmenge von solchen Zusammenhängen soll es Cyc bald möglich werden, "menschlich" zu agieren. Ein solches System würde sich (unter anderem) sehr gut für Informationssuche im Netz eignen.

Literatur:

http://bibopac.univie.ac.at

http://www.altavista.digital.com

http://www.cyc.com


© Balázs Bárány
zuletzt geändert (JMT):1999-10-01