609364 UE (iG 1.2)

Einführung in die Kommunikationswissenschaft


Mag. Gerit Götzenbrucker


Institut für Publizistik- und Kommunikationswissenschaft

Universität Wien


Sommersemester 1999






Balázs Bárány:


Verwendung elektronischer Quellen in

wissenschaftlichen Arbeiten



Matrikelnummer: 9606800

Inhalt

Einleitung

Vergleich analoger und digitaler Literatur

Begriffsbestimmung

Aufwand und Kosten der Publikation

“Qualität” der Veröffentlichungen

Zugriff auf die Literatur

Zitieren aus elektronischen Texten

Elektronische Publikation von Diplomarbeiten und Dissertationen

Anforderungen an ein weltweit einsetzbares System für die Publikation von Abschlußarbeiten

Ort der Publikation

Datenformat

Metadaten

Speicherung der Dokumente und Suche nach ihnen

Sicherung der Echtheit und der Dokumente

Abschließende Bemerkungen

Literatur

Endnoten


Einleitung

In Einführungsvorlesungen stellt sich häufig die Frage, wie Daten und Texte aus elektronischen Publikationen in wissenschaftlichen Arbeiten behandelt werden sollen. Zum Beispiel lassen sich die herkömmlichen Zitierregeln, die auf Bücher und Fachzeitschriften basieren, nicht unverändert anwenden. Diese Arbeit versucht, das Problem des Zitierens aus elektronischen Werken und andere Fragen zu diesem Themenkomplex zu beleuchten.

Viele gute wissenschaftliche Arbeiten, vor allem Diplomarbeiten und Dissertationen, kommen der wissenschaftlichen Gemeinschaft nicht zugute, weil die Kosten für ihre Publikation zu hoch wären. Mit den digitalen Technologien bietet sich jedoch die Möglichkeit, diese Werke kostengünstig zu publizieren. Wie das am besten gelöst werden kann, ist der zweite Schwerpunkt dieser Arbeit.

Vergleich analoger und digitaler Literatur

Begriffsbestimmung

“Analoge” Literatur

Unter “analoge” Literatur fallen alle Formen der herkömmlichen Publikation, also Bücher, Fachzeitschriften und andere wissenschaftliche Veröffentlichungen auf Papier. Auch die Gesprächsnotizen von einer wissenschaftlichen Diskussion oder zum Beispiel händische Vorlesungsmitschriften gehören in diese Kategorie.

“Digitale” Literatur

Als digitale oder elektronische Literatur bezeichne ich alle elektronisch abrufbaren Wissensquellen. Darunter fallen z.B. WWW-Seiten, Newsgroup-Beiträge oder Texte aus kommerziellen Forschungsdatenbanken.

Aufwand und Kosten der Publikation

Papier in großen Mengen zu bedrucken ist teuer. Bücher und Fachzeitschriften müssen in einer großen Auflage erscheinen, um auch nur die Druckkosten abzudecken. Das sorgt schon für eine Filterung der Veröffentlichungen; dazu später mehr.

Diplomarbeiten und Dissertationen werden meist nicht auf diese Weise veröffentlicht; ein Exemplar ist häufig in der Bibliothek einer Universität oder eines Instituts verfügbar.

Elektronisch zu publizieren ist hingegen viel kostengünstiger, wenn die Voraussetzungen (technische Geräte und Wissen) erfüllt sind. Es erfordert jedoch einigen Aufwand, einen längeren wissenschaftlichen Text “ordentlich” zu veröffentlichen (z.B. Fußnoten, Abbildungen, Durchsuchbarkeit, technische Verfügbarkeit usw.).

Gerade weil es so billig und einfach ist, wird die Veröffentlichung häufig nicht gut vorbereitet. Das Dokument wird, nur um vielleicht eine halbe Stunde Arbeit zu sparen, irgendwo an einem nicht gerade sorgfältig ausgewählten Ort, vielleicht noch in einem nicht durchsuchbaren Format, abgelegt und vergessen. Die ganze Welt könnte dann zwar darauf zugreifen, aber niemand weiß es, weil das Dokument mit den üblichen Suchwerkzeugen nicht auffindbar ist.

Eine wichtige Tatsache ist, daß heutzutage fast alle analogen Dokumente aus digitalen entstehen, weil praktisch alle ForscherInnen Textverarbeitungsprogramme verwenden. Das bedeutet, daß die ausschließlich analoge Verbreitung (in Form von gedruckten Büchern oder Fachzeitschriften) nach Entstehung des Textes ein Rückschritt ist: Ein Text, der an sich elektronisch, maschinenlesbar existiert, wird wieder in einer weniger zugänglichen Form veröffentlicht. Das schützt nur die kommerziellen Interessen der AutorInnen und der Verlage.

“Qualität” der Veröffentlichungen

Die eine oder andere Publikationsform ist nicht generell von höherer oder niedrigerer Qualität. Es gibt jedoch einige Faktoren, die bei der analogen Verbreitung wissenschaftlicher Publikationen tatsächlich zu etwas mehr Qualität führen. Es kann aber durchaus Online-Publikationen geben, die “besser” sind, als in Buchform Publiziertes. Der Aktualitätsfaktor ist auch nicht zu unterschätzen.

In der langen Geschichte des Buchdrucks haben sich viele Regeln für die Veröffentlichung von Büchern ausgebildet. Verlage, die wissenschaftliche Bücher herausgeben, wollen ihren Ruf wahren, und sorgen soweit sie können für ein gewisses Qualitätsniveau. Sie beschäftigen z.B. LektorInnen, die die Bücher vor der Veröffentlichung durchlesen und in fachlicher wie sprachlicher Hinsicht beurteilen. Wenn bestimmte Traditionen und Regeln nicht eingehalten werden (z.B. fundierte wissenschaftliche Beweisführung, Zitierregeln usw.), müssen die AutorInnen die Mängel beheben, oder das Buch erscheint nicht.

Auch das erwartete Interesse des Zielpublikums am Thema wird einkalkuliert. Das erschwert die Publikation solcher Werke, die der anerkannten Wissenschaft widersprechen (außer im Esoterik-Bereich: dort findet sich offensichtlich für jeden Unfug ein Verlag). Das kann gut oder schlecht sein.

All diese Qualitätssicherungsschritte entfallen bei der elektronischen Publikation. Wer immer einen Computer mit Internet-Anschluß und die (minimalen) Kenntnisse über die Technologie hat, kann ihr/sein Werk sehr schnell und kostengünstig veröffentlichen. Für die Verbreitung des Werkes sorgen verschiedene Suchmaschinen und Verweise (Links) auf das Dokument von möglichst vielfrequentierten Seiten.

Ein wissenschaftliches Buch oder eine Fachzeitschrift erscheint nie ohne Nennung der AutorInnen und anderer Angaben (z.B. Erscheinungsort, -datum usw.). Es ist jedoch sehr leicht und leider auch häufig, daß elektronische Dokumente anonym oder unter falschem Namen publiziert werden, sowohl im WWW1 als auch in Newsgroups2. (Das kann z.B. chinesischen PolitologInnen das Leben retten, also ist diese Möglichkeit nicht generell abzulehnen; aber im Normalfall sollte eine Arbeit, die Forschungsergebnisse beschreibt, mindestens einen Namen tragen.)

Dissertationen und Diplomarbeiten werden genau geprüft. Die StudentInnen, die sie schreiben, befassen sich monate- oder jahrelang mit ihrem Thema. Jede Phase der Arbeit wird von akademischem Personal geprüft. Also wäre die Qualität der Arbeiten und ihre Eignung als Grundlage für weitere wissenschaftliche Arbeiten an sich ausreichend. Trotzdem werden solche Arbeiten von StudentInnen nur selten in Fachzeitschriften oder Büchern publiziert, was am geringen öffentlichen Interesse und an der Menge der Arbeiten liegt.

Kommerzieller/ideologischer Einfluß

Die Verlage sind meist gewinnorientierte Unternehmen in einer wirtschaftlichen und gesellschaftlichen Umgebung. Das heißt, daß sie mindestens nach kommerziellen, in totalitären Staaten auch nach politischen Gesichtspunkten entscheiden, was sie publizieren.

Dieser Einfluß kann mehr oder weniger groß sein. In den meisten Ländern ist es schwer, mit wissenschaftlichen Publikationen Geld zu verdienen; die Verkaufbarkeit der Werke hängt z.B. vom/von der AutorIn ab, etablierte WissenschaftlerInnen werden vom Markt bevorzugt. Das erleichtert nicht gerade die Verbreitung alternativer Meinungen.

In totalitären Staaten geht der Einfluß noch weiter; es gibt nicht nur die von der Wissenschaft anerkannte Lehrmeinung, sondern auch staatliche Richtlinien, was “wahr sein darf”. Schon der Versuch, Gegenmeinungen zu publizieren, kann für die AutorInnen lebensgefährlich sein.

In freien Staaten haben AutorInnen die Möglichkeit, ihre Werke selbst zu publizieren, das erfordert jedoch hohe Anfangsinvestitionen (sowohl finanziell als auch an Arbeitszeit) und ist finanziell riskant, weil die Absatzwege der Verlage in diesem Fall nicht verfügbar sind.

Es ist schwer zu sagen, ob der kommerzielle Einfluß die Qualität der Veröffentlichungen hebt oder senkt (ideologischer Einfluß ist für die wissenschaftliche Arbeit offensichtlich schädlich). Einerseits wird sichergestellt, daß die Werke bestimmten Kriterien der wissenschaftlichen Öffentlichkeit entsprechen; andererseits hindern sie Werke, die nur einem Kriterium, nämlich der Aussicht auf finanziellen Gewinn, nicht entsprechen, sonst aber nützlich und notwendig wären.

Zugriff auf die Literatur

Die Literatur muß nicht nur vorhanden, sondern auch zugänglich sein: Die RezipientInnen müssen sie finden, lesen und verwenden können.

Die grundlegendste Kulturtechnik ist das Lesen: Bücher und Zeitschriften sind allein mit dieser Fertigkeit schon erschließbar. Im Gegensatz dazu setzen elektronische Texte eine Menge voraus:

  1. Technische Geräte: Vernetzte Computer müssen zur Verfügung stehen. Das ist in unseren Tagen in den Industrieländern kein großes Problem, aber auch noch nicht selbstverständlich. Zum Beispiel müssen Schulen oft auf andere Investitionen verzichten, um Computer und Internet-Zugriff kaufen und bezahlen zu können. In Entwicklungsländern ist das Problem viel größer; dort sind Computer nur sehr selten bezahlbar.

  2. Kenntnisse über die Bedienung der Geräte: Die Bedienung moderner Computer mit Tastatur und Maus ist keinesfalls selbstverständlich. AnfängerInnen sind mit der Komplexität der vielen Farben, Symbole und Fenster auf dem Bildschirm überfordert. Es ist also notwendig, grundlegende Fertigkeiten zu lernen, die sich leider auch noch zwischen verschiedenen Computern unterscheiden können (unterschiedliche Betriebssysteme; Anpassungsmöglichkeiten der Systeme selbst).

  3. Kenntnisse übers Medium: Warum gibt mir die Suchmaschine 10.000 Verweise als Antwort? Wieso paßt das erste Dokument, das ich anklicke, überhaupt nicht zu meiner Anfrage? Wie kann ich “ihm” sagen, was genau ich haben will? Wieso bekomme ich eine Fehlermeldung, wenn ich was lesen will?

Solche Fragen stellen anfangs alle BenutzerInnen. Um zu antworten, muß einiges über die Arbeitsweise der Suchdienste und des “Internet” (WWW, Usenet) an sich bekannt sein. Das sind keine eigentlichen Computerkenntnisse, sondern “Medienkenntnisse”, vergleichbar mit dem Wissen über Fernsehen.

Es ist also anfangs aufwendiger, elektronische Texte zu nutzen (z.B. suchen und bearbeiten). Wer es aber gelernt hat, bekommt damit eine viel effizientere und schnellere Arbeitsweise.

Suche nach Literatur

Computer können nicht nur die Information selbst, sondern auch Meta-Information enthalten: z.B. wo ist eine Information auffindbar, von wem stammt sie, usw. In Bibliotheken, dem traditionellen Einsatzort solcher Meta-Information, wurde sehr lange die Karteikarte als Informationsträgerin verwendet; der Computer löst sie zunehmend ab, weil er sehr große Vorteile bietet. Es dauert jedoch noch Jahre, bis alle Zettelbestände aller Bibliotheken “im Computer” sind.

Informationstechnologie kann also auch eingesetzt werden, um nach analogen Publikationen zu suchen. Allerdings beschränkt sich die Suche auf die Meta-Information, also z.B. AutorIn, Erscheinungsjahr, Titel, Untertitel, evt. Stichwörter und vielleicht eine kurze Zusammenfassung.

Elektronische Dokumente können hingegen im Volltext durchsucht werden; im Idealfall brauchen sie gar keine zusätzliche Meta-Information, weil diese im Dokument implizit enthalten ist (z.B. AutorIn). Daß das trotzdem nützlich sein kann, werde ich später zeigen.

Es ist ein großer Fehler, elektronische Dokumente so zu publizieren, daß der Vorteil der Volltext-Durchsuchbarkeit verlorengeht. Wer also auf seiner/ihrer Homepage ein Word- oder PDF3-Dokument publiziert, verzichtet darauf, daß Suchmaschinen das Dokument erfassen können. Wenn dann auch keine Meta-Information (Kurzbeschreibung, Suchbegriffe, Untertitel) zur Verfügung steht, ist die Erreichbarkeit des Dokuments geringer als in einer guten Bibliothek.

Verarbeitung und Vervielfältigung

Um ein Werk zitieren zu können, muß das Zitat in die eigene Arbeit übernommen werden. Das ist einfacher und weniger fehleranfällig, wenn mensch den Originaltext nicht abschreiben muß, sondern einfach markiert und kopiert.

Das ist natürlich nicht unbedingt ein Vorteil, da es auch zu einem unverantwortlichen Umgang mit fremden Texten führen kann. Zum Beispiel wird mehr zitiert, als notwendig wäre. Aber das ist ein Thema, das in einem größeren Kontext, also im Rahmen der Einführung in die wissenschaftliche Arbeit, angesprochen werden muß.

Haltbarkeit und Wiederverwendbarkeit

Die Geschichtswissenschaft und ihre verwandten Wissenschaften basieren zu großen Teilen auf Schriftstücken, die Tausende von Jahren alt sein können. Andererseits gibt es Tonaufnahmen aus den 1950, die heute mit vernünftigem Aufwand nicht mehr abgespielt werden können, weil die dazugehörigen Abspielgeräte längst verschrottet wurden.

Papier ist ein recht robustes Medium; die heutigen Bücher werden sicherlich noch in 100 Jahren lesbar sein.

Maschinenlesbare Datenträger schneiden im Vergleich dazu sehr schlecht ab. Sie haben gleich mehrere Probleme:

  1. Ablösung von Formaten: Die Datenträger haben die technischen Eigenschaften, die zu ihrer Entstehungszeit aktuell waren. Im Zuge des Fortschritts werden Formate durch bessere abgelöst. Auf die Abwärtskompatibilität (Verwendbarkeit alter Daten/träger) wird oft aus wirtschaftlichen Gründen nicht geachtet. Die internationale wissenschaftliche Gemeinschaft ist also der Industrie und deren täglichen Formatkriegen ausgeliefert und muß immer wieder Geld für die Umkopierung der wertvollen Dokumente ausgeben.

  2. Entmagnetisierung und chemischer Verfall: Disketten sind nur sehr beschränkt haltbar, es ist nicht selten, daß sie schon nach einem halben Jahr Lesefehler aufweisen. “Gebrannte” CD-ROMs haben den Herstellern zufolge eine Lebensdauer von 10-15 Jahren, aber es fehlen Erfahrungswerte. Festplatten werden überhaupt nach einigen Jahren ausgetauscht, ohne daß sie das Ende ihrer Lebensspanne erreicht hätten.

Wenn Formate nicht standardisiert sind, ist es also sehr wahrscheinlich, daß wir die Dokumente in 10-15 Jahren nicht mehr lesen können.

Heute haben wir glücklicherweise die Situation, daß durch Internet-Protokolle zumindest alle neueren Computersysteme vernetzbar sind und somit auf ihnen gespeicherte Daten digital umkopiert werden können.

Speziell im World Wide Web kommt ein großes Problem zum Vorschein: Der Aufbewahrungsort der Dokumente ändert sich recht häufig. Schuld daran sind technische, persönliche oder wirtschaftliche Gründe.

Wenn einE StudentIn das Studium mit einer Diplomarbeit abschließt, und dieses zuerst auf seiner/ihrer Webseite bei der Uni veröffentlicht, muß die Datei oft schon nach wenigen Monaten gelöscht werden, weil nach der Exmatrikulation auch die Computerdienste der Universität nicht zur Verfügung stehen. Es ist heute nicht schwer, kostenlosen Webspace zu finden, aber wenn das Dokument ursprünglich von einer Suchmaschine erfaßt wurde, und dieses die neue Adresse noch nicht weiß, erhält der/die Suchende nur den berühmten Fehler 404 statt der gewünschten Seite.

Bei Büchern stellt sich dieses Problem nicht. Ein Buch, das mit ISBN, Titel und AutorIn bekannt ist, kann in den meisten Fällen auch nach Jahren noch erworben oder in einer Bibliothek gefunden werden. Die Voraussetzung dafür ist die - natürlich über lange Zeit gewachsene - Infrastruktur des internationalen Buchhandels mit der weltweit einzigartigen ISBN-Nummer.

Die wichtige Unterscheidung ist die Art der Meta-Information: auf der einen Seite die Adresse (URI4) des Dokuments, auf der anderen die zentral vergebene und festgehaltene Nummer.

  1. Die Adresse ist zwar weltweit eindeutig, aber nicht fix. Eine “Adresse” ist deswegen notwendig, weil das Dokument nicht einfach existiert, sondern von einem sogenannten Server5 abgerufen werden muß. Die Adresse enthält absolut keinen Hinweis, wo das Dokument sonst noch sein könnte.

Sie setzt sich aus mehr oder weniger zufälligen oder für den Inhalt der Arbeit irrelevanten Fakten (z.B. Name und Ort der Universität, Name des/r Autors/in, gewählte Organisationsstruktur für Dokumente usw.) zusammen und kann sich aus technischen, wirtschaftlichen und persönlichen Gründen ändern. Eine Infrastruktur für die sichere Veröffentlichung wissenschaftlicher Dokumente müßte dieses Problem beseitigen; ich schlage weiter hinten in dieser Arbeit eine Lösung vor.

  1. Eine ISBN-Nummer hingegen ist sowohl eindeutig als auch für immer fix. Sie ist im Buch enthalten und anderswo, zumindest beim Verlag, ebenfalls erfaßt. Die Nummer kann im Gegensatz zu einer Web-Adresse deswegen fix bleiben, weil sie sich nicht auf den aktuellen Ort des Buches, sondern nur auf die Details der Veröffentlichung bezieht. Natürlich muß das Buch gesucht werden, wenn z.B. der Verlag es nicht mehr liefern kann, aber das wird durch die ISBN-Nummer erleichtert.

Zitieren aus elektronischen Texten

Für viele Themen der Publizistik- und Kommunikationswissenschaft findet sich bereits genügend Literatur hoher Qualität im Web. Für Forschung, die sich mit den neuesten Entwicklungen des Mediums beschäftigt, ist das WWW sogar die einzige Informationsquelle.

Die anerkannten Regeln fürs Zitieren sind vor allem für Bücher und Fachzeitschriften definiert, sie können aber leicht für Web-Inhalte übernommen werden. Der Grundgedanke der Zitierregeln ist, die Quelle und in ihr den genauen Ort des Zitats eindeutig zu benennen.

Es gibt einen ISO-Standard für bibliographische Referenzen auf elektronische Dokumente [ISO690-2]. Er beschreibt, welche Daten in welcher Reihenfolge angegebenen werden müssen (wenn sie vorhanden sind), um ein Werk zu identifizieren.

Die Adresse des Dokuments kann sich mit der Zeit ändern. (Es gibt allerdings Gegenmaßnahmen: siehe z.B. http://purl.oclc.org/OCLC/PURL/SUMMARY) Wenn mensch aus einem Dokument zitiert hat, ist es inakzeptabel, wenn das Ursprungsdokument nicht mehr greifbar ist. Es ist also sehr ratsam, das Dokument, aus dem zitiert wurde, auf einem eigenen Datenträger abzuspeichern. Das erfordert nicht sehr viel Speicherplatz und gibt die Sicherheit, daß das Dokument aus später verfügbar sein wird.

Es gibt auch vereinzelt Dokumente, bei denen keine Adresse feststellbar ist. Das liegt daran, daß das Dokument auf dem Server anhand einer vorangegangenen Suche zusammengestellt wurde. In diesem Fall zeigt die Adresse (die z.B. mit .cgi, .pl oder .php endet) bei späteren Aufrufen nicht auf das gesuchte Dokument.

Solche Verfahren sollten die AnbieterInnen öffentlich zugänglicher Dokumente nicht verwenden. Falls es doch passiert, muß auch in diesem Fall das Dokument auf dem eigenen Datenträger gespeichert werden; als Adresse sollte mensch die Hauptadresse des Dienstes und die Suchbegriffe angeben.

Eigene Speicherung der Dokumente

Wenn Dokumente auf eigenen Datenträgern gespeichert werden und im WWW nicht mehr abrufbar sind, können sie geändert werden. Ihre Authentizität reicht nicht aus, um als wichtige Quelle in einer wissenschaftlichen Arbeit (z.B. Diplomarbeit) verwendet zu werden. Für dieses Problem gibt es eine Lösung: die sogenannten digitalen Unterschriften, die ich etwas später beschreibe.

Manche Dokumente tragen den Vermerk, daß sie nicht kopiert und weitergegeben werden dürfen (nur Verweise auf sie sind erlaubt). In diesem Fall ist es fair, auf die eigene Speicherung zu verzichten. Die AutorInnen solcher Dokumente haben meist ein großes Interesse daran, daß die Dokumente nur von ihrer Webseite geholt werden können, und tun (hoffentlich) alles, um diese ständig verfügbar zu halten.

Angabe der Position des Zitats in einem elektronischen Dokument

Dokumente im verbreiteten HTML-Format6 bieten keine Möglichkeit, eine Seitengröße oder andere Formatierungen festzulegen. Es ist also sinnlos, Seiten- oder Zeilennummern anzugeben: das Dokument würde auf jedem Computer anders ausgedruckt werden. Stattdessen liegen folgende Möglichkeiten nahe:

  1. Benutzung der Suchfunktion des Web-Browsers. Jeder Browser hat heute eine eingebaute Suchfunktion, mit der mensch schnell zu einer Textstelle springen kann. In der Quellenangabe gibt mensch dann den Suchbegriff an, mit dem das Zitat zu finden ist. Im Idealfall sollte der Suchbegriff eindeutig sein, also im ganzen Dokument ausschließlich das gemeinte Zitat finden; wenn das nicht einfach ist, kann mensch etwas wie “2nd search result” dazuschreiben.

  2. Absolute Position. Eindeutiger, aber schwerer zu bestimmen und wiederzufinden ist die genaue Position des Zitats. Außerdem funktioniert das nicht mit “binären” (maschinenlesbar kodierten) Textformaten. Diese Methode würde ein eigenes kleines Programm oder eine Unterstützung dafür in Browsern erforderlich machen.

  3. Angabe der Dokumentstruktur. Die beste Methode, die heute jedoch weder in Texterstellungs- noch Anzeigeprogrammen (Browsern) implementiert ist, wäre die Auswertung der Dokumentstruktur: Der Computer kann die Abschnitte und Absätze eines Dokuments zählen und die aktuelle Position (z.B. Abschnitt 2, Absatz 4) feststellen. Diese Daten machen - auch in einem Buch - eine Textstelle eindeutig, nur ist dort die manuelle Zählung der Absätze unpraktischer als das Blättern zu einer Seite.

Elektronische Publikation von Diplomarbeiten und Dissertationen

Der Rest dieser Arbeit beschreibt den Stand der elektronischen Publikation von Abschlußarbeiten und die organisatorischen und technischen Voraussetzungen, die meiner Ansicht nach dafür erforderlich wären.

Online-Dissertationen in Österreich

Sowohl in Österreich als auch in Deutschland besteht Veröffentlichungspflicht: die StudentInnen müssen ihre positiv beurteilten Arbeiten drucken und der Universitäts- sowie der Nationalbibliothek zukommen lassen (Österreich: § 65. (1) UniStG).

In Österreich gibt es weder eine zentrale Anlaufstelle noch Bestrebungen, Kriterien für die Online-Publikation von Abschlußarbeiten zu erstellen. (Es gibt nur eine Datenbank von Titeln und Abstracts der österreichischen Dissertationen7 seit 1990.) Wenn StudentInnen ihre Arbeiten veröffentlichen, tun sie das ohne Unterstützung auf ihrer eigenen Homepage in einem selbstgewählten Format. Solche Arbeiten sind nur in der für das Web üblichen Weise erfaßt, also im guten Fall in Suchmaschinen eingetragen.

Projekte in anderen Ländern

In Deutschland existiert das Projekt “Dissertationen Online” [DissOnline]. Statt bis zu 40 Exemplare der Arbeit drucken zu lassen, können StudentInnen eine elektronische Version der Arbeit in ihrer Universitätsbibliothek “abgeben” und brauchen dann nur vier Pflichtexemplare.

Da das deutsche Projekt bereits seit 1998 läuft (im Hinblick auf die rasante Entwicklung in diesem Bereich eine Ewigkeit!), kann es nicht alle neuen Technologien integrieren, über die ich berichten werde. An manchen Punkten wird jedoch bereits gearbeitet.

Es gibt Anfänge einer zentralen Suchmaschine, die in einem Schritt die teilnehmenden Online-Archive durchsuchen kann, soweit diese die technischen Voraussetzungen erfüllen (derzeit nicht alle). In den anderen Archiven muß mensch die jeweilige lokale Suchmöglichkeit in Anspruch nehmen.

Die deutschen Bibliotheken akzeptieren die Arbeiten in den Standards HTML, PDF und in Formaten gängiger Textverarbeitungsprogramme.

In den USA scheint keine Veröffentlichungspflicht zu bestehen: dort gibt es ein Nebeneinander von universitären und privatwirtschaftlichen Initiativen zur Publikation der Arbeiten. Das “Networked Digital Library of Theses and Dissertations”8 und Dissertation.Com9 sind Beispiele für dieses zweigeteilte System.

Die kommerziellen Anbieter sind eher pragmatisch, wenn es um eine korrekte bibliografische Erfassung geht, und bevorzugen standardisierte Vorgehensweisen (z.B. nur ein Datenformat), um die Kosten zu minimieren. Sie bieten auch z.B. die ersten 30-40 Seiten der Arbeit kostenlos zum Herunterladen an; das ganze Werk kostet dann je nach Umfang und Typ (Diplomarbeit, Dissertation oder andere Veröffentlichung) meistens zwischen ca. 5 und 50 US $.

Im universitären Bereich der USA betreibt die Technische Universität von Virginia (Virginia Tech) die Online-Publikation zusammen mit einigen anderen Colleges. Bei Virginia Tech sind sogar alle StudentInnen verpflichtet, ihre Abschußarbeiten elektronisch abzugeben (allerdings haben sie die Möglichkeit, die Verbreitung der Arbeit auf Virginia Tech zu beschränken).

Das ETD-System (Electronic Theses and Dissertations) in den USA ist technisch und organisatorisch auf einem ähnlichen Stand wie das deutsche: Es gibt einige Universitätsbibliotheken, die mitmachen; die erfaßten Metadaten sind vergleichbar und die gleichzeitige Suche in allen teilnehmenden Systemen ist aus technischen Gründen nur eingeschränkt möglich.

Interessant ist, daß für die Abgabe ein eigenes Dokumentformat (ETDML: Electronic Thesis and Dissertation Markup Language) existiert.

Anforderungen an ein weltweit einsetzbares System für die Publikation von Abschlußarbeiten

In den letzten Jahren hat sich im Bereich der Online-Publikation sehr viel getan. Die zentrale Instanz, die neue Standards ausarbeitet und beschließt, ist das World Wide Web Consortium10 (W3C). Die Arbeitsgruppen dieses Gremiums bestehen aus ExpertInnen, die in verschiedenen Ländern leben und übers Internet miteinander kommunizieren. Das W3C hat keine normative Kraft, es gibt Empfehlungen aus, die aber von allen Beteiligten, die sich an Standards halten wollen, befolgt werden. Diese Vorgehensweise ist schneller und flexibler, als nationale Normierungsinstitute vorgehen können. Dadurch wird der Geschwindigkeit des Fortschritts Rechnung getragen.

Das W3C konzentriert sich momentan vor allem auf Anwendungen um die Daten- und Dokumentenbeschreibungssprache XML11. Die Entwicklung in diesem Bereich ist sehr schnell, da XML von der Wirtschaft und der wissenschaftlichen Gemeinschaft als Lösung für viele Probleme angesehen wird. Ich werde also auf Entwicklungen eingehen, die heute teilweise erst als Entwürfe existieren, aber möglicherweise schon in einigen Monaten konkrete Anwendung finden können.

Ort der Publikation

Die Diplomarbeiten und Dissertationen sollten möglichst rund um die Uhr von der ganzen Welt aus erreichbar sein. Universitäten und große Bibliotheken können das ohne Probleme garantieren; einzelne Institute tun sich damit eventuell schwer. Es ist also sinnvoll, wenn ein Land oder eine größere Universität die Infrastruktur unterhält und alle Arbeiten zentral speichert.

Für die Zitierbarkeit der Dokumente ist es sehr wichtig, daß sie permanent unter der selben Adresse abrufbar sind. Die Institution, die sie speichert, muß also gleich ein sinnvolles System für die Benennung und Organisation entwickeln, z.B.:
http://theses.univie.ac.at/Jahr/Studienrichtung/Nummer/. (Diese Adresse soll eher kurz sein und alle möglichen Fälle abdecken: die Einordnung des Themas und der AutorInnen erfolgt besser durch die Metadaten.)

Datenformat

Da das HTML-Format nicht für alle Anforderungen gleich gut geeignet ist, wurden Vorschläge für allgemeinere und bessere Standars gemacht und angenommen.

Im Bereich der Dokumentenbeschreibungssprachen wird das viel flexiblere XML mittelfristig HTML ergänzen. (Ergänzen, nicht ablösen: HTML ist für sehr viele Anwendungen gut genug, und es kann in XML ausgedrückt werden. Das bedeutet, daß zukünftige Anwendungen, die XML unterstützen, gleichzeitig auch HTML kennen.)

XML hat einige sehr praktische Eigenschaften, z.B. Namensräume12, die (unter anderem) das wissenschaftliche Publizieren gegenüber HTML erheblich verbessern.

Die meisten modernen Textverarbeitungsprogramme können bereits HTML-Dateien lesen und schreiben. Diese Dateien kann mensch dann mit speziellen, frei erhältlichen, Programmen in XML umwandeln (und XML-Dateien wieder in HTML).

Zukünftige Entwicklungen, die noch nicht standardisiert sind (z.B. Bezeichnung der einzelnen Elemente des wissenschaftlichen Dokuments, wie “Hypothese”, “Methode”, “Schlußfolgerung”), können dann mit den XML-Werkzeugen, die bereits in Entwicklung sind, integriert werden.

Der erste Schritt der Veröffentlichung ist es also, eine XML-Datei zu erzeugen, die den Vorgaben der publizierenden Institution (z.B. National- oder Universitätsbibliothek) entspricht. Das kann der/die StudentIn bereits heute mit frei erhältlicher Software selbst tun.

Inhalts- und seitenorientierte Formate

HTML und XML sind inhaltsorientierte Formate. Sie enthalten keine Information darüber, wie das Dokument darzustellen ist oder gedruckt werden soll, sondern bezeichnen die Elemente des Inhalts, z.B. ZITAT, ADRESSE usw.

Es gibt auch seitenorientierte Formate, wie das Portable Document Format (PDF) der Firma Adobe. In diesem Format wird der gesamte Inhalt des Dokuments zusammen mit genauen Daten zur Darstellung in eine Datei geschrieben. PDF wird sehr gerne verwendet, um Arbeiten zu publizieren, weil alle Formatierungen des Dokuments erhalten bleiben.

Inhaltsorientierte Formate sind normalerweise einfacher, HTML und XML können notfalls sogar ohne spezielle Programme betrachtet werden und sind dann noch verständlich. Sie können auch einfacher aufbereitet, konvertiert, durchsucht und auf alternative Weisen dargestellt, auf einer Braille-Leseeinheit ausgegeben oder von einem Sprachsynthese-System vorgelesen werden.

Wenn ein PDF-Dokument hingegen für US-amerikanische Papiergrößen formatiert ist, hat mensch in Europa Schwierigkeiten, es richtig auszudrucken. Auch die Volltextsuche und eingebettete Meta-Informationen sind umständlich bis unmöglich.

In einem wissenschaftlichen Dokument ist es meiner Ansicht nach unerheblich, wie die Seitenränder im Textverarbeitungsprogramm der/des Forschers/in eingestellt sind oder welche Schriften er/sie mag. Viel wichtiger ist es, die Elemente möglichst einfach weiterzuverwenden. Zum Beispiel könnte eine Formel direkt aus einem XML-Dokument in ein Mathematikprogramm übernommen werden. Das ist mit PDF nicht möglich, dort steht nur ein Bild der Formel drinnen, was für die LeserInnen zwar egal ist, aber die Übernahme sehr erschwert.

Ich bin also dagegen, die Dokumente in einem seitenorientierten Format zu speichern, vor allem weil es möglich ist, ein XML-Dokument optimal nach eigenen Wünschen für den Druck aufzubereiten.

Metadaten

Für Metadaten in XML ist das Resource Description Format (RDF) definiert. RDF ist eine Art Sprache, die nicht nur die Attribute (z.B. Titel, AutorIn), sondern auch die Beziehungen zwischen ihnen beschreiben kann. (Beispiel: AutorIn A schrieb Dissertation D. Dissertation D hat den Titel T. Prof. P beurteilt Dissertation D und benotet AutorIn A.)

Ein beliebtes Schema für die Beschreibung von Dokumenten (Büchern, Aufsätzen, Zeitungsartikeln, WWW-Seiten usw.) ist der “Dublin Core”-Standard [DC]. Er legt 15 Elementkategorien wie TITLE, DATE, FORMAT und PUBLISHER usw. fest, die BibliothekarInnen auf der ganzen Welt als ausreichend anerkennen. (Auch das deutsche “Dissertationen Online”-Projekt verwendet den Dublin Core als Metadatenformat, allerdings noch nicht in Verbindung mit XML und RDF. Es gibt jedoch bereits einen Entwurf dafür.)

Metadaten haben auch im Zeitalter von Volltext-Suchmaschinen noch ihre Berechtigung.

Die Volltextsuche funktioniert nur dann gut, wenn es ein anerkanntes und eingeschränktes Vokabular verwendet, das in nicht wissenschaftlichen Texten nicht vorkommt. Auf eine Anfrage wie “Gewalt UND Fernsehen” liefert der Suchdienst AltaVista 32.361 Treffer, darunter zum Beispiel Comics. Es müßte also einen Weg geben, die Suche auf wissenschaftliche Studien zu beschränken. Genau das leisten die Metadaten, die eine Einordnung des Dokuments erlauben. Mit einem kontrollierten Fachvokabular kann die Suche weiter auf Schlagworte eingeschränkt werden, wenn die Volltextsuche zu viele Ergebnisse liefert.

Als zweiten Schritt der elektronischen Veröffentlichung muß die/der StudentIn also (eventuell nach Rücksprache mit der/dem BetreuerIn) die Metadaten der Arbeit erfassen. Dazu gehören Suchbegriffe, die die Arbeit beschreiben sowie eine Zusammenfassung der Arbeit, nach Möglichkeit auch in Englisch.

Leute mit Computer-Erfahrung können das auf jeden Fall, auch ohne zusätzliche Software, anhand einer einfachen Vorlage selbst machen. Schon bald wird es aber auch frei verfügbare Software geben, mit der die Metadaten auf benutzerfreundliche Art “zusammengeklickt” werden können.

Speicherung der Dokumente und Suche nach ihnen

Am effizientesten können die Dokumente zentralisiert gehalten werden. Dafür bietet sich die Bibliothek einer größeren Universität oder die Nationalbibliothek des Landes an. Aus rechtlichen Gründen und wegen der unterschiedlicher Bildungssysteme erscheint es nicht sinnvoll, die Arbeiten in einem weltweiten Archiv zu speichern.

Wenn das System weltweit auf der Basis von XML, RDF und einer standardisierten Abfragesprache (zum Beispiel der dem W3C vorgeschlagenen XML Query Language) normiert wird, ist die getrennte Speicherung nicht weiter problematisch.

Suchmaschinen können einfach die bekannten Speicherorte nach beliebigen Daten durchsuchen und diese für sich erfassen. Es könnte verschiedene Suchmaschinen mit spezialisierten Suchmethoden geben; eine würde sich zum Beispiel auf Chemie spezialisieren und Volltextsuche ermöglichen; die andere die BenutzerInnen benachrichtigen, wenn neue Arbeiten in bestimmten (wählbaren) Sprachen zu einem bestimmten Thema erscheinen.

Sicherung der Echtheit und der Dokumente

JedeR kann einen Text ins Internet stellen, “Dissertation” darüberschreiben und eineN fiktiveN BetreuerIn mit gut klingendem Namen erfinden. Ein solches Dokument wäre nur schwer von einer echten elektronischen Dissertation zu unterscheiden.

Es gibt Methoden, mit denen die Authentizität elektronischer Dokumente gewährleistet werden kann. Ein Indiz ist schon die Adresse: sie sollte zu einer Universität oder Nationalbibliothek gehören.

Die BenutzerInnen müssen jedoch auch in der Lage sein, lokale Kopien von Dokumenten zu speichern, und aus ihnen zu zitieren. Elektronische Dokumente können allerdings leicht geändert werden, was in diesem Fall ungünstig ist, weil ihre Glaubwürdigkeit dadurch stark abnimmt. Eine Lösung dafür ist die Verwendung der sogenannten public key cryptography13, das vor allem für die Verschlüsselung sensibler Daten und e-Mails verwendet wird, aber auch für “digitale Unterschriften” geeignet ist.

Es gibt anerkannte mathematische Verfahren, mit denen es möglich ist, ein Schlüsselpaar zu erstellen. Dieses Paar besteht aus einem öffentlichen und einem privaten Schlüssel. Aus dem öffentlichen Schlüssel kann der private nicht ermittelt werden.

Wenn A eine vertrauliche Mitteilung an B schicken will, verschlüsselt er/sie diese mit dem öffentlichen Schlüssel von B. Der verschlüsselte Text (der aus sinnlosen Buchstabenfolgen besteht) kann über einen unsicheren Kanal (zum Beispiel auf einer Postkarte) zu B gelangen, und nur B kann ihn mit Hilfe des privaten Schlüssels wieder lesbar machen.

Wenn der Text nicht vertraulich ist, aber A sichergehen möchte, daß Fremde ihn nicht ändern können, verschlüsselt er/sie das Dokument mit dem eigenen privaten Schlüssel. Das Dokument ist dann für alle Welt lesbar, das ja A-s öffentlicher Schlüssel bekannt ist, aber nur A kann ein so verschlüsseltes Dokument erstellen.

Um die Daten lesbar zu halten und trotzdem ihre Herkunft und Echtheit zu bestätigen, wird das Dokument normalerweise nicht verschlüsselt, sondern signiert. Das Verschlüsselungsprogramm liest den Text und generiert daraus mit dem privaten Schlüssel und bekannten mathematischen Verfahren einen eindeutigen Text, der wieder aus irgendwelchen Buchstabenfolgen besteht.

Meine digitale Signatur für den vorigen Absatz ist z.B. “iQA/AwUBN3CMxVaf4YsysRZcEQ JcwCg1eib7GjN08oESKC5aVvbCVVTUbsAoKjpaBrJ4JjkvY81kSbuKdxB0j+h=/KwM”. Diese Signatur stimmt nicht mehr, wenn ich auch nur einen Buchstaben im Absatz verändere. Das Programm zur Überprüfung der Signaturen vergleicht den Text mit dem öffentlichen Schlüssel und der Signatur und zeigt an, ob der Text geändert wurde oder nicht.

Ein Dokument kann auch von mehreren Personen unterschrieben werden. Die Abschlußarbeit würde mindestens vom/von der AutorIn und den beurteilenden ProfessorInnen signiert, und vielleicht zusätzlich beim Empfang von der Universitätsbibliothek. Die mehrfache Unterschrift gewährleistet, daß eine Person das Dokument nicht nachträglich ändern kann: die Unterschriften der anderen würden dann nicht mehr stimmen.

Das World Wide Web Consortium arbeitet auch an einem Standard für digitale Signaturen in XML. Die Entwicklung ist laut [xmlsig] noch im Gange, die Arbeitsgruppe plant, noch 1999 fertig zu werden. Danach wird es nicht lang dauern, bis Werkzeuge zur Integration der digitalen Signatur zur Verfügung stehen, weil diese Technologie für die Wirtschaft sehr wichtig ist (zum Beispiel für Online-Verträge im elektronischen Handel).

Solange der Standard noch nicht verabschiedet ist, kann mensch das kostenlos verfügbare Programm PGP (http://www.pgpi.com, heute de-facto-Standard) verwenden. Mit ihm wird das Dokument signiert und die Signatur in einer anderen Datei (zum Beispiel auf der Homepage der Autorin/des Autors) eingefügt14.

Es gibt bereits eine EU-Empfehlung für die gesetzliche Gleichstellung von digitalen und handschriftlichen Signaturen, also wird die Akzeptanz der Verschlüsselungs- und Signaturtechnologien in Zukunft noch wachsen.

Abschließende Bemerkungen

Es wäre mit heutiger oder bald verfügbarer Technologie möglich, Diplomarbeiten und Dissertationen im Internet zu veröffentlichen. Durch Verwendung der entsprechenden Technologie wären die Dokumente zu minimalen Kosten verfügbar und optimal zugänglich. Die Kosten der Veröffentlichung würden die beteiligten Bibliotheken schnell einsparen, weil der Großteil der Erfassungsarbeit automatisiert ablaufen kann und nicht mehr so viel Platz für die vielen Exemplare der Arbeiten reserviert werden muß. Auch die Kosten für den physischen Transfer der Dokumente würden entfallen.

Es bedarf einer internationalen Kooperation von erfahrenen BibliothekarInnen, um einen weltweiten Standard durchzusetzen. Die “early adopters” müßten zwar ihre Systeme geringfügig anpassen, aber neu hinzukommende Universitäten oder Bibliotheken könnten auf bestehende und erprobte Technologie zurückgreifen.

Die AutorInnen würden profitieren, weil sie statt bis zu 40 Pflichtexemplaren nur mehr einige wenige drucken lassen müßten; gleichzeitig wäre die Verbreitung ihrer Arbeit gewährleistet.

Die wissenschaftliche Gemeinschaft könnte den Anteil redundanter Forschung senken, weil identische Inhalte nicht mehr erforscht würden, nur weil niemand über sie Bescheid weiß. Statt dessen könnten die anderen Arbeiten als Ausgangsbasis für neue Forschung dienen.

Literatur

[ISO690-2]

International Organization for Standardization (ISO) Technical Committee (TC) 46, Subcommittee (SC) 9: Excerpts from ISO 690-2 Bibliographic references to electronic documents [online] updated 1999-02-02 [cited 1999-06-03]. HTML format.

Available from the World Wide Web:

<http://www.nlc-bnc.ca/iso/tc46sc9/standard/690-2e.htm>

[DissOnline]

Pädagogik und Informatik, Humboldt-Universität, Berlin: Homepage Dissertationen Online [online] updated 1999-05-31 [cited 1999-06-18]. HTML format.

Available from the World Wide Web:

<http://www.educat.hu-berlin.de/diss_online/index.html>

[DC]

Dublin Core Metadata Initiative: Dublin Core Element Set: Reference Description [online] updated 1997-10-02 [cited 1999-06-18]. HTML format.

Available from the World Wide Web:

<http://purl.oclc.org/dc/about/element_set.htm>

[xmlsig]

Internet Engineering Task Force & World Wide Web Consortium (Joseph Reagle Jr., editor): XML-DSig Requirements. W3C draft note.

[online]updated 1999-06-01 [cited 1999-06-23]. HTML format.

Available from the World Wide Web:

<http://www.w3.org/Signature/Drafts/xml-dsig-requirements-990601.html>

Endnoten

1 WWW: World Wide Web. Die beliebteste Art, Internet-Inhalte zu publizieren und abzurufen.

2 Newsgroup (Usenet News): Öffentlich zugängliche Diskussionsforen im Internet.

3 PDF: Portable Document Format der Firma Adobe. De-facto-Standard für elektronische Publikation

4 URI: Uniform Resource Identifier. Kurzer Text, der den Speicherort und die Zugriffsmethode auf ein Dokument beschreibt. Auch als URL: Uniform Resource Locator bekannt.

5 Server: Computer, der viele andere “bedient” (engl.: serve)

6 HTML: Hypertext Markup Language. Einfache maschinenlesbare Dokumentenbeschreibungssprache, die im heutigen World Wide Web praktisch ausschließlich verwendet wird

7 http://rs6000.univie.ac.at:9090/basisdbdocs/diss/diss_wel.htm

8 http://www.ndltd.org/

9 http://dissertation.com/

10 http://www.w3.org/

11 XML: Extensible Markup Language

12 Namensraum, Namespace: Verfahren zur eindeutigen Festlegung der Gültigkeit von Bearbeitungsbefehlen im Dokument. Es könnte zum Beispiel einen Namensraum “Book” und einen Namensraum “Author” geben. Book:Title bedeutet etwas anderes als Author:Title; die Namensräume erlauben z.B., eine Suche auf Book:Title einzuschränken. Das wäre ohne Namensräume nicht einfach: alle XML-Sprachdefinitionen müßten ständig miteinander verglichen werden, um Doppelzuordnungen auszuschließen.

13 Kryptographie (Verschlüsselung) mit öffentlichen Schlüsseln

14 Deswegen in eine andere Datei, weil die Signatur ein Henne-und-Ei-Problem darstellt: Wenn ich die Signatur im Dokument einfüge, ändert sich das Dokument und eine neue Signatur wird erforderlich. Wenn ich die neue Signatur einfüge, wird sie ungültig, weil das Dokument geändert ist usw. Der vorgeschlagene W3C-XML-Standard umgeht das Problem, weil das Verschlüsselungsprogramm weiß, wo die Signatur zu finden ist, und bezieht sie nicht in den Signatur- und Prüfprozeß ein.


© Balázs Bárány. (Homepage | datascientist.at)
Zuletzt geändert: 1999-12-10.