Interessen
- C++, Perl, PHP
- XML und Verwandte (XSLT, XQuery, XPath, SVG)
- METS, MODS, TEI
- Web-Services im Bibliotheksumfeld
- LaTeX
- Linux
- Apache, Postfix, Squid
- Objektorientierung
- Entwurfsmuster
Projekte
seit 2006
Digitalisierungsprojekt "Werke Friedrichs des Großen - Digitale Ausgabe der Universitätsbibliothek Trier"
Eingesetzte Technologien: XML, XQuery, XSLT, XML-DB, METS, TEI, PHP, Perl, C++, Swish-e, Linux, Apache, XHTML, CSS, JavaScript, Subversion
Die Realisierung eines Digitalisierungsprojektes ist grundsätzlich nicht
kompliziert, kann aber komplex werden. Bei den Werken Friedrichs des
Großen bestand die Komplexität darin, dass sich neben den 30
"Hauptbänden" weitere Werke ansiedeln. So etwa diverse Übersetzungen,
die Beschreibung der enthaltenen Abbildungen, bibliographische
Anmerkungen oder aber auch eine Biographie Friedrichs. Da an der UB
Trier die Digitalisierung noch nicht einheitlich mit Hilfe eines
Werkzeuges geregelt wird, war hier einiges in Sachen Qualitätsmanagement
im Team zu organiseren und durchzusetzen. Daneben lagen
Meta-Informationen in vielen verschiedenen Formaten und
Erscheinungsweisen vor, so dass hier vieles gebündelt und
vereinheitlicht werden musste.
Das Projekt basiert nur auf XML-Technologien. Die Metadaten liegen im
METS-Format vor, die Texte im TEI-Format. Beides wird mit einer
XML-Datenbank (Oracle Berkeley DB XML) verwaltet. Die Abfrage der Daten
erfolgt mit XQuery. Um eine Trennung zwischen Daten und Präsentation zu
erreichen, wurde eine eigene XML-Zwischenschicht geschaffen, in der die
Informationen ausgabeneutral vorliegen. Dieses Zwischenprodukt wird dann
mittels XSLT in das Zielformat gewandelt. Im Moment ist dies XHTML.
Auch die Volltextsuche basiert auf den XML-Daten. Aus ihnen werden, je
nach Art der Suche, diverse kleine Textdateien generiert, die dann von
dem hier verwendent Volltextsuchsystem Swish-e indiziert werden.
Neben dem reinen XML-Paradigma verfolgt das Projekt das Ziel, die
Digitalisate und Metainformationen über eine einfach gehaltene
Web-Oberfläche anzubieten. Alle dynamisch generierten Seiten sind
konform zum XHTML-Standard. Desweiteren wurde von Anfang an die
resultierenden URLs für den Zugriff auf die Objekte mit in den
Entwurfsprozess einbezogen. So können kurze, sprechende und intuitive
URLs angeboten werden, die auch zwischen dem eigentlichen Objekt und der
aktuellen Ansicht trennen. Als Beispiel soll die Seite 23 auf dem Band
17 der Werke Friedrichs des Großen dienen.
Ansicht
Bild
Ansicht
Text
Ansicht
Text in der XML-Zwischenschicht
Ansicht Bild
unter Ausnutzung von Standardeinstellungen
Das Design der URL wird nur dann wichtig, wenn man über das
Benutzungsszenario "Menschlicher Benutzer klickt sich durch das Angebot"
hinausgeht. Gemeint ist damit zum einen der "Poweruser", der mit Hilfe
der URLs potentiell schneller an sein Ziel kommen kann und zum anderen
der Bereich der Web-Services und Mash-Ups. So könnte ein anderes Projekt
die Daten vom Projektserver anfordern und etwas anderes daraus
machen. Gerade wegen der ausgabeneutralen XML-Zwischeschicht und der
einfachen URLs wird dies stark vereinfacht.
Projektseite
Vorläufige noch nicht
vollständige Dokumentation zu den technischen Hintergründen des
Projektes
2003 - 2006
Internetauftritt der Firma Optische und elektronische Geräte Jülich
Eingesetzte Technologien: Linux, Apache, MySQL, PHP, HTML, CSS, JavaScript, Subversion
Der Internetaufftritt ist von der Technik her ein klassisches LAMP-Projekt. Das Design orientiert sich an angesprochenen Zielgruppe und ist deswegen solides bis schlicht. Die gesamte Site funktioniert voll dynamisch mit praktisch einem PHP-Skript. Diese Tatsache wird aber durch ein geschicktes URL-Design "versteckt". Die URL bezeichnet hier keinen Speicherort einer Datei, sondern Parameter für die Web-Applikation (Stichwort PATH_INFO). Nicht nur Google honoriert dieses Vorgehen, wie diese Abfrage beweist (im Moment ist das Projekt auf Platz 8 gelistet). Da der Hoster dieser Site PHP nur in der Version 4 anbietet, konnte nicht auf PHP5 zurückgegriffen werden.
Projektseite
Auszug aus dem Quelltext
ER-Modelle der
MySQL-Datenbank
2002
Parsen, Speichern, Finden, Aktualisieren: PSFA. Ein Indizierungssystem für XML-Dateien.
Eingesetzte Technologien: C++, XML, SAX2, MySQL, Linux
Das Ziel dieser (Haupt)Seminararbeit der Informationsverarbeitung bei Prof. Thaller war es, in potetiell großen Datenmengen von XML-Dateien bestimmte Inhalte von Register-Tags zu indizieren. Zur Verarbeitung der XML-Dateien wurde SAX2 verwendet, die Speicherung der indizierten Daten erfolgte in MySQL.
2002
System für flexible XML-Verarbeitung (SfleX)
Eingesetzte Technologien: C++, XML, XSLT, LaTeX, Linux
Das erste meiner Projekte, das mit URLs eine dynamische Web-Applikation steuert (mittels PATH_INFO). Ebenfalls eine Seminararbeit bei Herrn Prof. Thaller. Ziel war es, eine XML-Datei dynamisch mit einer XSLT-Datei zu verbinden, um so verschiedene Ausgaben eines Textes zu ermöglichen.
2000
Digitale Edition der Speyrer Diplome Heinrichs IV.
Eingesetzte Technologien: XML, Perl, HTML, CSS, Linux
Erste Machbarkeits-Studie einer Digitalen Edition in den Anfängen von XML. Aus mehreren XML-Dateien werden (statische) HTML-Dateien generiert.
1996
Digitale Edition einer Gerichtsakte aus Kerpen
Eingesetzte Technologien: HTML, CSS, LaTeX, Linux
Als erstes Projekt wurde eine Digitale Edition erstellt. Da es XML noch nicht gab, wurde hier LaTex eingesetzt, um aus dem Editionstext die HTML-Ausgabe zu generieren. Von der Optik eher archaisch.
Kontakt
Sie erreichen mich unter der Adresse bernhard.assmann@tuxomania.net