Wiktionary:Download

Wiktionary kann nicht nur online gelesen werden, es besteht auch die Möglichkeit, sich die Wiktionary komplett auf den eigenen Rechner herunterzuladen, um offline darin zu lesen. Voraussetzung ist ein installiertes MediaWiki, die PHP-Software, die Wiktionary nutzt.

Das Ganze ist allerdings ziemlich kompliziert, also eher etwas für fortgeschrittene User.

Hier eine ausführliche Anleitung für Windows-Nutzer ohne jedes Vorwissen – vom blanken Desktop bis zum fertigen Wiktionary.

Download aller Seiten als XML-Dump

Die gewünschte Datensätze herunterladen von

https://dumps.wikimedia.org/

Hier wählt man den ersten Link "Database backup dumps", auf den nachfolgenden Seite dann "dewiktionary" und dann einen Dump nach Wahl. Zu empfehlen ist hier der "pages-articles.xml.bz2", weil der lediglich alle Seiten (ohne deren Änderungshistorie) enthält. Hier stehen jeweils englische Erklärungen dazu, was alles im Dump enthalten ist. Zum schnelleren importieren sollte man Dumps in Erwägung ziehen, welche die Endung ".xml.bz2" haben, weil diese einfach mit nachfolgendem Java-Paket eingespielt werden können.

Import in MySQL

Der Import der XML-Daten kann entweder über das langsame PHP-Skript importDump.php der MediaWiki-Software erfolgen oder über das etwas schneller arbeitende Java-Paket MWDumper [1]. Dieses benötigt eine funktionierende Java-Installation. Der Import erfolgt dann mit folgendem Befehl:

java -jar mwdumper.jar --format=sql:1.5 pages_meta_current.xml.bz2 | mysql -u <username> -p<password> <databasename>

Wichtig -p<password> (Kein Leerzeichen)

Es ist wichtig, dass die Datenbanktabellen bis auf site_stats, user, user_groups und interwiki vollständig leer sind (TRUNCATE TABLE...), da sonst der Import fehlschlagen kann. Sollte ein Fehler auftreten, wird MWDumper dennoch weiter fröhlich das XML in SQL konvertieren, aber der mySQL-Server importiert nicht mehr. In diesem Fall prüfen, ob wirklich alle Tabellen leer sind, und von vorn beginnen.

Damit hat man die Artikelseiten in die Datenbank importiert und kann im Wiki lesen.

Capitalization ausschalten

In der MediaWiki-Software werden standardmäßig alle Artikel-Anfangsbuchstaben großgeschrieben. Da sich das allerdings bsw. bei der Suche nach Verben oder Attributen nicht gut macht, muss man ganz am Ende der Datei "LocalSettings.php" im MediaWiki-Wurzel-Verzeichnis foldende Zeile einfügen:

$wgCapitalLinks = false;

Linktabellen bauen

Für viele interessante Datenbankabfragen sind Informationen darüber notwendig, welcher Artikel auf welche anderen Ressourcen verlinkt. Die Selbsterstellung dieser Linktabellen ist allerdings ein zeitaufwändiger Prozess.

php maintenance/refreshLinks.php

In seiner gegenwärtigen Fassung ist dieses Skript ein riesiges Memory-Leak. Sobald der Rechner wegen Speichermangels auf die Auslagerungsdatei zurückgreifen muss, geht die ohnehin schon niedrige Performance des Skripts immer rascher gegen Null. Die Linktabelle sollte daher abschnittsweise erstellt werden, indem das Skript zwischendrin abgebrochen wird, man sich die letzte Position merkt und folgendermaßen wieder startet:

php maintenance/refreshLinks.php -- 228600

Auf diese Weise wird der unnötigerweise verbrauchte Speicher wieder freigegeben und die Erstellung der Linktabelle bei Artikel Nr. 228600 fortgesetzt.

Optional: Textindex
Wenn man Volltextsuchen durchführen möchte, muss ein Textindex erzeugt werden. Dies geschieht über

php maintenance/rebuildtextindex.php

Wiktionary selbst arbeitet übrigens nicht mit dieser relativ langsamen MySQL-basierten Suche, sondern verwendet Apache Lucene.

Optional: Recentchanges aktualisieren
Wenn man wissen möchte, bis zu welcher Uhrzeit der installierte Datenbank-Dump reicht, kann man kurz

php maintenance/rebuildrecentchanges.php

sagen, um die Seite "Letzte Änderungen" zu aktualisieren.

Optional: Artikelanzahl neu berechnen
Die Anzahl der im Wiki vorhandenen Artikel und einige andere Zahlen können mit initStats.php neu berechnet werden:

php maintenance/initStats.php

Download der Bilder

Die in der deutschsprachigen Wiktionary hochgeladenen Dateien befinden sich unter http://dumps.wikimedia.org/images/wiktionary/de/ , die über commons eingebundenen Bilder unter http://dumps.wikimedia.org/images/special/commons/ . Die Dateien sind in einem tar-Archiv gepackt, die jeweils aktuelle bekommt man mit der Datei „upload.tar“. Der Dump der Bilder wird sehr unregelmäßig aktualisiert – aktueller Stand ist vom 26. November 2005. Die Datei ist erwartungsgemäß sehr groß (ca. 39,4 GB für de, ca. 290,3 GB für commons).

SQL-Abfragen auf der Wiktionary-Datenbank durchführen

Anmerkung: Falls es nur darum geht, „so nebenbei“ eine SQL-Abfrage durchzuführen, so konnte man es auch auf folgendem Server machen:

wikisign.org Datenbankabfragen

Leider wurde dieser Service nun eingestellt. Demnächst werden die Sources veröffentlicht.

Ein Wort zur Hardware

Die Wiktionary-Datenbank stellt mittlerweile recht hohe Ansprüche an leistungsfähige Hardware. Zur besseren Einschätzung daher einige Erfahrungen aus der Praxis: Wenn man nur lesen möchte, genügt ein Rechner der 1-GHz-Klasse mit wenig RAM. Für anspruchsvollere Aufgaben wie Wartungsseiten, SQL-Abfragen, selbst gebaute Linktabellen oder den Import der old-Tabelle sollte man aber eine bessere Hardware zur Verfügung stellen: 1 GB RAM oder mehr und ein möglichst schneller Prozessor mit mehr als 3 GHz sind sehr sinnvoll, ebenso wie schnelle Festplatten (gerne auch als RAID). Die Tabellen sollten im MySQL-Server möglichst als InnoDB abgelegt sein, damit die Performance besser wird (allerdings auf Kosten des Speicherverbrauchs). Anmerkung von Benutzer:Echoray (Wikipedia): Diese Faustregel basiert noch auf Erfahrung mit der alten MediaWiki-Software 1.3 und MySQL 4.0. Mit MyISAM performten die Linktabellen einfach nicht. Ich habe den Verdacht, dass der Rückgriff auf den Filesystem-Cache des Betriebssystems einfach nicht so optimal ist wie der dedizierte Cache, den InnoDB bietet. Das kann mit neuerer Software inzwischen anders sein. Jemand könnte das mal benchmarken...

Download einzelner Seiten

Unter Spezial:Export kann man sich einzelne oder mehrere Seiten in XML herunterladen.

Wiktionary in RDF

Dbnary extrahiert Daten aus Wiktionary und stellt sie als Download im RDF-Format^[1] zur Verfügung. Außer Deutsch sind viele weitere Sprachen verfügbar. Dbnary ist auch direkt online nutzbar mit der Abfragesprache SPARQL. SPARQL ist bewusst an SQL angelehnt und einigermaßen leicht zu lernen.

Um lokal mit den Daten zu arbeiten, empfiehlt sich der Import in ein RDF-Repository (auch Tripelstore genannt); Abfragen auch hier mit SPARQL. Dafür kann man Ontotext GraphDB Free Edition und Vocbench 3 verwenden, ein browserbasiertes Tool für die Verwaltung von Wörterbüchern, (SKOS/SKOS-XL)-Thesauri, OWL-Ontologien und generischen RDF-Daten. In VocBench kann man interaktiv mit den Daten arbeiten (suchen, ansehen, editieren, Reports erstellen und ausgeben). Hardwareempfelung: Minimum 8 GB (besser 16 GB) Ram und schnelle Festplatte/SSD >= 512 GB.

Quellen

Diese Seite basiert auf dem Artikel Wikipedia:Download aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.

↑ Näheres zu RDF in Wikipedia, Stichwort "Ressource Description Framework"

[1] Näheres zu RDF in Wikipedia, Stichwort "Ressource Description Framework"

[1]