Wiktionary:Download

Aus Wiktionary, dem freien Wörterbuch
Wechseln zu: Navigation, Suche

Wiktionary kann nicht nur online gelesen werden, es besteht auch die Möglichkeit, sich die Wiktionary komplett auf den eigenen Rechner herunter zu laden, um offline darin zu lesen. Voraussetzung ist ein installiertes MediaWiki, die PHP-Software, die Wiktionary nutzt.

Das Ganze ist allerdings ziemlich kompliziert, also eher etwas für fortgeschrittene User.

Hier eine ausführliche Anleitung für Windows-Nutzer ohne jedes Vorwissen - vom blanken Desktop bis zum fertigen Wiktionary.


Download aller Seiten als XML-Dump[Bearbeiten]

Die gewünschte Datensätze herunterladen von

Hier wählt man den ersten Link "Database backup dumps", auf den nachfolgenden Seite dann "dewiktionary" und dann einen Dump nach Wahl. Zu empfehlen ist hier der "pages-articles.xml.bz2", weil der lediglich alle Seiten (ohne deren Änderungshistorie) enthält. Hier stehen jeweils englische Erklärungen dazu, was alles im Dump enthalten ist. Zum schnelleren importieren sollte man Dumps in Erwägung ziehen, welche die Endung ".xml.bz2" haben, weil diese einfach mit nachfolgendem Java-Paket eingespielt werden können.

Import in MySQL[Bearbeiten]

Der Import der XML-Daten kann entweder über das langsame PHP-Skript importDump.php der MediaWiki-Software erfolgen, oder über das etwas schneller arbeitende Java-Paket MWDumper [1]. Dieses benötigt eine funktionierende Java-Installation. Der Import erfolgt dann mit folgendem Befehl:

java -jar mwdumper.jar --format=sql:1.5 pages_meta_current.xml.bz2 | mysql -u <username> -p<password> <databasename>

Wichtig -p<password> (Kein Leerzeichen)

Es ist wichtig, dass die Datenbanktabellen bis auf site_stats, user, user_groups und interwiki vollständig leer sind (TRUNCATE TABLE...), da sonst der Import fehlschlagen kann. Sollte ein Fehler auftreten, wird MWDumper dennoch weiter fröhlich das XML in SQL konvertieren, aber der mySQL-Server importiert nicht mehr. In diesem Fall prüfen, ob wirklich alle Tabellen leer sind und von vorn beginnen.

Damit hat man die Artikelseiten in die Datenbank importiert und kann im Wiki lesen.

Capitalization ausschalten[Bearbeiten]

In der MediaWiki-Software werden standardmäßig alle Artikel-Anfangsbuchstaben groß geschrieben. Da sich das allerdings bsw. bei der Suche nach Verben oder Attributen nicht gut macht, muss man ganz am Ende der Datei "LocalSettings.php" im MediaWiki-Wurzel-Verzeichnis foldende Zeile einfügen:

$wgCapitalLinks = false;

Linktabellen bauen[Bearbeiten]

Für viele interessante Datenbankabfragen sind Informationen darüber notwendig, welcher Artikel auf welche anderen Ressourcen verlinkt. Die Selbsterstellung dieser Linktabellen ist allerdings ein zeitaufwändiger Prozess.

php maintenance/refreshLinks.php

In seiner gegenwärtigen Fassung ist dieses Skript ein riesiges Memory-Leak. Sobald der Rechner wegen Speichermangels auf die Auslagerungsdatei zurückgreifen muss, geht die ohnehin schon niedrige Performance des Skripts immer rascher gegen Null. Die Linktabelle sollte daher abschnittsweise erstellt werden, indem das Skript zwischendrin abgebrochen wird, man sich die letzte Position merkt und folgendermaßen wieder startet:

php maintenance/refreshLinks.php -- 228600

Auf diese Weise wird der unnötigerweise verbrauchte Speicher wieder freigegeben und die Erstellung der Linktabelle bei Artikel Nr. 228600 fortgesetzt.

Optional: Textindex
Wenn man Volltextsuchen durchführen möchte, muss ein Textindex erzeugt werden. Dies geschieht über

php maintenance/rebuildtextindex.php

Wiktionary selbst arbeitet übrigens nicht mit dieser relativ langsamen MySQL-basierten Suche, sondern verwendet Apache Lucene.

Optional: Recentchanges aktualisieren
Wenn man wissen möchte, bis zu welcher Uhrzeit der installierte Datenbank-Dump reicht, kann man kurz

php maintenance/rebuildrecentchanges.php

sagen, um die Seite "Letzte Änderungen" zu aktualisieren.

Optional: Artikelanzahl neu berechnen
Die Anzahl der im Wiki vorhandenen Artikel und einige andere Zahlen können mit initStats.php neu berechnet werden:

php maintenance/initStats.php

Download der Bilder[Bearbeiten]

Die in der deutschsprachigen Wiktionary hochgeladenen Dateien befinden sich unter http://dumps.wikimedia.org/images/wiktionary/de/ , die über commons eingebundenen Bilder unter http://dumps.wikimedia.org/images/special/commons/ . Die Dateien sind in einem tar-Archiv gepackt, die jeweils aktuelle bekommt man mit der Datei „upload.tar“. Der Dump der Bilder wird sehr unregelmäßig aktualisiert – aktueller Stand ist vom 26. November 2005. Die Datei ist erwartungsgemäß sehr groß (ca. 39,4 GB für de, ca. 290,3 GB für commons).

SQL-Abfragen auf der Wiktionary-Datenbank durchführen[Bearbeiten]

Anmerkung: Falls es nur darum geht, "so nebenbei" eine SQL-Abfrage durchzuführen, so konnte man es auch auf folgendem Server machen:

Leider wurde dieser Service nun eingestellt. Demnächst werden die Sources veröffentlicht.

Ein Wort zur Hardware[Bearbeiten]

Die Wiktionary-Datenbank stellt mittlerweile recht hohe Ansprüche an leistungsfähige Hardware. Zur besseren Einschätzung daher einige Erfahrungen aus der Praxis: Wenn man nur lesen möchte, genügt ein Rechner der 1-GHz-Klasse mit wenig RAM. Für anspruchsvollere Aufgaben wie Wartungsseiten, SQL-Abfragen, selbst gebaute Linktabellen oder den Import der old-Tabelle sollte man aber eine bessere Hardware zur Verfügung stellen: 1 GB RAM oder mehr und ein möglichst schneller Prozessor mit mehr als 3 GHz sind sehr sinnvoll, ebenso wie schnelle Festplatten (gerne auch als RAID). Die Tabellen sollten im MySQL-Server möglichst als InnoDB abgelegt sein, damit die Performance besser wird (allerdings auf Kosten des Speicherverbrauchs). Anmerkung von Benutzer:Echoray (Wikipedia): Diese Faustregel basiert noch auf Erfahrung mit der alten MediaWiki-Software 1.3 und MySQL 4.0. Mit MyISAM performten die Linktabellen einfach nicht. Ich habe den Verdacht, dass der Rückgriff auf den Filesystem-Cache des Betriebssystems einfach nicht so optimal ist wie der dedizierte Cache, den InnoDB bietet. Das kann mit neuerer Software inzwischen anders sein. Jemand könnte das mal benchmarken...

Download einzelner Seiten[Bearbeiten]

Unter Spezial:Export kann man sich einzelne oder mehrere Seiten in XML herunterladen.

Quellen[Bearbeiten]

Dieser Artikel basiert auf dem Artikel Wikipedia:Download aus der freien Enzyklopädie Wikipedia und steht unter der GNU Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.