Wiktionary Diskussion:GNU-Lizenz für freie Dokumente

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
Aus Wiktionary, dem freien Wörterbuch

Hallo,

sehe gerade das startende Wiktionary. Feine Sache. Wenn Interesse besteht, könnte ich als Grundstock ca. 900000 deutsche Wörter, 65000 Substantive mit Artikel und Mehrzahl, 440000 Antonyme und 4.2 Mil. Synonyme.

Ich hab' aber keine Lust mit mich 48732 Stunden an's Keyboard zu hängen und die einzutippen. Gibt's hier einen Ansprechpartner, wie man das bei Interesse am einfachsten reinkriegt ?

Hallo Dalai Lama,
Das ist natürlich ein erfreuliches Angebot. Allerdings muss erst geklärt werden, ob wir diese Daten im Rahmen der GNU-FDL verwenden dürfen, da die Zusammenstellung solch einer Datenbank urheberrechtlich geschützt sein kann. Wenn das in Ordnung ist, werden wir Dein Angebot selbstverständlich gerne annehmen und einen Weg finden, die Daten direkt in die Wiktionary-Datenbank einzulesen.
Es wäre schön, wenn Du zu der Herkunft und/oder den Rechten der Daten etwas sagen könntest.
Viele Grüße -- Schnargel 23:48, 2. Mai 2004 (UTC)
Hallo Schnargel,
stimmt natürlich. Also die Wörter habe ich mit einem selbstgebauten Spider aus dem Web gelutsch. Einfach irgend 'ne Startseite nehmen, alle Links inne Datenbank, und dann den vom HTML befreiten Text in Wörter umgebrochen und diese dann in eine Datenbank gespeichert. Dabei hab' ich die Wörter dann schon mla gezählt. Anschließend (VIELE Wochen später, und Flatrate sei Dank), bin ich dann mit nem weiteren Script über die einzelnen Wörter gerutsch, und hab immer 10 an Altavista geschickt, und auf der empfangenen Seite mir die Worthäufigkeiten in altavista zu dem Wort mitgespeichert (nochmal Flatrate sei dank). Anschließend anhand der beiden Zähler den Worter-Müll weggeschmissen.
Die Substantive habe ich dann händisch daraus generiert. Einfach 'ne Abfrage mit Wörten, die auf *ung, *heit und *keit enden, und wirklich alles händisch durchgelesen. Die Substantive sind also persönlich von mir handgeneriert.
Die Antonyme und Synonyme könnten kritisch werden. Dazu hab' ich mir einfach ein Script geschrieben, welches den Word-Thesaurus nach einem Wort abfragt, alle Antonyme und Synonyme merkt und zu dem Wort halt in eine Datenbank schreibt.
Das ganze geht (bis jetzt) mit jeder in Word installierten Sprache, also Französich, Englisch, Schweiz, Österreich. Mit nem Multilanguage-PAck sollte man so alle Sprachen rauskitzeln können.
Nun müsst Ihr mal darüber diskutieren, was man reinsetzen darf, und was nicht. Ich meine, daß ich bei der Wort- und Substantiv-Suche keinerlei Copyrights verletzt habe. Ich habe zwar auf der einen Seite Altavista angezapft, aber auf der anderen Seite einen eigenen Zähler verwendet. Größenordnungsmäßig stehen da natürlich bei Altavista größere Zahlen, da ich selber aber auch viele wochen lang beliebige Seiten abgegrast habe, sind das halt nur Unterschide in der Größenordnung, der Verlauf ist einigermaßen gleich.
Bei den Antonymen und Synonymen bin ich mir nicht sicher. Für mich stellt sich da die Frage: Wem gehört die Definition zu "Stuhl"? Das steht sicherlich im Duden drinn, und der dudenverlag hat sicherlich ein Copyright an dem Machwerk Duden. Hat er aber auch ein Copyright auf der Definition, die ja irgendwo und irgendwie doch Allgemeingut und -wissen ist?


mfg - Dalai-Lama


Hallo Dalai Lama,
Das ist ja eine beeindruckende Arbeit, die Du dir da gemacht hast (und eine großartige Idee). Ich denke, dass wir da keine Probleme kriegen, mit den nicht-*nymen auf jeden Fall nicht. Es könnte nur sein, dass wir die Worte die Warenzeichen sind kennzeichnen müssen. Auf jeden Fall sind wir an Deinen Daten sehr interessiert. Im Moment sind wir allerdings noch mit ein paar grundlegenden Sachen beschäftigt, wie die einzelnen Artikel aussehen sollen und so. Also wird es noch ein paar Tage dauern.
Wenn Du nicht immer hier nachschauen möchtest, kannst Du gerne sagen, wie wir Dich erreichen können, oder, wenn Du Lust hast, kannst Du Dich auch gerne mit uns auf IRC unterhalten: Server irc.freenode.net, Channel #de.wiktionary Server irc.libera.chat, Channel #wiktionary-de (nähere Informationen wie man dahin kommt sind auf Wikipedia zu finden). Ansonsten bleiben wir auch hier in Kontakt.
Die Daten können wohl, in eine geeignete Form gebracht, einfach in MySQL eingelesen werden. Das kann allerdings im Moment keiner hier machen, dazu haben nur einige wenige Leute Berechtigung. Das ist kein Problem die zu überreden, man muss vorher allerdings das Format abstimmen. Wegen der Antonyme und Synonyme müssen wir uns auch nochmal schlau machen. Es wäre ja dumm, sich die Arbeit des Einlesens zweimal zu machen, wenn man später feststellt es wäre doch gegangen.
Vielen Dank nochmal, auch im Namen der anderen, und es wäre schön, wenn Du was von Dir hören läßt. Viele Grüße -- Schnargel 03:02, 4. Mai 2004 (CEST)

Fragen und Anmerkungen[Bearbeiten]

Ich habe einige Anmerkungen und Fragen:

  • Wenn die Information zu den Synonymen und Antonymen aus nicht freien Quellen stammt, kann man sie hier nicht verwenden.
  • Unter den 65000 Substantiven sind nur solche, die auf -ung, -heit oder -keit enden?
  • Sind unter den 900000 deutschen Wörtern auch flektierte Formen?
  • Hast du auch fremdsprachige Wörter?
  • Wenn ich es richtig verstanden habe, gibt es zu den 900000 Wörtern keine weiteren Informationen (mit Ausnahme der 65000 Substantive). Dann kann man daraus auch keine entsprechenden Artikel anlegen. Auch die paar Informationen zu den Substantiven wären zu wenig.
  • Man könnte aber eine Wortliste ähnlich der Ding-Liste in der Wikipedia generieren.
  • Da in der Wortliste wahrscheinlich flektierte Formen enthalten sind, müssten wir uns einigen, ob wir von allen flektierten Formen Redirects anlegen. Ich wäre dafür.
  • Hast du noch die Adressen der Texte oder Texte selbst, die du als Textgrundlage verwendet hast?
  • Ich würde gerne einmal sehen, welche Wörter in der Liste vorkommen und mit meinen Wörterbüchern vergleichen. Könntest du dazu entweder die komplette Wortliste (nur die 900000 Wörter) komprimiert hochladen oder eine Seite anlegen, auf der du erstens 100 Wörter beginnend ab einer beliebigen Stelle, sagen wir mal "Do", und zweitens 100 völlig zufällige (also nicht von dir von Hand ausgewählte) Wörter aufschreibst?--El 10:53, 4. Mai 2004 (CEST)
Hallo Schnargel, Hallo El,
bevor ich jetzt hier langatmig werde, was ich so schon gemacht hab' schickt mir doch mal eure eMails an d.luetje at t-online.de
mfg - Dalai-Lama
Hei! unter http://mail.wikipedia.org/mailman/listinfo/wiktionaryde-l gibts ne Mailingliste ... wollt ihr das nicht da diskutieren? --Jochen Deibele 01:07, 5. Mai 2004 (CEST)

Weiternutzung der Inhalte[Bearbeiten]

Hallo, ich habe eine simplere Frage, bin mir nicht sicher, ob die hier hin gehört aber ich denke mir, dass sie hier am kompetentesten beantwortet wird:

Ich plane, die Wiktionary auch offline zu verbreiten. Dies soll mithilfe eines Programmes geschehen, welches dann die herunterladbare Datenbank der Wiktionary verwenden wird.

Verpflichten mich die GFDL nun dazu, auch den Programmcode unter die GFDL zu stellen? Ich würde nämlich ganz gerne das copyright an meinen Programmen behalten können (also den Programmcode nicht veröffentlichen müssen und deren Verbreitung selber regeln dürfen).

Gruß,

druesbe


Hallo druesbe!
Also erstmal ist die Seite hier etwas veraltet, weil die Inhalte nun auch unter cc-by-sa stehen. Viele unserer Meta-Seiten sind leider noch überarbeitungswürdig.
Die Inhalte müssen unter der gleichen Lizenz und unter bestimmten Bedingungen weitergegeben werden. Für die Details solltest Du unter http://wikimediafoundation.org/wiki/Nutzungsbedingungen schauen. Dein Programmcode ist davon unabhängig. Es muss eben bei Deinem Programm nur ersichtlich sein, wo die Inhalte herkommen und unter welcher Lizenz sie stehen.
Gruß --Crux (Diskussion) 12:11, 28. Aug. 2010 (MESZ)[Beantworten]