Eine gute Nachricht zur Analyse der plattdeutschen Wikipedia. Da gibt es
ein Skript WikiExtractor.py, mit dem man aus dem Datenbankdump den
Plaintext rausziehen kann. Das habe ich jetzt vorliegen. Den werde ich dann
so wie ich das bei KDE gemacht habe, wortweise zerlegen und durchzählen.
Eine Rohversion davon habe ich schon. Das sollte dann auch in einigen Tagen
vorliegen.
Da bleibt dann aber eine Menge Handarbeit über, um nachzuschauen, was in
die Wortliste reinsoll, und was nur Eigennamen oder gar fremdsprachliche
Wörter sind, die nicht aufgenommen werden sollen. Mal schauen, das kann ich
noch nicht so recht absehen.
Hartlich Gröten,
Heiko
--
Liste abmelden mit E-Mail an: nds+unsubscribe@de.libreoffice.org
Probleme? http://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: http://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: http://listarchives.libreoffice.org/de/nds/
Alle E-Mails an diese Liste werden unlöschbar öffentlich archiviert
Context
- [de-nds] Wikipedia · Heiko Evermann
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.