Date: prev next · Thread: first prev next last


Moin an alle,

Die Wikipedia-Liste habe ich mir angesehen.
Es sind tatsächlich viele Namen, hochdeutsche Wörter, Abkürzungen usw. vorhanden.
Es sind auch viele plattdeutsche Wörter enthalten, die zwar identisch sein sollen, aber sehr 
verschieden geschrieben worden sind.

Außerdem gibt es viele Konjugationen und auch Zusammensetzungen, womit wir wieder bei den 
"compounds" wären.

Ich habe die Liste mal in EXCEL übernommen, weil man dort viel sortieren und bearbeiten kann.
Dann habe ich folgende Einträge gelöscht:
1. doppelte Einträge
    das waren meistens Unterschiede in Gross- und Kleinbuchstaben
2. Einträge, die in der jetzigen dic-Datei von Heiko schon enthalten sind
    Das sind die, die nach Heikos Aussage (s.u.) also als "nicht falsch gewertet" werden.
3. Einträge mit "ausländischen" Buchstaben (wie z.B. é, è, Ø, å)
    die gibt es m. E. allesamt nicht in plattdeutsch
4. Alle Einträge mit nur einem Buchstaben
5. Alle Einträge mit nur zwei Buchstaben
    das waren Wörter wie "an", "im" usw. und damit schon vorhanden
    oder es waren Abkürzungen.
    Alles in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht.
6. Nach alphabetischer Sortierung alle Wörter, die sich zu dem davor stehenden Wort
    in angehängtem -n, -en  oder -s unterscheiden.
    Das ist also jeweils der Plural von dem davor stehen Wort.
    Auch in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht.
7. Alle Einträge mit der Endung -ung(en).
    die gibt es m. E. auch nicht in plattdeutsch.
    Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht.
8. Alle Einträge, bei denen am Wortanfang eines der von Heiko definierten Präfixe in der aff.Datei 
stehen.
    Diese Wörter werden ja in der späteren Anwendung automatisch zur Prüfung verwendet.
    Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge gelöscht.
Ich bin mit den Präfixen noch nicht ganz fertig, aber jetzt hat die Liste ca. 30.000 Einträge (also 
schon 8.000 weniger)

Als nächstes wären folgende Schritte möglich:
a. Hochdeutsche und ausländische Ortsnamen markieren und löschen
    Eventuell für spätere Verwendung speichern.
b. Plattdeutsche Ortsnamen markieren und verwenden.
c. Abkürzungen markieren und löschen
    Eventuell für spätere Verwendung speichern.
d. Konjugierte Wörter markieren und löschen
e. Alle Einträge, die weniger als 10 mal vorkommen löschen
    Dann würden weitere ca. 16.000 Positionen erstmal entfallen
   und wir wären etwa bei den angestrebten 20.000 Wörtern
    Eventuell für spätere Verwendung speichern.
f. und dann natürlich die Affixe dazu erarbeiten !!!

Dies alles geht natürlich nur mit Hilfe der Hilfswilligen :-)

Was ist Eure Ansicht dazu?
Beste Grüße
Jörn



-- 
Liste abmelden mit E-Mail an: nds+unsubscribe@de.libreoffice.org
Probleme? http://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: http://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: http://listarchives.libreoffice.org/de/nds/
Alle E-Mails an diese Liste werden unlöschbar öffentlich archiviert

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.