Date: prev next · Thread: first prev next last
2019 Archives by date, by thread · List index


Hallo!

Generell ist der Ansatz zum Wörterbuch und txt-Quelldatei schon richtig.
Letztlich ist es "nur" eine Frage des sortierens von Chars, also
Characters. Aber würde ich zu diesem Zweck kein LO verwenden, sondern
ein Programmierprogramm C/C++, Perl ... oder einen sehr guten Editor mit
Macro-Funktion wie UltraEdit. Zudem ist OCR das Problem, da es 1. die
gelesenen Zeichen interpretiert ehe sie ausgegeben werden und 2. in OCR
sämtlich Daten wie Formatierungen hinterlegt werden. Somit scheidet ein
txt aus, da die Formatierungen verloren gehen. Es gleibt also sehr viel
Handarbeit übrig.

Generell kann man sich die Sortierung mittels Schleifen vereinfachen,
wenn man sich folgendes vor Augen führt:
a) die kürzesten Worte haben 2 oder 3 Buchstaben in am auf der die das.....
b) wenn man nach dem vorherigen Chr sucht erleichtert sich die Suche
ungemein.
Letztlich sind es Schleifen:
1. Durchlauf: suche nach mehreren Leerzeichen hintereinander und löschen
bis auf ein Leerzeichen
2. Druchlauf: suche nach Leerzeichen mit nachfolgendem Buchstaben so
lange bis Buchstabe Buchstabe erkannt wird

3. Durchlauf: Suche nach voran gestellten Leerzeichen, prüfen ob
mindestens 2 vorangestellte Zeichen, oder mehr, vohanden sind oder ob
ein Zeichen mit vorangestelltem Leerzeichen erkannt wird.

Man erhält einen sehr guten zusammenhängend lesbaren Text mit wenig
manueller Editierung. Aber die Formatierung geht vollständig verloren
und muss manuell wiederhergestellt werden. Letztlich wäre eine sehr gute
Sekretärin im Abtippen schneller.

Erinnert irgendwie an 3 Schritte vor und zwei zurück.

Grüsse


Am 04.07.2019 um 20:50 schrieb Hessler, Klaus-Michael:
Hallo Martin,
ich kopiere mal einen Absatz

"Die Versammlung setzte u. a. den K reisetat fest, nahm den B ericht
ü b e r den
G runderw erb der Eisenbahn sowie die B ekäm pfung des V iehw uchers
entgegen
und beschäftigte sich (vertagend) m it der F rage der Beschaffung d
er durch die
neue K reisordnung nötigen D iensträum e."
Ich schmeiße mal die Idee eines Parser-Makros mit Wörterbuch-Abgleich
in den Raum:

 * Du hast eine TXT-Datei (ohne Formatierungszeichen etc.) des Buches.
 * Du hast ein Wörterbuch als durchsuchbare Datei.
 * Das Parser <https://de.wikipedia.org/wiki/Parser>-Makro liest aus
   der TXT-Datei ein einzelnes Zeichen und schreibt die Ausgabe wie
   folgt in eine Ergebnis.txt:
     o Ist es ein Satzzeichen: --> ausgeben wie gelesen, ggf. noch
       nachfolgendes Leerzeichen anhängen.
     o Ist es eine Ziffer: --> ausgeben wie gelesen, das kann
       wahrscheinlich nicht automatisch korrigiert werden.
     o Ist es ein Buchstabe: --> in Variable speichern, nicht ausgeben.
         + Weitere Zeichen einlesen und  - wenn es kein Leerzeichen ist
           -  an die Variable anhängen. Ist es ein Leerzeichen, den
           Text der Variable im Wörterbuch suchen.
             # Wenn vorhanden: --> ausgeben in Ergebnis.txt [aus K
               reisetat wird Kreisetat].
             # Wenn nicht im Wörterbuch, Leerzeichen ignorieren,
               nächstes Zeichen lesen.
                 * Ist es ein Buchstabe, diesen an die Variable
                   anhängen. [aus ü b e r wird über] aus [G runderw erb
                   wird Grunderwerb.
                 * Ist es eine Ziffer oder ein Satzzeichen, das Wort
                   aus Variable trotz negativem Wörterbuch-Ergebnis
                   schreiben.
                 * Weiter beim übergeordneten _Wenn_. Die Anzahl wird
                   man begrenzen müssen, falls mehrere Begriffe mit
                   Blocksatz-Leerzeichen nacheinander nicht im
                   Wörterbuch sein sollten.

Ich hoffe, die Idee ist damit nachvollziehbar. Der letzte Link ganz
unten auf der Wikipedia-Seite
<http://www.cis.uni-muenchen.de/~leiss/parsing-06-07/parsingfolien.ps>
beschreibt das noch "wissenschaftlich".

Die Programmierung ist durch die notwendigen Fallunterscheidungen mit
einigem Aufwand verbunden; ob sich das lohnt, ist sicher vom Umfang
des Buches abhängig. Andererseits könnte es so etwas auch schon geben,
da ich auch schon solche Typoskripte mit "manuellem Blocksatz" gesehen
habe (Nachfrage in München?).

Gruß Michael



--
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.