Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen

Thomas Krumbein <Thomas.Krumbein -AT- documentfoundation.org>
Thu, 4 Jul 2019 22:09:43 +0200

Hallo Michael,

ein sinnvoller Algorithmus eines jeden Programmes (und somit auch einesMakros) muss eine möglichst niedrige Fehlerquote aufweisen - in derRegel weit unter 1 %! Nur dann macht er Sinn und der Programmieraufwandwürde sich lohnen.

Das Problem ist bei OCR Software so alt wie die Mustererkennung selbst -und ein OCR Programm, dass nur 95% korrekt liest ist an sich schon"Schrott". Der Nacharbeitungsaufwand ist einfach zu hoch.

Dein Flussdiagramm geht vom vorhandenen Textteilen aus und findet eine(möglichst) optimale Lösung... das reicht aber nicht!


Nimm den folgenden Satz und lass Deinen Flow drüberlaufen:

" Nach dem H und dem I folgt ein J."

Daraus würde mit Deiner Logik werden:

"nach dem Hund und dem I folgt ein J." - Diesen nun eingebauten Fehlerspäter manuell zu finden ist quasi unmöglich. Das Programm wäre alsonutzlos. Je mehr Du aber den Algorithmus verfeinerst undverkomplizierst, um so mehr Ausnahmen werden Dir auffallen. Der Aufwandwäre viel höher, als die manuelle Korrektur. Falls Dir die perfekteLösung einfällt, kannst Du Dich bei allen OCR-Herstellern bewerben - dienehmen Dich dann mit Kusshand:)

Der richtige Ansatz war in der Diskussion schon angesprochen worden: DieOCR Software. Die muss entweder besser trainiert werden oder sie istungeeignet. Das nachträglich zu korrigieren per Software ist m.A. Unsinn.

Findet sich dort keine Lösung, bleibt eigentlich nur die manuelleKorrektur wie schon öfter beschrieben.


VG

Thomas


Am 04.07.2019 um 20:50 schrieb Hessler, Klaus-Michael:

Hallo Martin,

ich kopiere mal einen Absatz
"Die Versammlung setzte u. a. den K reisetat fest, nahm den B erichtü b e r denG runderw erb der Eisenbahn sowie die B ekäm pfung des V iehw uchersentgegenund beschäftigte sich (vertagend) m it der F rage der Beschaffung der durch die
neue K reisordnung nötigen D iensträum e."

Ich schmeiße mal die Idee eines Parser-Makros mit Wörterbuch-Abgleichin den Raum:

* Du hast eine TXT-Datei (ohne Formatierungszeichen etc.) des Buches.
* Du hast ein Wörterbuch als durchsuchbare Datei.
* Das Parser <https://de.wikipedia.org/wiki/Parser>-Makro liest aus
der TXT-Datei ein einzelnes Zeichen und schreibt die Ausgabe wie
folgt in eine Ergebnis.txt:
o Ist es ein Satzzeichen: --> ausgeben wie gelesen, ggf. noch
nachfolgendes Leerzeichen anhängen.
o Ist es eine Ziffer: --> ausgeben wie gelesen, das kann
wahrscheinlich nicht automatisch korrigiert werden.
o Ist es ein Buchstabe: --> in Variable speichern, nicht ausgeben.
+ Weitere Zeichen einlesen und - wenn es kein Leerzeichen ist
- an die Variable anhängen. Ist es ein Leerzeichen, den
Text der Variable im Wörterbuch suchen.
# Wenn vorhanden: --> ausgeben in Ergebnis.txt [aus K
reisetat wird Kreisetat].
# Wenn nicht im Wörterbuch, Leerzeichen ignorieren,
nächstes Zeichen lesen.
* Ist es ein Buchstabe, diesen an die Variable
anhängen. [aus ü b e r wird über] aus [G runderw erb
wird Grunderwerb.
* Ist es eine Ziffer oder ein Satzzeichen, das Wort
aus Variable trotz negativem Wörterbuch-Ergebnis
schreiben.
* Weiter beim übergeordneten _Wenn_. Die Anzahl wird
man begrenzen müssen, falls mehrere Begriffe mit
Blocksatz-Leerzeichen nacheinander nicht im
Wörterbuch sein sollten.

Ich hoffe, die Idee ist damit nachvollziehbar. Der letzte Link ganzunten auf der Wikipedia-Seite<http://www.cis.uni-muenchen.de/~leiss/parsing-06-07/parsingfolien.ps>beschreibt das noch "wissenschaftlich".

Die Programmierung ist durch die notwendigen Fallunterscheidungen miteinigem Aufwand verbunden; ob sich das lohnt, ist sicher vom Umfangdes Buches abhängig. Andererseits könnte es so etwas auch schon geben,da ich auch schon solche Typoskripte mit "manuellem Blocksatz" gesehenhabe (Nachfrage in München?).


Gruß Michael


--
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context

Re: [de-users] Druckerprobleme (continued)
- Re: [de-users] Druckerprobleme · Irmhild Rogalla
- Re: [de-users] Druckerprobleme · Andreas Heinlein
- [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
  - [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Franklin Schiftan
    - Re: [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Wolfgang Jäth
  - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Wolfgang Jäth
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Hessler, Klaus-Michael
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Thomas Krumbein
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
        
        [de-users] Gelöst und Entschuldigung war: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Gerhard Weydt
        
        [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
        
        Re: [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Gerhard Weydt
        
        Re: [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
  - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Fritz Szekät
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Ulrich Moser
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.