[de-users] Gelöst und Entschuldigung war: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen

Martin Jenniges <martinjenniges -AT- skynet.be>
Fri, 5 Jul 2019 09:49:06 +0200

Guten Morgen an Alle.

ich bitte Euch um Entschuldigung!

Nach der mehrmaligen Anmerkung, das Problem bei der Quelle, demOCR-Programm, zu lösen, habe ich das OCR in ein anderes Format arbeitenlassen.


ich gehe mal ins Detail:

ich scanne und ocre Bücher für den hiesigen Geschichtsverein
anfangs arbeitete ich mit Tesseract OCR

dann schaffte ich mir den Fujitsu SV600 ScanSnap mit ABBY Finreader forScanSnap ananfangs liess ich in Word-Format ocren; dann fragte mich derVereinspräsident nach durchsuchbaren PDF und da Finereader die aucherzeugen kann, habe ich die PDF erzeugt und dann aus diesen PDF mittelsSpeichern als TXT den Text zum Überlesen kopiert.

so auch bei dem letzten Buch mit den leerzeichen in den Wörtern

nach euren Bemerkungen habe ich Finereader die Scandatei mal wieder inWord-Format ocren lassen: und da sind keine Leerzeichen in den Wörtern!

Ich bitte euch nochmals um Entschuldigung; und ich hoffe, dass meineBeschreibung anderen helfen mag


mit freundlichem Gruss

Martin jenniges


Am 05.07.2019 um 01:44 schrieb Mohing:

Hallo!

Entschuldige, aber Du bringst mich gerade zum Schmunzeln und Lachen,weil...


OCR eine Software ist mit der ua Google seit bald 20 Jahren historische
Bücher digitalisiert und erfolgreich archiviert. Und dies mit einem
hervorragenden Ergebnis. Von daher ist Deine Aussage nicht ganz korrekt.
Besser sollte diese lauten: Die Markt befindlichen OCR- Programme kommen
nicht über eine einfache Demo-Version hinaus. Mit anderen Worten: Geht;
ist aber nicht zur Weiterverarbeitung zu gebrauchen.

Richtig schlimm wird es, wenn man versucht Text und Formatierung zu
lösen, den Text seitenweise getrennt zu verarbeiten und dann beides
wieder zusammenzufügen.

Wenn man die Möglichkeit hätte an eine richtig teure OCR-Demo-Version
heran kommen zu können würde es vielleicht klappen. Aber alles unter
2000€ ist so gar nicht brauchbar.

Wie gesagt: Leerzeichen zu löschen geht mit einigem Programmier-Aufwand
und bedarf immer eines Paperbackwriters. Dabei geht die Formatierung
aber definitiv verloren. Ob es sich lohnt steht auf einem anderen Blatt.
Vom Zeitaufwand ist Abtippen schneller.

Als LO-Marco habe ich es nie versucht- unter SO4 ging es defintiv nicht.
Mit Programmierung C/C++/Perl oder UltraEdit geht es -als fortlaufender
Text mit mehr oder minder vielen Kontext-Fehlern.

Grüsse


Am 04.07.2019 um 22:09 schrieb Thomas Krumbein:

Der richtige Ansatz war in der Diskussion schon angesprochen worden:
Die OCR Software. Die muss entweder besser trainiert werden oder sie
ist ungeeignet. Das nachträglich zu korrigieren per Software ist m.A.
Unsinn.

Findet sich dort keine Lösung, bleibt eigentlich nur die manuelle
Korrektur wie schon öfter beschrieben.

VG

Thomas


Am 04.07.2019 um 20:50 schrieb Hessler, Klaus-Michael:

Hallo Martin,

ich kopiere mal einen Absatz

"Die Versammlung setzte u. a. den K reisetat fest, nahm den B ericht
ü b e r den
G runderw erb der Eisenbahn sowie die B ekäm pfung des V iehw uchers
entgegen
und beschäftigte sich (vertagend) m it der F rage der Beschaffung d
er durch die
neue K reisordnung nötigen D iensträum e."

Ich schmeiße mal die Idee eines Parser-Makros mit Wörterbuch-Abgleich
in den Raum:

* Du hast eine TXT-Datei (ohne Formatierungszeichen etc.) des Buches.
* Du hast ein Wörterbuch als durchsuchbare Datei.
* Das Parser <https://de.wikipedia.org/wiki/Parser>-Makro liest aus
der TXT-Datei ein einzelnes Zeichen und schreibt die Ausgabe wie
folgt in eine Ergebnis.txt:
o Ist es ein Satzzeichen: --> ausgeben wie gelesen, ggf. noch
nachfolgendes Leerzeichen anhängen.
o Ist es eine Ziffer: --> ausgeben wie gelesen, das kann
wahrscheinlich nicht automatisch korrigiert werden.
o Ist es ein Buchstabe: --> in Variable speichern, nicht ausgeben.
+ Weitere Zeichen einlesen und - wenn es kein Leerzeichen ist
- an die Variable anhängen. Ist es ein Leerzeichen, den
Text der Variable im Wörterbuch suchen.
# Wenn vorhanden: --> ausgeben in Ergebnis.txt [aus K
reisetat wird Kreisetat].
# Wenn nicht im Wörterbuch, Leerzeichen ignorieren,
nächstes Zeichen lesen.
* Ist es ein Buchstabe, diesen an die Variable
anhängen. [aus ü b e r wird über] aus [G runderw erb
wird Grunderwerb.
* Ist es eine Ziffer oder ein Satzzeichen, das Wort
aus Variable trotz negativem Wörterbuch-Ergebnis
schreiben.
* Weiter beim übergeordneten _Wenn_. Die Anzahl wird
man begrenzen müssen, falls mehrere Begriffe mit
Blocksatz-Leerzeichen nacheinander nicht im
Wörterbuch sein sollten.

Ich hoffe, die Idee ist damit nachvollziehbar. Der letzte Link ganz
unten auf der Wikipedia-Seite
<http://www.cis.uni-muenchen.de/~leiss/parsing-06-07/parsingfolien.ps>
beschreibt das noch "wissenschaftlich".

Die Programmierung ist durch die notwendigen Fallunterscheidungen mit
einigem Aufwand verbunden; ob sich das lohnt, ist sicher vom Umfang
des Buches abhängig. Andererseits könnte es so etwas auch schon
geben, da ich auch schon solche Typoskripte mit "manuellem Blocksatz"
gesehen habe (Nachfrage in München?).

Gruß Michael



--
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context

[de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen (continued)
- [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
  - [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Franklin Schiftan
    - Re: [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Wolfgang Jäth
  - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Wolfgang Jäth
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Hessler, Klaus-Michael
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Thomas Krumbein
        
        Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
        
        [de-users] Gelöst und Entschuldigung war: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Gerhard Weydt
        
        [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
        
        Re: [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Gerhard Weydt
        
        Re: [de-users] Verhalten des Dialogfensters beim Speichen War: Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Mohing
  - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Fritz Szekät
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Ulrich Moser
      - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Martin Jenniges
  - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · gooly
    - Re: [de-users] Suche Makroprogrammierer bez Leerzeichen in Wörtern entfernen · Dr. Harry Knitter

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.