Re: [de-users] alte Dokumente unlesbar (Codierung?)

Matthias Müller Posteo.de <matth_mueller_hbg -AT- posteo.de>
Mon, 06 Jan 2020 12:18:49 +0100

Hallo Rainer und alle Diskutanten

Am Montag, 6. Januar 2020, 08:06:51 CET schrieb Rainer:

Am Sun, 5 Jan 2020 21:59:48 +0100

schrieb gooly <gooly@gmx.at>:

Den Text öffnen, kopieren, in einen UTF-8-fähigen (sollten unter
Linux alle sein) Texteditor einfügen, umcodieren und neue
Textdatei mit LO erstellen.

Das ist für alle zu ändernden Texte notwendig. Mit den SO-/LO- bzw Word-Texten 
geht automatisiert vermutlich gar nix. Möglicherweise bietet MS ein Tool dafür 
an, weiß ich aber nicht.


Funktioniert nicht. Beispiel: das Wort "für" (im alten Dokument

"fŸr"):

Wenn es nur die 7 deutschen Sonderzeichen sind: üöäÜÖÄß
könnte man die doch einfach "replace Ÿ mit ü" machen.

Ja, darauf läuft es raus, aber…

Notepad++ hätte für soetwas die Option, solche Ersetzungen in allen
geladenen Dateien auf einmal zu machen - vielleicht hätte gibt's das
ja auch auf Linux?

… das ist ein Editor für Windows, der …

Ja, mit Hilfskonstruktionen ist es möglich, Notepad++ zum Laufen zu
bringen

… mit wine zum funktionieren gebracht werden muss. Habe ich noch nicht 
versucht, werde es aber demnächst mal tun.

(oder die Alternative "Notepadqq" zu nutzen).

Ist zumindest in den Debian-Repos nicht zu finden.

Aber wie ich
meiner gestrigen Antwort auf Dein Posting schon schrieb: Es handelt
sich ja um einen Texteditor, und ich kann mir im Moment nicht
vorstellen, wie damit LO-Dateien im odt-Format geladen und bearbeitet
werden sollen.

Das ist der Punkt. Die Textdaten müssen extrahiert werden, was einigermaßen 
komfortabel nur für ODT-Daten funktioniert und auch nur hier automatisiert 
werden kann. Das ist vermutlich der einfachere Teil des Workflows. Word-Daten 
sind komplett binär, das ist nix mit automatisch den Textteil extrahieren.
Erst nach dem Extrahieren ist es möglich mit einem Tool wie recode oä zu 
konvertieren.

Ab hier wird es beliebig komplex. Nicht nur die Codierung des Textes nuss 
betrachtet werden, sondern auch die Umgebung (Sprachumgebung, Codierung, 
Betriebssystem, …) auf dem Rechner, der die Umkodierung machen soll. Der 
Texteditor, mit dem die Kontrollen (die sind zwingend) gemacht werden ist ein 
Faktor. Bzw kann er Unicode, schaltet er automatisch zwischen den Codierungen 
um, welcher Zeichensatz kommt zur Darstellung zum Einsatz. Nicht ganz 
unwichtig ist auch, ob die Daten dann zwischen Win, Linux, iOS hin und her 
geschoben werden. Da wird teilweise schon mal automatisch konvertiert, je 
nachdem welches Transportmittel eingesetzt wird.

Diese Ausführlichkeit, hat einen einfachen Grund: Ich habe schon mit solch 
einem Problem gekämpft und dann frustriert aufgegeben. Und das waren bereits 
Textdaten, die allerdings von Windows nach Linux transferiert wurden.

Falls du es doch versuchen willst, läuft das ganze auf Scripten raus. 
Werkzeuge mit denen du dann arbeiten müsstest wären
"gzip" / "gunzip" um die SO-/LO-Daten zu entpacken
"find" um sie zu finden und sie dann mit 
"mv" oder "cp" zu verschieben oder kopieren
Für das Ersetzen der seltsamen (eigentlich regulären Unicode-) Zeichen kommen 
diverse Werkzeuge in Frage: "tr", "sed", "recode" und wahrscheinlich noch ein 
paar.

Aus meiner Sicht die einfachste Methode, allerdings auch die mit dem meisten 
Stumpsinn (und deshalb durchaus fehleranfäälig):
Mit LO öffnen und über Suchen/ersetzen (eventl mit RegEx-Hilfe) die Dateien 
einzeln zu bearbeiten. Danach sofort als PDF/A exportieren. PDF/A deshalb, 
weil es ein ISO-genormtes Archivformat ist, 
siehe https://de.wikipedia.org/wiki/PDF/A

-- 
Mit freundlichen Grüßen
Matthias Müller

Diese Mail ist mit OpenPGP signiert!
Zum überprüfen der Signatur, der Integrität und Authentizität
meiner Mails kann man OpenPGP (https://www.openpgp.org/) installieren.
Bitte senden Sie als Antwort auf meine E-Mails reine Text-Nachrichten!

-- 
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context

[de-users] alte Dokumente unlesbar (Codierung?) · Rainer
- Re: [de-users] alte Dokumente unlesbar (Codierung?) · stefan
  - Re: [de-users] alte Dokumente unlesbar (Codierung?) · Matthias Müller Posteo . de
- Re: [de-users] alte Dokumente unlesbar (Codierung?) · Matthias Müller Posteo . de
  - Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
    - Re: [de-users] alte Dokumente unlesbar (Codierung?) · Detlef Wiese
      - Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
        
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · gooly
        
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
        
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Matthias Müller Posteo . de
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Robert Großkopf
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Robert Großkopf
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Rainer
        Re: [de-users] alte Dokumente unlesbar (Codierung?) · Robert Großkopf
        [de-users] Offtopic: unterstützte Prog-Sprachen [was: alte Dokumente unlesbar (Codierung?)] · Matthias Müller Posteo . de
        Re: [de-users] Offtopic: unterstützte Prog-Sprachen [was: alte Dokumente unlesbar (Codierung?)] · Thomas Krumbein
        Re: [de-users] Offtopic: unterstützte Prog-Sprachen [was: alte Dokumente unlesbar (Codierung?)] · Matthias Müller Posteo . de
        
        Re: [de-users] Offtopic: unterstützte Prog-Sprachen [was: alte Dokumente unlesbar (Codierung?)] · Christian Lohmaier

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.