Hallo Rainer und alle Diskutanten
Am Montag, 6. Januar 2020, 08:06:51 CET schrieb Rainer:
Am Sun, 5 Jan 2020 21:59:48 +0100
schrieb gooly <gooly@gmx.at>:
Den Text öffnen, kopieren, in einen UTF-8-fähigen (sollten unter
Linux alle sein) Texteditor einfügen, umcodieren und neue
Textdatei mit LO erstellen.
Das ist für alle zu ändernden Texte notwendig. Mit den SO-/LO- bzw Word-Texten
geht automatisiert vermutlich gar nix. Möglicherweise bietet MS ein Tool dafür
an, weiß ich aber nicht.
Funktioniert nicht. Beispiel: das Wort "für" (im alten Dokument
"fŸr"):
Wenn es nur die 7 deutschen Sonderzeichen sind: üöäÜÖÄß
könnte man die doch einfach "replace Ÿ mit ü" machen.
Ja, darauf läuft es raus, aber…
Notepad++ hätte für soetwas die Option, solche Ersetzungen in allen
geladenen Dateien auf einmal zu machen - vielleicht hätte gibt's das
ja auch auf Linux?
… das ist ein Editor für Windows, der …
Ja, mit Hilfskonstruktionen ist es möglich, Notepad++ zum Laufen zu
bringen
… mit wine zum funktionieren gebracht werden muss. Habe ich noch nicht
versucht, werde es aber demnächst mal tun.
(oder die Alternative "Notepadqq" zu nutzen).
Ist zumindest in den Debian-Repos nicht zu finden.
Aber wie ich
meiner gestrigen Antwort auf Dein Posting schon schrieb: Es handelt
sich ja um einen Texteditor, und ich kann mir im Moment nicht
vorstellen, wie damit LO-Dateien im odt-Format geladen und bearbeitet
werden sollen.
Das ist der Punkt. Die Textdaten müssen extrahiert werden, was einigermaßen
komfortabel nur für ODT-Daten funktioniert und auch nur hier automatisiert
werden kann. Das ist vermutlich der einfachere Teil des Workflows. Word-Daten
sind komplett binär, das ist nix mit automatisch den Textteil extrahieren.
Erst nach dem Extrahieren ist es möglich mit einem Tool wie recode oä zu
konvertieren.
Ab hier wird es beliebig komplex. Nicht nur die Codierung des Textes nuss
betrachtet werden, sondern auch die Umgebung (Sprachumgebung, Codierung,
Betriebssystem, …) auf dem Rechner, der die Umkodierung machen soll. Der
Texteditor, mit dem die Kontrollen (die sind zwingend) gemacht werden ist ein
Faktor. Bzw kann er Unicode, schaltet er automatisch zwischen den Codierungen
um, welcher Zeichensatz kommt zur Darstellung zum Einsatz. Nicht ganz
unwichtig ist auch, ob die Daten dann zwischen Win, Linux, iOS hin und her
geschoben werden. Da wird teilweise schon mal automatisch konvertiert, je
nachdem welches Transportmittel eingesetzt wird.
Diese Ausführlichkeit, hat einen einfachen Grund: Ich habe schon mit solch
einem Problem gekämpft und dann frustriert aufgegeben. Und das waren bereits
Textdaten, die allerdings von Windows nach Linux transferiert wurden.
Falls du es doch versuchen willst, läuft das ganze auf Scripten raus.
Werkzeuge mit denen du dann arbeiten müsstest wären
"gzip" / "gunzip" um die SO-/LO-Daten zu entpacken
"find" um sie zu finden und sie dann mit
"mv" oder "cp" zu verschieben oder kopieren
Für das Ersetzen der seltsamen (eigentlich regulären Unicode-) Zeichen kommen
diverse Werkzeuge in Frage: "tr", "sed", "recode" und wahrscheinlich noch ein
paar.
Aus meiner Sicht die einfachste Methode, allerdings auch die mit dem meisten
Stumpsinn (und deshalb durchaus fehleranfäälig):
Mit LO öffnen und über Suchen/ersetzen (eventl mit RegEx-Hilfe) die Dateien
einzeln zu bearbeiten. Danach sofort als PDF/A exportieren. PDF/A deshalb,
weil es ein ISO-genormtes Archivformat ist,
siehe https://de.wikipedia.org/wiki/PDF/A
--
Mit freundlichen Grüßen
Matthias Müller
Diese Mail ist mit OpenPGP signiert!
Zum überprüfen der Signatur, der Integrität und Authentizität
meiner Mails kann man OpenPGP (https://www.openpgp.org/) installieren.
Bitte senden Sie als Antwort auf meine E-Mails reine Text-Nachrichten!
--
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.