Re: [de-users] Codierung ?

Gerhard Weydt <gerhard.weydt -AT- t-online.de>
Wed, 22 Aug 2018 11:33:51 +0200

Hallo Michael,

ich habe mich am Faden eigentlich gar nicht beteiligt, sondern nurmitgelesen, weil ich mich mit der Thematik noch nie befassen musste. Dasind deine Erläuterungen ein guter Tipp.Der eigentliche Grund für die Mail war aber, darauf hinzuweisen, dassbei gooly auch an anderer Stelle "falsch" interpretiert wird und erdeshalb doch eher bei sich suchen müsste anstatt immer zu sagen, dassWriter etwas falsch macht.


Gruß

Gerhard

Am 22.08.2018 um 07:39 schrieb Michael Höhne:

Hallo Gerhard,

ich habe jetzt nicht den ganzen Faden verfolgt, aber mal eine kleine
Erklärung zusammengebastelt:

das ä von während besteht aus einem großen A mit Tilde und einem
Symbol, das aussieht wie ein Kreis, der ein X überdeckt.

Dieses "A mit Tilde" weist darauf hin, dass an der Stelle tatsächlich
ein UTF-8 "Ä" als zwei ein-Byte-Zeichen missinterpretiert wird.

Zur Erklärung: Bei UTF-8 kommen zur Codierung von Zeichen mehrere Bytes
zum Einsatz. Gut erklärt im Wikipedia-Artikel, Abschnitt Kodierung.

https://de.wikipedia.org/wiki/UTF-8


Wenn man nun die "handelsüblichen" UTF-8 Umlaute verwendet, dann hat
man folgende Zuordnung von Umlaut zu zwei Bytes:

ä - C3 A4
ö - C3 B6
ü - C3 BC
Ä - C3 84
Ö - C3 96
Ü - C3 9C
ß - C3 9F

Wenn ein Programm nun die Eingabe als normale "1 Byte = 1
Zeichen"-Kodierung missinterpretiert, wird der Hexcode "C3" als
entsprechendes Zeichen, nämlich dem "Ã" interpretiert, dass von dem
jeweils anderen Zeichen gefolgt wird (z.B. bei ä das Zeichen "A4" also
dem "¤"). Siehe auch: http://ascii-table.com/ansi-codes.php

Bei einem Austausch von Texten ist es also wichtig, dass das
Zielprogramm die Codierung erkennt. Das geht einfach, sofern der
"Sender" den Text kennzeichnet, wie es in Mails üblich ist, oder bei
Textdateien in denen z.B. eine BOM vorangestellt ist
(https://de.wikipedia.org/wiki/Byte_Order_Mark).

Ansonsten kann es immer mal wieder vorkommen, dass ein UTF-8 Text als
ANSI Text missinterpretiert wird. Insbesondere, wenn dann auch noch
eine "Zwischenablage" ins Spiel kommt. Das ist ein Problem, dass sie
auch nie 100%ig wird verhindern lassen.

Bei großen Textdateien habe ich oft Erfolg, wenn ich sie mit einem
Editor lade, der sie "richtig" darstellt und sie dann als neue Datei
speichere, wobei ich die Codierung und ggf. das Voranstellen der BOM
auswähle. Das macht den Text besser als UTF-8 erkennbar.

Gruß,
Michael



--
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context

Re: [de-users] Codierung ? (continued)

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.