Hallo Gerhard,
ich habe jetzt nicht den ganzen Faden verfolgt, aber mal eine kleine
Erklärung zusammengebastelt:
das ä von während besteht aus einem großen A mit Tilde und einem
Symbol, das aussieht wie ein Kreis, der ein X überdeckt.
Dieses "A mit Tilde" weist darauf hin, dass an der Stelle tatsächlich
ein UTF-8 "Ä" als zwei ein-Byte-Zeichen missinterpretiert wird.
Zur Erklärung: Bei UTF-8 kommen zur Codierung von Zeichen mehrere Bytes
zum Einsatz. Gut erklärt im Wikipedia-Artikel, Abschnitt Kodierung.
https://de.wikipedia.org/wiki/UTF-8
Wenn man nun die "handelsüblichen" UTF-8 Umlaute verwendet, dann hat
man folgende Zuordnung von Umlaut zu zwei Bytes:
ä - C3 A4
ö - C3 B6
ü - C3 BC
Ä - C3 84
Ö - C3 96
Ü - C3 9C
ß - C3 9F
Wenn ein Programm nun die Eingabe als normale "1 Byte = 1
Zeichen"-Kodierung missinterpretiert, wird der Hexcode "C3" als
entsprechendes Zeichen, nämlich dem "Ã" interpretiert, dass von dem
jeweils anderen Zeichen gefolgt wird (z.B. bei ä das Zeichen "A4" also
dem "¤"). Siehe auch: http://ascii-table.com/ansi-codes.php
Bei einem Austausch von Texten ist es also wichtig, dass das
Zielprogramm die Codierung erkennt. Das geht einfach, sofern der
"Sender" den Text kennzeichnet, wie es in Mails üblich ist, oder bei
Textdateien in denen z.B. eine BOM vorangestellt ist
(https://de.wikipedia.org/wiki/Byte_Order_Mark).
Ansonsten kann es immer mal wieder vorkommen, dass ein UTF-8 Text als
ANSI Text missinterpretiert wird. Insbesondere, wenn dann auch noch
eine "Zwischenablage" ins Spiel kommt. Das ist ein Problem, dass sie
auch nie 100%ig wird verhindern lassen.
Bei großen Textdateien habe ich oft Erfolg, wenn ich sie mit einem
Editor lade, der sie "richtig" darstellt und sie dann als neue Datei
speichere, wobei ich die Codierung und ggf. das Voranstellen der BOM
auswähle. Das macht den Text besser als UTF-8 erkennbar.
Gruß,
Michael
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.