Date: prev next · Thread: first prev next last
2018 Archives by date, by thread · List index


Halo Wolfgang,

Am 22.08.2018 um 07:51 schrieb Michael Höhne:
Hallo Wolfgang,
  
Du gehst davon aus, dass die Datei regelkonform formatiert ist, d.
h. entsprechend den Normen mit einem sogenannten BOM
(Byte-Order-Mark) versehen ist.   

Eine BOM ist nicht zwingend vorgeschrieben,   

Wenn es eine regelkonforme UTF-8-kodierte Textdatei sein soll, doch.

Ich zitiere mal aus: https://de.wikipedia.org/wiki/Byte_Order_Mark

Die UTF-8-Kodierung des BOM besteht aus der Bytesequenz EF BB BF, die
in nicht UTF-8-fähigen Texteditoren und Browsern meist als
ISO-8859-1-Zeichen  erscheinen. Bei UTF-8 stellt sich das Problem
der Byte-Reihenfolge zwar nicht, doch ein BOM am String- oder
Dateianfang ist erlaubt, um die Verwendung von UTF-8 als Kodierung zu
kennzeichnen. Eine sichere Unterscheidung zwischen UTF-8 und den
ISO-8859-Zeichensätzen ist dadurch zwar nicht gewährleistet, da in den
8-Bit-Zeichensätzen alle Bytesequenzen erlaubt sind, auch die
UTF-8-Kodierung des BOM; wenn aber die Alternative speziell UTF-8 oder
ISO 8859-1 ist, ist die pragmatische Annahme, dass die Zeichenfolge
 nicht gemeint ist, durchaus üblich.

Also _erlaubt_ aber nicht zwingend. Bei UTF-16 oder UTF-32 sieht das
natürlich anders aus.

Bei UTF-8 _kann_ es sogar zu _Problemen_ kommen. Zitat:

Wird ein BOM verwendet, kann es jedoch auch zu Problemen mit
Programmen kommen, die kein Byte Order Mark erwarten oder kennen. 

Wie meine Anmerkung besagte. Oder zu echten Fehlfunktionen:

So wird in Unix-artigen Umgebungen oft in Skriptdateien der
Shebang-Mechanismus verwendet, bei dem die Zeichenfolge "#!"
ebenfalls am Dateianfang stehen muss. Steht hier ein unerwartetes
BOM, gibt es Probleme.

Also gerade mit UTF-8, wo es theoretisch nicht benötigt würde kann ein
BOM durchaus auch Stress machen.

Insofern: Wenn beim Import einer Textdatei die Umlaute mit "Ã" und
einem weiteren Zeichen dargestellt werden, nochmals explizit als UTF-8
importieren.

Das ist mit den vielen verschiedenen ANSI-Codierungen ja auch nicht
anders.

Gruß,
Michael


-- 
    ____        
   / / / / /__/      Michael Höhne /
  /   / / /  /  mih-hoehne@web.de /
 ________________________________/


-- 
Liste abmelden mit E-Mail an: users+unsubscribe@de.libreoffice.org
Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.