[fr-users] Strukturanalyse eines ODT-Dokuments: lesbar ≠ dokumentarische Quelle (vollständige Prozedur)

Bernard Schoenacker <bernard.schoenacker -AT- free.fr>
Thu, 8 Jan 2026 17:28:48 +0100 (CET)

Guten Tag zusammen,

im Anschluss an die jüngsten Diskussionen über Wartbarkeit, Konvertierung und Langzeitpflege von 
ODT-Dokumenten möchte ich einen **rein technischen, dokumentierten und reproduzierbaren 
Erfahrungsbericht** teilen, basierend auf einem realen Fall.

Ziel ist ausdrücklich **keine Polemik**, sondern die **klare Dokumentation einer Situation**, in 
der ein ODT-Dokument in LibreOffice Writer korrekt dargestellt wird, jedoch **strukturell nicht als 
Dokumentationsquelle geeignet ist** (Konvertierung, Versionierung, Analyse).

---

## 1. Kontext

Analysiertes Dokument:

* *LibOBasic_01_IDE_Flat_A4_FR_v200.odt*
* LibreOffice-Basic-Spickzettel (reales, verbreitetes Dokument)
* Visuell korrekt und problemlos in Writer nutzbar

Beobachtetes Problem:

* Fehlgeschlagene Konvertierung nach Markdown mit Pandoc
* Dokument nicht als strukturierte Textquelle nutzbar

---

## 2. Prüfung des Containers (ZIP / ODT-Ebene)

Ein ODT ist ein ZIP-Container. Erste Analyse daher **außerhalb des Editors**.

```bash
zip -T LibOBasic_01_IDE_Flat_A4_FR_v200.odt
```

Ergebnis: **OK**

Prüfung der ODT-Mindestkonformität:

```bash
unzip -lv LibOBasic_01_IDE_Flat_A4_FR_v200.odt | head
```

Geprüfte Punkte:

* `mimetype` vorhanden
* `mimetype` an erster Position
* `mimetype` unkomprimiert (`Stored`)

➡️ Das Dokument ist **auf Containerebene korrekt**.
Das Problem liegt **nicht** im ZIP, nicht im Umbenennen und nicht im Testwerkzeug.

---

## 3. Strukturtest mit Pandoc

```bash
pandoc -f odt -t native LibOBasic_01_IDE_Flat_A4_FR_v200.odt --verbose
```

Ausgabe:

```
[ Para [] , Para [] ]
```

Bedeutung:

* Pandoc kann den Container lesen
* findet jedoch **praktisch keinen verwertbaren Textinhalt**
* das Dokument ist aus Sicht eines strikten Parsers **strukturell leer**

---

## 4. Analyse der XML-Struktur (content.xml)

Extraktion:

```bash
unzip LibOBasic_01_IDE_Flat_A4_FR_v200.odt content.xml
```

Suche nach Textboxen:

```bash
grep -n "<draw:text-box" content.xml | head
```

Suche nach Rahmen:

```bash
grep -n '<draw:frame' content.xml | head
grep -n 'draw:name="CadrePage' content.xml
```

Feststellung:

* Der Text befindet sich überwiegend in **`draw:frame / draw:text-box`**
* Rahmen sind seitenverankert (`text:anchor-type="page"`)
* Rahmen sind **verkettet** (`draw:chain-next-name`)
* Es existiert **kein logischer Textfluss** (`office:text` mit `text:p`, `text:h`)

➡️ Es handelt sich um eine **grafische Seitenkomposition**, nicht um ein logisch strukturiertes 
Textdokument.

---

## 5. Low-Level-Extraktion des Inhalts

Extraktion des Textes aus den Rahmen:

```bash
xmlstarlet sel -t \
  -m '//draw:frame[draw:text-box]' \
  -o '--- ' -v '@draw:name' -o ' (Seite ' -v '@text:anchor-page-number' -o ')' -n \
  -m './/draw:text-box//text:p' -v 'normalize-space(.)' -n \
  -n \
  content.xml > extracted.txt
```

Ergebnis:

* Vollständiger Textinhalt extrahierbar
* jedoch **außerhalb einer dokumentarischen Struktur**

---

## 6. Technische Schlussfolgerung

Das Dokument ist:

* ✔️ in LibreOffice Writer darstellbar
* ✔️ auf ODT-Containerebene korrekt
* ❌ nicht als Dokumentationsquelle geeignet
* ❌ nicht sauber konvertierbar
* ❌ nicht fein versionierbar
* ❌ nicht automatisiert übersetzbar

**Ursache**:

Der Hauptinhalt ist in grafischen Objekten (`draw:text-box`) abgelegt und nicht im ODF-Textfluss.


---

## 7. Allgemeine Schlussfolgerung

Ein Dokument kann in einem Editor vollständig lesbar sein und dennoch strukturell ungeeignet als 
Quelle.


Diese Problematik:

* ist keine Kritik an LibreOffice,
* ist keine Meinungsfrage,
* ist in der grafischen Oberfläche nicht sichtbar,
* wird **nur auf XML-Strukturebene erkennbar**.

Gerade bei Fragen der Langzeitpflege, Konvertierung und Dokumentationsqualität ist diese Ebene 
entscheidend.

Mit freundlichen Grüßen

Bernard Schoenacker
Technische Dokumentation / Strukturanalyse

-- 
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Context

[fr-users] Strukturanalyse eines ODT-Dokuments: lesbar ≠ dokumentarische Quelle (vollständige Prozedur) · Bernard Schoenacker
- Re: [fr-users] Strukturanalyse eines ODT-Dokuments: lesbar ≠ dokumentarische Quelle (vollständige Prozedur) · LClibre
  - Re: [fr-users] Strukturanalyse eines ODT-Dokuments: lesbar ≠ dokumentarische Quelle (vollständige Prozedur) · Vincent Permaculture

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.