Le 19/11/2016 18:41, bernard schoenacker a écrit :
> On Sat, 19 Nov 2016 18:13:18 +0100
> Agnès Simonet <agnes.simonet@laposte.net> wrote:
>
>> Bonjour,
>>
>> Je suis en train de taper un texte à partir d'un livre du site
>> Gallica, qui contient beaucoup de dialogues. Je dispose de la version
>> scannée, qui me sert de référence, et du document txt que je corrige
>> et mets en forme.
>> Dans le scan original, les noms des intervenants contiennent des
>> majuscules et des petites majuscules. Par exemple ACHILE TALON : le A
>> de ACHILE et le T de TALON sont en majuscules et le reste (CHILE et
>> ALON) en petites minuscules.
>> Pour la mise en forme avec Writer j'utilise le style de caractères
>> par défaut pour le A et T en majuscule et un style de caractère avec
>> une police de taille 80% pour simuler les petites majuscules. [ce
>> document sera ensuite converti en epub et la plupart des liseuses ne
>> gèrent pas les petites majuscules, d'où ma technique]. J'ai
>> enregistré cet ACHILLE TALON correctement formaté en auto-texte. Idem
>> pour les autres intervenants des dialogues.
>>
>> Evidemment,dans le document texte,tout est en majuscules.
>> Donc je sélectionne ACHILE TALON, ou ses compères, et fait ma mise en
>> forme en utilisant des autotextes enregistrés avec les bons styles.
>> C'est très long (il y en a des milliers).
>>
>> Je cherche à automatiser cette opération.
>> Je ne vois pas de méthode par rechercher/remplacer, les précisions
>> sur les formats de caractères n'étant pas utilisables.
>> Quelqu'un aurait-il une idée ?
>>
>> Agnès S.
>
> bonjour,
>
> puisque vous êtes sous linux pourquoi ne pas employer tesseract ocr
> et sed ?
>
> slt
> bernard
>
> --
> bernard schoenacker <bernard.schoenacker@free.fr>
Bonjour,
Merci pour cette réponse mais je ne vois pas comment ça permettra de
résoudre mon problème.
Tesseract-ocr c'est pour faire la reconnaissance de caractères à partir
du scan, non ? C'est déjà fait par Gallica (fichier txt) et je doute que
tesseract fasse mieux car le scan est tout pourri et franchement l'ocr
ce n'est pas le point fort de linux...
Sed, sauf erreur, ne me permettra pas d'agir sur le fichier odt.
Et sur un fichier texte la question des formats de caractères ne se pose
pas.
Mais j'ai peut-être tout faux car je n'ai jamais utilisé sed.
Peux-tu m'en dire plus ?
Agnès
PS : je t'ai attribué par erreur l'idée de l'enregistreur de macro que
l'on doit à Luc (si je ne me trompe pas à nouveau)
--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/users/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être
supprimés
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.