Date: prev next · Thread: first prev next last
2016 Archives by date, by thread · List index


Le 19/11/2016 18:41, bernard schoenacker a écrit :
> On Sat, 19 Nov 2016 18:13:18 +0100
> Agnès Simonet <agnes.simonet@laposte.net> wrote:
>
>> Bonjour,
>>
>> Je suis en train de taper un texte à partir d'un livre du site
>> Gallica, qui contient beaucoup de dialogues. Je dispose de la version
>> scannée, qui me sert de référence, et du document txt que je corrige
>> et mets en forme.
>> Dans le scan original, les noms des intervenants contiennent des
>> majuscules et des petites majuscules. Par exemple ACHILE TALON : le A
>> de ACHILE et le T de TALON sont en majuscules et le reste (CHILE et
>> ALON) en petites minuscules.
>> Pour la mise en forme avec Writer j'utilise le style de caractères
>> par défaut pour le A et T en majuscule et un style de caractère avec
>> une police de taille 80% pour simuler les petites majuscules. [ce
>> document sera ensuite converti en epub et la plupart des liseuses ne
>> gèrent pas les petites majuscules, d'où ma technique]. J'ai
>> enregistré cet ACHILLE TALON correctement formaté en auto-texte. Idem
>> pour les autres intervenants des dialogues.
>>
>> Evidemment,dans le document texte,tout est en majuscules.
>> Donc je sélectionne ACHILE TALON, ou ses compères, et fait ma mise en
>> forme en utilisant des autotextes enregistrés avec les bons styles.
>> C'est très long (il y en a des milliers).
>>
>> Je cherche à automatiser cette opération.
>> Je ne vois pas de méthode par rechercher/remplacer, les précisions
>> sur les formats de caractères n'étant pas utilisables.
>> Quelqu'un aurait-il une idée ?
>>
>> Agnès S.
>
> bonjour,
>
>      puisque vous êtes sous linux pourquoi ne pas employer tesseract ocr
>      et sed ?
>
>      slt
>      bernard
>
> --
> bernard schoenacker <bernard.schoenacker@free.fr>

Bonjour,

Merci pour cette réponse mais je ne vois pas comment ça permettra de résoudre mon problème.

Tesseract-ocr c'est pour faire la reconnaissance de caractères à partir du scan, non ? C'est déjà fait par Gallica (fichier txt) et je doute que tesseract fasse mieux car le scan est tout pourri et franchement l'ocr ce n'est pas le point fort de linux...

Sed, sauf erreur, ne me permettra pas d'agir sur le fichier odt.
Et sur un fichier texte la question des formats de caractères ne se pose pas.
Mais j'ai peut-être tout faux car je n'ai jamais utilisé sed.
Peux-tu m'en dire plus ?

Agnès

PS : je t'ai attribué par erreur l'idée de l'enregistreur de macro que l'on doit à Luc (si je ne me trompe pas à nouveau)

--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/users/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être 
supprimés

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.