Date: prev next · Thread: first prev next last
2023 Archives by date, by thread · List index


Bonjour à tous,
Moi je ne veux rien faire de particulier, la discussion est venue de la demande initiale pour laquelle j'avais proposé une idée. Puis apparemment et sans le vouloir, j'ai déclenché une "bronca" contre Alt-search. Cela m'arrive de traiter ce genre de problème sur des fichiers qui sont mal scannés mais je me suis fait mes petites macros et routines de remplacement et tout va bien pour moi.
Donc désolée pour le bruit que j'ai occasionné sans le vouloir.
Bonne journée à tous
Claude


Le 04/09/2023 à 21:57, Ocleyr2lalune a écrit :

précisément que veux tu faire ?

Pour supprimer la marque de paragraphe (= fusionner 2 paragraphes) :
- Rechercher $
- remplacer (par rien = laisser vide) puis tout remplacer

c'est écrit dans la 3e ligne du tableau de ce lien, déjà donné à midi https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED <https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED>

Pour remplacer un saut de ligne par un saut de paragraphe :
- Recherche /n
- Remplacer /n

/n est particulier et a une signification différente selon qu'il est en recherche ou en remplacement.

Pour supprimer les sauts de lignes (retour chariot, comme sur la touche entrée du clavier, ce que l'on obtient par un maj + entrée)
- Rechercher /n
- remplacer (par rien = laisser vide) puis tout remplacer

Généralement à l'import d'un fichier généré par ocr, on a à supprimer soit des "retours chariots / sauts de ligne", soit des sauts de paragraphes.

Quand les sauts de paragraphes ne sont pas justifiés et que le texte est à peu près correct, oui on peut estimer qu'un paragraphe qui commence par une minuscule n'est pas un nouveau paragraphe et que ce sont ceux là qu'il faut supprimer...

Après tout cela est assez bien documenté. Il faut consulter les liens fournis ce midi. "libreoffice expression régulière" et le moindre moteur de recherche vous amènera sur ces pages...

Et en cas de besoin demander ici. On progresse tous par des essais selon les cas que l'on doit gérer....


à noter, enfin qu'un PDF ouvert dans Draw, s'il n'est pas le produit d'un scan peut être modifié directement. Chaque ligne de texte est une une zone de texte distincte. Mais il est possible de les fusionner depuis quelques années (forme / consolider le texte)

Enfin, vraiment, sur la question posée au départ, je crois que l'utilisation de pandoc n'est pas à écarter. Elle demande moins de manip que le redressement d'un fichier via des regexp ou altsearch !

Claire

Le 2023-09-04 21:14, prog.amateur@free.fr a écrit :

Ok j'ai compris pour le bloquant, mais Alt-search comme la boite de dialogue du recherche et remplace n'est pas bloquant Par contre pour le recherche et remplace que tu m'indiques, cela ne fonctionne pas comme je voudrais car cela ne supprime pas la marque de fin de paragraphe. Ou alors j'ai encore tout compris de travers ?

Le 04/09/2023 à 19:27, Landron Gérard a écrit :
Le 04/09/2023 à 18:19, prog.amateur@free.fr a écrit :
Je ne comprends pas quand tu dis que le recherche et remplace n'est pas bloquante et le Alt-search l'est ?
Je ne sais plus pour alt-search mais par exemple la boite d'impression empêche l'accès au texte, de même les boites d'export ce qui est normal puisque le texte ne doit plus être modifié à ce moment là. Pour vos exemples, le premier est facile, il faut simplement inverser la logique :
rechercher la minuscule en débute de phrase
^[:lower:]
et la remplacer en mettant
$0
et un format majuscule dans la zone de recherche

les autres supposent une boucle que en fait pas la boite native donc à mon avis Alt-search est adapté



Le 04/09/2023 à 15:55, Landron Gérard a écrit :
Le 04/09/2023 à 16:08, prog.amateur@free.fr a écrit :
Re-bonjour,
Nous avions eu la même discussion, il n'y a pas si longtemps.... Personnellement l'avantage que j'apprécie avec Alt-Search c'est de pouvoir sauvegarder mes chaines de recherche. Mais si on peut le faire en natif, je suis preneuse de la solution.
tu peux toujours faire une  autotext pour les stocker et les appeler quand tu en as besoin, ce qui est bien avec la boite de dialogue de recherche est qu'elle n'est pas bloquante pour le logiciel, on peut copier dans le texte pour mettre dans la zone de recherche ou de remplacement
Claude
Gérard


Le 04/09/2023 à 12:40, Ocleyr2lalune a écrit :
Voui, j'ai tendance aussi à trouver que la fonction native est suffisante. D'autant que les expressions régulières les plus simples permettent entre autre
De détecter des paragraphes vides
De detecter des débuts ou fin de paragraphe (pour rechercher des termes spécifiquement placés au début ou à la fin De remplacer des retours chariots par des fins de paragraphes ou de les supprimer ( ce qui me semble être proche de la demande initiale)

Peut-être que la différence essentielle est d'être plus ou moins familier avec la syntaxe des regex ou celle d'alt search (le gouts et les couleurs). Les expressions régulières ont l'avantage d'avoir une syntaxe "universelle" https://help.libreoffice.org/latest/fr/text/swriter/guide/search_regexp.html pour la doc sur la recherche

https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED <https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED> Pour la liste des regex

https://help.libreoffice.org/latest/fr/text/scalc/guide/wildcards.html?&DbPAR=SHARED <https://help.libreoffice.org/latest/fr/text/scalc/guide/wildcards.html?&DbPAR=SHARED> Pour les caractères génériques dans la recherche ce qui est souvent suffisant dans la plupart des cas...


Tout ça sans exclure les réponses déjà faites il y a quelques jours sur la façon de redresser un fichier word importé dans writer. Et, à l'appui de l'idée de Bernard d'utiliser pandoc pour faire ces conversions....(pdf>html>odt)


⁣Claire​

Le 4 sept. 2023 à 12:22, à 12:22, "Landron Gérard"<cornosier@palendriai.lt> a écrit:
Le 04/09/2023 à 11:27,prog.amateur@free.fr  a écrit :
Bonjour,
Personnellement je fais cela avec Alt-Search (merci Pierre-Yves). Les
marques de fin de paragraphes inutiles sont en général suivis d'une
minuscule. J'ai enregistré ces recherches.
L'inconvénient de altsearch est qu'il traite l'un après l'autre ce qui
est long et surtout ne permet pas, selon le nombre d'opération, de
faire
une annulation contrairement à l'option 'Expressions régulières' native
Sauf changement récent car il a longtemps que je ne l'ai pas utilisé
Gérard
      Rechercher : \p([a-z])
      Remplacer : \1
      Cocher Respecter la casse
      Cocher Expressions régulières

      Rechercher : \p([éèàùêâîôûçäëïöü?!:])
      Remplacer : \1
      Cocher Respecter la casse
      Cocher Expressions régulières
ou
      Rechercher : \p([éèàùêâîôûçäëïöü?!:])([a-z])
      Remplacer : \2
      Cocher Respecter la casse
      Cocher Expressions régulières


Explication : on recherche une marque de paragraphe suivie d'une
minuscule. Les parenthèses permettent de définir un "groupe" qui sera
utilisé dans la zone de remplacement (s'il y a deux groupes de
parenthèses on utiliset \2 pour faire référence au second).

Claude



Le 03/09/2023 à 11:59, Michel Rudelle - Listes LibO a écrit :
Bonjour,

Il y a probablement des possibilités en utilisant un OCR, mais je
n'en
ai pas l'expérience. Peut-être d'autres contributeurs auront des
idées
à ce sujet.

Je suppose que vous avez fait un copier-coller du texte du PDF dans
le
document Writer. Dans ce cas, d'après mon expérience, chaque ligne
lue
dans le PDF est vue comme un paragraphe et donc toutes les lignes se
terminent par le signe représentant une fin de paragraphe.

On peut remplacer facilement ces fins de paragraphe par une espace:

Edition > Rechercher et remplacer : cocher dans les options
"Expressions régulières", dans Rechercher entrer le caractère $ et
dans Remplacer entrer le caractère espace, ensuite deux solutions:

1/ cliquer sur "Rechercher le suivant" et s'il s'agit d'une fin de
ligne et non d'une fin de paragraphe, cliquer sur "Remplacer" - ce
sera long pour 300 pages mais moins qu'avec la méthode que vous avez
mentionnée.

2/ cliquer sur "Tout remplacer", mais dans ce cas les vrais sauts de
paragraphe disparaîtront ! Pour les rétablir (en supposant que les
paragraphes se terminent bien par un point):

Edition > Rechercher et remplacer : cocher dans les options
"Expressions régulières", dans Rechercher entrer les caractères \.
suivis du caractère espace et dans Remplacer entrer les caractères
.\n
Cliquer sur "Rechercher le suivant" et si vous estimez qu'il s'agit d'une fin de paragraphe, cliquer sur "Remplacer" - ça peut être plus
rapide que la 1ère méthode.

Méthode testée avec un format ODT

Voir dans l'aide les expressions régulières pour comprendre la
signification des entrées proposées.

Cordialement,

Michel

PS: Si vous répondez, merci d'utiliser la fonction "répondre à tous"
de votre logiciel
     de courrier électronique de façon que la liste reçoive une copie
de votre réponse.

Le 02/09/2023 à 11:48, Jennifer Muller a écrit :
Bonjour
Je galère avec un fichier PDF converti en Word afin de pouvoir le
retravailler. La mise en page d'origine est un format personnalisé
et je
souhaite le passer en A4. Or une fois chose faite, le texte lui
demeure en
format personnalisé et chaque fin de phrase est donc déliée du
début
de la
phrase suivante. Le seul moyen trouvé est d'aller en fin de phrase
et de
faire une "suppr" d'espace. Mais sur un document plein de 300
pages....moyen
Y a-t-il une fonction qui reformate le texte entier proprement ? Le
faire
systématiquement correspondre au format de mise en page.
Merci beaucoup pour votre aide

-- Envoyez un mail àusers+unsubscribe@fr.libreoffice.org pour vous
désinscrire
Les archives de la liste sont disponibles à
https://listarchives.libreoffice.org/fr/users/
Privacy Policy:https://www.documentfoundation.org/privacy




--
Envoyez un mail à users+unsubscribe@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.