Bonjour à tous,
Moi je ne veux rien faire de particulier, la discussion est venue de la
demande initiale pour laquelle j'avais proposé une idée. Puis
apparemment et sans le vouloir, j'ai déclenché une "bronca" contre
Alt-search.
Cela m'arrive de traiter ce genre de problème sur des fichiers qui sont
mal scannés mais je me suis fait mes petites macros et routines de
remplacement et tout va bien pour moi.
Donc désolée pour le bruit que j'ai occasionné sans le vouloir.
Bonne journée à tous
Claude
Le 04/09/2023 à 21:57, Ocleyr2lalune a écrit :
précisément que veux tu faire ?
Pour supprimer la marque de paragraphe (= fusionner 2 paragraphes) :
- Rechercher $
- remplacer (par rien = laisser vide) puis tout remplacer
c'est écrit dans la 3e ligne du tableau de ce lien, déjà donné à midi
https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED
<https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED>
Pour remplacer un saut de ligne par un saut de paragraphe :
- Recherche /n
- Remplacer /n
/n est particulier et a une signification différente selon qu'il est
en recherche ou en remplacement.
Pour supprimer les sauts de lignes (retour chariot, comme sur la
touche entrée du clavier, ce que l'on obtient par un maj + entrée)
- Rechercher /n
- remplacer (par rien = laisser vide) puis tout remplacer
Généralement à l'import d'un fichier généré par ocr, on a à supprimer
soit des "retours chariots / sauts de ligne", soit des sauts de
paragraphes.
Quand les sauts de paragraphes ne sont pas justifiés et que le texte
est à peu près correct, oui on peut estimer qu'un paragraphe qui
commence par une minuscule n'est pas un nouveau paragraphe et que ce
sont ceux là qu'il faut supprimer...
Après tout cela est assez bien documenté. Il faut consulter les liens
fournis ce midi. "libreoffice expression régulière" et le moindre
moteur de recherche vous amènera sur ces pages...
Et en cas de besoin demander ici. On progresse tous par des essais
selon les cas que l'on doit gérer....
à noter, enfin qu'un PDF ouvert dans Draw, s'il n'est pas le produit
d'un scan peut être modifié directement.
Chaque ligne de texte est une une zone de texte distincte. Mais il
est
possible de les fusionner depuis quelques années (forme / consolider
le texte)
Enfin, vraiment, sur la question posée au départ, je crois que
l'utilisation de pandoc n'est pas à écarter. Elle demande moins de
manip que le redressement d'un fichier via des regexp ou altsearch !
Claire
Le 2023-09-04 21:14, prog.amateur@free.fr a écrit :
Ok j'ai compris pour le bloquant, mais Alt-search comme la boite de
dialogue du recherche et remplace n'est pas bloquant
Par contre pour le recherche et remplace que tu m'indiques, cela ne
fonctionne pas comme je voudrais car cela ne supprime pas la marque
de fin de paragraphe. Ou alors j'ai encore tout compris de travers ?
Le 04/09/2023 à 19:27, Landron Gérard a écrit :
Le 04/09/2023 à 18:19, prog.amateur@free.fr a écrit :
Je ne comprends pas quand tu dis que le recherche et remplace
n'est
pas bloquante et le Alt-search l'est ?
Je ne sais plus pour alt-search mais par exemple la boite
d'impression empêche l'accès au texte, de même les boites d'export
ce qui est normal puisque le texte ne doit plus être modifié à ce
moment là.
Pour vos exemples, le premier est facile, il faut simplement
inverser la logique :
rechercher la minuscule en débute de phrase
^[:lower:]
et la remplacer en mettant
$0
et un format majuscule dans la zone de recherche
les autres supposent une boucle que en fait pas la boite native
donc
à mon avis Alt-search est adapté
Le 04/09/2023 à 15:55, Landron Gérard a écrit :
Le 04/09/2023 à 16:08, prog.amateur@free.fr a écrit :
Re-bonjour,
Nous avions eu la même discussion, il n'y a pas si longtemps....
Personnellement l'avantage que j'apprécie avec Alt-Search c'est
de pouvoir sauvegarder mes chaines de recherche. Mais si on peut
le faire en natif, je suis preneuse de la solution.
tu peux toujours faire une autotext pour les stocker et les
appeler quand tu en as besoin, ce qui est bien avec la boite de
dialogue de recherche est qu'elle n'est pas bloquante pour le
logiciel, on peut copier dans le texte pour mettre dans la zone
de
recherche ou de remplacement
Claude
Gérard
Le 04/09/2023 à 12:40, Ocleyr2lalune a écrit :
Voui, j'ai tendance aussi à trouver que la fonction native est
suffisante.
D'autant que les expressions régulières les plus simples
permettent entre autre
De détecter des paragraphes vides
De detecter des débuts ou fin de paragraphe (pour rechercher
des
termes spécifiquement placés au début ou à la fin
De remplacer des retours chariots par des fins de paragraphes
ou
de les supprimer ( ce qui me semble être proche de la demande
initiale)
Peut-être que la différence essentielle est d'être plus ou
moins
familier avec la syntaxe des regex ou celle d'alt search (le
gouts et les couleurs).
Les expressions régulières ont l'avantage d'avoir une syntaxe
"universelle"
https://help.libreoffice.org/latest/fr/text/swriter/guide/search_regexp.html
pour la doc sur la recherche
https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED
<https://help.libreoffice.org/latest/fr/text/shared/01/02100001.html?&DbPAR=SHARED>
Pour la liste des regex
https://help.libreoffice.org/latest/fr/text/scalc/guide/wildcards.html?&DbPAR=SHARED
<https://help.libreoffice.org/latest/fr/text/scalc/guide/wildcards.html?&DbPAR=SHARED>
Pour les caractères génériques dans la recherche ce qui est
souvent suffisant dans la plupart des cas...
Tout ça sans exclure les réponses déjà faites il y a quelques
jours sur la façon de redresser un fichier word importé dans
writer.
Et, à l'appui de l'idée de Bernard d'utiliser pandoc pour faire
ces conversions....(pdf>html>odt)
Claire
Le 4 sept. 2023 à 12:22, à 12:22, "Landron
Gérard"<cornosier@palendriai.lt> a écrit:
Le 04/09/2023 à 11:27,prog.amateur@free.fr a écrit :
Bonjour,
Personnellement je fais cela avec Alt-Search (merci
Pierre-Yves). Les
marques de fin de paragraphes inutiles sont en général suivis d'une
minuscule. J'ai enregistré ces recherches.
L'inconvénient de altsearch est qu'il traite l'un après
l'autre
ce qui
est long et surtout ne permet pas, selon le nombre d'opération, de
faire
une annulation contrairement à l'option 'Expressions
régulières' native
Sauf changement récent car il a longtemps que je ne l'ai pas utilisé
Gérard
Rechercher : \p([a-z])
Remplacer : \1
Cocher Respecter la casse
Cocher Expressions régulières
Rechercher : \p([éèàùêâîôûçäëïöü?!:])
Remplacer : \1
Cocher Respecter la casse
Cocher Expressions régulières
ou
Rechercher : \p([éèàùêâîôûçäëïöü?!:])([a-z])
Remplacer : \2
Cocher Respecter la casse
Cocher Expressions régulières
Explication : on recherche une marque de paragraphe suivie d'une
minuscule. Les parenthèses permettent de définir un "groupe"
qui sera
utilisé dans la zone de remplacement (s'il y a deux groupes de
parenthèses on utiliset \2 pour faire référence au second).
Claude
Le 03/09/2023 à 11:59, Michel Rudelle - Listes LibO a écrit :
Bonjour,
Il y a probablement des possibilités en utilisant un OCR, mais je
n'en
ai pas l'expérience. Peut-être d'autres contributeurs auront des
idées
à ce sujet.
Je suppose que vous avez fait un copier-coller du texte du
PDF dans
le
document Writer. Dans ce cas, d'après mon expérience, chaque ligne
lue
dans le PDF est vue comme un paragraphe et donc toutes les
lignes se
terminent par le signe représentant une fin de paragraphe.
On peut remplacer facilement ces fins de paragraphe par une
espace:
Edition > Rechercher et remplacer : cocher dans les options
"Expressions régulières", dans Rechercher entrer le caractère $ et
dans Remplacer entrer le caractère espace, ensuite deux solutions:
1/ cliquer sur "Rechercher le suivant" et s'il s'agit d'une fin de
ligne et non d'une fin de paragraphe, cliquer sur "Remplacer" - ce
sera long pour 300 pages mais moins qu'avec la méthode que
vous avez
mentionnée.
2/ cliquer sur "Tout remplacer", mais dans ce cas les vrais
sauts de
paragraphe disparaîtront ! Pour les rétablir (en supposant que les
paragraphes se terminent bien par un point):
Edition > Rechercher et remplacer : cocher dans les options
"Expressions régulières", dans Rechercher entrer les caractères \.
suivis du caractère espace et dans Remplacer entrer les caractères
.\n
Cliquer sur "Rechercher le suivant" et si vous estimez qu'il
s'agit
d'une fin de paragraphe, cliquer sur "Remplacer" - ça peut
être plus
rapide que la 1ère méthode.
Méthode testée avec un format ODT
Voir dans l'aide les expressions régulières pour comprendre la
signification des entrées proposées.
Cordialement,
Michel
PS: Si vous répondez, merci d'utiliser la fonction "répondre
à tous"
de votre logiciel
de courrier électronique de façon que la liste reçoive
une copie
de votre réponse.
Le 02/09/2023 à 11:48, Jennifer Muller a écrit :
Bonjour
Je galère avec un fichier PDF converti en Word afin de pouvoir le
retravailler. La mise en page d'origine est un format
personnalisé
et je
souhaite le passer en A4. Or une fois chose faite, le texte lui
demeure en
format personnalisé et chaque fin de phrase est donc déliée du
début
de la
phrase suivante. Le seul moyen trouvé est d'aller en fin de
phrase
et de
faire une "suppr" d'espace. Mais sur un document plein de 300
pages....moyen
Y a-t-il une fonction qui reformate le texte entier
proprement ? Le
faire
systématiquement correspondre au format de mise en page.
Merci beaucoup pour votre aide
-- Envoyez un mail àusers+unsubscribe@fr.libreoffice.org pour
vous
désinscrire
Les archives de la liste sont disponibles à
https://listarchives.libreoffice.org/fr/users/
Privacy Policy:https://www.documentfoundation.org/privacy