[fr-discuss] Grammalecte 0.2 et dictionnaire 4.6

"Olivier R." <olivier.noreply -AT- gmail.com>
Mon, 3 Sep 2012 01:45:17 -0700 (PDT)

Bonjour à tous,

## *Dictionnaire 4.6*

Cette version est dans la continuité des précédentes, aucune révolution en
cours.

Nouveautés :
— le bug de Hunspell empêchant la reconnaissance des mots avec majuscule,
apostrophe et majuscule successives, comme « L’Institut » a été contourné,
et ces mots ne seront désormais plus soulignés en rouge ;
— cette version du dictionnaire et les suivantes seront dorénavant
distribuées uniquement sous la licence MPL v2.0 (au lieu des trois licences
MPL 1.1, LGPL, GPL), suivant en cela Mozilla et TDF qui publient leurs
logiciels sous cette licence (le changement est encore en cours pour
LibreOffice) ; ça ne change pas grand-chose au final, mais ça simplifie
grandement la lecture des droits accordés ;
— environ 600 nouvelles entrées.

Merci à Tbj pour son assiduité, à dominiko pour m’avoir sorti de ma torpeur
pour le bug de Hunspell ;) et à tous les autres pour leur participation.


## *Grammalecte 0.2*

Je suis heureux de vous présenter cette nouvelle mouture du correcteur
grammatical qui apporte beaucoup de nouveautés, peu visibles à première vue
pour l’utilisateur, mais qui devraient améliorer nettement le confort
d’utilisation et l’aide à la chasse aux erreurs.

Les nouveautés se situent surtout sous le capot.


*Soulignement restreint à la zone d’erreur*

Auparavant, Grammalecte soulignait presque toujours toute la zone qu’il
avait dû examiner pour repérer une erreur. Par exemple, si vous écriviez «
Le petit chaperon rouges », il soulignait « Le petit chaperon rouges » au
lieu seulement de mettre en exergue « rouges ». C’était une contrainte
technique. Il n’était possible de faire autrement qu’au prix d’une lourde
chute des performances et d’une complexité plutôt rédhibitoire.
À présent, restreindre la zone signalée au mot erroné est aisé et sans
conséquences sur les performances.

Ce point qui paraît peut-être anodin a plusieurs conséquences :
— ça évite le chevauchement des erreurs que LibreOffice et OpenOffice ne
savent pas bien gérer (ce point a toutefois été amélioré depuis LibO 3.6),
— ça simplifie grandement la suggestion des graphies correctes (j’ai plutôt
manqué de temps pour réécrire toutes les règles pour donner une suggestion,
ce point reste donc encore largement améliorable, mais c’est à présent
possible) ;
— c’est probablement moins étrange pour l’utilisateur.
Et cette fonctionnalité est surtout un prérequis pour développer le
préprocesseur de texte dont je vais vous parler.

Cette fonctionnalité a été « backportée » dans Lightproof, le correcteur
duquel Grammalecte est issu.


*Le préprocesseur de texte*

Grammalecte, contrairement à LanguageTool et à Lightproof, analyse les
textes que LibreOffice lui envoie en deux passes : paragraphe par
paragraphe, puis phrase par phrase. Cet avantage permet d’introduire un
nouvel outil, le préprocesseur de texte, dont le rôle est de modifier (en
interne, pour le propre usage du correcteur uniquement) la phrase qu’il va
analyser ; ces modifications consistent notamment en une simplification du
texte, afin de le dépouiller de tout ce qui est gênant pour débusquer les
erreurs.

Grammalecte 0.2 fonctionne ainsi :
— analyse du paragraphe (sans modification du texte)

remontée des erreurs à LibreOffice,

— transformation du texte par le préprocesseur de texte,
— analyse phrase par phrase du texte modifié

remontée des erreurs à LibreOffice.

L’épure du texte consiste notamment à ôter les adverbes, les locutions
adverbiales, les expressions usuelles, les caractères indésirables qui
ponctuent régulièrement les écrits.

Cette épure a plusieurs conséquences :
— elle simplifie drastiquement la désambiguïsation du texte (un souci
permanent), et permet même souvent de se passer de faire de la
désambiguïsation,
— elle réduit conséquemment le nombre de faux positifs,
— elle simplifie la recherche des erreurs et soulage le programmeur des maux
de tête récurrents que la correction grammaticale automatique peut provoquer
;),
— elle permet la vérification, autrefois presque impossible, de certains
accords distants.

Ce n’est pas la panacée, mais ça débroussaille déjà pas mal et ça permet
vraiment d’y voir plus clair.

Concrètement, qu’est-ce que ça permet ? Voici par exemple des erreurs que
Grammalecte parvient dorénavant à débusquer, ce que ni LanguageTool ni
l’ancienne version ne sont capables de faire :

— Les hommes comme celui-là mange comme deux.
— Il venait, comme d’habitude, discuté avec son ami.
— Elle est de plus en plus belles.
— Ses « chiens » coure sur ma pelouse.
— Ils sont tout à fait désœuvré.
— Les infirmières à mi-temps ne travaille pas dans cette aile.
— Ils sont, semble-t-il, parti à la chasse.
— Je suis moi aussi complètement désespérés d’aller, le 1er janvier,
travaillé à l’usine.
— Ils sont bel et bien mort.
— Des peines à peine croyable.
— Ces types-là venait mangé chez moi tous les dimanches.
— Des règles pas du tout claire.
— Ce roman de Jean-Paul Sartre es passionnant.
— Celui d’entre nous qui mens.

Dans les exemples ci-dessus, Grammalecte supprime en interne ce qui le gêne
: « comme celui-là », « comme d’habitude », « de plus en plus », « à peine
», etc.

Il y a environ 140 règles dans le préprocesseur, qui opèrent un nombre plus
grand encore de modifications diverses.

À présent que le préprocesseur me simplifie la tâche, j’ai commencé à
étendre la recherche d’erreurs là où Grammalecte ne prenait auparavant
presque aucun risque de se tromper. Je n’en suis qu’au commencement sur ce
point. J’ai préféré publier une nouvelle version que je juge supérieure à
l’ancienne plutôt qu’attendre indéfiniment que ça me satisfasse pleinement.

Tout ceci n’est qu’un début, car je vois à présent que le potentiel du
préprocesseur est bien supérieur à ce que j’avais imaginé en premier lieu.
Expérimenter cet outil m’a donné plein d’idées audacieuses. Et je pense
maintenant qu’il est possible de créer avec ce système un correcteur
grammatical bien plus capable qu’il ne l’est déjà présentement.

Malheureusement, cela demandera encore beaucoup de temps et de tests. Il
s’est passé quasiment 8 mois entre cette version et la précédente, et, au
cours de cette période, je n’ai guère dû travailler plus de quelques
semaines avec ténacité sur le correcteur. Je me prends alors à espérer avoir
plus de temps à consacrer à cette tâche. Une seule année de travail à plein
temps donnerait de bien meilleurs résultats. Du coup, j’ai ouvert un compte
Paypal pour donations. Grammalecte reste bien sûr gratuit et vous êtes
libres de contribuer ou non. Je pense notamment à vous, entreprises,
institutions et organismes, qui installez des dizaines, des centaines, des
milliers de postes, mais les particuliers ne devraient pas sous-estimer leur
importance. Si vous appréciez ce logiciel, toute aide, en ces temps
difficiles, est la bienvenue. :) Ça me fera gagner un temps précieux pour le
développement de la suite.

Téléchargement :
http://www.dicollecte.org/grammalecte

Cordialement,
Olivier R.

--
View this message in context:
http://nabble.documentfoundation.org/Grammalecte-0-2-et-dictionnaire-4-6-tp4005161.html
Sent from the Discuss mailing list archive at Nabble.com.

--
Envoyez un mail à discuss+help@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être
supprimés

Context

[fr-discuss] Grammalecte 0.2 et dictionnaire 4.6 · Olivier R.
- Re: [fr-discuss] Grammalecte 0.2 et dictionnaire 4.6 · christophe cazin
  - [fr-discuss] Re: Grammalecte 0.2 et dictionnaire 4.6 · Olivier R.
    - Re: [fr-discuss] Re: Grammalecte 0.2 et dictionnaire 4.6 · christophe cazin
- Re: [fr-discuss] Grammalecte 0.2 et dictionnaire 4.6 · Sophie Gautier

Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.