Date: prev next · Thread: first prev next last
2013 Archives by date, by thread · List index


*** GRAMMALECTE 0.3 ***

Reportée depuis plusieurs mois, la nouvelle version majeure du correcteur
grammatical voit enfin le jour.

// PRÉREQUIS

Cette version nécessite l’installation de la dernière extension
multi-dictionnaires, la version 4.11, car l’étiquetage grammatical a changé.
Sans cette extension, le correcteur grammatical sera dans certains cas
incapable de comprendre ce que sont certains mots. Pareillement, évitez
d’installer la nouvelle extension multi-dictionnaires avec les anciennes
versions de Grammalecte.


// JOURNAL DES MODIFICATIONS (résumé)

— Moteur multi-passes et réorganisation des règles de contrôle
— Moins faux positifs (comme d’habitude)
— Bugs divers corrigés
— Le lexicographe : informe de la nature grammaticale des mots dans le menu
contextuel
— Le formateur de texte : formatage automatique du texte (apostrophes,
espaces, etc.), accessible depuis le menu Outils


// MOTEUR MULTI-PASSES ET PRÉPROCESSEUR DE TEXTE

La nouveauté majeure, la plus discrète, concerne le moteur interne du
correcteur. En version 0.1, Grammalecte, à l’instar de LanguageTool,
n’effectuait qu’une seule passe sur le texte. Avec la version 0.2, le moteur
en faisait deux (une paragraphe par paragraphe, une phrase par phrase) et
utilisait un préprocesseur pour simplifier le texte entre les deux passes.
Concrètement, ça revenait à ôter les signes graphiques encombrants, les
adverbes, les locutions adverbiales et les expressions usuelles. Je ne
reviens pas dessus, il suffit de relire ce que j’ai écrit sur la version 0.2
(http://www.dicollecte.org/thread.php?prj=fr&t=283).

Avec la version 0.3, le correcteur peut effectuer un nombre de passes
théorique illimité, avec pour chacune d’elles un préprocesseur qui simplifie
le texte et ôte ce qui n’est plus utile à la vérification. À présent, pour
le français, cinq passes sont faites, et d’autres viendront peut-être à
l’avenir selon les besoins.

Voici grosso modo comment ça se passe :

—> Passe 0, paragraphe par paragraphe
— Préprocesseur : suppression des URL
— Vérification des signes graphiques : apostrophes, ponctuation, espaces,
guillemets, etc.

—> Passe 1, phrase par phrase
— Préprocesseur : suppression des signes graphiques encombrants (guillemets,
certains tirets)
— Contrôle de cohérence entre certaines catégories de mots

—> Passe 2
— Préprocesseur : suppression des adverbes, locutions adverbiales,
expressions usuelles, etc.
— Contrôle des groupes nominaux

—> Passe 3 & 4
— Préprocesseur : suppression de certains pronoms et adverbes entourant les
verbes
— Contrôle des conjugaisons

Si le moteur multi-passes est au point, en revanche, la réorganisation des
règles de contrôle n’en est qu’à son commencement. Le potentiel du nouveau
moteur se déploiera au fur et à mesure des versions ultérieures. Comme
d’habitude, je préfère opérer une montée progressive des ajouts et des
modifications pour éviter une explosion des faux positifs.

Et comme toujours, la nouvelle version introduit de nouvelles règles de
contrôle, corrige nombre de bugs mineurs et réduit le nombre de fausses
alertes.

Enfin et surtout elle apporte avec elle de nouveaux outils annexes.


// LE LEXICOGRAPHE

Cet outil est très simple à utiliser, il est purement informatif. Sur un
clic droit, le menu contextuel indique quelle est la nature grammaticale du
mot sur lequel se trouve le curseur : nom, adjectif, adverbe, verbe, etc.
Cette fonction est un peu expérimentale, mais fonctionne sans poser de
problème particulier. Si vous constatez une erreur dans l’étiquetage, il
faut proposer une modification du dictionnaire, car cet outil ne fait que
transcrire de manière lisible les étiquettes inscrites dedans.

L’étiquetage du dictionnaire n’est pas toujours cohérent, observerez-vous
peut-être. Par exemple, pour un nom masculin ou féminin, il peut y avoir une
entrée étiquetée épicène, ou bien deux entrées, l’une disant que le nom est
masculin, l’autre qu’il est féminin.

Requis : LibreOffice 4+, OpenOffice 3.4+. Ça ne fonctionne pas avec
OpenOffice.org et LibreOffice 3.x à cause d’un bug de l’API corrigé
dernièrement. Même avec ces versions, vous pouvez tout de même installer
l’extension. Le correcteur grammatical fonctionnera, mais cette fonction
sera inopérante.

Note : cet outil permettra à l’avenir d’afficher d’autres informations
lexicales, sémantiques ou étymologiques. C’est déjà possible en fait, mais
ça complique la tâche du correcteur grammatical, car ces informations sont
disposées au beau milieu des étiquettes grammaticales (c’est dû à la
structure du dictionnaire, et ce n’est pas modifiable). Pour bénéficier de
ces informations, il faudrait ou bien tolérer une perte de performance du
correcteur grammatical, ou bien recomposer tout le lexique dans un automate
à états finis binaire indexable. La 2e solution a ma préférence, c’est le
remède à beaucoup de problèmes, mais ce n’est pas pour tout de suite.


// LE FORMATEUR DE TEXTE

Cet outil, là encore assez simple, sert à automatiser le processus de
correction des erreurs les plus communes, notamment typographiques. Si vous
en avez marre de corriger une par une les apostrophes droites, les espaces
surnuméraires, les guillemets et toutes sortes d’erreurs récurrentes, cet
outil est fait pour vous. J’ai testé l’outil plusieurs fois, mais je vous
recommande de l’essayer en premier lieu sur des textes assez courts, afin de
vérifier qu’il ne corrompt rien.

Note : l’outil touche aux espaces, mais pas aux tabulations. Même si
beaucoup font des mises en page dégueulasses avec des tabulations, il m’a
paru dangereux de modifier automatiquement celles-ci.

Accès : menu Outils > Formateur de texte


Captures d’écran :
http://www.dicollecte.org/grammalecte/outils.php

Téléchargement :
http://www.dicollecte.org/grammalecte/telecharger.php



*** DICTIONNAIRES 4.11 ***

— environ 700 nouvelles entrées,
— révision de l’étiquetage grammatical,
— étiquetage grammatical à 100 % (il manquait 0,2 % depuis pas mal de
temps).

Cette version du dictionnaire est INDISPENSABLE au bon fonctionnement de
Grammalecte 0.3.
Vous ne devez pas utiliser cette extension avec les anciennes versions de
Grammalecte (0.2.x et antérieures).

Téléchargement :
http://www.dicollecte.org/grammalecte/telecharger.php


Olivier



--
View this message in context: 
http://nabble.documentfoundation.org/Grammalecte-03-et-Dictionnaires-4-11-tp4062118.html
Sent from the Discuss mailing list archive at Nabble.com.

-- 
Envoyez un mail à discuss+unsubscribe@fr.libreoffice.org pour savoir comment vous désinscrire
Les archives de la liste sont disponibles à http://listarchives.libreoffice.org/fr/discuss/
Tous les messages envoyés sur cette liste seront archivés publiquement et ne pourront pas être 
supprimés

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.