Den gang jeg startede med at lave den tagger vi har i dag, der kunne jeg ikke finde noget vedr.
tagger/opmærkning af ord på dansk. Så jeg opfandt selv en syntaks hvor jeg prøvede at ligge mig op
af de latinske betegnelser og den stil bl.a. polen bruger i LanguageTool.
Siden faldt jeg over korpusserne fra DSL, her har jeg kraftig overvejet om man kunne bruge deres
tags royalty free, da mit påhit med tags-syntaks nok er blevet lidt rodet og man der udover letter
ville kunne have personer der kunne have gavn af begge projekter. (CST bruger en lidt anderledes
syntaks, men bestemt også noget man kunne lade sig inspirere af.)
Jeg overvejede ikke at høste en tagger fra DSLs korpusser, da de inderholder en del stavefejl som
også er opmærket.
Den tagger fra CST ser ud til at være mere avanceret en det nogen af de andre sprog har i
LanguageTool, da den prøver at gætte på hvilket opmærkning en homograf eller et homonym skal have,
hvor vi bare giver den alle opmærkningerne. Denne forskel betyder også at der skal noget
programmering til for at bruge deres, i steden for den flade fil der bruges i dag.
Hvilket af de 2 fremgangs måder der er bedst til vores formål det ved jeg ikke!
Nuværende:
+svar overens med stavekontrollen
+vi kan selv hurtig rette fejl
-problemer med flertydigheden på en del ord
CST:
+mere præcis opmærkning
-risikon for undertrykkelses af fejl, pga. gæt
-hastigheden
-kompleks programmering påkrævet
Mængden af plusser og minusser skal ikke ses som at jeg er mere for den ene ide frem for den anden.
Hvordan er det har du en god kontakt til CST, for det ville da aldrig skade og spørge uformel?
Hvilket opmærkninger der er relevant i en Tagger ift. grammatikregler, ved jeg heller ikke. Jeg kan
se at ½ af reglerne der bruger postag, kun spørger på ordklassen (sub., ver., adj. osv.).
Med venlig hilsen
Esben Aaberg
________________________________
Fra: Leif Lodahl <leiflodahl@gmail.com>
Til:
Cc: "stavekontrol@da.libreoffice.org" <stavekontrol@da.libreoffice.org>
Sendt: 15:56 lørdag den 30. marts 2013
Emne: Re: [da-stavekontrol] LanguageTools ...
Leif skrev:
En anden mulighed er at finde en eksisterende POS-tagger. Måske har
Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns
Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).
Esben skrev:
Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på
træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet
den manglende tekniske forudsætning for at jeg kan komme i gang.
Esben, har du overvejet, at det er muligt at bruge POS-taggeren fra CST
frem for at vi (du) genererer en fra vores egen database?
Vi kan evt. starte med at tage kontakt til CST for at afklare rettigheder
o.s.v.
/Leif
--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.