Date: prev next · Thread: first prev next last


Den gang jeg startede med at lave den tagger vi har i dag, der kunne jeg ikke finde noget vedr. 
tagger/opmærkning af ord på dansk. Så jeg opfandt selv en syntaks hvor jeg prøvede at ligge mig op 
af de latinske betegnelser og den stil bl.a. polen bruger i LanguageTool.


Siden faldt jeg over korpusserne fra DSL, her har jeg kraftig overvejet om man kunne bruge deres 
tags royalty free, da mit påhit med tags-syntaks nok er blevet lidt rodet og man der udover letter 
ville kunne have personer der kunne have gavn af begge projekter. (CST bruger en lidt anderledes 
syntaks, men bestemt også noget man kunne lade sig inspirere af.)


Jeg overvejede ikke at høste en tagger fra DSLs korpusser, da de inderholder en del stavefejl som 
også er opmærket.

Den tagger fra CST ser ud til at være mere avanceret en det nogen af de andre sprog har i 
LanguageTool, da den prøver at gætte på hvilket opmærkning en homograf eller et homonym skal have, 
hvor vi bare giver den alle opmærkningerne. Denne forskel betyder også at der skal noget 
programmering til for at bruge deres, i steden for den flade fil der bruges i dag.

Hvilket af de 2 fremgangs måder der er bedst til vores formål det ved jeg ikke!

Nuværende:
+svar overens med stavekontrollen
+vi kan selv hurtig rette fejl
-problemer med flertydigheden på en del ord


CST:

+mere præcis opmærkning
-risikon for undertrykkelses af fejl, pga. gæt

-hastigheden
-kompleks programmering påkrævet

Mængden af plusser og minusser skal ikke ses som at jeg er mere for den ene ide frem for den anden.

Hvordan er det har du en god kontakt til CST, for det ville da aldrig skade og spørge uformel?

Hvilket opmærkninger der er relevant i en Tagger ift. grammatikregler, ved jeg heller ikke. Jeg kan 
se at ½ af reglerne der bruger postag, kun spørger på ordklassen (sub., ver., adj. osv.).



Med venlig hilsen


Esben Aaberg



________________________________
 Fra: Leif Lodahl <leiflodahl@gmail.com>
Til: 
Cc: "stavekontrol@da.libreoffice.org" <stavekontrol@da.libreoffice.org> 
Sendt: 15:56 lørdag den 30. marts 2013
Emne: Re: [da-stavekontrol] LanguageTools ...
 
Leif skrev:
En anden mulighed er at finde en eksisterende POS-tagger. Måske har
Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns
Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).


Esben skrev:
Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på
træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet
den manglende tekniske forudsætning for at jeg kan komme i gang.

Esben, har du overvejet, at det er muligt at bruge POS-taggeren fra CST
frem for at vi (du) genererer en fra vores egen database?

Vi kan evt. starte med at tage kontakt til CST for at afklare rettigheder
o.s.v.

/Leif
-- 
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit 
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.