Leif skrev:
En anden mulighed er at finde en eksisterende POS-tagger. Måske har
Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns
Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).
Esben skrev:
Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på
træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet
den manglende tekniske forudsætning for at jeg kan komme i gang.
Esben, har du overvejet, at det er muligt at bruge POS-taggeren fra CST
frem for at vi (du) genererer en fra vores egen database?
Vi kan evt. starte med at tage kontakt til CST for at afklare rettigheder
o.s.v.
/Leif
Den 28. mar. 2013 11.51 skrev Esben Aaberg <esben_aaberg@yahoo.com>:
Hej
Jeg har ikke fået taget hul på at ændre Taggeren til at være baseret på
træk fra databasen. Vil dog fluks prikke til Jeppe, så jeg kan få fjernet
den manglende tekniske forudsætning for at jeg kan komme i gang.
Når vi snakker om kontakt til andre sides/grupper, så tro jeg også det vil
være mulig at finde lidelsesfæller hos Dansk TeX-brugergruppe www.tug.dk,
jeg fandt en interessant tråd i et af deres fora vedr. orddeling.
Her fra vil jeg opridse nogle af de opgaver der ligger eller er i gang,
med en indikation om det er teknisk (tek.) eller lingvistisk (ling.); + en
karakter fra 1 til 5, hvor 1 for ling. svar til man f.eks. har dansk som
sit modersmål, og 5 man har studeret dansk og forstået det, og 1 for tek.
svar til at man kan bruge special programmer og ikke kendte hjemmesider, og
5 algoritme programmør. Alle emnerne vil have en minimum af karakteren 1 i
begge kategorier.
Stavekontrollen (Stavekontrolden):
Tilpasning til Retskrivningsordbogens udgave 2012. [Ca. 1/5 gennemført]
(ling. 2)
Tilføj ord fra synonymordbogen. [Der er over 5000 ord i synonymordbogen
som ikke ar kendt af
stavekontrollen] (ling. 1-3) *
Fugeelementer med flere kombinationer. (tek. 3)
Ret fejl fundet af regressiontest. (Ling. 3-4) el. (tek. 3-4)
Udvid regressiontest (tek. 3)
Grammatikkontrollen (LanguageTool):
Tagger. (tek. 3 + ling. 2-3)
Oversættelse af nye udvidelser bl.a. til Firefox (ling. 1-2)
Tilføj grammatikregler. [Der skal findes grammatik regler og de skal
skrives i XML] (ling. 2-5 + tek. 2) *
Hastighed performance vedr. ordforslag fra stavekontrollen. (tek. 3)
Synonymordbogen:
Tilføj flere synonymer. (ling. 1-2)
Oprydning i pakkeformatet. [F.eks. fjern opslagsord med special tegn]
(tek. 3)
Fjern ikke danske ord. (ling. 3-5)
Udvid regressiontest (tek. 3)
Orddeling:
Udvid regressiontest (tek. 3)
Skab testdata til regressiontest (ling. 2-5)
Skab ny orddelingsordbog (tek. 3-5 + ling. 2-4)
Jeg har sat en * udfor 2 opgaver, som falder godt i tråd med det Jan
beskriver han kan/vil bidrage med. Alle skal naturligvis være velkommende
til at tage en opgave op eller spørge mig yderligere, hvis man er oprigtig
interesseret i deltage/bidrage.
"Tilføj ord fra synonymordbogen" er en nem indgangs opgave. Find de ord
man kender, og tilføj dem med opmærkning på www.stavekontrolden.dk. Jeg
sender den aktuel liste til postlisten.
"Tilføj grammatikregler" en opgave med lidt mere kød på. Find grammatiske
fejl som folk typisk begår, og lave en regel der fanger den. Der findes et
web-værktøj http://languagetool.org/ruleeditor/ , dog vil man hurtig
blive tvunget til at skrive reglerne i en editor og teste dem fra en
kommandoprompt. Reglerne skal indsendes via e-mail.
Med venlig hilsen
Esben Aaberg
ps. Hvis man vil bidrage, men vil ende på tek. 0, så ville det være noget
med, at støtte mig med nogle af de spørgsmål jeg har. F.eks. hvilket
lovlige og ulovlige delings steder er der i ordene mccarthyisme og
battsene? (ling. 4-5)
--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner
om hvordan du ophæver dit abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på
http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke
efterfølgende slettes
--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.