Hej Jan og alle andre,
Vores erfaringer med at udvikle og vedligeholde sprogværktøjer viser, at
det kræver to typer frivillige:
* Programmører
* Lingvister
I en perfekte verden findes der lingvistiske programmører.
Vores sprogværktøjer administreres og vedligeholdes pt. primært af en
enkelt person: Esben Aaberg.
Vores historie med grammatikkontrollen er følgende: For et par år siden
lavede Esben og jeg en prototype, som bestod af ganske få syntaktiske
regler. I sommeren 2012 var vi så heldige, at vi fik bevilget en
studerende i Digitaliseringsstyrelsens "Kod i Ferien". Det resulterede i
en noget bedre grammatikkontrol, dog fortsat uden sætningsanalyse.
Resultatet kan findes her:
https://wiki.documentfoundation.org/DA/LanguageTool
Vi bruger den danske Wikipedia til test, idet vi periodevis høster
Wikipedia og tester samtlige artikler:
http://community.languagetool.org/corpusMatch/list?lang=da .
Hvad er LanguageTools?
Rammeværket LanguageTools er programmeret i Java og er i virkeligheden
resultatet af et tysk phd-projekt. LT kan bruges i LibreOffice, Open
Office, Thunderbird, Firefox m.fl. Kontrollen består af tom typer "regler":
Syntaktiske: Kontrollerer for typiske fejl (begynd en sætning med stort
begyndelsesbogstav, undgå gentagelse af ord o.s.v.) Denne type regler
bygges enten med XML eller Java.
Sætningsanalyse: Kontrollerer for korrekt sætningsopbygning, herunder
kommasætning. Sætningsanalyse forudsætter at vi har en såkaldt
POS-tagger, hvilket er en komplet liste over alle ord og deres opmærkning.
Med en POS-tagger kan vi begynde at udvikle regler, der benytter
sætningsanalyse.
Hvordan får vi fat i en POS-tagger?
Vi kan udvikle en på baggrund af vores stavekontrol. Vi har nemlig selv
en stort set komplet ordliste, men det kræver en hulens masse
programmering, at få genereret en POS-tagger. Esben Aaberg har kigget på
det, men er ikke begyndt at programmere (Esben, be- eller afkræft gerne
med en frisk status).
En anden mulighed er at finde en eksisterende POS-tagger. Måske har
Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns
Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).
Næste skridt?
I mit verdensbillede skal vi have en tovholder på det tekniske. En eller
anden skal tage ansvar for at få undersøgt de tekniske forudsætninger.
Det første skridt må være, at vurdere om vi skal lave en POS.tagger
selv, eller om vi skal bruge en eksisterende tagger. Men derudover skal
vi også have en person, der kan koordinere de forskellige interessenter
(LibreOffice, Mozilla, KU, DSL, Wikipedia o.s.v.).
Hvordan kan vi hjælpe?
Vores erfaringer er, at udvikling er regler består af 20% regler og 80%
undtagelser. Derfor må I meget gerne bruge LanguageTools og melde
tilbage (her på listen), hvis I finder fejl. På sigt får vi brug for at
få suppleret vores test-korpus (Esben har samlet en række tekster).
Esben må meget gerne supplere med yderligere ideer :-)
/Leif
Den 25-03-2013 15:11, Jan Møgelbjerg skrev:
Det falder mig af og til en anelse svært at gennemskue hvilke opgaver,
der egentlig ligger og venter, bl.a. fordi vi har flere forskellige
fora og der af og til bliver anvendt begreber som jeg ikke forstår,
ligesom det ikke altid er indlysende (for mig) hvilke opgaver, der
appelerer til hvilke evner.
Jeg er nemlig ikke programmør og arbejder heller ikke til daglig i en
faglig sammenhæng hvor arbejdsdeling via netværk og fora indgår som
arbejdsredskab. Jeg er derimod sprogmand og bruger dette til at skrive
artikler og tekster til undervisningsbrug, samt rådgive om intern
kommunikation.
Sagt på en anden måde, vil jeg gerne hjælpe med opgaver der har rent
sproglig karakter, men det kræver at det står lysende klart for mig
hvad der skal gøres og det må jeg indrømme jeg har lidt svært ved at
overskue - selv efter at have fundet denne statusmeddelelse, som jeg
går ud fra stadig er nogenlunde aktuel:
http://listarchives.libreoffice.org/da/stavekontrol/msg00065.html
med venlig hilsen
Jan M
/mail fra Jan Møgelbjerg - //jan@mogelbjerg.dk/
<mailto:jan@mogelbjerg.dk>/
Søvejen 17 Vestbirk, 8752 Østbirk, tlf 61 69 01 72/
Den 24. mar. 2013 16.20 skrev leif <leiflodahl@gmail.com
<mailto:leiflodahl@gmail.com>>:
Hej alle,
LanguageTools er efterhånden blevet en voksen fætter, som nu kan
bruges i både Firefox og Thunderbird (ud over LibreOffice).
Efter sidste års Kod i Ferien-projekt, er der ikke rigtig sket
noget (Esben, har du kigget på at få genereret en dictionary fra
vores stavekontrol?).
Jeg synes det er rigtig ærgerligt at vi ikke kan finde nogen der
kan videreføre projektet. Skal vi forsøge at kontakte Mozilla
Danmark, for evt. at få dem på banen? Jeg ved ikke om de har
ressourcer, men de kan måske hjælpe med at finde nogen. I bund og
grund handler det jo i første omgang om at finde en tovholder. Er
der nogen her, der har kontakt til Mozilla Danmark?
Vil det være en mulighed, hvis vi kan finde nogle penge? Når det
er et tværgående projekt (LibreOffice/OpenOffice/Mozilla), så vil
det være realistisk, at vi finder penge til f.eks. at få udviklet
en dictionary ud fra vores stavekontrol. Jeg har god kontakt til
en række kommuner og firmaer.
/Leif
--
Send en e-mail til stavekontrol+help@da.libreoffice.org
<mailto:stavekontrol%2Bhelp@da.libreoffice.org> for instruktioner
om hvordan du ophæver dit abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more:
http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på
http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan
ikke efterfølgende slettes
--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.