Date: prev next · Thread: first prev next last


Hej Jan og alle andre,
Vores erfaringer med at udvikle og vedligeholde sprogværktøjer viser, at det kræver to typer frivillige:

 * Programmører
 * Lingvister

I en perfekte verden findes der lingvistiske programmører.

Vores sprogværktøjer administreres og vedligeholdes pt. primært af en enkelt person: Esben Aaberg.

Vores historie med grammatikkontrollen er følgende: For et par år siden lavede Esben og jeg en prototype, som bestod af ganske få syntaktiske regler. I sommeren 2012 var vi så heldige, at vi fik bevilget en studerende i Digitaliseringsstyrelsens "Kod i Ferien". Det resulterede i en noget bedre grammatikkontrol, dog fortsat uden sætningsanalyse. Resultatet kan findes her: https://wiki.documentfoundation.org/DA/LanguageTool

Vi bruger den danske Wikipedia til test, idet vi periodevis høster Wikipedia og tester samtlige artikler: http://community.languagetool.org/corpusMatch/list?lang=da .

Hvad er LanguageTools?
Rammeværket LanguageTools er programmeret i Java og er i virkeligheden resultatet af et tysk phd-projekt. LT kan bruges i LibreOffice, Open Office, Thunderbird, Firefox m.fl. Kontrollen består af tom typer "regler": Syntaktiske: Kontrollerer for typiske fejl (begynd en sætning med stort begyndelsesbogstav, undgå gentagelse af ord o.s.v.) Denne type regler bygges enten med XML eller Java. Sætningsanalyse: Kontrollerer for korrekt sætningsopbygning, herunder kommasætning. Sætningsanalyse forudsætter at vi har en såkaldt POS-tagger, hvilket er en komplet liste over alle ord og deres opmærkning.

Med en POS-tagger kan vi begynde at udvikle regler, der benytter sætningsanalyse.

Hvordan får vi fat i en POS-tagger?
Vi kan udvikle en på baggrund af vores stavekontrol. Vi har nemlig selv en stort set komplet ordliste, men det kræver en hulens masse programmering, at få genereret en POS-tagger. Esben Aaberg har kigget på det, men er ikke begyndt at programmere (Esben, be- eller afkræft gerne med en frisk status). En anden mulighed er at finde en eksisterende POS-tagger. Måske har Apertium-projektet en, ellers ved jeg tilfældigvis, at Københavns Universitet har en ( http://cst.dk/online/pos_tagger/index.html ).

Næste skridt?
I mit verdensbillede skal vi have en tovholder på det tekniske. En eller anden skal tage ansvar for at få undersøgt de tekniske forudsætninger. Det første skridt må være, at vurdere om vi skal lave en POS.tagger selv, eller om vi skal bruge en eksisterende tagger. Men derudover skal vi også have en person, der kan koordinere de forskellige interessenter (LibreOffice, Mozilla, KU, DSL, Wikipedia o.s.v.).

Hvordan kan vi hjælpe?
Vores erfaringer er, at udvikling er regler består af 20% regler og 80% undtagelser. Derfor må I meget gerne bruge LanguageTools og melde tilbage (her på listen), hvis I finder fejl. På sigt får vi brug for at få suppleret vores test-korpus (Esben har samlet en række tekster).

Esben må meget gerne supplere med yderligere ideer :-)


/Leif


Den 25-03-2013 15:11, Jan Møgelbjerg skrev:
Det falder mig af og til en anelse svært at gennemskue hvilke opgaver, der egentlig ligger og venter, bl.a. fordi vi har flere forskellige fora og der af og til bliver anvendt begreber som jeg ikke forstår, ligesom det ikke altid er indlysende (for mig) hvilke opgaver, der appelerer til hvilke evner.

Jeg er nemlig ikke programmør og arbejder heller ikke til daglig i en faglig sammenhæng hvor arbejdsdeling via netværk og fora indgår som arbejdsredskab. Jeg er derimod sprogmand og bruger dette til at skrive artikler og tekster til undervisningsbrug, samt rådgive om intern kommunikation.

Sagt på en anden måde, vil jeg gerne hjælpe med opgaver der har rent sproglig karakter, men det kræver at det står lysende klart for mig hvad der skal gøres og det må jeg indrømme jeg har lidt svært ved at overskue - selv efter at have fundet denne statusmeddelelse, som jeg går ud fra stadig er nogenlunde aktuel: http://listarchives.libreoffice.org/da/stavekontrol/msg00065.html

med venlig hilsen

Jan M

/mail fra Jan Møgelbjerg - //jan@mogelbjerg.dk/ <mailto:jan@mogelbjerg.dk>/
Søvejen 17 Vestbirk, 8752 Østbirk, tlf 61 69 01 72/



Den 24. mar. 2013 16.20 skrev leif <leiflodahl@gmail.com <mailto:leiflodahl@gmail.com>>:

    Hej alle,
    LanguageTools er efterhånden blevet en voksen fætter, som nu kan
    bruges i både Firefox og Thunderbird (ud over LibreOffice).

    Efter sidste års Kod i Ferien-projekt, er der ikke rigtig sket
    noget (Esben, har du kigget på at få genereret en dictionary fra
    vores stavekontrol?).

    Jeg synes det er rigtig ærgerligt at vi ikke kan finde nogen der
    kan videreføre projektet. Skal vi forsøge at kontakte Mozilla
    Danmark, for evt. at få dem på banen? Jeg ved ikke om de har
    ressourcer, men de kan måske hjælpe med at finde nogen. I bund og
    grund handler det jo i første omgang om at finde en tovholder. Er
    der nogen her, der har kontakt til Mozilla Danmark?

    Vil det være en mulighed, hvis vi kan finde nogle penge? Når det
    er et tværgående projekt (LibreOffice/OpenOffice/Mozilla), så vil
    det være realistisk, at vi finder penge til f.eks. at få udviklet
    en dictionary ud fra vores stavekontrol. Jeg har god kontakt til
    en række kommuner og firmaer.


    /Leif

-- Send en e-mail til stavekontrol+help@da.libreoffice.org
    <mailto:stavekontrol%2Bhelp@da.libreoffice.org> for instruktioner
    om hvordan du ophæver dit abonnement
    Problemer? http://da.libreoffice.org/kontakt-os/postlister/
    Posting guidelines + more:
    http://wiki.documentfoundation.org/Netiquette
    Listens arkiv er tilgængelig på
    http://listarchives.libreoffice.org/da/stavekontrol/
    Alle beskeder du sender til listen bliver publiseret her og kan
    ikke efterfølgende slettes




--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit 
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.