Date: prev next · Thread: first prev next last


Hej Leif

Det betyder at der ikke kommer forslag hvor vi gætter på hvad der kan sammensættes.

Sammensatte ord der er i Stavekontrolden forslås.

Jeg har lavet et Linux Shell/Bach-script der laver frekvensanalyse af ord, ud fra tekstdokumenter i 
en mappe og dens undermapper. Denne mappe kunne f.eks. være en filservers rod-mappe evt. tilsluttet 
via Samba.

Dette script har bl.a. været kørt på UddannelsesCenter Ringkøbing-Skjern, hvor det er over 60.000 
dokumenter der har lagt grundlag for den analyse jeg har arbejdet mest med på det seneste. 
Tidligere har jeg også kørt den på den danske Wikipedia og korpusserne fra DSL.

Mine fremtidsplaner er at få kørt scriptet hos repræsentative bruger af Stavekontrolden, det kunne 
være på en folkeskole, en handelsskole, en kommune, en fagforening, et sygehus og så senere over 
til smallere brugergrupper som et lystfiskerblad, en haveforening osv. og derved få en 
brancheoptimering i den rækkefølge hvor vi rammer flest mulige bruger.


Men en ting er at få lavet analysen, det næste er så at få lagt de ord ind man identificere. Jeg 
kan holde en kadence på 25-30 ord om dage i snit over tid, hvilket betyder at der er ca. 8-10.000 
ord mere i Stavekontrolden 2.0pre3 end der var i 1.6.

Jeg har lavet en test, hvor der fundet 21540 ord på en minimums længde af 4 tegn, hvor ordet bliver 
godkendt af minimum 1 af disse 3 stavekontroller Stavekontrolden 1.6, Stavekontrolden 2.0pre2 og 
da.speling 1.4.87. Ordene er så blevet forsynet med kunstige stavefejl, som fjern et
 tegn,  tilføj et tegn, udskift et tegn, lav om i endelsen, eller byt et tegn der ofte forveksles. 
Her har Stavekontrolden 2.0pre3 så det rigtige ord med i forslagslisten i 16045 af tilfældene, og 
godkender yderligere 1760 ord hvor sammensætning er slået fra. Det vil sig en hitrate på 82,66%, 
hvor Stavekontrolden 2.0pre1 kun havde en hitrate på 79,61% (når der var korrigeret for en 
tastefejl vedr. sammensatte forslag i aff-filen).

Ja, havebord er så et af de ord jeg ikke var støt på endnu, men tilgengæld er kædedans, hytteost, 
guldvægt, døgnboks, boksebold, bageform, vielsesring, sygeseng, svingtur, strikkepind, springkniv, 
sparegris, skilteskov, og ruinhob nået med. Havebord er nu også lagt ind, så den er med i 
Stavekontrolden 2.0 final.


Med venlig hilsen

Esben Aaberg



----- Original meddelelse -----
Fra: leif <leiflodahl@gmail.com>
Til: stavekontrol@da.libreoffice.org
Sendt: 15:57 lørdag den 1. oktober 2011 
Emne: Re: [da-stavekontrol] LibreOffice udvidelse

Hej Esben,
Betyder det at der overhovedet ikke bliver foreslået sammensatte ord 
længere?

Hvordan får vi indsamlet og registreret de sammensatte ord som vi 
betragter som selvstændige ord, og som derfor gerne må foreslås?

Eksempelvis ordet "havebord". Der er et sammensat ord "have" og "bord", 
men det er et ord som jeg mener skal foreslås.

/Leif

-- 
Unsubscribe instructions: E-mail to stavekontrol+help@da.libreoffice.org
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
List archive: http://listarchives.libreoffice.org/da/stavekontrol/
All messages sent to this list will be publicly archived and cannot be deleted

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.