Date: prev next · Thread: first prev next last


Hej Leif

Konkret kan jeg nævne nogle af de ting jeg har haft
fokus på siden efterårsversionen:
Frekvensanalyse af DSL-korpusserne, Wikipedia og
dokumenter fra UddannelsesCenter Ringkøbing-Skjern, dette
arbejde har udløst over 7000 ord der nu er lagt ind i
databasen. 
Spændende. Er det en idè at kigge på at høste ord fra
Wikipedia?


Øhh, ja! Det var det jeg bl.a. havde gjort. Først startede jeg med DSL-korpusserne hvor der nok er 
kommet 5000+ ord mere til fra. Her efter kastede jeg mig over Wikipedia, hvor jeg fik et sted 
mellem 1000 og 2000 ord. Fra UddannelsesCenter Ringkøbing-Skjern har jeg ind til vider fundet lidt 
under 1000 ord, men er ikke helt færdig endnu da jeg stadig forbedre på scriptet til at travle 
gennem dokumenterne. 


Der er også mulighed for at bede flere
uddannelsesinstitutioner bidrag med ord. Tidligere har
jeg hørt at det ikke er antallet af ord, der er
afgørende. Men du er måske ved at løbe tør for ord?


Man har lov til at blive klogere! For vores gamle antagelse af at antallet af ord ikke var 
afgørende er delvis rigtig, når vi snakker stavekontrol. Men snakker vi ordforslag hvor mange ord, 
kan sammensættes med mange ord, så får vi også mange dårlig forslag (hvilket nogen nok har bemærket 
;-) ).
Det de mange nye ord primært skal være med til at rette op på er ordforslagene. Det er derfor jeg 
har brugt frekvensanalyse, så det ikke bare er ord, men det er de ord folk bruger.
Jeg har nogle rigtig gode forbindelser til flere forskellige typer af uddannelsesinstitutioner, 
hvor jeg er overbevist om at jeg nok skal få de nødvendige tilladelser til at køre scriptet. Men 
jeg mener ikke det stopper her, for jeg betragter dette som en del af en branchetilpasning, så vi 
skal også have nogle af de "store" bruger med, som en fagforening, en folkeskole, forskellige 
offentlig institutioner osv. Målet er tilgengæld ikke 30 almene gymnasier, men 1 eller 2 af hver 
studieretning, da ord-udsvinget ligger i brancherne/fagtermerne.
 
En del af disse ord har man tidligere godt kunne stave
til, men langt fra alle. Forventningen er at det på sigt
vil give bedre ordforslag når man har taste/stavet forkert,
specielt med de muligheden der er på vej i Hunspell 1.3.x
der er på vej ind i de store bruger OOo, LibO og Fx, hvor
man kan slå ordforlag fra på sammensatte ord.
Har du mulighed for at beskrive hvilke nyheder der er på
vej, og evt. også hvilke konkrete konsekvenser du
forestiller dig det vil få for os?


Her er dem jeg allerede har tilføjet til aff-filen:

#Max. antal sammensatte ord i forslagslisten (0 switches off - n)
MAXCPDSUGS 0

Konsekvensen vil blive at man stadig kan skrive "smedepølse", men man vil ikke få det som et 
forslag. Man vil kun få de forslag hvor ordene rent faktisk er i ordbogen. Dette bevirker også at 
vi skal have proppet en del flere almindelig ord ind i ordbogen, for at sikre at der er et 
fornuftig svar ved en fejl.
Jeg har stor forventning til denne ændring, dog har jeg kun lave sporadiske test med Hunspell fra 
en kommandolinje og lidt i Mozilla Mindfield (Firefoxs udviklingsudgave), så jeg glæder mig til at 
se det reale resultat i daglig brug.


#Tillad at der ingen forslag kommer
ONLYMAXDIFF

Konsekvensen er at man ikke længer nødvendigvis få foreslået et dansk ord hvis man bar slå ned i 
taster eller har skrevet et længere ord der ikke er i ordbogen. 
Minimal påvirkning fra denne rettelse.

REP ^i i_ #iaften -> i aften
REP ^hen hen_ #henover -> hen over
REP ^påny$ på_ny
REP ^nutildags$ nu_til_dags

Ordforklaring REP sets a replacement table for multiple character corrections in  suggestion  mode.
Her er det nye at man kan tilføje et ^ for at det er først i et ord og er $ for at det er sidst i 
et ord. Dette vil give mere præcise ordforslag i nogle tilfælde.

Konsekvensen ved ændringen er at man slipper for f.eks. at der fra "iaften -> i aften" reglen, 
kommer forslag om at splitte et ord hvor "i" står midt inde i ordet som ikke genkendes, så det kun 
er når "i" står først.
Denne ændring har en meget negativ effekt på forslag i programmer der er pre 1.3.x i deres Hunspell 
version. Derfor er det ikke sikkert den kommer med i næste version af Stavekontrolden, eller der 
bliver måske differentieret mellem om det er til et kodetræ, hvor man ved der er understøttelse; 
eller om det er til udvidelsen som folk kunne finde på at installere i ældre programmer.

Udbredte stavefejl der ikke blev fanget, bl.a. baseret på
publikationen "114 stavefejl (som du for alt i verden
ikke må begå)"
Har du konkret indarbejdet den i stavekontrollen?


Jeg har fjernet nogle af ordene fra ordbogen, som var kommet ind fra DSL-korpusserne. Jeg har lavet 
nogle undtagelser på ord der ikke må sammensættes. Og for at forbedre forslagene har jeg lavet 
nogle få REP-linjer, som f.eks. REP ^nutildags$ nu_til_dags.


Forklar lige hvad SRX er for en ting.


Segmentation Rules eXchange (SRX)

Det går kort fortalt ud på at definere hvad er en sætning.
Før var det implementeret i Java-kode, nu er det implementeret i SRX, som er regulæreudtryk 
(regular expressions) gemt i XML.

LanguageTool tager sig både af grammatiske fejl og
syntaktiske fejl. Jeg har primært lavet forslag til de
syntaktiske fejl, idet jeg ikke er verdensmester i
grammatikken (for at sige det mildt).


Så er vi 2!

Der er ingen tvivl om at der skal nogle andre på banen her, hvis vi skal når langt. For jeg kan 
måske ryste en 10-15 regler mere ud af ærmet, ved hårdt benarbejde. Men når jeg har snakket med 
nogle af mine kollega der arbejder med dansk og ordblindeundervisning, så har de en helt anden 
indsigt i dette emne.

Skal vi gøre da.wikipedia opmærksom på at de faktisk kan
få hjælp fra os?


Jeg har kigget lidt på da.wikipedia.org. og tror 
http://da.wikipedia.org/wiki/Wikipedia:Landsbybr%C3%B8nden er et rimelig sted at give oplysningerne.


Med venlig hilsen

Esben Aaberg




-- 
Unsubscribe instructions: E-mail to stavekontrol+help@da.libreoffice.org
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
List archive: http://listarchives.libreoffice.org/da/stavekontrol/
All messages sent to this list will be publicly archived and cannot be deleted

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.