Date: prev next · Thread: first prev next last


Hej Esben,
Av, der ramte du lige en akilleshæl.

Vi har ikke genereret ny thesaurus i mere end et år.

Historien er, at for et par år siden indgik jeg en aftale med DSL og KU om at vi må høste ord fra deres databaser. DSL har en lille synonymordbog og KU har en thesaurus (overord og underord) af meget høj kvalitet. Juhu. Samtidig flettede vi ordene sammen med vores egne synonymer fra synonym.oooforum.dk.

Når vi fletter de tre kilder, har vi besluttet at der ved sammenfald altid bruges de eksterne kilder. Det skyldes at den sproglige kvalitet er meget høj i disse kilder.

Vi fik udviklet en høstmaskine, som vi afviklede et par gange, men siden har vi glemt alt om den ;-)

Jeg ved at der efterfølgende er kommet nye ord i begge kilder, og der er muligvis også rettet i vores egen.

Vi skal naturligvis have indbygget dine kvalitetstjek i kompileringsprogrammet. Alt andet vil være dumt.

Men spørgsmålet er i virkeligheden om ikke det ville være smart, at du selv afvikler det program, der høster og pakker thesaurus? Der er jo sket den ændring, at de to ordbøger nu er samlet i en pakke.

Programmet er udviklet af Magenta ApS (som jeg arbejder hos), men det er åben sovs og vi overdrager med høj sandsynlighed gerne alle rettigheder til Stavekontrolden.

Med hensyn til stavekontrol kontra synonymordbogen. Jeg mener at vi i sin tid blev enige om, at ord der foreslås af synonymordbogen som udgangspunkt skal godkendes af stavekontrollen. Det var før du kunne differenciere mellem godkendte og foreslåede ord i stavekontrollen. Jeg synes at vi skal holde os til den aftale (den giver god mening), men også overveje hvordan vi skal håndtere undtagelser. Vi bruger eksterne kilder, som vi ikke er herre over. Derfor kan der opstå en situation, hvor thesaurus indeholder ord, som vi af en eller anden grund ikke vil have ind i stavekontrollen. Skal vi håndtere det med manuelle undtagelser i pakningen (disse ord udelades af vores synonymordbog), eller skal vi acceptere at der er ord i synonymordbogen, som bliver markeret som forkerte af stavekontrollen. Afgørelsen må afvejes op mod antallet af tilfælde.


Mvh.
Leif

On 25-02-2012 10:38, Esben Aaberg wrote:
Hej Leif

I forbindelse med at lavede en supportsag på optagelse af udvidelse "Stavekontrolden - Danish 
dictionary" ver. 2.0 i LibreOffice, blev der gjort opmærksom på at der var en fejl i dat-filen til 
synonymordbogen.

https://bugs.freedesktop.org/show_bug.cgi?id=44841

Please note that your th_da_DK.dat contains a bug, there is an empty line at
line number 127756. It is corrected in LibreOffice sources.


Som en konsekvens har af er jeg begyndt af at udviden regressiontest'en til også at teste på 
synonymordbogen.

Nedenfor kan det foreløbige resultat ses.

Jeg er begyndt at reducere antallet af ord i dat-filen, som stavekontrollen ikke vil godtag, ved at tilføje 
ord til Stavekontrolden. Jeg regner med at jeg nemt kan finde 500-1000 "almindelige" ord inden 
version 2.1, og så må vi siden kigge på de lidt mere kryptiske og sjældne ord.

De andre fejl skal jeg prøve at løse dem har fra eller er det noget I kan løse når i fortager 
bygningen af synonymordbogen?

Med venlig hilsen

Esben Aaberg

--------------------- OpenThesaurus - Dansk synonymordbog -------------------

Indekseringstest:
Det ser ud til indekseringen er i orden.

Tomme linjer i dat-filen:
127756 Antal fejl: 1

Dobbeltmellemrum i dat-filen:
|skatte- og afgiftsminister|minister for  og afgifter
Antal fejl: 1

Linjer med kun et tegn i dat-filen:
   7855    |
  19992    |
  31704    |
  31706    |
  32649    |
  39537    |
  55545    |
  87240    |
  92445    |
  95311    |
  96246    |
104237    |
104349    |
104356    |
107233    |
107447    |
107457    |
107461    |
110245    |
110465    |
111483    |
113019    |
117043    |
119660    |
137020    |
147594    |
Antal fejl: 26

Ord i dat-filen som stavekontrollen ikke kender:
-
abebrødtræ
-abel
abelmoschus
abies
abild
abitur
abrahams
abramis
abraxas
abrotanum
abs
abs-bremser
absinthium
abstract
abstrus
abyssinier
abyssinierkat
acacia
acalypha
acanthias
acanthiformis
acanthus
acari
accessoirer
accessories
accidenser
accipiter
accise
accoucheur
account
acer
acetatrayon
acetatsilke
acetosa
acetosella
acherontia
achillea
acid
acidhouse
acidofilus
acidofiluskultur
acidophilus
acinonyx
acipenseriformes
aconitum
acontobetaling
acontobidrag
acorus
acrania
acrocephalus
acta
actaea
actiniaria
actitis
aculeata
acuta
acutorostrata
acutus
ada
adam
adamskostyme
adansonia
addend
addenda
addikt
adelbåren
adfærdsforstyrret
adiafora
adiantum
adipøs
adjunktur
adled
admirabel
adorabel
adoxa
adskilthed
adspredthed
adverbielt
adversarier
advocatus
aegithalos
aeglefinus
aegolius
aegopodium
aegypiinae
aeneus
aepyceros
aequoreus
aerobiccenter
aerobicinstruktør
aerofobi
aerolit
aeromekanik
aeruginosus
aesculus
aethiopica
aetiopicus
afbarbere
afbide
afbygger
afbyggergård
afdø
affaires
affiche
affiks
affiliere
affindelsessum
affirmere
afflå
affutage
afghanerpels
afgrundsvælg
afgrødeplante
afhoppe
aficionado
afinstallation
afjaske
afjasket
afjævne
afkappe
afkopiere
afkridte
afkæmme
afladelse
afleden
aflide
aflivningsmetode
aflønningsform
afplatte
afprikke
afpræge
afrejsedag
africanus
afrikke
afro
afrodisi
Afrodite
afrodite
afryste
afrøfle
afrømme
afsaltningsanlæg
afsending
afsi
afsigte
afskildre
afskrotte
afspillefunktion
afspændthed
afstandstagen
aftenlandsk
aftenskolekursus
aftne
aftning
afvekslingsrig
agaricus
agerhønsejagt
------

SNIP

-------
æolsharpe
ærekærhed
æresfrygt
æresloge
ærgerligvis
ærke-
ærkedum
ærkehertuginde
ætermedie
ætsnatron
ætstor
ætylenglykol
øjensynliggøre
øjenvidneskildring
økonomaassistent
ømfindlig
ømål
ønolog
øresundstold
ørle
øster
østtimoreser
åkandefamilien
åland
Ålandsøerne
ålandsøerne
aalge
åndsbolle
åndsværk
årfugl
årsagsmæssig
Antal fejl: 5908



--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit 
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.