Hej Esben,
Av, der ramte du lige en akilleshæl.
Vi har ikke genereret ny thesaurus i mere end et år.
Historien er, at for et par år siden indgik jeg en aftale med DSL og KU
om at vi må høste ord fra deres databaser. DSL har en lille
synonymordbog og KU har en thesaurus (overord og underord) af meget høj
kvalitet. Juhu. Samtidig flettede vi ordene sammen med vores egne
synonymer fra synonym.oooforum.dk.
Når vi fletter de tre kilder, har vi besluttet at der ved sammenfald
altid bruges de eksterne kilder. Det skyldes at den sproglige kvalitet
er meget høj i disse kilder.
Vi fik udviklet en høstmaskine, som vi afviklede et par gange, men siden
har vi glemt alt om den ;-)
Jeg ved at der efterfølgende er kommet nye ord i begge kilder, og der er
muligvis også rettet i vores egen.
Vi skal naturligvis have indbygget dine kvalitetstjek i
kompileringsprogrammet. Alt andet vil være dumt.
Men spørgsmålet er i virkeligheden om ikke det ville være smart, at du
selv afvikler det program, der høster og pakker thesaurus? Der er jo
sket den ændring, at de to ordbøger nu er samlet i en pakke.
Programmet er udviklet af Magenta ApS (som jeg arbejder hos), men det er
åben sovs og vi overdrager med høj sandsynlighed gerne alle rettigheder
til Stavekontrolden.
Med hensyn til stavekontrol kontra synonymordbogen. Jeg mener at vi i
sin tid blev enige om, at ord der foreslås af synonymordbogen som
udgangspunkt skal godkendes af stavekontrollen. Det var før du kunne
differenciere mellem godkendte og foreslåede ord i stavekontrollen. Jeg
synes at vi skal holde os til den aftale (den giver god mening), men
også overveje hvordan vi skal håndtere undtagelser. Vi bruger eksterne
kilder, som vi ikke er herre over. Derfor kan der opstå en situation,
hvor thesaurus indeholder ord, som vi af en eller anden grund ikke vil
have ind i stavekontrollen. Skal vi håndtere det med manuelle
undtagelser i pakningen (disse ord udelades af vores synonymordbog),
eller skal vi acceptere at der er ord i synonymordbogen, som bliver
markeret som forkerte af stavekontrollen. Afgørelsen må afvejes op mod
antallet af tilfælde.
Mvh.
Leif
On 25-02-2012 10:38, Esben Aaberg wrote:
Hej Leif
I forbindelse med at lavede en supportsag på optagelse af udvidelse "Stavekontrolden - Danish
dictionary" ver. 2.0 i LibreOffice, blev der gjort opmærksom på at der var en fejl i dat-filen til
synonymordbogen.
https://bugs.freedesktop.org/show_bug.cgi?id=44841
Please note that your th_da_DK.dat contains a bug, there is an empty line at
line number 127756. It is corrected in LibreOffice sources.
Som en konsekvens har af er jeg begyndt af at udviden regressiontest'en til også at teste på
synonymordbogen.
Nedenfor kan det foreløbige resultat ses.
Jeg er begyndt at reducere antallet af ord i dat-filen, som stavekontrollen ikke vil godtag, ved at tilføje
ord til Stavekontrolden. Jeg regner med at jeg nemt kan finde 500-1000 "almindelige" ord inden
version 2.1, og så må vi siden kigge på de lidt mere kryptiske og sjældne ord.
De andre fejl skal jeg prøve at løse dem har fra eller er det noget I kan løse når i fortager
bygningen af synonymordbogen?
Med venlig hilsen
Esben Aaberg
--------------------- OpenThesaurus - Dansk synonymordbog -------------------
Indekseringstest:
Det ser ud til indekseringen er i orden.
Tomme linjer i dat-filen:
127756
Antal fejl: 1
Dobbeltmellemrum i dat-filen:
|skatte- og afgiftsminister|minister for og afgifter
Antal fejl: 1
Linjer med kun et tegn i dat-filen:
7855 |
19992 |
31704 |
31706 |
32649 |
39537 |
55545 |
87240 |
92445 |
95311 |
96246 |
104237 |
104349 |
104356 |
107233 |
107447 |
107457 |
107461 |
110245 |
110465 |
111483 |
113019 |
117043 |
119660 |
137020 |
147594 |
Antal fejl: 26
Ord i dat-filen som stavekontrollen ikke kender:
-
abebrødtræ
-abel
abelmoschus
abies
abild
abitur
abrahams
abramis
abraxas
abrotanum
abs
abs-bremser
absinthium
abstract
abstrus
abyssinier
abyssinierkat
acacia
acalypha
acanthias
acanthiformis
acanthus
acari
accessoirer
accessories
accidenser
accipiter
accise
accoucheur
account
acer
acetatrayon
acetatsilke
acetosa
acetosella
acherontia
achillea
acid
acidhouse
acidofilus
acidofiluskultur
acidophilus
acinonyx
acipenseriformes
aconitum
acontobetaling
acontobidrag
acorus
acrania
acrocephalus
acta
actaea
actiniaria
actitis
aculeata
acuta
acutorostrata
acutus
ada
adam
adamskostyme
adansonia
addend
addenda
addikt
adelbåren
adfærdsforstyrret
adiafora
adiantum
adipøs
adjunktur
adled
admirabel
adorabel
adoxa
adskilthed
adspredthed
adverbielt
adversarier
advocatus
aegithalos
aeglefinus
aegolius
aegopodium
aegypiinae
aeneus
aepyceros
aequoreus
aerobiccenter
aerobicinstruktør
aerofobi
aerolit
aeromekanik
aeruginosus
aesculus
aethiopica
aetiopicus
afbarbere
afbide
afbygger
afbyggergård
afdø
affaires
affiche
affiks
affiliere
affindelsessum
affirmere
afflå
affutage
afghanerpels
afgrundsvælg
afgrødeplante
afhoppe
aficionado
afinstallation
afjaske
afjasket
afjævne
afkappe
afkopiere
afkridte
afkæmme
afladelse
afleden
aflide
aflivningsmetode
aflønningsform
afplatte
afprikke
afpræge
afrejsedag
africanus
afrikke
afro
afrodisi
Afrodite
afrodite
afryste
afrøfle
afrømme
afsaltningsanlæg
afsending
afsi
afsigte
afskildre
afskrotte
afspillefunktion
afspændthed
afstandstagen
aftenlandsk
aftenskolekursus
aftne
aftning
afvekslingsrig
agaricus
agerhønsejagt
------
SNIP
-------
æolsharpe
ærekærhed
æresfrygt
æresloge
ærgerligvis
ærke-
ærkedum
ærkehertuginde
ætermedie
ætsnatron
ætstor
ætylenglykol
øjensynliggøre
øjenvidneskildring
økonomaassistent
ømfindlig
ømål
ønolog
øresundstold
ørle
øster
østtimoreser
åkandefamilien
åland
Ålandsøerne
ålandsøerne
aalge
åndsbolle
åndsværk
årfugl
årsagsmæssig
Antal fejl: 5908
--
Send en e-mail til stavekontrol+help@da.libreoffice.org for instruktioner om hvordan du ophæver dit
abonnement
Problemer? http://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på http://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.