Hej Sverre
Jeg har ingen erfaring med ElasticSearch, så mit svar er baseret på 5 minutters med Google og det
kendskab jeg har til den "synonymordbog" vi udgiver.
Hvis du downloader dict-da-2-3.oxt, herfra:
https://extensions.libreoffice.org/extensions/stavekontrolden-danish-dictionary
Omdøber den til dict-da-2-3.zip, og finder filen th_da_DK.dat, så vil du se at dette format ligner
den indre del af ElasticSearchs format meget.
Nu er det sådan at det ikke er en synonymordbog, men en tesaurus (begrebsordbog), så vi har bl.a.
over- og underbegreber med. Så hunds dataset omfatter også collie, om det er ønskelig til dit brug
kan jeg ikke gennemskue.
Vi bruger primært 2 datakilder, vores eget og data fra DanNet.
DanNets format er noget anderledes, men det kan findes her (vi bruger filen
DanNet-2.2_csv.zip):http://www.wordnet.dk/menu%3Fitem=2.html
DanNet har en klar opmærkning, om det er et synonym, hyperonym, antonym osv.
Vores engen kilde indeholder primært synonymer, og ligger i samme format som det der bliver udgivet
(findes også i en MySQL database). Jeg sender dig en kopi uden om listen.
Prøv at se om noget af dette dækker dit behov.
Med venlig hilsen
Esben Aaberg
Fra: Sverre Eplov <sverre@awion.dk>
Til: stavekontrol@da.libreoffice.org
Sendt: 17:06 mandag den 26. februar 2018
Emne: [da-stavekontrol] Datagrundlag for dansk synonym-ordbog
Hej,
Jeg sidder med et projekt, hvor jeg skal designe et sgevrktj til fuldtekstsgning i en lang rkke
rapporter, mails o.l. opbygget over manger. I den forbindelse vil jeg godt bygge sgeindexes op med
synonymer, og har et vrktj (ElasticSearch), der understtter dette.
Derfor er jeg ved at undersge hvor jeg kan finde en dansk synonym-ordbog i et format, som jeg kan
omarbejde til det format ElasticSearch forventer.
Kan I pege mig i en retning for hvor jeg kan finde disse data ?
Med venlig hillsen,
/Sverre Eplov
--
Send en e-mail til stavekontrol+unsubscribe@da.libreoffice.org for instruktioner om hvordan du
ophæver dit abonnement
Problemer? https://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: https://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på https://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
--
Send en e-mail til stavekontrol+unsubscribe@da.libreoffice.org for instruktioner om hvordan du
ophæver dit abonnement
Problemer? https://da.libreoffice.org/kontakt-os/postlister/
Posting guidelines + more: https://wiki.documentfoundation.org/Netiquette
Listens arkiv er tilgængelig på https://listarchives.libreoffice.org/da/stavekontrol/
Alle beskeder du sender til listen bliver publiseret her og kan ikke efterfølgende slettes
Context
Privacy Policy |
Impressum (Legal Info) |
Copyright information: Unless otherwise specified, all text and images
on this website are licensed under the
Creative Commons Attribution-Share Alike 3.0 License.
This does not include the source code of LibreOffice, which is
licensed under the Mozilla Public License (
MPLv2).
"LibreOffice" and "The Document Foundation" are
registered trademarks of their corresponding registered owners or are
in actual use as trademarks in one or more countries. Their respective
logos and icons are also subject to international copyright laws. Use
thereof is explained in our
trademark policy.