Date: prev next · Thread: first prev next last


En betydande andel av orden i stavningsordlistan utgörs av sammansatta ord.
Jag är fullt medveten om att urvalet för de flesta som tittar i källkoden
framstår som förryckt. För dem som använder ordlistan tror jag dock att den
är avsevärt bättre på att avgöra vilka ord som är rätt- respektive
felstavade än alla kommersiella rättstavningsordlistor.

Det finns flera helt separata anledningar som ligger bakom att så många
sammansättningar listas explicit. Jag har lagt ner omfattande forskning för
att få bra precision i hanteringen av sammansatta ord. Det skulle krävas en
avhandling för att ge en uttömmande redogörelse till varför ordlistan ser
ut som den gör, men jag hinner bara ge en ytterst kortfattad förklaring.
Syftet med ordlistan är naturligtvis att rättstavade ord ska godkännas
medan felstavade ord ska rödmarkeras. För de flesta språk, som t.ex.
engelska, är det enkelt att konstruera en sådan ordlista, men för det
svenska språket är det i princip omöjligt eftersom det p.g.a.
sammansättningsreglerna finns oändligt många ord och för att oerhört många
ord samtidigt kan vara korrekta sammansättningar såväl som felstavningar av
andra ord.

Låt mig ge några exempel på ord som stavningskontrollen i IE10 / Windows 8
godkänner: andledning, köttfärsås, överrens, parantes, överaska, dödstraff,
stadsminister, damsugare, jämnställdhet, stumpbyxor, affärside, självkart,
markanden, mensverk, bäcksvart, handuken, våldtäckt, skinjacka, gossedjur.
Jag skulle lätt kunna räkna upp 100000 liknande ord, men poängen är att
även om dessa ord rent tekniskt är helt korrekta (sammansatta) svenska ord,
så har en analys av min textdatabas, som omfattar cirka fem miljarder ord,
visat att dessa nästan enbart förekommer som felstavningar av andra ord
(anledning, köttfärssås, överens, parentes osv.). För mig är det minst lika
viktigt att felstavningar rödmarkeras som att rättstavade ord godkänns.
Därför lägger jag inte utan vidare in alla korrekta ord, utan jag gör en
bedömning utifrån ordets frekvens i förhållande till snarlika ords
frekvens, hur pass stigmatiserande en felanvändning av ordet är kontra hur
förvirrande en eventuell rödmarkering kan vara osv. Därför rödmarkerar min
ordlista inte bara de som listas ovan, utan även många ord som finns i
SAOL, exempelvis "amt", "väll", "ula", "ör", "fästig", "yste", "minde",
"kockan", "apporter" samt tusentals liknande korta ord.

Min ordlista kan alltså inte tillåta fri sammansättning, får då blir den
lika usel som stavningskontrollen i Word och IE10. Samtidigt vill jag att
alla sammansatta ord som sannolikt är korrekta ska godkännas. Jag vill
godkänna "livsmedel" och "livbåt" men inte "livmedel" och "livsbåt". Jag
har använt olika metoder för att nå bra resultat i detta avseende, varav
vissa leder till att många märkliga sammansättningar måste listas explicit
i ordlistan - det finns även en hel del felaktiga ord och sammansättningar
som listas fast då naturligtvis tillsammans med en flagga som markerar dem
som ogiltiga. Huvudmetoderna jag använt är att antingen lägga in en
generell spärregel och sedan explicit lista undantagen från spärregeln,
eller att först lägga in väldigt tillåtande sammansättningsregler och sedan
specifika undantagsregler som förbjuder ord som felaktigt godkänns av de
generella reglerna. Jag har också lagt till regler som går ut på att
sammansättningar som listas explicit leder till att automatgenererade
sammansättningar, som skiljer sig från dessa enbart med avseende på en
missad dubbelteckning av konsonant eller liknande, ska rödmarkeras. Många
sammansättningar har tagits med för att utnyttja denna metod, och en hel
del sammansättningar har lagts till för att täcka upp för de fall när denna
metod slår fel.

En annan anledning till att många sammansatta ord finns med explicit är att
de behövs för att ordlistan ska kunna hantera tre- och fyrledade
sammansättningar korrekt.

Den främsta anledningen till att så många sammansättningar är med är dock
rent egoistisk från min sida. Det är nämligen så att om jag lät LibreOffice
på eget bevåg generera sammansatta ord som rättstavningsförslag till
rödmarkerade ord, så går det inte att lägga några semantiska restriktioner
på hur den genererar förslagen utan enbart syntaktiska. Det skulle leda
till att tokiga ord som "myrdator", "företagsnapp", "sandröken" m.fl. ges
som rättstavningsförslag. Jag har gjort en grundlig marknadsundersökning
som visat att både ordlistan och dess upphovsman framstår som "helt jävla
efterblivna" i så fall. För att halvera antalet gånger som jag blir
idiotförklarad i bloggar och medier spärrar jag alltså de automatgenererade
sammansättningarna, vilket är möjligt i LO från version 3.5 och i Apache
OpenOffice sedan version 3.4.1. (Äldre versioner av programmen innehåller
dessutom en bugg, fixad i hunspell v1.2.13, som gör att
rättstavningsförlagen i vissa fall genereras katastrofalt felaktigt även
rent syntaktiskt.) Detta ledde dock till ett annat problem, nämligen att
många extremt vanliga sammansättningar, som ordlistan godkänner via regler,
inte kan ges som rättstavningsförslag ifall någon stavar det fel. Därmed
blir ordlistan avsevärt mindre hjälpsam för dem som har svårt för att stava
och inte omedelbart kan rätta felet på egen hand. Lösningen blev att jag
lade in några hundra tusen vanliga sammansättningar explicit enbart för att
de ska kunna ges som rättstavningsförslag.

-- 
Unsubscribe instructions: E-mail to discuss+help@sv.libreoffice.org
Posting guidelines + more: http://wiki.documentfoundation.org/Netiquette
List archive: http://listarchives.libreoffice.org/sv/discuss/
All messages sent to this list will be publicly archived and cannot be deleted

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.