Frekvensstatistikk for ord

Forfattar

Karl Ove Hufthammer

Innleiing

Me har nokre enkle skript for å undersøkja kva som er dei vanlegaste ordformene eller ordvala i omsetjingane våre. For eksempel fungerer det slik når me slår opp ordet «bidratt»:

$ frek bidratt
ID      Grunnord  Bøying    Ordklasse         Kode
123355  bidra     bidrege   verb perf-part    341
123355  bidra     bidratt   verb perf-part    373
123355  bidra     bidradd   verb perf-part    374
[…]

Ord       Frekvens
bidrege   14
bidratt   2
bidradd   1
bidregen  0

Me ser at den vanlegaste skrivemåten av perfektumforma av dette verbet er «bidrege» (14 førekomstar), ikkje «bidratt» (2 førekomstar) eller «bidradd» (1 førekomst). Så me bør velja forma «bidrege»1 når me skal bruka ordet i ei omsetjing.

Me bør sjølvsagt òg retta opp i dei inkonsekvente omsetjingane som finst frå før («bidratt» og «bidradd). Og når me først er i gang med å retta opp, bør me òg sjekka frekvens­statistikken for andre former av ordet. Eit oppslag i nynorskordboka på nett eller via programmet ordbanken (kommando: ordbank bidra) kan for eksempel fortelja oss at dersom me brukar partisippforma «bidrege», må det vera «bidreg» i presens òg (ikkje «bidrar», som me må ha viss me brukar formene «bidratt» eller «bidradd»).

Installering

I tillegg til sjølve skripta treng me ei frekvensordliste og nokre ekstra verktøy. Desse er kjappe å installera, og det trengst berre gjerast éin gong.

Nedlasting av skripta

Skripta lastar me ned med denne kommandoen:

git clone https://gitlab.com/l10n-no/l10n-ordfrekvens.git

Oppretting av frekvensordliste

Så må me laga ei frekvensordliste basert på omsetjingsfilene vår:

cd l10n-ordfrekvens
./lag-frekvens-ordliste.sh /mappe/med/omsetjingsfiler > frekvens-nn.dat

Dette går gjennom alle omsetjingsfilene i mappa, hentar ut alle orda på minst tre bokstavar og lagrar ei frekvensordliste som fila frekvens-nn.dat. Her er nn språkkoden for nynorsk, så bruk heller nb viss omsetjingsfilene er på bokmål.

Installering av ordlistefiler

Skripta brukar ordlistefiler frå programmet ordbanken (som igjen kjem frå Norsk ordbank). Viss me alt har det installert, er alt i orden. Elles kan me lasta det ned med denne kommandoen:

git clone https://git.savannah.nongnu.org/git/ordbanken.git

(Det er ikkje nødvendig å installera programmet for bruk med frekvensskripta; me treng berre ha det nedlasta.)

Installering av R og tilhøyrande pakkar

Skripta brukar òg programmet R. Installer dette frå pakkehandsamaren i distroen. Installer òg dei tilhøyrande R-pakkane dplyr, readr, stringr, tidyr og feather. Viss det er mogleg, bruk helst pakkehandsamaren til dette òg. Eventuelt kan me gjera det manuelt med denne kommandoen etter å ha starta R:

install.packages(c("dplyr", "readr", "stringr", "tidyr", "feather"))

Bruk

Grunnleggjande bruk

For å slå opp ordet «bidratt», køyrer me denne kommandoen:

./hent-frekvens-statistikk.R nn adresse/til/ordbanken bidratt

Dette

  1. slår opp ordet «bidratt» i nynorskversjonen (nn) av ordbankfilene2
  2. finn ut kva (grunn)ord dette er ei bøying av og kva type bøying det er3
  3. finn andre tilsvarande bøyingar for dette ordet / desse orda (som «bidrege» og «bidradd»)
  4. viser informasjon om desse bøyingane (ordformene)
  5. viser til slutt kor ofte dei ulike alternative bøyingane (ordformene) er brukte i omsetjingane våre

Resultatet vert som vist i innleiinga (men med litt fleire bøyingsvariantar).

Kortkommando for enklare bruk

Kommandoen ovanfor er litt lang og tung, og til dagleg bruk er det greiare med ein kortversjon, der me slepp å hugsa mappeadresser og slikt. Då kan me laga ein bash-funksjon som gjer jobben for oss. Legg følgjande inn i fila ~/.bashrc (eller tilsvarande):

# Slå opp i frekvensordlista for omsettingane
function frek {
    cd mappe-til-ordfrekvens-skripta/frekvensoversikt
    ./hent-frekvens-statistikk.R nn ~/utvikling/ordbanken $@ | \
    grep -E --color=yes \
            $(echo "$*" | sed 's/\w\+/\\b&\\b/g;s/ \+/|/g')'|' | \
    less -FXR
    cd - > /dev/null # Gå tilbake til mappa me var i
}
export -f frek

(Tilpass mappeadressene etter kor du har lagt ting og kva målform (nn/nb) du brukar i omsetjingane.)

No kan me bruka kommandoen frek slik (uansett kva mappe me står i):

frek bidratt

Som ein ekstra bonus vert alle førekomstar av oppslagsordet og bøyinga det har, markerte med farge. Og viss resultatet går over meir enn éi skjermhøgd, vert det vist via programmet «less», slik at ein lett kan bla gjennom det (med piltastane, «Mellomrom» og «Rettetast» eller «Page Up» og «Page Down», og «Q» for å avslutta.)

Fleire oppslagsord

Det er mogleg å oppgje meir enn eitt oppslagsord. Dette er nyttig når me har valet mellom fleire alternative omsetjingar eller når ordvariantane er førte opp som separate oppslagsord i Norsk ordbank.

Viss målforma er bokmål, kan me for eksempel sjekka kva som er mest vanleg av orda «fremside», «framside» og «forside»:

frek fremside framside forside

Merk at for komplett oversikt over kva ord som er brukte i omsetjingane, bør me òg leggja til bøygde former, som for eksempel «fremsiden» og «fremsida».

Rett tolking av ord

Merk at bøyingsinformasjonen kan vera veldig viktig når me skal tolka frekvensoversikta. La oss seia at me lurer på om me pleier omsetja engelske «monitor» til «skjerm» eller «monitor» på norsk:

frek skjerm monitor

Det gjev dette resultatet:

ID     Grunnord  Bøying   Ordklasse                  Kode
61801  monitor   monitor  subst mask appell eint ub  700
82494  skjerm    skjerm   subst mask appell eint ub  700
82501  skjerme   skjerm   verb imp                   001

Ord      Frekvens
skjerm   136
monitor    3

Det viser seg altså at «skjerm» er svært mykje vanlegare enn «monitor» i omsetjingane våre. Men som me ser av bøyingsoversikta, kan «skjerm» òg vera imperativ å verbet «å skjerma». Nokre av dei 136 omsetjingane der ordet «skjerm» er brukt, gjeld altså kanskje skjerming, ikkje PC-skjermar.

Akkurat her er ikkje det noko problem; «skjerm» er uansett ein klar vinnar (og me snakkar sjeldan om «skjerming» i dataspråk). Men i andre tilfelle er det viktig å kjenna til slike alternative grunnord for å unngå å mistolka frekvensoversikta. Me bør derfor alltid ta ein kjapp kikk på bøyingsoversikta når me slår opp i frekvensstatistikken.

Fotnotar

  1. Forma «bidregen», som står oppført til slutt, er ei adjektivform og ikkje relevant dersom me er interesserte i perfektumforma av verbet.↩︎

  2. Her har me oppgjeve at dei ligg i mappa adresse/til/ordbanken.↩︎

  3. Her er det perfektum partisipp eller tilhøyrande adjektivform.↩︎