Frekvensstatistikk for ord
Innleiing
Me har nokre enkle skript for å undersøkja kva som er dei vanlegaste ordformene eller ordvala i omsetjingane våre. For eksempel fungerer det slik når me slår opp ordet «bidratt»:
$ frek bidratt
ID Grunnord Bøying Ordklasse Kode
123355 bidra bidrege verb perf-part 341
123355 bidra bidratt verb perf-part 373
123355 bidra bidradd verb perf-part 374
[…]
Ord Frekvens
bidrege 14
bidratt 2
bidradd 1
bidregen 0Me ser at den vanlegaste skrivemåten av perfektumforma av dette verbet er «bidrege» (14 førekomstar), ikkje «bidratt» (2 førekomstar) eller «bidradd» (1 førekomst). Så me bør velja forma «bidrege»1 når me skal bruka ordet i ei omsetjing.
Me bør sjølvsagt òg retta opp i dei inkonsekvente omsetjingane som finst frå før («bidratt» og «bidradd). Og når me først er i gang med å retta opp, bør me òg sjekka frekvensstatistikken for andre former av ordet. Eit oppslag i nynorskordboka på nett eller via programmet ordbanken (kommando: ordbank bidra) kan for eksempel fortelja oss at dersom me brukar partisippforma «bidrege», må det vera «bidreg» i presens òg (ikkje «bidrar», som me må ha viss me brukar formene «bidratt» eller «bidradd»).
Installering
I tillegg til sjølve skripta treng me ei frekvensordliste og nokre ekstra verktøy. Desse er kjappe å installera, og det trengst berre gjerast éin gong.
Nedlasting av skripta
Skripta lastar me ned med denne kommandoen:
git clone https://gitlab.com/l10n-no/l10n-ordfrekvens.gitOppretting av frekvensordliste
Så må me laga ei frekvensordliste basert på omsetjingsfilene vår:
cd l10n-ordfrekvens
./lag-frekvens-ordliste.sh /mappe/med/omsetjingsfiler > frekvens-nn.datDette går gjennom alle omsetjingsfilene i mappa, hentar ut alle orda på minst tre bokstavar og lagrar ei frekvensordliste som fila frekvens-nn.dat. Her er nn språkkoden for nynorsk, så bruk heller nb viss omsetjingsfilene er på bokmål.
Installering av ordlistefiler
Skripta brukar ordlistefiler frå programmet ordbanken (som igjen kjem frå Norsk ordbank). Viss me alt har det installert, er alt i orden. Elles kan me lasta det ned med denne kommandoen:
git clone https://git.savannah.nongnu.org/git/ordbanken.git(Det er ikkje nødvendig å installera programmet for bruk med frekvensskripta; me treng berre ha det nedlasta.)
Installering av R og tilhøyrande pakkar
Skripta brukar òg programmet R. Installer dette frå pakkehandsamaren i distroen. Installer òg dei tilhøyrande R-pakkane dplyr, readr, stringr, tidyr og feather. Viss det er mogleg, bruk helst pakkehandsamaren til dette òg. Eventuelt kan me gjera det manuelt med denne kommandoen etter å ha starta R:
install.packages(c("dplyr", "readr", "stringr", "tidyr", "feather"))Bruk
Grunnleggjande bruk
For å slå opp ordet «bidratt», køyrer me denne kommandoen:
./hent-frekvens-statistikk.R nn adresse/til/ordbanken bidrattDette
- slår opp ordet «bidratt» i nynorskversjonen (
nn) av ordbankfilene2 - finn ut kva (grunn)ord dette er ei bøying av og kva type bøying det er3
- finn andre tilsvarande bøyingar for dette ordet / desse orda (som «bidrege» og «bidradd»)
- viser informasjon om desse bøyingane (ordformene)
- viser til slutt kor ofte dei ulike alternative bøyingane (ordformene) er brukte i omsetjingane våre
Resultatet vert som vist i innleiinga (men med litt fleire bøyingsvariantar).
Kortkommando for enklare bruk
Kommandoen ovanfor er litt lang og tung, og til dagleg bruk er det greiare med ein kortversjon, der me slepp å hugsa mappeadresser og slikt. Då kan me laga ein bash-funksjon som gjer jobben for oss. Legg følgjande inn i fila ~/.bashrc (eller tilsvarande):
# Slå opp i frekvensordlista for omsettingane
function frek {
cd mappe-til-ordfrekvens-skripta/frekvensoversikt
./hent-frekvens-statistikk.R nn ~/utvikling/ordbanken $@ | \
grep -E --color=yes \
$(echo "$*" | sed 's/\w\+/\\b&\\b/g;s/ \+/|/g')'|' | \
less -FXR
cd - > /dev/null # Gå tilbake til mappa me var i
}
export -f frek(Tilpass mappeadressene etter kor du har lagt ting og kva målform (nn/nb) du brukar i omsetjingane.)
No kan me bruka kommandoen frek slik (uansett kva mappe me står i):
frek bidrattSom ein ekstra bonus vert alle førekomstar av oppslagsordet og bøyinga det har, markerte med farge. Og viss resultatet går over meir enn éi skjermhøgd, vert det vist via programmet «less», slik at ein lett kan bla gjennom det (med piltastane, «Mellomrom» og «Rettetast» eller «Page Up» og «Page Down», og «Q» for å avslutta.)
Fleire oppslagsord
Det er mogleg å oppgje meir enn eitt oppslagsord. Dette er nyttig når me har valet mellom fleire alternative omsetjingar eller når ordvariantane er førte opp som separate oppslagsord i Norsk ordbank.
Viss målforma er bokmål, kan me for eksempel sjekka kva som er mest vanleg av orda «fremside», «framside» og «forside»:
frek fremside framside forsideMerk at for komplett oversikt over kva ord som er brukte i omsetjingane, bør me òg leggja til bøygde former, som for eksempel «fremsiden» og «fremsida».
Rett tolking av ord
Merk at bøyingsinformasjonen kan vera veldig viktig når me skal tolka frekvensoversikta. La oss seia at me lurer på om me pleier omsetja engelske «monitor» til «skjerm» eller «monitor» på norsk:
frek skjerm monitorDet gjev dette resultatet:
ID Grunnord Bøying Ordklasse Kode
61801 monitor monitor subst mask appell eint ub 700
82494 skjerm skjerm subst mask appell eint ub 700
82501 skjerme skjerm verb imp 001
Ord Frekvens
skjerm 136
monitor 3Det viser seg altså at «skjerm» er svært mykje vanlegare enn «monitor» i omsetjingane våre. Men som me ser av bøyingsoversikta, kan «skjerm» òg vera imperativ å verbet «å skjerma». Nokre av dei 136 omsetjingane der ordet «skjerm» er brukt, gjeld altså kanskje skjerming, ikkje PC-skjermar.
Akkurat her er ikkje det noko problem; «skjerm» er uansett ein klar vinnar (og me snakkar sjeldan om «skjerming» i dataspråk). Men i andre tilfelle er det viktig å kjenna til slike alternative grunnord for å unngå å mistolka frekvensoversikta. Me bør derfor alltid ta ein kjapp kikk på bøyingsoversikta når me slår opp i frekvensstatistikken.