ANNONSE

De utvikler Norges svar på ChatGPT: "Vi trenger norske alternativer"

Postdoktor Vladislav Mikhailov, førsteamanuensis Andrei Kutuzov, PhD-stipendiat David Samuel og professor Erik Velldal. // Foto: Gina Aakre
Modellene skal være fri for restriksjoner.
Linn Adine Andersen
ANNONSE

Snart kan vi ha tilgang til vår helt egne, norske versjon av språkmodellen ChatGPT. Det skal forskningsgruppen for språkteknologi ved Universitetet i Oslo sørge for.

Før jul fikk de nemlig tildelt regntid på den kraftigste datamaskinen i Europa, LUMI i Finland. I løpet av et par uker klarte forskningsgruppen å prosessere nok data til å kunne lansere tre helnorske språkmodeller, større enn de som tidligere er tilgjengeliggjort.

Det er mange problemer knyttet til tekgigantenes språkmodeller. De fremstår som sorte bokser for verden utenfor. Vi trenger norske alternativer, sier professor ved Institutt for informatikk, Erik Velldal, i en pressemelding.

Nasjonalbiblioteket og Universitetet i Oslo har tilgjengeliggjort flere norske språkmodeller tidligere, men dette er de største vi har laget så langt og de er trent på over 30 milliarder ord, fortsetter han.

Og hvorfor trenger vi norske språkmodeller, lurer du på?

Ifølge Velldal og hans kolleger mener det kan være problematisk å sende fra seg data til en kommersiell tredjepart, som OpenAIs ChatGPT og Googles LaMDA. Spesielt viktig er det for sektorer som jobber med sensitive data å kunne kontrollere hvor og hvordan dataene behandles.

Da er det essensielt å ha tilgang på åpne og frie modeller som utviklere kan kjøre på sine egen maskiner, sier Velldal.

Vil bedre kunne reflektere det norske samfunnet

ChatGPT er ei heller tilpasset kunnskaps- og verdigrunnlaget i Norge. Det påpeker Andrey Kutuzov ved Universitetet i Oslo.

Tekgigantenes språkmodeller er i all vesentlighet trent på engelsk og amerikansk språk. De gjenspeiler dermed også et amerikansk verdisett og kultur.

Et eksempel kan være at de amerikanske språkmodellene samsvarer i større grad med kjønnsmessig fordeling av yrker som er mer stereotypisk enn tilfellet er i Norge. En norsk språkmodell vil i mye større grad reflektere samfunnet slik vi kjenner det i Norge, sier Kutuzov.

Transparente modeller

De norske språkmodellene skal allerede være lastet ned av flere tusen brukere. I første omgang er de myntet på forskere og utviklere, og ikke lansert i et nettgrensesnitt likt ChatGPT – som gjør det enkelt å ta i bruk for alle og enhver.

Det er fremdeles en stund til de vil kunne måle seg med tech-gigantene. Men arbeidet med å trene opp språkmodellene ytterligere er allerede i gang ved universitetet, og nye versjoner av språkmodellene skal lanseres fortløpende.

Det er et viktig prinsipp at vi lager modeller som er fri for restriksjoner. Vi må ha slike modeller som er basert på åpent tilgjengelige ressurser og som er transparente for forskningsmiljø og næringsliv.

Store språkmodeller vil i økende grad fungere som grunnleggende infrastruktur for å løse ulike oppgaver innen forskning, næringsliv, forvaltning, og samfunnet ellers, sier Velldal.

Fakta om de nye, norske språkmodellene:

  • Tre nye norske språkmodeller er lansert, basert på de GPT-liknende arkitekturene BLOOM og Mistral, alle med "open source"-lisens.
  • De er utviklet av forskningsmiljø ved UiO i samarbeid med Sigma2 og Nasjonalbiblioteket. Sammen med andre aktører i det nasjonale AI-nettverket NORA planlegger partnerne en nasjonal infrastruktur for utvikling og bruk av store norske språkmodeller.
  • To av modellene er trent fra bunnen av på norsk.
  • Den tredje tar utgangspunkt i en modell forhåndstrent for engelsk av det franske selskapet Mistral AI, som så har blitt trent videre for norsk.
  • Modellene er tilgjengelige på https://huggingface.co/norallm

Del artikkel: