Projekt om svenska språkmodeller får forskningsmedel

KB beviljas forskningsmedel från innovations­myndigheten Vinnova för projektet ”SuperLim: en svensk testmängd för språk­modeller” (2020–2021). Projektet är ett samarbete mellan flera olika aktörer inom forskning, artificiell intelligens och språkteknologi.

Under våren publicerade KB-labb, som är bibliotekets funktion för datadriven forskning, tre så kallade språkmodeller (BERT) på svenska. En språkförståelsemodell är ett artificiellt neuralt nätverk som tränats på stora mängder text för att få en flexibel och djup språkförståelse. KB:s modeller har lärt sig mekanismerna i svenska språket och kan analysera och strukturera text i stora underlag.

KB:s del i det nya projektet, ”SuperLim”, bygger till stor del på framgången med språkmodellerna. Syftet är nu att ta fram testmängder på svenska som kommer att möjliggöra framtida insatser inom språkteknologi. Det är annars ett fält som hittills har dominerats av engelska och andra större språk.

– Vi behöver en kvalificerad svensk testbädd för den här typen av mycket kraftiga språkmodeller. Dels för att kunna utvärdera modellernas prestanda och dels för att kunna hantera snedvridningen i den data som modellerna är tränade på, förklarar Love Börjeson, föreståndare för KB-labb.

Projektet är ett samarbete mellan KB, forskningsinstitutet RISE, Språkbanken på Göteborgs Universitet och AI innovation of Sweden.

– Samarbetet möjliggör kunskapsuppbyggnad och kunskapsutbyte mellan KB och de övriga deltagarna. Forskningen har fantastisk potential på långt fler områden än språkteknologi och kan därför ge stora samhällsekonomiska vinster, säger Love Börjeson.

Artikel om KB:s språkmodeller

Nu har KB-labb även skrivit en första forskningsartikel om arbetet med språkmodellerna, ”Playing with Words at the National Library of Sweden: Making a Swedish BERT Länk till annan webbplats.” (2020). Den ger mer information om hur KB:s samlingar kan användas på nya sätt för att främja utveckling inom AI och datadriven forskning.

KB-labb är en forskningsnära och kreativ miljö, som snabbt blivit en central nod i datadriven forskning. Läs mer om verksamheten här.