En skärm med text ur en bok bredvid en skärm med programmeringskod.

AI-utveckling med text ur KB:s samlingar

KB-labb använder bibliotekets samlingar för att utveckla högkvalitativa och fritt tillgängliga AI-modeller för svenska språket.

Foto
David Frederiksen, Kungliga biblioteket
Bildrättigheter
Bilden är fri att använda om fotografens namn anges

KB-labb – AI och digital forskning

KB-labb är en nationell infrastruktur för digital forskning och utveckling inom artificiell intelligens (AI). Vid labbet kan forskare bedriva storskalig kvantitativ forskning på KB:s samlingar av text, ljud, bild och video.

KB-labb förenar datavetenskap med samlingsexpertis. Här kan forskare inom samtliga vetenskapsområden, från humaniora till naturvetenskap, använda data på nya sätt och utnyttja värdet av bibliotekets samlingar.

Vad gör KB-labb?

  • Tillhandahåller strukturerade dataset för att möjliggöra kvantitativ forskning baserad på KB:s samlingar.
  • Använder samlingarna för att utveckla högkvalitativa och fritt tillgängliga AI-modeller för svenska språket.
  • Samverkar med olika aktörer om möjligheter till metodutveckling genom tillämpning av AI-modeller.

Varför arbetar KB med detta?

AI-utveckling på ett bibliotek kan framstå som en omväntad kombination. Men det finns flera skäl till varför biblioteket är en bra plats för ett sådant arbete.

  • KB har en helt unik samling av högkvalitativ svensk data för text, ljud och bild. Vi kan använda samlingarna för att träna de allra senaste AI-modellerna på svenska. Det bidrar till att Sverige får en nationell AI-infrastruktur på samma nivå som de “stora” språken, till exempel engelska och kinesiska.
  • Till skillnad från vissa stora techbolag arbetar KB på ett sätt som är transparent och demokratiskt. Vi testar exempelvis möjligheterna att skapa mer representativa modeller, genom att använda träningsdata från olika delar av samhället. Vi är även helt öppna med vilken data som använts.
  • Vi släpper våra modeller fritt så att många olika användare kan testa dem, från akademiska forskare och myndigheter till näringsliv och enskilda intresserade. Modellerna är grundtränade, vilket betyder att vi står för de arbetsmoment som är mest tids- och resurskrävande. Det gör att en slutanvändare behöver mycket mindre beräkningsresurser för att finjustera och använda dem för olika applikationer. På så sätt kan värdet i KB:s samlingar komma fler till nytta.

KB-labb på Huggingface (länk till annan webbplats)

På plattformen Huggingface finns labbets AI-modeller, exempelvis KB-Whisper och KB-BERT. Alla modeller är fria att ladda ner.

Foto av hyllor i ett magasin som blivit suddiga som en oljemålning med hjälp av datoreffekt.

Har du frågor?

Kontakta Love Börjeson, enhetschef för KB-labb och forskare inom tillämpad språkteknologi.

E-post: kblabb@kb.se