fullskärmsbild

Samtal på Bokmässan om forskarnas behov av digitaliserat textmaterial

I ett panelsamtal på Forskartorget på Bokmässan lyfte Nina Tahmasebi, docent i Språkteknologi vid Göteborgs universitet, de stora behov som finns av mer digitaliserat textmaterial på svenska. Utan stora datamängder kan forskare inte skapa modeller för att analysera språkförändringar, ett viktigt verktyg för att förstå samhällsförändringar över tid.

En scen med fyra personer som talar inför en publik.

Foto: Jessica Pamp

Bakom samtalet stod samverkansprojektet för att digitalisera det svenska trycket (DST) där Kungliga biblioteket och de fem universitetsbiblioteken i Lund, Göteborg, Stockholm, Uppsala och Umeå gått samman. I samtalet medverkade förutom Nina Tahmasebi även:

  • Lars Burman, överbibliotekarie vid Uppsala universitetsbibliotek och ordförande för DST:s styrgrupp
  • Lars Ilshammar, biträdande riksbibliotekarie, Kungliga biblioteket
  • Karin Byström, projektledare för DST, Uppsala universitetsbibliotek.

Språkförändringar och samhällsfenomen

Nina Tahmasebi inledde med att berätta om forskningsprojektet Change is Key! Länk till annan webbplats. som ska ta fram modeller för att studera språkförändring över tid.

– Språkteknologi använder sig av datormodeller för att tolka texter. Ofta signalerar förändringar i språket även kulturella förändringar eller förändringar på samhällsnivå. Ungefär samma mekanismer som vi kan använda för att studera språkförändringar, tänker vi använda för att studera andra fenomen i både samtida och historiska samhällen.

Nina beskriver hur bristen på digitalt material påverkar forskningen. För att kunna studera hur ett samhällsfenomen har förändrats över tid behöver vi tillgång till stora mängder text där dessa fenomen finns omtalade.

– Genom tillgång till stora material av rå textdata kan vi bygga större och bättre språkmodeller. Ofta använder vi oss av nyhetsmaterial, som till exempel historiska tidningar, eller av moderna material som sociala medier eller parlamentstexter – helt enkelt för att det är dessa vi har tillgång till.

Hon förklarar att det är sällan vi kan följa ett intressant fenomen från 1800-talet och fram till idag.

– Vi saknar ofta tillgång till relevanta och öppet tillgängliga texter från tidsperioden som rör stora delar av 1900-talet. För att kunna svara på frågor om svenska förhållanden behöver vi ett omfattande digitalt material, och det har vi inte idag.

Förr gick forskare till biblioteket för att studera en specifik samling, men med ett digitaliserat material kan dagens forskare inte längre bara analysera enskilda objekt utan även stora sammanlänkade datamängder. Dessa metoder innebär ofta helt nya möjligheter att både svara på existerande frågor och att ställa helt nya typer av frågor som rör större textmaterial än det som en enskild forskare eller forskargrupp tidigare har kunnat ta sig an.

Systematik och finansiering

Lars Ilshammar drar en parallell mellan digitaliseringen och gruvindustrin. Biblioteken kan ses som gruvan där forskaren efterfrågar själva malmen som motsvarar det digitalt tillgängliga materialet som sedan kan bearbetas till ädla metaller, det vill säga värdefulla forskningsresultat:

– Vi har kunskap, material och utrustning men för att få till en systematik för digitaliseringen och tillgängliggörandet krävs en ekonomisk satsning.

Det finns också en demokratisk aspekt i bristen på digitalt material. Nina Tahmasebi beskriver hur det i dagsläget bara är några få aktörer som har tillgång till riktigt stora textmängder för att bygga bra språkmodeller, till exempel de som ligger bakom Google translate. Det gör i sin tur att forskningen begränsas till några få språk som har den mängd text som krävs. Genom att fritt tillgängliggöra vårt material öppnar vi för att fler aktörer kan bygga vettiga språkmodeller och göra forskning relevant för fler, säger Nina.

– Forskare har tusentals frågor som väntar på att bli besvarade. DST-samarbetet har pekat ut vägen och samarbetsgrunden är lagd. Nu behövs bara finansiering, avslutar Lars Burman.

Bakgrund

I januari 2020 undertecknade Kungliga biblioteket och de fem universitetsbiblioteken i Lund, Göteborg, Stockholm, Uppsala och Umeå en avsiktsförklaring om att gemensamt digitalisera och tillgängliggöra det svenska trycket. Målet är att göra hela den nationella tryckproduktionen från 1400-talet fram till idag digitalt tillgänglig. DST-projektet har tagit fram gemensamma standarder för digitalisering och nu pågår en pilotsatsning som digitaliserar ett antal tidskrifter från perioden 1850–1900.

Läs mer om DST

Kontakt

Har du frågor om projektet? Kontakta projektledare Karin Byström, Uppsala universitetsbibliotek

E-post: karin.bystrom@ub.uu.se
Telefon: 018-471 33 69

Vill du ha fler nyheter från KB?

Under Prenumerera på Nytt från KB kan du välja de områden som intresserar dig!