fullskärmsbild

Data- och system­­­mo­dell

Swepubs data- och systemmodell beskriver hur data i Swepub hanteras och struktureras.

Swepub hämtar bibliografiska metadata från de anslutna publikationsdatabaserna på daglig basis via OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Data hämtas i ett nationellt överföringsformat, Swepub MODS. Från MODS-formatet konverteras och lagras data som:

  • originaldata och deduplicerade data i MARC-formatet för söktjänsten Swepub.
  • berikade data i format för länkade data i den bibliometriska tjänsten Swepub för analys och bibliometri.

Båda datalagren är tillgängliga via API och via publika gränssnitt: swepub.kb.selänk till annan webbplats respektive bibliometri.swepub.kb.selänk till annan webbplats. Swepub för analys och bibliometri vidareutvecklas för tillfället och uppdateras därför inte under denna tid.

Originaldata

Originaldatalagret består av bibliografiska metadata om publikationer så som de är registrerade av lärosäten och andra forskningsinstitutioner. Dessa är inhöstade i MODS-formatet enligt XML-schema. Originaldata normaliseras för att förenkla och effektivisera utsökningar samt berikas och optimeras till viss del.

Denna datamängd innehåller både lokala dubbletter från organisationernas egna publikationsdatabaser samt nationella dubbletter. Nationella dubbletter är publikationer som är registrerade av flera organisationer i samband med organisationsöverskridande samarbeten.

Berikade data

Utöver originaldata finns berikade data som skapas genom att de ursprungliga bibliografiska posterna länkas ihop. Utifrån originaldata och identifierade dubblettposter genereras information om nya begrepp som “affiliering”, “fraktioner” och "sakkunniggranskad publiceringskanal". Dessa begrepp är av intresse vid bibliometriska analyser.

Genereringen sker genom att systemet först analyserar data utifrån definierade regler för datakvalitet. De publikationsposter som inte följer reglerna märks upp. Detta görs för att säkerställa att beskrivningen av ett forskningsresultat (som alltså kan bestå av flera publikationsposter) och associerade metadata gäller samma publikation. Det görs också för att uppgifterna om upphov, affiliering och/eller publiceringskanal ska vara kvalitetssäkrade.

I den bibliometriska modellen kan forskningsresultatet bestå till exempel av två inrapporterade publikationsposter från två olika organisationer. Om forskningsresultatet har fyra upphovspersoner med affiliering till respektive organisation räknas ut 0,25 fraktioner för var och en. Eftersom alla upphovspersoner inte alltid finns angivna i en publikationspost, utgår fraktioneringen från ett numeriskt antal med uppgift om det totala antalet upphovspersoner (4).

Data- och systembearbetning

Swepub kontrollerar bibliografiska metadata i publikationsposterna och identifierar ofullständigheter. Kontrollfunktionerna i Swepub ger användarna möjlighet att göra en utsökning i form av bruttolistor över ofullständigheter. Dessa behöver åtgärdas lokalt i syfte att höja den nationella datakvaliteten för analysändamål. Därefter höstas posterna in på nytt. Lärosätena kontrollerar själva att dataleveranser sker samt att ofullständiga metadata åtgärdas. Dubbletthanteringen bygger på en maskinell identifiering baserad på en algoritm.