Data- och systemmodell

Bibliografisk metadata tillhandahålls av anslutna publikationsdatabaser i ett nationellt överföringsformat, SwePub MODS, och skördas av SwePub på daglig basis via OAI-PMH för central lagring och bearbetning. Därefter sker en konvertering från MODS-formatet till länkad data, RDF, som lagras i ett separat datalager. Data lagras alltså både som originaldata för söktjänsten SwePub och som berikad data i den bibliometriska tjänsten SwePub för analys och bibliometri. Båda datalagren är tillgängliga via API för länkad data och via publika gränssnitt: swepub.kb.se respektive bibliometri.swepub.kb.se.

 

Systemmodell över SwePub för analys och bibliometri

 Systemmodell (klicka på bilden för större version)

Originaldata

Originaldatalagret består av bibliografisk metadata om publikationer som de är registrerade av lärosäten och andra forskningsorganisationer och inhöstade i MODS-formatet enligt XML-schema. Originaldata normaliseras för att förenkla och effektivisera utsökningar, berikas och optimeras till viss del för att skapa strukturen för länkade dataelement. Denna datamängd innehåller både lokala och nationella dubbletter. All data kan hämtas ut i sin ursprungliga form genom en avancerad utsökning av länkad data. Se SwePubs SPARQL-bibliotek på GitHub för en detaljerad beskrivning.

Berikad data

Utöver originaldata finns berikad data som skapas genom att de ursprungliga bibliografiska posterna länkas ihop för att generera information om nya begrepp som “creative work”, “creative work instance”, “affiliering” och “fraktioner”, dvs. begrepp som är av intresse vid bibliometriska analyser. Generering av dessa begrepp görs utifrån originaldata och nationella dubblettposter för publikationer registrerade av flera lärosäten i samband med organisationsöverskridande samarbeten.  Genereringen sker genom att systemet först analyserar data utifrån definierade regler för datakvalitet och därefter märker upp de publikationsposter som inte följer reglerna med olika feltyper. Endast poster som är tillräckligt fullständiga går igenom dubblettkontrollen i systemet. Detta säkerställer att beskrivningen av ett “creative work” (som alltså kan bestå av flera “creative work instances”) och associerad metadata gäller samma publikation och att uppgifterna om upphov, affiliering och/eller publiceringskanal är kvalitetssäkrade.

Nedanstående bild visualiserar den bibliometriska modellen där begreppet “creative work” länkas till “creative work instance”,  som i detta exempel består av två inrapporterade publikationsposter från två olika organisationer. Från “creative work” finns även länkar till upphovspersoner ”creatorship” med uträknade fraktioner (0,25) och deras affiliering ”affiliation” till respektive organisation (organisationskoderna gu och oru). Slutligen finns det en länk till ”creator count” med uppgift om det totala antalet upphovspersoner (4).

 

 

Den bibliometriska modellen (klicka på bilden för större version) 

Data- och systembearbetning

SwePub kontrollerar bibliografisk metadata i publikationsposterna och identifierar feltyper av olika allvarlighetsgrad (där grad 3 är den högsta, t.ex. att ISSN eller antal upphovspersoner saknas eller alternativt är felaktiga). Dubbletthanteringen bygger på en maskinell identifiering baserad på ett flertal algoritmer. Utöver systembearbetningen av dubbletter krävs en manuell bearbetning av lärosätena. Kontrollfunktionerna i SwePub ger användarna möjlighet att göra en utsökning i form av bruttolistor över feltyper som behöver åtgärdas lokalt i syfte att höja den nationella datakvaliteten för analysändamål. Därefter höstas posterna in på nytt. Lärosätena kontrollerar själva att dataleveranser sker samt att ofullständig metadata åtgärdas.


Data- och systembearbetning (klicka på bilden för större version)

 

Senast uppdaterad: 2017-01-02