fullskärmsbild

Data- och system­­­mo­dell

Swepubs data- och systemmodell beskriver hur data i Swepub hanteras och struktureras.

Swepub hämtar bibliografiska metadata från de anslutna publikationsdatabaserna dagligen via OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Data hämtas i ett nationellt överföringsformat, Swepub MODS. Från MODS-formatet konverteras och lagras data som:

  • originaldata och deduplicerade data i MARC-formatet för Swepubs söktjänst.
  • berikade duplicerade och deduplicerade data i formatet BIBFRAME 2.0 för Swepubs tjänster för bibliometri, databearbetning och ämnesklassificering.

Båda datalagren är tillgängliga via publika gränssnitt: swepub.kb.selänk till annan webbplats respektive bibliometri.swepub.kb.selänk till annan webbplats.

Originaldata

Originaldatalagret i Swepubs söktjänst består av bibliografiska metadata om publikationer så som de är registrerade av lärosäten, myndigheter och andra forskningsinstitutioner. Data hämtas i MODS-formatet enligt XML-schema. Originaldata normaliseras för att förenkla och effektivisera utsökningar samt berikas och optimeras till viss del.

Originaldatamängden innehåller duplicerade data. Det är med andra ord dubblettposter som beskriver samma publikation. Duplicerade data består av lokala dubbletter samt nationella dubbletter.

  • Lokala dubbletter är publikationer som är registrerade flera gånger i organisationers egna publikationsdatabaser.
  • Nationella dubbletter är publikationer som är registrerade av flera organisationer i samband med organisationsöverskridande samarbeten.

Berikade data

Datalagret i Swepubs tjänster för bibliometri, databearbetning och ämnesklassificering består av berikade data. Först analyserar och bearbetar systemet originaldata som är konverterade till BIBFRAME-formatet. Systembearbetningen utgår från definierade regler för datakvalitet. I vissa fall verifieras data vid externa datakällor såsom ISSN Portal och CrossRef. De publikationsposter som inte följer reglerna märks upp. Systemet tvättar, lägger till eller flyttar värden enligt reglerna, om tillämpligt. Merparten av data normaliseras för att skapa konsekvens för hur data presenteras.

Allt detta görs för att höja datakvaliteten och säkerställa att beskrivningen av ett forskningsresultat och associerade metadata gäller samma publikation. På det sättet kvalitetssäkras uppgifterna som är av intresse vid bibliometriska analyser. Dessa är till exempel uppgifter om identifikatorer, upphov och sakkunniggranskad publiceringskanal.

Berikade data finns att hämta via datauttag i databearbetnings- och bibliometritjänsten och som datadumpar via FTP.

Deduplicerade data

Vid organisationsöverskridande samarbeten kan flera organisationer skicka metadata om samma forskningsresultat. Dubbletter hanteras genom att identifiera och föra ihop metadata till en post, vilket med andra ord är deduplicerade data. 

Dubbletthanteringen bygger på en maskinell identifiering baserad på ett regelverk. Publikationsposter med liknande titlar, identifikatorer, utgivningsår och sammanfattning identifieras som dubblettkandidater. Posten med flest metadatafält väljs som masterpost. Den berikas med upprepningsbara metadatafält från de andra dubblettkandidaterna, till exempel med flera identifikatorer, nyckelord och ämnesklassificeringar samt länkar. Masterposten är inte bestående utan vid varje hämtning av data blir den post som har identifierats som dubblett och har flest metadatafält en masterpost.

En mer detaljerad beskrivning av dedupliceringen hittar du under Dubbletthantering.

Deduplicerade data finns att hämta via datauttag i bibliometritjänsten och som datadumpar via FTP.

Data- och systembearbetning

Swepub kontrollerar metadata i publikationsposterna redan vid den dagliga hämtningen av nya och uppdaterade publikationsposter från de anslutna publikationsdatabaserna. En bråkdel av posterna avvisas av Swepub om de inte uppfyller bibliografisk miniminivå. Poster som Swepub mottar konverteras från MODS till det interna formatet. Därefter bearbetar Swepub data genom att granska, validera, normalisera och i bästa fall även berika ofullständigheter. Bearbetade data indexeras och dedupliceras för att tillgängliggöra posterna från datalagret via API:er till gränssnitt och utsökning. 

Kontrollfunktionerna i Swepub ger användarna möjlighet att göra en utsökning i form av listor över ofullständigheter och berikningar. Ofullständigheterna och berikningarna behöver åtgärdas lokalt i syfte att höja den nationella datakvaliteten för analysändamål. Därefter levereras de bearbetade posterna till Swepub på nytt. De organisationer som levererar data till Swepub kontrollerar själva att dataleveranser fungerar samt att ofullständiga metadata åtgärdas.

Tyck till

Hjälpte den här sidan dig?