Lien Nguyen i Klynge for vurdering av tiltak ved Folkehelseinstituttet har utviklet denne metoden for å luke ut dubletter i DOI-feltet.
Metoden har følgende trinn:
Trinn 1: få alle DOI i samme format
Trinn 2: dele opp referansene i to grupper – med og uten DOI
Trinn 3: dublettkontroll i gruppen DOI
Trinn 4: dublettkontroll av alle referanser etter foretrukket metode
Trinn 1: få alle DOI i samme format
DOI får forskjellige prefix i forskjellige databaser. For å harmonisere formatet på DOI slik at alle begynner med 10 har du to valg. Du kan enten redigere på filtrene, og legge inn at filteret skal utelate DOI-prefix ved import (da har du gjort jobben en gang for alle), eller du kan bruke «søk og erstatt» for å gjøre jobben manuelt. Merk at du må gjennomføre den siste delen i den manuelle varianten (linje 8-12) uavhengig av hvilken løsning du velger.
A: Redigere filtre
Gå til Tools > Import filters > [f.eks. EMBASE (OvidSP)]
Gå deretter til Field editing.
Legg til alle de ordene vi ønsker at filteret skal utelate ved import.Gå til File > Save As. Ta bort "Copy" fra filnavnet før du lagrer.

B: Søk og erstatt
Det kan være lurt å velge å vise kolonnen DOI i referansepanelet og sortere på DOI for å følge med på hva som skjer underveis.
Bruk funksjonen Library > Find & Replace. Erstatt forekommende prefix (linje 1-7 i tabellen) med "ingenting" til alle DOI starter med 10.
| In field > DOI, Find: | Replace with: |
1 | https://dx.doi.org/ | |
2 | http://dx.doi.org/ | |
3 | https://doi.org/ | |
4 | http://doi.org/ | |
5 | dx.doi.org/ | |
6 | doi.org/ | |
7 | doi: | |
I Advanced search, søk "%" i DOI-feltet. Hvis du får treff, gjennomfør trinn 8-12 til DOI-feltet ikke inneholder noen %-tegn. Match Words og Retain Capitalization er huket av som standard. For trinn 8-12 i tabellen må disse fjernes.
| In field > DOI, Find: | Replace with: |
8 | %28 | ( |
9 | %29 | ) |
10 | %2F | / |
11 | %3C | < |
12 | %3E | > |
Trinn 2: dele opp referansene i to grupper – med og uten DOI
For å kunne begrense dublettsøket til de referansene som har DOI, må disse samles i en egen gruppe.
Opprett gruppesettet "DOI-kontroll" med de to gruppene "NO DOI" og "DOI" under. (Høyreklik og velg hhv Create Group Set og Create Group).

Flytt referansene til riktige grupper. Her er det flere muligheter for hvordan man utfører operasjonen:
A:
Sorter på DOI i referansepanelet
Merk de aktuelle referansene med skift, og dra over referansene i riktig gruppe.
B: (funker kun hvis du ikke har andre grupper i biblioteket allerede)
Gjør et søk i Advanced search for å søke opp referanser hvor DOI > Field begins with > 10.
Flytt treffene fra søket til DOI-gruppa
Gå til fanen Unfiled.
Merk referansene her, og flytt dem til NO DOI-gruppa

C: (funker hvis du har flere grupper i biblioteket allerede)
Merk alle referansene i biblioteket (Ctrl+A), og flytt alle referanser til gruppen NO DOI.
Gjør et søk i Advanced search for å søke opp referanser hvor DOI > Field begins with > 10. (se bildet over)
Flytt treffene fra søket til DOI-gruppa
Gå til NO DOI-gruppa
Høyreklikk over merkede referanser og velg Remove References from Group
Svar Yes på spørsmålet "Are you sure you want to delete the selected references from the group "NO DOI"

Trinn 3: dublettkontroll i gruppen DOI
Før du begynner –
sjekk om biblioteket inneholder referanser med tomt tittelfelt og korriger etter behov.
Velg å vise abstract i en kolonne referansepanelet. Gå til Edit > Preferences > Duplicates. Utfør dublettkontroll (Library > Find dublicates) med følgende kriterier.
1. DOI+Author+Title - Disse referansene kan trygt slettes, men pass på at du ikke sletter en referanse med abstract mens du beholder en hvor det mangler
2. DOI+Author - Kontroller tittelfeltet på referansene før du fjerner
2. DOI+Title - Kontroller forfatterfeltet på referansene før du fjerner
3. DOI - Kontroller referansene før du fjerner (forskjellige konferanseabstrakter kan ha lik DOI.)
EndNote X9
Hvis du bruker EndNote X9 eller tidligere versjon, er ikke feltet DOI tilgjengelig som kriterium i Preferences. Dette kan løses ved å kopiere informasjonen i DOI til feltet Label. Da kan du bruke Label som kriterium i trinnene over.
Gå til Tools > Change/Move/Copy Fields
Klikk på fanen Move/Copy Fields
Velg Copy Field
Velg From: DOI To: Label
Replace Entire Field
OK
Trinn 4: dublettkontroll av alle referanser etter foretrukket metode
Nå er de fleste dubletter luket ut, men det gjenstår å sjekke referansene i gruppen NO DOI mot hverandre, og mot referansene med DOI. Noen muligheter;
A:
Sortere treffene i gruppen NO DOI på tittel
Bla gjennom treffene og slett referanser som ligger dobbelt
Merk alle referansene i gruppa (Ctrl+A)
Gå til All References, bla gjennom treffene og sjekk om referansene som er merket av har en dublett
B:
C:Dersom mengden referanser i biblioteket tillater, avslutt med én manuell runde sortert på tittel, og deretter tilsvarende sortert på forfatter. Er det mange tusen referanser i biblioteket, er biblioteket ved FHIs policy at den siste manuelle gjennomgangen kan droppes. Her må man bruke litt skjønn.
Om å søke etter referanseoppdateringer
I EndNote fins en funksjon for å søke etter referanseoppdateringer. Ved å bruke funksjonen på referanser som mangler DOI-nummer, abstract, eller andre opplysninger, kan man fange opp flere dubletter. På et tidspunkt hadde vi dette som et eget trinn i metoden, men det ble tilslutt strøket fordi EndNote kan finne på å oppdatere referansen med helt feil opplysninger, noe som er meget uheldig. Feilene stammer (bl.a.) fra at det søkes etter accession number i Web of Science or PubMed. Men Embase-poster har også sitt accession number. Et og samme nummer kan være i bruk i begge baser, men viser altså ikke til samme artikkel.
Det er en større jobb å manuelt gjennomgå en og en referanse ved referanseoppdateringer, enn å manuelt sjekke noen ekstra dubletter.