Introduzione
Il tool "Integrazione Unpaywall" è uno strumento che consente di recuperare, per ogni singola pubblicazione, la migliore tipologia di file (VoR, preprint o postprint) ad accesso aperto disponibile in un determinato momento. Inoltre, il recupero dalla banca dati esterna non si limita al file, ma include anche la licenza, offrendo la possibilità di aggiornare la licenza di un file già presente in IRIS con quella recuperata da Unpaywall.
Di seguito, alcuni esempi che illustrano, a grandi linee, il comportamento del tool:
- Esempio di recupero del file
La pubblicazione presente in IRIS contiene un file preprint ad accesso aperto, mentre il servizio di Unpaywall evidenzia la disponibilità di una versione editoriale (VoR) ad accesso aperto. In questo caso, è possibile recuperare da Unpaywall il file editoriale ad accesso aperto, mantenendo comunque in IRIS il file preprint.
- Esempio di aggiornamento della licenza
La pubblicazione in IRIS contiene un file preprint ad accesso aperto con licenza CC BY. Il servizio di Unpaywall evidenzia la disponibilità di un file preprint con licenza "Public Domain - CC0 1.0 Universal". In questo caso, è possibile aggiornare la licenza in IRIS allineandola a quella proposta da Unpaywall.
Gli esempi sopra riportati rappresentano solo alcune delle casistiche possibili. Una tabella dedicata, inclusa in seguito, descrive in dettaglio i vari casi d'uso, fornendo un riferimento chiaro per comprendere le diverse situazioni e le azioni consentite.
Il tool di integrazione con Unpaywall consente interventi sia su singole pubblicazioni (integrazione di file o licenze) sia in modo massivo, su più pubblicazioni. Questi raggruppamenti sono definiti sulla base di specifici criteri di confronto, descritti in dettaglio nelle sezioni successive.
Obiettivo finale è quello di dotare le pubblicazioni in IRIS, con l'ausilio del tool, di almeno un file ad accesso aperto corrispondente alla "migliore" tipologia a disposizione in un dato momento.
La funzionalità è resa disponibile al solo amministratore dell'archivio che opera in visione completa.
Precondizioni per l'utilizzo del tool
l'utilizzo del tool è subordinato ad alcune attività preliminari:
- adozione da parte dell'ente del medesimo dizionario per le licenze utilizzato da Unpaywall per prodotti open access:
cc-by-nc
cc-by è ok
cc-by-nc-nd
cc-by-nc-sa
cc-by-nd
cc-by-sa
public-domain
publisher-specific-oa
unspecified-oa
other - oa
L'attività preliminare di configurazione delle licenze di Unpaywall dipende da come l'ente intende procedere con le licenze che non hanno una corrispondente nel dizionario di UPW (da qui in poi note come "extra dizionario UPW").
Di seguito il mapping NON customizzabile delle licenze UPW
UPW | IRIS | note |
cc-by | cc-by (standard) | |
cc-by-sa | cc-by-sa (standard) | |
cc-by-nc | cc-by-nc (standard) | |
cc-by-nc-nd | cc-by-nc-nd (standard) | |
cc-by-nc-sa | cc-by-nc-sa (standard) | |
cc-by-nd | cc-by-nd (standard) | |
public-domain | public-domain | |
other-oa | other-oa | |
unspecified-oa | Non specificata | |
publisher-specific-oa | Publisher | |
iris.PUB02 | Non corrisponde ad alcuna licenza di UPW | |
iris.PUB01 | Non corrisponde ad alcuna licenza di UPW | |
iris.PUB0.... | Non corrisponde ad alcuna licenza di UPW | |
iris.PRI01 | Non corrisponde ad alcuna licenza di UPW | |
iris.PRI02 | Non corrisponde ad alcuna licenza di UPW | |
iris.PRI0... | Non corrisponde ad alcuna licenza di UPW |
Gli atenei che ad oggi hanno configurato anche le licenze in “giallo” hanno a disposizione due strade:
- Abbandonarle – questo impatta in due punti differenti dell’applicazione:
- Submission:
- NON visibili in submission per i nuovi allegati
- Bonifica del pregresso- con due scenari alternativi
- Update massivo (fatto da noi) per tutti i file con queste licenze andando ad assegnare una di quelle in UPW
- Nessun update massivo. In questo caso i files saranno presenti nel tool come file con licenza NON compresa in UPW e in alcuni casi sarà possibile effettuare l’allineamento a quella proposta da UPW, in altri casi non sarà possibile effettuare nessun allineamento automatico e sarà necessario un intervento manuale (vedi "tabella scanari/gruppi").
- Integrare il dizionario di UPW andando ad aggiungere quelle in “giallo” con la consapevolezza che non hanno corrispondenza con UPW . Questa scelta ha i seguenti impatti:
- Submission – sarà ancora possibile associare al file una delle licenze extra dizionario UPW
- Bonifica del pregresso – Non è necessario nessun intervento. Nel tool questi record saranno evidenziati come licenze NON comprese nel dizionario, in alcuni casi sarà possibile intervenire per un recupero da UPW, in altri casi sarà necessario un intervento manuale.
- Le pubblicazioni devo avere come metadato il DOI, senza il quale l'interrogazione della banca dati esterna non può avvenire.
Regole di recupero da Unpaywall ed eccezioni
Il funzionamento del tool si basa sul confronto delle informazioni riguardanti il file di una pubblicazione presente in IRIS dotata di DOI con quanto fornito da Unpaywall per la stessa pubblicazione. Le informazioni di interesse sono contenute nella risposta del servizio rest messo a disposizione da Unpaywall e sono identificate come "best_oa_location", come da esempio riportato di seguito
Le informazioni necessarie per effettuare il confronto e determinare il tipo d intervento (recupero del file o aggiornamento della licenza) sulla pubblicazione in IRIS sono:
- Tipologia file (verison): VoR, preprint e postprint;
- Licenza (license)- vedi dizionario sopra;
- url diretta al pdf (url_for_pdf).
Frequenza di recupero delle informazioni da Unpaywall
Il recupero delle informazioni avviene ogni notte attraverso un job notturno: il sistema recupera tutti i record con data di aggiornamento maggiore di 30 giorni.
Descrizione algoritmo di recupero
Vengono recuperate anche altre informazioni quali la url dove è presente il file (url_for_landing_page) e la provenienza dell'informazione (host_type) se editore o repository. Questi dati sono esposti comunque nell'interfaccia del tool come informazioni aggiuntive ad uso dell'utente, ma non fanno parte del set di metadati che possono essere integrati nella pubblicazione.
Il sistema verifica che tra gli allegati di una pubblicazione in IRIS ci sia una versione ad accesso aperto "migliore" di quella restituita da Unpaywall. Per determinare quale versione è migliore rispetto ad un'altra si fa riferimento ad una scala per grado di preferenza attribuita alle tre versioni dell'allegato "Editoriale (VoR), Postrint e Preprint, l'elenco indicato rispecchia il grado di preferenza in ordine decrescente.
Di seguito i vari scenari che permettono di individuare il tipo di raggruppamento delle pubblicazioni e il tipo di intervento possibile sul file(s).
Scenario A - La pubblicazione in IRIS è dotata della "migliore" versione del file
- Non viene proposta nessuna integrazione/aggiornamento. La pubblicazione in IRIS è già dotata della migliore versione del file ad accesso aperto, quindi non sarà presente nel tool (vedi tabella sottostante)
Tipologia file OA presente in IRIS | Tipologia file OA fornita da Unpaywall |
---|---|
Versione Editoriale (VoR) | Preprint |
Postprint | |
Postprint | Preprint |
Scenario B - Unpaywall propone una versione "migliore" di quella presente in IRIS:
La pubblicazione verrà processata dal tool e sarà possibile procedere con l'upload del file e dei dati. In questo modo la pubblicazione verrà dotata di un allegato ad acceso aperto.
Scenario C - Versione dell'allegato coincidente e verifica della licenza
Se la versione dell'allegato, recuperata dalla banca dati esterna, corrisponde a quella presente in IRIS per uno o più allegati, le casistiche sono due:
- La licenza associata all'allegato/i coincide a quella recuperata da Unpaywall - in questo caso non è necessario intervenire poichè i dati sono tutti allineati.
- La licenza associata all'allegato/i NON coincide: in questo scenario si evidenziano due casistiche:
- la licenza è presente nel dizionario delle licenze Unpaywall - in questo caso sarà possibile intervenire per aggiornare le licenze dell'allegato(i) della pubblicazione con quanto recuperato dalla banca dati;
- la licenza NON è presente nel dizionario delle licenze Unpaywall - in questo caso si configurano due scenari diversi:
- se nella pubblicazione in IRIS è presente un solo allegato della stesa tipologia, NON sarà possibile effettuare l'aggiornamento della licenza attraverso il tool, ma si dovrà intervenire manualmente sul file. In presenza di un solo allegato si è ritenuta opportuna la verifica manuale da parte dell'utente.
- se nella pubblicazione sono presenti più allegati a cui sono associate licenze corrispondenti e/o comprese ed anche licenze NON comprese nel dizionario di Unpaywall, sarà possibile procedere con l'aggiornamento della licenza attraverso il tool.
Scenario D - Dati presenti in Unpaywall ma in IRIS non sono presenti allegati
La pubblicazione verrà processata dal tool e sarà possibile procedere con l'upload del file e dei dati. In questo modo alla pubblicazione viene aggiunto un nuovo allegato ad acceso aperto che prima non era presente.
Scenario E - La Policy del file in IRIS non è ad accesso aperto
A parità di versione, ma con policy di accesso NON OA associata all'allegato(i) in IRIS, non sarà possibile intervenire con il tool per effettuare l'aggiornamento, ma sarà necessario un intervento manuale per allineare la situazione.
Scenario F - Allegato presente in IRIS senza indicazioni sulla tipologia (VoR, Postprint o Preprint...)
In questo caso, non sarà possibile intervenire con il tool in integrazione dei dati, ma sarà necessario un intervento manuale da parte dell'utente.
Casi particolari:
Sono previsti casi particolari dove non è possibile procedere con l'aggiornamento attraverso il tool. I casi ad oggi tracciati sono:
- Caso A - Il recupero del file dalla banca dati non è permesso poichè NON è presente una url diretta al file PDF da consentire al sistema il download automatico; in questi casi è presente la url della pagina in cui è possibile trovare il file (landing page);
- Caso B - Unpaywall NON fornisce la licenza come dato.
- Caso C - blocco del download ad opera dei server presenti sulle pagine web in cui è visibile il pdf recuperato da Unpaywall (sistemi che bloccano le attività dei chat-bot)
I casi esposti sopra sono mappati in gruppi differenti in modo da poter facilitare la consultazione e utilizzo del tool. Sono riportati nella tabella a seguire i casi esposti sopra e il gruppo di riferimento, ad eccezione dello "Scenario A" che contiene i casi esclusi. Ad ogni gruppo è associato un colore al fine di rendere immediatamente identificabile il gruppo su cui si sta lavorando.
Tabella "scenari/gruppi"
Raggruppamento | Scenario/casi particolari | Colore | Azione Integra (SI/NO) |
---|---|---|---|
Tipologia file e licenza corrispondente | Scenario C.1 | Verde | NO |
Licenza non corrispondente | Scenario C.2.a Scenario C.2.b.ii | Giallo | SI |
Tipologia file IRIS specificata non corrispondente | Scenario B | Grigio | SI |
File IRIS con solo licenza non compresa in UPW e/o policy non OA | Scenario C.2.b.i Scenario E | Rosso | NO |
Nessun allegato IRIS | Scenario D | Bianco | SI |
Tipologia file IRIS non specificata | Scenario F | Turchese | NO |
Informazioni Unpaywall mancanti (manca licenza e/o presente solo landing page) | Caso A Caso B | Blu | NO |
Aggiornamento massivo fallito | Caso C | Nero | NO |
Punto di accesso
Si accede alla funzionalità dal seguente percorso "Prodotti">"Qualità dell'archivio"> "Integrazione Unpaywall".
Filtri di ricerca ed Elenco pubblicazioni
Al click sulla voce di menu "Integrazione Unpaywall" si atterra alla pagina dei risultati ottenuti dal confronto dei dati presenti in IRIS e quanto recuperato dalla banca dati esterna.
La pagina è strutturata in due sezioni:
- Sezione "Filtri di ricerca"
- Sezione " Elenco dei risultati"
Sezione "Filtri di ricerca"
Nella sezione dei filtri di ricerca sono presenti i seguenti campi di filtro:
- "Risultato della verifica": le scelte presenti nella combo servono a filtrare le pubblicazioni per gruppo di appartenenza. I raggruppamenti previsti rispecchiano il risultati ottenuti dal confronto fatto tra i dati recuperati e quanto presente in IRIS (vedi "Tabella scenari/gruppi")
- "Tipo Versione UPW": è possibile filtrare per tipologia del file recuperata dalla banca dati esterna (editoriale, preprint e postprint). Campo di filtro multiplo.
- "Tipologia OA Unpaywall": è possibile filtrare per tipologia di open access recuperata da Unpaywall, che sono hybrid, gold e green. Campo di filtro multiplo.
- "Licenza Unpaywall": permette di filtrare i record presenti per tipo licenza di Unpaywall.
- "Policy di accesso": è possibile filtrare per policy associata all'allegato presente in IRIS.
- "OA Host Unpaywall": sono due le fonti da cui vengono recuperate le informazioni esposte dal servizio esterno, Publisher (editore) e Repository (un qualsiasi repository).
- "Stato Validazione bitstream": i possibili valori sono "validato" non validato" e "ND")
- "Licenza Iris": permette di filtrare i record presenti per tipo licenza impostata per il file in IRIS.
Attenzione
Nel menu del campo filtro "Licenze Iris" sono esposti i valori delle licenze configurate nelle variabili, comprese anche quelle che l'ente ha scelto di mantenere come custom ad integrazione del dizionario delle licenze di Unpaywall.
L'ente, attraverso il tool del cambio etichette, potrà personalizzare le etichette (facendo attenzione a mantenere la stessa semantica) attraverso il tool di gestione delle etichette.
- "DOI"
- "handle" - della pubblicazione
- "Titolo Pubblicazione": permette di filtrare per titolo della pubblicazione.
- "Anno di pubblicazione"
- "Status di validazione": è possibile filtrare per stato della pubblicazione.
- "Responsabile del dato"
- "Autore"
- "dipartimento"
Sezione "Elenco pubblicazioni"
Le pubblicazioni sono esposte in questa sezione in formato tabellare.
Sono presenti le seguenti colonne:
- "Pubblicazione" - in cui sono esposti i dati della pubblicazione quali "Titolo", "responsabile del dato", "Identificativo" e "tipologia della pubblicazione".
- "Risultato verifica" - indica il gruppo all'interno del quale si trova la pubblicazione sulla base dei criteri esposti nella sezione sopra "Regole di recupero da Unpaywall ed eccezioni"
- "Indicazioni Unpaywall" - sono esposte le informazioni recuperate dalla banca dati esterna come migliore versione open access.
- "File pubblico" - cliccando sul link si apre in una nuova scheda del browser la pagina del pdf o del repository dove trovare il file.
- "Tipo versione UPW" - valori possibili sono "PublishedVersion" (versione editoriale), "AcceptedVersion" (postprint) e "SubmittedVersion" (preprit).
- "Tipologia Open Access" il tipo di OA attribuito al file recuperato dalla banca dati esterna. I possibili valori sono "gold" hybrid" e "green".
- "Licenza"- licenza recuperata dalla banca dati esterna.
- "OA Host" - indica la fonte delle informazioni se provenienti dall'editore o da altro repository.
- Informazioni allegato IRIS
- "Link allegato": nome del file con link diretto al pdf.
- "Tipologia di allegato": tipologia del file preso in esame "Editoriale ", "preprint", "postprint" ...
- "Policy di accesso": policy di accesso associata al file in IRIS.
- "Licenza": licenza associata al file considerato per il confronto con i dati presenti sulla banca dati esterna.
- "Stato validazione": viene esposto lo stato di validazione della pubblicazione.
- colonna "Azioni": Nella colonna "Azioni" , in corrispondenza di ogni singola pubblicazione, sono disponibili i pulsanti:
- "Lente di ricerca" - che apre , in una nuova scheda del browser, il dettaglio della pubblicazione.
- "Refresh" -permette di recuperare i dati aggiornati dalla banca dati di Unpaywall.
- Nella colonna "Seleziona" è presente, per le sole pubblicazioni su cui è consentito intervenire, il check di selezione per effettuare una selezione puntuale oppure una selezione massiva, in quest'ultimo caso la selezione massiva avviene attraverso il pulsante "Seleziona/Deseleziona".
ATTENZIONE
La possibilità di intervenire in integrazione/modifica della licenza è consentita per le pubblicazioni che fanno parte di alcuni raggruppamenti. Pertanto, si invita a prendere visione degli scenari indicati nella sezione "Regole di recupero da Unpaywall ed eccezioni".
Azioni per un intervento massivo
In alto a sinistra, sopra l'elenco delle pubblicazioni, sono presenti i pulsanti:
- "Seleziona/Deseleziona" - per permettere la selezione/deselezione massiva delle pubblicazioni visualizzate nella tabella
- "Integra" - al click sul pulsante si apre la pagina modale riportata di seguito
All'interno della modale è possibile effettuare due azioni che impattano il file che si sta importando o quello su cui si vuole agire in aggiornamento:
- "Valida allegati aggiornati/inseriti": se impostato il flag sul check di selezione, il sistema effettua la validazione del file recuperato e/o aggiornato.
- "Seleziona policy di accesso" - le scelte presenti nel menu a tendina sono "accesso aperto", "solo utenti autorizzati" e /o "Amministratori"; la presenza /assenza delle ultime policy dipende dalle configurazioni impostate per il singolo ente.
Cosa scegliere nel menu:
- scelta "Imposta policy di default su nuovi file e non modificare quelle già presenti" - se confermata questa scelta, il sistema imposterà ai file importati da Unpaywall la policy configurata come default, e lascia invariata la policy dei file presenti in IRIS.
- scelte ""accesso aperto", "solo utenti autorizzati" e /o "Amministratori"> - se scelta una delle tre scelte, il sistema attribuirà ai nuovi file e ai file presenti in IRIS la policy selezionata.