Sommario

Introduzione

È possibile accedere alla funzionalità di deduplicazione dal menu a sinistra Prodotti -> Tool di manutenzione -> Deduplicazione, cerchiato in rosso nella figura sotto.

La pagina presenta due tab: "Tutti" e "Cerca per ID". Quest'ultima serve a mostrare i duplicati che non sono stati trovati automaticamente dal sistema, ma che è l'utente a chiedere di confrontare, selezionandoli con l'ID.

Il tab "Tutti", invece, mestra i potenziali duplicati trovati dal sistema. Dalla versione di IRIS 15.10.01.00, è stata introdotta una maschera di ricerca che permette di filtrare i risultati in base a Titolo, Id prodotto, DOI, Data di pubblicazione, Data di inserimento, Handle, Dipartimento, Autore interno.


Tab Tutti

Nel tab "Tutti", la prima voce (il menu a tendina "Tra quali prodotti cercare") consente di scegliere se effettuare la ricerca tra tutti i potenziali duplicati dell'archivio, oppure di escludere i casi gia verificati.

Per comprendere a fondo di cosa si tratta occorre fare una premessa. Quando si effettua la submissiun di un item il sisitema verifica che i dati inseriti (come ad es il titolo o il DOI) non compaiano gia in un item presente in arichvio. Al verificarsi di casi come questo,il sistema mostra un popup nel quale richiede all'utente di indicare per ognuno degli item "simili" se sia un duplicato oppure no. Quando si sceglie no gli item vengono segnalati come non duplicati (vedi Inserimento nuovo prodotto). Per tanto, se nel campo "Tra quali prodotti cercare" si sceglie "Escludi verificati", si prendono in considerazioen solo i prodotti che non sono gia stati esaminati da un operatore in fase di submission.

La seconda voce, ossia la tendina "Ricerca per", permette di scegliere il metadato in base al quale due prodotti vengono considerati l'uno il duplicato dell'altro (Titolo, DOI, ISBN, PubmedID). Se ad esempio si sceglie il Ricerca per Titolo, vengono mostrati gli item i cui titoli sono esattamente uguali (viene confrontato l'MD5 dei titoli).

Attraverso gli altri filtri a disposizione è possibile raffinare la ricerca che si sta effettuando. Se ad esempio si aggiunge come "Data di inserimento" il range   - , verranno cercati i potenziali prodotti che hanno lo stesso titolo, inseriti tra il   e il . Cliccando poi sul tarsto "Cerca" il sistema esegue la ricerca desiderata.

Tab Check per item ID

Il secondo tab "Check per item ID" consente di eseguire una ricerca mirata di due record di cui si vuole verificare se sono o meno duplicati. La ricerca viene effettuata attraverso l'id degli item. Gli id devono essereinseriti separati da virgola ",". e possono essere inseriti due o più identificativi.

L'item ID è l'identificativo generato da IRIS per indirizzare univocamente l'item al suo interno. Per individuare gli item ID il modo più veloce è prenderlo dall'url della scheda prodotto accedendoci dal desktop prodotti nell'area riservata (se si accede alla scheda prodotto dall'area pubblica c'è l'handle la posto dell'item ID).

 Cliccando sul tasto confronta viene mostrato il raggruppamento dei prodotti selezionati.

 

Risultati della ricerca

I risulati della ricerca vengono proposti come raggruppamenti di prodotti sui criteri scelti. Tra i raggruppamenti proposti almeno un prodotto soddisfa tutti i criteri di ricerca inseriti. Nel caso descritto precedentemente, come criterio era stato scelto il titolo, mentre come filtro di raffinazione della ricerca era stata scelta la data di inserimento. Nell'esempio sottostante viene mostrata una coppia di prodotti con lo stesso titolo, di cui il secondo appartiene al range di inserimento   - .

Una volta che si hanno a disposizione i risultati della ricerca, per ciascun ragguppamento di possibili duplicati viene data la possibilità di scegliere l'item target in fase di Confronto. Questo sarà l'item che verrà preso come riferimento per una possibile integrazione di metadati con i possibili duplicati, come spiegato successivamente. 

Il default è calcolato secondo l'algoritmo utilizzato finora, quindi l'item validato è prioritario sugli altri e a parità di stato viene scelto il meno recente (quello con itemId inferiore).

Leggermente differente è il funzionamento per i gruppi composti da un numero di item superiori a 2, per i quali l'utente deve esplicitamente scegliere quali item deduplicare spuntando la checkbox presente sulla sinistra. Ad esempio è possibile focalizzare l'analisi sui soli prodotti definitivi, escludendo quelli in stato di bozza.

In questo caso, i radio button per la scelta del target sono inizialmente disattivati e vengono abilitati contestualmente alla spunta della checkbox. Non potendo sapere preventivamente su quali item scegliere il target, in questo caso non viene eseguita una scelta preventiva dell'item target. Qualora poi l'utente decidesse di procedere senza aver effettuato nessuna scelta, allora apparirà un messaggio di attenzione che segnalerà la necessità di indicare un item target.

Se tra i risultati mostrati viene individuato un gruppo di prodotti che non sono duplicati, cliccando sul tasto "Non sono duplicati" questi vengono esclusi definitivamente dal tool di deduplicazione. Viene quindi riproposta la form di ricerca iniziale.

Confronto tra possibili duplicati

Cliccando su Confronta, si accede alla schermata di elenco dei metadati, come mostrato in figura sotto. Viene mantenuto l'handle dell'item scelto come target.

Sulla destra della schermata c'è l'ItemID: azzurro è quello del target, grigio è quello che viene usato per il confronto. Lo stesso sistema di colori viene usato per contrassegnare ogni metadato elencato sotto, per far capire all'utente se proviene dal target o dal duplicato.

Nel riquadro rosso in figura si mette in evidenza un metadato per cui esistono due versioni differenti: quello con il segno di spunta in verde è il valore scelto, mentre quello con sfondo rosso e il simbolo del divieto è quello scartato. Ma l'utente cliccando sulla riga può invertire la scelta.



Il bottone "mostra differenze" evidenzia in una modal box le differenze puntuali:


 

Il tasto "Elimina" serve per eliminare completamente il metadato

Il bottone al centro in alto “Mostra/Nascondi valori” permette di vedere tutti i campi valorizzati (cliccandolo una seconda volta si torna alla visualizzazione completa), mentre quello accanto “Mostra/Nascondi oggetto finale” fa vedere solo l’elenco dei valori scelti, cioè quelli col segno di spunta verde. Il bottone “Fondi” unifica i due prodotti in uno solo, avente i metadati dell’oggetto finale, e riporta l’utente alla schermata iniziale.

Se un campo può avere più di un valore (come ad esempio il campo Autori), si seleziona singolarmente ogni riga e si decide se mantenerla o no.

Nella figura sotto entrambi gli autori sono mantenuti:

In quest’altro caso invece vengono entrambi scartati:

 

Nel caso di campo ripetuto non è più presente il bottone “Mostra differenze”. Esso sparisce anche se si stanno confrontando più di due item.

 

Sincronizzazione con Sito Docente

I prodotti presenti in IRIS in stato definitivo sono costantemente sincronizzati con LoginMiur. Tutte le modifiche fatte attraverso il tool di deduplicazione vengono propagate su LoginMiur. Sono sincronizzate le modifiche fatte ai prodotti che riguardano sia i dati bibliografici che i dati relativi agli autori interni del prodotto.