È possibile accedere alla funzionalità di deduplicazione dal menu a sinistra Prodotti -> Tool di manutenzione -> Deduplicazione, cerchiato in rosso nella figura sotto.

La pagina presenta due tab: "Tutti" e "Cerca per ID", che serve a mostrare i duplicati che non sono stati trovati automaticamente dal sistema, ma che è l'utente a chiedere di confrontare, selezionandoli con l'ID.

Dalla versione di IRIS 15.10.01.00, è stata introdotta una maschera di ricerca nella pagina principale, che permette di filtrare i risultati in base a Titolo, Id prodotto, DOI, Data di pubblicazione, Data di inserimento, Handle, Dipartimento, Autore interno.


 

La prima voce, il menu a tendina "Tra quali prodotti cercare", consente di scegliere se effettuare la ricerca tra tutti i potenziali duplicati dell'archivio, oppure restringere il campo di ricerca ai soli prodotti che non sono stati segnalati segnalati come duplicati da un operatore in fase di submission. Per farlo occorre scegliere la voce "Escludi verificati".  In fase di submission di un item esistono alcuni casi di sospetto duplicato. Al verificarsi di questi casi il sistema mostra un popup nel quale richiede all'utente di indicare per ognuno degli item "simili" se sia un duplicato oppure no. Quando si sceglie no gli item vengono segnalati come non duplicati (vedi Inserimento nuovo prodotto).

La seconda voce, ossia la tendina "Ricerca per", permette di scegliere il metadato in base al quale due prodotti vengono considerati l'uno il duplicato dell'altro (Titolo, DOI, ISBN, PubmedID). Se ad esempio si sceglie il Confronto per Titolo, vengono mostrati gli item i cui titoli devono essere esattamente uguali (viene confrontato l'MD5 dei titoli).

Attraverso gli altri filtri a disposizione è possibile raffinare la ricerca che si sta effettuando. Se ad esempio si aggiunge come data di inserimento il range   - , verranno cercati i potenziali prodotti che hanno lo stesso titolo, inseriti tra il   e il . Cliccando poi sul tarsto Cerca il sistema esegue la ricerca desiderata.

I risulati della ricerca vengono proposti come raggruppamenti di prodotti sul criterio scelto (in questo caso il titolo). Tra questi prodotti almeno uno soddisfa i criteri di ricerca scelti. Nell'esempio sottostante infatti viene mostrata una coppia di prodotti con lo stesso titolo, di cui il secondo appartiene al range di inserimento   - 

Il secondo tab "Check per item ID" consente di eseguire una ricerca mirata di due record di cui si vuole verificare se sono o meno duplicati. L'item ID è l'identificativo generato da IRIS per indirizzare univocamente l'item al suo interno. Per individuare gli item ID il modo più veloce è prenderlo dall'url della scheda prodotto accedendoci dal desktop prodotti nell'area riservata (se si accede alla scheda prodotto dall'area pubblica c'è l'handle la posto dell'item ID).

Gli id devono essereinseriti separati da virgola ",". Possono essere inseriti due o più identificativi. Cliccando sul tasto confronta viene mostrato il raggruppamento dei prodotti selezionati.

Una volta che si hanno a disposizione i risultati della ricerca, per ciascun ragguppamento di possibili duplicati viene data la possibilità di scegliere l'item target in fase di deduplicazione. Questo sarà l'item che verrà preso come riferimento per una possibile integrazione di metadati con i possibili duplicati, come spiegato successivamente. 

Il default è calcolato secondo l'algoritmo utilizzato finora, quindi l'item validato è prioritario sugli altri e a parità di stato viene scelto il meno recente (quello con itemId inferiore).

 

Leggermente differente è il funzionamento per i gruppi composti da un numero di item superiori a 2, per i quali l'utente deve esplicitamente scegliere quali item deduplicare spuntando la checkbox presente sulla sinistra. Ad esempio è possibile focalizzare l'analisi sui soli prodotti definitivi, escludendo quelli in stato di bozza.

In questo caso, i radio button per la scelta del target sono inizialmente disattivati e vengono abilitati contestualmente alla spunta della checkbox. Non potendo sapere preventivamente su quali item scegliere il target, in questo caso non viene eseguita una scelta preventiva dell'item target. Qualora poi l'utente decidesse di procedere senza aver effettuato nessuna scelta, allora apparirà un messaggio di attenzione che segnalerà la necessità di indicare un item target.

Se tra i risultati mostrati viene individuato un gruppo di prodotti che non sono duplicati, Cliccando sul tasto "Non sono duplicati" questi vengono esclusi definitivamente dal tool di deduplicazione. Viene quindi riproposta la form di ricerca iniziale.

Cliccando su Confronta, si accede alla schermata di elenco dei metadati, come mostrato in figura sotto. Viene mantenuto l'handle dell'item scelto come target.

Sulla destra della schermata c'è l'ItemID: azzurro è quello del target, grigio è quello che viene usato per il confronto. Lo stesso sistema di colori viene usato per contrassegnare ogni metadato elencato sotto, per far capire all'utente se proviene dal target o dal duplicato.

Nel riquadro rosso in figura si mette in evidenza un metadato per cui esistono due versioni differenti: quello con il segno di spunta in verde è il valore scelto, mentre quello con sfondo rosso e il simbolo del divieto è quello scartato. Ma l'utente cliccando sulla riga può invertire la scelta.



Il bottone "mostra differenze" evidenzia in una modal box le differenze puntuali:


 

Il tasto "Elimina" serve per eliminare completamente il metadato

Il bottone al centro in alto “Mostra/Nascondi valori” permette di vedere tutti i campi valorizzati (cliccandolo una seconda volta si torna alla visualizzazione completa), mentre quello accanto “Mostra/Nascondi oggetto finale” fa vedere solo l’elenco dei valori scelti, cioè quelli col segno di spunta verde. Il bottone “Fondi” unifica i due prodotti in uno solo, avente i metadati dell’oggetto finale, e riporta l’utente alla schermata iniziale.

Se un campo può avere più di un valore (come ad esempio il campo Autori), si seleziona singolarmente ogni riga e si decide se mantenerla o no.

Nella figura sotto entrambi gli autori sono mantenuti:

In quest’altro caso invece vengono entrambi scartati:

 

Nel caso di campo ripetuto non è più presente il bottone “Mostra differenze”. Esso sparisce anche se si stanno confrontando più di due item.

 

Sincronizzazione con Sito Docente

I prodotti presenti in IRIS in stato definitivo sono costantemente sincronizzati con LoginMiur. Tutte le modifiche fatte attraverso il tool di deduplicazione vengono propagate su LoginMiur. Sono sincronizzate le modifiche fatte ai prodotti che riguardano sia i dati bibliografici che i dati relativi agli autori interni del prodotto.