Scraping con HTTrack

Nota: questa guida è basata su Linux, ma il tool ha una versione anche per Windows.

Per staticizzare un sito con il tool HTTrack, si scarica e si installa il programma da questa pagina
https://www.httrack.com/page/2/en/index.html

quindi si apre dalla propria macchina "HTTrack Website Copier" e si inizia un nuovo progetto.

In "New project name:" si inserisce il nome che desideriamo dare alla cartella che conterrà il sito statico; quindi si clicca su "Next".

Nella schermata successiva clicchiamo su "Add a URL.." accanto a "Web Addresses: (URL)", si inserisce l'URL del sito di cui vogliamo fare lo scraping e si clicca su "Ok".

Quindi si clicca sul bottone "Set Options.." accanto a "Preferences and mirror options:". Si aprirà un popup. Nella nuova finestra si impostano le seguenti configurazioni:
Links - si spunta "Get non-HTML files related to a link,", Try to catch all URLs" e "Get HTML files first!";
Build - si spunta "No external pages";
Flow Control -
N# connections: 99
Retries: 2
Limits -
Max depth: 4
Max external: 0
Max transfer rate: 0
Scan rules - si aggiunge la stringa (se non serve, si può anche rimuovere quella di default):
+. --disable-security-limits --max-rate 300000
Quindi si clicca su "Ok" e poi, nella pagina padre, "Next".
Nella successiva pagina si clicca su "Start".

A fine download, HTTrack mostrerà il link per accedere al sito copiato.

In alternativa, lo si può trovare cercando sulla macchina il link a "Browse mirrored website".

Nota
Il tool cambia il nome dei file, ad esempio "style.css" dopo lo scraping avrà un nome del genere "style1j4h.css".
Se si notano dei problemi di grafica e funzionamento, si consiglia di fare un controllo e, nel caso, rinomiare i file riportarndoli al loro nome originale.

Page tree

Scraping con HTTrack