Nota: questa guida è basata su Linux, ma il tool ha una versione anche per Windows.


Per staticizzare un sito con il tool HTTrack, si scarica e si installa il programma da questa pagina
https://www.httrack.com/page/2/en/index.html

quindi si apre dalla propria macchina "HTTrack Website Copier" e si inizia un nuovo progetto.

In "New project name:" si inserisce il nome che desideriamo dare alla cartella che conterrà il sito statico; quindi si clicca su "Next".

Nella schermata successiva clicchiamo su "Add a URL.." accanto a "Web Addresses: (URL)", si inserisce l'URL del sito di cui vogliamo fare lo scraping e si clicca su "Ok".

Quindi si clicca sul bottone "Set Options.." accanto a "Preferences and mirror options:". Si aprirà un popup. Nella nuova finestra si impostano le seguenti configurazioni:
Links - si spunta "Get non-HTML files related to a link,", Try to catch all URLs" e "Get HTML files first!";
Build - si spunta "No external pages";
Flow Control -
    N# connections: 99
    Retries: 2
Limits - 
    Max depth: 4
    Max external: 0
    Max transfer rate: 0
Scan rules - si aggiunge la stringa (se non serve, si può anche rimuovere quella di default):
+. --disable-security-limits --max-rate 300000
Quindi si clicca su "Ok" e poi, nella pagina padre, "Next".
Nella successiva pagina si clicca su "Start".

A fine download, HTTrack mostrerà il link per accedere al sito copiato.

In alternativa, lo si può trovare cercando sulla macchina il link a "Browse mirrored website".


Nota (warning)
Il tool cambia il nome dei file, ad esempio "style.css" dopo lo scraping avrà un nome del genere "style1j4h.css".
Se si notano dei problemi di grafica e funzionamento, si consiglia di fare un controllo e, nel caso, rinomiare i file riportarndoli al loro nome originale.

  • No labels