Ir para o conteúdo

Como baixar um site inteiro para navegar offline

por Gabriel

Neste tutorial vamos aprender a baixar todos os arquivos de um site, para que possamos acessá-lo offline ou apenas como arquivamento, para o caso de o site sair do ar algum dia. Lembrando que nesse caso, "baixar um site" não significa baixar o código-fonte original e sim baixar todos os arquivos HTML que o servidor envia para o browser.

No Windows

O primeiro passo é criar uma pasta na área de trabalho chamada "Sites". É dentro dessa pasta que vão ficar os arquivos dos sites baixados para acessar offline mais tarde.

Faça download do programa HTTrack. Logo após a instalação, abra o programa. Na primeira vez, você deve configurar o idioma:

HTTrack alterar idioma

Depois de mudar para português do Brasil, feche o HTTrack e abra-o novamente, para que o idioma seja alterado.

Na tela principal, clique no botão "Avançar". Em "Nome do projeto", informe o nome do site.

Em "Categoria", você pode deixar em branco. Em "Caminho base" escolha a pasta "Sites", que criamos na área de trabalho.

Feito isso, clique no botão "Avançar". Na próxima tela, em "endereço web", informe o endereço completo do site, incluindo o http://.

Agora vem um passo importante. Uma grande parte dos sites vai bloquear o HTTrack por padrão, retornando o erro 403 Forbidden. Então nós precisamos alterar o identificador do programa (User-Agent) para que seja possível baixar o site sem problemas. Para isso, clique em "Definir as opções" e clique na aba "Identidade do navegador".

Em "Identificação", apague o valor padrão e escreva:

Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36

Depois clique no botão "Avançar" e então "Concluir". Aguarde alguns minutos ou horas, dependendo do tamanho do site. Assim que terminar, clique no botão "Sair".

Agora encontre na pasta "Sites" o site que você baixou. Geralmente o arquivo da página inicial será o index.html.

No entanto, na hora de baixar um site, talvez apareça uma mensagem de erro, como podemos ver na imagem baixo:

HTTrack erro ao baixar o site

Nesso caso, vamos baixar um programa alternativo, o Cyotek WebCopy.

Depois de baixá-lo e instalá-lo, abra o WebCopy. Em "Website", informe o endereço completo do site. Em "Save folder", especifique um lugar, como a pasta "Sites", que criamos na área de trabalho. Feito isso, basta clicar no botão "Copy", que fica bem à direita:

Cyotek WebCopy

Então aguarde algum tempo até que todos os arquivos sejam baixados. Se tudo ocorrer bem, você pode navegar offline abrindo a o arquivo ...Sites/site.com.br/index.html.

No Linux

No Linux, basta usar o wget, com alguns parâmetros adicionais:

wget \
    --mirror \
    --no-check-certificate \
    --page-requisites \
    --convert-links \
    --adjust-extension \
    --execute robots=off \
    --wait 2 \
    --random-wait \
    --no-parent \
    --reject-regex '\?' \
    --user-agent Mozilla \
    http://exemplo.com.br

Importante

Faça download de um site somente se você realmente precisar acessá-lo offline, pois esse processo pode prejudicar o servidor que hospeda o site, podendo até mesmo tirá-lo do ar. Prefira fazer os downloads durante a madrugada, onde o número de acessos ao site é menor. Baixar todos os arquivos de um site grande poderá levar semanas ou até meses para completar e você corre o risco de ter seu IP banido.

Mostrar comentários