Descargar una página web completa usando wget y nohup

En este tutorial, explicaré 2 maneras de bajar una página web completa usando la interfaz de linea de comando wget.

La primera es usando solo un comando que no se ejecuta en segundo plano.
La segunda se ejecuta en segundo plano y en un "shell" diferente para que pueda salir de su sesión ssh y continuará de cualquier manera.

Primero prepare una carpeta para descargar los sitios web y comience su descarga, tenga en cuenta que si descarga www.midominio.com tendrá una carpeta como:

/misplantillas/www.midominio.com/

Paso 1:

mkdir /misplantillas/
cd /misplantillas/

Paso 2:

1er Camino

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.midominio.com

2do Camino

En el fondo haga un nohup en frente y en la parte posterior

nohup wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://www.midominio.com &

Luego liste el directorio donde ejecutó wget (se ha creado un archivo nohup.out) hagamos un tail -f

tail -f nohup.out

Significado de todos los interruptores:

Interruptor	Descripción
--limit-rate=200k	Limite de descarga a 200 Kb/seg.
--no-clobber	No sobrescriba ningún archivo existente (usado en caso de que la descarga se interrumpa y se reanude).
--convert-links	Convertir enlaces para que funcionen localmente, fuera de línea, en lugar de apuntar a un sitio web en línea.
--random-wait	Esperas aleatorias entre descargas (a los sitios web no les gusta la descarga de sus archivos estáticos).
-r	Recursivo, descarga el sitio web completo.
-p	Descarga todo, incluso imágenes, hojas de estilo, java scripts, etc.
-E	Obtiene la extensión correcta del archivo, sin la mayoría de html y otros archivos que no tienen extensión.
-e robots=off	Actuar como si no fuéramos un robot, no como un rastreador, a los sitios web no les gustan los robots rastreadores a menos que sean de Google u otro de motor de búsqueda famoso.
-U mozilla	Pretender ser como un navegador Mozilla que está mirando la página en lugar de un rastreador wget.

Las razones del por qué no se incluyo lo siguiente:

Interruptor	Descripción
-o=/websitedl/wget1.txt	Registrar todo para wget log.txt, no hice esto porque no me dio salida en la pantalla y no me gusta esa identificación, prefiero usar nohup y & y tail -f con la salida de nohup.out
-b	Ejecución en segundo plano, no puedo ver el progreso, me gusta más "nohup <commands> &"
--domain=midominio.com	Alojamiendo de Google, es posible que se deba ingresar a los dominios de Google
--restrict-file-names=windows	Modifica los nombres de archivo para que también funcionen en Windows, parece funcionar bien sin él

Si te gustó compártelo o ponlo en práctica...

Marco Torres

Descargar una página web completa usando wget y nohup

Popular Posts

Como instalar Docker en CentOS, Fedora, Ubuntu y Debian

Instalar LAMP en Ubuntu 13.04 / 12.10 / 12.04

Cómo instalar Git en Ubuntu 13.04

Instalación del editor de texto Geany

Nunca es tarde para empezar una nueva etapa...

Facebook

Archivo

Tags

Footer Menu Widget

Marco Torres

Descargar una página web completa usando wget y nohup

Tal vez te interesen estas entradas

Social Plugin

Popular Posts

Como instalar Docker en CentOS, Fedora, Ubuntu y Debian

Instalar LAMP en Ubuntu 13.04 / 12.10 / 12.04

Cómo instalar Git en Ubuntu 13.04

Instalación del editor de texto Geany

Nunca es tarde para empezar una nueva etapa...

Facebook

Archivo

Tags

Footer Menu Widget