A veces necesitamos descargar una página web entera para revisarla off-line o modificarla. Para dichos casos, disponemos de una herramienta muy buena en Linux: GNU Wget.
Con Wget podemos descargar un sitio web (o FTP) entero, o un archivo en particular, pausar y resumir la descarga, utilizar “comodines” para descargar ciertos archivos, etc.
Uso
Hasta donde se, GNU Wget viene en todas las distribuciones por lo que no tenemos que instalarlo. Su uso es muy sencillo, si queremos descargar un archivo en particular, abrimos consola e ingresamos:
wget http://www.paginaweb.com/directorio/cualquiera/archivo.ext
Obviamente, usando la dirección correcta en donde se encuentra el archivo deseado.
Si deseamos descargar una página web entera, ejecutamos:
wget -r http://www.paginaweb.com/
La opción -r es para realizar una descarga “recursiva”, es decir ingresará a los subdirectorios del sitio web (ojo que si los enlaces a las demás páginas del sitio están hechos en flash no podrá descargarlos).
Si deseamos descargar todas las imágenes jpg y png de una página:
wget -r -A=.jpg,.png http://www.paginaweb.com
Con -A=.jpg,.png sólo bajara los archivos con dichas extensiones y -r es para que busque en forma recursiva.
Existe algunos programas que sirven como interfaz gráfica (GUI) a GNU Wget, uno de ellos es Kget.
Entradas Relacionadas:
Posts RSS
Vía Email













Si me bajo una web con wget, en donde se guarda esta web, gracias
Se descarga en el directorio en el que estés cuando lanzas el comando.
Esto no esta bién => wget -r -A=.jpg,.png http://www.paginaweb.com
No me ha funcionado, en cambio así sí => wget -r -A .jpg,.png http://www.paginaweb.com
Excelente funciona a la perfección, pero ¿Cómo se detiene la descarga de un website después de iniciada? Gracias
Puedes terminar wget con : CONTROL + C
Muy bien, pero y si ya había cerrado la consola de linux, existe algún comando para detenerel wget? Saludos y gracias.
Puedes abrir la consola, lanzar el comando
ps -aux
fíjate qué id de proceso es el que tiene el wget y luego ejecutas:
kill -9 id_proceso
para matarlo.
Hay una gráfica para hacer esto en forma gráfica, pero no recuerdo su nombre.
OK funcionó perfecto, gracias.
morzilla es el programa mas completo y lo quiero
Quiero saber como hacer para descargar solo los archivos pdf de un sitio web o poder saber la estructura de la web
DnL, prueba con
wget -r -A .pdf http://www.paginaweb.com
Muy bueno el tutorial, me funciono perfectamente
HOYGAN KOMO ME VAJO EL MOSILLA FAIREFUX ?????? PARA NABEGRAE EN LA ÇENTERNET EXPLORUR ES LEEEEEEEEEEEEEEEEEEEEEEEEEEEENTO
bueno me estoy iniciando en linux debian y quiero descargalo paginas completas con el determinado comando q’ esta arriba no me baja apsolutamente nada de nada un ejemplo la pag. http://www.aulaclic.es/word2007/index.htm
wget -r -A=.jpg,.png http://www.aulaclic.es/word2007/index.htm
no me baja nada de nada alguna segerencia? esto es lo q’ me sale
wget -r -A .jpg,.png http://www.aulaclic.es/word2007/index.htm
–08:43:40– http://www.aulaclic.es/word2007/index.htm
=> `www.aulaclic.es/word2007/index.htm’
Resolviendo http://www.aulaclic.es... falló: Nombre o servicio desconocido.
Eliminando http://www.aulaclic.es/word2007/index.htm puesto que debería ser rechazado.
unlink: No existe el fichero o el directorio
ACABADO –08:43:40–
Descargados: 0 bytes en 0 ficheros
Donovan, el página que mencionas tarda bastante en cargar (desde el navegador). Supongo que ese es el problema (si te das cuenta, wget te dice: Nombre o servicio desconocido).
Prueba con otra página (que no tarde tanto) y luego revisa el < a href="http://www.cs.huji.ac.il/~bioskill/MAN/wget.html">manual de wget para setear el máximo de intentos a infinito o aumentar el timeout (por defecto a 15 minutos).
Si usas KDE, puedes probar Kget, una interfaz gráfica para wget.
Muchas gracias por la ayuda
Muy buena info..me sirvio..!!!
Muchas gracias por la informaciòn.
MUY COMPLETA, MUY PRECISA.
Eres el mejor!!