Создание локальной копии сайта (wget)

Синтаксис:

  • -v – показывать процесс списывания;
  • -m – сделать копию сайта (если говорить на нормальном русском языке, то мирроринг). Заменяет набор ключей “-r -N -l inf –no-remove-listing”.
  • -k – преобразовать ссылки, адаптируя их для локального просмотра. Например, если списывается /foo/doc.html со ссылкой на /bar/img.gif, то в локальной копии будет записано ../bar/img.gif.
  • -K – опция осталась для меня загадкой, вроде бы она должна использоваться совместно с ‘-k’ для определения, изменился ли файл на сервере.
  • -E – если тип списанного контента был ‘application/xhtml+xml’ или ‘text/html’, и его расширение не .html (грубо говоря, а реально не удовлетворяет шаблону ‘\.[Hh][Tt][Mm][Ll]?’), то добавить .html к имени.
  • -w 1 – ждать 1 секунду перед следующим запросом на списывание файла. Можно поставить больше. Полезно, если сервер блокирует за частое списывание.
  • –output-file=wget.log – писать процесс работы в лог-файл.

Если же доступ к сайту даётся только после аутентификации по HTTP, то формат команды такой (добавляются –user и –password): wget -v -m -k -K -E -w 1 –user=user –password=secret –output-file=wget.log http://www.secretsite.com/ Если же используется аутентификация через форму в html, да ещё с использованием сессионных coockies, то в принципе побороть это можно, но требует ухищрения. Опишу это отдельно, сейчас у меня нет под рукой такого сайта.

Вам может также понравиться...

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.