Visual World Crawler

Робот (crawler) производит скачивание страниц, их обработку и помещение в индекс Если при обработке страницы робот обнаруживает новую ссылку, он добавляет ее в список для скачивания.

Visual World Crawler представляется как VSAgent (compatible; Unix)

Visual World Crawler соблюдает стандарт файлов robots.txt, специфицированные в http://www.robotstxt.org/wc/norobots.html

Файл robots.txt в корневом каталоге сервера позволяет удалить из индекса сервер целиком, отдельные директории сервера и, непосредственно перечисленные отдельные файлы.

Семантика директив в файле robots.txt:


  User-agent: *
  Disallow: /                     # Удаляет из индексирования весь сервер целиком

или

  User-agent: *
  Disallow: /cgi-bin/             # Удаляет из индексирования директорию
  Disallow: /info/fakeinfo.html   # Удаляет из индексирования файл

Строка User-agent: указывает, что последующие директивы Disallow: относятся к указанному роботу. Символ * означает, что директивы предназначаются всем роботам. Если робот специфицирован непосредственно, то он рассматривает только предназначающиеся ему директивы, и не учитывает директивы, перечисленные в разделе User-agent: *.

Для указания директив непосредственно Visual World Crawler, необходимо задать его имя:

User-agent: VSAgent

Символ # указывает на начало комментария, и часть строки после этого символа роботом не рассматривается.