Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 12.2.1Начало работы с модулем 12.2.2Язык запросов 12.2.3Способы хранения индекса 12.2.4Интерфейс модуля в панели управления сайтом 12.2.5Области индексирования 12.2.6Области HTML-страниц 12.2.7Области поиска на сайте 12.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 12.2.9Правила индексирования 12.2.10Постановка задачи переиндексирования в очередь 12.2.11Интеграция модуля в макеты дизайна сайта 12.2.12Простая форма поиска 12.2.13Расширенная форма поиска 12.2.14Вывод результатов поиска 12.2.15Стилизация списка подсказок 12.2.16Расширенные настройки 12.2.17Разработка расширений модуля 12.2.18Обзор архитектуры модуля 12.2.19Обработчики документов различных типов 12.2.20Текстовые фильтры 12.2.21Анализаторы текста 12.2.22Корректировщики запросов 12.2.23Подключение других поисковых систем 12.2.24Решение проблем с поиском 12.2.25Решение проблем с индексированием 12.2.26Справочник API

Области индексирования

Задание списка страниц, подлежащих индексированию

Модуль поиска позволяет гибко указывать область для переиндексирования (вкладка «Настройки» — «Правила» в панели управления модулем).

Указание сайта:

  • site1 — сайт с идентификатором 1
  • mysite.ru — домен сайта (не указывайте протокол http!)
  • allsites — все сайты под управлением данной копии NetCat

Указание раздела:

  • sub10* — раздел с идентификатором 10 и все его потомки (разделы, объекты)
  • sub10 — раздел с идентификатором 10 и страницы объектов, расположенные в нём
  • sub10. — раздел с идентификатором 10, только главная страница раздела
  • Вместо идентификатора раздела в формате subXX можно указать путь к разделу, заканчивающийся на «/» (также можно использовать модификаторы «.», «*»):
    /company/news/
    /company/news/*
    /company/news/.

Указание конкретной страницы — необходимо указать путь до страницы:

  • /company/about/history.html

Для исключения подобласти необходимо поставить знак «-» перед её описанием:

  • -sub10
  • -/company/*

Можно указать любое количество подобластей через пробел, перенос строки или запятую:

  • /company/* /catalogue/* -sub15

Если необходимо исключить один или несколько уровней иерархии, разделы должны быть перечислены в порядке увеличения глубины их положения в дереве разделов:

  • /company/* -/company/staff/* /company/staff/director.html

Исключение страниц по адресу (для всех правил)

В панели управления модулем («Настройки» — «Общие», раздел «Запретить индексирование страниц по регулярному выражению») можно указать глобальные (действующие для всех правил) шаблоны путей, по которым страницы будут исключены из процесса индексирования. Данные шаблоны являются регулярными выражениями и применяются к полному пути страницы, включая протокол (http) и доменное имя. Правила задаются без разделителей и модификаторов регулярных выражений.

Примеры глобальных правил:

  • [?&]template=59 — исключить все пути, содержащие ?template=59 или &template=59
  • ^http://[^/]+/netcat/ — исключить все пути на всех сайтах, начинающиеся с /netcat/
  • \.rss$ — исключить все пути, заканчивающиеся на .rss

Внимание! Не забудьте экранировать спецсимволы регулярных выражений «.», «?». Прямой слеш «/» экранировать не нужно.

Все страницы, пути которых попадают под правила исключения, не будут запрашиваться модулем в процессе индексирования. Правила исключения также применяются к путям на других сайтах, если включена опция проверки ссылок за пределами сайта.

Исключение страницы из области индексирования также означает, что с данной страницы не будут получены для проверки ссылки на другие страницы.

Игнорируемые ссылки

Страницы, на которые имеются ссылки с атрибутом rel="nofollow", не добавляются в очередь индексатора. Таким образом, если все ссылки на какую-либо страницу имеют данный атрибут, страница не будет проиндексирована.

Настройки разделов, влияющие на индексирование

На область поиска влияет настройка сайтов и разделов «Запретить индексирование» (вкладка «SEO» в настройках сайта и раздела). Все разделы, индексирование которых запрещено, не будут запрашиваться модулем в процессе переиндексирования.

Кроме того, если на HTML-странице имеется тэг <meta name="robots" content="noindex" /> (такой тэг добавляется автоматически для страниц, находящихся в запрещённых к индексированию разделах, но его можно добавить и самостоятельно), страница также не будет индексироваться.

Исключение страниц по их размеру

По умолчанию индексируются страницы размером не более 5 Мб. Вы можете увеличить или уменьшить это значение в панели управлением модулем на вкладке «Настройки» — «Общие», пункт «Максимальный размер индексируемых страниц».

Описание проекта