Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 12.2.1Начало работы с модулем 12.2.2Язык запросов 12.2.3Способы хранения индекса 12.2.4Интерфейс модуля в панели управления сайтом 12.2.5Области индексирования 12.2.6Области HTML-страниц 12.2.7Области поиска на сайте 12.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 12.2.9Правила индексирования 12.2.10Постановка задачи переиндексирования в очередь 12.2.11Интеграция модуля в макеты дизайна сайта 12.2.12Простая форма поиска 12.2.13Расширенная форма поиска 12.2.14Вывод результатов поиска 12.2.15Стилизация списка подсказок 12.2.16Расширенные настройки 12.2.17Разработка расширений модуля 12.2.18Обзор архитектуры модуля 12.2.19Обработчики документов различных типов 12.2.20Текстовые фильтры 12.2.21Анализаторы текста 12.2.22Корректировщики запросов 12.2.23Подключение других поисковых систем 12.2.24Решение проблем с поиском 12.2.25Решение проблем с индексированием 12.2.26Справочник API

Анализаторы текста

Анализаторы текста (наследуют класс nc_search_language_analyzer) отвечают за приведение слов к базовой форме.

Морфологический анализ текста

По умолчанию для морфологического анализа русского и английского языков используется библиотека phpMorphy (http://phpmorphy.sf.net/).

Библиотека также имеет словари для украинского, эстонского, немецкого языков (не поставляются с NetCat). Для этих языков необходимо скачать соответствующие UTF-8 словари с сайта phpMorphy, поместить их в папку modules/search/lib/3rdparty/phpmorphy/dicts/, и добавить запись на вкладке «Настройки» — «Расширения» (интерфейс расширения — nc_search_language_analyzer, класс расширения — nc_search_language_analyzer_morphy, язык — Ukrainian, Estonian или German).

Примечание: словари phpMorphy для работы с модулем поиска должны иметь расширение с повторяющимся кодом языка вместо кода страны («uk_uk.bin», а не «uk_ua.bin», «et_et.bin» вместо «et_ee.bin»).

Стемминг

В комплекте поставки модуля поиска имеются стеммеры для русского и английского языков. Стеммеры представляют собой алгоритм, определяющий корень слова. Данный способ является гораздо менее точным, чем морфологический анализ, но требует меньше ресурсов сервера. Вы можете использовать стемминг вместо морфологического анализа в тех случаях, когда существует необходимость уменьшить нагрузку на процессор и время, необходимое для индексирования документов. Для использования стемминга вместо морфологического анализа:

  • Откройте вкладку «Настройки» — «Расширения» в панели управления модулем поиска.
  • Нажмите на кнопку «Изменить» напротив расширения с классом nc_search_language_analyzer_morphy для языка с кодом en.
  • В форме редактирования замените класс расширения с nc_search_language_analyzer_morphy на nc_search_language_analyzer_stemmer_en и сохраните настройки.
  • Проделайте ту же операцию для расширения с классом nc_search_language_analyzer_morphy для языка с кодом ru (класс стеммера — nc_search_language_analyzer_stemmer_ru).

 

Для создания собственного стеммера можно создать класс, наследующий nc_search_language_stemmer, в этом случае необходимо реализовать только метод stem(string $word).

Примечание: на вход анализатору (при настройках по умолчанию) попадают слова в верхнем регистре, в том же регистре должен быть результат выполнения обработки текста анализатором.

Описание проекта