Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 13.2.1Начало работы с модулем 13.2.2Язык запросов 13.2.3Способы хранения индекса 13.2.4Интерфейс модуля в панели управления сайтом 13.2.5Области индексирования 13.2.6Области HTML-страниц 13.2.7Области поиска на сайте 13.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 13.2.9Правила индексирования 13.2.10Постановка задачи переиндексирования в очередь 13.2.11Интеграция модуля в макеты дизайна сайта 13.2.12Простая форма поиска 13.2.13Расширенная форма поиска 13.2.14Вывод результатов поиска 13.2.15Стилизация списка подсказок 13.2.16Расширенные настройки 13.2.17Разработка расширений модуля 13.2.18Обзор архитектуры модуля 13.2.19Обработчики документов различных типов 13.2.20Текстовые фильтры 13.2.21Анализаторы текста 13.2.22Корректировщики запросов 13.2.23Подключение других поисковых систем 13.2.24Решение проблем с поиском 13.2.25Решение проблем с индексированием 13.2.26Справочник API

Обработчики документов различных типов

Имеется возможность индексировать файлы различных типов. Обработчик документа должен реализовать интерфейс nc_search_document_parser:

public function load (nc_search_indexer_crawler_response $response)
Тип: void

После загрузки документа индексатором будет вызван метод $parser->load(). Обработчик создается во время сессии индексирования однократно для каждого из типов документа, переключение на следующий документ производится вызовом метода load(), поэтому не забудьте сбросить в этом методе относящиеся к предыдущему документу свойства, если таковые имеются.

В качестве параметра передается экземпляр класса nc_search_indexer_crawler_response, у которого доступны следующие методы:

  • $response->get_body()
    метод получения тела ответа HTTP (содержимого документа)
  • $response->get_header('название-заголовка-строчными-буквами')
    метод получения заголовка ответа HTTP
  • $response->get_url()
    метод получения адреса страницы
  • $response->get_content_type()
    метод получения типа документа

От обработчика зависит, что он будет делать с полученной информацией (например, может быть целесообразным использовать не содержимое ответа, а считать файл с локальной файловой системы).

public function should_index()
Тип: boolean

Обработчик должен вернуть TRUE, если загруженный документ подлежит индексированию. (Обработчик может принять решение о том, что документ не следует индексировать, например, исходя из каких-либо метаданных, имеющихся в документе.)

public function get_document()
Тип: nc_search_document

Метод должен вернуть экземпляр класса nc_search_document (далее — «документ»).

Каждый документ состоит из полей. Служба поиска сохраняет их в поисковом индексе и (или) в СУБД. У документа как минимум должны быть установлены значения полей title (заголовок документа) и content (содержимое):

$doc = new nc_search_document();
$doc->set_field_value('title', 'Заголовок');
$doc->set_field_value('content', 'Текст документа');

Документ может содержать и другие поля, которые будут использоваться при поиске — например, поля с бóльшим или меньшим весом:

$field = new nc_search_field(array(
    'name' => 'important_field', // имя поля
    'weight' => 3, // вес поля
));

$doc->add_field($field);
$doc->set_field_value('important_field', 'текст с весом 3');

public function extract_links()
Тип: array

Метод должен вернуть массив с гиперссылками, найденными в документе или пустой массив, если ссылок не найдено.

Образец скелета класса для индексирования PDF-документов:

<?php
// укажите путь до папки с модулем поиска (в данном примере предполагается,
// что класс находится в файле modules/default/function.inc.php):

require_once dirname(__FILE__) . "/../search/function.inc.php";

class my_pdf_parser implements nc_search_document_parser {
    protected $content;
    protected $file_name;

    public function load(nc_search_indexer_crawler_response $response) {
        $this->file_name = basename($response->get_url());
        // тут нужно каким-то образом получить текстовое содержимое документа:
        $this->content = pdf_get_content($response->get_body());
    }

    public function should_index() {
        return true;
    }

    public function extract_links() {
        return array();
    }

    public function get_document() {
        $doc = new nc_search_document();
        $doc->set_field_value('title', $this->file_name);
        $doc->set_field_value('content', $this->content);

        return $doc;
    }
}

После создания класса нужно добавить запись о нём на вкладке «Настройки» — «Расширения». Для примера выше (обработка PDF-файлов) значения будут следующими: интерфейс расширения — nc_search_document_parser, класс расширения — my_pdf_parser, MIME-тип —application/pdf. После этого все документы, которые ваш веб-сервер отдаёт с заголовком Content-type: application/pdf будут обрабатываться указанным расширением.

public function check_environment()
Тип: void

Метод вызывается в панели управления модулем для проверки соответствия конфигурации PHP требованиям данного обработчика документов. Если для вашего обработчика необходимо наличие каких-либо дополнительных расширений PHP или определённые настройки PHP, в данном методе вы можете проверить выполнение этих условий, и в случае неправильной конфигурации вывести предупреждение с помощью функции nc_print_status('Сообщение', 'error').

Описание проекта