| |
"Новотека-Гиперпоиск": поисковый сервис для сайтов СМИ
Содержание:
- Краткое описание сервиса.
Условия использования.
- Регистрация, экспорт данных, индексация.
- Изготовление поисковой страницы
- Расстановка HTML-кодов на сайте
- Настройка Гиперпоиска (подсветки слов)
- Редактирование списков слов для подсветки
- Настройка оформления результатов поиска
- Расширенный поиск: списки разделов, списки тем
- Поддержка UTF-8
Новотека-Гиперпоиск это пакет из нескольких услуг:
- Поиск по сайту
- Автоматическая подсветка объектов (персон, компаний, спортивных
клубов) в текстах сайта и превращение их в поисковый запрос.
- Возможность заработка на контекстной рекламе на страницах сайта и в результатах поиска
В первую очередь сервис предназначен для сайтов СМИ.
Как и для любого другого поискового решения, при установке
"Гиперпоиска" необходимо решить такие задачи:
- Экспорт данных в поисковую машину, индексация.
- Разработка шаблонов для результатов поиска, изготовление поисковой
страницы.
- Расстановка формы поиска на страницах сайта.
В рамках проекта Гиперпоиск созданы механизмы, которые максимально
упрощают все действия: в самом простом случае, все сводится к
регистрации в системе, расстановке на всех страницах сайта
HTML-кодов и изготовлению простейшей поисковой страницы. Никаких
"скриптов", "модулей" и т.п. на сайте ставить не нужно, все
действия производятся на сайте сервиса и пользовательском
компьютере.
Сервис Новотека-Гиперпоиск предназначен, в первую очередь, для
интернет-СМИ и поиска по новостным материалам.
Поддержка поискового сервиса требует человеческих, машинных и
интернет-ресурсов. Чтобы окупить их предлагаются две схемы
использования сервиса:
- Совместный заработок на контекстной рекламе:
- На всех индексируемых страницах (статьях) сайта и в результатах
поиска размещается блок контекстной рекламы от Бегуна.
- Блок контекстной рекламы должен быть
частично видим пользователем на "первом" экране при разрешении
монитора 1024x768. При разрешении 800x600 должна
быть видна, как минимум, первая строка этого блока.
- Доходы от контекстной рекламы делятся в
пропорции 40:60 (сайт:Бегун)
- Оплата новостным трафиком:
- На головной странице сайта по которому
производится поиск ставится прямая ссылка на
проект Новотека
с текстом "Поиск от Новотеки" или аналогичным
(предлагаются варианты текста). Расположение
ссылки не имеет значения, она должна быть
индексируемой поисковыми машинами.
- На всех индексируемых страницах размещается
"Информер" от Новотеки, содержащий 7 строчек
динамически меняющихся новостных заголовков.
- Положение "информера" должно быть
приблизительно таким же, как и у других
партнерских ссылок сайта.
Если ваш сайт экспортирует данные на Новотеку, то экспорт данных
уже настроен. Если экспорт пока не производится, то вам придется
его наладить в формате 'RSS с полными текстами' (формат RSS 2.0,
дополненный тегом <full-text> в который помещается полный
текст новости/статьи. Этот формат используется службой Яндекс.Новости
и Новотекой)/
Возможно, Новотека не содержит полный архив вашего сайта. В этом
случае придется однократно экспортировать архив в том же формате
RSS с полными текстами.
Сначала нужно выбрать URL для результатов поиска. Пусть это будет
http://site.ru/search.html.
Вы должны изготовить простую HTML-страницу в дизайне вашего сайта на
которой будет размещен простой HTML-код (точный код с ID вашего сайта
можно получить на странице HTML-кодов:
<div id="search_form"></div> <!-- в этот DIV будет помещена поисковая форма -->
<div id="search_results"></div><!-- в этот DIV будут помещены результаты поиска -->
<!-- вызов скрипта поиска -->
<script>
var url = escape(document.location.href);
document.write('<script src="http://hypersearch.novoteka.ru/search.js?url='+url+'&site=YOURSITE"></scr'+'ipt>');
</script>
На всех страницах вашего сайта произвести следующие действия:
4.1. Поисковая форма
Вы можете либо самостоятельно поставить форму с примерно таким вот
HTML-кодом:
<form action="/search.html"><input name=query></form>
Либо воспользоваться нашим Javascript-скриптом (точный скрипт получают
со страницы получения кодов):
<div id="search_form"></div><!-- в этот div будет "инсталлироваться" форма -->
<script src="http://hypersearch.novoteka.ru/search_form.js?site=YOURSITE"></script>
4.2.Подсветка объектов
Для подсветки объектов, на каждой странице содержащей статью или
новость необходимо разместить такие коды:
Перед началом текста статьи
<div name="hypersearch">
<INDEX>
Сразу после текста статьи
</INDEX>
</div>
Ниже текста статьи размещается код гиперпоиска, полученный со
страницы получения кодов:
<script>
__hs_site='SITE';
//Префикс поискового запроса
__hs_search_prefix='/search.html?query=';
__hs_search_suffix='¶m1=value1';
// Выделение title подсвеченного объекта
__hs_title_prefix='Искать в архиве: "';
__hs_title_suffix='"';
//__hs_div='hypersearch'; // подсвечиваться будут слова внутри DIV с таким именем
//__hs_anchor_style="color: #008888;"; // цвет ссылки на поиск
//__hs_max_highlights=8; // максимальное число подсветок в документе
//__hs_max_singleword_highlights=3; // максимальное число подсветок одного слова
</script>
<script src="http://hypersearch.novoteka.ru/hypersearch.js"></script>
Параметры настройки гиперпоиска описаны ниже.
4.3 Партнерские ссылки
Если выбрана схема взаимодействия с простановкой ссылок, то необходимо
разместить такие коды:
- Ссылка на проект Новотека размещается на головной странице сайта.
Текст ссылки берется со
страницы получения кодов. Ссылка
может быть размещена в любом месте головной страницы, которое
индексируется поисковиками (т.е. не в iframe, не в невидимом блоке
и не в блоке закрытом NOINDEX).
- Код новостного информера. Тоже берется с
страницы получения кодов и размещается
на всех страницах со статьями и новостями рядом с другими партнерскими
обменными блоками
4.4 Контекстная реклама (Бегун-Автоконтекст)
Если выбрана схема взаимодействия Поиск+Контекстная реклама, то
на страницах сайта нужно разместить код контекстной рекламы,
полученный со страницы получения
кодов и настроить его под себя. begun_id мы получаем
в Бегуне для вас.
Код Бегуна ставится там, где должна выводиться реклама.
Скрипт подсветки слов можно настраивать по потребностям вашего сайта.
Для этого до его вызова предопределенным переменным присваиваются
нужные значения:
| Параметр | стандартное значение | что устанавливается
|
__hs_site | -- | ID сайта в системе. Обязательный параметр!!!
| __hs_div | 'hypersearch' | Название DIV-а в котором производится
подсветка
| __hs_search_prefix | '/search.html?query=' | URL документа
с результатами поиска
|
| __hs_search_suffix | '' | Суффикс URL поискового запроса |
| __hs_anchor_style | "color: #008888;" | Стиль ссылки на
поиск (подсвеченного слова) |
| __hs_forbidden_tags | [ 'A','H','BIG' ] | Список тегов в
которых не производится подсветка |
| __hs_max_highlights | 8 | Максимальное количество подсветок
в тексте |
| __hs_max_singleword_highlights | 3 | Максимальное количество
подсветок одного объекта в тексте |
| __hs_title_prefix | | Префикс перед title ссылки
(например, 'Искать в архиве: " |
| __hs_title_suffux | | Суффикс после title ссылки
(например, '" |
Сервис "Гиперпоиск" ведет свою базу данных по персонам, названиям
компаний, спортивным клубам и т.д.
В то же время, специфика сайта может потребовать как пополнения этого
списка, так и удаления из него нежелательных объектов. Для этого
предлагаются средства редактирования:
- Ведение черного списка -
фразы, которые никогда не должны быть подсвечены.
- Ведение белого списка -
фразы, которые нужно подсвечивать, но их нет в словаре.
- Сброс насчитанной статистики подсветки
Изменения в списке слов вступают в силу после очередной переиндексации
сайта (обычно - 1 раз в час), чтобы быстро ввести в
действие черный список нужно явно сообщить сервису о том
что на данной странице подсвечено не то.
Оформление формы и результатов поиска может быть настроено двумя
способами
- Стандартное оформление может быть настроено через таблицы стилей
(CSS)
- Выдача результата может производиться в HTML-оформлении,задаваемом
пользователем.
7.1. Настройка поисковой выдачи через таблицы стилей
В стандартной поисковой выдаче применяются следующие стили:
| Название стиля | Где применяется |
| search_title | Заголовок найденного документа |
| search_text | Текст аннотации и цитаты найденного документа |
| search_term | Выделение найденных слов |
| search_bold | Используется для выделения текущей сортировки |
| search_meta | Дата и URL найденного документа |
| search_pager | Стиль для списка страниц под результатами поиска |
| search_small | Стиль для вывода надписи "искать только в заголовках" |
| search_button | Стиль для кнопки "найти" |
Данные стили задаются либо в отдельной таблице стилей, либо прямо в
заголовке
страницы с результатами поиска.
7.2. Настройка HTML-оформления поисковой выдачи
Шаблоны поисковой формы и результатов поиска настраиваются на
странице настройки оформления.
Есть 4 крупных настраиваемых блока:
- Поисковая форма для страниц сайта
- Поисковая форма в результатах поиска
- Заголовок результатов поиска
- Элемент результатов поиска
- "низ" результатов поиска
Каждый из этих элементов - это HTML-фрагмент, который можно
редактировать
с использованием "переменных":
| переменная | что означает |
| Форма поиска в результатах поиска: |
| %QUERY% | Поисковый запрос |
| %DATESTART% | Начальное ограничение по дате |
| %DATEEND% | Конечное ограничение по дате |
| %SUBJCHECKED% | Заменяется на 'checked' если было включено
ограничение "искать только по заголовкам" |
| %AUTHORCHECKED% | Заменяется на 'checked' если было включено
ограничение "искать только по автору" |
| Заголовок результатов поиска: |
| %QUERY% | Поисковый запрос |
| %TOTAL% | количество найденных документов |
| %PAGER% | заменяется на строчку с перечислением страниц
результатов и ссылками |
| %PAGESIZE% | Количество документов на странице |
| %PAGENUM% | Текущая страница |
| %PAGECOUNT% | Число страниц с результатами |
| %PREV% | Ссылка на предыдущую страницу результатов |
| %NEXT% | Ссылка на следущую страницу результатов |
| %SORT% | Строчка с видом сортировки (по релевантности| по дате) |
| Элемент результата: |
| %TITLE% | Заголовок найденного документа |
| %QUOTE% | цитата из документа, если найденные слова не в его
начале |
| %DESCR% | Аннотация документа |
| %URL% | URL найденного документа |
| %DATE% | Дата документа |
| %RANK% | Степень соответствия документа |
| "низ" результатов поиска: |
| %PAGER% | заменяется на строчку с перечислением страниц
результатов и ссылками |
| %PREV% | Ссылка на предыдущую страницу результатов |
| %NEXT% | Ссылка на следущую страницу результатов |
Кроме крупных блоков, настраивается выдача для маленьких "блочков":
- Сообщения (ничего не найдено, пустой запрос и т.п.)
- Формат ссылок вперед/назад (в них можно использовать переменную
URL)
Формат выдачи рекламы в результатах поиска настраивается
администрацией
системы по запросу
Для каждого проиндексированного документа можно указать
- Раздел сайта
- Рубрику (тематику) документа
- Класс документа (целое число)
После этого, в форме поиска можно указывать ограничения (искать только
в таком-то разделе, искать только в такой-то рубрике,
только определенного класса или
все ограничения сразу). Поддерживаются вложенные рубрики, поиск
в рубрике и подрубриках и так далее.
Задание списка рубрик, разделов и классов
Списки рубрик, разделов и классов для показа должны заполняться администратором
сайта через специальные формы редактирования
списка рубрик,
списка разделов и
списка классов. Это сделано для
того, чтобы опечатка в названии раздела/рубрики/класса во входном потоке не
порождала новых пунктов в меню.
Вложенные рубрики и разделы
Для задания вложенных рубрик их названия нужно писать через точку
или slash (/). Например: Спорт/Футбол или В Мире.Украина.
При этом, при поиске по разделу верхнего уровня будут найдены
и все документы из подразделов.
Задание рубрики и раздела для документа
Рубрика и раздел для документа могут быть заданы такими способами
- Приписаны как свойство RSS-потока (это делается администрацией
сервиса). Например, на вашем сайте может быть отдельный
RSS-поток для новостей и отдельный - для статей. Соответствие
между потоком и разделом будет назначено при настройке
получения данных Гиперпоиском.
- Раздел может быть указан для каждого документа отдельно в теге
<chapter>
- Рубрика может быть указана для каждого документа отдельно в теге
<category>
В настоящее время задание нескольких рубрик/разделов для одного
документа не поддерживается. Если это нужно для вашего сайта -
свяжитесь с администрацией сервиса.
Задание класса для документа
Класс для документа задается атрибутом в теге <item>
для каждого документа RSS-потока. При этом используемый атрибут назначается
при настройке получения данных Гиперпоиском.
Задание рубрики/раздела/класса в форме поиска и показ в результатах
поиска
Для расширенного поиска вам придется редактировать стандартные
варианты оформления результатов поиска и формы для запроса.
В них могут быть использованы следующие макросы (помимо описанных
выше):
| Макросы для поисковой формы |
| %CHAPTERS% | Список разделов сайта в выпадающем списке |
| %CATEGORIES% | Список тематик в выпадающем списке |
| %USERCLASS% | Список классов в выпадающем списке |
| Макросы для результатов поиска |
| %CHAPURL% | URL раздела |
| %CHAPNAME% | Название раздела |
| %CHAPSTR% | Сокращение для <a href="%CHAPURL%">%CHAPNAME%</a> |
| %CATEGURL% | URL рубрики |
| %CATEGNAME% | Название рубрики |
| %CATEGSTR% | Сокращение для <a href="%CATEGURL%">%CATEGNAME%</a> |
Поддержка UTF-8
В настоящее время поддержка UTF-8 очень ограничена: поддерживается
поисковый интерфейс, но не подсветка объектов.
Для включения поддержки UTF-8 нужно в коде вызова поискового интерфейса
search.js явно добавить параметр utf8=1:
<script>
var url = escape(document.location.href);
document.write('<script src="http://hypersearch.novoteka.ru/search.js?url='+url+'&site=YOURSITE&utf8=1"><scr'+'ipt>
<script>
Все другие сервисы работают только со страницами в кодировке windows-1251.
| |