[В начало] 


 

"Новотека-Гиперпоиск": поисковый сервис для сайтов СМИ

Содержание:

  1. Краткое описание сервиса.
    Условия использования.
  2. Регистрация, экспорт данных, индексация.
  3. Изготовление поисковой страницы
  4. Расстановка HTML-кодов на сайте
  5. Настройка Гиперпоиска (подсветки слов)
  6. Редактирование списков слов для подсветки
  7. Настройка оформления результатов поиска
  8. Расширенный поиск: списки разделов, списки тем
  9. Поддержка UTF-8

1. Краткое описание сервиса

Новотека-Гиперпоиск это пакет из нескольких услуг:
  • Поиск по сайту
  • Автоматическая подсветка объектов (персон, компаний, спортивных клубов) в текстах сайта и превращение их в поисковый запрос.
  • Возможность заработка на контекстной рекламе на страницах сайта и в результатах поиска

В первую очередь сервис предназначен для сайтов СМИ.

Как и для любого другого поискового решения, при установке "Гиперпоиска" необходимо решить такие задачи:

  1. Экспорт данных в поисковую машину, индексация.
  2. Разработка шаблонов для результатов поиска, изготовление поисковой страницы.
  3. Расстановка формы поиска на страницах сайта.
В рамках проекта Гиперпоиск созданы механизмы, которые максимально упрощают все действия: в самом простом случае, все сводится к регистрации в системе, расстановке на всех страницах сайта HTML-кодов и изготовлению простейшей поисковой страницы. Никаких "скриптов", "модулей" и т.п. на сайте ставить не нужно, все действия производятся на сайте сервиса и пользовательском компьютере.

Условия использования

Сервис Новотека-Гиперпоиск предназначен, в первую очередь, для интернет-СМИ и поиска по новостным материалам.

Поддержка поискового сервиса требует человеческих, машинных и интернет-ресурсов. Чтобы окупить их предлагаются две схемы использования сервиса:

  1. Совместный заработок на контекстной рекламе:
    • На всех индексируемых страницах (статьях) сайта и в результатах поиска размещается блок контекстной рекламы от Бегуна.
    • Блок контекстной рекламы должен быть частично видим пользователем на "первом" экране при разрешении монитора 1024x768. При разрешении 800x600 должна быть видна, как минимум, первая строка этого блока.
    • Доходы от контекстной рекламы делятся в пропорции 40:60 (сайт:Бегун)
  2. Оплата новостным трафиком:
    • На головной странице сайта по которому производится поиск ставится прямая ссылка на проект Новотека с текстом "Поиск от Новотеки" или аналогичным (предлагаются варианты текста). Расположение ссылки не имеет значения, она должна быть индексируемой поисковыми машинами.
    • На всех индексируемых страницах размещается "Информер" от Новотеки, содержащий 7 строчек динамически меняющихся новостных заголовков.
    • Положение "информера" должно быть приблизительно таким же, как и у других партнерских ссылок сайта.

2. Экспорт-импорт данных, индексация

Если ваш сайт экспортирует данные на Новотеку, то экспорт данных уже настроен. Если экспорт пока не производится, то вам придется его наладить в формате 'RSS с полными текстами' (формат RSS 2.0, дополненный тегом <full-text> в который помещается полный текст новости/статьи. Этот формат используется службой Яндекс.Новости и Новотекой)/

Возможно, Новотека не содержит полный архив вашего сайта. В этом случае придется однократно экспортировать архив в том же формате RSS с полными текстами.

3. Изготовление страницы с результатами поиска

Сначала нужно выбрать URL для результатов поиска. Пусть это будет http://site.ru/search.html.

Вы должны изготовить простую HTML-страницу в дизайне вашего сайта на которой будет размещен простой HTML-код (точный код с ID вашего сайта можно получить на странице HTML-кодов:

<div id="search_form"></div> <!-- в этот DIV будет помещена поисковая форма -->
<div id="search_results"></div><!-- в этот DIV будут помещены результаты поиска -->
<!-- вызов скрипта поиска -->
<script>
var url = escape(document.location.href);
document.write('<script src="http://hypersearch.novoteka.ru/search.js?url='+url+'&site=YOURSITE"></scr'+'ipt>');
</script>

4. Расстановка HTML-кодов на сайте

На всех страницах вашего сайта произвести следующие действия:

4.1. Поисковая форма

Вы можете либо самостоятельно поставить форму с примерно таким вот HTML-кодом:
<form action="/search.html"><input name=query></form>
Либо воспользоваться нашим Javascript-скриптом (точный скрипт получают со страницы получения кодов):
<div id="search_form"></div><!-- в этот div будет "инсталлироваться" форма -->
<script src="http://hypersearch.novoteka.ru/search_form.js?site=YOURSITE"></script>

4.2.Подсветка объектов

Для подсветки объектов, на каждой странице содержащей статью или новость необходимо разместить такие коды:

Перед началом текста статьи

<div name="hypersearch">
<INDEX>
Сразу после текста статьи
</INDEX>
</div>
Ниже текста статьи размещается код гиперпоиска, полученный со страницы получения кодов:
<script>
__hs_site='SITE';
//Префикс поискового запроса
__hs_search_prefix='/search.html?query=';
__hs_search_suffix='¶m1=value1';
// Выделение title подсвеченного объекта
__hs_title_prefix='Искать в архиве: "';
__hs_title_suffix='"';
//__hs_div='hypersearch'; // подсвечиваться будут слова внутри DIV с таким именем
//__hs_anchor_style="color: #008888;"; // цвет ссылки на поиск
//__hs_max_highlights=8; // максимальное число подсветок в документе
//__hs_max_singleword_highlights=3; // максимальное число подсветок одного слова
</script>
<script src="http://hypersearch.novoteka.ru/hypersearch.js"></script>
Параметры настройки гиперпоиска описаны ниже.

4.3 Партнерские ссылки

Если выбрана схема взаимодействия с простановкой ссылок, то необходимо разместить такие коды:
  • Ссылка на проект Новотека размещается на головной странице сайта. Текст ссылки берется со страницы получения кодов. Ссылка может быть размещена в любом месте головной страницы, которое индексируется поисковиками (т.е. не в iframe, не в невидимом блоке и не в блоке закрытом NOINDEX).
  • Код новостного информера. Тоже берется с страницы получения кодов и размещается на всех страницах со статьями и новостями рядом с другими партнерскими обменными блоками

4.4 Контекстная реклама (Бегун-Автоконтекст)

Если выбрана схема взаимодействия Поиск+Контекстная реклама, то на страницах сайта нужно разместить код контекстной рекламы, полученный со страницы получения кодов и настроить его под себя. begun_id мы получаем в Бегуне для вас.

Код Бегуна ставится там, где должна выводиться реклама.

5. Настройка гиперпоиска (подсветки слов)

Скрипт подсветки слов можно настраивать по потребностям вашего сайта. Для этого до его вызова предопределенным переменным присваиваются нужные значения:

Параметрстандартное значениечто устанавливается
__hs_site--ID сайта в системе. Обязательный параметр!!!
__hs_div'hypersearch'Название DIV-а в котором производится подсветка
__hs_search_prefix'/search.html?query='URL документа с результатами поиска
__hs_search_suffix''Суффикс URL поискового запроса
__hs_anchor_style"color: #008888;"Стиль ссылки на поиск (подсвеченного слова)
__hs_forbidden_tags[ 'A','H','BIG' ]Список тегов в которых не производится подсветка
__hs_max_highlights8Максимальное количество подсветок в тексте
__hs_max_singleword_highlights3Максимальное количество подсветок одного объекта в тексте
__hs_title_prefix Префикс перед title ссылки (например, 'Искать в архиве: &quot;
__hs_title_suffux Суффикс после title ссылки (например, '&quot;

6. Настройка списков слов

Сервис "Гиперпоиск" ведет свою базу данных по персонам, названиям компаний, спортивным клубам и т.д.

В то же время, специфика сайта может потребовать как пополнения этого списка, так и удаления из него нежелательных объектов. Для этого предлагаются средства редактирования:

  1. Ведение черного списка - фразы, которые никогда не должны быть подсвечены.
  2. Ведение белого списка - фразы, которые нужно подсвечивать, но их нет в словаре.
  3. Сброс насчитанной статистики подсветки
Изменения в списке слов вступают в силу после очередной переиндексации сайта (обычно - 1 раз в час), чтобы быстро ввести в действие черный список нужно явно сообщить сервису о том что на данной странице подсвечено не то.

7. Настройка оформления результатов поиска

Оформление формы и результатов поиска может быть настроено двумя способами
  • Стандартное оформление может быть настроено через таблицы стилей (CSS)
  • Выдача результата может производиться в HTML-оформлении,задаваемом пользователем.

7.1. Настройка поисковой выдачи через таблицы стилей

В стандартной поисковой выдаче применяются следующие стили:
Название стиляГде применяется
search_titleЗаголовок найденного документа
search_textТекст аннотации и цитаты найденного документа
search_termВыделение найденных слов
search_boldИспользуется для выделения текущей сортировки
search_metaДата и URL найденного документа
search_pagerСтиль для списка страниц под результатами поиска
search_smallСтиль для вывода надписи "искать только в заголовках"
search_buttonСтиль для кнопки "найти"
Данные стили задаются либо в отдельной таблице стилей, либо прямо в заголовке страницы с результатами поиска.

7.2. Настройка HTML-оформления поисковой выдачи

Шаблоны поисковой формы и результатов поиска настраиваются на странице настройки оформления. Есть 4 крупных настраиваемых блока:
  1. Поисковая форма для страниц сайта
  2. Поисковая форма в результатах поиска
  3. Заголовок результатов поиска
  4. Элемент результатов поиска
  5. "низ" результатов поиска
Каждый из этих элементов - это HTML-фрагмент, который можно редактировать с использованием "переменных":
переменнаячто означает
Форма поиска в результатах поиска:
%QUERY%Поисковый запрос
%DATESTART%Начальное ограничение по дате
%DATEEND%Конечное ограничение по дате
%SUBJCHECKED%Заменяется на 'checked' если было включено ограничение "искать только по заголовкам"
%AUTHORCHECKED%Заменяется на 'checked' если было включено ограничение "искать только по автору"
Заголовок результатов поиска:
%QUERY%Поисковый запрос
%TOTAL%количество найденных документов
%PAGER%заменяется на строчку с перечислением страниц результатов и ссылками
%PAGESIZE%Количество документов на странице
%PAGENUM%Текущая страница
%PAGECOUNT%Число страниц с результатами
%PREV%Ссылка на предыдущую страницу результатов
%NEXT%Ссылка на следущую страницу результатов
%SORT%Строчка с видом сортировки (по релевантности| по дате)
Элемент результата:
%TITLE%Заголовок найденного документа
%QUOTE%цитата из документа, если найденные слова не в его начале
%DESCR%Аннотация документа
%URL% URL найденного документа
%DATE%Дата документа
%RANK%Степень соответствия документа
"низ" результатов поиска:
%PAGER%заменяется на строчку с перечислением страниц результатов и ссылками
%PREV%Ссылка на предыдущую страницу результатов
%NEXT%Ссылка на следущую страницу результатов
Кроме крупных блоков, настраивается выдача для маленьких "блочков":
  1. Сообщения (ничего не найдено, пустой запрос и т.п.)
  2. Формат ссылок вперед/назад (в них можно использовать переменную URL)
Формат выдачи рекламы в результатах поиска настраивается администрацией системы по запросу

8. Поддержка расширенного поиска

Для каждого проиндексированного документа можно указать
  • Раздел сайта
  • Рубрику (тематику) документа
  • Класс документа (целое число)
После этого, в форме поиска можно указывать ограничения (искать только в таком-то разделе, искать только в такой-то рубрике, только определенного класса или все ограничения сразу). Поддерживаются вложенные рубрики, поиск в рубрике и подрубриках и так далее.

Задание списка рубрик, разделов и классов

Списки рубрик, разделов и классов для показа должны заполняться администратором сайта через специальные формы редактирования списка рубрик, списка разделов и списка классов. Это сделано для того, чтобы опечатка в названии раздела/рубрики/класса во входном потоке не порождала новых пунктов в меню.

Вложенные рубрики и разделы

Для задания вложенных рубрик их названия нужно писать через точку или slash (/). Например: Спорт/Футбол или В Мире.Украина. При этом, при поиске по разделу верхнего уровня будут найдены и все документы из подразделов.

Задание рубрики и раздела для документа

Рубрика и раздел для документа могут быть заданы такими способами
  • Приписаны как свойство RSS-потока (это делается администрацией сервиса). Например, на вашем сайте может быть отдельный RSS-поток для новостей и отдельный - для статей. Соответствие между потоком и разделом будет назначено при настройке получения данных Гиперпоиском.
  • Раздел может быть указан для каждого документа отдельно в теге <chapter>
  • Рубрика может быть указана для каждого документа отдельно в теге <category>
В настоящее время задание нескольких рубрик/разделов для одного документа не поддерживается. Если это нужно для вашего сайта - свяжитесь с администрацией сервиса.

Задание класса для документа

Класс для документа задается атрибутом в теге <item> для каждого документа RSS-потока. При этом используемый атрибут назначается при настройке получения данных Гиперпоиском.

Задание рубрики/раздела/класса в форме поиска и показ в результатах поиска

Для расширенного поиска вам придется редактировать стандартные варианты оформления результатов поиска и формы для запроса. В них могут быть использованы следующие макросы (помимо описанных выше):
Макросы для поисковой формы
%CHAPTERS%Список разделов сайта в выпадающем списке
%CATEGORIES%Список тематик в выпадающем списке
%USERCLASS%Список классов в выпадающем списке
Макросы для результатов поиска
%CHAPURL%URL раздела
%CHAPNAME%Название раздела
%CHAPSTR%Сокращение для <a href="%CHAPURL%">%CHAPNAME%</a>
%CATEGURL%URL рубрики
%CATEGNAME%Название рубрики
%CATEGSTR%Сокращение для <a href="%CATEGURL%">%CATEGNAME%</a>

Поддержка UTF-8

В настоящее время поддержка UTF-8 очень ограничена: поддерживается поисковый интерфейс, но не подсветка объектов.

Для включения поддержки UTF-8 нужно в коде вызова поискового интерфейса search.js явно добавить параметр utf8=1:

<script>
var url = escape(document.location.href);
document.write('<script src="http://hypersearch.novoteka.ru/search.js?url='+url+'&site=YOURSITE&utf8=1"><scr'+'ipt>
<script>

Все другие сервисы работают только со страницами в кодировке windows-1251.

 

[В начало] 


© 2006 ЗАО «Поисковые технологии»