Настройка YaCy как альтернативной поисковой системы или инструмента поиска для сайта

Многие  пользователи беспокоятся по поводу их личной информации и неприкосновенности частной жизни. Сегодня существует множество проектов, которые помогают пользователям защитить свои данные, однако в некоторых областях компьютерных вычислений доступны только продукты, контролируемые большими корпорациями.

Поисковые системы – один из инструментов, на который жалуются многие люди, обеспокоенные своей конфиденциальностью. YaCy – это одноранговая поисковая система, что означает, что она не хранит данные пользователей на централизованных серверах. Она работает на основе сети пользователей, которые также запустили экземпляры YaCy, и просматривает Интернет для создания распределенного индекса сайтов.

Данный мануал поможет запустить свой экземпляр YaCy на сервере Ubuntu. Затем вы сможете внести свой вклад в глобальную сеть пользователей YaCy или создать поисковые индексы для своих собственных страниц и проектов.

Загрузка компонентов

YaCy имеет мало сторонних зависимостей. Дистрибутивам Linux для запуска этой системы нужен только Java development kit версии 6.

Установите зависимость из репозитория системы:

sudo apt-get update
sudo apt-get install openjdk-6-jdk

Загрузка и установка займет некоторое время.

После этого можно загрузить последнюю версию YaCy с сайта проекта. Кликните правой кнопкой мыши по ссылке для GNU/Linux и скопируйте ссылку на пакет.

Вернитесь на VPS, перейдите в домашний каталог и загрузите пакет с помощью wget:

cd ~
wget http://yacy.net/release/yacy_v1.68_20140209_9000.tar.gz

Когда загрузка завершится, вы можете извлечь файлы в отдельный каталог:

tar xzvf yacy*

Теперь у вас есть все необходимые компоненты.

Запуск поисковой системы YaCy

Система YaCy почти готова к работе. Осталось изменить несколько параметров.

Перейдите в каталог YaCy. Здесь можно внести все необходимые изменения и запустить сервис.

cd ~/yacy

Добавьте имя и пароль администратора, чтобы иметь доступ к интерфейу. В текстовом редакторе откройте файл инициализации YaCy по умолчанию:

nano defaults/yacy.init

Это очень длинный и хорошо закомментированный конфигурационный файл. Вам нужно найти параметр adminAccount.

На данный момент у него нет значения:

adminAccount=
adminAccountBase64MD5=
adminAccountUserName=admin

Укажите здесь имя и пароль администратора в следующем формате:

adminAccount=admin:your_password
adminAccountBase64MD5=
adminAccountUserName=admin

Теперь вы сможете использовать инструменты администратора в веб-интерфейсе.

Сохраните и закройте файл.

Запустите сервис:

./startYACY.sh

Поисковая система YaCy будет запущена.

Веб-интерфейс YaCy

Теперь можно открыть веб-интерфейс YaCy в браузере:

http://server_ip:8090

Вы увидите главную страницу YaCy.

YaCy
Web Search by the People, for the People

Как видите, это довольно обычная страница поисковой системы. Если вы хотите, вы можете искать информацию с помощью строки поиска (для этого дополнительные настройки не нужны).

Давайте откроем интерфейс администратора. Для этого нажмите ссылку Administration в верхнем левом углу страницы.

Вы увидите базовую страницу конфигурации:

basic configuration
your YaCy Peer needs some basic information to operate properly

На странице вы найдете базовые опции.

Для начала выберите язык установки.

Второе поле позволяет выбрать, как вы хотите использовать этот экземпляр YaCy. По умолчанию ваш компьютер будет присоединен к глобальной поисковой сети, которая сканирует и индексирует Интернет. Этот механизм позволяет YaCy заменить традиционные поисковые системы.

Если вы не хотите использовать YaCy в качестве традиционной поисковой системы, вы можете вместо этого создать поисковой портал для одного сайта (это второй вариант на странице) или использовать YaCy для индексации локальной сети (третий вариант).

В данном случае мы выбрали первую опцию.

Третий раздел на странице позволяет выбрать уникальное имя компьютера. Если у вас есть несколько машин YaCy, эта опция очень важна – она позволяет вам отличить одну машину от другой.

В четвертом разделе выберите Configure your router for YaCy, поскольку в данном случае поисковая система установлена на VPS, у которого нет традиционного роутера.

Когда закончите, нажмите Set Configuration.

Сканирование сайтов для расширения глобального индекса

Теперь вы можете искать информацию, используя индексы, хранящиеся у ваших соседей по YaCy. Результаты поиска станут более точными, если в системе будет участвовать больше людей.

Вы можете внести свой вклад, сканируя сайты с помощью вашего экземпляра YaCy – тогда другие пользователи смогут находить страницы, которые вы просканировали.

Чтобы начать сканирование, кликните по ссылке Crawler/Harvester в левой части экрана в разделе Index Production.

Если вы пытаетесь найти что-то, но YaCy не возвращает никаких результатов, попробуйте сначала проиндексировать страницы искомого сайта.

Введите URL, который нужно проиндексировать, в поле Start URL.

Это должно заполнить список ссылок, которые система YaCy нашла в рассматриваемом URL-адресе. Вы можете выбрать исходный URL-адрес либо использовать список ссылок на введенной вами странице.

Кроме того, вы можете указать, хотите ли вы индексировать все ссылки в домене или только подпути данного URL.

К примеру, если вы введете http://example.com/about, то первый вариант проиндексирует http://example.com/sites, а второй – только страницы, которые находятся под введенным путем (http://example.com/about/me).

Вы можете ограничить количество документов, которые будет индексировать система. Нажмите Start New Crawl, чтобы начать индексацию выбранного сайта.

Нажмите Creation Monitor в левой части экрана, чтобы увидеть прогресс индексации.

Сервер будет сканировать указанный URL-адрес со скоростью 2 запроса в секунду, до тех пор, пока не закончатся ссылки или он не достигнет установленного вами предела.

Если вы затем попробуете найти проиндексированную страницу, поисковая система добавит ее в выдачу.

YaCy как поисковой инструмент для веб-сайта

Также YaCy может предоставлять функции поиска для веб-сайта. Вы можете настроить индекс сайта как поисковую систему, ограниченную одним доменом.

Выберите Admin Console в разделе Peer Control. В консоли администратора вернитесь на страницу Basic Configuration.

Теперь во втором разделе выберите вторую опцию, Search portal for your own web pages.

Нажмите Set Configuration.

После этого нужно проиндексировать домен, чтобы сгенерировать контент, который будет доступен в вашей поисковой системе. Кликните Crawler/Harvester в разделе Index Production.

Введите URL в поле Start URL и нажмите Start New Crawl.

После этого нажмите ссылку Search Integration into External Sites в разделе Search Design.

Существует два способа настройки поиска YaCy. Мы будем использовать второй (Remote access through selected YaCy Peer).

Вы увидите, что YaCy автоматически генерирует код, который вам необходимо встроить в веб-страницу на вашем сайте.

Создайте страницу сайта и вставьте в нее этот код. Укажите IP-адрес и порт сервера YaCy.

Например, страница может называться search.html. Это простая html-страница, которая содержит код, сгенерированный YaCy.

<html>
<head>
<title>Test</title>
</head>
<body>
<h1>Search page</h1>
<p>Here we go...</p>
<script src="http://111.111.111.111:8090/jquery/js/jquery-1.7.min.js" type="text/javascript" type="text/javascript"></script>
<script>
$(document).ready(function() {
yconf = {
url      : 'http://111.111.111.111:8090',
title    : 'YaCy Search Widget',
logo     : '/yacy/ui/img/yacy-logo.png',
link     : 'http://www.yacy.net',
global   : false,
width    : 500,
height   : 600,
position : ['top',30],
theme    : 'start'
};
$.getScript(yconf.url+'/portalsearch/yacy-portalsearch.js', function(){});
});
</script>
<div id="yacylivesearch">
<form id="ysearch" method="get" accept-charset="UTF-8" action="http://111.111.111.111:8090/yacysearch.html">
Live Search <input name="query" id="yquery" class="fancy" type="text" size="15" maxlength="80" value=""/>
<input type="hidden" name="verify" value="cacheonly" />
<input type="hidden" name="maximumRecords" value="20" />
<input type="hidden" name="resource" value="local" />
<input type="hidden" name="urlmaskfilter" value=".*" />
<input type="hidden" name="prefermaskfilter" value="" />
<input type="hidden" name="display" value="2" />
<input type="hidden" name="nav" value="all" />
<input type="submit" name="Enter" value="Search" />
</form>
</div>
</body>
</html>

Затем можно сохранить файл и проверить страницу в браузере.

http://your_web_domain/search.html
Search page
Here we go…

Введите в поле поиска свой запрос. Поисковая система найдет на вашем сайте страницы, релевантные этому запросу.

Заключение

YaCy можно использовать в разных целях. Вы можете сделать свой вклад в развитие глобального индекса или добавить свой сервер с сеть серверов YaCy.

Также YaCy может быть отличным поисковым инструментом на вашем сайте. YaCy – очень гибкая система, которая помогает защитить ваши конфиденциальные данные.

Tags:
  • imya

    к сожалению после индексации не ясно, когда будет происходить переиндексация сайта