Поисковые системы, каталоги и рейтинги

Пояснение терминов «индексация сайта» и «поисковый индекс»

Под индексацией веб-ресурса подразумевают посещение ботами его интернет-страниц, анализ содержащегося в них контента и его добавление в базу данных. Это делается для того, чтобы потом пользователи могли находить информацию на ресурсе по ключевым запросам в поисковых системах.

Проще говоря, юзер заходит в поисковик, вводит в строке поиска нужный ему запрос и в ответ получает список из множества веб-страниц, проиндексированных поисковыми роботами.

Индексация является обязательной процедурой в работе поисковых систем. Для этого создается специальная специализированная база данных, посредством которой и формируются результаты выдачи.

Поисковый индекс любого сайта зависит непосредственно от его контента, внешних и внутренних ссылок, наличия изображений, графиков и прочих материалов. Вводя в поисковой строке запрос, интернет-пользователь обращается к индексу. Затем из него на основании данных осуществляется ранжирование результатов поиска, список страниц, которые выстраиваются по мере уменьшения релевантности запросу.

Представьте, что Всемирная Сеть – это большая библиотека. В ней обязательно должен быть специальный каталог, который делает поиск необходимых материалов гораздо проще. Всем книгам, которые находятся в библиотеке, принадлежит свой шифр. Все шифры объединены темами, разделами и прочими параметрами.

Когда человек приходит в библиотеку и просит книгу на определенную тематику (делает запрос), библиотекарь идет к нужному разделу, достает все книги, соответствующие ему, и подбирает для читателя самую подходящую.

По аналогичному принципу работают и поисковики: пользователь делает запрос, поисковая машина достает все соответствующие страницы и выдает наиболее релевантные.

На заметку. Под занавес прошлого века индексация проходила именно по принципу каталогизации – боты отыскивали на ресурсах ключевые слова, из которых и состояла база данных. В наши дни роботы, помимо ключевиков, учитывают множество других параметров контента, в числе которых уникальность, информативность, грамотность и многое другое. Именно на этом и основывается современная индексация.

С каждым годом поисковые алгоритмы становятся все совершеннее, база данных все больше наполняется дополнительной информацией, при этом поиск для пользователей становится куда легче и более релевантнее.

Бессмертный Archie

Также имеются несколько опциональных параметров поиска, которые позволяют более точно определить необходимые файлы. Имеется возможность добавления служебных слов OR и AND, ограничение области поиска файлов определённым путем или доменом (.com, .edu, .org и др.), а также задание максимального числа выдаваемых результатов.

Хотя Archie очень старый поисковый движок, он все же предоставляет довольно мощную функциональность при поиске нужного файла. Однако по сравнению с современными поисковыми системами, он крайне примитивен. «Поисковики» ушли далеко вперед — достаточно лишь начать вводить желаемый запрос, как система уже предлагает варианты поиска. Не говоря уже об используемых алгоритмах машинного обучения.

Машинное обучение также позволяет «понимать» запросы, вводимые пользователем. Сайт самостоятельно корректирует написание, обрабатывает синонимы, разрешает вопросы многозначности (что хотел найти пользователь, информацию о группе Eagles или же об орлах). Поисковые системы самостоятельно учатся классифицировать сайты по URL — блог, новостной ресурс, форум и т. д., а также самих пользователей для составления персонализированного поиска.

Варианты регистрации

Бесплатная

Добавить сайт в Яндекс.Каталог можно было бесплатно. Для этого требовалось заполнить заявку на премодерацию.

Яндекс мог признать сайт не подходящим на данный момент для регистрации в своем каталоге или изменить предложенное описание по своему усмотрению.

При заполнении заявки нужно было указать:

  • адрес сайта;
  • название. Объем до 50 знаков. Если сайт организации, ее название должно  было быть указано и обязательно в кавычках. Запрещено писать заглавными буквами не аббревиатуры, нельзя перечислять товары или услуги;
  • описание. Объем до 200 символов. Могло включать перечень услуг или товаров, но не длиннее 4 пунктов. Запрещалось повторять информацию, указанную в названии. Нельзя было использовать рекламные клише и эпитеты в превосходной степени. Любая упомянутая информация должна была быть заметно представлена на главной странице;
  • категорию. Выбиралась из предложенного перечня;
  • жанр (визитка, предложение товаров или услуг, портал, справочник, блог и т. д). Выбиралась из предложенных;
  • регион;
  • мобильную версию.

Срок рассмотрения заявки — 3–6 месяцев. Никакой обратной связи о подтверждении публикации или отказе не предусматривалось.

Платная

Платная регистрация не гарантировала нахождение сайта в Яндекс.Каталоге. Отличалась от бесплатной тем, что срок рассмотрения заявки был быстрее. Ресурс публиковался в каталоге в течение трех рабочих дней после оплаты. Оплата производилась после одобрения заявки.

Администрация могла определить рубрику по своему усмотрению, принять или отклонить пожелания заказчика услуги относительно описания.

Если впоследствии требовалось изменить описание, нужно было оформить заявку на эту платную услугу.

Поисковые системы Интернет это

Можно дать следующее академическое определение поисковым системам. Поисковая система это набор программ и технических средств для организации в сети Интернет пользовательского поиска, при котором на текстовой запрос, пользователь получает список релевантных (соответствующих запросу) результатов.

Выдача производится в виде списка ссылок на источник информации с кратким описанием (превью) иногда с фото.

Для первого примера, вспомним мирового лидера поиска «Google» и лидера Рунета поисковик «Яндекс». Кроме этих поисковиков можно назвать еще десяток существующих поисковых систем, о коих поговорим чуть ниже.

Мнение: Поисковые системы Google, Яндекс и другие, не являются генераторами (производителями) контента, а являются агрегаторами (аккумуляторами) контента и в основной массе, чужого контента. Стоит вспомнить, что использование чужого контента для создания собственного трафика и его монетизации, можно характеризовать, как «пиратство», что на деле, конечно же, не происходит.

Выборка слов

Из текста нужно выбрать все слова, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом — последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т. п., а также что словом не считается и пропускается (пробелы, знаки препинания и прочее). Ниже мы расскажем об этом чуть подробнее. А сейчас лишь заметим, что у каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует).

Итак, поисковик выбирает из текста все, что считается словами, и собирает их в отдельный список.

Создание и проверка индекса

Теперь мы готовы сформировать индекс для приложения Body Parts. Для этого:

  1. Создадим иерархию каталогов /var/data/sphinx, выполнив:

  2. Предполагая, что MySQL работает, запустите индексатор, выполнив приведенный ниже код.

    $ sudo /usr/local/bin/indexer --config /usr/local/etc/sphinx.conf --all
    Sphinx 0.9.7
    Copyright (c) 2001-2007, Andrew Aksyonoff
    
    using config file '/usr/local/etc/sphinx.conf'...
    indexing index 'catalog'...
    collected 8 docs, 0.0 MB
    sorted 0.0 Mhits, 82.8% done
    total 8 docs, 149 bytes
    total 0.010 sec, 14900.00 bytes/sec, 800.00 docs/sec

    Примечание: Аргумент перестраивает все индексы, перечисленные в файле sphinx.conf. Если вам не нужно перестраивать все индексы, вы можете сделать это выборочно, указав другой аргумент.

  3. Теперь вы можете протестировать индекс с помощью утилиты search, используя приведенный ниже код. (Для работы search запуск searchd не требуется.)

    Листинг 11. Проверка индекса с помощью search
    $ /usr/local/bin/search --config /usr/local/etc/sphinx.conf ENG
    Sphinx 0.9.7
    Copyright (c) 2001-2007, Andrew Aksyonoff
    
    index 'catalog': query 'ENG ': returned 2 matches of 2 total in 0.000 sec
    
    displaying matches:
    1. document=8, weight=1, assembly=5, model=7
            id=8
            partno=ENG088
            description=Cylinder head
            price=55
    2. document=9, weight=1, assembly=5, model=3
            id=9
            partno=ENG976
            description=Large cylinder head
            price=65
    
    words:
    1. 'eng': 2 documents, 2 hits
    
    $ /usr/local/bin/search --config /usr/local/etc/sphinx.conf wind 
    Sphinx 0.9.7
    Copyright (c) 2001-2007, Andrew Aksyonoff
    
    index 'catalog': query 'wind ': returned 2 matches of 2 total in 0.000 sec
    
    displaying matches:
    1. document=1, weight=1, assembly=3, model=1
            id=1
            partno=WIN408
            description=Portal window
            price=423
    2. document=5, weight=1, assembly=3, model=1
            id=5
            partno=WIN958
            description=Windshield, front
            price=500
    
    words:
    1. 'wind': 2 documents, 2 hits
    
    $ /usr/local/bin/search \
    --config /usr/local/etc/sphinx.conf --filter  model 3 ENG
    Sphinx 0.9.7
    Copyright (c) 2001-2007, Andrew Aksyonoff
    
    index 'catalog': query 'ENG ': returned 1 matches of 1 total in 0.000 sec
    
    displaying matches:
    1. document=9, weight=1, assembly=5, model=3
            id=9
            partno=ENG976
            description=Large cylinder head
            price=65
    
    words:
    1. 'eng': 2 documents, 2 hits

Первая команда, , находит два упоминания в номерах деталей. Вторая команда, , находит подстроку в двух описаниях деталей. А третья команда ограничивает результат только теми записями, в которых равно .

Основные поисковики русскоязычного сегмента интернета

Как вы понимаете, идея эта реализовалась с ошеломительным успехом, но, правда, все сложилось хорошо только для горстки избранных компаний, которым удалось не сгинуть на просторах интернета. Почти все поисковые системы, которые появились на первой волне, сейчас либо исчезли, либо прозябают, либо были куплены более удачными конкурентами.

Поисковая система представляет из себя очень сложный и, что немаловажно, очень ресурсоемкий механизм (имеются в виду не только материальные ресурсы, но и людские). За внешне простой , или ее аскетичным аналогом от Гугла, стоят тысячи сотрудников, сотни тысяч серверов и многие миллиарды вложений, которые необходимы для того, чтобы эта махина продолжала работать и оставалась конкурентоспособной

Выйти на этот рынок сейчас и начать все с нуля — это скорее утопия, чем реальный бизнес проект. Например, одна из богатейших в мире корпораций Микрософт десятилетиями пыталась закрепиться на рынке поиска, и только сейчас их поисковик Бинг начинает потихоньку оправдывать их ожидания. А до этого была целая череда провалов и неудач.

Что уж говорить о том, чтобы выйти на этот рынок без особых финансовых влияний. К примеру, наша отечественная поисковая система Нигма имеет много чего полезного и инновационного в своем арсенале, но их посещаемость в тысячи раз уступает лидерам рынка России. Для примера взгляните на суточную аудиторию Яндекса:

В связи с этим можно считать, что список основных (лучших и самых удачливых) поисковиков рунета и всего интернета уже сформировался и вся интрига заключается только в том, кто кого в итоге сожрет, ну или каким образом распределится их процентная доля, если все они уцелеют и останутся на плаву.

Рынок поисковых систем России
очень хорошо просматривается и тут, наверное, можно выделить двух или трех основных игроков и парочку второстепенных. Вообще, в рунете сложилась достаточно уникальная ситуация, которая повторилась, как я понимаю, только еще в двух странах в мире.

Я говорю о том, что поисковик Google, придя в Россию в 2004 году, не смог до сих пор захватить лидерства. На самом деле, они пытались примерно в этот период купить Яндекс, но что-то там не сложилось и сейчас «наша Раша» вместе с Чехией и Китаем являются теми местами, где всемогущий Гугл, если не потерпел поражение, то, во всяком случае, встретил серьезное сопротивление.

На самом деле, увидеть текущее положение дел среди лучших поисковиков рунета
может любой желающий. Достаточно будет вставить этот Урл в адресную строку вашего браузера:

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Дело в том, что большая часть использует на своих сайтах , а данный Урл позволяет увидеть статистику захода посетителей с различных поисковых систем на все сайты, которые принадлежат доменной зоне RU.

После ввода приведенного Урла вы увидите не очень приглядную и презентабельную, но зато хорошо отражающую суть дела картинку

Обратите внимание на первую пятерку поисковых систем, с которых сайты на русском языке получают трафик:

Да, конечно же, не все ресурсы с русскоязычным контентом размещаются в этой зоне. Есть еще и SU, и РФ, да и общих зонах типа COM или NET полно интернет проектов ориентированных на рунет, но все же, выборка получается довольно-таки репрезентативная.

Эту зависимость можно оформить и более красочно, как, например, сделал кто-то в сети для своей презентации:

Сути это не меняет. Есть пара лидеров и несколько сильно и очень сильно отстающих поисковых систем. Кстати, о многих из них я уже писал. Иногда бывает довольно занимательно окунуться в историю успеха или, наоборот, покопаться в причинах неудач когда-то перспективных поисковиков.

Итак, в порядке значимости для России и рунета в целом, перечислю их и дам им краткие характеристики:

Однако, кроме ярко выраженных лидеров на рынке поисковых систем русскоязычного сегмента интернета, существует еще несколько игроков, доля которых довольно низка, но тем не менее сам факт их существования заставляет сказать о них пару слов.

Как сделать индексацию быстрее?

Естественно, любой вебмастер желает, чтобы роботы как можно скорее проиндексировали их сайт, ведь от этого зависит, насколько быстро содержащийся в нем материал появится в поисковой выдаче, который и привлечет новых посетителей. Чтобы индексация прошла быстрее, стоит следовать таким рекомендациям:

  • Добавить проект в поисковую систему.
  • Постоянно пополнять сайт новым уникальным, информативным и полезным для целевой аудитории контентом.
  • Разместить проект на надежном и скоростном хостинге.
  • Создать удобную навигацию по ресурсу, доступ на страницы должен быть не больше 3 кликов от главной.
  • Правильно настроить файл robots.txt, а именно: заблокировать индексацию служебных страниц и убрать лишние запреты.
  • Проверить количество ключевиков, устранить ошибки в исходном коде.
  • Обеспечить внутреннюю перелинковку (соединить страницы сайта между собой ссылками).
  • Создать карту сайта. Можно даже сделать карту сайта отдельно для роботов и для посетителей.
  • Разместить ссылки на статьи портала в соц.сетях.
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *