Существуют три основных способа поиска информации в Интернет:
Указание адреса страницы.
Передвижение по гиперссылкам.
Обращение к поисковой системе (поисковому серверу).
Как работают системы веб-поиска
По данным сервиса статистики LiveInternet.ru распределение поисковых систем в России примерно следующее:
Яндекс — 53.9%
Гугл — 35.0%
Поиск Mail.ru — 8.3%
Рамблер — 0.9%
Яндекс (картинки) — 0.6%
Гугл (картинки) — 0.2%
Поисковая система работает в следующем порядке:
Сбор данных поисковым роботом пауком (Web crawling)
Индексация найденных данных (Indexing)
Поиск по индексированным данным (Searching)
Обычно делится на 2 этапа – скачивание веб-страницы и анализ ссылок. Первый этап выполняет Spider (быстрый поисковый паук) – программа для последовательного перебора и скачивания веб-страниц для анализа. Она получает веб-страницы с сайтов по определенному алгоритму и отдает их другой программе Crawler-у. После этого в дело вступает Crawler (медленный паук анализатор), который находит все ссылки и составляет дальнейший маршрут для spider-а. У spider-а есть определенный список сайтов для посещения, заранее подготовленный другими подсистемами поиска. Из этого списка spider получает все необходимые данные.
После того, как проходит первый этап, в дело вступает вторая подсистема – подсистема индексации. Она размещает найденную пауками информацию так, чтобы было удобно в дальнейшем к ней обращаться. Для этого программа Индексатор разбирает страницу на различные ее части и анализирует их. Из страницы выделяются заголовки страниц, ссылки, текст, структурные элементы и т.д. Все полученные данные структурируются по определенному алгоритму и затем полученные данные заносятся в базу данных.
Эта подсистема выдачи результатов, которая использует сформированную индексатором базу данных. Она определяет, какие страницы удовлетворяют запросу пользователя и показывает результаты поиска. Когда вы вводите ключевое слово и делаете поиск, поисковая система отбирает результаты на основании следующих критериев:
Title (заголовок): Есть ли ключевое слово в заголовке?
Domain/URL (Домен/адрес): Есть ли ключевое слово в имени домена или в адресе страницы?
Style (стиль): Анализ стиля текста на страницы. Используется ли Жирный текст или Курсив, используются ли заголовки H1, H2 и т.д.
Density (плотность): Как часто употреблено ключевое слово на странице? Какова величина плотности ключевого слова?
MetaInformation (мета данные) – поиск совпадений в метаданных.
Outbound Links (ссылки наружу): Есть ли ссылки на странице и на кого они ведут, а также встречается ли ключевое слово в тексте ссылки?
Inbound Links (внешние ссылки): Кто ссылается на искомую страницу? Каков текст ссылки?
Insite Links (ссылки внутри страницы): На какие страницы данного сайта содержит ссылки эта страница?
В результате этого сравнения подсистема поиска выбирает нужные веб-страницы и показывает их пользователю, который осуществляет поиск.
Чаще всего люди ищут через поиск (расположено примерно по убыванию):
Всевозможные социальные сети – Вконтакте, Instagram, Одноклассники, mail.ru и т.д
Порно
Фильмы
Картинки
Музыку
Интернет
Авто
Игры онлайн
Компьютеры
Деньги, финансы
Отдых
Недвижимость
Спорт
Реклама
Строительство
Здоровье
Информацию о знаменитостях
Приготовление еды, кулинария
Логистика
Примерно 2-3% от всех введенных запросов обычно сформулированы как вопрос. Больше всего вопросительных запросов начинаются с:
какой
сколько
кто
В последнее время все больше запросов (около 10%) стали содержать прямое указание – купить, продать или получить что-то. Самые распространённые уточнения сегодня в рунете – это скачать и бесплатно. Примерно 4% от всех запросов. Самыми часто встречающимися ошибками при поиске – ошибки, возникающие из-за неверной раскладки клавиатуры, недописанные запросы и синтаксические ошибки.]