Краткая суть работы сервиса:
Обратите внимание, что здесь показан максимально короткий алгоритм действий с упущением многих функций, ниже будет описано более подробно что и как должно работать и как должно быть реализовано. Полностью просмотрите ТЗ и оцените свою возможность реализации данного сервиса.
Пользователь указывает страницу сайта, либо вставляет текст для анализа.
Пользователь указывает ключевой запрос, по которому будут парситься сайты в Яндексе.
Пользователь указывает регион либо конкретный город, по которому будет парситься сайты в Яндексе.
Сервис на основе указанных данных пользователя начинает парсить ТОП10 сайтов Яндекса, данные по фразам и их словоформам с этих сайтов обрабатываются и выводятся в таблицу, на основе которой строится визуальное облако фраз.
Это максимально сжатое описание работы сервиса. При разработке сервиса необходимо сделать:
Анализ и объединение словоформ слова в один кластер, настроить анализ слов по TF-IDF, постройка средних значений и медианы кол-ва фраз на сайтах а так же по закону Ципфа, создание визуальных графиков и облаков фраз по их кол-ву в сравнении с конкурентами.
Далее будет подробное описание того, что нужно сделать, по блокам.
Пример: вид блока, для ввода данных для анализа - https://i.imgur.com/Q00Qy4L.png
Что должно быть реализовано:
Ввод URL сайта для анализа, либо выбор окна для вставки конкретного текста.
Ввод запроса, по которому будет происходить анализ сайтов в Яндекс.
Ввод региона или города, по которому будет происходить поиск по запросу и далее анализ сайтов в Яндекс (добавить возможность поиска) - https://i.imgur.com/g8E5XAF.png
Окно с вводом доменов, которые пользователь хочет вручную указать для анализа - https://i.imgur.com/yViFDOt.png
Эта таблица так же отображает список доменов, которые сервис уже проанализировал (после анализа они туда добавляются, если пользователь не указывал свои), как на приложенном скриншоте. Пользователь может добавить или удалить какой-то домен и провести анализ заново. (Минимальное число url-адресов = 5, а максимальное = 10, каждый с новой строки.)
* Окно с вводом доменов, которые не нужно анализировать - https://i.imgur.com/zwooZWW.png
Выбор: исключать союзы, предлоги и местоимения - https://i.imgur.com/j388Noy.png (По умолчанию ВКЛ)
* Выбор: исключать свой список слов - https://i.imgur.com/j388Noy.png (По умолчанию ВКЛ со списком слов)
Кнопка "Анализировать", которая запускает анализ указанных данных.
5* По умолчанию там должны быть вписаны следующие домены:
7* По умолчанию там должны быть вписаны следующие слова:
Внесу небольшое отступление. Сервис, который мы копируем предоставляет возможность открыть данные по каждому проанализированному сайту - https://i.imgur.com/qqvM0jw.png
Далее откроются таблицы, по каждому сайту одна за другой, где будут указаны слова и кол-во их повторения для каждого сайта отдельно - https://i.imgur.com/CtqhMJW.png
Вероятно это необходимая вещь для построения следующей гибридной таблицы (в след. блоке), которая даёт сводную информацию со всех сайтов, а так же на основе нее создаётся облако слов.
Если вы можете сделать сервис без этого блока - делайте без него. Но лучше создать похожее решение.
Данный пункт - основа сервиса. На основе этой таблицы работает сервис и выстраивает графики и визуализирует облако слов.
Что должно быть реализовано (ВИЗУАЛ И ИНТЕРФЕЙС):
Возможность выбрать кол-во отображаемых строк в таблице - https://i.imgur.com/YX0cADi.png
Возможность переключать страницы, внизу таблицы - https://i.imgur.com/Nd3s4UU.png
Возможность по поиску конкретного слова - https://i.imgur.com/aivK1V5.png
Все столбцы таблицы кликабельны и сортируются при нажании (по возрастанию либо по убыванию) - https://i.imgur.com/G6HN7oU.png
Если на указанном для анализа сайте или тексте отсустствует (значение 0) какое-то из слов в любой словоформе, ячейка с "+" подсвечивается цветом - https://i.imgur.com/JqFpAvW.png
Таблица должна выгружаться (.xlsx) - https://i.imgur.com/YmBsD6n.png
Что должно быть реализовано (ТЕХНИЧЕСКАЯ ЧАСТЬ):
Описание столбцов таблицы и их работы:
Первый столбец - включает в себя кнопку, которая разворачивает список всех найденных словоформ конкретного слова - https://i.imgur.com/3oJOhwd.png и показывает значения в таблице по каждой словоформе.
Второй столбец "Слова" - Основные слова представленные в таблице - общие по всем словоформам, и обозначены самой популярной словоформой по заданной выборке. Пример: https://i.imgur.com/ArUQnPR.png Слово "Пожарный" является исходным словом, но его словоформа "Пожарные" используется в ТОП10 сайтах чаще, поэтому она отображается как основное.
Третий столбец "TF-IDF" - отражает важность использования каждого слова на продвигаемой странице.
Четвертый столбец "IDF" - уменьшает вес широкоупотребительных слов. Для каждого уникального слова существует только одно значение IDF.
Подробнее о TF-IDF: https://seo.ru/seowiki/tf-idf/ , http://nlpx.net/archives/57 , https://ru.wikipedia.org/wiki/TF-IDF
Пятый столбец "Пересечения (сайты)" - числовое значение, отображающее кол-во повторений конкретного слова на анализируемых сайтах. Пример: Анализируем 10 сайтов. На 6 из них есть слово "купить". Соответственно значение у этого слова будет 6.
Шестой столбец "Медиана" - Медиана кол-ва повторений слова по анализируемым сайтам.
Седьмой столбец "Переспам" - Отображает максимальные значения повторов слова по всем анализируемым сайтам.
Восьмой столбец "Средняя по ТОП10" - Высчитывает и отображает среднее значение повторов слова по всем анализируемым сайтам.
Девятый столбец "Зона тега <a> по ТОП10" - Высчитывает и отображает среднее значение повторов слова в зоне тега <a></a> по всем анализируемым сайтам.
Десятый столбец "Зона тега <a> по Вашему сайту" - Высчитывает и отображает среднее значение повторов слова в зоне тега <a></a> по указанному сайту или тексту для анализа.
На этом с таблицей все. Далее из нее будет строится облако со словами. Об этом в следующем блоке.
На основе таблицы из 2 блока должны визуализироваться облака по словам. Выглядят они так - https://i.imgur.com/VAEZuLU.png
Существует другой бесплатный сервис, который может наглядно показать как это работает - https://miratext.ru/seo_analiz_text
Здесь есть пару важных моментов в работе:
1) Облако показывает только самое часто употребляемую словоформу, а не все словоформы.
2) Облако выстраивается по убыванию значений слов. Самое часто употребляемое слово - в центре облака.
3) Облако не показывает фразы, значение которых 0.
Нам необходимо сделать 4 облака которые строятся на основе этих же значений из таблицы в блоке 2:
1) Все зоны ТОП10 по TF-IDF
2) Зона тега <a> ТОП10
3) Все зоны вашей страницы
4) Зона тега <a> вашей страницы
https://i.imgur.com/VAEZuLU.png
Сервис должен строить график по словам и их вхождениям в определенных зонах на основе первых 20 самых часто употребляемых слов.
Пример графика - https://i.imgur.com/FdL8NgV.png
Что должно быть в графике:
1) График строится по нескольким значениям и должен иметь кликабельные разделы, которые можно включить или отключить для показа:
Средние значения
Медиана
Переспам
Значения указанного сайта или текста
Средние по тегу <a>
Значения указанного сайта или текста по тегу <a>
Значение по закону Ципфа (кликабельно)
2) График при наведении на конкретное значение отображает информацию - https://i.imgur.com/yR8mN4c.png
3) График имеет сортировку слов слева направо по уменьшению кол-ва повторений - https://i.imgur.com/S3v3yf5.png
Данный блок показывает сводную информацию по текстам всех сайтов. Пример - https://i.imgur.com/xxFtREE.png
Находится в самом низу выводимой информации после анализа.
В данном блоке нужен вывод следующих значений в сравнении с указаным сайтом или текстом при анализе:
1) Среднее кол-во пассажей - (это часть текста на сайте, разделённая html-тегами)
2) Медиана пассажей
3) Среднее кол-во слов
4) Медиана слов
5) Среднее кол-во символов
6) Медиана символов