Сервис анализа слов и визуализации облаков и графика по TF-IDF

Вводное описание работы сервиса

Блок 1. Ввод данных для анализа

Блок 2. Анализ данных сайтов

Блок 2. Сводная таблица

Блок 3. Визуализация облаков слов

Блок 4. Построение графиков по словам

Блок 5. Сводная информация о сайтах

Вводное описание работы сервиса

Краткая суть работы сервиса:

Обратите внимание, что здесь показан максимально короткий алгоритм действий с упущением многих функций, ниже будет описано более подробно что и как должно работать и как должно быть реализовано. Полностью просмотрите ТЗ и оцените свою возможность реализации данного сервиса.

Пользователь указывает страницу сайта, либо вставляет текст для анализа.
Пользователь указывает ключевой запрос, по которому будут парситься сайты в Яндексе.
Пользователь указывает регион либо конкретный город, по которому будет парситься сайты в Яндексе.
Сервис на основе указанных данных пользователя начинает парсить ТОП10 сайтов Яндекса, данные по фразам и их словоформам с этих сайтов обрабатываются и выводятся в таблицу, на основе которой строится визуальное облако фраз.

Пример: Блок ввода данных для пользователя

Пример: Таблица, сформированная после анализа

Пример: Построение графика на основе фраз из таблицы

Пример: Визуализация облаков фраз на основе анализа сайтов из таблицы

Это максимально сжатое описание работы сервиса. При разработке сервиса необходимо сделать:
Анализ и объединение словоформ слова в один кластер, настроить анализ слов по TF-IDF, постройка средних значений и медианы кол-ва фраз на сайтах а так же по закону Ципфа, создание визуальных графиков и облаков фраз по их кол-ву в сравнении с конкурентами.

Далее будет подробное описание того, что нужно сделать, по блокам.

Блок 1. Ввод данных для анализа

Пример: вид блока, для ввода данных для анализа - https://i.imgur.com/Q00Qy4L.png
Что должно быть реализовано:

Ввод URL сайта для анализа, либо выбор окна для вставки конкретного текста.
Ввод запроса, по которому будет происходить анализ сайтов в Яндекс.
Ввод региона или города, по которому будет происходить поиск по запросу и далее анализ сайтов в Яндекс (добавить возможность поиска) - https://i.imgur.com/g8E5XAF.png
Окно с вводом доменов, которые пользователь хочет вручную указать для анализа - https://i.imgur.com/yViFDOt.png
Эта таблица так же отображает список доменов, которые сервис уже проанализировал (после анализа они туда добавляются, если пользователь не указывал свои), как на приложенном скриншоте. Пользователь может добавить или удалить какой-то домен и провести анализ заново. (Минимальное число url-адресов = 5, а максимальное = 10, каждый с новой строки.)
* Окно с вводом доменов, которые не нужно анализировать - https://i.imgur.com/zwooZWW.png
Выбор: исключать союзы, предлоги и местоимения - https://i.imgur.com/j388Noy.png (По умолчанию ВКЛ)
* Выбор: исключать свой список слов - https://i.imgur.com/j388Noy.png (По умолчанию ВКЛ со списком слов)
Кнопка "Анализировать", которая запускает анализ указанных данных.

5* По умолчанию там должны быть вписаны следующие домены:

yandex.ruavito.ruberu.rutiu.rualiexpress.comebay.comauto.ru2gis.rusravni.rutoshop.ruprice.rupandao.ruinstagram.comwikipedia.orgrambler.ruhh.rubanki.ruregmarkets.ruzoon.rupulscen.ruprodoctorov.rublizko.rudomclick.rusatom.ruquto.ruedadeal.rucataloxy.ruirr.ruonliner.byshop.bydeal.byyell.ruprofi.ruirecommend.ruotzovik.comozon.rumarket.yandex.ru

7* По умолчанию там должны быть вписаны следующие слова:

рублейрубструлштсммммлкгквм²см²м2см2

Блок 2. Анализ данных сайтов

Внесу небольшое отступление. Сервис, который мы копируем предоставляет возможность открыть данные по каждому проанализированному сайту - https://i.imgur.com/qqvM0jw.png
Далее откроются таблицы, по каждому сайту одна за другой, где будут указаны слова и кол-во их повторения для каждого сайта отдельно - https://i.imgur.com/CtqhMJW.png

Вероятно это необходимая вещь для построения следующей гибридной таблицы (в след. блоке), которая даёт сводную информацию со всех сайтов, а так же на основе нее создаётся облако слов.
Если вы можете сделать сервис без этого блока - делайте без него. Но лучше создать похожее решение.

Блок 2. Сводная таблица

Данный пункт - основа сервиса. На основе этой таблицы работает сервис и выстраивает графики и визуализирует облако слов.

Что должно быть реализовано (ВИЗУАЛ И ИНТЕРФЕЙС):

Возможность выбрать кол-во отображаемых строк в таблице - https://i.imgur.com/YX0cADi.png
Возможность переключать страницы, внизу таблицы - https://i.imgur.com/Nd3s4UU.png
Возможность по поиску конкретного слова - https://i.imgur.com/aivK1V5.png
Все столбцы таблицы кликабельны и сортируются при нажании (по возрастанию либо по убыванию) - https://i.imgur.com/G6HN7oU.png
Если на указанном для анализа сайте или тексте отсустствует (значение 0) какое-то из слов в любой словоформе, ячейка с "+" подсвечивается цветом - https://i.imgur.com/JqFpAvW.png
Таблица должна выгружаться (.xlsx) - https://i.imgur.com/YmBsD6n.png

Что должно быть реализовано (ТЕХНИЧЕСКАЯ ЧАСТЬ):

Описание столбцов таблицы и их работы:

Первый столбец - включает в себя кнопку, которая разворачивает список всех найденных словоформ конкретного слова - https://i.imgur.com/3oJOhwd.png и показывает значения в таблице по каждой словоформе.
Второй столбец "Слова" - Основные слова представленные в таблице - общие по всем словоформам, и обозначены самой популярной словоформой по заданной выборке. Пример: https://i.imgur.com/ArUQnPR.png Слово "Пожарный" является исходным словом, но его словоформа "Пожарные" используется в ТОП10 сайтах чаще, поэтому она отображается как основное.
Третий столбец "TF-IDF" - отражает важность использования каждого слова на продвигаемой странице.
Четвертый столбец "IDF" - уменьшает вес широкоупотребительных слов. Для каждого уникального слова существует только одно значение IDF.
Подробнее о TF-IDF: https://seo.ru/seowiki/tf-idf/ , http://nlpx.net/archives/57 , https://ru.wikipedia.org/wiki/TF-IDF

Пятый столбец "Пересечения (сайты)" - числовое значение, отображающее кол-во повторений конкретного слова на анализируемых сайтах. Пример: Анализируем 10 сайтов. На 6 из них есть слово "купить". Соответственно значение у этого слова будет 6.
Шестой столбец "Медиана" - Медиана кол-ва повторений слова по анализируемым сайтам.
Седьмой столбец "Переспам" - Отображает максимальные значения повторов слова по всем анализируемым сайтам.
Восьмой столбец "Средняя по ТОП10" - Высчитывает и отображает среднее значение повторов слова по всем анализируемым сайтам.
Девятый столбец "Зона тега <a> по ТОП10" - Высчитывает и отображает среднее значение повторов слова в зоне тега <a></a> по всем анализируемым сайтам.
Десятый столбец "Зона тега <a> по Вашему сайту" - Высчитывает и отображает среднее значение повторов слова в зоне тега <a></a> по указанному сайту или тексту для анализа.

На этом с таблицей все. Далее из нее будет строится облако со словами. Об этом в следующем блоке.

Блок 3. Визуализация облаков слов

На основе таблицы из 2 блока должны визуализироваться облака по словам. Выглядят они так - https://i.imgur.com/VAEZuLU.png

Существует другой бесплатный сервис, который может наглядно показать как это работает - https://miratext.ru/seo_analiz_text

Здесь есть пару важных моментов в работе:

1) Облако показывает только самое часто употребляемую словоформу, а не все словоформы.
2) Облако выстраивается по убыванию значений слов. Самое часто употребляемое слово - в центре облака.
3) Облако не показывает фразы, значение которых 0.

Нам необходимо сделать 4 облака которые строятся на основе этих же значений из таблицы в блоке 2:

1) Все зоны ТОП10 по TF-IDF
2) Зона тега <a> ТОП10
3) Все зоны вашей страницы
4) Зона тега <a> вашей страницы

https://i.imgur.com/VAEZuLU.png

Блок 4. Построение графиков по словам

Сервис должен строить график по словам и их вхождениям в определенных зонах на основе первых 20 самых часто употребляемых слов.
Пример графика - https://i.imgur.com/FdL8NgV.png

Что должно быть в графике:
1) График строится по нескольким значениям и должен иметь кликабельные разделы, которые можно включить или отключить для показа:
Средние значения
Медиана
Переспам
Значения указанного сайта или текста
Средние по тегу <a>
Значения указанного сайта или текста по тегу <a>
Значение по закону Ципфа (кликабельно)

2) График при наведении на конкретное значение отображает информацию - https://i.imgur.com/yR8mN4c.png

3) График имеет сортировку слов слева направо по уменьшению кол-ва повторений - https://i.imgur.com/S3v3yf5.png

Блок 5. Сводная информация о сайтах

Данный блок показывает сводную информацию по текстам всех сайтов. Пример - https://i.imgur.com/xxFtREE.png
Находится в самом низу выводимой информации после анализа.

В данном блоке нужен вывод следующих значений в сравнении с указаным сайтом или текстом при анализе:
1) Среднее кол-во пассажей - (это часть текста на сайте, разделённая html-тегами)
2) Медиана пассажей
3) Среднее кол-во слов
4) Медиана слов
5) Среднее кол-во символов
6) Медиана символов

Page updated

Google Sites

Report abuse