Ранжування документів

Тaras Shevchenko

ML Engineer @ Rails Reactor (Ukraine)

Лекція:

8 березня (НД)

9:00-10:20

Практика:

8 березня (НД)

10:30-11:50

Застосування машинного навчання у ранжуванні текстових документів.

У цій лекції спочатку поговоримо про задачу, про те, які дані можуть бути корисними для побудови моделі, коротко проаналізуємо класичні підходи: точковий, попарний, списковий. Потім розглянемо різні функції втрат та методи вимірювання якості пошуку.


Практика

Моделі ранжування та нюанси впровадження.

Підберемо вектор ознак для задачі ранжування, порівняємо якість пошуку при застосуванні різних підходів та методів ранжування.

Після цього перейдемо до того, як застосовувати отримані моделі у реальних проектах.

Вимоги до учасників

Мінімальні вимоги до учасників:

  1. Базові знання лінійної алгебри, теорії оптимізації та статистики.
  2. Володіння будь-якою сучасною мовою програмування.

Рекомендовані вимоги:

  1. Володіння базовими поняттями NLP.
  2. Досвід розв'язку задач регресії та класифікації.
  3. Вміння оцінювати якість моделі.
  4. Вільне володіння Пітоном.

Додаткові вимоги для учасників практичного заннятя:

  1. Вміння писати код з використанням numpy, scipy, sklearn.
  2. Базові знання про взаємодію з базами даних.
  3. Опціональний досвід роботи з ElasticSearch/Solr/Lucene/Sphinx.

Рекомендоване ПЗ

Дані компоненти варто встановити перед початком практичного занняття.

Python

pip3 install --user jupyterlab notebook numpy scipy catboost sklearn torch torchvision \
                    ipywidgets gensim flask requests
jupyter nbextension enable --py widgetsnbextension

Elastic search

Вибірки:

  1. Microsoft LTR
  2. Home Depot Product Search Relevance