Microsoft Computer Vision Summer School 2011


Летняя школа Microsoft по компьютерному зрению проходила в Москве с 27 июля по 3 августа 2011 г. Цель такого рода мероприятий - создание имиджа Microsoft как инновационной компании, которая не просто софтверный гигант, а еще и вкладывает деньги в обучение студентов. Для студентов это возможность узнать что-то новое от специалистов в области компьютерного зрения, познакомиться с преподавателями и друг с другом.

Некоторая статистика:
  • Организована на базе МГУ с помощью финансовой поддержки Microsoft. 
  • Свыше 80 участников из 32-х городов и 48-и университетов и организаций России (а также Украины и Белоруссии). В основном студенты. Средний возраст участников 23 года. Самому старшему участнику 33 года.
  • Заявку на участие подавали, по словам организаторов, свыше 500 человек. 
  • Школу вели профессора из крупных университетов Европы и из Microsoft Research.
  • Занятия проходили в основном на английском языке. Как я понял, найти в России преподавателей, которые бы смогли прочитать лекции по компьютерному зрению на русском языке на таком высоком уровне, очень сложно. Поэтому пришлось слушать на английском.
  • В России походит впервые. Как показывает практика, если такие школы проводить на одном и том же месте, то они с течением времени деградируют (все кто хотел, уже съездили, интерес пропадает).
Много было людей из Москвы, Санкт-Петербурга, Нижнего Новгорода. Из Томска было два человека. 
Статистика участников:

Главное здание МГУ на Воробьевых горах. Построено в стиле сталинского ампира, в то время старались догнать и перегнать Америку в строительстве гигантских зданий. В Москве всего три таких здания: МГУ, гостиница Украина и здание МИДа. В главном здании находятся также общежития и столовые. 

Чтобы перевозить людей по такому высокому зданию, построили еще и скоростные лифты. Со 2-го на 10-й этаж такой лифт доезжает за 2 секунды очень плавно, ускорение практически не ощущается.

Комната в общежитии географического факультета. Есть два типа комнат: аспирантка (на фотографии) и студенческая. Аспирантка предназначена для одного человека. В блоке по две таких комнаты + общий микротуалет и микродуш. Ремонтировали эту комнату, судя по ее виду, давненько. Вообще, все кого спрашивал, говорят, что общежитие в их университете выглядит лучше, чем общежитие в МГУ. Жара 35 градусов. Открытое окно не помогает, все равно душно. В прошлом году оказывается было еще жарче, и горели торфяники.

Открытие школы в Mariott Moscow Twerskaya Hotel в центре Москвы.


Корпус №2 ВМК, где проходили занятия, находится в двух шагах от главного здания МГУ.

Справа на лево: зам. декана ВМК Березин Б.И., управляющий директор Microsoft Research Андрю Блэйк, "человек из министерства", организатор школы со стороны Microsoft Фабрицио Гальярди, президент Microsoft Rus Николай Прянишников.


Приветственная речь Фабрицио Гальярди (Fabricio Gagliardy, Microsoft Research) . Именно он выступал организатором мероприятия со стороны Майкрософт.

Кофе-брейк. Можно попить кофе, чай или нарзан (что более всего подходит к нынешней жаре).

Лекция Эндрю Блэйка (Andrew Blake), управляющего директора Mircosoft Research Cambridge. Раньше он был профессором в унивреситете, потом перешел на работу в Microsoft. В компьютерном зрении нужно уметь строить гипотезы и проверять их.

Программа Photosynth, созданная в Microsoft Research, умеет создавать панораму из множества фотографий одного и того же объекта. Допустим, много туристов сделали много фотографий Колизея, и эта программа сможет создать трехмерную панораму колизея из набора отдельных фотографий.

Функция вырезания заднего фона в Office 2010. Алгоритм также разработали в Microsoft Research. Вообще работа в Microsoft Research не запрещает делать публикации - они занимаются созданием чего-то нового, затем ищут куда это можно применить, и публикуют результаты (не все, конечно). Например, как-то они создали камеру, которая делает снимки каждые 30 секунд, а потом долго думали куда же ее применить. В результате они продали эту технологию фирме, которая занимается производством оборудования для людей с отсутствием кратковременной памяти.

Microsoft Kinect вошел в книгу рекордов Гиннеса как самое быстро продаваемое устройство в мире. Не удивительно, ведь на рекламные мероприятия, сопутствующие запуску Kinect, в Microsoft потратили миллиард долларов. Программную начинку для Kinect разработали под руководством Andrew в Microsoft Research. Kinect предназначен для управления видеоиграми в приставке X-Box посредством движений игрока, т.е. положение тела игрока и его конечностей распознается очень точно в реальном времени, и даже в темноте (для этого в Kinect используется лазер).

Виктор Лемпитский (Victor Lempitsky, University of Oxford) о том, как нужно писать статью на конференцию по computer vision. Оказывается, у них в Европе считается, что лучше всего писать статью не в ведущий журнал из списка ВАК, а на конференцию первого эшелона (такую как CVPR). На таких конференциях применяется double blind check рецензирование (то есть статью читают несколько рецензентов), что говорит о высоком качестве. На конференцию более низкого уровня слать статью нет смысла - даже если ее и примут, все равно она затеряется среди груды второсортных работ и будет обречена на забвение. В журнал тоже можно послать более расширенную версию статьи, которую уже приняли на конференцию.

Лекция Карстена Ротера (Carsten Rother, Microsoft Research) о малопонятных мне вещах (матлогика, графы). Его речь изобиловала словами "zero" и "one". В общем, если бы он говорил по-русски, то у меня была бы надежда что-нибудь понять, но на английском вероятность понимания стремится к нулю. 

Винсент Лепетит (Vincent Lepetit, ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE) о детектировании объектов в реальном масштабе времени. Лекции на английском - и так не сладко, но с французским акцентом Винсента - это что-то. Но все равно очень интересно.

Винсент демонстрирует программу, которая что-то детектирует на изображении с его веб-камеры в реальном времени. 

Во время перерыва попросил его сфотографироваться. Здесь с преподавателями все фотографируются и просят автографы (ну возможно не все, но по крайней мере я так делал). В общем занятия здесь не просто как в университете - все слушают с интересом, чувствуется обратная связь с лектором, во время лекции и на перерыве можно задавать вопросы.


Винсент рассказывает про классификатор Ferns

Антон Конушин (слева) представляет Эндрю Фитсгиббона (справа). Антон - директор школы со стороны МГУ. Andrew Fitzgibbon - один из создателей Kinect. Однажды к нему обратился человек из отдела X-Box и сказал, что у них есть сверхсекретный проект, с которым Эндрю может им помочь. Когда Эндрю узнал, что именно от них хотят (управлять играми с помощью движений человека), он сказал: ребята, не стоит этим заниматься, потому что это невозможно. На тот момент не было методов распознавания движений человека, которые бы работали устойчиво в течение часа, да еще и в темноте. Но, как видим, они справились. Часть технологий они купили у какой-то израильской фирмы, а часть сделали сами.

Рассказ о программе Boujou, разработанной в компании 2d3, за которую они получили "scientific oscar". Эта программа может взять видео, которое вы сняли, например проходя по улице, построить трехмерную модель улицы, и вставить в нее какой-нибудь трехмерный объект, которого на этой улице никогда не было. В результате вы получите видео, в котором этот объект является как бы частью сцены. Эту программу можно купить (правда стоит дорого), а также есть бесплатная урезанная версия.

Практическое занятие. Для него нужно было привезти свой ноутбук с установленным MATLAB. Практика по тому материалу, который был на лекции. Такие практические занятия почти каждый день.

Вот так выглядит главное здание МГУ изнутри.

Виктор Ерухимов (технический директор компании ITSeez и один из создателей OpenCV) рассказывает о библиотеке OpenCV и об областях ее применения. Вообще открыл для себя, что оказывается OpenCV разрабатывают в России, в Нижнем Новгороде. После того как от OpenCV отказалась Intel, за ее доработку взялся Вадим Писаревский из Нижнего Новгорода и именно он сделал основную часть работы. Кроме того, он задействует в работе студентов. Например, один из них сделал детектор пешеходов (pedestrian detector), и его код скоро будет смерджен с основной веткой OpenCV. Вообще в зале присутствовало трое людей, которые причастны к разработке OpenCV. 

"Царь" OpenCV Вадим Писаревский. Вообще то он сам должен был бы рассказывать про OpenCV вместо Виктора, но он редко путешествует. Кстати, неделю назад вышла OpenCV 2.3.

Рассказ о модуле calib3d OpenCV. На слайде робот PR2 Beta калибрует свои многочисленные камеры, держа перед собой калибровочную табличку. Зрелище довольно смешное. Этот робот умеет находить ближайшую розетку и самостоятельно подзаряжаться, поэтому калибровка камер - насущная проблема.

Не мог не сфотографироваться с создателем OpenCV.

В настоящее время в OpenCV реализуют поддержку не только обычных CPU, но и GPU (СUDA) и процессоров мобильных устройств (Android). 

Кристоф Ламперт (Christoph Lampert, IST Austria) рассказывает о методах машинного обучения (таких, как SVM). Machine learning - это методы, которые используются в том числе и в компьютерном зрении, и позволяющие решать задачи классификации. Например, SVM позволяет определить гиперплоскость, которая наилучшим образом разбивает пространство примеров на два класса.


Эндрю Зиссерман (Andrew Zisserman, Oxford University) рассказывает о контекстном поиске изображений. 

Они разрабатывают систему поиска предметов в видеопоследовательностях Video Google. Очень интересная штука, умеет находить все что вы ее попросите в фильме "День Сурка" (вот демка).

Cтоловая сектора В главного здания МГУ. Всем участникам школы раздали талоны на трехразовое питание, и наесться можно было до отвала. Готовят в этой столовой вкусно, и каждый день новые блюда.

Poster session. Все желающие смогли продемонстрировать постеры и рассказать другим студентам о своих разработках. К некоторым даже подходили преподаватели и задавали вопросы или просто смотрели. 

Погода становится похожей на томскую - холодно и иногда идет дождь.

Иван Лаптев (Ivan Laptev, INRIA, Paris) рассказывает о методах распознавания действий (action recognition). Например, в фильме Coffee and Cigarettes, который изобилует сценами чаепитий, детектируются моменты, когда в кадре актер подносит чашку к губам. Но иногда ошибочно детектируются и моменты, когда актер подносит к губам сигарету (без ошибок никуда).

Секция, посвященная computer vision startups. Aram Pakhchanian, вице-президент компании ABBYY, рассказывает о том, как начинал работать в этой компании (а он там с самого начала). Самый успешный их продукт - ABBYY Fine Reader. Fine Reader умеет распознавать символы на отсканированном документе и формировать электронный документ (OCR, optical character recognition). В то время, когда они начинали работу, компьютер IBM PC 286 стоил очень дорого, в России уровень пиратства достигал 85%, и идея продавать программный продукт казалась безумием. Но, тем не менее, у них была идея, над которой они работали  очень много и упорно, и в результате получили технологию, которой на тот момент не было ни у кого в мире. Потом они разработали технологию распознавания форм, что помогло им получить контракт с налоговой полицией, которой нужно было автоматизировать перевод платежек в электронную форму. 

В настоящее время в компании ABBYY работает около 1000 человек, у нее есть офисы по всему миру. Сейчас они работают над Fine Reader в направлении упрощения работы пользователя с программой, чтобы пользователю было достаточно одного клика мышкой, чтобы получить из бумажного документа электронный. Кроме Fine Reader они разрабатывают переводчик ABBYY Lingvo, который по сути основан на той же технологии (и там, и там используется распознавание).

Михаил Никонов (директор компании iPi Soft) рассказывает о своей компании, в которой разрабатывают технологию 3D Motion Capture. Купив эту технологию (или скачав 30-дневный триал), вы можете создавать компьютерную анимацию просто ходя перед камерой, без прикрепления к телу маркеров (вот демка на YouTube). Интересно, что сам Михаил никакого отношения к компьютерному зрению не имеет, и даже учился по несвязанной специальности (архитектура). Тем не менее, они смогли сделать рабочую технологию, которую у них покупают. Пример - последние эпизоды мультфильма (к сожалению, названия не помню) на движке Valve Source сделаны на основе их технологии.

Еще один стартап. Рассказывает Василий Петреченко. Их технология связана с автоматизацией построения 3D моделей зданий по одной фотографии. Таким образом они делают модели для целых улиц. 

Также был небольшой рассказ о нашем отечественном проекте Сколково. Из него я понял, что на данный момент у Сколково есть свой сайт c неочевидным названием i-gorod.ru, и они приступили к строительству первого административного здания, и что строительный бюджет и научный бюджет - вещи разные, если один исчерпается, то на другом это не отразится. В зале к этому проекту явно было скептическое отношение, потому что задавали острые вопросы.

Трансфер на conference closing event в Mariott Hotel. Удалось даже постоять в настоящей московской пробке.

Вообще-то первоначально обещали круиз на катере по Москве реке, но в результате получили Mariott. А жаль, на катере тоже хотелось покататься.

Ужин, небольшая официальная часть и вручение призов наиболее выделившимся студентам. Вообще к словам "наиболее выделившимся" есть определенные вопросы, поскольку не понятно как определяли кто чем выделился. Первые три приза (X-Box + Kinect) отдали людям, которые лучше всего выполнили домашнее задание (оно заключалось в написании программы на MATLAB). Конкретных цифр никто не назвал, рейтинг никто не вывешивал - в результате я даже не понял, в конце ли я этого списка или можно собой гордиться (в общем, эту информацию организаторы последовательно и целенаправленно скрывали, что остается на их совести). Затем отдали еще два X-Box + Kinect студентам (вернее студенткам), которые сделали лучше постеры. 

Затем всем вручили дипломы. Дипломы были двух видов: диплом с надписью "successfully completed the school" (как у меня) вручили тем, кто выполнил домашнее задание или сделал постер. Остальным давали дипломы другого цвета и с надписью "participated in the school".



Comments