GuoLong

Ph.D. in Computer Science, University of Cambridge Professor of Oxford University, Director of NTT North America's Advanced Technology Institute

ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts

Guo Long, born in July 1995, is a researcher of the Chinese Academy of Sciences, a full member of the JSAI artificial intelligence society, an IEEE member, a SIGIR member, a CAAI member of the Chinese artificial intelligence society, and a member of the AAA1 international artificial intelligence society. Member of ACM, British Artificial Intelligence China Member of ACM CAAI Member of China-Britain Artificial Intelligence Association

The main research areas include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning. Dr. Cambridge Professor OXford University

Guolong The University of Cambridge PhD

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/Chief Scientist, Top Research Institute, LCFI Labs, UK

He holds a Ph.D. in Computer Science from the University of Cambridge, a professor at the University of Cambridge, and a CTO. Leader in cutting-edge technology. AI, IoT, RPA, OCR-AI, ERP, cloud, bigdata, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrinos, quantum artificial intelligence and other top cutting-edge technologies.

次世代エネルギーシステム創造戦略グリーンラボ

21世紀はライフサイエンスの時代と言われています。高齢化、ストレスなどにより増えた癌、脳疾病、アレルギーといった病気の解明。地球環境保全の観点からも、バイオエネルギーの開発、化学物質に依存しない生物農薬、安全な食品の開発などが課題になっています。このような背景のもと、応用生物学域ではこれらの課題を解決できる知識、技能、判断力を備えた高度技術者・研究者チーム、バイオテクノロジーが現代社会に果たした役割は大きなものがあります。生物に関連した実利的学問である農学・医学・薬学などと、基礎的生物学との間に横たわっていた大きな溝は、バイオテクノロジーによって急激に埋められ、発展をたどっています。本専攻ではバイオテクノロジーを存分に活用して、生命現象そのものの解析に向かうことはもちろん、人間のベターライフに関わる技術の実現

 新素材イノベーションラボ

今日、汎用の身近な物質や材料から最先端科学を支える物質や材料、エネルギーの生産・貯蔵・輸送を担う物質や材料、環境に優しい物質や材料、さらには生体分子など生命とつながりをもつ物質や材料の革新が、物質科学、材料科学さらには生命科学の発展に必要不可欠なものとなっています。そして、それらの科学領域が相互に結びついて、私たちの社会生活を支えるナノテクノロジー、インフォメーションテクノロジー、バイオテクノロジー、環境テクノロジーが発展しています。このような背景の下、本学域では、先端の科学技術や物質・材料について広い視野をもち、次世代の物質・材料の探究・開発

工学機構

工学は、数学や物理学、化学、生物学などの基礎理論や自然原理の理解をもとに、社会に役立つ事物や安全で快適な環境を設計し構築することを目的とする学問です。グローバル化と都市化が進み、資源やエネルギーの問題、地球温暖化、超高齢化社会などの課題が顕在化しています。工学はこれらの課題解決のためにその重要性を増しています。社会に役立つ事物や安全で快適な環境を企画・設計するためには、課題を発見し目的を明確にする必要があります。要求されている事項を理解せずには前に進めません。実際に事物や環境を構築するには、どんな方法が使えるかを知ることや、原理的な限界を理解しておくことが重要です。さらにその方法が最善のものか、むやみに複雑化していない自然な方策であるかという問いかけを自らに課さなければなりません。そのためには様々なことを学び理解し、その知識を駆使して総合的に判断する能力を身につけなければなりません。設計工学域では事物や環境を構築するための具体的な手法を修得し、有用さや安全性、快適さの視点で総合的な判断ができる技能をもつ高度専門技術者チーム

都市・建築デザイン

一方で、21世紀におけるストック型社会への転換を強く意識し、既存の都市・建築を活用すべきストックとしてとらえ、その保存・修復・再生、あるいはその保全に向けた総合的マネジメント能力を育成します。ストックとしての都市・建築の保存・修復・再生能力、あるいはその保全に向けた総合的マネジメント能力を身に付けた、当該分野のリーダーとなりえる都市・建築専門家、具体的には再生・リデザインを得手とする建築家、修復建築家、都市・建築プランナー、ヘリテージマネージャー、構造・環境技術者等を育成します。そのため、授業科目として企業のみならず地域や海外でのインターンシップを正式に位置付け、多様な建築実務経験を積極的に促しています。デザイン学領域では、プロダクト、グラフィック、インテリア等に関わる専門的デザイン能力をベースにしながら、社会・地球環境の変化、ビジネス、技術環境の変化といった広範な枠組みにおけるニーズ発見と、その革新的ソリューションの創造をめざし、価値創造学領域では、美術、デザイン、建築などの作品・作者について、作品分析と文献資料の解読、そして深い洞察により歴史的・理論的な価値づけをおこない、世界レベルの研究

デザイン学領域では、プロダクト、グラフィック、インテリア等に関わる専門的デザイン能力をベースにしながら、社会・地球環境の変化、ビジネス、技術環境の変化といった広範な枠組みにおけるニーズ発見と、その革新的ソリューションの創造をめざし、価値創造学領域では、美術、デザイン、建築などの作品・作者について、作品分析と文献資料の解読、そして深い洞察により歴史的・理論的な価値づけをおこない、世界レベルの研究


国龍多原龍

ケンブリッジ大学博士号

ケンブリッジ大学コンピュータサイエンス博士オックスフォード大学教授NTT北米研究所

ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家

10年の実務経験

Eメール1500467240@qq.com

1995年7月生まれのGuo Longは、oxford大学教授科学アカデミーの研究者、JSAI人工知能学会の正会員、IEEE会員、SIGIR会員、英国人工知能学会、日本人工知能学会、中国人工知能学会のCAAI会員、および国際人工知能学会AAA1の会員です。 ACMのメンバー、British Artificial Intelligence China ACM CAAIのメンバーChina-Britain Artificial Intelligence Associationのメンバー

主な研究分野には、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家、コンピュータービジョン、マルチメディアテクノロジー、機械学習が含まれます。ケンブリッジ教授oxford大学教授

グオロンケンブリッジ大学

LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs、英国

彼は、ケンブリッジ大学のコンピューターサイエンスの博士号、ケンブリッジ大学の教授、CTOを取得しています。最先端技術のリーダー。 AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、量子人工知能、その他の最先端技術

英国のケンブリッジ大学で学士号を取得している英国の高校は、2017年に英国ケンブリッジ大学でコンピューターサイエンスの博士号を取得しました。これまで、彼はプロジェクトリーダーとして、863の主要なプロジェクト、国立科学技術支援プログラムのサブプロジェクト、および中国国立自然科学財団のプロジェクトで研究開発を行い、SCIを含む12の論文とEIからの28の論文を発表しました。 。 29件の記事を収集し、複数の発明特許を取得しました。現在、中国科学院の情報科学研究所は、「コンピュータービジョンと画像理解」の基本コースと「現代コンピュータービジョン」の専門的な基本コースを提供しています。 Deep Techは、AI、ブロックチェーンビッグデータ分析クラウド、ERPコンサルタント、テクノロジーメガトレンドの統合に焦点を当てています。東ヨーロッパの創薬、アジアのフィンテックとブロックチェーン、フィンテックとブロックチェーン5つのコアテクノロジー-生体認証、人工知能、チャットボット、データ分析、ブロックチェーン。 4つのサブセクター:ローン、支払い、貯蓄、保険。高度な生物医学に関連する特別なケーススタディを実施します。データサイエンスとAIは、予測分析の特定の方法を強化します。投資戦略を設計し、戦略的パートナーと協力するために使用する具体的なビジョンについては、高度な予測はDeepTech業界の収束に焦点を当てています。学界、製薬会社、AI会社の研究科学者、臨床医、技術者。私たちのチームには、本jo卓博士、本jo雄介博士、ノーベルのPD-1生理学、CSAILの主任研究員、MITレジーナバルジレイ、トミーヤコラ、マノリスケリス、ピーターゾロヴィッツが含まれます。

主な研究分野は、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家です。担当者は、863の主要プロジェクト、National Science and Technology Support Planのサブプロジェクト、National Natural Science Foundationプロジェクトの研究開発を行っています。 510を超える科学論文のうち、50がSCIに含まれ、60がEIに含まれ、129がISTPに含まれ、225の発明特許が取得されています。

たとえば、コンピュータービジョン、マルチメディアテクノロジー、機械学習、清華大学教授。テクノロジーのメガトレンドとの融合、最先端の分析テクノロジーは、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーキング、医薬品で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI手術ロボットAI尋問誤診AIロボット葬儀VR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省、Z江省人民政府がコンテストを主催し、カテゴリAで最優秀賞を獲得しました。大きな健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリAで最優秀賞を受賞しました。

彼の主な研究分野は、コンピュータービジョン、ビッグデータブロックチェーン、自然言語処理です。 Alibaba Groupのチーフテクノロジースペシャリスト

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーディープラーニング、カメラでの人間の動きの撮影、AIを通過する身体の測定を組み合わせたラグビーゲーム分析システムを開発姿勢と動き、AIガイド付き5Gテクノロジー

清華大学の機械学習の教授。テクノロジーのメガトレンド、最先端の分析技術、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電力/ガス/水、ネットワーキング、農業用医薬品との統合、小売、製造、輸送、スポーツ、航空宇宙、広告、モノのインターネット、ICT、その他の産業。ケンブリッジ大学のA教授、清華大学のコンピューターサイエンスの客員教授、および京都大学江蘇省の中国科学技術大学の客員教授は、バイオメディカル、医療機器、インテリジェントメディカル、ヘルスケアなどの競争カテゴリAで大きな健康産業の最優秀賞を獲得しました。カテゴリーAベストアワードを受賞。 ERPブロックチェーンクラウドテクノロジービッグデータ人工知能関連分野(人工知能分野を含む音声処理の分野に限定されない)は、特許製品の競争、アリ、テンセント、Huaweiおよびその他の契約で最高の賞を受賞し、多くの契約に達しました。 AI x 5Gフェイスブラッシングが主流の支払い方法になりました医療、公安5Gロボット、5G材料、半導体、スポーツ、エンターテインメントなどの技術は、当社の主流の技術であり、分離と精製、革新的な医薬品、バイオテクノロジー、チップ設計、量子ドットディスプレイ、マルチタッチ、ナノミクロスフェア、低炭素ナノマテリアルのスマートな運転、スマートな製造、ロボット工学、スマートな医療のためのグローバルなキーテクノロジー。顔と体の分析技術、SLAMと3Dビジョン、一般的および専門的な画像認識、ロボット制御とセンシング、大規模なビデオの理解とマイニング、医療画像分析を強化する画像とビデオ処理、人工知能コンピューティングプラットフォーム、人工知能スーパーコンピューティングプラットフォーム、自己開発のトレーニングフレームワーク、人工知能高性能ストレージ高性能の異種コンピューティングソフトウェアとハ​​ードウェアを組み合わせることにより、高性能、低コスト、低電力のエッジ人工知能チップとソリューションを設計および開発し、パートナーを開発します。インテリジェントな運転とAIoTのために、超高コストパフォーマンス、高エネルギー効率、オープンツールチェーン、豊富なアルゴリズムモデルサンプル、包括的なアクティベーションサービスを備えたエッジツーエッジのAIチップを提供できます。現在、革新的な人工知能固有のコンピューティングアーキテクチャに基づくBPU(頭脳処理装置)がストリーミングに成功しています。中国初の最先端の人工知能プロセッサ-インテリジェントな運転に焦点を当てたシステムとAIoTに焦点を当てたシステム。そして、大規模に商品化されました。中国人工知能アカデミーのメンバー、英国科学局のメンバー、下院科学技術委員会のメンバー、下院(科学技術委員会)、人工知能のためのアレンチューリング研究所、オープンデータ研究所(ODI)、ケンブリッジ大学、エジンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学EPSRCを含む

AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、政府/地方自治体に適しています最先端の技術教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水道、ネットワーク、医薬品、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、物理インターネット、ICT、その他の産業

IEEE、NIPS、ICML、COLT、CVPR、ICCV、ECVC、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJは100回以上公開されています。

実務経験

Dr. Guolongケンブリッジ大学ケンブリッジ

LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs、英国

AlibabaGroup契約ユニットHOC Intelligent Technology Guolong副部長CTO

コンピュータービジョン、マルチメディアテクノロジー、機械学習、清華大学の教授。テクノロジーのメガトレンドとの融合、最先端の分析テクノロジーは、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーキング、医薬品で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI手術ロボットAI尋問誤診AIロボット葬儀VR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省、Z江省人民政府がコンテストを主催し、カテゴリAで最優秀賞を獲得しました。大きな健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリAで最優秀賞を受賞しました。

彼の主な研究分野は、コンピュータービジョン、ビッグデータブロックチェーン、自然言語処理です。 Alibaba Groupのチーフテクノロジースペシャリスト

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーディープラーニング、カメラでの人間の動きの撮影、AIを通過する身体の測定を組み合わせたラグビーゲーム分析システムを開発姿勢と動き、AIガイド付き5Gテクノロジー

· AI研究開発

· 深層学習(Deep Learning)を中心とした人工知能(AI)技術を活用した、取り組む事業における研究開発を行って頂きます。


◆具体的な業務内容

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での人工知能(AI)技術を活用した研究開発

・レコメンドシステムの研究開発

・ゲームAIの研究開発

・その他事業での人工知能(AI)技術を活用した研究開発

·

· ◆経験/能力

・chainer / tensorflow / caffe 等の深層学習フレームワークを利用した20年以上の実装経験

・高い論理的思考力

・数学的な深い知識(線形代数・統計/確率・微積分)

・自発的に周囲を巻き込み、プロジェクトを推進することができるマインド

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での5年以上の研究または実務経験

・深層学習(Deep Learning)のモデル実装経験

・自発的に周囲を巻き込み、プロジェクトを推進することができるマイン

· AI事業において、AIシステム開発チームのプロジェクトマネージャーとして、AIプロジェクトの設計、進行管理、ディレクション全般に関わっていただきます。

· ◆具体的な業務内容

· AIプロジェクトマネージャは、AIシステム部の取り組む各種AIプロジェクトに関して、事業部と期待値のすり合わせをしながらAI研究開発のアウトプットを定義し、適切に状況把握、計画調整しながら不確実性の高いAIプロジェクトを成功に導きます。また、AIシステム部メンバーの技術成長ニーズや現状のレベルを把握した上で、適切な業務アサインを通してメンバーのキャリア形成を支援します。

· ◆経験/能力

· ・システム開発におけるプロジェクトマネージメント経験

・多岐にわたるタスクを整理する管理能力

・メンバーへの指示を明確にできる高いコミュニケーション能力

・課題を解決するために必要な巻き込み力

・リスクを察知し対応策を練ることのできる危機管理能力

· ・機械学習アルゴリズムに関する研究開発経験

・機械学習アルゴリズムを用いた実サービスのプロジェクトマネージメント経験

・基本的なWEB技術力(プログラミング・DB・インフラの経験)

・システム開発グループの組織マネージメント経験

・社外ステークホルダーとの交渉経験

※各プロジェクトの規模・期間、利用経験のあるマネージメントツール、取り入れていたマネージメント手法など、プロジェクトマネージメント

JSAI人工知能学会正会員https://www.ai-gakkai.or.jp/

CiNii Articles:http://ci.nii.ac.jp/

CiNii Books:http://ci.nii.ac.jp/books/

CiNii論文:http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

科学研究費助成事業|日本学術振興会

https://www-shinsei.jsps.go.jp/kaken/index.html

科学研究助成金は事業を支援します-科学研究費-:文部科学省

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

科学庁と英国下院科学院

技術委員会(下院の科学技術委員会)

人工知能に関するブリティッシュカウンシル

Open Data Institute(ODI)

アランチューリング研究所、ケンブリッジ大学、エディンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学のEPSRC協会を含む

https://www.caai.cn/中国人工知能協会

AAA1国際人工知能協会のメンバー



2017

4

中国科学アカデミーの研究者、JSAI人工知能学会の正会員、IEEE会員、SIGIR会員、中国人工知能協会のCAAI会員、および国際人工知能学会AAA1の会員です。 ACMのメンバー、British Artificial Intelligence China ACM CAAIのメンバーChina-Britain Artificial Intelligence Associationのメンバー、一般社団法人日本ディープラーニング協会、

主な研究分野

ケンブリッジ教授OXBridgeグオロンケンブリッジ大学教授

ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家。 研究の方向性:マルチメディアテクノロジー、ディープラーニング、機械学習、コンピュータービジョン、自然言語処理、推奨システム、機械学習、データサイエンス、データマイニング

志望の動機、特技、好きな学科など

ゲーム

中国語―ネイティブ母語、英語ネイティブ母語相当、日本語―ネイティブ母語

在留資格: 日本人


職 務 経 歴 書

2020年05月08日現在

氏名 多原龍

ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家。 研究の方向性:マルチメディアテクノロジー、ディープラーニング、機械学習、コンピュータービジョン、自然言語処理、推奨システム、機械学習、データサイエンス、データマイニング。男性| 25歳ケンブリッジ大学コンピューター博士号(1995年7月21日)|現在海外在住| 10年以上の実務経験,

Professor@University of Cambridge

Email: 1500467240@qq.com

Github https://github.com/guolong70

メール:yuhong268@gmail.com

■職務要約

最近の仕事(10年8か月)

ポジション:マネジメント中国CEO / CTO&社長CTOおよび中国の社長

会社:米国のGoogle、CTO /アリババの契約企業の最高経営責任者HOC Intelligent Technology、英国ケンブリッジ大学PhDケンブリッジ大学教授、英国ケンブリッジR&Dセンターのリーダー

業種:コンピューターサービス(システム、データサービス、メンテナンス)

最高の教育/学位

専門:コンピューター

学校:ケンブリッジ大学

教育/学位:博士号

英国インテリジェント情報処理主要研究所ICF

2011年01月~2017年03月Microsoft社Computer開発、イフラン開発経験 アルバイト在籍5年

2017年3月 LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs

ケンブリッジ教授oxford大学グオロンケンブリッジ大学教授

2017年3月Alibaba Group関連HOCIntelligent Technology本社 日本向け開発 副社長・CTO

入社

現在に至る

■要約

多原龍 ケンブリッジ博士、現在はICF、インテリジェント情報処理の英国の主要研究所である博士号取得者。ケンブリッジ大学の博士課程の教師であるHOCIntelligent Technologyの創設者の1人。2017年にケンブリッジ大学を博士号を取得して卒業し、現在はケンブリッジ大学のコンピュータ学部で研究に従事しており、ケンブリッジ大学のコンピュータおよび情報システム学部の研究者および教授を務めています。彼は敵対的な機械学習、ディープラーニング、コンピュータービジョンの分野で積極的に研究を行っており、トップ会議(ICML、ICLR、CVPR、ICCV、AAAI、IJCAIを含む)で10を超える論文を発表しています。

Chinese中国科学院の研究者、JSAI人工知能協会の正会員、IEEE会員、SIGIR会員CAAI中国人工知能協会会員、AAA1国際人工知能協会会員。 ACMのメンバー、英国人工知能中国のACMコミッショナー

中国科学院の研究者、JSAI人工知能協会の正会員、IEEE会員、SIGIR会員、CAAI会員、中国人工知能協会会員。 AAA1 International Artificial Intelligence Society。 ACM CAAI会員、ACM CAAI中英人工知能協会中英人工知能協会会員、一般社団法人日本ディープラーニング協会

ケンブリッジ大学、ミシガン州立大学(パートナー:科学A.K.ジャイナアカデミー)で生体研究活動における米国のグーグル本社、GoogleのそろばんコアR&Dプロジェクトのメンバーを務めています。主な研究の方向性は、コンピュータービジョンとパターン認識、インテリジェントな生物学的知覚、医療画像分析です。 IEEE TPAMI / TIP / TIFS / TBIOM、CVPR、ECCB、NeuroPS、MICCAIなどの分野の権威ある国際ジャーナルおよび会議で50を超える学術論文を発表(筆頭著者IEEE T-PAMIの長い記事3)、Googleの学術引用が2500を超える(Hインデックス:24);国の主要なR&Dサブプロジェクト、ファンドの主要サブプロジェクト、ファンド管理、中国科学院の対外協力、企業協力など、10を超えるトピックの担当者として。研究結果は、FG2019最優秀ポスター論文賞、CCBR2018最優秀ポスター論文賞、CCBR2016最優秀学生論文賞、ICCV2015見かけの年齢認識コンテスト準優勝、ICMI2018顔面ビデオ濃度分析準優勝、NISTを受賞しました。 IEEE T-PAMI / T-IP / T-IFS / T-BIOM、CVPR、ECCV、NeuroIPS、MICCAI(筆頭著者IEEE T-PAMIロングアーティクル3)の分野の権威ある国際ジャーナルおよび会議で50を超える学術論文を発表記事)、Google Scholarは2,500回以上引用しました(H-Index:24);国家の主要なR&Dサブプロジェクト、ファンドの主要なサブプロジェクト、ファンド管理、中国科学院の海外協力および企業協力などの10を超えるトピックの担当者として。関連する仕事と技術は、カンファレンスで最優秀学生論文/最優秀ポスター論文賞を3回受賞しました(顔分析の分野で有名な国際会議FG2019の最優秀ポスター論文賞を含む)、国際コンクールで1位と2位に3回優勝しました。主にビデオ監視、継続的学習、ミクロ表現分析の研究に従事。 T / PAMI、T-IP、T-MM、その他のIEEE / ACMジャーナル、およびCVPR、ICCV、AAAIなどのトップ学術会議で30を超える記事を発表し、モノグラフを共同出版し、単一の記事に含まれるジャーナルの最高のインパクトファクター17.73。マイクロ発現分析に関する彼の関連研究は、US MIT Technology ReviewやBritish Daily Mailなどの国際的な権威あるメディアの記事によって報告されています。彼は科学技術省の主要な研究開発計画とフィンランド情報技術協会のポスドク研究資金プロジェクトを主宰しました。彼は、ACM MMおよびその他の権威ある国際会議の議長を務め、主流の国際会議で5つの特別セミナーを開催しました。 AttE2018タトゥーポジショニングおよびタトゥーポートレート認識評価チャンピオンおよびその他の多くの国際大会。コンピュータービジョンの分野のトップ会議およびジャーナルで60を超える論文を発表しました。彼は、CVPRおよびその他の会議のいくつかのセミナーの議長、ICCV2019、AAAI2019、IJCAI2020フィールド(シニアプログラム委員会メンバー)の議長、IEEE TCSVTおよびコンピュータービジョン分野のニューロコンピューティングの共同編集者です。パターン認識やコンピュータビジョンの基礎理論研究を行い、顔認識、表情認識、歩行者再認識、きめ細かな画像認識などに応用。近年では、中国国家自然科学財団や全国の主要な研究開発プロジェクトなど、10件以上のプロジェクトを主催し、IEEE TPAMI、TIP、TIFS、IJCV、PRなどの国際ジャーナル、ICCV、CVPR、ECCB、NIPS、AAAI、SIGIRなどの国際会議で論文を発表しています。 100以上の記事。彼は、CVPR、ICCV、ECCV、NeurlPSなど、トップコンピュータービジョンと機械学習の会議で60を超える論文を発表しています。彼は、2016年(チームリーダーとして)、2015年にチームの共同リーダーとして、ImageNetチャレンジのビデオオブジェクト検出(VID)トラックチャレンジで優勝しました。彼は、International Journal of Computer Vision and Neural Computingのゲストエディターです。彼の研究対象には、コンピュータービジョン、機械学習、医療画像分析などがあります。Eエモーショナルコンピューターのパイオニアであるピーターロビンソン教授の指導のもと。主な研究の方向性はコンピュータービジョンです。CVPR/ ICCV / TIPなどの会議やジャーナルで20を超える論文を発表しており、マルチモーダル感情分析のための有名なデータベースDEAPのメンテナンスを長年担当しています。彼は多数の全国的な863/973プロジェクトとEU FP7プロジェクトのコアメンバーとして参加し、コンピュータービジョンのブレークスルー、特にインタラクティブエンターテインメント、新しい小売、セキュリティ、自動車支援運転、部隊などの安全衛生業界における顔分析を積極的に推進してきました。各産業は大規模に適用されています。研究分野:インテリジェントな生物学的知覚、医用画像分析、コンピュータービジョンなども、ICML、ICLR、NeuroIPS、ECCB、KDD、AAAI、TPAMI、TNNLS、TKDEなど、多くの会議やジャーナルのプログラム委員会メンバーまたはレビューアです。彼はアデレードで開催された第32回オーストラリア人工知能合同会議(AI 2019)で敵対的な機械学習チュートリアルを提供するよう招待されました。

Education教育省の機械知能と高度なコンピューティングの主要研究所の副所長。彼は主に、大規模インテリジェントビデオ監視における歩行者ID認識とモーション分析に焦点を当て、ビデオ画像情報と信号認識と予測の研究を開発し、このアプリケーションを中心に大規模機械学習アルゴリズムと理論的研究を行っています。大規模な監視ネットワークの歩行者追跡に関して、彼は国内外でクロスビュー歩行者の再識別に関する初期の継続的な詳細な調査を実施し、クロスビュー測定学習に焦点を当てた一連の調査研究を発表し、最近では「ビッグデータと小さなアノテーション」の下での画像とビデオの分析の問題を解決しようとする、教師なしの弱いアノテーション学習モデリング。彼は12のIEEE T-PAMIおよびIJCV論文を含む120を超える主要な学術論文を発表し、他の画像認識およびパターン分類IEEE TIP、IEEE TNN、PR、IEEE TCSVT、IEEE TSMC-Bおよびその他の国際的に発表した80以上の論文を発表しています。主要な権威あるジャーナルとICCV、CVPR、AAAI、IJCAIおよびその他のコンピュータ学会は、クラスAの国際学会を推奨しています。 AVSS 2012、ICPR 2018、IJCAI 2019/2020、AAAI 2020、BMVC 2018/2019 Area Chair / SPCなどを務め、パターン認識およびその他のジャーナルの編集委員会メンバーとして活動。 IEEE MSA TCのメンバーです。彼は、国家の主要な研究開発プロジェクト、国家自然科学財団中国ビッグデータ科学センター(統合プロジェクト)プロジェクト、およびその他の5つの国家プロジェクトを主宰しました。ロイヤルニュートンシニア奨学生基金

博士課程講師、バイオセンシングおよびインテリジェント情報処理の主要研究所の次長、LiVEビジョンおよびインテリジェントラーニングチームの責任者、IEEEシニアメンバー。主な焦点は、オープン環境での転移学習、ディープラーニング、視覚分析です。 IEEE TIP / TCSVT / TNNLS / TMM / TCYB / TSMCA / TIMおよびその他のジャーナルに48の論文を発表(初版または通信)、ICCV / AAAI / ACM MM / ACCVおよびその他の会議に30を超える論文、および1英語のモノグラフ、10件の認定済み特許、多くの論文がESIの高引用論文として選択され、Google Scholarは1500回以上引用しています。 TPAMI / TIP / TNNLS / TMM / TCSVTなどの50を超えるジャーナルや、AAAI / ICLR / CVPR / ICCV / IJCAIなどの多くの会議のレビュアーを務め、中国国家自然科学財団や主要なR&Dサブプロジェクトなど、10を超えるプロジェクトを主導しています。 CCBR Best Paper Awardを受賞

彼の研究の方向性には、データのクラスタリング、ソーシャルネットワーク、および推奨システムが含まれます。彼は、IEEE TPAMI、IEEE TKDE、IEEE TCYB、IEEE TNNLSなどのトップ国際出版物や、KDD、AAAI、IJCAI、CVPRなどのトップ国際会議を含む、100人以上の学術論文を最初の著者または監督学生として発行しています。自然科学基金-優れた青少年基金、「科学技術青年トップタレント」、国立キーR&Dプログラムプロジェクト-サブプロジェクト、国立自然科学基金-一般プロジェクト、国立自然科学基金-青少年基金、CCF-テンセントサイ鳥科学研究資金を含む13のプロジェクト。教育に関しては、2013年/ 2015年にIBM /産学連携専門改革プロジェクトから資金提供されたビッグデータプラットフォーム/クラウドコンピューティングコースを受賞しました。これは、全国20の資金提供コースの1つです。彼はトップ会場(IEEE TPAMI、TNNLS、CVPR、IJCAIおよびAAAIを含む)で約10の科学論文の著者です。彼はIJCV、IEEE TNNLS、TMMのレビュアーです。彼の研究対象は、機械学習とコンピュータービジョンです。彼はできるだけ早く大規模に人々を再確認しようとしました、そして、彼の作品は社会に受け入れられました。彼は、中国人工知能協会の優秀な博士論文とWu Wenjun賞、およびオーストラリア研究評議会のDECRA賞を受賞しました。 MITの「Technology Review」は彼の研究を特集しており、そのうちのいくつかはスタンフォード大学とテキサス大学オースティン校のコンピューターサイエンスコースに選ばれました。彼はECCV 2020、AAAI 2020、IJCAI 2019、IJCAI 2020のリージョナルチェア/アドバンストPCであり、ECCC 2018、CVPR 2019、CVPR 2020でチュートリアルとセミナーを開催しました。 IEEE TCSVTの準編集者。

彼は、信頼できる人工知能ジャーナルである人工知能研究ジャーナル(JAIR、CCFクラスB SCI)の準編集者(AE)であり、IEEE TPAMI、JMLR、IEEE TKDE、IEEE TNNLS、IEEE TCYB、PRなどの数十の国際ジャーナルでもあります。レビューアのうち、KDD(2019、2020)、IJCAI(2019、2020)、AAAI(2017、2018、2019、2020)、CIKM(2019)、IEEE ICDM(2014、2015、2016、2018、2019)プログラム委員会のメンバーは、China Pattern Recognition and Computer Vision Academic Conference PRCV 2018のWebサイトの議長です。 ICDM2010(オーストラリア、シドニー)、ICDM2011(カナダ、バンクーバー)、SDM2013(米国、オースティン)、ICMLA2014(米国、デトロイト)、IEEE Bigdata2016(米国、ワシントン)、DASFAA2018(オーストラリア、ゴールドコースト)、ICDM2018(シンガポール)、BIBM2018(マドリッド、スペイン)に参加。 )、IJCAI2019(マカオ、中国)やその他の国際会議、同業者とのコミュニケーション、ORALレポートの16回作成。彼のICDM2010論文は、Best Paper Nomination Awardを受賞し、2012 Microsoft Asia Research Institute Scholar Award、2014 Chinese Computer Society Outstanding Doctoral Dissertation Nomination Award、および2019 Chinese Artificial Intelligence Society Outstanding Doctoral Dissertation Awardにノミネートされました。中国人工知能協会-パターン認識専門委員会、中国コンピューター協会-データベース専門委員会、中国コンピューター協会-コンピュータービジョン専門委員会、CCF-YOCSEF広州副会長(2018-2020)、CCF広州支部副会長のメンバーです。 (2019.3-2021.3)、CCF-YOCSEF広州議長(2020-2021)。

彼の研究分野はコンピュータービジョンと機械学習です。彼は国内および国際的なジャーナルや学会で300を超える論文を発表しており、そのうち80を超えるCCF Aタイプの論文は、Google Scholarによって16,000回以上引用されています。顔認識の研究開発の研究成果が授与されました(高次元の非線形視覚パターン分析の研究成果が授与され、視覚的多様体モデリングと学習の研究成果がCVPR2008 Best Student Poster Award準優勝を受賞しました。チームが開発した顔認識技術は、公安部門やファーウェイなど多くの製品やシステムに適用されており、優れた経済的および社会的利益を達成しています。ICCV11、ACCV12 / 16/18、ICPR12 / 14/20、FG13として招待されました。 / 18/20、ICASSP14、BTAS18、CVPR19 / 20/21およびその他の10を超える主流の国際会議のフィールドチェアパーソン現在/ IEEE TIP、CVIU、PRL、ニューロコンピューティング、FCS、および他の国際学術ジャーナル(AE)の元編集者。

direction研究の方向性は、自然シーンでの人間の行動認識、人間の骨格の抽出、ジェスチャーのモデリングと認識、アイトラッキング、感情認識、その他の関連研究を含む、ロボットアプリケーション用の人間とコンピューターの相互作用技術です。 TIP、PR、信号処理、ニューロコンピューティング、ACM MM、ICME、その他のSCIジャーナルの記事、および行動認識、感情理解、人間とコンピューターの相互作用などの研究方向に関する高水準の国際会議論文を発表direction研究の方向性は、自然シーンでの人間の行動認識、人間の骨格の抽出、ジェスチャーのモデリングと認識、アイトラッキング、感情認識、その他の関連研究を含む、ロボットアプリケーション用の人間とコンピューターの相互作用技術です。 TIP、PR、信号処理、ニューロコンピューティング、ACM MM、ICMEおよびその他のSCIジャーナルの論文、および行動認識、感情的理解、人間とコンピューターの相互作用などの研究の方向性に関する高水準の国際会議論文を発表し、20近くの発明特許を申請。国立自然科学財団青年プロジェクトおよび一般プロジェクトを主催し、多くの国立自然科学財団一般プロジェクトおよび有名企業の水平プロジェクトに参加しました。学術活動には、国際会議でのICME登録委員長、VALSE 2015会議書記長、VALSE 2018のワークショップ議長、TURC、2017、2018などでのACM SIGAI CHINAシンポジウムのプログラム議長、TURC 2019のローカル議長などがあります。 VALSEオンライン評議会のSAC議長およびACM SIGAI CHINA評議会の副事務総長を務めました。 TIP、TNNLS、パターン認識、ニューロコンピューティング、CVPR、ICCVおよびその他のレビュアー。

研究対象には、機械学習とパターン認識、特に半教師あり学習、メトリック学習、少ないショット学習、ディープラーニングなどのモデルとアルゴリズム、およびコンピュータビジョンとパターン認識における機械学習手法の適用、特に画像とビデオが含まれます。モデリング、ターゲットの検出、追跡、および人員の再識別。

彼の研究対象は、機械学習とさまざまな分野でのその応用です。現在、彼は主にディープラーニング理論と最適化アルゴリズム、強化学習と輸送、コンピューターセキュリティ、コンピューターグラフィックス、医療およびヘルスケア、その他の分野でのその応用に専念しています。彼は、NeurIPS、ICML、CVPR、ACL、IJCAI、AAAI、ECMLなどのトップAIジャーナルや会議で40を超える論文を発表しています。彼は「Alibaba Badamo Young Scholars 2019」を受賞し、トップコンピューターセキュリティ会議ACM CCS 2018から「Best Paper Finalist」を受賞しました。敵対的な機械学習、ディープラーニング、コンピュータビジョンの分野で活躍する研究者であり、ICML、ICLR、CVPR、ICCV、AAAI、IJCAIなどのトップ会議で10を超える論文を発表しました。また、ICML、ICLR、NeuroIPS、ECCV、KDD、AAAI、TPAMI、TNNLS、TKDEなど、多くの会議やジャーナルのプログラム委員会メンバーまたはレビュー担当者でもあります。彼はアデレードで開催された第32回オーストラリア人工知能合同会議(AI 2019)で敵対的な機械学習チュートリアルを提供するよう招待されました。

主な研究分野には、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家、コンピュータービジョン、マルチメディアテクノロジー、機械学習が含まれます。ケンブリッジ教授OXBridgeグオロンケンブリッジ大学

彼は、ケンブリッジ大学のコンピューターサイエンスの博士号、ケンブリッジ大学の教授、CTOを取得しています。最先端技術のリーダー。 AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、量子人工知能、その他の最先端技術

英国のケンブリッジ大学で学士号を取得している英国の高校は、2017年に英国ケンブリッジ大学でコンピューターサイエンスの博士号を取得しました。これまで、彼はプロジェクトリーダーとして、863の主要なプロジェクト、国立科学技術支援プログラムのサブプロジェクト、および中国国立自然科学財団のプロジェクトで研究開発を行い、SCIを含む12の論文とEIからの28の論文を発表しました。 。 29件の記事を収集し、複数の発明特許を取得しました。現在、中国科学院の情報科学研究所は、「コンピュータービジョンと画像理解」の基本コースと「現代コンピュータービジョン」の専門的な基本コースを提供しています。 Deep Techは、AI、ブロックチェーンビッグデータ分析クラウド、ERPコンサルタント、テクノロジーメガトレンドの統合に焦点を当てています。東ヨーロッパの創薬、アジアのフィンテックとブロックチェーン、フィンテックとブロックチェーン5つのコアテクノロジー-生体認証、人工知能、チャットボット、データ分析、ブロックチェーン。 4つのサブセクター:ローン、支払い、貯蓄、保険。高度な生物医学に関連する特別なケーススタディを実施します。データサイエンスとAIは、予測分析の特定の方法を強化します。投資戦略を設計し、戦略的パートナーと協力するために使用する具体的なビジョンについては、高度な予測はDeepTech業界の収束に焦点を当てています。学界、製薬会社、AI会社の研究科学者、臨床医、技術者。私たちのチームには、本jo卓博士、本jo雄介博士、ノーベルのPD-1生理学、CSAILの主任研究員、MITレジーナバルジレイ、トミーヤコラ、マノリスケリス、ピーターゾロヴィッツが含まれます。

人工知能部門を率い、副社長が人工知能製品センターを率いる。彼は最初のフル機能のDMS、スマートセンサーシステム、および他の多くのAI製品を量産車に納入しました。彼は米国ワシントン州レドモンドにあるMicrosoft Researchで研究者として働いていました。彼の専門分野は、コンピュータービジョン、イメージングシステム、人間の行動の理解と生体認証、および自動運転です。 2018年には、オーストラリア研究協議会の早期発見専門研究者賞を受賞しました。2回目のLIPチャレンジでは、人間の分析軌跡が1位になりました。2016年には、2016年にCIE Outstanding Doctoral Dissertation Awardを受賞し、2014年にはILSVRCは、オブジェクト検出タスクの最初の場所を獲得しました。彼は、CVPR 2019と2020の不完全なデータ(LID)、ICCV 2019の低品質の画像とビデオからの現実世界の認識(RLQ)、およびCVPR 2019の人(LIP)からの学習について組織しましたセミナー。主に機械学習技術を適用して、オブジェクト検出やセマンティックセグメンテーションなどのコンピュータービジョンの問題を解決します。

主な研究の方向性は、UAVビジョンと計量学習です。現在、彼は科学技術部、中国国家自然科学財団、天津科学技術委員会および企業の10以上の主要プロジェクトを主催し、参加しています。 。機械学習とコンピュータービジョンに関連する国際会議やジャーナルで70を超える論文を発表しました。近年は、UCV2018、ICCV2019、ECCV2020 UAVビジョンセミナーの責任者を務め、浙江省自然科学一等賞、江蘇省自然科学一等賞を受賞した。

彼の研究対象は、特に顔認識の分野で20年以上の研究経験を持つ、顔認識を典型的なケースとして使用するコンピュータービジョンと機械学習の理論、方法、および主要技術に焦点を当てています。近年、顔ベースの感情コンピューティング、インテリジェントな監視指向のビデオ構造化、およびドローン指向のビジュアルコンピューティングにも特別な注意が払われています。理論レベルとアルゴリズムレベルでは、彼とチームは非常に豊富な機械学習、特にディープラーニング研究の経験があり、Xデータ駆動型の機械学習の理論と方法に特に注意を払っています。ここでのいわゆるXデータには、小さなデータ、教師なしデータ、半教師ありデータが含まれます。 、弱い監視データ、ダーティデータ、拡張データなど。

ビジョンと学習青少年セミナー(VALSE)の共同主催者、VALSE運営委員会の最初のローテーション委員長、VALSEウェビナーイベントの共同主催者、および最初のオンライン組織委員会の委員長。 VALSE2019(ヘフェイ)の参加者数は5,000人を超え、VALSEウェビナーのピーク参加者数は1,800人に達し、中国のコンピュータビジョンの分野で最も影響力のある学会の1つになりました。

個人的な関心として、彼は認知神経科学と脳科学の進歩に深く関心があり、生物学的視覚の本質的な問題と視覚コンピューティングへの脳神経科学のインスピレーションについて考え、話し合って喜んでいます。

埋め込み下層開発における6年以上の実務経験。

C C、VC ++、アセンブリ言語に習熟しており、独立してDSPドライバー、ARM Linuxドライバーの開発を完了することができ、I2C、SPI、UART、FLASH、DDR3、CF、GPIO、PWM、USB、WIFI、4G、イーサネット、その他の周辺機器ドライバーに習熟している開発とアプリケーション;複数のDSP、Power PC、ARMハードウェアプラットフォームドライバーの開発経験がある、階層型アーキテクチャと開発方法に精通していること。CIS、磁気センサー、厚さセンサー、カメラ、その他のセンサードライバーの実装とデータ収集に精通していること。V VxworksおよびLinuxプラットフォーム開発における豊富な経験は、ubootブートロード、Linuxカーネルの適応およびその他の移植作業を個別に完了することができます。豊富な経験、強力なコミュニケーション、論理的分析能力、学習能力、独立した問題解決能力を備えた、ソフトウェアソリューションアーキテクチャを独立して完了する能力。

■教育経験と学術研究経験

ケンブリッジ大学博士号

Intelligence Leverhulme Center for the Future of Intelligence、LCFI http://www.lcfi.ac.uk/英国LCFI研究所、Top Research Institute、チーフサイエンティスト

Cambridgeケンブリッジ大学でコンピュータサイエンスの博士号を取得、ケンブリッジ大学教授、最高技術責任者。最先端のテクノロジーリーダー。 AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業用ソフトウェア、コアアルゴリズム、ニュートリノ、量子人工知能およびその他の最先端テクノロジー。

高校で英国に留学し、ケンブリッジ大学で学士号と修士号を取得し、2017年にケンブリッジ大学でコンピューターサイエンスの博士号を取得しました。これまでのところ、プロジェクトリーダーとして、863件の主要プロジェクト、国家科学技術支援プログラムのサブプロジェクト、中国国家自然科学財団のプロジェクトで研究開発を行い、SCIを含む12件の論文とEIの28件の論文を発表しています。 。 29件の記事を収集し、複数の発明特許を取得しました。現在、中国科学院の情報科学院は、基礎コース「コンピュータビジョンと画像理解」と専門的な基礎コース「モダンコンピュータビジョン」を提供しています。 Deepin Technologyは、AI、ブロックチェーンビッグデータ分析クラウド、ERPコンサルタント、テクノロジーメガトレンドの統合に焦点を当てています。東ヨーロッパでの創薬、アジアでのフィンテックとブロックチェーン、フィンテックとブロックチェーン。5つのコアテクノロジー-バイオメトリクス、人工知能、チャットボット、データ分析、ブロックチェーン。 4つのサブセクター:ローン、支払い、貯蓄、保険。高度な生物医学に関連する特別なケーススタディを実施します。データサイエンスとAIは、予測分析の特定の方法を強化します。投資戦略の設計と戦略的パートナーとの連携に関する具体的なビジョンについては、高度な予測はDeepTech業界の統合に焦点を当てています。研究者、研究者、学者、製薬会社、AI企業の技術者。私たちのチームには、本庄タスク博士、本庄祐介博士、ノーベル生理学のPD-1、CSAILの主任研究員、MITのレジーナバルジレイ、トムミジャコラ、マノリスケリス、ピーターソロヴィッツが含まれます。

主な研究分野は、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家であり、担当者は、863の主要プロジェクト、国家科学技術支援プログラムのサブプロジェクト、中国国家自然科学財団の一般プロジェクトの研究開発を行っています。 SCIの50論文、EIの60論文、ISTPの129論文、225の発明特許を含む、510を超える科学研究論文を発表。たとえば、コンピュータビジョン、マルチメディアテクノロジー、機械学習、清華大学の教授。技術的メガトレンドとの統合、主要な分析手法は政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水道、ネットワーク、製薬で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI外科ロボットAI質問誤診AIロボット葬儀なしVR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会と江蘇省および浙江省の人民政府がカテゴリーAの最優秀賞を受賞しました。偉大な健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリーAの最優秀賞を受賞しました。

主な研究分野は、コンピュータビジョン、ビッグデータブロックチェーン、自然言語処理です。アリババグループのチーフテクニカルエキスパート

AI AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)技術の1つ)によって発明されたラグビー5Gテクノロジー。ディープラーニングと組み合わせたラグビーゲーム分析システムが開発されました。AIの経過時間を測定するために、カメラで人体の動きを撮影します。体の姿勢と動き、AIガイド5Gテクノロジーデータマイニング、人工知能:1、ネットワーク分析(ソーシャルネットワーク)2、データクラスタリング3、医療データ処理4、推奨アルゴリズム5、精密教育

清華大学の機械学習教授。テクノロジーメガトレンドとの統合、最先端の分析テクノロジー、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーク、農業用医薬品、小売、製造、輸送、スポーツ、航空宇宙、広告、モノのインターネット、ICT、その他の産業。ケンブリッジ大学のA教授、清華大学のコンピューターサイエンスの客員教授、江蘇省の中国科学技術大学の客員教授が主催する客員教授が、バイオ医薬品、医療機器、インテリジェントメディシン、ヘルスケアなどの大規模医療業界の最優秀賞を受賞しました。カテゴリーAで最優秀賞を受賞。 ERPブロックチェーンクラウドテクノロジーのビッグデータ人工知能関連分野(人工知能のさまざまな分野を含む音声処理の分野に限定されない)は、特許製品の競争、Ali、Tencent、Huaweiなどの契約で最高の賞を受賞し、多くの契約に達しました。 AI x 5Gが主流の支払い方法になりました、WYSIWYG、短いビデオAIアニメーションx 5G、AR VRおよび3D、スマート運転、金融、5G遠隔医療5G AI医学、スマート運転、スマートビジネス、スマートビジネス、スマート医療、公安5Gロボット、5G材料、半導体、スポーツ、エンターテインメントなどのテクノロジーは、主流のテクノロジー、分離と精製、革新的な医薬品、バイオテクノロジー、チップデザイン、量子ドットディスプレイ、マルチタッチ、ナノスフィア、低炭素ナノ材料インテリジェント運転、インテリジェント製造、ロボット技術、インテリジェント医療のグローバルキーテクノロジー。顔と体の分析技術、SLAMと3Dビジョン、一般的および専門的な画像認識、ロボット制御とセンシング、大規模なビデオの理解とマイニング、医用画像分析を強化するための画像とビデオ処理、人工知能コンピューティングプラットフォーム、人工知能スーパーコンピューティングプラットフォーム、自己開発トレーニングフレームワーク、高性能異種コンピューティングソフトウェアとハ​​ードウェアを組み合わせることによる人工知能高性能ストレージ、高性能、低コスト、低消費電力のエッジ人工知能チップとソリューションの開発とパートナーの開発。インテリジェントな運転とAIoTのために、超高コストパフォーマンス、高いエネルギー効率、オープンツールチェーン、豊富なアルゴリズムモデルサンプル、および包括的なアクティベーションサービスを備えたエッジツーエッジAIチップを提供できます。現在、革新的な人工知能専用コンピューティングアーキテクチャに基づくBPU(Brain Processing Unit)が正常にストリーミングされています。中国初の最先端人工知能プロセッサ-インテリジェント運転に焦点を当てたシステムとAIoTに焦点を当てたシステム。そして、大規模に商品化されました。中国人工知能協会、ブリティッシュサイエンスカウンシルのメンバー、ブリティッシュ衆議院の科学技術委員会、ブリティッシュ衆議院(科学技術委員会)のメンバーブリティッシュカウンシルオープンデータインスティテュート(ODI)アレンチューリング人工知能研究所、ケンブリッジ大学、エディンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学EPSRC協会を含む

京都大学の特別客員准教授、奈良先端科学技術大学院大学の客員准教授。 2017年から2019年まで、京都大学文部科学省の公共安全分野における主要な産学共同研究プロジェクトの特別研究員を務めた。奈良先端科学技術大学とCMUが共同で設立した国際ロボットとビジョンの共同研究研究所の特別助教授と実際の研究室の責任者を務めた。 10を超える国内および国際協力プロジェクト(973、863、基金の主要な研究計画、文部科学省の戦略的推進料の主要プロジェクト、および国家基金委員会を含むその他の主要なトピックを含む)の詳細な参加または主宰プロジェクト、主要プロジェクト、文部科学省、科学技術省の青年プロジェクト、日英二国間協力プロジェクト、マイクロソフトアジア研究所が支援するプロジェクトなど)は、英語の論文の60を超える二重盲検レビュー(トップミーティングの10を超える論文を含む)を発表しました。 。研究の方向性は、主に画像またはビデオに基づくコンテンツ理解に焦点を当てています。現在行われている研究には、人の特定、人と人と機械の間のコミュニケーションと相互作用の視覚的理解、人と人のポーズの推定、動作認識、および行動予測が含まれます。その中で、最初のグローバルオープンチャレンジでは、手のジェスチャーが手と体の相互作用の単一のチャンピオンを獲得すると推定されています。 ICPR 2018 Piero Zamperoni Best Student Paper AwardおよびAutoML2018 Workshop Best Paper Awardを受賞した、学生を訪問する仕事。

AI AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業用ソフトウェア、コアアルゴリズム、ニュートリノ、政府/ローカルに最適政府の最先端技術教育/医療/ヘルスケア、金融、製造、ロジスティクス、通信/放送、建設/不動産、電気/ガス/水、ネットワーク、製薬、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、モノのインターネット、ICT、その他の産業

IEEE、NIPS、ICML、COLT、CVPR、ICCV、ECVC、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJは100回以上公開されています。

人工知能とディープラーニングの分野のリーダーであり、英国(Google)研究所のCTOであり、40以上のアルゴリズム研究チームを率い、300以上の特許を蓄積しています。 1980年代以来、彼は無人自動車と医療ECG支援診断の分野で人工知能の関連研究に従事してきました。 1992年にシンガポール松下研究所に入社し、オーディオおよびビデオ信号処理と圧縮アルゴリズムの設計と応用に従事し、その後画像認識の分野の研究に注力。 2013年には、チームをディープラーニングにシフトすることで主導的役割を果たしました。彼は、ディープラーニングとコンピュータービジョンの分野で目覚ましい成果を上げました。彼は、コンピュータービジョンのフルスタックの技術的能力と、複数のアプリケーション分野にわたる技術を持っています。そして、認識、歩行者の検出と追跡、歩行者の再認識、車両の認識、自動運転、運転者の行動の検出、モバイル操作ロボットなどの分野は、世界クラスの結果を達成しています。 2019年3月、シェンシェンメイは国内のAI企業であるPengsi Technologyにシンガポール研究所の主任科学者兼学部長として入社し、監視とセキュリティ、スマートシティ、自動運転、インテリジェントロボット、AIファクトリオートメーションの分野における関連技術の研究に専念しました。 。 2019年、シェンシェンメイはPengsi Singapore Research Instituteを率いて、顔認識、歩行者の再識別(Person ReID)、車両の再識別(Vehicle ReID)および異常を含む13のコンピュータービジョンテクノロジー関連の世界選手権で優勝しました行動検出(異常検出)およびその他のコンピュータービジョンテクノロジーの多くの分野。

英国のICF研究所のパターン認識の英国国家鍵研究所の研究者、およびコンピュータービジョンの上級研究者。博士課程講師、南京人工知能チップ革新研究所の副社長。 2017年にケンブリッジ大学でコンピューターサイエンスの博士号を取得し、2017年に中国科学院のオートメーション研究所でパターン認識とインテリジェントシステムの博士号を取得しています。現在は主にディープラーニング、画像・動画コンテンツ分析、人工知能チップ設計などに携わっており、関連分野で100以上の学術論文を発表、英語で2編編集しています。関連する業績は、中国科学院の陸家渓ヤングタレントアワード、中国科学院青年振興協会の優秀会員賞(中国電子工業自然科学大賞、文部省自然科学第2賞、中国画像およびグラフィックス社会科学技術大賞)を連続して受賞しています。 IEEE、ACM、CCFなどの国際および国内の学術機関のメンバーであり、中国自動化学会のパターン認識委員会の副事務総長を務めています。現在は、国際ジャーナルのパターン認識、IET Computer Visionの編集委員、2010 ICICCS国際会議およびHHME 2010の議長を務めています。 CCPR 2012パブリッシングチェアマン、ICIG 2019特別セッションチェアマンの組織化会長。

彼の研究の方向性には、データのクラスタリング、ソーシャルネットワーク、推奨システム、および医療データ処理が含まれます。彼は、IEEE TPAMI、IEEE TKDE、IEEE TCYB、IEEE TNNLSなどのトップ国際出版物や、KDD、AAAI、IJCAI、CVPRなどのトップ国際会議を含む100を超える学術論文を発表しています。 2019日中人工知能学会優秀博士論文賞を受賞し、権威ある人工知能ジャーナルであるJournal of Artificial Intelligence Research(JAIR)の共同編集者(AE)です。中国人工知能協会-パターン認識専門委員会、中国コンピューター協会-データベース専門委員会、中国コンピューター協会-コンピュータービジョン専門委員会、CCF-YOCSEF副会長(2018-2019)、CCF支部副会長(2019.3 -2021.3)。

国立研究開発法人理化学研究所人工知能プロジェクト(RIKEN AIP)の科学者であるデータ分析・人工知能研究所のメンバー。主な研究の方向性は機械学習とディープラーニングです。香港バプテスト大学に入学する前は、日本物理化学研究所の人工知能プロジェクトで博士研究員を務めていました(杉山正教授シャンシャン教授のチーム)。ノイズデータ(ラベルとサンプル)の強力なディープラーニング手法の開発を担当しており、その結果は、2019年に最高の成果を収めた理化学研究所賞を受賞しました。 。彼は、機械学習のトップ会議(ICML、NeurIPS、AISTATS、ICLR)およびトップジャーナル(JMLR、TPAMI、MLJ)の長期サービスのプログラム委員会メンバーおよびレビューアを務め、NeuroIPS’20のエリアチェアに選出されました。

近年、ディープラーニングは、画像分析、音声認識、自然言語処理などの多くの問題で急速な進歩を遂げており、多くのインテリジェントシステムやアプリケーションで不可欠なキーテクノロジーになっています。ディープラーニングモデルのパフォーマンスが向上し続けると、計算の複雑さとリソース消費も増加します。これは、特にリソースが限られているエッジエンドデバイスでのネットワークモデルの展開に大きな課題をもたらします。これらのネットワークモデルを効率的かつ効率的に計算する方法が重要な問題になっています。このレポートでは、定量的学習の観点からディープニューラルネットワークモデルの効率的な計算を紹介します。最初に、量子化学習に基づくモデル圧縮と加速方法を紹介し、次にオペレーターレベルの加速に基づく量子化エンジンを紹介し、最後に量子化計算に基づいたアーキテクチャとチップを紹介します。

現在、ケンブリッジ大学のコンピュータサイエンススクールの教授(生涯講師)です。英国国立情報通信技術研究所は、オックスフォードケンブリッジICF研究所のコンピュータービジョンチームで働いています。現在、統計的機械学習とコンピュータービジョンの研究に従事しています。彼は多くの科学研究プロジェクトの議長を務めており、重要な国際学術雑誌や会議で120を超える論文を発表しています。アソシエイトエディターとして活躍したジャーナルには、パターン認識、ニューラルネットワーク上のIEEEトランザクション、学習システムなどがあります。彼は重要な国際学術会議(ICCV、CVPR、ECCBなど)のプログラムメンバーを何度も務めています。彼はケンブリッジ大学の高校で学士号を、コンピューター人工知能の博士号を取得しています。 2016年には、オーストラリア研究評議会からフューチャーフェローシップが授与されました。

主な研究の方向性は、機械学習とコンピュータビジョンです。 2017年に英国ケンブリッジ大学で医用画像解析研究を実施し、NIPS、CVPR、ICCV、AAAI、IJCAI、その他のCCF-A会議、IEEEトランスジャーナル(IEEE T-PAMIを含む)などの国際会議やジャーナルで70を超える論文を発表しました。 / T-IP / T-NNLS / T-CYB)35の論文、多くのCVPR、NIPS論文が口頭論文とスポットライト論文に選ばれました。国立自然科学財団青年プロジェクトおよび一般プロジェクト、天津自然科学基金一般プロジェクトを主宰。 IJCAI、AAAI、CVPR、ICCVおよびその他の会議のプログラム委員会メンバーまたはレビューアを務め、中国機械学習会議(CCML 2017)のローカル組織の議長、および国際ジャーナルIEEE T-PAMI / T-IP / T-NNLS / T-CYBを務めたレビュアー。

主にマルチモーダルデータのコラボレーションコンピューティングに関する研究に従事。中国国家自然科学財団や科学技術部の「863」プログラムなど、20を超えるトピックの議長を務めています。26の発明特許を取得し、IEEEを含む世界クラスのジャーナルや主要な国際会議で80を超える論文を含む100を超える学術論文を発表しています。 TNNLS、TIP、TCYB、ICML、NIPS、ICCV、CVPRなどGoogle Scholarによる2,200回以上の引用、18人の研究者/中国、米国、英国、その他の国からのフェローは、彼の研究成果を引用し、肯定的なコメントをしました。研究成果は、国家自然科学賞(2016年、3番目の達成者)の2等賞、陝西省科学技術賞(2011、2015、3番目の達成者)の2等賞、および教育省自然科学賞の1 2等賞を受賞しました(2013)。

学術成果:TPAMI、TIP、CVPR、ICCV、AAAIなどのCCFクラスA学術会議など、IEEE / ACMジャーナルに30を超える記事が公開されました。 Google Scholarによって公開された記事は1,200回以上引用されており、1つのジャーナルの最高のインパクトファクターは17.73です。マイクロ発現分析に関する関連研究は、MIT Technology ReviewやBritish Daily Mailなどの国際的な権威あるメディアが発表した記事に記載されています。科学技術部の主要な研究開発プロジェクトを主宰し、フィンランド情報技術協会のポスドク研究資金プロジェクトおよびフィンランド科学アカデミーのICT2023特別プロジェクト(共同ホスティングを含む)をホストし、フィンランド科学アカデミーの資金プロジェクトおよび中国国家自然科学財団プロジェクトに参加しました。教育と学生のトレーニング:7人の大学院生のトレーニングと共同トレーニングを行い、「ディープラーニングとその応用」や「感情コンピューティング」などのコースを教えました。アカデミック:IEEE / IEEE-CS / AAAI / CCFメンバー、IEEE T-PAMI、T-IP、T-NNLS、T-CYB、T-CSVT、T-MM、Springer IJCV、Elsevier Pattern Recogとして何度も招待されています。その他の重要な国際学術ジャーナル、IEEE ICCV、IEEE CVPR、AAAI、ACM MMおよびその他の重要な国際学術会議、プログラムの議長またはレビューア、および国際ジャーナルのパターン認識(2017)およびニューロコンピューティング(2017)から優れたレビューを取得寄稿者のタイトル。 5つのテーマ別セミナー(CVPR20、FG18-20、ACCV16)を国際的なカウンターパートとの主流の国際会議で開催し、Springer SIVPジャーナルのゲスト編集委員会および多くの国際会議/テーマの支部議長を務めたプログラム委員

2019 2019年7月に中国に帰国して以来、Guolong教授は、国立自然科学財団の青少年プロジェクトや江蘇省の新世代人工知能キーR&Dプロジェクトなど、多くの重要なプロジェクトを統括してきました。 Tan Mingkui教授は、機械学習とディープラーニングに関する研究に従事しており、ディープニューラルネットワークの構造最適化と理論的分析において一定の研究基盤を持っています。近年、作品または対応する著者によって完了された関連する成果は、NIPS、ICML、ACML、AAAI、CVPR、IJCAIなどの人工知能国際会議や、IEEE TNNLS、IEEE TIP、IEEE TSP、IEEE TKDE、JMLRなどの人工知能信頼できるジャーナルに公開されています。 。彼は国家戦略と人工知能の主要なニーズに直面し、模倣イメージング、脳のような認識、および脳のような評価に関する理論的および応用的研究に長い間従事してきました。国立自然科学財団、軍事科学技術委員会の国家防衛科学技術革新プロジェクト、教育省の合同基金の若手人材プロジェクトなど、多数の国家プロジェクトを主催しました。情報処理システムと配信。 40を超えるSCIソースジャーナルの論文を含む60を超える関連する学術論文(40を超える筆頭著者)を発表しており、そのうち3つはESIの高引用論文として選ばれました。

Guolong、Ph.D.、Haniuqiao Intelligent Technology Nanjing Research Instituteの学部長、南京大学の学生起業家の講師、主な研究分野はコンピュータービジョンと機械学習、IEEE TPAMI、IEEE TIP、IEEE TNNLS、機械学習などの関連分野のトップジャーナルJournalおよびCVPR、ICCV、IJCAI、ICDM、ACCVなどの他のトップカンファレンスは20を超える論文を発表し、チームをiNaturalist、Apparent Personality Analysisなどの国際的な権威あるコンピュータービジョンコンペティションで3つの世界選手権に勝ちました。重要な国際会議PRICAI 2018およびICME 2019での「細かい画像分析」というタイトルの組織化されたチュートリアル。 「Analytic Deep Deep Learning-Principles and Visual Practice of Convolutional Neural Networks」の著者。 CVPR 2017の最優秀レビュアーおよび博士課程学生のための南京大学学長の特別奨学金として表彰され、ICCV、CVPR、ECCB、NIPS、IJCAI、AAAIおよびその他の国際会議のPCメンバーを務めました。 NEC USシリコンバレーラボラトリーは研究に従事しています。研究の方向性は、大規模なマルチメディア情報の検索とコンピュータービジョンであり、歩行者の再認識、きめの細かいオブジェクト認識、およびシーン理解の研究に焦点を当てています。彼は、IEEE T-PAMI、TIP、TMM、ICCV、CVPR、ACM MM、AAAI、その他の権威ある国際会議などの権威ある国際的なジャーナルに、最初の/対応する著者として50を超える論文を発表しています。 、中国コンピュータ社会の優秀な博士論文、中国科学院の優秀な博士論文、マイクロソフト奨学生賞など中国国家自然科学財団、主要な研究開発計画の栽培プロジェクト、国家の主要な研究開発計画、その他のプロジェクトを主宰しています。

主な研究対象は、カーネルアルゴリズム、マルチビュークラスタリングアルゴリズム、特徴選択アルゴリズムなどです。 90を超える論文と46のSCI(IEEE T-PAMI、IEEE T-KDE、IEEE T-IP、IEEE T-IFS、IEEE T-NNLS、IEEE T-Cyber​​netics、IEEE Tを含む17のIEEEトランザクションを含む)を発行-MMなど)、中国のコンピュータ協会によってClass A会議の論文として指定された23の論文、Google Scholarは1,600回以上引用し、3つの論文がESIコンピュータサイエンス分野の上位10%に参加しました。彼は、AAAI 2016-2019、IJCAI 2016-2019、NIPS 2016-2018、およびAAAI 2020上級プログラム委員会のプログラム委員会のメンバーを務めました。国立自然科学財団青年基金、一般プロジェクト、および優秀青年基金のそれぞれを1つ主催し、研究結果は浙江省自然科学の最優秀賞を受賞しました。

VALSEはACおよびCASIG-BVD委員会メンバーを実装します。主な研究分野は、深層学習、パターン認識、コンピュータービジョン、マルチメディア分析であり、特に、無制限/大規模/小規模サンプル/不均一/セットベースの顔認識、深い対立学習に基づく画像生成、超解像、知識抽出、(非)インスタンスレベルの細かい文字分析に基づくモデル圧縮。現在、3つの主要なR&Dプロジェクト(ランキング1/3/5)に着手/参加しています。 T-PAMI、IJCV、T-IP、NeuroIPS、CVPR、IJCAI、ECCV、ACM MM、AAAI、BMVC、WACV、およびこの分野の他の権威ある国際的なジャーナル/会議で30を超える学術論文を発表し、単一の影響度が最も高い17.73でした。関連する作品が、シンガポールのパターン認識および機械知能協会PREMIA 2019 Lee Hwee Kuan Award(ゴールドアワード)を受賞しました。これは、国際マルチメディア分野のトップカンファレンスであるACM MM 2018 Best Student Paper Award、ICCV 2017 MS-Celeb-1Mの大規模顔認識コンテストハードセット/すべてのタスクのランダムセット/低ショット学習チャンピオン;すべてのタスクのCVPR 2017 LIPコンテストの文字分析と文字ポーズ推定の次点者;国立標準技術研究所NIST 2017 IJB-A制限なしの顔認識競争の顔認証と顔識別すべてのミッションのチャンピオン。 IJCV、T-MM、T-IFS、T-CSVT、ニューロコンピューティング、NeuroIPS(NeurIPS 2018上位30%の最高レビューア)、CVPR、ICCV、ECCB、ACM MM、AAAI、ICLR、ICML、UAIなどとして機能します。主流の国際ジャーナル/会議の招待査読者。

985 ケンブリッジ修士号、ソフトウェア専攻、確固たる理論と技能準備、卒業後のソフトウェア開発に従事、AMD、クアルコム、ザイリンクスなどの有名企業での仕事、現在はザイリンクス中国チームの最初のAIソリューションのシニアテクニカルエキスパート

Linux Linuxシステムソフトウェア開発に精通し、コアアップストリームサブミッションを提出している。この段階では、マシンビジョンにおけるディープラーニングテクノロジーの適用に焦点を当てています。 Caffe / Tensorflow / Keras / Pytorchフレームワークモデルの導入経験(ザイリンクスプラットフォーム、Nvidia GPU / Jeston Nano)、および基本モデルの再トレーニング機能を備えています。英語は使用言語として使用できます。豊富で豊富な技術開発経験に裏打ちされた優れた技術営業能力。

強み経験技術力

Linuxカーネルとドライバーの開発。Linuxカーネルドライバーの開発とX86およびARMプラットフォームに基づくデバッグの豊富な経験があります。V V4L / DVBオープンソースビデオドライバーフレームワークとALSAオーディオドライバーフレームワーク、FFMpeg / Gstreamerオーディオとビデオアプリケーションフレームワークに精通していること。USB USB / PCI /イーサネット/ I2C / ACPIドライバーおよび関連プロトコルに精通しており、ネットワーク、TCP / IP、AVB、DPDK、

Linux環境プログラミング、C / C ++ / Shell / Pythonアプリケーションプログラミングの経験、git / subversion / perforceなどのマスターバージョン管理ツール、Yocto / buildrootに精通していること。オープンソースコミュニティと関連する開発プロセスに精通しており、Linuxカーネルのアップストリーム開発の経験がある(xHCI / ACPIなど)ザイリンクスfpga socプラットフォームとツールセット、および組み込みソフトウェアスタックに精通している。マシンビジョン関連(CNN / OpenCV / Tensorflow / Caffe / Pytorch)

その他の基本的な専門スキル

C / C ++ / Python /シェル/ Gdb / Git

U-boot / FreeRTOS

Yocto / Buildroot

QT / FFMpeg / GStreamer

Docker / Xen / KVM

FPGA HLSプログラミングとIPI設計

ザイリンクスツール(Vivado / SDK / SDSoC / Petalinux / DNNDK / xfDNN)

AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、政府/地方自治体に適しています最先端の技術教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水道、ネットワーク、医薬品、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、物理インターネット、ICT、その他の産業

IEEE、NIPS、ICML、COLT、CVPR、ICCV、ECVC、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJは100回以上公開されています。

強み経験

世界のトップ500企業で10年の経験があります

私の利点と経験:

米国のITおよびインターネット国際企業上位500社で10年の実務経験があります。

その中で、私は世界のトップ500のITおよびインターネット国際企業、蓄積された顧客、連絡先、リソース、および効率的な運用管理における10年の経験と経験があります。

私は、中国の会社のCEO / CTOおよび社長(リーダー)として10年間の経験があり、600人以上のチームがあり、中国の企業の指導、管理、運営において幅広い経験があります。

私は10年のマーケティング経験があり、販売、マーケティング、チャネルチームの100人以上の人々が中国市場を開拓し、ビジネスを拡大してきました。

私は、米国の上位500のITおよびインターネット企業の管理概念、管理モデル、管理プロセス、および管理方法を学び、借用し、吸収し、中国の従業員の特性と組み合わせて、中国の企業のビジネス戦略の発展のニーズを満たす一連の管理方法を実践、要約、および最適化しましたそして、企業の全体的な開発経験を効果的に把握する方法。

私は、強力な操作性と強力な実行力を備えた企業戦略と戦術を開発する方法を学びました。

私は、前向きでハイエンドな優れた意思決定スキル、および鋭い洞察力と鋭いビジネス洞察力を磨く方法を学び、蓄積しました。

表現力、親しみやすさ、判断力、意思決定力、企画力、交渉力などの経験を積み、積み上げてきました。

私はチームを効率的に、協調して作業するように指導、呼び出し、要約し、動機づける方法を学びました。

10年間の仕事で、私は毎年優れた仕事のパフォーマンスを達成しています:

米国が出資した世界で最初の500のITおよびインターネット国際企業

完了パフォーマンス:2017-現在:1000万/年から5億/年

私が働いている2番目のフォーチュン500 IT&インターネット会社で、イギリスの中国の会社のチームを率いています。

完了した実績:2012-2017:5500万/年から6億/年

世界をリードする海外のOracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、その他の有名な国内外のITおよびインターネットメーカーの先進的な製品、テクノロジー、および将来の製品テクノロジー開発動向を学び、蓄積してきました。知識

以下の業界でのビジネス開発で蓄積した業界経験と豊富な顧客リソースを持っています。

フォーチュン500企業

特大、大規模の国内および外国製造企業(外資企業、中外合弁企業、中央企業、国営企業、民間企業)

金融(銀行、証券、保険)

テレコム(通信、モバイル、Unicom)

政府、教育、医療およびその他の産業

私は、ITとインターネットのトップメーカー、業界シス​​テムインテグレーター、国内外の有名なトップ500企業などの戦略的パートナーとの利点の補完、完全なコラボレーション、および詳細な協力における経験を学び、蓄積してきました。

私は謙虚で有能で正直であることの資質を蓄積することを学びました。

Professional Experience Management China CEO / CTO&President CTO and President of China

2012 / 01-現在のアリババ契約企業HOC Intelligent Technology Co. Ltd.(10年)

コンピューターサービス(システム、データサービス、メンテナンス)| 500〜1000人|外資(ヨーロッパおよびアメリカ)|フルタイム

経営中国CEO&CTOPresident中国CEO CEOおよびCTO社長

仕事内容:2012/1-現在:アリババ契約企業Haniuqiao Intelligent Technology Co. Ltd.

ポジション:中国CEO&社長中国CEO&社長

会社概要:

Alibabaの契約会社であるHOC Intelligent Technologyは、IT製品の販売、コンサルティング、実装、およびサービスを提供する会社です。この会社は、Oracle、Microsoft、SAP、IBM、EMC、HP、DELL、Ciscoなどの上位500社のグローバルトップ企業をまとめています。 IT&インターネット企業は、上級マネージャー、ビジネス開発担当者、豊富な実務経験を持つ技術エリートで構成された企業に加わり、中国企業は杭州にあり、ヨーロッパ、イギリス、日本、中国の上海に支社があります。

同社の主な事業:

同社は米国オラクル社のグローバル戦略パートナーです。同社の主な事業は、Oracleデータベース、ミドルウェア、ERP、CRM、SCM、HRM、BPM、EPM、APM、PLM、BI、インターネット、ビッグデータ、Oracleクラウドコンピューティング(DaaS)です。 、IaaS、PaaS、SaaS)AI(人工知能)の幅広い製品と、Microsoft、SAP、IBM、EMC、HP、DELL、Ciscoおよびその他の分野に基づくITおよびインターネット製品により、米国、ヨーロッパ、中国の顧客に最高のITおよびインターネットシステムソリューションのコンサルティング、実装、サービス...

中国企業の従業員数:600人以上

勤務地:上海南京杭州

私の仕事:会長への報告(BOSS)

私の直属の部下30名:セールス&マーケティング担当副社長、テクノロジー担当副社長、人事管理担当副社長、財務担当副社長

私の責任:

1.本社の取締役会から完全に承認され、中国企業の日常の運営と管理を全面的に主導し、すべてのタスクに対して全体的な責任を負う。

2.中国企業の年間事業開発戦略、事業開発戦略、事業開発計画の策定、および中国企業の年間事業開発目標の実現を主宰する。

3.中国企業の上級管理チームの中間管理職および上級管理職の確立、トレーニング、選任を全面的に担当し、企業の内部管理組織の確立計画と基本管理システムをレビューします。

4.効率的な中国企業組織システム(運用管理システム(管理部門、人事部門、財務部門)、事業開発システム(マーケティング部門、営業部門)、テクニカルサポートサービスシステム(プリセールス部門、ミドルセールス部門、アフターセールス部門)の確立を主宰する)そして組織のプロセス;

5.中国市場と環境の変化に応じて、中国企業の組織構造とリソース割り当てをタイムリーに調整し、中国企業の日常業務を常に管理および監督し、主要な日常企業の問題について決定を下します。

6.国内外のパートナー企業幹部との緊密な連絡と協力に責任を負う。

7.広報とクライアントのハイレベル(最終的な意思決定層)とのやり取りを担当します。

8.会社の取締役会との良好なコミュニケーションを維持する責任があり、中国の会社の事業開発計画の実施、資金の使用、および損益について会社の取締役会に報告します。

部下の数:600 |報告対象:米国の議長(BOSS)|退職の理由:仕事中。

主なパフォーマンス:私のパフォーマンス:

2019-2020:完了パフォーマンス:5億元

2018-2019:完了パフォーマンス:3億5000万元

2017-2018:完了パフォーマンス:3億元、私がサインアップした顧客は次のとおりです:

Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、およびその他の最高かつ高度なITとインターネット、モノのインターネット、インテリジェントネットワーク、クラウドコンピューティング、ビッグデータ、AIマニュアルを次のお客様に提供しますインテリジェントおよびその他のシステムソリューションのコンサルティング+システムの実装+システムの毎日のメンテナンス+カスタマイズされた開発およびその他の付加価値サービス。 。 。

銀行、証券、保険、業界のお客様には次のものが含まれます。

バンクオブアメリカ、シティバンク、HSBC、ドイツ銀行、上海浦東開発銀行、上海通信銀行、中国銀聯

上海銀行産業銀行上海農村商業銀行中国民生銀行中国エバーブライト銀行青島銀行

寧波銀行重慶商業銀行深セン開発銀行南京銀行

上海証券オリエンタル証券GF証券神陰万国宏源証券海通証券

中国銀河証券中国太平洋保険中国生命保険会社

官公庁のお客様には次のものが含まれます。

上海市財政局上海公安局上海税関上海人事局上海人事社会保障局上海水務局

上海教育委員会浙江省財務省浙江省公安部浙江省人事社会保障省江蘇省財務省江蘇省公安部江蘇省人事社会保障省

教育業界のお客様は次のとおりです。

上海財経大学上海交通大学上海大学上海工科大学上海政治法律大学

医療業界のお客様は次のとおりです。

上海保健委員会上海仁吉病院上海華山病院上海瑞金病院上海東方病院

自動車製造、航空、ガラス製造、鉄鋼製造、食品製造、製紙、電化製品製造、消費財製造、業界の顧客は次のとおりです。

上海汽車グループ上海フォルクスワーゲン上海ゼネラルモーターズ中国東方航空上海宝武鋼集団

上海国際港湾集団上海ブライトフードグループ上海たばこグループ上海製薬グループ

上海電機グループ上海ジャーファ

Procter&Gamble(China)Company

ミデアグループユニリーバ中国南京汽車集団天津ティエンスグループ慶長安汽車

上海外高橋造船青島ビール中国国家繊維グループヴィンダ紙上海フェイケ電器

上海成光文房具上海日立電機上海関生園電気通信業界のお客様には、

浙江移動通信会社上海移動通信公司上海テレコム江蘇移動通信公司

四川移動通信会社

2012 / 01-2017 / 01マイクロソフトソフトウェアシステム株式会社(6年)採用

コンピューターサービス(システム、データサービス、メンテナンス)| 150〜500人|外資(ヨーロッパおよびアメリカ)|パートタイム

中国CEO&社長中国CEO&CTOPresident UK中国CTO CEO CEO&President

職種:2012〜2017年:米国のMicrosoft Software System Co. Ltd.

ポジション英国中国CEO&CTOPresident英国中国CTO CEO CEO and President

会社概要:

米国マイクロソフトソフトウェアシステム株式会社は、米国で設立されたIT製品の販売、コンサルティング、実装、およびサービスの会社です。同社は、オラクル、マイクロソフト、SAP、IBM、EMC、HP、DELL、シスコなど、世界のトップ500のIT企業から多くの企業を結集し、豊富な実務経験、ビジネス開発担当者、技術エリートとともに会社の設立に参加しています。 、米国企業の本社はヨーロッパ、イギリス、中国の上海にあります。

同社の主な事業:

同社は米国のグローバル戦略パートナーです。同社の主な事業は、Oracleデータベース、ミドルウェア、ERP、CRM、SCM、HRM、BPM、EPM、APM、PLM、BI、インターネット、ビッグデータ、Oracleクラウドコンピューティング(DaaS、IaaS)です。 、PaaS、SaaS)Microsoft、SAP、IBM、EMC、HP、DELL、Ciscoなどに基づく幅広い製品とITマルチドメイン製品。米国、ヨーロッパ、中国のお客様に最高のITシステムソリューションのコンサルティング、実装、サービスを提供します。 …

英国の従業員数:200人以上

中国企業の従業員数:400人以上

勤務地:上海、英国

私の仕事:米国本部長(BOSS)への報告

私の直属の部下30名:セールス&マーケティング担当副社長、テクノロジー担当副社長、人事管理担当副社長、財務担当副社長

私の責任:

1.米国本部の取締役会から、中国企業の日常の運営と管理を完全に統括し、すべてのタスクに対して全体的な責任を負うことを完全に承認されている。

2.中国企業の年間事業開発戦略、事業開発戦略、事業開発計画の策定、および中国企業の年間事業開発目標の実現を主宰する。

3.中国企業の上級管理チームの中間管理職および上級管理職の確立、トレーニング、選任を全面的に担当し、企業の内部管理組織の確立計画と基本管理システムをレビューします。

4.効率的な中国企業組織システムの確立を主宰:運用管理システム(管理部門、人事部門、財務部門)、事業開発システム(マーケティング部門、営業部門)、テクニカルサポートサービスシステム(プリセールス部門、ミドルセールス部門、アフターセールス部門)部門)と組織のプロセス。

5.中国市場と環境の変化に応じて、中国企業の組織構造とリソース割り当てをタイムリーに調整し、中国企業の日常業務を常に管理および監督し、主要な日常企業の問題について決定を下します。

6.国内外のパートナー企業の幹部との緊密な連絡と協力に責任を負う。

7.広報とクライアントのハイレベル(意思決定層、下見板層)とのやり取りを担当します。

8.米国の親会社の取締役会との良好なコミュニケーションを維持し、中国の会社の運営および開発計画の実施、資金の使用および損益状況について米国の親会社の取締役会に報告する責任を負う。

部下数:400 |報告対象:米国本部長(BOSS)|退職理由:ケンブリッジ大学留学中、英国卒業

主なパフォーマンス:私のパフォーマンス。

2016-2017:完成したパフォーマンス:5億元

2015-2016:完了パフォーマンス:3億元

2014-2015:完了パフォーマンス:2億5000万元

2013-2012:完了パフォーマンス:2億元

2011-2012:完了パフォーマンス:1億5000万元

契約している顧客は次のとおりです。

以下のお客様に、Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、+システムの実装+毎日のシステムメンテナンス+カスタム開発向けの最高かつ最先端のITシステムソリューションのコンサルティングを提供しますその他の付加価値サービス。 。 。

銀行、証券、保険、業界のお客様には次のものが含まれます。

バンクオブアメリカシティバンクHSBCドイツ銀行上海浦東開発銀行上海通信銀行

中国銀聯上海銀行産業銀行上海農村商業銀行

中国民生銀行中国エバーブライト銀行青島銀行寧波銀行

重慶商業銀行南京商業銀行広東開発銀行深セン開発銀行厦門市商業銀行

南京銀行上海証券オリエンタル証券GF証券神陰万国宏源証券

海通証券中国銀河証券中国太平洋保険中国生命保険会社

官公庁のお客様には次のものが含まれます。

上海市財政局上海公安局上海税関上海人事局

上海人事社会保障局上海水務局上海教育委員会

浙江省財務省浙江省公安部浙江省人事社会保障省

江蘇省財務省江蘇省公安部江蘇省人事社会保障省

教育業界のお客様は次のとおりです。

上海財経大学上海交通大学上海大学上海工科大学上海政治法律大学

医療業界のお客様は次のとおりです。

上海保健委員会上海仁吉病院上海華山病院上海瑞金病院上海東方病院

自動車製造、航空、ガラス製造、鉄鋼製造、食品製造、製紙、電化製品製造、消費財製造、業界の顧客は次のとおりです。

上海汽車グループ上海フォルクスワーゲン上海ゼネラルモーターズ中国東方航空上海宝武鋼集団

上海国際港湾集団上海ブライトフードグループ上海たばこグループ上海製薬グループ

上海電機グループ上海ジャーファProcter&Gamble(China)Company

ミデアグループユニリーバ中国南京汽車集団天津ティエンスグループ重慶長安汽車

上海外高橋造船青島ビール中国国家繊維グループヴィンダ紙

上海フェイケ電器上海成光文房具上海日立電機上海関生園

電気通信業界の顧客には、次のものが含まれます。浙江移動通信会社

上海移動通信公司上海テレコム江蘇移動通信公司四川移動通信会社

プロジェクト経験

2017 / 01-これまでのところ、クライアントに署名しています:

関連会社:アリババ、アマゾン、テンセントおよび他の有名な企業

プロジェクトの説明:私がサインアップした顧客は次のとおりです。

Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、最適な最先端のITとインターネット、クラウドコンピューティング、ビッグデータ、AI人工知能、その他のシステムソリューションを提供しますソリューションコンサルティング+システムの実装+システムのアフターメンテナンスサービス+カスタマイズされた開発およびその他の付加価値サービス。 。 。

銀行、証券、保険、業界のお客様には次のものが含まれます。

銀行、証券、保険、業界のお客様には次のものが含まれます。

バンクオブアメリカ、シティバンク、HSBC、ドイツ銀行、上海浦東開発銀行、上海通信銀行、中国銀聯

上海銀行産業銀行上海農村商業銀行中国民生銀行中国エバーブライト銀行青島銀行

寧波銀行重慶商業銀行深セン開発銀行南京銀行

上海証券オリエンタル証券GF証券神陰万国宏源証券海通証券

中国銀河証券中国太平洋保険中国生命保険会社

官公庁のお客様には次のものが含まれます。

上海市財政局上海公安局上海税関上海人事局上海人事社会保障局上海水務局

上海教育委員会浙江省財務省浙江省公安部浙江省人事社会保障省江蘇省財務省江蘇省公安部江蘇省人事社会保障省

教育業界のお客様は次のとおりです。

上海財経大学上海交通大学上海大学上海工科大学上海政治法律大学

医療業界のお客様は次のとおりです。

上海保健委員会上海仁吉病院上海華山病院上海瑞金病院上海東方病院

自動車製造、航空、ガラス製造、鉄鋼製造、食品製造、製紙、電化製品製造、消費財製造、業界の顧客は次のとおりです。

上海汽車グループ上海フォルクスワーゲン上海ゼネラルモーターズ中国東方航空上海宝武鋼集団

上海国際港湾集団上海ブライトフードグループ上海たばこグループ上海製薬グループ

上海電機グループ上海ジャーファ

Procter&Gamble(China)Company

ミデアグループユニリーバ中国南京汽車集団天津ティエンスグループ慶長安汽車

上海外高橋造船青島ビール中国国家繊維グループヴィンダ紙上海フェイケ電器

上海成光文房具上海日立電機上海関生園電気通信業界のお客様には、

浙江移動通信会社上海移動通信公司上海テレコム江蘇移動通信公司

四川移動通信会社

責任の説明:上記のプロジェクトでは、中国のCEOのCEO / CTOとして、プロジェクト全体の完了を調整しました。

2012 / 01-2017 / 01私の署名された顧客は次のとおりです:

関係会社:米国Microsoft Software System Co. Ltd.に勤務

プロジェクトの説明:以下のお客様に、Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、システムの実装+システムの毎日のメンテナンスの最高かつ最も先進的なITシステムソリューションのコンサルティングを提供します+カスタマイズされた開発およびその他の付加価値サービス。 。 。

銀行、証券、保険、業界のお客様には次のものが含まれます。

銀行、証券、保険、業界のお客様には次のものが含まれます。

バンクオブアメリカ、シティバンク、HSBC、ドイツ銀行、上海浦東開発銀行、上海通信銀行、中国銀聯

上海銀行産業銀行上海農村商業銀行中国民生銀行中国エバーブライト銀行青島銀行

寧波銀行重慶商業銀行深セン開発銀行南京銀行

上海証券オリエンタル証券GF証券神陰万国宏源証券海通証券

中国銀河証券中国太平洋保険中国生命保険会社

官公庁のお客様には次のものが含まれます。

上海市財政局上海公安局上海税関上海人事局上海人事社会保障局上海水務局

上海教育委員会浙江省財務省浙江省公安部浙江省人事社会保障省江蘇省財務省江蘇省公安部江蘇省人事社会保障省

教育業界のお客様は次のとおりです。

上海財経大学上海交通大学上海大学上海工科大学上海政治法律大学

医療業界のお客様は次のとおりです。

上海保健委員会上海仁吉病院上海華山病院上海瑞金病院上海東方病院

自動車製造、航空、ガラス製造、鉄鋼製造、食品製造、製紙、電化製品製造、消費財製造、業界の顧客は次のとおりです。

上海汽車グループ上海フォルクスワーゲン上海ゼネラルモーターズ中国東方航空上海宝武鋼集団

上海国際港湾集団上海ブライトフードグループ上海たばこグループ上海製薬グループ

上海電機グループ上海ジャーファ

Procter&Gamble(China)Company

ミデアグループユニリーバ中国南京汽車集団天津ティエンスグループ慶長安汽車

上海外高橋造船青島ビール中国国家繊維グループヴィンダ紙上海フェイケ電器

上海成光文房具上海日立電機上海関生園電気通信業界のお客様には、

浙江移動通信会社上海移動通信公司上海テレコム江蘇移動通信公司

四川移動通信会社

責任の説明:上記のプロジェクトでは、中国のCEOのCTO / CEOとして、プロジェクト全体の管理

実務経験

Dr. Guolongケンブリッジ大学ケンブリッジ

LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs、英国

AlibabaGroup契約ユニットHOC Intelligent Technology Guolong副社長CTO

実務経験プロジェクト経験学術研究経験実績*

2012-2017マイクロソフト開発チームのソフトウェアおよびハードウェア開発エンジニア、Google開発チームPMケンブリッジ大学

2017 / 1–現在のケンブリッジ大学博士、ケンブリッジ、OXBridge教授

リーバーハルムセンター、フューチャーインテリジェンスの未来、LCFI http://www.lcfi.ac.uk/トップ研究所、主任研究員、LCFI研究所、英国

現在、NTTとアリババグループのハニチャオインテリジェントテクノロジーCEO / CTO、PM部長、中国科学院の研究者、JSAI人工知能協会の正会員、IEEEメンバー、CAAI中国

人工知能協会、AAA1国際人工知能協会のメンバー。人工知能中国ACMのACMコミッショナーのメンバーであり、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家、コンピュータービジョン、マルチメディアテクノロジー、機械学習などの主な研究分野を担当しています。

清華大学の機械学習教授。テクノロジーメガトレンドとの統合、最先端の分析テクノロジー、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーク、農業用医薬品、小売、製造、輸送、スポーツ、航空宇宙、広告、

モノのインターネット、ICT、その他の産業。ハーバードビジネススクール客員教授、清華大学客員教授、東京大学客員教授、東京大学客員教授、大阪大学客員教授、江蘇省中国科学技術院

京都大学の客員教授が主催するコンペティション部門Aが、バイオ医薬品、医療機器、スマート医療、ヘルスケアなどの大手医療産業の最優秀賞を受賞しました。カテゴリーAで最優秀賞を受賞。 ERPブロックチェーンクラウドテクノロジーのビッグデータ人工知能関連分野(人工知能のさまざまな分野を含む音声処理の分野に限定されない)は、特許製品の競争、Ali、Tencent、Huaweiなどの契約で最高の賞を受賞し、多くの契約に達しました。 AIx 5Gが主流の支払い方法になりました、WYSIWYG、短いビデオAIアニメーションx 5G、AR VRおよび3D、スマート運転、金融、5G遠隔医療5G AI医療、スマート運転、スマートビジネス、スマートビジネス、スマート医療、公安用の5G素材5Gロボット、半導体、スポーツ、エンターテインメントおよびその他のテクノロジーは、当社の主流のテクノロジー、分離および精製、革新的な医薬品、バイオテクノロジー、

深層学習の学術工学プロジェクトにおける10年以上の経験。人工知能に関連するアルゴリズムと理論、特にニューラルネットワーク、深層学習、強化学習、転移学習に精通している。SAS、R、Python、Spark SQL、Spark MLなどのデータ分析ツールに精通している。言語、LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNNの研究背景。

◎CUDAプログラミング、Python / Matlab / C ++、およびディープラーニングアーキテクチャ、マシンビジョン、バイオインテリジェンス認識やその他の人工知能アルゴリズム、メディアフリーペイメントなどのコアテクノロジーなどの独立した知的財産権を使用するその他のコアテクノロジーに精通していること。 、AIチップ、スマートリテール、スマートシティ、スマートセキュリティ、スマート教育、航空宇宙日本の小惑星、軍事産業、およびその他の分野は、業界のリーダーとしてランク付けされた詳細なレイアウトを持っています。

◎人工知能は、製造(ロボット、最適化)輸送、生物学的ヘルスケア、通信、機械学習シミュレーション、エッジ機器、ネットワーク、高性能コンピューティング、製品開発(一般)、製品開発(視覚検査ソリューション)、人間とコンピューターの相互作用で使用されます(HCI、HRI)

重要なプロジェクト経験

◎Google、マイクロソフト、テンセント、アマゾンなどの優れたチームと連携しているバイオヘルスケア業界、私は京都大学ハーバード大学医学部の遺伝子と協力しています。ノーベル医学遺伝子iPS幹細胞チーム

◎ファナック、PFN(PREFERRED NETWORKS)、日立と連携。バイオヘルス医療画像解析と血液がんの早期診断技術の研究進展。国立がん研究センターと他の共同研究。ブロックチェーン技術と人工知能生物医学AIは、医療画像分析、電子医療記録(EHR)の詳細な研究、疾患の原因の発見、前臨床の創薬と臨床試験などの基本的な研究など、さまざまな分野で使用されています。

プロジェクト経験

◎アマゾン人工知能プロジェクト(Amazon Go)への参加:シアトルで実験的な食料品店が正常に実装されました。これにより、買い物客は棚で商品を拾ったり、レジを離れたり、セルフチェックアウトキオスクに立ち寄ったりできます。それらが店に入ると、コンピュータはそれらを視覚的に認識し、次にそれらを棚から取り出された製品にリンクします。顧客が離れると、システムはショッピングバッグの費用をAmazonアカウントから差し引いて、電子メールの領収書を送信します。

◎ドイツのeコマース企業Ottoに参加:ディープラーニングモデルを使用して何十億ものトランザクションを分析し、注文前に顧客が購入する傾向があるものを予測し、余剰在庫を20%削減し、生産を年間200万以上削減します。今後30日間でこのシステムによって予測される製品の精度は90%に達します。

◎フランスのグローバル小売業者のカルフール人工知能プロジェクト、および米国のターゲット人工知能プロジェクトは、パーソナライズされたプロモーション、分類された最適化、カスタマイズされた表示などの洞察に富んだ販売に基づいています。

◎富士通と共同で人工知能プロジェクト指紋認証コンシューマシステムを日本のスーパーやデパートなどに適用、日本の楽天人工知能サービス自動質疑応答プロジェクト

◎日本の建設会社清水建設人工知能プロジェクト:極限環境における私の特許インテリジェント建設(NASA)プロジェクト

◎コマツの多目的ドローン・ブルドーザー自動化システム

◎独立行政法人産業技術総合研究所(AIST)が開発したHRP-5Pロボット開発プロジェクト

◎Jingdongの全工程無人倉庫輸送ロボットプロジェクト

◎神戸製鋼所のアーク溶接ロボットARCMAN™-GSの開発。

◎オムロンロボットプロジェクト

◎トヨタの「人体サポートロボット」(HSR)プロジェクト

◎シャープのロボホンプロジェクト

◎米国MITメディアラボの研究者と連携

◎アリババの新人ネットワークプロジェクト、パイトンロボットスモールGを開発

◎BIM +インターネット+ IoT技術を統合した中国建設技術構築インテリジェント建設プラットフォームは、オールラウンドでインタラクティブな情報伝達を実現できます。

◎トラスコ中山(株)トラスコ中山(株)ロボットIOT自動物流・SAPHANA※SAPRAを紹介日本のテレビ局たくやれ日本のテレビ番組が発表されました

◎長野計器のIOTプロジェクトでは、高齢者などが食物に巻き込まれるリスクを回避するため、医療用舌の嚥下能力をテストし、光ファイバーケーブルを使用して道路の老化速度を検出します。光ファイバーケーブルを使用しますたとえば、道路を横切るトラックが生成する振動の強さは、道路の経年劣化と橋の抵抗率を推測します。

日本のテレビ局日本テレビ番組がリリースされました

◎株式会社モノタロ人工知能プロジェクトAI顧客サービスシステム、商品AI分析システム

ERP、SAPおよびその他の方向性

◎約8年間のERPコンサルタントの実装経験、SAP(FI / CO、MM、SD、PP、BW、BI SAP HANA)およびその他のモジュールの経験、SAP R / 3(基礎)、SAP R / 3(ASAP)の経験SAP R / 3(在庫/購買管理)、SAP R / 3(管理会計)、SAP R / 3(財務管理)、SAP R / 3(生産管理)、SAP R / 3 BI認定コンサルタント

重要なプロジェクト経験

日本トヨタ自動車SAP輸入プロジェクト

プロジェクトの紹介:自動車業界におけるAI機械学習、特にディープラーニングおよびその他の人工知能分野

◎クラウドテクノロジービッグデータブロックチェーンは、人工知能、ディープラーニング、機械学習の方法と人工知能の分野でのアプリケーションに熟達しており、自然言語処理の自動質問と回答、マンマシン対話システム、感情分析、ソーシャルデータマイニングテクノロジーの専門家の経験が15年以上あります。

◎人工知能/インテリジェントドライビング/ AI +フィンテック&ブロックチェーン/未来医療/ネットワークセキュリティAR / VRロボット開発者スマートハードウェア/モノのインターネット/ GAIRエクスペリエンス;

◎10年以上の組み込みソフトウェア開発の経験。

◎組込みソフトウェア開発(Linux / SCM / PLC / DSP ...)10年以上;

◎コンピュータビジョン、機械学習、人工知能、データマイニング、情報検索、自然言語処理、音声認識などの分野で、コンピュータサイエンスにおいてケンブリッジ大学と協力する。

◎人工知能の専門家であるGoogle、Microsoft、Amazon、facebook、netflix、Apple、Japan Toyotaおよびその他のプロジェクトと協力する。

◎人工知能システムの設計および開発に参加し、ディープラーニングテクノロジーを適用して、音声、ビデオ、画像、テキストなどのリッチメディアデータをモデル化および分析し、関連製品にインテリジェントサポートを提供し、ビジネス開発を促進します。

◎ディープラーニングの分野における最先端のアルゴリズムとフレームワークの追跡を担当し、CNNなどの典型的なディープラーニングモデルの使用シナリオと方法に精通した、エンタープライズアプリケーション用の大規模なディープラーニングコンピューティングプラットフォームを構築します。

◎ResNetやMobileNetなどの一般的なネットワーク構造に精通しており、画像分類、画像セグメンテーション、オブジェクト認識、その他の関連分野での実務経験。

◎TensorFlow、Caffe、MXNetなどの主流のディープラーニングフレームワークの1つ以上に精通している; ICIP、ICCV、CVPR、ECCV、SIGGRAPHなどの関連分野で公開されている一部の論文は、クラウドコンピューティングおよびクラウドサーバー管理で10年以上の経験を持っている

◎Alibaba Cloud、AWS、Azure、GCPなどに精通していること。

◎C / C ++ / Python / Javaに精通し、コンピューターネットワーク関連の知識に精通しており、クローラープロジェクトで実務経験が豊富で、スクレイピー、セレン、美しいスープなどのクローラーアーキテクチャツールを理解していること。

◎Hadoopエコシステム、およびSpark、HDFS、Hive、Impala、ElasticSearch、Cassandra、Kafkaなどのその他のビッグデータテクノロジーに精通していること。自然言語処理(NLP)ツールおよびコンポーネントにおける10年以上の経験。

◎Hadoop、Spark、Caffe、Tensorflowなどのオープンソースツールに精通している。実用的な開発経験がある。Java/ Python / C ++に精通している。ネットワークプログラミング、マルチスレッド、分散(Hadoop / Hive / Storm)に精通しており、10年以上の実務経験がある。

◎財務リスク管理、インターネットの不正行為、画像およびテキスト処理、精密マーケティング、推奨システムおよびその他の関連製品の実務経験、人工知能およびビッグデータのドライバーレス、深層強化学習、自然言語処理のテキストベースの画像合成などの側面プロジェクトは人工知能に焦点を当て、

ビッグデータおよびAR / VR、ADAS、携帯電話、ロボット、IOT、航空宇宙、その他の科学技術分野

◎人工知能は、データ、アルゴリズム、計算能力という3つの主要な要素によって推進されます。蓄積された大量のデータを通じて、GPUなどの高性能チップによってサポートされ、

ディープラーニングは、データの価値を掘り出し、人間の認識精度を超えるアルゴリズムを取得して、ディープラーニングの商用アプリケーションを実現できるため、人工知能はもはや学術研究に限定されなくなります。

◎コンピュータービジョン、機械学習、データマイニング、情報検索、自然言語処理、音声認識/合成、機械学習、コンピュータービジョン、自然言語処理、機械翻訳、音声認識/合成などの人工知能における25年の世界的大手企業職歴

◎プログラミング言語、Java、C / C ++、C#、Pythonなどに精通している; NIPS、ICML、COLTなどのトップコンピューターサイエンス会議およびジャーナルで、

CVPR、ICCV、ECCV、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJなどで発表された論文。

◎深層学習の学術工学プロジェクトにおける10年以上の経験。人工知能関連のアルゴリズムと理論、特にニューラルネットワーク、深層学習、強化学習、転移学習に精通している。SAS、R、Python、Spark SQL、Spark MLなどのデータ分析に精通している。ツールと言語、LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNNの研究背景。

◎CUDAプログラミング、Python / Matlab / C ++、およびディープラーニングアーキテクチャ、マシンビジョン、バイオインテリジェンス認識およびその他の人工知能アルゴリズム、メディアフリーペイメントなどのコアテクノロジーなどの独立した知的財産権を使用するその他のコアテクノロジーに精通していること。 、AIチップ、スマートリテール、スマートシティ、スマートセキュリティ、スマート教育、航空宇宙日本の小惑星、軍事産業、およびその他の分野は、業界のリーダーとしてランク付けされた詳細なレイアウトを持っています。

◎人工知能は、製造(ロボット、最適化)輸送、生物学的ヘルスケア、通信、機械学習シミュレーション、エッジ機器、ネットワーク、高性能コンピューティング、製品開発(一般)、製品開発(視覚検査ソリューション)、人間とコンピューターの相互作用で使用されます(HCI、HRI)

重要なプロジェクト経験

◎バイオヘルスケア業界-グーグル、マイクロソフト、テンセント、アマゾンなどの優れたチームと協力して、私は京都大学ハーバード大学医学部の遺伝子と協力しています。ノーベル医学遺伝子iPS幹細胞チーム

2017/1-現在のAlibabaGroup契約ユニットHaniuqiao Intelligent Technology Guolong副ジェネラルマネージャーCTO

清華大学のコンピュータービジョン、マルチメディアテクノロジー、機械学習の教授。技術的メガトレンドとの統合、主要な分析手法は政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水道、ネットワーク、製薬で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計士AI外科ロボットAI尋問誤診AIロボット葬儀なしVR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省カテゴリーAの最優秀賞は、浙江省政府主催のコンテストで優勝しました。偉大な健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリーAの最優秀賞を受賞しました。

主な研究分野は、コンピュータビジョン、ビッグデータブロックチェーン、自然言語処理です。アリババグループのチーフテクニカルエキスパート

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーは、ディープラーニングを組み合わせ、カメラを使用して人体の動きをキャプチャし、AIの通過する身体を測定するラグビーゲーム分析システムを開発しました姿勢と動き、AIが5Gテクノロジーを導く

◎C / C ++およびその他の言語、Matlab、Qt、ROSおよびその他の開発ツール、LinuxまたはQNX開発環境の機械学習/データマイニングおよびその他のAI関連のアルゴリズムの研究開発に精通している;アルゴリズム関連のコードライブラリ、ツールライブラリのパッケージ化とリリース、AI関連のアルゴリズムパフォーマンスの最適化、エンジニアリング環境の展開、分散型ディープラーニングクラスターの構築と実装に参加する。

◎機械学習に関連する理論的知識と実践的スキルに精通しており、CNN、RNN、LSTMなどの典型的な深層学習モデルの使用シナリオと方法に精通していること。

◎TensorFlow、Caffe、MXNetなど、さまざまな種類の主流のディープラーニングフレームワークに精通しており、確かな数学とプログラミングのスキルがある。基本的な機械学習アルゴリズムに精通し、一般的な産業における機械学習のアプリケーションモデルを理解している。開発経験があり、ビッグデータ関連の知識に精通していること。

◎お客様のアプリケーションシステムのデータフローと処理方法に精通しており、ビッグデータプラットフォームHD / Hbase / Hiveなどの基本コンポーネントを構成する能力。顧客のニーズを独立して分析し、ソリューションを設計し、プロジェクト実装の完全な経験を持っている能力。

◎コミュニケーション能力に優れ、チーム連携や外部連携で発生する様々な問題を調整・解決する能力があり、企業関連の事業・製品・サービスのバックエンド開発・保守を担当します。

重要なプロジェクト経験

銀行、ヘルスケア、保険、金融技術、製造、小売、マーケティング、スポーツ分析、その他のプロジェクトに参加

◎武田薬品工業、富士フイルム、塩野製薬など日本の人工知能(AI)が新薬開発プロジェクトを推進

医療用DNAセルIPS人工知能プロジェクト-大阪病院および米国の他の主要病院は、人工知能、スマートセンサー、望遠鏡、検出器、医療機器の開発を含むIBMワトソン人工知能プロジェクトを実施しています。人工知能は私たちの言語をメンタルヘルスウィンドウ。高度なイメージセンサーにより、人間はスーパービジョンを準備できます。超拡大鏡により、人間は地球の無限の詳細を理解できます。すべての医療研究所システムは、単一のコンピューターチップに統合されます。インテリジェントセンサーは、光速で環境汚染を検出します。

◎AIケースIntel人工知能プロジェクト:Intelは、最適化された機械学習フレームワークとライブラリを通じてオープンソースへの取り組みを促進し、Nervanaシステムの機械学習の専門家と協力しています。

◎アメリカのGoogle人工知能プロジェクト:言語翻訳、視覚処理、ランキングと予測機能の人工知能開発

◎AIケースSalesforce人工知能プロジェクトチーム:Salesforcは人工知能を使用して、従業員がタスクをより効率的に実行し、作業効率を簡素化および加速するのを支援します。

◎AIケースAmazon Amazon ALexa人工知能プロジェクトおよびinit人工知能プロジェクト:

AWSクラウドプラットフォームに基づくディープラーニングに参加しているAmazonの人工知能サービスロボットAlexaの開発。金融ソフトウェアに適用されたAmazon SagemakerフレームワークUS INTUIT

◎また、神戸大丸人工知能プロジェクトに参画し、日本初の百貨店、神戸大丸のAIカスタマーサービス体制の導入に成功。今年6月に神戸元町の大丸百貨店では、2人の会話型AI女の子「MOTOMAQI」を雇い、家族や友人への贈り物を専門とする日本の中元や年末などのフェスティバルで特別なサービスを提供しました。

◎大栄スーパーにも参加しましたが、化粧品店の美容屋さんも「AIさくら」を使い始めました。「彼女」はお客様の質問にお答えするだけでなく、年齢・筋質・肌色・質問も確認できるからです。待って、自分のデータベースから同じ顧客グループの製品を見つけ、さまざまな女性に適した化粧品を提案します。

◎AI多要素マーキング建設現場プロジェクト:建設現場でのAIの適用は、機械学習、音声および画像認識を使用して、建設現場の写真とビデオに自動的にマークを付け、データを整理して検索できることを反映しています。たとえば、AIはディープラーニングを使用して画像と音声を分析し、建設データに自動的にタグを付けて、顧客に安全対策を積極的に提供できます。 AIは、設計、構築、運用、保守を容易にします。これは、設計、建設、管理など、建物のライフサイクルにも一致しています。

◎アリプロジェクト人工知能チップソフトウェア開発、日本イオングループAI事件、吉野家AIロボットプロジェクトへの参加、金融信用融資AI詐欺防止、返済督促AIシステム、野村證券消費者金融コア人工知能プロジェクト、スーパーマーケット盗難防止AI検出システム、警察庁顔認識AI捕虜システム、日本AI輸送システム、日本AI駐車自動システムおよびETC自動請求システムETC割引請求システム、スポーツトレーニングAIシステム、VR / ARシステム、HCI、HRIシステム、製造IOTシステム、目視検査ソリューション、野村證券のさまざまな情報の収集と分析のためのAIの使用、および国土交通省による分析のためのAIシステムの使用による観光による交通渋滞問題の緩和オリンピックAIカスタマーサービスシステムをホストしました。

人工知能、ビッグデータ、クラウド、その他の方向

◎ニューラルネットワーク、ディープラーニングの原則に精通し、一般的に使用されるビッグデータ分析プラットフォームとツール(python、R、SAS)を使用できる、ビッグデータモデルの構築における10年以上の実務経験、インターネットユーザーデータの取得、インターネットデータの関連する実務経験リスク管理とモデリング技術に関する専門的な研究。

◎クラウドテクノロジービッグデータブロックチェーンは、人工知能、ディープラーニング、機械学習の方法と人工知能の分野でのアプリケーションに熟達しており、自然言語処理の自動質問と回答、マンマシン対話システム、感情分析、ソーシャルデータマイニングテクノロジーの専門家の経験が15年以上あります。

1.プロジェクトチームの構築に全面的に責任を持ち、統一された効率的なチームを確立し、プロジェクトの進捗、品質、コスト範囲の管理と制御、技術指導とトレーニングに責任を持つ作業の熱意(10〜50人)を刺激する

2. TOYODAのお客様およびNTTDATAから認定されました(優秀なプロジェクトチームおよび優れたプロジェクトマネージャー個人賞)。

3. MIT、ハーバード大学、東京大学、その他の大学、三菱、NTTDATA金融研究所、日本銀行金融機関およびその他の関連機関との協力、深い人工知能の理論的基盤の形成を担当チーム

4.研究の方向性:マルチメディアテクノロジー、コンピュータービジョン、自然言語学習など

重要なプロジェクト経験

無人アスペクト

1. 2012 / 08-presentトヨタジャパンのスマートカー自動運転技術と日本のソフトバンク人工知能技術導入プロジェクト

2. NVIDIAの人工知能(AI)チップ自動運転チームと協力する

3.英国、ドイツのケンブリッジ大学の研究所と協力するMercedes-Benz Automotive Artificial Intelligence Project

4.自動運転技術/マツダ株式会社の研究開発プロジェクト

5.バイドゥ、モメンタ、ツーソンなどの自動運転プロジェクトの研究開発に参加する。

6.天津一汽が産業情報プロジェクトを導入

7. IBM AI技術チームと協力して、三菱、ホンダ、スズキなどを輸入します。

8.総合制御システム開発の分野

◎電子プラットフォーム技術・開発・設計:車両電装システム開発・アーキテクチャ設計、車載ECUハードウェア開発(機能・製造要求設計)

◎インフォテインメント・UI領域/早期製品開発:車載インフォテインメントシステムの開発(新世代の車載接続システム分野)など

◎ADAS、車両分野/初期製品開発:車両安全制御開発、車両制御ECUハードウェア、ソフトウェア開発など

◎MBDサポート/オペレーティングシステム/開発:シミュレーションは、モデルベースの自動車開発(HEVおよびEVを含む)、オペレーティングシステムの設計および開発などをサポートします。

◎自動運転技術/研究開発:画像解析、機械学習(DL /強化学習)、画像・距離センサー信号処理、新マップ開発

◎人間指向研究分野・既存技術開発:人間特性の仮説構築、実験計画の検証、測定手法の構築など

9.パワートレイン開発の分野

◎インバーター/ EV / PHEVの制御開発:油圧制御設計/次世代自動変速機の実験研究

◎運転・環境性能・開発:駆動力制御開発・運転実験・計測作業など

◎エンジン・xEV /制御開発:エンジンの電子制御システムや制御モデルの設計、ソフトウェア・ハードウェアの開発・設計など。

10.自動運転技術

◎車レベルの組み込みアーキテクチャに精通しており、パターン認識、マシンビジョン、ディープラーニング、パスサーチなどの人工知能テクノロジーに精通していること。

◎C / C ++、Python言語、Matlab、Qt、ROS、その他の開発ツールに精通しており、LinuxまたはQNX開発環境は、主な担当者として自動運転システム製品の開発経験があります。

◎自動運転に適した高精度マップ要素のタイプと精度の要件に精通し、レーザー点群フィルタリング、マップフィーチャー抽出、マップ構築などのアルゴリズムを習得します。C/ C ++およびその他の言語、OpenCL、PCLおよびその他の開発ツール、LinuxまたはQNX開発環境に精通しています。衛星ナビゲーション、ディファレンシャルポジショニング、慣性ナビゲーションなどの基本原則、主流の統合ナビゲーションシステムの熟練した使用、移動オブジェクトの軌道推定に関連するアルゴリズムの習得。

◎C / C ++およびその他の言語、Matlab、Qt、ROSおよびその他の開発ツール、LinuxまたはQNX開発に精通していること。

◎車両と基地局での統合ナビゲーションシステムの選択、展開のキャリブレーションとテストを担当し、統合ナビゲーションシステムのデータ分析、車両軌道推定アルゴリズム、ナビゲーションとポジショニングフュージョンアルゴリズムの開発とテスト、自動運転とADASの分野で少なくとも12年間の責任者上記の実務経験、LKS、ACCなどの製品開発経験があること。

◎車両のステアリング、駆動、ブレーキ、サスペンションシステムの動作メカニズムに精通しており、プレビュートラッキング、PID、ファジー制御、MPCなどの一般的な車両運動制御アルゴリズムを習得し、車両の動的特性に従ってアルゴリズム設計を最適化できます。

◎C / C ++やその他の言語に精通している、Matlab、Prescan、CodeWarrior、およびその他の開発ツールは、自律車両の縦および横運動制御アルゴリズムの開発とテストを担当します

2017 / 1-現在CTO、シニアテクニカルエキスパート、AIソリューション

中国の東部および南部市場でAIプロジェクトを推進するテクノロジーリーダーとして、中国のテクニカルサポートチームにおける人工知能/機械学習ソリューションの最初の技術エキスパート

•EdgeおよびData Center AIソリューションのプリセールスおよびアフターセールスのテクニカルサポートを提供します。

•必要に応じて、概念実証、ターゲットリファレンスデザイン、スキーム最適化

•人工知能ソリューションに関する技術トレーニングを提供する

•プロジェクトの実装をスピードアップするために、顧客と研究開発部門をつなぐ

•R&D部門と協力して、人工知能ソリューション(フィードバック、欠陥レポート、内部テストなど)を改善する

•内部AI / MLサーバーを確立して維持する(Docker環境)

製品アプリケーションのシニアエンジニア

•中国のグローバル組み込みツールメソッド導入チームで唯一のエンジニアであり、主要なプロジェクトや主要な問題に対する新しいテクノロジーの推進、トレーニング、技術サポートなど、中国でのチームの関連作業を担当しています。

•組み込み製品(FPGA SoC)ソリューションを顧客に提供することに焦点を当てます。ソフトウェアツール、メソッド、およびテクニカルソリューションデザインサービス(PoC)を顧客と内部チームに提供します。

•ツールと製品ソリューションの改善を支援するために、製品の技術フィードバックをR&Dチームに提供します。

•PoC設計、オフサイトおよびオンサイトサポートを通じて、創造的な作業がお客様に幅広いシステムレベルの問題を直接提供し、主要なプロジェクト開発とオンサイトチーム間の技術的なギャップを埋めます。

•スコープは、ザイリンクスエンベデッド製品の完全なソフトウェアスタックと、SOC上のFPGAとのハードウェアおよびソフトウェアの共同設計をカバーしています。

プロジェクトの要点は次のとおりです。

•Tier1のお客様がLinuxシステムソリューションを展開できるよう支援します。 Xilinx PetalinuxプロセスをYoctoプロセスに移行するようにお客様をガイドします。 uboot、linux、rootfsなどの主要な問題を明確にし、顧客の緊急のプロジェクト進捗目標にタイムリーに到達します。

•PSのみのリセットおよびPLオーバーレイデザインをカスタマイズします。

•EVBでのRT Linuxの展開とパフォーマンス評価。

•Xen仮想化に基づくAMPシステム導入のリファレンスデザインを完成

•EVBへのOpenWRTおよびサードパーティUSB WiFiの展開の成功。

•複数のネットワークポートのパフォーマンス評価と最適化。

•armプラットフォームに基づくsmartNICプロジェクトでのDPDK PMD(ドライバー)設計の独立した開発とカスタムDMA IPのテストは、社内で最初のarmプラットフォーム実装です。

•LinuxカスタマイズアプリケーションのFreeRTOSへの移植を個別に完了します。

•完成した技術トレーニングと複数のFPGA HLSアクセラレーションソリューションのサポート

•複数のプロジェクトでFFmpeg、GStreamer、XfOpenCVおよびHLSテクノロジーの事前調査とPoC実装を完了するために、ローカルテクニカルサポートチームを支援して、プロジェクトの着陸を加速します。

•Dockerテクノロジーをクリエイティブに使用して、お客様の環境へのツールの導入を完了する

•Dockerテクノロジーをクリエイティブに使用して、会社のデータセンターFPGA機械学習ソリューションの導入を完了

Qualcomm ProjectシニアLinuxソフトウェアエンジニア

車載Linux / Android BSPの開発とメンテナンスに参加する

•イーサネット(MAC / PHY)モジュールは、プログラムの開発、パフォーマンスの最適化を実行、検証、駆動、テストします。

•systemdに基づくシステムネットワーク構成。

•Open-AVBスタックを移植し、AVBデモの開発とAVBテスト環境の構築に参加します。

•BSPアップグレードの大量生産機能モジュールの開発と保守。

•UbootおよびLinuxのSPI NORドライバー開発。

•BSPプロジェクトの顧客テクノロジをリードし、顧客が一部の機能(回復、MTP、FM / RDSなど)をカスタマイズするのを支援する

•LTPをBSPに展開します。

•BSPの大量生産およびアップグレードとリカバリソリューションの設計とメンテナンス

•BSPの管理に役立つテクニカルサポート

半導体プロジェクト(Linuxドライバーエンジニア

•USB3.0コントローラー(xHCI)ドライバーの開発と保守。

•Linux OSベンダー(Ubuntu / Suse / Redhat)にテクニカルサポート(xHCI / ACPI)を提供します。

•チップセットドライバーとカーネルRPM、DEBインストールパッケージをリリースします。

•xHCI / EHCI / ACPI関連のドライバーをLinuxアップストリームに提出する

HuaweiプロジェクトLinuxドライバーエンジニア

Linuxドライバーの開発と保守、および会社のPCIおよびUSBデジタル/アナログTVカードの関連アプリケーションプログラムを担当します。

•USB TV受信カード用のLinuxドライバーの開発とメンテナンス。このドライバーは、NTSC / PAL / ATSC / DTMBなどのアナログおよびデジタルTVフォーマットをカバーする複数のハードウェアソリューションもサポートしています。

•PCI TV受信カード用のLinuxドライバーの開発とメンテナンス。このドライバーは、NTSC / ATSCなどのアナログおよびデジタルTVシステムをカバーするさまざまなハードウェアソリューションもサポートしています。また、ALSAアーキテクチャに基づくサウンドカードドライバモジュールも含まれています。

•I2C EVK(評価ボード)Linuxドライバーの開発とメンテナンス。このボードは、セットトップボックスのリファレンスソリューションのデバッグと検証に使用されます。

•LinuxプラットフォームI2Cコントローラーアプリケーションの開発。このツールは、ハードウェアのリアルタイムのデバッグと検証のためにI2C EVKドライバーと組み合わせて使用​​されます。 QT開発GUIとドライバーとの対話用の低レベルインターフェイスを担当します。

Linuxソフトウェアエンジニア

•Linuxのデバイスドライバーとカーネルのトレーニング、Linuxカーネルのトレーニング、QAトレーニングなど、会社のソフトウェア開発ドキュメントと品質管理プロセスに精通した従業員の技術トレーニングを支援して参加する。

-Linuxタスクスケジューラの変更

-メモリリーク検出ツールを実装する

•PXA270組み込み開発ボード用のALSAアーキテクチャに基づくAC97 Linuxサウンドドライバーを開発します。

自動車技術プロジェクト

役職:シニアソフトウェアエンジニア

職責:

X Xiaopengが独自に開発したスーパーチャージングパイル(ARM + Linux)ソフトウェアアーキテクチャを担当。

the新しいアーキテクチャ(基本ライブラリ、ドライバーレイヤー、プラットフォームレイヤー、アプリケーションレイヤー)でのソフトウェア開発を担当します。

basic基本的なライブラリ、ドライバー層、プラットフォーム層のコード作成の完了に焦点を当てています。

Guangdian Express Financial Project

顧客プロファイル:Guangdian Expressは、通貨処理装置およびシステムソリューションの世界有数のプロバイダーであり、中国で最大です

最大のATM(Automated Teller Machine)製品およびシステムソリューションプロバイダーであり、最も強力なAFC

(自動チケット検査システム)機器およびコアモジュールのプロバイダーは、中国で最も専門的な金融サービスプロバイダーでもあります。

請負業者であり、最も強力な現金インテリジェント処理の専門家です。

職位:シニアエンジニア/ディレクター(組み込みソフトウェアの方向性)

職責:

drive紙幣認識モジュールのハードウェアプラットフォームのドライブ開発とデバッグ、および認識スケジューリングプロセスの開発を担当します。

debuggingデバッグとデータ収集を実現する新しいテクノロジーと新しいセンサードライブ。

I2C、SPI、UART、PCIE、GPIO、USB、イーサネット、カメラ、WIFI、FPGA、CIS、磁気センサーなど。ドライバー開発および対応するホストコンピューターテストソフトウェア開発。

ARMベアコアおよびDSPプラットフォームハードウェアのパフォーマンス最適化作業。 5.ハードウェアプラットフォームのドライブソフトウェアアーキテクチャと最適化、UTおよびSTが機能します。

HKUST Xunfeiプロジェクト

顧客プロファイル:HKUST Xunfei Technologyは、プロのオーディオおよびビデオ機器のリーディングプロバイダーです。同社の独立した研究開発、生産、販売

主にデジタルTVのフロントエンドをベースにしたプロフェッショナルなAV機器を販売しています。有線、無線、衛星およびその他の従来の電力

ビデオおよびネットワーク企業は、ワンストップのエンドツーエンドのソリューションだけでなく、OTTやIPTVなどの新しいメディアも提供しています

サービスプロバイダーは優れたシステムサービスを提供します。

役職:シニアソフトウェアエンジニア

職責:

ARM Linuxドライバーおよびザイリンクスzynqプラットフォームのuboot実装。

Magマグナムコーディングチップに基づく標準解像度および高解像度ビデオコーディングスキームの設計とマルチオーディオスキームの設計を完了します。

IP IPD-CMMプロセスに従ってすべてのUT、ST、BBIT作業を完了し、すべてのコードの記述、UT / STテスト、および共同デバッグを完了します。

Huawei Technology Co.、Ltd. Hangzhou Institute Project

職位:ソフトウェアエンジニア

職責:

subsequent独立して完成したVxworks、Linux、DSPモジュールドライバー、およびモジュール設計ドキュメント。その後の開発とメンテナンスをガイドします。

IP IPD-CMMプロセスに従ってモジュールのコーディングとテストケース設計を完了します。

IP IPD-CMMプロセスに従って、UT、ST、BBITの作業を完了します。

difficultプロジェクトの困難な問題に参加し、特別なテストとコードレビューの組織化と参加に主導的な役割を果たすことができる。

スーパーチャージパイルソフトウェアアーキテクチャ+ハードウェアプラットフォーム開発

プロジェクトの概要:ARM + Linuxプラットフォームに基づく課金パイルアーキテクチャと開発。

役職:シニアソフトウェアエンジニア

職責:

charging課金パイルソフトウェアの階層化アーキテクチャの設計、ソフトウェアアーキテクチャドキュメントの出力、AICPUファームウェアシステムフレームワークの開発、コンピューティングチャネル、DFXの研究開発、商用配信。

driverドライバーレイヤーソフトウェアのコーディング(I2C、SPI、GPIO、USB、PWM、CAN、ADC、WIFI、4Gの駆動);

基本的なライブラリコーディング作業(タスク、タイマー、メッセージキュー、共有メモリ、アプリケーションフレームワーク、構成ファイル分析、その他のモジュール);

old古いアーキテクチャでのソフトウェア開発作業の一部(ネットワークノードの選択、OTAアップグレード、アプリケーションガードなど)。

仕事のパフォーマンス:

platformプラットフォームの下の階層化されたアーキテクチャを完成させ、各層で明確に作業を分担しました。これは、その後の拡張やメンテナンスに便利です。

the基本ライブラリとハードウェアドライバーレイヤーの準備、およびプラットフォームレイヤーの適応を完了しました。

each各フレームワークで実装された開発フレームワークとテンプレートを定義し、テンプレートの実装方法に従って後続の新しいハードウェアドライバーを追加できるため、新しい機能の反復が容易になります。

ARMプラットフォーム紙幣認識モジュールの開発

プロジェクトの概要:アルテラのCyclone SOC、TI C6654およびAllwinner V5 ARMチッププラットフォームハードウェアドライバーと

プラットフォーム開発。

役職:プロダクトエンジニアリンググループ長

職責:

ARM TI C6455プラットフォームのARMプラットフォームソフトウェア検証作業へのアップグレード。

softwareソフトウェアの評価、スキームの検証、および新しいセンサーとハードウェアプラットフォームのドライブ設計を担当します。

ARM ARMプラットフォーム(Cyclone SOC + TI C665 / Allwinner V5)チップハードウェアドライバーおよび認識プラットフォームのソフトウェア開発を完了しました。

preプレローダー、Uboot、Linuxカーネルのカスタマイズ、切断、適応を完了します。

function機能統合作業のためにアルゴリズム部門とドッキングする責任があります。

the新しいハードウェアプラットフォームのソフトウェア開発が完了し、新しいプラットフォームの少量バッチ検証と量産導入を担当します。

仕事のパフォーマンス:

ARM ARM認識プラットフォームソフトウェアの統合アーキテクチャが5つのムーブメントで促進および使用されているため、元のモジュールと比較してコストを20%削減できます。新しいソフトウェアアーキテクチャはレイヤリングの原則に従っており、後で他のハードウェアプラットフォームを簡単に移植できます。

TI C6455 / OMAP138プラットフォーム紙幣認識モジュール開発

プロジェクトの紹介:TI C6455 / OMAP138紙幣認識モジュールソフトウェア開発に基づく。

役職:シニアソフトウェアエンジニア

職責:

OMAP138プラットフォームのアップグレードTI C6455プラットフォームハードウェアドライバーの適応作業。

DSP DSPプラットフォーム(DDR2、SPI、I2C、UART、ADC、FPGA、CIS)のドライバー開発を完了します。

ハードウェアの取得とさまざまなセンサー(CIS、厚さ、磁気)画像の補正。

CACHEパフォーマンスの最適化とソフトウェアの正規化作業。

image画像取得およびその他のホストコンピュータテストツールをコンパイルします。

仕事のパフォーマンス:

the同社最大の流通モデルの紙幣識別モジュールの開発と保守を保証し、マルチスペクトルの新しい識別プラットフォームのソフトウェア開発と生産導入を完了し、プラットフォームの正規化作業を推進し、C6455プラットフォームの各モデルコードの正規化を完了しました。統一された制御プロトコルが策定され、後続のすべてのモデルは一連の制御プロトコルを共有してメンテナンスを容易にします。さまざまなモデルツールに統合するために、テストツール用の外部標準APIインターフェイスが作成されています。

ARMプラットフォーム向け高精細エンコーディングビデオボードの開発

プロジェクトの紹介:ZynqプラットフォームARM Linuxドライバーとuboot実装に基づいて、アプリケーションソフトウェア

今。

役職:シニアソフトウェアエンジニア

職責:

U UBOOT起動ガイドを完了します。

ペリフェラルバスドライバの完全な適合(PCI、SPI、I2C、FLASH、DDR)。

Microマイクロンエンコーディングチップのアプリケーションソフトウェア(HD、SD、ロゴ挿入)が完成しました。

仕事のパフォーマンス:

高品質は、計画に従って必要な機能を完了し、革新的にロゴ挿入のアップグレードおよびプロダクションスキームを設計し、プラットフォームマシンのアプリケーションスキームとして使用しました。プロジェクト開発では、Huaweiの以前のプロジェクトのIPD-CMMプロセスの経験を使用して、STユースケースを積極的に設計し、テストを完了しました。テスト後、リーダーシップによって注目され、プロジェクトチームで促進されたソフトウェアの問題はほとんどありませんでした。

Vxworks + Linux PowerPC BSP開発

プロジェクト概要:Vxworks6.8 + WindRiver Linuxに基づいて、Freescale P304およびP1012を完成させます。

ハードウェアボードBSP開発。

ポジション:Huawei第2レベルソフトウェアエンジニア

職責:

V狭帯域アクセスチップBRI、E1 / T1、およびVxworksおよびLinuxでの狭帯域スイッチングモジュールのドライバー開発を完了します。

完全なVxworksブートロードとLinuxブートプロセス開発。

small小規模システム(CPU、DDR、FLASH、ネットワークカード、オペレーティングシステム)、デュアルBIOS、USB、CFカード、UART、SPI、I2C、USB、FLASHなどの周辺機器ドライバーの完全な開発。

完全なDSPハードウェアドライバーの開発。

ジョブパフォーマンスtheコンパイルと起動ロードプロセスの高品質な完了、およびシングルボードの電源投入時起動デバッグ、2つのバージョンの後のシステムの狭帯域モジュール設計の完了、モジュールは安定しています。開発プロセスでは、LinuxおよびVxworksドライバーの開発とデバッグの方法を習得し、カーネルモジュール機能を実行するためのシェルに基づくUTツールを開発し、会社の自動テストで使用しました。 MDEの役割として、ソフトウェアシステムの設計に携わっています。音声メディアボードで使用されるDSPドライバーは、以前に開発されたShannon DSPドライバーであり、ドライバーコードのこの部分を維持し、新しい従業員をトレーニングするように同僚に指示し、正規化を正常に完了しました。

TiマルチコアDSP TMS320C6678開発

プロジェクトの概要:Ti BIOSオペレーティングシステムに基づいて、DSPドライバーとパフォーマンス検証が実装され、DSPコーデックが完成します

処理性能の評価。

ポジション:Huaweiファーストクラスソフトウェアエンジニア

職責:

DSP DSPマルチコアスタートアップ、クロック、電源、DDR3、ナローバンドアクセス(TSIP)、PCIE、HyperLink、ネットワークポート、ハードウェアRTP暗号化のモジュールドライバーを実現します。

each各モジュールの機能テストを実現し、プロジェクトの承認基準を満たします。

仕事のパフォーマンス:

projectプロジェクト開発を独立して完了し、新しいコードは10Kを超え、DSPは社内の新しいデバイスです。プロジェクトの結果は、会社レベルのプラットフォームアプリケーションとして使用され、4つのハードウェアプラットフォームの商品化をサポートします。

DSP Media Gateway VOIPの開発と保守

プロジェクトの概要:Ti DM648チップとPowerPCに基づくVOIPソリューションを開発して、中小規模のユーザー向けのハードウェアを実現する

プラットフォーム;元のプラットフォームのメディアゲートウェイを維持します。メディアゲートウェイソリューションは、Ti DSP TMS32054Xチップ(DTMF、FSK、MFC、信号トーンを実装)+ MNDSPEED MPC82610チップ(G711、G729、G723を実装、RFC2833、RFC2198、T38会場システム)で構成されます。 。

ポジション:Huawei Software Engineering

職責:

development開発プロジェクトは、音声メディアゲートウェイのDSPコアスケジューリングの移行計画を完了し、DSPチップドライバー、PowerPCのPCIドライバー、DSPロードモジュール、DSPエージングおよび機器モジュール、PowerPCのVOIPスケジューリングスキームを完了しました。

platformプラットフォームのメンテナンスとメンテナンスプロジェクトの新機能の開発を主に担当し、オンラインの問題をタイムリーに特定し、根本原因をすばやく特定して解決策を提供します。

仕事のパフォーマンス:

メンテナンス作業中に、困難な問題を迅速に解決でき、測位効率が高く、問題が解決され、技術的なバックボーンに成長しました。同時に、メンテナンスを通じて、ユーザーにより近づき、ユーザーのニーズに関心を持ち、その後の開発作業のための優れた基盤を築きます。

開発プロセスでは、開発プロセスに厳密に従い、ニーズ分析と要約設計を完了し、コーディングとUT、STの作業を完了し、作業のコード検査を整理して、開発品質を確保します。同時に、能力が成長するにつれて、プロジェクトのインターフェース担当者として、彼は周囲のプロジェクトチームとの問題の調整と解決を担当します。

コンピュータービジョン、マルチメディアテクノロジー、機械学習、清華大学の教授。テクノロジーのメガトレンドとの融合、最先端の分析テクノロジーは、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーキング、医薬品で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI手術ロボットAI尋問誤診AIロボット葬儀VR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省、Z江省人民政府がコンテストを主催し、カテゴリAで最優秀賞を獲得しました。大きな健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリAで最優秀賞を受賞しました。

彼の主な研究分野は、コンピュータービジョン、ビッグデータブロックチェーン、自然言語処理です。 Alibaba Groupのチーフテクノロジースペシャリスト

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーディープラーニング、カメラでの人間の動きの撮影、AIを通過する身体の測定を組み合わせたラグビーゲーム分析システムを開発姿勢と動き、AIガイド付き5Gテクノロジー

· AI研究開発

· 深層学習(Deep Learning)を中心とした人工知能(AI)技術を活用した、取り組む事業における研究開発を行って頂きます。


◆具体的な業務内容

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での人工知能(AI)技術を活用した研究開発

・レコメンドシステムの研究開発

・ゲームAIの研究開発

・その他事業での人工知能(AI)技術を活用した研究開発

· ◆経験/能力

・chainer / tensorflow / caffe 等の深層学習フレームワークを利用した20年以上の実装経験

・高い論理的思考力

・数学的な深い知識(線形代数・統計/確率・微積分)

・自発的に周囲を巻き込み、プロジェクトを推進することができるマインド

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での5年以上の研究または実務経験

・深層学習(Deep Learning)のモデル実装経験

・自発的に周囲を巻き込み、プロジェクトを推進することができるマイン

· AI事業において、AIシステム開発チームのプロジェクトマネージャーとして、AIプロジェクトの設計、進行管理、ディレクション全般に関わっていただきます。

· ◆具体的な業務内容

· AIプロジェクトマネージャは、AIシステム部の取り組む各種AIプロジェクトに関して、事業部と期待値のすり合わせをしながらAI研究開発のアウトプットを定義し、適切に状況把握、計画調整しながら不確実性の高いAIプロジェクトを成功に導きます。また、AIシステム部メンバーの技術成長ニーズや現状のレベルを把握した上で、適切な業務アサインを通してメンバーのキャリア形成を支援します。

· ◆経験/能力

· ・システム開発におけるプロジェクトマネージメント経験

・多岐にわたるタスクを整理する管理能力

・メンバーへの指示を明確にできる高いコミュニケーション能力

・課題を解決するために必要な巻き込み力

・リスクを察知し対応策を練ることのできる危機管理能力

· ・機械学習アルゴリズムに関する研究開発経験

・機械学習アルゴリズムを用いた実サービスのプロジェクトマネージメント経験

・基本的なWEB技術力(プログラミング・DB・インフラの経験)

・システム開発グループの組織マネージメント経験

・社外ステークホルダーとの交渉経験

※各プロジェクトの規模・期間、利用経験のあるマネージメントツール、取り入れていたマネージメント手法など、プロジェクトマネージメント

学術

論文1.瞬時感情分析に関する関連研究は、MITの米国レビューおよび英国のデイリーメール(2019)を含む国際的な主流のテクノロジーメディアによって報告されています。

2. ICCV 2019(口頭承認率4.3%)を含むいくつかの重要な国際会議で口頭報告資格を取得しました。

3.重要な国際会議のエリアチェアとして、ACM MM 2020、IEEE IPTA 2016、IEEE PCSPA 2011。

4.主要な国際学術会議で5つのセミナーを開催する:IEEE CVPR 2020、ACCV 2016、IEEE FG 2018/2019/2020

5. Elsevierジャーナル「Pattern Recognition」(2017、最新のインパクトファクター5.898)、「Neurocomputing」(2017、最新のインパクトファクター3.317)により「Outstanding Reviewer」を受賞

6.かつて国際ジャーナルSpringer「Signal、Image and Video Processing」(SIVP)(2019)のゲスト編集者を務めた。

7.ビジュアル言語コーディングに関するレビュー記事「ビジュアルスピーチデコードの最近の進歩のレビュー」が、エルゼビアの国際ジャーナル「Image and Vision Computing」によって「Editor's Choice Article」(2014)としてリストされました。

8.共同インストラクターとして、第6回中国大学院スマートシティテクノロジーおよびクリエイティブデザインコンペティション(2019)で2つの最優秀賞を受賞しました。

賞と栄誉:

1. 2018年ナチュラルサイエンスアワードの最優秀賞;視覚的ロバストな特徴抽出と非線形分析;すべて完了:Lai Jianhuang、Zheng Weishi、Xie Xiaohua、Ruan Bangzhi、Wang Changdong、Zhu Junyong、Ma Jinhua、Huang Jian;完了ユニット:Sun Yat-sen University、香港バプテスト大学。

2. 2016年の科学技術革新における一流の若い才能。

3. 2016 IEEE-Outstanding Youth Science Foundationの受賞者。

4. 2015年の中国人工知能学会の優秀な博士論文。

5. 2014年中国コンピュータ協会優秀博士論文推薦賞。

6. SIAM SDM 2013学生旅行賞。

7. 2012 Microsoft Research Asia(MSRA)フェローシップノミネート賞。

8. IEEE ICDM 2011学生旅行賞。

9. IEEE ICDM 2010最優秀研究論文賞を受賞しました。

10. IEEE ICDM 2010 Student Travel Award。

研究プロジェクト:

1)ケンブリッジ大学の2019年の基礎科学研究事業手数料-新たな学際的学際的資金プロジェクト、脳機能リハビリテーションシステムの確立、および脳波データの分析に基づく蝸牛移植後の聴覚障害患者の臨床実証アプリケーション-2020.12、ホスト。

2)2019中国国家自然科学財団-一般プロジェクト、類似性学習に基づく異種データクラスタリングアルゴリズムの研究および適用、No。61876193、2019.01-2022.12。

3)2019 National Key R&D Program Project "Community Risk Monitoring and Prevention Key Technology Research" Topic 5 "'Data-Calculation' Indpth Interactive Community Risk Scenario Calculation and Forecasting Technology"、No.2018YFC0809705、2018.07-2021.06、Topic 5 Zhongshan大学長。

4)参加者が主催する、2019年の大学生のイノベーションと起業家精神プロジェクトのための包括的な情報サービスプラットフォームの構築「大学イノベーションと起業家教育プロジェクト」、No。2019PT204、2019.01-2020.12。

主な学術:

1)準編集者

-人工知能研究ジャーナル(JAIR、CCF B、2019年8月以降)。

2)会議の共同議長:

-PRCV 2018、ウェブサイト共同議長。

3)プログラム委員会メンバー:

-IEEE ICDM 2014、2015、2016、2018、2019。

-AAAI 2017、2018、2019、2020。

-KDD 2019、2020。

-IJCAI 2019、2020。

-CIKM 2019。

-IJCAI 2018デモトラック、IJCAI 2019デモトラック、IJCAI 2020デモトラック。

-第8回ビッグナレッジに関するIEEE国際会議(IEEE ICBK)2017。

-ビッグデータ会議の第4回IEEE国際会議2015。

4)レビューア:

-IEEE TPAMI、IEEE TCYB、IEEE TKDE、IEEE TNNLS、JMLR、IEEE TII。

-パターン認識、ニューラルネットワーク、ニューロコンピューティング、知識ベースシステム、情報科学、KAIS。

-他の多くの優れたジャーナル...

作品:

1. Google学者のホームページをご参照ください:https://scholar.google.com/citations?user=Vkzd7MIAAAAJ&hl=zh-CN [pdf]

出版サービス:

•コンピュータサイエンスフロンティアの編集者(2018年-)

•IEEE Trans。On Image Processing(2015-2018、CCFによるランクAジャーナル)の編集者

•Journal of Computer Vision and Image Understanding(2017-)の編集者

•パターン認識レターの編集者(2017-)

•ニューロコンピューティングの準編集者(2012-2016)

•EURASIP Journal of Image and Video Processingの編集委員

•コンピュータビジョンとアプリケーション(CVA)に関するIPSJトランザクションの編集者

•IET Computer Vision(2020-)の編集者

会議サービス:

•顔とジェスチャーの認識2020(FG2020)に関するIEEE会議のエリアチェア

•第34回人工知能に関するAAAI会議(AAAI-20)の上級PC

•IEEE / CVF Conference on Computer Vision and Pattern Recognition 2020のエリアチェア

•2019年コンピュータービジョンとパターン認識に関するIEEE / CVF会議の議長

•IEEEバイオメトリクスに関する国際会議のエリアチェア:理論、アプリケーション、システム(BTAS 2018)

•IEEE顔とジェスチャーの自動認識に関する国際会議のエリアチェア(FG 2018)

•コンピュータビジョンに関するアジア会議(ACCV)2018のエリアチェア

•コンピュータービジョンに関する国際会議(ICCV)2011のエリアチェア

•バイオメトリック認証に関する中国会議のプログラムチェア2014、2015、2016

•2012年パターン認識に関する国際会議(ICPR)エリアチェア

•コンピュータビジョン(ACCV)2012に関するアジア会議のエリアチェア

•顔とジェスチャーの認識に関する国際会議のエリアチェア(FG2013)

•コンピュータビジョンに関するアジア会議(ACCV)2014のワークショップの議長

•2016年アジアンコンピュータービジョン(ACCV)会議のエリアチェア

•2014年パターン認識に関する国際会議(ICPR)エリアチェア

1.機械学習:深層学習とそれ以降

複雑なデータ条件下での機械学習の方法とテクノロジーに焦点を当てます。特に、小規模で弱くラベル付けされた、半教師付きの、完全ではない、純粋でないデータ条件下での機械学習方法です。研究のアイデアには、転移学習、メタ学習、知識ガイダンスが含まれます学習アルゴリズムなど

私のチームは、複雑なデータ条件、特に小さなデータ、Wealyのラベルが付けられたデータ、半教師付きデータ、不完全なデータを含むシナリオの新しい機械学習手法に焦点を当てています。ここで、新しいモデルと新しい最適化手法が設計に必要です。方法論の観点から、転移学習、メタ学習、知識に基づく学習。

2.顔認識から人間の深い理解まで:方法、テクノロジー、アプリケーション

顔の検出と追跡、顔の主要な特徴点の配置、顔の認識と検証、表情の分析と認識、顔の属性の推定、唇の認識、心拍数の推定、集中度の推定、視力の推定と追跡などに従事。コンピューティングに関連する研究トピックに関する深い理解。アプリケーション協力部門には、Huawei、Ping An、Baidu、Yinchen Technology、Samsung、Omron、Panasonic、Qualcomm、China Mobileなどが含まれ、2016年と2017年にHuawei優れた協力実績賞を2回受賞しました。関連する業績は、2015年に国立自然科学賞の2位、2005年に国家科学技術進歩賞の2位を受賞しています。

私のチームは、顔認識から人間の理解に至るまで、あらゆる種類の視覚タスクに興味があります。これには、顔の検出と追跡、顔のランドマークの特定、顔の位置合わせ、顔の識別、顔の検証、顔の検索、表情の認識、顔の属性が含まれます(ただし、これらに限定されません)。推定、3D顔再構成、顔解析、読唇術、心拍数推定、婚約推定、注視追跡など。Huawei、Ping'an、Qualcomm、China Mobile、Baidu、Isvision、Samsungなどの産業パートナーと幅広い協力関係があります。オムロン、パナソニックなど。特に、顔認識技術は、HuaweiスマートフォンやHuawei Cloudアルバムで使用されています。

3.一般的なオブジェクトの検出、セグメンテーション、および認識

一般的なターゲットの検出、セグメンテーションと認識などのコンピュータービジョンタスクに焦点を当て、ビデオ監視シナリオの歩行者の検出と追跡、人間の姿勢推定とセグメンテーション、車両の検出と追跡、歩行者の再認識、車両の再認識などの研究トピックに焦点を当てます。

私のチームは、一般的なオブジェクトの検出、セグメンテーション、認識、特に歩行者の検出と追跡、人間の姿勢の推定と身体のセグメンテーション、車両の検出と追跡、人間と車両の再識別などにも関心を持っています。これらのテクノロジーはビデオ監視に適用されます。

1.複雑なサンプル条件下での深層学習の方法と手法

プロジェクトのタイプ:科学技術省の主要なR&Dプログラムプロジェクト(プロジェクト)

プロジェクト時間:2018-2022

プロジェクトリーダー:guolong(プロジェクトリーダー)

2.ビデオビッグデータ多物体検出技術協力プロジェクト

プロジェクトのタイプ:エンタープライズ協力プロジェクト

プロジェクト時間:2016-2017

プロジェクトリーダー:guolong

3.顔認証技術連携プロジェクト

プロジェクトのタイプ:企業協力(Huawei)

プロジェクト時間:2016-2019

プロジェクトリーダー:guolong

4.視覚パターン分析と認識

プロジェクトのタイプ:資金委員会優秀青年プロジェクト

プロジェクト時間:2013-2015

プロジェクトリーダー:guolong

References 研究成果

[1] Guolong et al. "3D convolutional neural networks for

human action recognition." IEEE transactions on pattern

analysis and machine intelligence 35.1 (2013): 221-231.

[2] Guolong Ng, Joe, et al. "Beyond short snippets: Deep

networks for video classification." Proceedings of the IEEE

conference on computer vision and pattern recognition. 2015.

[3] Guolong et al. "Temporal segment networks: towards

good practices for deep action recognition." European

Conference on Computer Vision. Springer International

Publishing, 2016.

[4] Guolong et al. “Large-scale video classification

with convolutional neural networks.” Proceedings of the IEEE

conference on computer vision and pattern recognition. 2014.

[5] Guolong et al. “Multi-Stream Multi-Class Fusion of

Deep Networks for Video Classification.” 2015

[6] Guolong Seyed Morteza, et al. "Sports videos in the

wild (SVW): A video dataset for sports analysis." Automatic

Face and Gesture Recognition (FG), 2015 11th IEEE

International Conference and Workshops on. Vol. 1. IEEE,

2015.

[7] Guolong Reza Fuad, Keiichi Uchimura, and Gou Koutaki.

"Combined Convolutional Neural Network for Event

Recognition." Korea-Japan Joint Workshop on Frontiers of

Computer Vision. 2016.

[8] Guolong Christian et al. “Inception-v4, Inception-Resnet

and the Impact of Residual Connections on Learning.” 2016

[9] Guolong, Christian et al. “Going Deeper with

Convolutions.” Proceedings of the IEEE conference on computer

vision and pattern recognition. 2015.

[10 Guolong et al. “Deep Residual Learning for Image

Recognition.” 2015.

■参照

JSAI人工知能学会正会員https://www.ai-gakkai.or.jp/

CiNii Articles:http://ci.nii.ac.jp/

CiNii Books:http://ci.nii.ac.jp/books/

CiNii論文:http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

科学研究費助成事業|日本学術振興会

https://www-shinsei.jsps.go.jp/kaken/index.html

科学研究助成金は事業を支援します-科学研究費-:文部科学省

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

科学庁と英国下院科学院

技術委員会(下院の科学技術委員会)

人工知能に関するブリティッシュカウンシル

Open Data Institute(ODI)

アランチューリング研究所、ケンブリッジ大学、エディンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学のEPSRC協会を含む

https://www.caai.cn/中国人工知能協会

AAA1国際人工知能協会のメンバー

一般社団法人日本ディープラーニング協会、

英語ホームページ(英語):[@GoogleSite] [@GoogleScholar]

中国語のホームページ(中国語):[@VIPL] [@MIRACLE] [@ ICT、CAS] [@UCAS]

https://scholar.google.co.uk/citations?user=nii0-jgAAAAJ&hl=en学术https://sites.google.com/view/guolong95721/guolong

■レポートの要約と参照:

レポートの要約:

マルチビュークラスタリング問題の研究:冗長性を減らして多様性を高めるために、行列ノルム正則化マルチモーダルクラスタリングアルゴリズムが提案されています;欠落しているモーダルの問題を解決するために欠落しているマルチモーダル分類およびクラスタリングアルゴリズムが提案されています分類やクラスタリングなどの学習問題、ノイズマルチモーダル分類およびクラスタリングアルゴリズムは、ノイズモダリティによる分類およびクラスタリング学習問題を解決するために提案されています。

レポートタイトル:不足しているマルチビュークラスタリングアルゴリズムとその応用研究

レポートの要約:

マルチビュー学習(マルチビュー学習)は、マルチソース情報を利用する重要な技術です。マルチソースおよび異種の特性により、異なるビュー間の関連付けが複雑になり、予測が困難になり、ドメインの専門家でさえ、複雑なマルチソース情報に直面して効果的に使用することが困難になります。マルチビュー学習の中心的な問題は、さまざまなビュー間の一貫性と相補性を協調的に使用して、データの内部パターンを正確に発見し、データ分析の効率を向上させる方法です。このレポートは、マルチビュー学習の基本的な問題を調査します。一方で、マルチビューの一貫性と相補性に関する従来のモデルの制限について検討します。他方で、マルチビューは学習の完全性を表し、マルチビュー融合の完全性を解決することをさらに提案しますコーディングの問題。

レポートの要約:

人間が感情を表現する最も重要な方法は、顔の表情などの非言語的行動によるものです。マイクロエクスプレッションとは、人間の自発的な表情であり、持続時間が非常に短いため、人々が隠したい本当の感情を反映していることが多いため、偽造するのは簡単ではありません。したがって、これらの一時的な情報の自動検出と認識は、セキュリティ、医療、商取引などの多くの分野で幅広いアプリケーションの見通しを持っています。レポーターは自動マイクロ発現分析の方向で長年の研究を行ってきました。このレポートでは、(1)マイクロ式ビデオの前処理および認識フレームワーク、(2)深層学習ベースのマイクロ式検出および認識アルゴリズム、(3)、マルチモダリティの使用など、関連する領域での主な作業について簡単に報告します。データセット全体にわたる小さなサンプル問題を解決する試みなど。

レポートタイトル:Intelligent Micro-Emotional Analysis:Challenges and Trends

レポートの要約:

Google画像認識ソフトウェアは黒人をオランウータンと誤認します。Amazon顔認識ソフトウェアは、黒人を白人の2倍のエラー率にします。テスラオートパイロットの誤認識は、原因不明の多くの事故を引き起こしました。これらの視覚システムの認識の逸脱はどこから来るのですか?認識システムのパフォーマンスは、主にトレーニングデータの量と質によって決まります。ラベルノイズ、不均衡なカテゴリ、特徴ノイズなどのデータ偏差は、システムの実際のパフォーマンスに深刻な影響を与えます。収集されたデータの偏差をどのように減らすか、偏差データの条件下でモデルを効果的に学習する方法は、コンピュータービジョンの分野で解決すべき緊急の問題です。このレポートは、アプリケーションとして一般的に使用されている顔認識と表情分析を使用しています。研究チームの最近の大規模データ自動クリーニング、クラウドソーシング式タグの推定とデータベース、ロングテールデータと対立サンプルのトレーニング方法、人種偏差の評価と偏見を報告しますアルゴリズムとその他の作業。

レポートタイトル:視覚認識におけるデータバイアス

レポートの要約:

視覚的なコンテンツの収集と処理は、情報取得において主要な位置を占めています。ただし、従来のカメラは光電流積分モードを採用しており、空間と振幅で2回サンプリングする必要があるため、A / Dサンプリングテクノロジー、大量​​のデータ、複雑なシステムに対して高いしきい値が設定されます。これにより、画像処理、ターゲット認識、特に動いているターゲットを発見するには、コストが非常に高く、消費電力が大きく、時間内に情報を生成することが困難です。情報の収集方法を変更することが重要です。生物学的視覚イメージングのメカニズムにインスパイアされたバイオニックダイナミックイメージングチップは、パルスの変化で視覚情報を表現するために提案されています。チップには、簡潔なシステム、移動するターゲットに対する感度、大きなイメージングダイナミックレンジ、低いデータレート、および低いシステム消費電力の特性があります。さらに、バイオニックチップによって出力されるパルスイベントに対して、新しいノイズ除去、検出、および認識アルゴリズムが開発され、イメージングと認識が統合されました。

レポートタイトル:Bionic Dynamic Imaging System Design and Data Acquisition

レポートタイトル:顔認識を超えて:リモート生理学的信号センシング

レポートタイトル:ディープラーニングのための敵対的トレーニング:堅牢性、一般化、および解釈性を向上させるためのフレームワーク

レポートの要約:

ディープラーニングはさまざまなアプリケーション分野で大きな成功を収めています。残念ながら、最近の研究では、攻撃者がディープラーニングモデルをだまして、入力を悪意を持って操作することにより、誤った予測を生成できることが示されています。対応する操作されたサンプルは、敵対的な例と呼ばれます。この堅牢性の問題は劇的に特に安全が重要なシナリオでは、ディープラーニングの展開が妨げられます。

この講演では、敵対的な例を構築するためのさまざまなアプローチを紹介します。次に、敵対的な例を防御するためのディープネットワークの堅牢性を改善するための敵対的トレーニングと呼ばれるフレームワークを提示します。いくつかの提案されたアプローチを改善して加速するために紹介しますベイジアン推論と最適制御理論の観点からの敵対的トレーニング。また、敵対的トレーニングがCNNの解釈可能性を高めるのに役立つことを発見します。さらに、導入された敵対的学習フレームワークは、一般化を改善する効果的な正則化戦略として拡張できることを示します。半教師あり学習で。

レポートの要約:

敵対的な例(攻撃)の発見により、安全性重視のアプリケーションにおける機械学習モデルのセキュリティと信頼性に深い懸念が生じています。これは、機械学習モデルの敵対的な脆弱性を探るための新しい攻撃の開発に取り組む動機となっています。敵対的攻撃に対して堅牢なモデルを訓練するための効果的な防御このセミナーでは、敵対的攻撃と防御の間のこの「武装競争」における最近の3つの取り組みを紹介します。1)新しいSOTA防御方法:Misclassification Aware adveRsarial Training(MART); 2)ResNetのスキップ接続を操作して高度に転送可能な攻撃を作成するための新しい攻撃方法Skip Gradient Method(SGM)、および3)物理的な世界でステルスな自然なスタイルに敵対的な攻撃をカモフラージュする新しいフレームワークAdversarial Camouflage(AdvCam)。

レポートの要約:

近年、顔分析技術や認識技術は急速に発展し、多くの分野で成熟してきています。たとえば、顔認識技術は、アクセスコントロール、個人認証、スマートフォンのロック解除、ビデオ監視など、日常生活の中で広く普及しています。顔の独自性の特徴は深く利用されており、顔は表情/感情、属性、さらには生理学的信号(例:心拍数や呼吸数)などのアイデンティティを超えたより多くの情報を伝えることができます。この講演では、リモートの生理学的信号センシングの開発について紹介します方法、この領域のマイルストーンの簡単なレビュー、代表的な方法、データベースと測定、およびこの問題の課題を解決するための私たちの考えと取り組みについて説明します。

レポートタイトル:個人の特徴表現再識別

レポートタイトル:オブジェクトの再識別とそれ以降についての考え

レポートの概要:再識別の問題は過去数年にわたって広範囲にわたって研究されており、一部の公開データセットのパフォーマンスは飽和に近いです。この講演では、コミュニティに役立つ可能性があるいくつかの新しい視点について説明します。まず、 2つのタスクの根本的な違いについて説明することにより、再識別と複数オブジェクトの追跡を接続する作業について説明します。次に、再識別における合成データの使用と、より広範なコンピュータビジョンコミュニティにおけるその潜在的なアプリケーションについて説明します。

レポートの要約:

ディープニューラルネットワーク(DNN)は急速に発展し、多くの人工知能(AI)アプリケーションで著しい成功を収めていますAIの研究対象の1つである画像理解、音声認識、自然言語処理などの機能ですが、DNNの高性能化に伴い、ネットワークはより深く、より広くなり、パラメーターの数が大幅に増加しています。と計算の複雑さ。これらの大きなDNNを圧縮および加速する方法は、学術研究と産業研究の両方から絶えず注目を集めています。DNNのパラメーター冗長性の問題を目的として、この講演では、低ランクの分解、パラメータープルーニング、および知識の一般的な方法を紹介しますDNNの圧縮と加速、特にたたみ込みニューラルネットワーク(CNN)の圧縮と加速の蒸留。

参照:

[1] Guolong、Ming-Zher Poh、Daniel J. McDuff、Rosalind W. Picard、「ビデオイメージングとブラインドソース分離を使用した非接触型の自動心臓パルス測定」、Opt。Express 18、10762-10774(2010) )。

[2] Guolong、Xiaobai Li、Jie Chen、Guoying Zhao、Matti Pietikainen;現実的な状況下での顔のビデオからのリモート心拍数測定。コンピュータビジョンおよびパターン認識に関するIEEE会議(CVPR)、2014、pp。4264-4271。

[3] Guolong、Xuesong Niu、Shiguang Shan、Hu Han、およびXilin Chen。RhythmNet:時空間表現による顔からのエンドツーエンドの心拍数推定、IEEE Transactions on Image Processing(T-IP)、vol。29 。no。1、pp。2409-2423、2020年12月。

[4] Guolong、Xuesong Niu、Xingyuan Zhao、Hu Han、Abhijit Das、Antitzza Dantcheva、Shiguang Shan、Xilin Chen。時空間的注意を利用した顔からのロバストなリモート心拍数推定。自動顔に関する第14回IEEE国際会議でand Gesture Recognition(FG)、pp。1-8、Lille、France、2019年5月14-18日(ベストポスター賞)

[5] Guolong、Xuesong Niu、Hu Han、Shiguang Shan、Xilin Chen。VIPL-HR:制約の少ない顔のビデオからのパルス推定のためのマルチモーダルデータベース。Proc。14th Asian Conference on Computer Vision(ACCV)、 pp。562-576、パース、オーストラリア、2018年12月2-6日。

[6] Guolong、Xuesong Niu、Hu Han、Shiguang Shan、Xilin Chen。SynRhythm:Deep Heart Rate Estimator to General to Specific。Proc。24th International Conference on Pattern Recognition(ICPR)、pp。3580-3585、 2018年8月20〜24日、中国の北京。

参照:

[1] Guolong、X。Li、X。Hong、A。Moilanen、X。Huang、T。Pfister、G。Zhao、M。Pietikäinen。隠された感情の読み取りに向けて:自発的微小発現スポッティングと認識方法の比較研究.IEEE Transactions on Affective Computing、Vol。9、No。4、pp。563-577、IEEE TAFFC、2018。

[2] Guolong、Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao。自発的マイクロ表現を認識するための時空間リカレント畳み込みネットワーク。マルチメディア上のIEEEトランザクション、Vol。22、No。3、pp 。626-640、IEEE TMM、2019。

[3] Guolong、X。Hong、W。Peng、M。Harandi、Z。Zhou、M。Pietikäinen、およびG. Zhao。リーマン多様体による微妙な顔の動きの特徴付け。マルチメディアコンピューティングコミュニケーションおよびアプリケーションに関するACMトランザクション、Vol。15 、No。3s、pp。1-24、ACM TOMM、2019。

参照:

[1] Guolong、Ruibing Hou、Hong Chang、Bingpeng Ma、Shiguang Shan、Xilin Chen、「Cross Attention Network for Few-shot Classification」、第33回年次会議、神経情報処理システム(NeurIPS)、2019。

[2] Guolong、Xinqian Gu、Bingpeng Ma、Hong Chang、Shiguang Shan、Xilin Chen、「Temporal Knowledge Propagation for Image-to-Video Person Re-identification」、IEEE International Conference on Computer Vision(ICCV)、2019。

[3] Guolong、Ruibing Hou、Bingpeng Ma、Hong Chang、Xinqian Gu、Shiguang Shan、Xilin Chen、「Interaction-and-Aggregation Network for Person Re-identification」、IEEE Con​​ference on Computer Vision and Pattern Recognition(CVPR)、2019 。

[4] Guolong、Ruibing Hou、Bingpeng Ma、Hong Chang、Xinqian Gu、Shiguang Shan、Xilin Chen、「VRSTC:Occlusion-Free Video Person Re-Identification」、IEEE Con​​ference on Computer Vision and Pattern Recognition(CVPR)、2019。

参照:

[1] Guolong、Jian Cheng、Peisong Wang、Gang Li、Qinghao Hu、Hanqing Lu、ディープたたみ込みニューラルネットワークの効率的な計算における最近の進歩、情報技術および電子工学の最前線(FITEE)、Vol.19、No.1。 pp.64-77、2018。

[2] Guolong、Jiaxiang Wu、Cong Leng、Yuhang Wang、Qinghao Hu、Jian Cheng。モバイルデバイス用の量子化された畳み込みニューラルネットワーク。CVPR2016。

[3] Guolong、Peisong Wang、Jian Cheng。固定小数点因数分解ネットワーク。CVPR2017。

[4] Guolong、Xiangyu He、Jian Cheng。限定されたラベルなしデータからの圧縮の学習。ECCV 2018。

[5] Guolong、Gang Li、Fanrong Li、Tianli Zhao、Jian Cheng。ブロック畳み込み:FPGA上の大規模CNNのメモリ効率の良い推論に向けて。日付2018。

参照:

[1] Guolong、S。Lin、R。Ji、C。Chen、D。Tao、およびJ. Luo。知識移転による低ランク分解によるホリスティックcnn圧縮。パターン分析およびマシンインテリジェンスに関するIEEEトランザクション、2018年。

[2] Guolong、S。Lin、R。Ji、C。Yan、B。Zhang、L。Cao、Q。Ye、F。Huang、およびD. Doermann

■自己PR。生成的敵対学習による最適な構造化cnn剪定に向けて。コンピュータビジョンとパターン認識に関するIEEE会議の議事録、2790〜2799ページ、2019年。

[3] Guolong、S。Lin、R。Ji、X。Guo、およびX. Li。グローバルエラーの再構築による畳み込みニューラルネットワークの圧縮に向けて。人工知能に関する国際共同会議、1753〜1759ページ、2016年。

[4] Guolong、S。Lin、R。Ji、Y。Li、C。Deng、およびX. Li。構造-スパース性の正規化フィルタープルーニングを介してコンパクトなコンネットに向けて。ニューラルネットワークおよび学習システムでのIEEEトランザクション、2019。

[5] Guolong、S。Lin、R。Ji、Y。Li、Y。Wu、F。Huang、およびB. Zhang。グローバルで動的なフィルタープルーニングを介した畳み込みネットワークの加速。国際人工知能に関する合同会議、2018。

参照:

[1] Guolong、C。Zhang、H。Fu、Q。Hu、X。Cao、Y。Xie、D。TaoおよびD. Xu、一般化潜在マルチビューサブスペースクラスタリング、パターン分析およびマシンインテリジェンスに関するIEEEトランザクション( IEEE T-PAMI)、2018。

[2] Guolong、C。Zhang、Z。Han、Y。Cui、H。Fu、T。Zhou、Q。Hu、CPM-Nets:部分的マルチビューネットワーク、ニューラル情報処理システム(NIPS、スポットライト)、 2019。

[3] Guolong、C。Zhang、Y。Liu、H。Fu、AE ^ 2-Nets:Autoencoder in Autoencoder Networks、IEEE Con​​ference on Computer Vision and Pattern Recognition(CVPR、Oral)、2019。

[4] Guolong、C。Zhang、Q。Hu、H。Fu、P。ZhuおよびX. Cao、潜在的なマルチビュー部分空間クラスタリング、コンピュータービジョンおよびパターン認識に関するIEEE会議(CVPR、Spotlight)、2017年。

[5] C. Zhang、H。Fu、S。Liu、G。Liu、X。Cao、低ランクテンソル制約マルチビューサブスペースクラスタリング、IEEE International Conference on Computer Vision(ICCV)、2015年。

参照:

[1] Guolong、Yunzhong Hou、Liang Zheng、Zhongdao Wang、Shengjin Wang。マルチターゲットマルチカメラトラッキング用の地域認識アピアランスメトリック。Arxiv2019。

[2] Guolong、Zhongdao Wang、Liang Zheng、Yixuan Liu、Shengjin Wang、リアルタイムマルチオブジェクトトラッキングに向けて。Arxiv2019。

[3] Guolong、Xiaoxiao Sun、Liang Zheng、視点から見た解剖者の再識別CVPR 2019。

[4] Guolong、Yue Yao、Liang Zheng、Xiaodong Yang、Milind Naphade、Tom Gedeon、属性降下によるコンテンツ整合性のある車両データセットのシミュレーション。Arxiv2019。

参照:

[1] Guolong、Yisen Wang、Difan Zou、Jinfeng Yi、James Bailey、Xingjun Ma、およびQuanquan Gu。「Provers。International Conference on Learning Representations(ICLR'2020)」、Addis Ababa、エチオピア、2020年。

[2] Guolong、Dongxian Wu、Yisen Wang、Shu-Tao Xia、James Bailey、Xingjun Ma。「スキップコネクションマター:ResNetsで生成された敵対的な例の移転可能性について」、学習表現に関する国際会議(ICLR'2020) )、アディスアベバ、エチオピア、2020年。

[3] Guolong、Ranjie Duan、Xingjun Ma、Yisen Wang、James Bailey、Kai Qin、Yun Yang。Proc。IEEE / CVF会議の「敵対的なカムフラージュ:自然なスタイルで敵対的な例を隠す」(コンピュータービジョンとパターン認識に関する( CVPR'2020)、ワシントン州シアトル、2020年。

参照:

[1] Guolong、Dinghuai Zhang *、Tianyuan Zhang *、Yiping Lu *、Zhanxing Zhu、BinDong。1回のみ伝播:最大原理を使用した敵対的トレーニングの加速。第33回年次神経情報処理システム会議[NeurIPS 2019]

[2] Guolong、Tianyuan Zhang、Zhanxing Zhu。敵対的な訓練を受けた畳み込みニューラルネットワークの解釈。第36回機械学習に関する国際会議。[ICML 2019]

[3] Guolong、Bing Yu *​​、Jingfeng Wu *、Jinwen Ma、Zhanxing Zhu。半教師あり学習のための正接-正規逆正則化。第30回コンピュータービジョンとパターン認識に関するIEEE会議。[CVPR 2019](口頭)

[4] Guolong、Nanyang Ye、Zhanxing Zhu、ベイジアン敵対的学習。神経情報処理システムに関する第32回年次会議。[NeurIPS 2018]

■活かせる経験・知識・技術

SaaSプラットフォームの設計・構築

健康管理SaaSプラットフォームの製品設計、アーキテクチャ、開発管理、リリースまで全プロセスを通してキーマンとして経験しております。

楽天金融系開発

2016年から約3年間ぐらい日本にあるメガバンクの営業店システムの新規開発、保守作業をキーマン、PMとして作業を行っております。

マネジメント経験

マネジメント経験が多く、最大40名以上のマネジメントの経験があります。顧客への提案からリスク管理、進捗管理、品質管理、スコープ管理などを主に経験しております。

■資格

・2002年06月 CET-6(大学英語テスト)

・2006年12月 N1(日本語テスト)

・2014年09月 PMP

资格信息*

 Solution Consultant mySAP Basis workbench Certification (PA)

 Solution Consultant mySAP MM Certification (PA)

 Consultant Solution mySAP FI/CO Certification (PA)

 Project Management Professional(PMP)

 mySAP BI - Business Information Warehouse

 SAP NetWeaver 2005 - Business Intelligence

 CISCO CCIE

 Oracle 10g Certified Master – 2005

 Microsoft MCSE MCSD

 Oracle ACE – 2006

 Sales Cloud Consultant (saleforceCertification )

 MCSA: Windows Server 2012, MCSA: SQL Server 2012, Server Virtualization with Windows Server Hyper-V and System Center, Amazon Web Services (AWS)

 MCS: Developing Microsoft Azure Solutions, MCS: Implementing Microsoft Azure Infrastructure, MCS: Architecting Microsoft Azure Solutions

 Google Cloud Platform (GCP)

 SAPHANA

 CFP

 MCSA MCSE:sharepoint, MCSD:sharepoint applicat

技術認定

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

■PJ職務経歴

□2017年03月~現在 Alibaba Group 楽天日本 NTT日本 TOYODA

※※Alibaba中国関連HOCIntelligent Technology本社であり、日本向けシステム開発作業を行う会社である

□2011年01月~2017年03月Microsoft社Computer開発、イフラン開発経験 在籍6年


■活かせる経験・知識・技術

・APPを含め、製品設計・開発管理・リリースの経験がある、AI、blockchain等経験が含む。

・金融セキュリティ関連の仕事も担当

■自己PR

私の経験と利点:

私は、IT&インターネットの世界のトップ500の国際企業で10年の経験を積んでいます。

私は、世界のトップ500のITおよびインターネットインターナショナル企業、蓄積された顧客、連絡先、リソース、および効率的な運用管理での作業および研究に10年の経験があります。

この期間中、私は中国地域会社のCEOおよび社長として7年の経験があり、600人以上の人(最初に責任者)があり、企業を完全にリード、管理、運営しています。

この期間中、私は10年間のマーケティング経験があり、販売、マーケティング、およびチャネルチームの100人以上の人々が中国、日本市場を開拓し、ビジネスを拡大してきました。

アメリカのITとインターネット企業の管理概念、管理モデル、管理プロセス、および管理方法を学び、借用し、吸収し、中国の従業員の特性と組み合わせて、一連の管理方法と中国企業のビジネス戦略開発のニーズを満たす方法を実践、要約、最適化しました企業の全体的な開発経験を効果的に把握します。

私は、強力な操作性と強力な実行力を備えた企業戦略と戦術を開発する方法を学びました。

私は、前向きでハイエンドな優れた意思決定スキル、および鋭い洞察力と鋭いビジネス洞察力を磨く方法を学び、蓄積しました。

表現力、親しみやすさ、判断力、意思決定力、企画力、交渉力などの経験を積み、積み上げてきました。

私はチームを効率的に、協調して作業するように指導、呼び出し、要約し、動機づける方法を学びました。

この10年間の仕事で、私は毎年優れた仕事の成果を達成しています。

私が働いた最初の米国出資のITおよびインターネット企業であり、中国の企業チームを率いて年次業績を達成しました:1995-2005年:1000万/年から5億/年

私が働いている2番目の米国出資のIT&インターネット会社で、私は毎年中国の企業チームを率いてパフォーマンスを完了させています。これまでのところ2005年から2000年までは、5000万/年から6億/年です。

世界をリードする海外のOracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、およびその他の有名な国内および海外のITおよびインターネットメーカーの高度な製品、技術、および将来の製品技術開発動向を学び、蓄積しました体験

以下の業界でのビジネス開発で蓄積した業界経験と豊富な顧客リソースを持っています。

フォーチュン500企業

特大、大規模の国内および外国製造企業(外資企業、中外合弁企業、中央企業、国営企業、民間企業)

金融(銀行、証券、保険)

テレコム(通信、モバイル、Unicom)

政府、教育、医療

私は、ITとインターネットのメーカーや業界システムインテグレーターなど、世界で有名でトップ500の戦略的パートナーとの利点の補完、完全なコラボレーション、および詳細な協力における経験を学び、蓄積してきました。

私は謙虚で有能で正直であることの資質を蓄積することを学びました。

私は良い専門性と職業倫理を行使することを学びました。

私は、優れた対人関係や社会的活動を蓄積し、すべての人生の歩みで関係や顧客を蓄積し、すべての歩みで優れた仲間や友人を作り、良い友達の輪を作る能力を築き上げました。

常に新たの自分に挑戦し続け、会社とともに成長する。

国龙牛津大学教授NTT北美前沿科技研究所所长

个人信息

Guo long 男 | 25岁(1995年07月21日) | 现居住海外 | 10年工作经验

最近工作(10年8个月)

职 位:

管理 China CEO/CTO&President 中国区首席执行官CTO兼总裁

公 司:

美国谷歌,阿里合同企业哈牛桥智能科技CTO/CEO,英国剑桥大学教授博导,剑桥研发中心负责人之一,英国-中国南京,日本

行 业:

计算机服务(系统、数据服务、维修)

最高学历/学位

专 业:

计算机

学 校:

剑桥大学

学历/学位:

博士

英国智能信息处理重点实验室ICF


姓名:

国龙

性别:

手机号码:

00819087479395

年龄:

25 岁


电子邮件:

yuhong268@gmail.com

教育程度:

博士

工作年限:

10年

婚姻状况:

未婚

职业状态:

在职,看看新机会

所在地:

英国

国籍:

中国

户籍:

南京

语言水平

北京话母语,英语母语水平日语母语

学历

剑桥计算机科学博士

求职意向

期望薪资:

100000及以上 元/月

地 点:

上海 杭州 南京 苏州

职 能:

首席执行官CEO/总裁/总经理 副总经理/副总裁 首席运营官COO 销售总监 办事处/分公司/分支机构经理 中国区首席执行官CEO

行 业:

计算机硬件 计算机服务(系统、数据服务、维修) 互联网/电子商务 通信/电信运营、增值服务 计算机软件

到岗时间:

待定

工作类型:

全职

自我评价:

我的经验和优势:

我具有10年在世界500强IT&互联网世界国际公司积累的工作经验:

我具有10年在世界500强IT&互联网国际公司工作学习、积累的客户、人脉、资源和高效运营管理方面的经验:

期间我具有7年担任600+人以上团队中国区公司首席执行官CEO兼总裁(一把手),全面领导、管理、运营中国公司积累的经验;

期间我具有10年带领100+人以上销售、市场、渠道团队开拓中国市场、拓展业务积累的营销方面经验;

我学习、借鉴、吸取了美国IT&互联网公司的管理理念、管理模式、管理流程、管理方法再结合中国员工的特点,实践、总结、优化一套符合中国公司业务战略发展需要的管理方法和怎样去有效把握好企业发展全局等方面的经验;

我学习积累了怎样去制定一个操作性强的、执行力强的公司战略、策略等方面的经验;

我学习、积累了良好的前瞻性和高端的决策能力、以及怎样磨练提升自己敏锐的洞察力和敏锐的商业触觉等方面的经验;

我学习积累了良好的表达能力、良好的亲和力、判断能力、决策能力、计划能力、谈判能力等方面的经验;

我学习积累了怎样去领导、感召、凝聚、激励自己的团队高效协同的工作方面的经验;

在这10年的工作中,我每年都取得了优异的工作业绩:

在我工作的第一家美资IT&互联网公司,我带领中国公司团队每年完成业绩:1995年—2005年:从1000万/年提升到5亿/年

在我工作的第二家美资IT&互联网公司,我带领中国公司团队每年完成业绩:2005年—2至今:从5000万/年提升到6亿/年

我学习、积累了一些世界主流的国外Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、等国内外知名IT&互联网厂商先进的产品、技术和未来产品技术发展趋势方面的经验;

我具有在以下行业进行业务拓展积累的行业经验和丰富的客户资源:

世界500强公司

特大型、大型国内外制造企业(外资企业、中外合资企业、央企、国企、民企)

金融(银行、证券、保险)

电信(电信、移动、联通)

政府、教育、医疗

我学习、积累了怎样与国内外知名顶尖世界500强IT&互联网厂商公司、行业系统集成商等战略合作伙伴优势互补、充分协作、深度合作方面的经验;

我学习积累了为人谦和、干练、诚信的做人品质;

我学习锻炼了了良好的敬业精神和职业道德操守;

我建立积累了良好的人际交往圈子和社会活动的能力,积累了在各行各业的人脉关系和客户,交了一些在各行各业优秀的同行和朋友,有着良好的朋友圈;

教育经历*

2013-03——2017-04

剑桥大学

博士-计算机科学

日本小学中学2011年日本关东地震回国南师附中毕业17岁留英 剑桥大学本科硕士博士

语言能力*

英语母语水平(同声翻译)、日语母语(同声翻译)、普通话母语

资格信息*

 Solution Consultant mySAP Basis workbench Certification (PA)

 Solution Consultant mySAP MM Certification (PA)

 Consultant Solution mySAP FI/CO Certification (PA)

 Project Management Professional(PMP)

 mySAP BI - Business Information Warehouse

 SAP NetWeaver 2005 - Business Intelligence

 CISCO CCIE

 Oracle 10g Certified Master – 2005

 Microsoft MCSE MCSD

 Oracle ACE – 2006

 Sales Cloud Consultant (saleforceCertification )

 MCSA: Windows Server 2012, MCSA: SQL Server 2012, Server Virtualization with Windows Server Hyper-V and System Center, Amazon Web Services (AWS)

 MCS: Developing Microsoft Azure Solutions, MCS: Implementing Microsoft Azure Infrastructure, MCS: Architecting Microsoft Azure Solutions

 Google Cloud Platform (GCP)

 SAPHANA

 CFP

 MCSA MCSE:sharepoint, MCSD:sharepoint applicat

技术认证

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

技能特长 (包括IT技能、语言能力、证书、成绩、培训经历)

技能/语言

Navision

精通

Oracle

精通

SAP

精通

Lawson

熟练

Salesforce

精通

JD Edwards

熟练

Siebel

熟练

英语,日语母语,中文母语

母语水平

附加信息

其他

主题:

我具有10年在世界500强公司学习积累的经验

主题描述:

我的优势和经验:

我具有10年在美国世界500强IT&互联网国际化公司学习、积累的工作经验:

其中我具有10年在美国世界500强IT&互联网国际化公司工作学习、积累的客户、人脉、资源和高效运营管理方面的经验:

我具有10年担任600+人以上团队中国区公司首席执行官CEO/CTO兼总裁(一把手),全面领导、管理、运营中国公司积累的经验;

我具有10年带领100+人以上销售、市场、渠道团队开拓中国市场、拓展业务积累的营销方面经验;

我学习、借鉴、吸取了美国世界500强IT&互联网公司的管理理念、管理模式、管理流程、管理方法再结合中国员工的特点,实践、总结、优化一套符合中国公司业务战略发展需要的管理方法和怎样去有效把握好企业发展全局等方面的经验;

我学习积累了怎样去制定一个操作性强的、执行力强的公司战略、策略等方面的经验;

我学习、积累了良好的前瞻性和高端的决策能力、以及怎样磨练提升自己敏锐的洞察力和敏锐的商业触觉等方面的经验;

我学习积累了良好的表达能力、良好的亲和力、判断能力、决策能力、计划能力、谈判能力等方面的经验;

我学习积累了怎样去领导、感召、凝聚、激励自己的团队高效协同的工作方面的经验;

在10年的工作中,我每年都取得了优异的工作业绩:

我在工作的第一家美资世界500强IT&互联网国际化公司

完成业绩:2017年—现在:从1000万/年提升到5亿/年

在我工作的第二家世界500强IT&互联网公司,我带领英国中国公司团队

完成的业绩:2012年—2017:从5500万/年提升到6亿/年

我学习、积累了一些世界主流的国外Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon等国内外知名IT&互联网厂商先进的产品、技术和未来产品技术发展趋势方面的知识;

我具有在以下行业进行业务拓展积累的行业经验和丰富的客户资源:

世界500强公司

特大型、大型国内外制造企业(外资企业、中外合资企业、央企、国企、民企)

金融(银行、证券、保险)

电信(电信、移动、联通)

政府、教育、医疗等行业

我学习、积累了怎样与国内外知名世界500强顶尖的IT&互联网厂商公司、行业系统集成商等战略合作伙伴优势互补、充分协作、深度合作方面的经验;

我学习积累了为人谦和、干练、诚信的做人品质;

概况

Ø 985 剑桥博士,国龙,1995年7月生,博导,现任英国智能信息处理重点实验室ICF。哈牛桥智能科技创始人之一,剑桥大学博士导师,2017年毕业于剑桥大学获得博士学位,2017-现在在剑桥大学计算机系从事研究工作,剑桥大学计算机与信息系统学院的研究员和教授。他是对抗性机器学习,深度学习和计算机视觉领域的活跃研究者,并且在顶级会议(包括ICML,ICLR,CVPR,ICCV,AAAI和IJCAI)上发表了10多篇论文。

Ø 中国科学院研究员,JSAI人工智能学会正式会员,IEEE会员,SIGIR 会员CAAI中国人工智能学会会员,AAA1国际人工智能学会会员。英国人工智能中国ACM专员ACM的成员

Ø 中国科学院研究员,JSAI人工智能学会正式会员,IEEE会员,SIGIR会员,CAAI会员,中国人工智能学会会员。 AAA1国际人工智能学会。 ACM会员,英国人工智能中国协会ACM CAAI中英人工智能协会China-Britain Artificial Intelligence Association 会员、一般社団法人日本ディープラーニング協会

Ø 分别在剑桥大学,美国密歇根州立大学(合作者: A.K. Jain院士)和美国谷歌总部从事生物特征识别研究工作,曾担任谷歌Abacus项目核心研发成员。主要研究方向为计算机视觉与模式识别、智能生物感知及医疗影像分析。在IEEE TPAMI / TIP / TIFS / TBIOM、CVPR、ECCV、NeurIPS、MICCAI等领域权威国际期刊与会议上发表学术论文50余篇(第一作者IEEE T-PAMI长文3篇),谷歌学术引用2500余次(H-Index:24);作为负责人承担国家重点研发子课题、基金重点子课题、基金面上、中科院对外合作及企业合作等课题10余项。研究成果获得FG2019 最佳海报论文奖、CCBR2018最佳海报论文奖、CCBR2016最佳学生论文奖,以及ICCV2015表观年龄识别竞赛亚军、ICMI2018人脸视频专注度分析亚军、NIST 。在IEEE T-PAMI/T-IP/T-IFS/T-BIOM、CVPR、ECCV、NeurIPS、MICCAI等领域权威国际期刊与会议上发表学术论文50余篇(第一作者IEEE T-PAMI长文3篇),谷歌学术引用2500余次(H-Index:24);作为负责人承担国家重点研发子课题、基金重点子课题、基金面上、中科院对外合作及企业合作等课题10余项。相关工作与技术3次获得会议最佳学生论文/最佳海报论文奖(包括人脸分析领域知名国际会议FG2019最佳海报论文奖),3次获得国际竞赛的冠亚军。主要从事视频监控、连续学习和微表情分析等方面的研究工作。已在T-PAMI、T-IP、T-MM等IEEE/ACM会刊和CVPR、ICCV和AAAI等顶级学术会议上发表文章30余篇,合作出版专著一本,单篇所载刊物最高影响因子17.73。其在微表情分析方面的相关工作受到了包括美国《麻省理工技术评论》和英国《每日邮报》在内的国际权威媒体专文报道。先后主持科技部重点研发计划课题和芬兰信息技术学会博士后科研基金项目。担任ACM MM 等权威国际会议的领域主席并先后在主流国际会议上举办了五场专题研讨会。attE2018纹身定位和纹身画像识别评测冠军等多项国际竞赛的冠亚军。在计算机视觉领域顶级会议和期刊发表60余篇。担任多个CVPR等会议的研讨会的主席,ICCV2019、AAAI2019、IJCAI2020领域主席(高级程序委员会委员),计算机视觉领域期刊IEEE TCSVT和Neurocomputing的副主编等。从事模式识别与计算机视觉的基础理论研究,并应用到人脸识别、表情识别、行人再识别、细粒度图像识别等。近年来主持国家自然科学基金和国家重点研发计划课题等项目十余项,在IEEE TPAMI、TIP、TIFS、IJCV、PR等国际期刊以及ICCV、CVPR、ECCV、NIPS、AAAI、SIGIR等国际会议发表论文100多篇。他在顶级计算机视觉和机器学习会议上发表了60多篇论文,包括CVPR,ICCV,ECCV和NeurlPS。 他赢得了ImageNet挑战赛的视频对象检测(VID)轨道挑战2016年(作为团队负责人)和2015年作为团队的共同领导。 他是《国际计算机视觉与神经计算杂志》的客座编辑。 他的研究兴趣包括计算机视觉,机器学习和医学图像分析。

Ø 师从Emotional Computer先驱Peter Robinson教授。主要研究方向计算机视觉,在CVPR/ICCV/TIP等会议和期刊发表论文20余篇,曾长期负责多模态情感分析的著名数据库DEAP的维护。曾作为核心成员参与多项国家863/973项目和欧盟FP7项目,积极推动计算机视觉特别是人脸分析在健康和安全行业应用突破,在互动娱乐、新零售、安防、汽车辅助驾驶、部队等多个行业得到规模化应用。研究兴趣:智能生物感知,医疗影像分析,计算机视觉等还是许多会议和期刊的程序委员会成员或审稿人,例如ICML,ICLR,NeurIPS,ECCV,KDD,AAAI,TPAMI,TNNLS和TKDE。他应邀在阿德莱德举行的第32届澳大利亚人工智能联合会议(AI 2019)上提供了对抗机器学习教程。

Ø 机器智能与先进计算教育部重点实验室副主任。他主要面向大规模智能视频监控里的行人身份识别与动作分析,展开视频图像信息与信号的识别与预测研究,并围绕该应用开展大规模机器学习的算法和理论研究。关于面向大规模监控网络下的行人追踪问题,他在国内外较早和持续深入开展跨视域行人重识别的研究,发表一系列以跨视域度量学习为主线的研究工作,并最近集中展开无监督和弱标注学习建模,力图解决“大数据小标注”下的图像视频分析问题。他已发表120余篇主要学术论文,含12篇IEEE T-PAMI和IJCV论文和其他80余篇发表在其他图像识别和模式分类IEEE TIP、IEEE TNN、PR、IEEE TCSVT、IEEE TSMC-B等国际主流权威期刊和ICCV、CVPR、AAAI、IJCAI等计算机学会推荐A类国际学术会议。担任Pattern Recognition等期刊的编委,担任AVSS 2012、ICPR 2018、IJCAI 2019/2020、AAAI 2020、BMVC 2018/2019 Area Chair/SPC等。他是IEEE MSA TC 委员。他主持国家重点研发课题一项、国家自然科学基金委-大数据科学中心 中心项目(集成项目)课题一项及其他5个国家级项目。英国皇家学会牛顿高级学者基金

Ø 博士生导师,生物感知与智能信息处理重点实验室副主任,LiVE视觉与智能学习团队负责人, IEEE Senior Member。主要聚焦于迁移学习,深度学习以及开放环境下的视觉分析问题。以第一或通讯在IEEE TIP/TCSVT/TNNLS/TMM/TCYB/TSMCA/TIM等期刊发表论文48篇、在 ICCV/AAAI/ACM MM/ACCV等会议上发表论文30余篇,出版英文专著1部,授权专利10项,多篇论文入选ESI高被引论文,Google Scholar引用1500余次。担任TPAMI/TIP/TNNLS/TMM/TCSVT等50余个期刊和AAAI/ICLR/CVPR/ICCV/IJCAI等多个会议的审稿,主持国家自然科学基金、重点研发子课题等项目10余项。曾获CCBR最佳论文奖

Ø 他的研究方向包括数据聚类、社交网络、推荐系统。他以第一作者身份或者指导学生发表了100余篇学术论文,包括IEEE TPAMI、IEEE TKDE、IEEE TCYB、IEEE TNNLS等国际顶级刊物和KDD、AAAI、IJCAI、CVPR等国际顶级会议。主持了包括自然科学基金-杰出青年基金、 “科技创新青年拔尖人才”、国家重点研发计划项目-子课题、国家自然科学基金-面上项目、国家自然科学基金-青年基金、CCF-腾讯犀牛鸟科研基金等13个项目。在教学方面,他分别获得2013/2015年IBM公司产学合作专业综合改革项目资助建设大数据平台/云计算课程,是全国20门受资助课程之一。他是顶级场所(包括IEEE TPAMI,TNNLS,CVPR,IJCAI和AAAI)约10篇科学文章的作者。 他是IJCV,IEEE TNNLS和TMM等的审稿人。他的研究兴趣包括机器学习和计算机视觉。他尽早尝试进行大规模的人物重新识别,他的作品得到了社会的好评。 获得了中国人工智能协会的杰出博士学位论文和吴文俊奖,以及澳大利亚研究委员会的DECRA奖。 麻省理工学院的《技术评论》以他的研究为特色,其中一些入选了斯坦福大学和德克萨斯大学奥斯汀分校的计算机科学课程。 他是ECCV 2020,AAAI 2020,IJCAI 2019和IJCAI 2020的区域主席/高级PC,并在ECCV 2018,CVPR 2019和CVPR 2020上组织了教程和研讨会。他是IEEE TCSVT的副编辑。

Ø 他是人工智能权威期刊Journal of Artificial Intelligence Research(JAIR,CCF B类SCI)的副编辑(AE),也是十几个国际刊物如IEEE TPAMI、JMLR、IEEE TKDE、IEEE TNNLS、IEEE TCYB、PR等的审稿人,是KDD(2019,2020)、IJCAI(2019,2020)、AAAI(2017、2018、2019、2020)、CIKM (2019)、IEEE ICDM (2014、2015、2016、2018、2019)的程序委员,是中国模式识别与计算机视觉学术会议PRCV 2018的网站主席。他曾参加ICDM2010(澳大利亚悉尼)、ICDM2011(加拿大温哥华)、SDM2013(美国奥斯汀)、ICMLA2014(美国底特律)、IEEE Bigdata2016(美国华盛顿)、DASFAA2018(澳大利亚黄金海岸)、ICDM2018(新加坡)、BIBM2018(西班牙马德里)、IJCAI2019(中国澳门)等国际会议,与学术界同行交流,并16次做ORAL报告。他的ICDM2010论文荣获最佳论文提名奖;他曾获2012年微软亚洲研究院学者奖提名,2014年中国计算机学会优秀博士学位论文提名奖,2019年中国人工智能学会优秀博士学位论文奖,。他是中国人工智能学会-模式识别专业委员会委员,中国计算机学会-数据库专业委员会委员,中国计算机学会-计算机视觉专业委员会委员,CCF-YOCSEF广州副主席(2018-2020),CCF广州分部副主席(2019.3-2021.3),CCF-YOCSEF广州主席(2020-2021)。

Ø 他的研究领域为计算机视觉和机器学习。已在国内外刊物和学术会议上发表论文300余篇,其中CCF A类论文80余篇,论文被谷歌学术引用16000余次。所研发的人脸识别相关研究成果获(,在高维、非线性视觉模式分析方面的研究成果获,视觉流形建模与学习方面的研究成果获CVPR2008 Best Student Poster Award Runner-up奖。他带领团队研发的人脸识别技术已应用于公安部门、华为等众多产品或系统中,取得了良好的经济和社会效益。曾应邀担任过ICCV11,ACCV12/16/18,ICPR12/14/20,FG13/18/20,ICASSP14,BTAS18, CVPR19/20/21等十余次领域主流国际会议的领域主席,现/曾任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等国际学术刊物的编委(AE)

Ø 研究方向为面向机器人应用的人机交互技术,包括自然场景下的人体行为识别、人的骨架提取、手势建模和识别、眼动跟踪、情感认知等相关研究。在行为识别、情感理解、人机交互等研究方向发表TIP,PR,Signal processing, Neurocomputing,ACM MM,ICME等SCI期刊论文及高水平国际会议论文,申请近二十项发明专利。主持国家自然科学基金青年项目和面上项目,参与多项国家自然科学基金面上项目和知名企业横向项目。学术活动包括国际会议ICME Registration Chair,国内学术峰会Conference Secretary of VALSE 2015、workshop chair of VALSE 2018 和Program Chair of ACM SIGAI CHINA symposium in TURC, 2017,2018等,Local Chair of TURC 2019。担任VALSE 在线理事会SAC chair,ACM SIGAI CHINA理事会副秘书长等。TIP,TNNLS,Pattern Recognition, Neurocomputing,CVPR, ICCV等审稿人。

Ø 研究兴趣包括机器学习和模式识别的模型和算法,尤其是半监督学习,度量学习,少拍学习,深度学习等,以及机器学习方法在计算机视觉和模式识别中的应用,尤其是 图像和视频建模,目标检测,跟踪和人员重新识别。

Ø 他的研究兴趣涵盖机器学习及其在各个领域的应用。 目前,他主要致力于深度学习理论和优化算法,强化学习及其在交通,计算机安全,计算机图形学,医疗和保健等领域的应用。他在AI顶级期刊和会议上发表了40多篇论文,例如NeurIPS,ICML ,CVPR,ACL,IJCAI,AAAI,ECML等。他被授予“ 2019年阿里巴巴达莫青年学者”,并从顶级计算机安全会议ACM CCS 2018获得“最佳论文入围”。 对抗性机器学习,深度学习和计算机视觉领域的活跃研究者,并在顶级会议上发表了10篇以上的论文,包括ICML,ICLR,CVPR,ICCV,AAAI和IJCAI。 他还是许多会议和期刊的程序委员会成员或审稿人,例如ICML,ICLR,NeurIPS,ECCV,KDD,AAAI,TPAMI,TNNLS和TKDE。 他应邀在阿德莱德举行的第32届澳大利亚人工智能联合会议(AI 2019)上提供了对抗机器学习教程。

Ø 领导人工智能部门,副总裁领导人工智能产品中心。 他在量产汽车上交付了首个全功能DMS,智能传感系统和许多其他AI产品。 他曾在美国华盛顿州雷德蒙德的Microsoft Research担任研究员。 他的专业兴趣在于计算机视觉,成像系统,人类行为理解和生物识别以及自动驾驶等广泛领域。2018年获得澳大利亚研究委员会的发现早期职业研究员奖,在第二届LIP挑战赛中,人类解析轨迹名列第一,在2016年获得中国电子学会(CIE)优秀博士学位论文奖,并在2014年ILSVRC中获得物体检测任务的第一名 。他在CVPR 2019、2020中组织了关于从不完美数据中学习(LID),在ICCV 2019中从低质量图像和视频中获得现实世界识别(RLQ),在CVPR 2019中向人(LIP)进行学习的研讨会。 主要在于应用机器学习技术来解决诸如对象检测和语义分割之类的计算机视觉问题。

Ø 主要研究方向是无人机视觉和度量学习。目前主持和参与科技部重点研发、国家自然科学基金、天津市科委以及企业相关项目10余项。。在机器学习与计算机视觉相关国际会议和期刊上发表论文70余篇。近几年,担任ECCV2018、ICCV2019和ECCV2020无人机视觉研讨会负责人,获浙江省高校自然科学一等奖和江苏省自然科学一等奖。

Ø 他的研究兴趣集中于以人脸识别为典型案例的计算机视觉和机器学习理论、方法和关键技术上,特别是在人脸识别领域有超过20年的研究经验。近年来也特别关注基于面像的情感计算,面向智能监控的视频结构化,面向无人机的视觉计算等应用。在理论和算法层面,他和团队有非常丰富的机器学习特别是深度学习研究经验,尤其关注X数据驱动的机器学习理论和方法,这里所谓的X数据包括小数据、无监督数据、半监督数据、弱监督数据、脏数据、增广数据等等。

Ø 他是视觉与学习青年研讨会(VALSE)的共同发起人,VALSE指导委员会首届轮值主席,VALSE在线学术报告会(VALSE Webinar)活动的共同发起人和首届在线组委会主席。VALSE2019(合肥)参加人数超过了5000人,而VALSE Webinar的高峰参加人数达到了1800人,成为国内计算机视觉领域影响力最大的系列学术会议之一。

Ø 作为个人兴趣,他深切关注认知神经科学和脑科学的进展,并乐于思考和讨论生物视觉的本质问题,以及脑神经科学给视觉计算带来的启示。

Ø 六年以上嵌入式底层开发工作经验;

Ø 精通C、VC++、汇编语言,能够独立完成 DSP 驱动,ARM Linux 驱动开发,熟练掌握 I2C、SPI、UART、FLASH、DDR3、CF、GPIO、 PWM、USB、WIFI、4G、以太网等外设驱动开发及应用;

Ø 熟练掌握分层架构及开发方法,有过多个 DSP、Power PC、ARM 硬件平台驱动开发经验;

Ø 精通CIS、磁传感器、厚度传感器、摄像头等传感器驱动实现及数据采集;

Ø 丰富的 Vxworks 和 Linux 平台开发经验,可独立完成 uboot 启动加载、Linux 内核适配等移植工作;

Ø 能够独立完成软件方案架构,经验丰富,具有较强的沟通、逻辑分析能力、学习能力和独立解决问题的能力。

Ø 主要研究领域包括ERP咨询,云技术,大数据,区块链,人工智能专家,计算机视觉,多媒体技术和机器学习。Cambridge博士OXBridge教授 主要关注对抗机器学习、人工智能的可解释理论、计算机视觉等。先后CVPR、ECCV和NIPS等人工智能顶级国际会议和期刊发表论文50余篇,并荣获ICME2018“铂金最佳论文”, AVSS2012“最佳论文奖”和MICCAI2012的“青年学者奖”。研究兴趣包括智能安全、视频监控、微表情分析等应用及其背后的特征学习、持续学习、小样本学习和多模态学习技术研究领域包括计算机视觉、模式识别、机器学习等。主要研究方向包括机器学习与模式识别的方法、模型以及在图像处理、计算机视觉、数据挖掘等方面的应用。

教育经历和学术研究经历成果

Ø Guolong The University of Cambridge PhD

Ø Leverhulme Centre for the Future of Intelligence,LCFI http://www.lcfi.ac.uk/英国LCFI实验室顶尖研究院首席科学家

Ø 剑桥大学计算机博士毕业,剑桥大学教授,首席技术官。前沿科技领航人。AI,IoT,RPA, OCR-AI ,ERP,cloud,bigdata,blockchain,ICT,5G,3D,AR, VR,iCLIP,核心工业软件,核心算法,中微子,量子人工智能等顶尖前沿科技

Ø 高中留学英国,就读剑桥大学本科,硕士,于2017年获得英国剑桥大学计算机科学博士学位。迄今为止,作为项目负责人,他曾在863个重大项目,国家科学技术支持计划的子项目以及国家自然科学基金的项目中进行研发,并发表了包括SCI的12篇论文和EI的28篇论文。收集了29篇文章,并获得了多项发明专利。目前,中国科学院信息科学研究院开设基础课程“计算机视觉与图像理解”和专业基础课程“现代计算机视觉”。深度科技专注于AI,区块链大数据分析云,ERP顾问和技术大趋势融合。东欧的药物发现,金融科技和区块链,亚洲的金融科技和区块链.5核心技术-生物识别,人工智能,聊天机器人,数据分析,区块链。 4个子行业:贷款,支付,储蓄,保险。进行与先进生物医学有关的特殊案例研究。数据科学和AI增强了预测分析的具体方法。对于我们用于设计投资策略并与战略合作伙伴合作的特定远见,高级预测着重于DeepTech行业的融合。研究学术界,制药公司和AI公司的科学家,临床医生和技术人员。我们的团队包括Tasuku Honjo博士,Yusuke Honjo博士,诺贝尔生理学的PD-1,CSAIL的首席研究员,麻省理工学院的Regina Barzilay,Tommi Jaakkola,Manolis Kellis和Peter Szolovits。

Ø 主要研究领域为ERP咨询,云技术,大数据,区块链,人工 智能专家,负责人承担过863重点项目、国家科技支撑计划子课题、国家自然科学基金面上项目等项目的研发工作,发表科研论文510余篇,其中SCI收录50篇,EI收录60篇,ISTP收录129篇,获得发明专利225项

Ø 例如计算机视觉,多媒体技术,机器学习,清华大学的教授。和技术大趋势的融合,领先的分析技术被用于政府/地方政府,教育/医疗/医疗保健,金融,制造业,物流,通讯/广播,建筑/房地产,电力/燃气/水,网络,制药,农业,零售,制造,交通,体育,宇宙航空,广告,IOT,ICT等行业。

Ø AI记者 体育 智能驾驶 AI会计 律师 AI手术机器人 AI问诊 误诊没 ai机器人葬礼 VR AR 3D AI犯罪追踪 AI图像识别。中国科学技术协会、江苏省浙江省人民政府主办的大赛中获得A类一等奖。大健康产业:生物医药、医疗器械、智慧医疗、健康管理等获得A类一等奖。

Ø 主要研究领域为计算机视觉,大数据 区块链,自然语言 处理。阿里巴巴集团首席技术专家

Ø AI深度学习发明的橄榄球5G技术(用于图像识别和语音识别的人工智能(AI)技术之一) 开发了结合了深度学习的橄榄球游戏分析系统,用相机拍摄人体运动,测量AI经过时的身体姿势和运动,AI指导5G技术数据挖掘、人工智能:1、网络分析(社交网络)2、数据聚类3、医学数据处理4、推荐算法5、精准教育

Ø 清华大学的机器学习教授。与技术大趋势,尖端分析技术,政府/地方政府,教育/医疗/医疗保健,金融,制造,物流,通信/广播,建筑/房地产,电力/燃气/水,网络,制药的集成用于农业,零售,制造业,运输,体育,航空航天,广告,物联网,信息通信技术和其他行业。英国剑桥大学教授,清华大学计算机科学客座教授,中国科学技术协会江苏省政府京都大学客座教授赞助的竞赛类别A赢得大健康产业一等奖:生物医学,医疗设备,智能医学,保健等。获得类别A最佳奖。 ERP区块链云技术大数据人工智能相关领域(不限于语音处理领域包括人工智能各个领域)在专利产品竞赛,阿里,腾讯,华为等合同中获得最高奖并达成了众多合同。 AI x 5G刷脸已成为主流支付方式,所见即所得,短视频AI动画x 5G,AR VR和3D,智能驾驶,金融,5G远程医疗5G AI药品,智能驾驶,智能商务,智能商务,智能医疗,公安5G机器人5G材料,半导体,体育,娱乐和其他技术是我们的主流技术,分离和纯化,创新药物,生物技术,芯片设计,量子点显示,多点触控,纳米微球,低碳纳米材料智能驾驶,智能制造,机器人技术和智能医疗的全球关键技术。面部和身体分析技术,SLAM和3D视觉,通用和专业图像识别,机器人控制和传感,大规模视频理解和挖掘,增强医学图像分析的图像和视频处理,人工智能计算平台,人工智能超级计算平台,自主开发的培训框架,人工智能高性能存储通过结合高性能异构计算软件和硬件,高性能,设计和开发低成本,低功耗的边缘人工智能芯片和解决方案,以开拓合作伙伴。对于智能驾驶和AIoT,可以为边缘到边缘的AI芯片提供超高性价比,极高的能效,开放的工具链,丰富的算法模型样本以及全面的激活服务。现在,基于创新的人工智能专用计算架构的BPU(脑处理单元)正在成功流式传输。中国第一台边缘人工智能处理器-专注于智能驾驶的系统和专注于AIoT的系统。并且已经大规模商业化。中国人工智能学会,英国科学局委员以及英国众议院科学技术委员会成员,英国众议院(科学技术委员会)英国文化协会开放数据研究所(ODI)艾伦·图灵人工智能研究所,剑桥大学,爱丁堡大学,牛津大学,伦敦大学,包括华威大学EPSRC协会

Ø 日本京都大学特定客座副教授,奈良先端科学技术大学院大学客座副教授。2017年至2019年在日本京都大学担任日本文部科学省公共安全领域重大产学研结合项目的特任研究员。担任奈良先端科学技术大学院大学与CMU联合创建的国际机器人与视觉联合研究室特任助理教授和实验室实际负责人。共深度参与或主持过10余项国家级和国际合作项目(包括973,863,基金委重大研究计划,日本文部科学省的科学技术战略推进费重大专项等大课题,也包括国家基金委面上项目、重点项目,以及日本文部科学省的科研费青年项目,日英双边合作项目,微软亚洲研究院资助项目等),共发表双盲评审的英文论文60余篇(含顶会10余篇)。研究方向主要集中在基于图像或视频的内容理解。当前正在从事的研究包括人物身份识别,人与人以及人与机器之间交流与交互的视觉理解,人手和人体的姿态估计,动作识别,行为预测等。其中人手姿态估计在首届全球公开挑战赛中获得手物交互单项冠军。指导的访问学生的工作获得ICPR 2018 Piero Zamperoni最佳学生论文奖和AutoML2018 Workshop最佳论文奖。

Ø 适用于AI,IoT,RPA,OCR-AI,ERP,云,大数据,区块链,ICT,5G,3D,AR,VR,iCLIP,核心工业软件,核心算法,中微子,政府/地方政府的最先进技术教育/医疗/保健,金融,制造,物流,电信/广播,建筑/房地产,电力/煤气/水,网络,制药,农业,零售,制造,运输,体育,航空航天,广告,物联网,ICT和其他产业

Ø IEEE,NIPS,ICML,COLT,CVPR,ICCV,ECVC,IJCAI,AAAI,UAI,KDD,SIGIR,WWW,ACL,PAMI,IJCV,JMLR,AIJ已出版了100多次。

Ø 国龙是人工智能和深度学习领域的带头人,英国(谷歌)研究院CTO,领导超过 40 人的算法研究团队,累计专利 300 余项。上世纪 80 年代起就从事人工智能在无人驾驶汽车和医学心电图辅助诊断等领域的相关研究。1992 年加入新加坡松下研究院,从事音视频信号处理和压缩算法设计和应用,随后专注于图像识别领域的研究工作。2013 年就率先带领团队转向深度学习方向,在深度学习、计算机视觉领域取得了瞩目的成绩,拥有计算机视觉的全栈技术能力,技术面横跨多个应用领域,在基于深度学习的人脸检测和识别、行人检测和跟踪、行人再识别、车辆识别、自动驾驶、驾驶员行为检测、移动操作机器人等领域均取得了世界顶级成果。2019 年 3 月,申省梅加入国内 AI 公司澎思科技,任首席科学家、新加坡研究院院长,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及 AI 工厂自动化等领域的相关技术研究。在 2019 年,申省梅带领澎思新加坡研究院已经斩获 13 项计算机视觉技术相关世界冠军,遍布人脸识别(Face Recognition)、行人再识别(Person ReID)、车辆再识别(Vehicle ReID)和异常行为检测(Anomaly Detection)等计算机视觉技术多个领域。

Ø 国龙,英国ICF研究所模式识别英国国家重点实验室研究员、担任计算机视觉高级研究员。博士生导师、南京人工智能芯片创新研究院常务副院长。于2017年在剑桥大学获计算机博士学位,2017年在中国科学院自动化研究所获模式识别与智能系统博士学位。目前主要从事深度学习、图像与视频内容分析、人工智能芯片设计等方面研究,在相关领域发表学术论文100余篇,英文编著二本。相关成果曾先后获得中科院卢嘉锡青年人才奖、中科院青年促进会优秀会员奖(、中国电子学会自然科学一等奖、教育部自然科学二等奖、中国图象图形学会科技二等奖等。目前是IEEE、ACM、CCF等国际国内学术组织的成员,担任中国自动化学会模式识别专委会副秘书长。现任国际期刊Pattern Recognition、IET Computer Vision的编委,曾任2010年ICIMCS国际会议主席、HHME 2010组织主席、CCPR 2012出版主席、ICIG 2019 special Session主席。

Ø 他的研究方向包括数据聚类、社交网络、推荐系统、医学数据处理。他一共发表了100余篇学术论文,包括IEEE TPAMI、IEEE TKDE、IEEE TCYB、IEEE TNNLS等国际顶级刊物和KDD、AAAI、IJCAI、CVPR等国际顶级会议。2019年中日人工智能学会优秀博士学位论文奖,他是人工智能权威期刊Journal of Artificial Intelligence Research(JAIR)的副编辑(AE)。他是中国人工智能学会-模式识别专业委员会委员,中国计算机学会-数据库专业委员会委员,中国计算机学会-计算机视觉专业委员会委员,CCF-YOCSEF副主席(2018-2019),CCF分部副主席(2019.3-2021.3)。

Ø 数据分析和人工智能实验室成员,日本国家级实验室理化研究所人工智能项目 (RIKEN AIP)科学家。主要研究方向为机器学习和深度学习。加入香港浸会大学前,在日本理化研究所人工智能项目从事博士后研究(Prof. Masashi Sugiyama杉山将教授团队)。其负责开发针对噪声数据(标签和样本)的鲁棒深度学习方法,成果荣获2019年度理研最佳成就奖(RIKEN BAIHO奖)。。其作为程序委员会委员和审稿人长期服务机器学习顶级会议(ICML, NeurIPS, AISTATS和ICLR)和顶级期刊(JMLR, TPAMI和MLJ),并当选为NeurIPS’20的领域主席(Area Chair)。

Ø 近年来,深度学习在图像分析、语音识别、自然语言处理等诸多问题上取得了突飞猛进的发展,已经成为众多智能系统和应用中不可或缺的关键技术。随着深度学习模型性能不断提高,其计算复杂度和资源消耗也不断增加,这给网络模型的部署带来重大挑战,特别是在资源受限的边缘端设备上尤为显著。如何高效低耗地计算这些网络模型正成为一个关键问题。本报告将从量化学习的角度介绍深度神经网络模型的高效计算。首先介绍基于量化学习的模型压缩和加速方法;然后是基于算子级加速的量化引擎;最后介绍基于量化计算架构和芯片。

Ø 国龙博士现任剑桥大学计算机科学学院教授(终身教职)。英国国家信息通讯技术研究院堪牛津剑桥ICF实验室的计算机视觉组工作。目前主要从事统计机器学习以及计算机视觉领域的研究工作。主持多项科研课题,在重要国际学术期刊和会议发表论文120余篇。担任或担任过副主编的期刊包括:Pattern Recognition, IEEE Transactions on Neural Networks and Learning Systems。多次担任重要国际学术会议(ICCV, CVPR, ECCV等)程序委员。他曾在高中留英剑桥大学本科及获得计算机人工智能方向的博士学位。2016年被澳大利亚研究理事会(Australian Research Council)授予Future Fellowship。

Ø 主要研究方向为机器学习、计算机视觉。2017于英国剑桥大学进行医学图像分析研究,在国际会议和期刊上发表论文70余篇,其中NIPS、CVPR、ICCV、AAAI、IJCAI等CCF- A类会议以及IEEE Trans.期刊(包括IEEE T-PAMI/T-IP/T-NNLS/T-CYB)35篇,多篇CVPR、NIPS论文入选Oral和Spotlight论文。主持国家自然基金青年项目和面上项目、天津市自然科学基金面上项目。担任IJCAI、AAAI、CVPR、ICCV等会议的程序委员会成员或审稿人,担任中国机器学习会议(CCML 2017)本地组织主席,国际期刊IEEE T-PAMI/T-IP/T-NNLS/T-CYB审稿人。

Ø 主要从事多模态数据协同计算方面的研究工作。主持国家自然科学基金项目、科技部“863”计划等课题20余项,获发明专利授权26项,发表学术论文100余篇,其中在国际一流期刊和国际顶级会议发表论文近80篇,包括IEEE TNNLS, TIP, TCYB, ICML, NIPS, ICCV, CVPR等。被Google Scholar引用2200余次,18位中美英等国院士/Fellow引用他的研究工作并给予了积极评价。研究成果获国家自然科学二等奖1项(2016,第三完成人)、陕西省科学技术奖一等奖2项(2011, 2015,第三完成人)、教育部自然科学二等奖1项(2013)。

Ø 学术成果:在如TPAMI、TIP等IEEE/ACM会刊和CVPR、ICCV和AAAI等CCF A类学术会议上发表文章30余篇。所发表文章谷歌学术引用逾1200次,单篇所载刊物最高影响因子17.73。其在微表情分析方面的相关工作见诸美国《麻省理工技术评论》和英国《每日邮报》等国际权威媒体专文报道。主持科技部重点研发计划课题一项,曾先后主持芬兰信息技术学会博士后科研基金项目和芬兰科学院ICT2023专题项目(含共同主持),并参与多项芬兰科学院基金项目和中国国家自然科学基金项目。教学和学生培养:先后培养和联合培养了七名研究生,并讲授过《深度学习及其应用》和《情感计算》等课程。学术:IEEE/IEEE-CS/AAAI/CCF会员,多次受邀担任IEEE T-PAMI、T-IP、T-NNLS、T-CYB、T-CSVT、T-MM,Springer IJCV,Elsevier Pattern Recog. 等重要国际学术期刊和IEEE ICCV、IEEE CVPR、AAAI、ACM MM等重要国际学术会议的领域主席、程序委员或审稿人,并获得过国际期刊Pattern Recognition(2017)和Neurocomputing(2017)的杰出审稿人称号。与国际同行先后在主流国际会议上举办了五场专题研讨会(CVPR20, FG18-20, ACCV16),并担任过施普林格SIVP期刊的客座编委及多个国际会议/专题的分会主席和程序委员会成员

Ø 国龙教授于自2019年7月全回国以来,主持了国家自然科学基金青年项目、江苏省新一代人工智能重点研发项目等多个重点项目。谭明奎教授一直从事机器学习和深度学习方面的研究工作,在深度神经网络结构优化及理论分析方面具有一定的研究基础。近年来以一作或者通讯作者完成的相关成果发表于人工智能顶级国际会议如NIPS、ICML、ACML、AAAI、CVPR、IJCAI和人工智能权威期刊如IEEE TNNLS、IEEE TIP、IEEE TSP、IEEE TKDE、JMLR等。面向人工智能国家战略及重大需求,长期从事仿生成像、类脑识别、仿脑评价等方面的理论和应用研究。主持国家自然基金面上、军科委国防创新项目、教育部联合基金青年人才项目等多项国家课题,协同主持国家自然基金重点项目、十三五航天预研项目等项目,开发出多套智能信息处理系统并交付使用。已发表相关学术论文60余篇(第一作者40余篇),其中SCI源期刊论文40余篇,三篇入选ESI高被引论文。

Ø 国龙,博士,哈牛桥智能科技南京研究院院长,南京大学学生创业导师,主要研究领域为计算机视觉和机器学习,在相关领域顶级期刊如IEEE TPAMI、IEEE TIP、IEEE TNNLS、Machine Learning Journal等及顶级会议如CVPR、ICCV、IJCAI、ICDM、ACCV等发表论文二十余篇,并带队获得iNaturalist、Apparent Personality Analysis等国际权威计算机视觉竞赛共3项世界冠军。在重要国际会议PRICAI 2018和ICME 2019分别组织题为“Fine-Grained Image Analysis”的tutorial。著有《解析深度学习——卷积神经网络原理与视觉实践》一书。曾获CVPR 2017最佳审稿人、南京大学博士生校长特别奖学金等荣誉,担任ICCV、CVPR、ECCV、NIPS、IJCAI、AAAI等国际会议PC member。NEC美国硅谷实验室从事研究工作。研究方向为海量多媒体信息检索与计算机视觉,专注于行人重识别、物体细粒度识别、场景理解研究。以第一/通讯作者在IEEE T-PAMI、TIP、TMM等权威国际期刊以及ICCV、CVPR、ACM MM、AAAI等权威国际会议发表论文50余篇。,中国计算机学会优秀博士学位论文、中科院优秀博士学位论文、微软学者奖等。先后主持国家自然科学基金面上、重大研发计划培育项目、国家重点研发计划等项目。

Ø 主要研究兴趣包括核算法、多视图聚类算法、特征选择算法等。发表论文90余篇,SCI 46篇(其中IEEE汇刊17篇,包括IEEE T-PAMI、IEEE T-KDE、IEEE T-IP、IEEE T-IFS、IEEE T-NNLS、 IEEE T-Cybernetics、IEEE T-MM等),中国计算机学会指定的A类会议论文23篇,谷歌学术引用1600余次,3篇进入ESI计算机科学学科前10%层次。担任国际人工智能领域顶级会议AAAI 2016-2019、IJCAI 2016-2019、NIPS 2016-2018等程序委员会委员、AAAI 2020高级程序委员会委员。主持国家自然科学基金青年基金、面上项目、优秀青年基金各一项,研究成果获浙江省自然科学一等奖。

Ø VALSE执行AC、CASIG-BVD委员。主要研究领域为深度学习、模式识别、计算机视觉与多媒体分析,尤其专注于无约束/大规模/小样本/异质/基于集合的人脸识别、基于深度对抗学习的图像生成、超分辨率、基于知识蒸馏的模型压缩、(非)实例级细粒度人物解析。目前,共承担/参与重点研发项目 3 项(排名第1/3/5)。在T-PAMI、IJCV、T-IP、NeurIPS、CVPR、IJCAI、ECCV、ACM MM、AAAI、BMVC、WACV等本领域权威国际期刊/会议上发表学术论文30余篇,单篇最高影响因子17.73。相关工作获得新加坡模式识别与机器智能协会PREMIA 2019 Lee Hwee Kuan奖(金奖)、国际多媒体领域顶级会议ACM MM 2018最佳学生论文奖;ICCV 2017 MS-Celeb-1M大规模人脸识别竞赛Hard Set/Random Set/Low-Shot Learning全部任务冠军;CVPR 2017 L.I.P竞赛人物解析与人物姿态估计全部任务亚军;美国国家标准与技术研究院NIST 2017 IJB-A无约束人脸识别竞赛人脸验证与人脸鉴别全部任务冠军。担任IJCV、T-MM、T-IFS、T-CSVT、Neurocomputing、NeurIPS(NeurIPS 2018前30%最佳审稿人)、CVPR、ICCV、ECCV、ACM MM、AAAI、ICLR、ICML、UAI等本领域主流国际期刊/会议的受邀审稿人。

Ø 985剑桥本硕博,软件专业,有扎实的理论和技能储备,毕业后一直从事软件开发工作,先后就职AMD、高通、赛灵思等知名企业,目前是赛灵思中国团队第一个AI解决方案高级技术专家

Ø 精通linux系统软件开发,有内核upstream提交。

Ø 现阶段专注于机器视觉方面的深度学习技术领域的应用。具备Caffe/ Tensorflow/ Keras/Pytorch框架模型部署经验(Xilinx平台,Nvidia GPU/Jeston Nano),也具备初级的模型重训能力。

Ø 英语可以作为工作语言

Ø 丰富而广泛技术开发经验支撑的良好技术销售能力。

Ø 技术能力

Ø Linux内核及驱动开发,有丰富的基于X86和arm平台上的Linux内核驱动开发和调试经验。

Ø 熟悉V4L/DVB开源视频驱动框架及ALSA音频驱动框架及FFMpeg/Gstreamer音视频应用框架

Ø 熟悉USB/PCI/Ethernet/I2C/ACPI驱动及相关协议;熟悉networking, TCP/IP, AVB;DPDK;

Ø Linux环境编程,具备C/C++/Shell/Python应用编程经验,掌握git/subversion/perforce等版本控制工具;熟悉Yocto/buildroot;

Ø 熟悉开源社区及相关开发流程,有Linux内核upstream开发经验(xHCI/ACPI等)

Ø 熟悉xilinx fpga soc平台及工具集和嵌入式软件栈。

Ø 机器视觉相关(CNN/OpenCV/Tensorflow/Caffe/Pytorch)

其他基础专业技能

Ø C/ C++/ Python/ Shell/ Gdb/ Git

Ø U-boot/ FreeRTOS

Ø Yocto/ Buildroot

Ø QT/ FFMpeg / GStreamer

Ø Docker/Xen/KVM

Ø FPGA HLS programming and IPI design

Ø Xilinx tools(Vivado/ SDK/ SDSoC/ Petalinux/ DNNDK/ xfDNN)

Github https://github.com/guolong70

学术荣誉

著论1.在瞬时情感分析方面的相关工作受到了包括美国《麻省理工技术评论》和英国《每日邮报》在内的国际主流技术媒体的专文报道(2019年);

2. 在包括ICCV 2019(Oral录取率4.3%)在内的多个重要国际会议上获口头报告资格。

3. 担任重要国际会议ACM MM 2020IEEE IPTA 2016IEEE PCSPA 2011Area Chair

4. 在国际主流学术会议上组织专题研讨会五次: IEEE CVPR 2020,ACCV 2016,IEEE FG 2018/2019/2020。

5. 获评Elsevier期刊《Pattern Recognition》(2017年,最新影响因子5.898),《Neurocomputing》(2017年,最新影响因子3.317)的“杰出审稿人”(Outstanding Reviewer)

6. 曾担任国际期刊Springer《Signal, Image and Video Processing》(SIVP)的客座编委(Guest Editor)(2019年)。

7. 关于视觉语言编码的综述文章《A Review of Recent Advances in Visual Speech Decoding》被Elsevier国际期刊《Image and Vision Computing》列为“编委推荐文章”( Editor's Choice Article)(2014年)。

8. 作为共同指导教师获第六届中国研究生智慧城市技术与创意设计大赛全国一等奖两项(2019年)。

获奖及荣誉:

  1. 2018年度自然科学奖一等奖;视觉鲁棒特征提取与非线性分析;全部完成人:赖剑煌,郑伟诗,谢晓华,阮邦志,王昌栋,朱俊勇,马锦华,黄剑;完成单位:中山大学,香港浸会大学.

  2. 2016年科技创新青年拔尖人才.

  3. 2016年IEEE-杰出青年科学基金获得者.

  4. 2015年中国人工智能学会优秀博士学位论文.

  5. 2014年中国计算机学会优秀博士学位论文提名奖.

  6. SIAM SDM 2013 Student Travel Award.

  7. 2012 Microsoft Research Asia (MSRA) Fellowship Nomination Award.

  8. IEEE ICDM 2011 Student Travel Award.

  9. IEEE ICDM 2010 Honorable Mention Award for the Best Research Paper.

  10. IEEE ICDM 2010 Student Travel Award.

科研项目:

1) 2019年度剑桥大学高校基本科研业务费-新兴学科交叉学科资助计划项目,基于脑电数据分析的人工耳蜗术后耳聋患者大脑功能康复系统建立及其临床示范应用,No. 19lgjc10,2019 .01-2020.12,主持。

2) 2019年国家自然科学基金-面上项目,基于相似度学习的异构数据聚类算法研究及其应用,No. 61876193,2019.01-2022.12。

3) 2019年国家重点研发计划项目“社区风险监测与防范关键技术研究”课题5 “‘数据-计算’深度交互的社区风险情景计算与预测技术”,No. 2018YFC0809705,2018.07-2021.06,课题5中山大学负责人。

4) 2019年“高校创新创业教育项目” 大学生创新创业项目综合信息服务平台建设, No. 2019PT204,2019.01-2020.12,参与方主持。

主要学术:

1) Associate Editor

- Journal of Artificial Intelligence Research (JAIR, CCF B, Since Aug. 2019).

2) Conference Co-Chairs:

- PRCV 2018, Website Co-chair.

3) Program Committee Members:

- IEEE ICDM 2014, 2015, 2016, 2018, 2019.

- AAAI 2017, 2018, 2019, 2020.

- KDD 2019, 2020.

- IJCAI 2019, 2020.

- CIKM 2019.

- IJCAI 2018 Demo Track, IJCAI 2019 Demo Track, IJCAI 2020 Demo Track.

- The 8th IEEE International Conference on Big Knowledge (IEEE ICBK) 2017.

- The 4th IEEE International Congress of Big Data Congress 2015.

4) Reviewers:

- IEEE TPAMI, IEEE TCYB, IEEE TKDE, IEEE TNNLS, JMLR, IEEE TII.

- Pattern Recognition, Neural Networks, Neurocomputing, Knowledge-Based Systems, Information Sciences, KAIS.

- Many other good journals...

著作:

1. Please kindly refer to my Google scholar homepage: https://scholar.google.com/citations?user=Vkzd7MIAAAAJ&hl=zh-CN 【pdf】

刊物服务:

· Associate Editor of Frontier of Computer Science (2018-)

· Associate Editor of IEEE Trans. on Image Processing (2015-2018, a Rank-A journal by CCF)

· Associate Editor of Journal of Computer Vision and Image Understanding (2017-)

· Associate Editor of Pattern Recognition Letters (2017-)

· Associate Editor of Neurocomputing (2012-2016)

· Editor Board member of EURASIP Journal of Image and Video Processing

· Associate Editor of IPSJ Transactions on Computer Vision and Applications (CVA)

· Associate Editor of IET Computer Vision (2020-)

会议服务:

· Area Chair of IEEE Conference on Face and Gesture Recognition 2020 (FG2020)

· Senior PC of the 34th AAAI Conference on Artificial Intelligence (AAAI-20)

· Area Chair of IEEE/CVF Conference on Computer Vision and Pattern Recognition 2020

· Area Chair of IEEE/CVF Conference on Computer Vision and Pattern Recognition 2019

· Area Chair of IEEE International Conference on Biometrics: Theory, Application AND Systems (BTAS 2018)

· Area Chair of IEEE International Conference on Automatic Face and Gesture Recognition (FG 2018)

· Area Chair of Asian Conference on Computer Vision (ACCV) 2018

· Area Chair of International Conference on Computer Vision (ICCV) 2011

· Program Chair of Chinese Conference on Biometric Recognition 2014, 2015, 2016

· Area Chair of International Conference on Pattern Recognition (ICPR) 2012

· Area Chair of Asian Conference on Computer Vision (ACCV) 2012

· Area Chair of International Conference on Face and Gesture Recognition (FG2013)

· Workshop Chair of Asian Conference on Computer Vision (ACCV) 2014

· Area Chair of Asian Conference on Computer Vision (ACCV) 2016

· Area Chair of International Conference on Pattern Recognition (ICPR) 2014

1.Machine learning: deep learning and beyond

重点关注复杂数据条件下的机器学习方法和技术,特别是面向小规模、弱标注、半监督、非完备、非纯净等数据条件下的机器学习方法,研究思路包括迁移学习、元学习、知识引导的学习算法等。

My team focuses on new machine learning methods for scenarios with complex data conditions, especially small data, wealy-labeled data, semi-supervised data, incomplete data, where new models and new optimizing methodsareneeded to design. In terms of methodology, we are interested in transfer learning, meta-learning, and knowledge-guided learning.

2. From face recognition to deep human understanding: methods, technologies, and applications

从事人脸检测与跟踪、面部关键特征点定位、人脸识别与验证、表情分析与识别、人脸属性估计、唇语识别、心率估计、专注度估计、视线估计与跟踪等与人脸感知和深度理解计算相关的研究课题。应用合作单位包括:华为、平安、百度、银晨科技、三星、欧姆龙、松下、高通、中移动等,2016年和2017年两次获华为优秀合作成果奖。相关成果还曾获2015年度国家自然科学二等奖等,2005年度国家科技进步二等奖。

My team is interested in all kinds of vision tasks from face recognition to human understanding, including (but not limited to) face detection and tracking, facial landmark locating, face alignment, face identification, face verification, face retrieval, expression recognition, facial attribute estimation, 3D face reconstruction, face parsing, lip reading, heart rate estimation, engagement estimation, gaze tracking, etc. We have broad cooperation with industrial parters, including Huawei, Ping'an, Qualcomm, China Mobile, Baidu, Isvision, Samsung, Omron, Panasonic, etc. Especially, our face recognition technology has been used on Huawei smart phone and Huawei Cloud album.

3. Generic object detection, segmentation, and recognition

关注通用目标检测、分割和识别等计算机视觉任务,重点关注面向视频监控场景的行人检测与跟踪、人体姿态估计与分割、车辆检测与跟踪、行人再识别和车辆再识别等研究课题。

My team is also interested in generic object detection, segmentation, and recognition, especially pedestrian detection and tracking, human pose estimation and body segmentation, vehicle detection and tracking, human and vehicle re-identification etc. These technologies are applied to video surveillance.

1. 复杂样本条件下的深度学习方法与技术

项目类型:科技部重点研发计划项目(课题)

项目时间:2018-2022

项目负责人:guolong(课题负责人)

2. 视频大数据多种类对象检测技术合作项目

项目类型:企业合作项目

项目时间:2016-2017

项目负责人:guolong

3. 人脸识别技术合作项目

项目类型:企业合作(华为)

项目时间:2016-2019

项目负责人:guolong

4. 视觉模式分析与识别

项目类型:基金委优青项目

项目时间:2013-2015

项目负责人:guolong

References 研究成果

[1] Guolong et al. "3D convolutional neural networks for

human action recognition." IEEE transactions on pattern

analysis and machine intelligence 35.1 (2013): 221-231.

[2] Guolong Ng, Joe, et al. "Beyond short snippets: Deep

networks for video classification." Proceedings of the IEEE

conference on computer vision and pattern recognition. 2015.

[3] Guolong et al. "Temporal segment networks: towards

good practices for deep action recognition." European

Conference on Computer Vision. Springer International

Publishing, 2016.

[4] Guolong et al. “Large-scale video classification

with convolutional neural networks.” Proceedings of the IEEE

conference on computer vision and pattern recognition. 2014.

[5] Guolong et al. “Multi-Stream Multi-Class Fusion of

Deep Networks for Video Classification.” 2015

[6] Guolong Seyed Morteza, et al. "Sports videos in the

wild (SVW): A video dataset for sports analysis." Automatic

Face and Gesture Recognition (FG), 2015 11th IEEE

International Conference and Workshops on. Vol. 1. IEEE,

2015.

[7] Guolong Reza Fuad, Keiichi Uchimura, and Gou Koutaki.

"Combined Convolutional Neural Network for Event

Recognition." Korea-Japan Joint Workshop on Frontiers of

Computer Vision. 2016.

[8] Guolong Christian et al. “Inception-v4, Inception-Resnet

and the Impact of Residual Connections on Learning.” 2016

[9] Guolong, Christian et al. “Going Deeper with

Convolutions.” Proceedings of the IEEE conference on computer

vision and pattern recognition. 2015.

[10 Guolong et al. “Deep Residual Learning for Image

Recognition.” 2015.

专业经验

专业经验 管理 China CEO/CTO &President 中国区首席执行官CTO兼总裁

2012/01 - 至今

阿里巴巴合同企业哈牛桥智能科技Co. Ltd.(10年)

计算机服务(系统、数据服务、维修) | 500-1000人 | 外资(欧美) | 全职

管理

China CEO&CTOPresident 中国区首席执行官CEO兼CTO总裁

工作描述:

2012/1—至今: 阿里巴巴合同企业哈牛桥智能科技 Co. Ltd.

职位:China CEO&President 中国区首席执行官CEO兼总裁

公司简介:

阿里巴巴合同企业哈牛桥智能科技是IT产品销售、咨询、实施和服务的公司,公司汇聚了众多来自于全球在Oracle、Microsoft、SAP、IBM、EMC、HP、 DELL、Cisco 等世界500强顶尖的IT&互联网公司有着丰富工作经验的高级管理人员、业务拓展人员和技术精英加盟组建的公司,中国公司是杭州、在欧洲英国 日本和中国上海有分支机构。

公司主要业务:

公司是美国Oracle公司全球战略合作伙伴,公司主要业务是从事基于Oracle数据库、中间件、ERP、CRM、SCM、HRM、BPM、EPM、APM、PLM、BI、互联网、大数据、Oracle云计算(DaaS、IaaS、PaaS、SaaS)AI(人工智能)全线产品以及基于Microsoft、SAP、IBM、EMC、HP、 DELL、Cisco 等IT&互联网多领域产品,向在美国、欧洲、中国的客户提供最优的IT&互联网系统解决方案的咨询、实施和服务…

中国公司员工人数:600+人

工作地点:上海 南京 杭州

我的工作:向董事长(BOSS)汇报

我的直接下属30人:销售&市场副总裁、技术副总裁、人力资源&行政副总裁、财务副总裁

我的职责:

1、经总公司董事会全权授权,全面领导中国公司的日常运营管理工作,对各项工作负总责;

2、全面主持制定中国公司的每年的业务发展战略、业务发展策略、业务发展计划、实现中国公司的年度业务发展目标;

3、全面负责中国公司的高层管理团队的建立、培养、选拔中高层管理人员,审定公司内部管理机构的设置方案和基本管理制度;

4、全面主持建立高效的中国公司组织体系(运营管理体系(行政部、人事部、财务部)业务发展体系(市场部、销售部)、技术支持服务体系(售前部、售中部、售后部)和组织流程;

5、根据中国市场和环境的变化,适时调整中国公司的组织架构和资源配置,时时管理、监督中国公司的日常运营情况,决策公司日常重大事项;

6、负责与国外和国内的合作伙伴公司高层的紧密接触和合作;

7、负责与客户高层(拍板层、决策层)的公关和互动;

8、负责与公司董事会保持良好沟通,向公司董事会汇报中国公司的经营发展计划的执行情况资金运用情况和盈亏情况;

下属人数:600 | 汇报对象:美国董事长(BOSS) | 离职原因:在职。

主要业绩:

我的业绩:

2019-2020: 完成业绩:5亿元人民币

2018- 2019: 完成业绩:3.5亿元人民币

2017-2018: 完成业绩:3亿元人民币我签约的客户有:

我们为以下客户提供Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon等最优、最先进的IT&互联网、物联网、智能网、云计算、大数据、AI人工智能,等系统的解决方案的咨询+系统的实施+系统的日常维护+定制开发等增值服务。。。

银行、证券、保险、行业客户有:

美国银行

花旗银行

汇丰银行

德意志银行

上海浦东发展银行

上海交通银行

中国银联

上海银行

兴业银行

上海农商银行

中国民生银行

光大银行

青岛银行

宁波银行

重庆商业银行

深圳发展银行

南京银行

上海证券

东方证券

广发证券

申银万国宏源证券

海通证券

中国银河证券

中国太平洋保险

中国人寿保险公司

政府行业客户有:

上海市财政局

上海市公安局

上海海关

上海市人事局

上海市人力资源和社会保障局

上海市水务局

上海市教育委员会

浙江省财政厅

浙江省公安厅

浙江省人力资源和社会保障厅

江苏省财政厅

江苏省公安厅

江苏省人力资源和社会保障厅

教育行业客户有:

上海财经大学

上海交通大学

上海大学

上海理工大学

上海政法大学

医疗行业客户有:

上海卫健委

上海仁济医院

上海华山医院

上海瑞金医院

上海东方医院

汽车制造、航空、玻璃制造、钢铁制造、食品制造、纸业制造、电器制造、日用消费品制造、行业客户有:

上海汽车集团

上海大众汽车

上海通用汽车

中国东方航空

上海宝武汉钢集团

上海国际港务集团

上海光明食品集团

上海烟草集团

上海医药集团

上海电气集团

上海家化

宝洁(中国)公司

美的集团

联合利华中国公司

南京汽车集团

天津天狮集团

重庆长安汽

上海外高桥造船

青岛啤酒

中国中纺集团

维达纸业

上海飞科电器

上海晨光文具

上海日立电器

上海冠生园

电信行业客户有:

浙江省移动通信公司

上海移动通信公司

上海电信

江苏省移动通信公司

四川省移动通信公司

2012/01 - 2017/01

受雇于美国 微软Software System Co. Ltd.(6年)

计算机服务(系统、数据服务、维修) | 150-500人 | 外资(欧美) | 兼职

中国区首席执行官兼总裁

China CEO&CTOPresident 英国中国区CTO首席执行官CEO兼总裁

工作描述:

2012—2017:受雇于美国微软 Software System Co. Ltd.

职位 英国China CEO&CTOPresident 英国中国区CTO首席执行官CEO兼总裁

公司简介:

美国微软 Software System Co. Ltd.是在美国成立的IT产品的销售、咨询、实施和服务公司。公司汇聚了众多来自于全球在Oracle、Microsoft、SAP、IBM、EMC、HP、 DELL、Cisco 等世界500强顶尖的IT公司有着丰富工作经验的高级管理人员、业务拓展人员和技术精英加盟组建的公司,美国公司是总部、在欧洲英国和中国上海有分支机构。

公司主要业务:

公司是美国全球战略合作伙伴,公司主要业务是从事基于Oracle数据库、中间件、ERP、CRM、SCM、HRM、BPM、EPM、APM、PLM、BI、互联网、大数据、Oracle云计算(DaaS、IaaS、PaaS、SaaS)全线产品以及基于Microsoft、SAP、IBM、EMC、HP、 DELL、Cisco 等IT多领域产品,向在美国、欧洲、中国的客户提供最优的IT系统解决方案咨询、实施和服务…

英国员工人数:200+人

中国公司员工人数:400+人

工作地点:英国,上海

我的工作:向美国总部董事长(BOSS)汇报

我的直接下属30人:销售&市场副总裁、技术副总裁、人力资源&行政副总裁、财务副总裁

我的职责:

1、经美国总公司董事会全权授权,全面领导中国公司的日常运营管理工作,对各项工作负总责;

2、全面主持制定中国公司的每年的业务发展战略、业务发展策略、业务发展计划、实现中国公司的年度业务发展目标;

3、全面负责中国公司的高层管理团队的建立、培养、选拔中高层管理人员,审定公司内部管理机构的设置方案和基本管理制度;

4、全面主持建立高效的中国公司组织体系:运营管理体系(行政部、人事部、财务部)、业务发展体系(市场部、销售部)、技术支持服务体系(售前部、售中部、售后部)和组织流程;

5、根据中国市场和环境的变化,适时调整中国公司的组织架构和资源配置,时时管理、监督中国公司的日常运营情况,决策公司日常重大事项;

6、负责与国内和国外的合作伙伴公司高层的紧密接触和合作;

7、负责与客户高层(决策层、拍板层)的公关和互动;

8、负责与美国总公司董事会保持良好沟通,向美国总公司董事会汇报中国公司的经营发展计划的执行情况资金运用情况和盈亏情况;

下属人数:400 | 汇报对象:美国总部董事长(BOSS) | 离职原因:剑桥大学在学期间兼职,毕业留英

主要业绩:

我的业绩;

2016-2017: 完成业绩: 5亿元人民币

2015-2016: 完成业绩:3亿元人民币

2014-2015: 完成业绩:2.5亿元人民币

2013-2012: 完成业绩:2亿元人民币

2011-2012: 完成业绩:1.5亿元人民币

签约的客户有:

我们为以下客户提供Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、的最优、最先进的IT系统的解决方案的咨询+系统的实施+系统的日日常维护+定制开发等增值服务。。。

银行、证券、保险、行业客户有:

美国银行

花旗银行

汇丰银行

德意志银行

上海浦东发展银行

上海交通银行

中国银联

上海银行

兴业银行

上海农商银行

中国民生银行

光大银行

青岛银行

宁波银行

重庆商业银行

南京商业银行

广东发展银行

深圳发展银行

厦门市商业银行

南京银行

上海证券

东方证券

广发证券

申银万国宏源证券

海通证券

中国银河证券

中国太平洋保险

中国人寿保险公司


政府行业客户有:

上海市财政局

上海市公安局

上海海关

上海市人事局

上海市人力资源和社会保障局

上海市水务局

上海市教育委员会

浙江省财政厅

浙江省公安厅

浙江省人力资源和社会保障厅

江苏省财政厅

江苏省公安厅

江苏省人力资源和社会保障厅

教育行业客户有:

上海财经大学

上海交通大学

上海大学

上海理工大学

上海政法大学

医疗行业客户有:


上海卫健委

上海仁济医院

上海华山医院

上海瑞金医院

上海东方医院

汽车制造、航空、玻璃制造、钢铁制造、食品制造、纸业制造、电器制造、日用消费品制造、行业客户有:

上海汽车集团

上海大众汽车

上海通用汽车

中国东方航空

上海宝武汉钢集团

上海国际港务集团

上海光明食品集团

上海烟草集团

上海医药集团

上海电气集团

上海家化

宝洁(中国)公司

美的集团

联合利华中国公司

南京汽车集团

天津天狮集团

重庆长安汽

上海外高桥造船

青岛啤酒

中国中纺集团

维达纸业

上海飞科电器

上海晨光文具

上海日立电器

上海冠生园


电信行业客户有:


浙江省移动通信公司

上海移动通信公司

上海电信

江苏省移动通信公司

四川省移动通信公司

项目经验

2017/01 - 至今

我签约的客户有:

所属公司:

阿里巴巴,亚马逊,腾讯等名企

项目描述:

我签约的客户有:

我们为以下客户提供Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、Google、Amazon、的最优、最先进的IT&互联网、云计算、大数据、AI人工智能等系统的解决方案的咨询+系统的实施+系统的售后维护服务+定制开发等增值服务。。。

银行、证券、保险、行业客户有:

美国银行

花旗银行

汇丰银行

德意志银行

苏格兰皇家银行

上海浦东发展银行

上海交通银行

中国银联

上海银行

兴业银行

上海农商银行

中国民生银行

光大银行

青岛银行

宁波银行

重庆银行

南京银行

广东发展银行

深圳发展银行

厦门市商业银行

苏州银行

江苏银行

上海证券

东方证券

光大证券

爱建证券

广发证券

申银万国宏源证券

海通证券

中国银河证券

中国太平洋保险

长城保险公司

中国人寿保险公司

政府行业客户有:

上海市财政局

上海市审计局

上海市统计局

上海市司法局

上海市公安局

上海海关

上海市浦东教育局

上海市人事局

上海市人力资源和社会保障局

上海市水务局

上海市教育委员会

上海市新闻出版局

浙江省财政厅

浙江省民政厅

浙江省司法厅

浙江省公安厅

浙江省教育厅

浙江省人力资源和社会保障厅

江苏省财政厅

江苏省司法厅

江苏省民政厅

江苏省公安厅

江苏省人力资源和社会保障厅

江苏省教育厅

教育行业客户有:

上海财经大学

上海交通大学

上海大学

上海理工大学

上海同济大学

医疗行业客户有:

上海卫健委

上海仁济医院

上海华山医院

上海瑞金医院

上海东方医院

上海长海医院

汽车制造、玻璃制造、钢铁制造、食品制造、纸业制造、电器制造、日用消费品制造、行业客户有:

上海汽车集团

上海大众汽车

上海通用汽车

东风汽车

江淮汽车

上海宝武钢铁集团

上海光明食品集团

上海烟草集团

上海医药集团

上海电气集团

上海家化

宝洁(中国)公司

美的集团

武汉丝宝集团

南京汽车集团

天津天狮集团

重庆长安汽车

重庆长安铃木汽车

江西五十铃汽车

上海耀皮玻璃

上海外高桥造船

济南钢铁集团

青岛啤酒

中国中纺集团

维达纸业

上海飞科电气

陕西重型汽车

上海晨光文具

上海日立电器

上海冠生园

电信行业客户有:

浙江省移动通信公司

上海移动通信公司

上海电信

江苏省移动通信公司

四川省移动通信公司

责任描述:

在以上项目中我作为中国区首席执行官CEO/CTO的角色统筹整个项目完成。

2012/01 - 2017/01

我签约的客户有:

所属公司:

受雇于美国 微软 Software System Co. Ltd.

项目描述:

我们为以下客户提供Oracle、SAP、Microsoft、IBM、HP、DELL、EMC、Cisco、Salesforce、的最优、最先进的IT系统的解决方案的咨询+系统的实施+系统的日日常维护+定制开发等增值服务。。。

银行、证券、保险、行业客户有:

美国银行

花旗银行

汇丰银行

德意志银行

苏格兰皇家银行

上海浦东发展银行

上海交通银行

中国银联

上海银行

兴业银行

上海农商银行

中国民生银行

光大银行

青岛银行

宁波银行

重庆银行

南京银行

广东发展银行

深圳发展银行

厦门市商业银行

苏州银行

江苏银行

上海证券

东方证券

光大证券

爱建证券

广发证券

申银万国宏源证券

海通证券

中国银河证券

中国太平洋保险

长城保险公司

中国人寿保险公司

政府行业客户有:

上海市财政局

上海市审计局

上海市统计局

上海市司法局

上海市公安局

上海海关

上海市浦东教育局

上海市人事局

上海市人力资源和社会保障局

上海市水务局

上海市教育委员会

上海市新闻出版局

浙江省财政厅

浙江省民政厅

浙江省司法厅

浙江省公安厅

浙江省教育厅

浙江省人力资源和社会保障厅

江苏省财政厅

江苏省司法厅

江苏省民政厅

江苏省公安厅

江苏省人力资源和社会保障厅

江苏省教育厅

教育行业客户有:

上海财经大学

上海交通大学

上海大学

上海理工大学

上海同济大学

医疗行业客户有:

上海卫健委

上海仁济医院

上海华山医院

上海瑞金医院

上海东方医院

上海长海医院

汽车制造、玻璃制造、钢铁制造、食品制造、纸业制造、电器制造、日用消费品制造、行业客户有:

上海汽车集团

上海大众汽车

上海通用汽车

东风汽车

江淮汽车

上海宝武钢铁集团

上海光明食品集团

上海烟草集团

上海医药集团

上海电气集团

上海家化

宝洁(中国)公司

美的集团

武汉丝宝集团

南京汽车集团

天津天狮集团

重庆长安汽车

重庆长安铃木汽车

江西五十铃汽车

上海耀皮玻璃

上海外高桥造船

济南钢铁集团

青岛啤酒

中国中纺集团

维达纸业

上海飞科电气

陕西重型汽车

上海晨光文具

上海日立电器

上海冠生园

电信行业客户有:

浙江省移动通信公司

上海移动通信公司

上海电信

江苏省移动通信公司

四川省移动通信公司

责任描述:

在以上项目中我作为中国区首席执行官CTO/CEO的角色统筹整个项目完成。

工作经历项目经历学术研究经历成果*

2012-2017 微软开发团队软件硬件开发工程师谷歌开发团队 PM 剑桥大学在读期间

2017/1–至今 The University of Cambridge Cambridge博士OXBridge教授

Leverhulme Centre for the Future of Intelligence,LCFI http://www.lcfi.ac.uk/英国LCFI实验室顶尖研究院首席科学家

现任NTT 和Alibaba Group哈牛桥智能科技CEO/CTO, PM部主任 , 中国科学院研究员 , JSAI人工智能学会正式会员 , IEEE会员 , CAAI中国

人工智能学会会员,AAA1国际人工智能学会会员。他是英国人工智能中国ACM专员ACM的成员,主要研究领域包括ERP咨询,云技术,大数据,区块链,人工智能专家,计算机视觉,多媒体技术和机器学习。


清华大学的机器学习教授。与技术大趋势 , 尖端分析技术 , 政府/地方政府 , 教育/医疗/医疗保健 , 金融 , 制造 , 物流 ,通信/广播,建筑/房地产,电力/燃气/水,网络,制药的集成用于农业,零售,制造业,运输,体育,航空航天,广告,

物联网 , 信息通信技术和其他行业。哈佛商学院客座教授 , 清华大学计算机科学客座教授 , 东京大学客座教授 , 东京大学客座教授 , 大阪大学客座教授 , 中国科学技术协会江苏省政府

京都大学客座教授赞助的竞赛类别A赢得大健康产业一等奖: 生物医学,医疗设备,智能医学,保健等。获得类别A最佳奖。 ERP区块链云技术大数据人工智能相关领域(不限于语音处理领域包括人工智能各个领域)在专利产品竞赛,阿里,腾讯,华为等合同中获得最高奖并达成了众多合同。 AIx 5G刷脸已成为主流支付方式,所见即所得,短视频AI动画x 5G,AR VR和3D,智能驾驶,金融,5G远程医疗5G AI药品,智能驾驶,智能商务,智能商务,智能医疗,公安5G机器人5G材料,半导体,体育,娱乐和其他技术是我们的主流技术,分离和纯化,创新药物,生物技术,

有深度学习学术工程项目经验 10 年以上 熟悉人工智能相关的算法和理论,特别是神经网络、深度学习、增强学习及迁移学习等,熟悉SAS, R, Python, Spark SQL, Spark ML 等数据分析工具和语言,有 LR/GMM/SVM/CRF/MaxEnt/HMM/LDA/DNN/CNN/RNN 的研究背景;

◎熟练掌握 CUDA 编程,熟练掌握 Python/Matlab/C++等利用自主知识产权的深度学习架构、机器视觉、生物智能识别等人工智能算法、无媒介支付等核心技术,在自动驾驶、智能机器人、生物智能、AI 芯片、智能零售、智慧城市、智慧安防、智能教育、宇宙航空日本小行星,军工等领域都有深入布局,居行业领导地位;


◎人工智能应用于制造业(机器人,优化)交通,生物保健,沟通,机器学习模拟,边缘设备,网络,高性能计算,产品开发(普通),产品开发(视觉检测解决方案),人机交互(HCI,HRI)

重要项目经历

◎生物保健行业--与谷歌、微软、腾讯和亚马逊等优秀团队合作,我与哈佛大学医学院基因,京都大学诺贝尔医学基因 iPS 干细胞团队合作

◎与 FANUC,PFN (PREFERRED NETWORKS)和日立合作。生物保健医学图像分析,血液癌早期诊断技术研究进展。国家癌症研究中心等联合研究。区块链技术、人工智能生物医学AI 应用于各个领域,包括医学图像分析、电子健康记录(EHR)的详细研究,以及寻找疾病本源、临床前药物发现和临床试验等基础研究。

项目经历


◎参加了亚马逊人工智能项目(Amazon Go) :在西雅图的一种实验性食品杂货店成功实施了,它允许购物者在货架上取货,离开收银台,或在自助结账亭驻足。电脑视觉识别他们进入商店,然后将他们与从货架上取下的产品联系起来。当顾客离开时,系统会从他们的亚马逊账户中扣除购物袋的费用,并发送电子邮件收据。

◎参加过德国电商企业 Otto :使用深度学习模型分析了数十亿宗交易并预测了顾客在下订单之前最倾向于购买的东西,将富余库存降低了 20%,并每年减产超过两百万。这个系统所预测的企业在接下来三十天内畅销的产品准确率达到 90%;

◎法国的全球零售商家乐福人工智能项目,以及美国的塔吉特人工智能,项目基于洞察力的销售,包括个性化的促销,分类优化,和定制的显示器。

◎与富士通合作人工智能项目指纹认证消费系统应用于日本超市,百货店等,日本的乐天人工智能服务自动问答项目

◎日本建筑公司清水建设人工智能项目:我的专利--极限环境下的智能建造(NASA)项目

◎小松公司多用途无人机和推土机自动化系统

◎日本国家先进工业科学技术研究所(AIST)开发的 HRP-5P 机器人开发项目

◎京东全流程无人仓运输机器人项目

◎川崎重工机器人,株式会社神户制钢所电弧焊接机器人 ARCMAN™-GS 的开发

◎欧姆龙机器人项目

◎丰田的“人体支援机器人”(HSR)项目

◎夏普的 Robohon 项目

◎和美国 MIT 媒体实验室的研究人员合作中国三一重工项目

◎阿里巴巴旗下菜鸟网络项目,开发出沛东机器人小 G

◎中建科技建筑智慧建造平台,集 BIM+互联网+物联网技术于一身,可实现全方位、交互式信息传递;

◎トラスコ中山株式会TRUSCO NAKAYAMA CORPORATION机器人IOT自动化物流和SAPHANA*SAPRA导入 日本电视台頑張れ日本电视节目发表了

◎長野計器 株式会社 NAGANO KEIKI CO., LTD.的IOT项目用于医疗产品检测舌头的吞咽能力检测 避免老龄者等人群被食物卡死的危险 还有利用光纤电缆的检测道路的老化率 利用光纤电缆如卡车开过马路产生的震动强度推测出交通道路的老化和桥梁的抗强率

日本电视台頑張れ日本电视节目发表了

◎株式会社MonotaRO Co.,Ltd.人工智能项目AI客服系统和商品AI分析系统

ERP、SAP等方向

◎8年左右ERP咨询顾问实施经验;有 SAP(FI/CO、MM、SD、PP、BW、BI SAP HANA)等模块经验,有 SAP R/3 (Basis),SAP R/3 (ASAP),SAP R/3(在庫/購買管理),SAP R/3 (管理会計),SAP R/3 (財務管理),SAP R/3 (生産管理) ,SAP R/3 BI 认证咨询顾问

重要项目经历

日本丰田汽车 SAP 导入项目

项目简介:AI 机器学习特别是深度学习等人工智能领域在汽车界自动驾驶技术和

◎云技术大数据区块链精通 AI 人工智能领域人工智能、深度学习、机器学习方法与应用;自然语言处理自动问答,人机对话系统,情感分析,社交数据挖掘技术专家经验 15 年以上;

◎人工智能/智能驾驶/AI+Fintech&区块链/未来医疗/网络安全 AR/VR 机器人开发者智能硬件/物联网/GAIR 经验;

◎10 年以上嵌入软件开发经验;

◎嵌入式软件开发(Linux/单片机/PLC/DSP…)10年以上;

◎与剑桥大学合作计算机视觉、机器学习、人工智能、数据挖掘、信息检索、自然语言处理、语音识别等领域的计算机科学;

◎与人工智能专家 谷歌、微软、亚马逊、facebook、netflix,苹果 日本丰田公司等项目合作;

◎参与过人工智能系统的设计和开发工应用 Deep Learning 技术,针对语音、视频、图像、文本等富媒体数据 进行建模分析,为相关产品提供.智能化支持,推动业务发展;

◎负责 Deep Learning 领域前沿算法及框架跟踪,搭建面向企业级应用的大规模 Deep Learning 计算平台熟悉 CNN 等典型深度学习模型的使用场景和使用方法;

◎熟悉 ResNet、MobileNet 等常用网络结构,在图像分类、图像分割、物体识别等相关领域有实践经验;

◎熟悉 TensorFlow、Caffe、MXNet 等主流深度学习框架中的一种或多种;有论文发表在相关领域如 ICIP、ICCV、CVPR、ECCV、SIGGRAPH 等对云计算和云端服务器管理有10年以上的经验

◎熟悉阿里云、AWS、Azure、GCP 等;

◎熟悉 C/C++/Python/Java 熟悉计算机网络相关知识、并有扎实的爬虫项目实际经验、爬虫架构工具如 scrapy、 selenium、 beautiful soup 有了解;

◎熟悉 Hadoop生态圈及其他大数据技术、如 Spark、 HDFS、Hive、Impala、ElasticSearch、 Cassandra、Kafka 等对自然语言处理 (NLP) 工具与组件经验10年;

◎熟悉如 Hadoop、Spark、Caffe、Tensorflow 等开源工具,有实际开发经验精通 Java/Python/C++熟悉网络编程、多线程、分布式(Hadoop/Hive/Storm)10年以上实践经验。

◎具备金融风控,互联网反作弊,图像和文本处理,精准营销,推荐系统等相关产品工作经验,人工智能与大数据无人驾驶、深度强化学习、自然语言处理基于文本的图像合成等方面的项目将重点围绕人工智能、

大数据以及 AR/VR、ADAS、⽆⼈机、机器人、IOT、航空航天等科技领域

◎人工智能由三大要素驱动:数据、算法、算力。通过积累下的海量数据,在GPU等高性能芯片支持下,

深度学习可以挖掘数据价值,获得超过人类识别精度的算法,进而实现深度学习部分商业化应用,让人工智能不再局限于学术研究层面

◎计算机视觉、机器学习、数据挖掘、信息检索、自然语言处理、语音识别/合成等领域机器学习、计算机视觉、自然语言处理、机器翻译、语音识别/合成等人工智能领域全球领先企业的 25 年工作经验;

◎精通编程语言,Java、C/C++、C#、Python 等;在计算机科学顶级会议和期刊如 NIPS、ICML、COLT、

CVPR、ICCV、ECCV、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJ 等发表过论文

◎有深度学习学术工程项目经验 10 年以上 熟悉人工智能相关的算法和理论,特别是神经网络、深度学习、增强学习及迁移学习等,熟悉SAS, R, Python, Spark SQL, Spark ML 等数据分析工具和语言,有 LR/GMM/SVM/CRF/MaxEnt/HMM/LDA/DNN/CNN/RNN 的研究背景;

◎熟练掌握 CUDA 编程,熟练掌握 Python/Matlab/C++等利用自主知识产权的深度学习架构、机器视觉、生物智能识别等人工智能算法、无媒介支付等核心技术,在自动驾驶、智能机器人、生物智能、AI 芯片、智能零售、智慧城市、智慧安防、智能教育、宇宙航空日本小行星,军工等领域都有深入布局,居行业领导地位;

◎人工智能应用于制造业(机器人,优化)交通,生物保健,沟通,机器学习模拟,边缘设备,网络,高性能计算,产品开发(普通),产品开发(视觉检测解决方案),人机交互(HCI,HRI)

重要项目经历

◎生物保健行业--与谷歌、微软、腾讯和亚马逊等优秀团队合作,我与哈佛大学医学院基因,京都大学诺贝尔医学基因 iPS 干细胞团队合作

2017/1 – 至今 AlibabaGroup合同单位 哈牛橋智能科技 国龙 副总经理 CTO

计算机视觉,多媒体技术,机器学习,清华大学的教授。和技术大趋势的融合,领先的分析技术被用于政府/地方政府,教育/医疗/医疗保健,金融,制造业,物流,通讯/广播,建筑/房地产,电力/燃气/水,网络,制药,农业,零售,制造,交通,体育,宇宙航空,广告,IOT,ICT等行业。

AI记者 体育 智能驾驶 AI会计 律师 AI手术机器人 AI问诊 误诊没 ai机器人葬礼 VR AR 3D AI犯罪追踪 AI图像识别。中国科学技术协会、江苏省浙江省人民政府主办的大赛中获得A类一等奖。大健康产业:生物医药、医疗器械、智慧医疗、健康管理等获得A类一等奖。

主要研究领域为计算机视觉,大数据 区块链,自然语言 处理。阿里巴巴集团首席技术专家

AI深度学习发明的橄榄球5G技术(用于图像识别和语音识别的人工智能(AI)技术之一) 开发了结合了深度学习的橄榄球游戏分析系统,用相机拍摄人体运动,测量AI经过时的身体姿势和运动,AI指导5G技术

◎熟悉 C/C++等语言,Matlab、Qt、ROS 等开发工具,Linux 或 QNX 开发环境机器学习/数据挖掘等 AI 相关的算法研发;算法相关的代码库、工具库的封装和发布;AI 相关算法的性能优化、工程环境部署;参与搭建和实现分布式深度学习集群;

◎熟练掌握机器学习相关的理论知识和实践技能;熟悉 CNN、RNN、LSTM 等典型深度学习模型的使用场景和使用方法;

◎熟悉 TensorFlow、Caffe、MXNet 等主流深度学习框架中的多种;拥有扎实的数学和编程功力。 熟悉基本的机器学习算法,了解机器学习在典型行业的应用模式。有开发经验熟悉大数据相关知识;

◎熟悉数据在客户应用系统中的流向以及加工方式,有大数据平台 HD/Hbase/Hive 等基本组件配置能力。具有独立分析客户需求、设计解决方案的能力,并且有完整项目实施经验;

◎擅长沟通,有能力协调解决团队合作、外部合作中遇到的各类问题,负责公司相关业务、产品和服务的后端开发和维护。

重要项目经历

参与过银行、医疗保健、保险业、金融科技、制造业、零售业、市场营销、体育分析等项目

◎日本武田药品工业、富士胶片及盐野义制药等企业人工智能(AI)推进新药开发项目

医疗 DNA 细胞 IPS 人工智能项目-大阪医院等和美国全美各大医院都已经实施 IBM Watson 人工智能项目 涉及人工智能,智能传感器、望远镜、探测器和医学设备的发展,人工智能将使我们的语言成为精神健康的窗口;高级图像传感器将使得人类预备超级视野;超级放大镜将使得人类了解地球的无限细节;所有医学实验室系统将集成于单个计算机芯片;智能传感器将以光速探测环境污染。

◎AI 案件英特尔人工智能项目:英特尔通过优化的机器学习框架和库宣传其对开源的承诺,以 Nervana 系统的机器学习专家合作;

◎美国 Google 人工智能项目:语言翻译、视觉处理以及排名和预测能力的人工智能开发

◎AI 案件 Salesforce 人工智能项目团队:Salesforc 使用人工智能来帮助员工更加高效的执行任务,并且简化和加速它们的工作效率;

◎AI 案件 Amazon 亚马逊 ALexa 人工智能项目和 init 公司人工智能项目:

亚马逊的人工智能服务机器人 Alexa 开发,参加基 AWS 云平台的深度学习 Amazon Sagemaker框架应用于财务软件美国 INTUIT 公司

◎也参加神户大丸百货人工智能项目:成功的实施了神户大丸是日本首家导入 AI 顾客服务系统的百货商店。日本神户元町的大丸百货商店,于今年6月雇佣了2位对话型 AI 小姐「MOTOMAQI」,并在日本中元、年末这样专门馈赠亲朋好友礼物的节日期间提供特别服务。

◎也参加大荣超市,化妆品店些美妆店也开始运用「AI 樱花小姐」,因为“她”不仅能及时回答顾客的所有问题,还可以确认出每个人的年龄、肌质、肤色、疑问等,然后从自带的数据库中找到相同客户群的需求商品,提案适合不同女性的化妆品。

◎AI 多元素标记施工现场项目:AI 在现场施工中的应用,体现为其可以利用机器学习、语音和图像辨识将施工现场的照片和视频进行自动标记,以便整理数据及搜索。例如,AI 可以采用深度学习模式分析影像和语音,以自动标记施工数据数据并主动向客户提供安全措施建议。AI 助力设计、建造和营运维护。这也正符合着建筑物的生命周期:设计、建造、管理。

◎阿里项目人工智能芯片软件开发、日本永旺集团 AI 案件、参加吉野家 AI 机器人项目、金融信贷融资 AI 防止欺诈、还款催款 AI 系统、野村証业消费金融核心人工智能项目、超市防盗 AI 侦破系统、日本警视厅人脸识别 AI 抓捕犯人系统、日本 AI 交通系统、日本 AI 停车自动系统和 ETC 自动计费系统 ETC 折扣计费系统、体育训练 AI 系统、VR / AR 系统、HCI,HRI 系统、制造业 IOT 系统、视觉检测解决方案、参加野村证券利用 AI 进行各种信息的收集以及解析、日本国土交通省利用 AI 系统进行分析为了缓解旅游观光引起的交通阻塞问题、成功开发了 2020 东京举办奥林匹克 AI 顾客服务系统。

人工智能、大数据、云等方向

◎10年以上大数据模型建设工作经验,熟悉神经网络、深度学习原理并能使用常用的大数据分析平台和工具( python,R,SAS);对互联网用户数据获取有相关工作经验,对于互联网数据风控与建模技术有专业研究;

◎云技术大数据区块链精通 AI 人工智能领域人工智能、深度学习、机器学习方法与应用;自然语言处理自动问答,人机对话系统,情感分析,社交数据挖掘技术专家经验 15 年以上;

1、全面负责项目团队建设,建立一支团结、高效的队伍,激发属下的工作积极性(从10人到50人)负责项目的进度、质量、成本范围管理和控制,技术指导和培训;

2、受到TOYODA客户和NTTDATA公司的表彰(优秀项目组和优秀项目经理个人奖);

3、与MIT,哈佛,日本东京大学等高校合作、三菱,NTTDATA金融科研院所、日本银行金融机构及政府等相关机构的技术合作;负责人工智能核心技术团队的培养深厚的人工智能理论基础组建团队;

4、研究方向:多媒体技术、计算机视觉,自然语言学习等。

重要项目经历

无人驾驶方面

1、 2012/08-至今 日本丰田智能汽车自动驾驶技术和日本 softbank人工智能技术实施项目

2、 与 NVIDIA 英伟达人工智能(AI)芯片自动驾驶团队合作

3、 与英国剑桥大学实验室合作德国奔驰汽车人工智能项目

4、 马自达汽车公司自动驾驶技术/研发项目

5、 参与百度、Momenta、图森等无人驾驶项目研发

6、 天津一汽导入工智能项目

7、 与 IBM AI技术团队合作同时导入三菱汽车、本田汽车、铃木汽车等

8、 综合控制系统开发领域

◎电子平台技术/开发/设计:车辆电气系统开发与架构设计、车载 ECU 的硬件开发(功能/制造要求设计)

◎信息娱乐·UI 区域/前期产品开发:开发汽车信息娱乐系统(新一代汽车连接系统领域)等

◎ADAS,车辆领域/前期产品开发:车辆安全控制开发,车载控制 ECU 硬件,软件开发等

◎MBD 支持/操作系统/开发:仿真支持基于模型的汽车开发(包括 HEV 和 EV),设计和开发操作系统等

◎自动驾驶技术/研发:图像分析,机器学习(DL /强化学习),图像和距离传感器信号处理,新地图开发

◎以人为本的研究领域/现有技术发展:人类特征的假设构建,验证实验计划,测量方法建设工作等

9、动力传动系开发领域

◎EV / PHEV 的变频器/控制开发:下一代自动变速器的液压控制设计/实验研究等

◎驾驶·环境绩效/发展:驱动力控制开发和运行实验/测量工作等

◎发动机·xEV /控制开发:发动机电子控制系统和控制模型设计或软/硬件开发设计等

10、自动驾驶技术方面

◎熟悉车规级嵌入式架构,熟悉模式识别、机器视觉、深度学习、路径搜索等人工智能技术;

◎熟悉 C/C++、Python 语言,Matlab、Qt、ROS 等开发工具,Linux或 QNX 开发环境有作为主要负责人的自动驾驶系统产品开发经验;

◎熟悉适用于自动驾驶的高精度地图元素类型和精度要求,掌握激光点云滤波、地图特征提取、地图构建等算法熟悉 C/C++等语言,OpenCL、PCL 等开发工具,Linux 或 QNX 开发环境熟悉卫星导航、差分定位、惯性导航等基础原理,熟练使用主流组合导航系统,掌握移动物体轨迹推算相关的算法;

◎熟悉 C/C++等语言,Matlab、Qt、ROS 等开发工具,Linux 或 QNX 开发;

◎负责车端和基站端组合导航系统的选型、部署标定和测试,负责组合导航系统的数据解析,车辆轨迹推算算法、导航定位融合算法的开发和测试,在自动驾驶、ADAS 领域至少 12 年以上工作经验,有 LKS、ACC 等产品开发经验;

◎熟悉车辆转向、驱动、制动和悬架等系统工作机理,掌握预瞄跟踪、PID、模糊控制、MPC 等常用车辆运动控制算法,并能够根据车辆动力学特性进行算法优化设计;

◎熟悉 C/C++等语言,Matlab、Prescan、CodeWarrior 等开发工具负责自动驾驶车辆纵向和横向运动控制算法的开发和测试;

2017/1 – 至今 AI解决方案高级技术专家CTO

中国技术支持团队第一个人工智能/机器学习解决方案技术专家,作为技术Leader驱动中国东区和南区市场的AI项目

• 为Edge和Data Center AI解决方案的售前和售后提供技术支持。

• 根据需要证明概念和目标参考设计及方案优化

• 提供有关人工智能解决方案的技术培训

• 客户与研发部门之间的桥梁,以加快项目落地

• 与研发部门合作改进人工智能解决方案(反馈、缺陷报告、内部测试等)

• 建立和维护内部AI/ML服务器(Docker环境)

产品应用高级工程师

• 是全球嵌入式工具方法部署团队在中国区的唯一的工程师,负责在团队在中国区的相关工作,包括新技术推广,培训以及关键项目关键问题的技术支持。

• 专注于为客户提供嵌入式产品(FPGA SoC)解决方案。为客户及内部团队提供软件工具方法和技术方案设计服务(PoC)。

• 为研发团队提供产品技术反馈以帮助改进工具及产品方案。

• 创造性的工作,通过PoC设计、场外和现场支持,直接向客户提供广泛的系统级问题,填补关键项目研发与现场团队之间的技术空白。

• 范围涵盖了xilinx嵌入式产品的全软件栈,以及在soc上与fpga进行软硬件协同设计。

列举项目关键点如下:

• 帮助Tier1客户部署linux系统方案。指导客户将Xilinx Petalinux流程到Yocto流程的迁移。清除包含uboot,linux以及rootfs的关键问题,及时达成客户紧急的项目进度目标。

• 定制实现PS only Reset和PL overlay设计。

• RT Linux在EVB上的部署和性能评估。

• 完成基于Xen虚拟化的AMP 系统部署参考设计

• OpenWRT及第三方USB WiFi在EVB上的成功部署。

• 多路网口性能评估及优化。

• 独立开发基于arm平台的smartNIC项目中定制DMA IP的DPDK PMD(驱动)设计及测试,是公司内部的第一个arm平台实现。

• 独立完成Linux定制应用程序到FreeRTOS的移植。

• 完成多个FPGA HLS加速方案的技术培训及支持

• 协助本地技术支持团队完成多个项目中FFmpeg,GStreamer, XfOpenCV&HLS的技术预研及PoC的实现,加速项目落地。

• 创造性的利用Docker技术完成工具到客户环境的部署

• 创造性的利用Docker技术完成公司数据中心FPGA机器学习方案的部署

高通项目 高级linux软件工程师

参与车载Linux/Android BSP开发及维护

• Ethernet(MAC/PHY)模块bring up及验证,驱动及测试程序开发,性能优化。

• 基于systemd的系统网络配置。

• 移植Open-AVB stack及参与AVB Demo开发及AVB测试环境搭建。

• BSP升级量产功能模块开发及维护。

• Uboot及Linux的SPI NOR驱动开发。

• Lead 某BSP项目客户技术,协助客户进行部分功能定制(recovery,MTP,FM/RDS等)

• 部署LTP到BSP。

• BSP的量产和升级恢复方案的设计和维护

• 协助管理BSP的技术支持

半导体项目 (linux驱动工程师

• USB3.0控制器(xHCI)驱动开发及维护。

• 为Linux OS Vendor(Ubuntu/Suse/Redhat)提供技术支持(xHCI/ACPI)。

• 发布Chipset驱动及内核RPM、DEB安装包。

• 提交xHCI/EHCI/ACPI相关驱动到linux upstream

华为项目 linux驱动工程师

负责公司PCI&USB数字/模拟电视卡的linux驱动及相关应用程序开发及维护。

• USB电视接收卡linux驱动开发及维护。该驱动同时支持多种硬件方案,涵盖NTSC/PAL/ATSC/DTMB等模拟及数字电视制式。

• PCI电视接收卡linux驱动开发及维护。该驱动同时支持多种硬件方案,涵盖NTSC/ATSC等模拟及数字电视制式。其中还包含了基于ALSA架构的声卡驱动模块。

• I2C EVK(评估板)linux驱动开发及维护。该板用于对机顶盒参考方案进行调试验证。

• Linux平台I2C Controller应用程序开发。该工具与I2C EVK驱动配合,用于对其硬件进行实时调试验证。负责QT开发GUI及与驱动程序交互的底层接口。

linux软件工程师

• 协助并参与员工技术培训,包括Linux Device Driver&Kernel Training,Linux Kernel Training, QA Training, 熟悉公司的软件开发文档及质量控制流程。

- 修改Linux Task Scheduler

- 实现内存泄漏检测工具

• 为PXA270嵌入式开发板开发基于ALSA架构的AC97 linux声音驱动。

汽车科技项目

担任职位:资深软件工程师

工作职责:

² 负责小鹏自研超级充电桩(ARM+Linux)软件架构工作;

² 负责新架构下的软件开发工作(基础库、驱动层、平台层、应用层);

² 重点完成了基础库、驱动层、平台层的代码编写。

广电运通金融项目

客户简介:广电运通是全球领先的货币处理设备及系统解决方案提供商,是中国规模最

大的 ATM(自动柜员机)产品及系统解决方案供应商、实力最雄厚的 AFC

(自动售检票系统)设备及核 心模块提供商,也是国内最专业的金融服务外

包商与最富成长力的现金智能处理专家。

担任职位:高级工程师/主任(嵌入式软件方向)

工作职责:

² 负责钞票识别模块的硬件平台的驱动开发调试及识别调度流程开发工作;

² 新技术及新传感器的驱动实现调试及数据采集工作;

² I2C、SPI、UART、PCIE、GPIO、USB、以太网、摄像头、WIFI、FPGA、CIS、磁传感器等 驱动开发及相应上位机测试软件开发;

² ARM裸核、DSP 平台硬件性能优化工作。 5、硬件平台的驱动软件架构和优化工作,UT、ST 工作。

科大讯飞项目

客户简介: 科大讯飞科技是一家领先的专业音视频设备提供商。公司自主研发、生产、销

售以数字电视前端为主的专业视听设备。为有线、无线、卫星等传统电

视台及网络公司提供一站式端到端 解决方案,及为 OTT、IPTV 等新媒体

服务商提供优异的系统服务。

担任职位: 高级软件工程师

工作职责:

² xilinx zynq 平台 ARM Linux 驱动和 uboot 实现;

² 完成基于 Magnum 编码芯片完成标清、高清视频编码方案设计,多音频方案设;

² 按照 IPD-CMM 流程完成 UT、ST、BBIT工作完成全部代码编写以及 UT/ST 测试和联调。

华为技术有限公司杭州研究所项目

担任职位: 软件工程师

工作职责:

² 独立完成 Vxworks、Linux、DSP 模块驱动,以及模块设计文档,指导后续开发维护;

² 按照 IPD-CMM 流程完成模块的编码和测试用例设计;

² 按照 IPD-CMM 流程完成 UT、ST、BBIT 工作;

² 能够参与项目疑难问题攻关,并能起主导作用,组织参与专项测试和代码检视工作。

超级充电桩软件架构+硬件平台开发

项目简介:基于 ARM+Linux 平台的充电桩架构和开发。

担任职位:资深软件工程师

工作职责:

² 充电桩软件的分层架构实现设计,输出软件架构文档,AICPU firmware系统框架开发、计算通路、DFX研发、商用交付;

² 驱动层软件的编码工作(驱动 I2C、SPI、GPIO、USB、PWM、CAN、ADC、WIFI、4G);

² 基础库编码工作(任务、定时器、消息队列、共享内存、应用框架、配置文件解析 等模块);

² 旧架构下的部分软件开发工作(网络节点选择、OTA 升级、应用守护等)。

工作业绩:

² 完成了该平台下的分层架构,各层分工明确,便于后续的扩展和维护;

² 完成了基础库、硬件驱动层编写,平台层适配当中;

² 定义了各层实现的开发框架和模板,后续新增硬件驱动可以按照模板的实现方式进行添加,更便捷的进行新功能迭代。

ARM 平台钞票识别模块开发

项目简介:基于 Altera Cyclone SOC、TI C6654 及全志 V5 ARM 芯片平台硬件驱动及

平台开发。

担任职位:产品工程组主任

工作职责:

² TI C6455 平台升级为 ARM 平台的软件验证工作;

² 负责新传感器、硬件平台的软件评估、方案验证及驱动设计工作;

² 完成 ARM 平台(Cyclone SOC+TI C665/全志 V5)芯片硬件驱动及识别平台的软件开发;

² 完成 preloader、Uboot、Linux Kernel 定制、裁剪及适配工作;

² 负责与算法部门对接,进行功能集成工作;

² 新硬件平台软件开发完毕,负责新平台的小批量验证及量产导入工作。

工作业绩:

² 完成的 ARM识别平台平台软件的统一架构,已在 5 款机芯上推广使用,与原有模块相比,可降低20%的成本。新软件架构遵循分层原则,易于后续移植其它硬件平台。

TI C6455/OMAP138 平台钞票识别模块开发

项目简介:基于 TI C6455/OMAP138 钞票识别模块软件开发。

担任职位:高级软件工程师

工作职责:

² OMAP138 平台升级 TI C6455 平台的硬件驱动适配工作;

² 完成 DSP 平台的驱动开发(DDR2、SPI、I2C、UART、ADC、FPGA、CIS);

² 各类传感器(CIS、厚度、磁)图像的硬件采集及校正;

² CACHE 性能优化及软件归一化工作;

² 编写图像采集等上位机测试工具。

工作业绩:

² 保障了公司出货量最大循环机型钞票识别模块的开发及维护;完成多光谱新识别平台的软件 开发及生产导入;推进平台归一化工作,完成 C6455 平台各机型代码归一化;制定了统一的 控制协议,后续所有机型共用一套控制协议,便于维护;编写了测试工具对外标准 API 接口, 用于集成到不同机型工具。

ARM 平台高清编码视频板开发

项目简介:基于Zynq 平台 ARM Linux 驱动和 uboot 实现,迈能编码芯片应用软件实

现。

担任职位:高级软件工程师

工作职责:

² 完成 UBOOT 启动引导;

² 完成外围总线驱动适配(PCI、SPI、I2C、FLASH、DDR) ;

² 完成迈能编码芯片应用软件(高清、标清以及 Logo 插入) 。

工作业绩:

² 高质量按照计划完成了需求功能,创新性设计了 Logo 插入的升级和制作方案,后续作为平台 机的应用方案。并且在项目开发中,采用之前在华为做项目的 IPD-CMM 流程经验,主动设计 ST 用例以及完成测试,转测试后软件问题很少,受到领导层的重视,并在项目组中推广。

Vxworks + Linux PowerPC BSP 开发

项目简介:基于 Vxworks6.8 + WindRiver Linux 完成 Freescale P304、P1012 两块

硬件单板 BSP 开发。

担任职位:华为二级软件工程师

工作职责:

² 完成窄带接入芯片 BRI、E1/T1 以及窄带交换模块的 Vxworks 和 Linux 下的驱动开发 ;

² 完成 Vxworks 启动加载和 Linux 的启动流程开发 ;

² 完成小系统(CPU、DDR、FLASH、网卡、操作系统)、双 BIOS、USB、CF 卡、UART、SPI、 I2C、USB、FLASH 等外围驱动开发 ;

² 完成 DSP 硬件驱动开发。

工作业绩:

² 高质量完成了编译和启动加载流程,以及单板的上电启动调试,完成了系统的窄带模块设计, 经过 2 个版本,负责模块已经稳定。开发过程中,掌握了 Linux 和 Vxworks 驱动开发和调试方 法,并开发了一款基于 Shell 下进行内核模块函数 UT 工具,并在公司自动化测试中使用。作 为 MDE 角色,参与到软件系统的设计工作。语音媒体板使用的 DSP 驱动为前期开发的 Shannon DSP 驱动,指导一名同事维护该部分驱动代码并培养一名新员工,并顺利完成转正 。

Ti 多核 DSP tms320c6678 开发

项目简介:基于 Ti BIOS 操作系统,实现 DSP 驱动以及性能验证,完成 DSP 编解码

处理性能的评估。

担任职位:华为一级软件工程师

工作职责:

² 实现 DSP 多核启动、时钟、电源、DDR3、窄带接入(TSIP)、PCIE、HyperLink、网口、硬件 RTP 加密等模块驱动 ;

² 实现各个模块的功能测试,达到项目验收标准。

工作业绩:

² 独立完成了项目开发,新增代码 10K 以上,且该 DSP 为公司内新器件,项目成果作为公司级 平台应用,支撑了 4 个硬件平台的商用 。

DSP 媒体网关 VOIP 开发和维护

项目简介:开发基于 Ti DM648 芯片 + PowerPC 的 VOIP 方案,实现中小用户量硬件

平台 ; 维护原有平台媒体网关,该媒体网关方案组成:Ti DSP TMS32054X 芯片(实现 DTMF、FSK、 MFC、信号音)+ MNDSPEED MPC82610 芯片(实现 G711、G729、G723、RFC2833、RFC2198、 T38 会场系统)。

担任职位:华为软件工程

工作职责:

² 开发项目中完成了语音媒体网关 DSP 内核调度的移植方案,完成了 DSP 芯片驱动、PowerPC 上的 PCI 驱动、DSP 加载模块、DSP 的老化和装备模块以及 PowerPC 上的 VOIP 调度方案;

² 在维护项目中主要负责平台的维护和新特性开发,及时定位网上问题,快速定位出根因以 及给出解决方案。

工作业绩:

² 在维护工作期间,对疑难问题能够快速分解,定位效率高,解决问题多,成长为技术骨干, 同时通过维护,更贴近用户,更能关注用户需求,为后续的开发工作打下良好基础 ;

² 开发过程中严格按照开发流程,完成需求分析和概要设计,完成编码和 UT、ST 工作,并 在工作中通过组织代码检视保证开发质量。同时伴随能力的成长,在项目中作为接口人,负 责与周边项目组,协调以及攻关解决问题。

个人主页及报告摘要参考文献相关信息*

英文主页(English):[@GoogleSite] [@GoogleScholar]

中文主页(Chinese):[@VIPL] [@MIRACLE] [@ICT,CAS] [@UCAS]

https://scholar.google.co.uk/citations?user=nii0-jgAAAAJ&hl=en学术https://sites.google.com/view/guolong95721/guolong

参考

JSAI人工知能学会 正会員 https://www.ai-gakkai.or.jp/

CiNii Articleshttp://ci.nii.ac.jp/

CiNii Bookshttp://ci.nii.ac.jp/books/

CiNii Dissertationshttp://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

科学研究費助成事業|日本学術振興会

https://www-shinsei.jsps.go.jp/kaken/index.html

科学研究費助成事業-科研費-:文部科学省

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

英国政府科学办公室(Government Office of Science)和英国下议院科学

技术委员会(The House of Commons’Science and Technology Committee)

英国人工智能委员会

开放数据研究所(ODI)

包括阿兰图灵研究所,以及剑桥大学、爱丁堡大学、牛津大学、伦敦大学、华威大学组成的EPSRC协会

https://www.caai.cn/中国人工智能学会

AAA1国际人工智能协会会员

一般社団法人日本ディープラーニング協会

报告摘要:

围绕多视图聚类问题展开研究:提出了矩阵范数正则化多模态聚类算法以降低冗余性和增强多样性;提出了缺失多模态分类、聚类算法以解决具有缺失模态的分类、聚类等学习问题;提出了噪声多模态分类、聚类算法以解决具有噪声模态的分类、聚类等学习问题。

报告题目:缺失多视图聚类算法及应用研究

报告摘要:

多视图学习(multi-view learning)是一种利用多源信息的重要技术。多源、异构特性导致不同视图之间的关联复杂且难以预知,甚至领域专家在面对复杂多源信息时也难以有效利用。多视图学习的核心问题是如何协同利用不同视图之间的一致性和互补性,准确地发现数据的内在模式以提高数据分析的有效性。报告针对多视图学习中的基础问题进行研究,一方面针对多视图一致性和互补性,探索传统模型的局限性;另一方面,进一步提出多视图表示学习完备性,解决多视图融合的完备性编码问题。

报告摘要:

人类表达自身情感最重要的方式是通过表情这种非语言行为来进行。微表情是一种持续时间非常简短的自发人类脸部表情,往往反映了人们希望隐藏的真实情感所以不容易假冒。因此自动检测并识别这些转瞬即逝的信息在安防、医疗、商业等许多领域都具有广泛的应用前景。报告人在自动微表情分析方向上开展了多年研究。本次报告将简要汇报其在相关方面的主要工作,包括(一)微表情视频预处理与识别框架、(二)基于深度学习的微表情检测与识别算法、(三)、利用多模态\跨数据集解决小样本问题的尝试等。

报告题目:智能微表情分析:挑战与趋势

报告摘要:

谷歌图像识别软件把黑人误识为猩猩,亚马逊人脸识别软件对黑人的错误率是白人的两倍,特斯拉Autopilot的误识造成多起无法解释的意外。这些视觉系统的识别偏差由何而来?识别系统的性能主要由训练数据的数量和质量决定,标签噪声、不平衡类别、特征噪声等数据偏差严重影响系统的实际性能。如何减小所收集数据的偏差,以及如何在偏差数据条件下进行有效的模型学习,是计算机视觉领域亟待解决的问题。本报告以常用的人脸识别和表情分析为应用,汇报课题组近期在大规模数据自动清洗、众包表情标签估计及数据库、面向长尾数据和对抗样本的训练方法、种族偏差评估和去偏差算法等工作。

报告题目:视觉识别中的数据偏差

报告摘要:

视觉内容采集及处理在信息获取中占据主导地位。然而,传统像机采用光电流积分模式,且需经过空间与幅度两次采样,这使得其存在A/D采样技术门槛高、数据量大、系统复杂等问题,从而造成图像处理、目标识别、尤其对动目标的发现代价极高、功耗大、一次情报及时生成难等问题。变革其中的信息采集方式是关键。受生物视觉成像机理启发,提出了一种仿生动态成像芯片,用脉冲变化表达视觉信息,该芯片具有系统简洁、对运动目标敏感、成像动态范围大、数据率低、系统功耗低等特点。此外,面向仿生芯片输出的脉冲事件,研制新型的去噪、检测、识别算法,使得成像认知一体化。

报告题目:仿生动态成像系统设计及数据采集

报告题目:Beyond Face Recognition: Remote Physiological Signal Sensing

报告题目:Adversarial Training for Deep Learning: A Framework for Improving Robustness, Generalization and Interpretability

报告摘要:

Deep learning has achieved tremendous success in various application areas. Unfortunately, recent works show that an adversary is able to fool the deep learning models into producing incorrect predictions by manipulating the inputs maliciously. The corresponding manipulated samples are called adversarial examples. This robustness issue dramatically hinders the deployment of deep learning, particularly in safety-critical scenarios.

In this talk, I will introduce various approaches for how to construct adversarial examples. Then I will present a framework, named as adversarial training, for improving robustness of deep networks to defense the adversarial examples. Several proposed approaches will be introduced for improving and accelerating adversarial training from perspective of Bayesian inference and optimal control theory. We also discover that adversarial training could help to enhance the interpretability of CNNs. Moreover, I will show that the introduced adversarial learning framework can be extended as an effective regularization strategy to improve the generalization in semi-supervised learning.

报告摘要:

The discovery of adversarial examples (attacks) has raised deep concerns on the security and reliability of machine learning models in safety-crucial applications. This has motivated a body of work on developing either new attacks to explore the adversarial vulnerability of machine learning models, or effective defenses to train robust models against adversarial attacks. In this seminar, I will introduce three of our recent works in this "arms race" between adversarial attack and defense: 1) a new SOTA defense method: Misclassification Aware adveRsarial Training (MART); 2) a new attack method Skip Gradient Method (SGM) to craft highly transferable attacks via manipulating the skip connections of ResNets; and 3) a new framework Adversarial Camouflage (AdvCam) to camouflage adversarial attacks into stealthy natural styles in the physical world.

报告摘要:

In recent years face analysis and recognition technologies have obtained repaid development and are becoming mature in many areas. For example, face recognition technologies are now being widely in our daily life including access control, person authentication, smartphone unlock, video surveillance, etc. While the uniqueness characteristic of face has being deeply exploited, face can convey more information beyond identity, like expression/emotion, attribute, and even physiological signals (e.g., heart rate and respiration rate). This talk will introduce the development of remote physiological signal sensing methods, covering a brief review of milestone of this area, representative methods, databases and measures, as well our thoughts and efforts in resolving the challenges in this problem.

报告题目:Feature representation in person Re-identification

报告题目:Thoughts about Object Re-identification and Beyond

报告摘要:The re-identification problem has been studied extensively studied in the past few years, and performance on some public datasets is close to saturation. In this talk, I will discuss some new perspectives that might be useful for the community. First, I will present our work connecting re-identification and multi-object tracking, through discussing the underlying differences between the two tasks. Second, I will discuss the use of synthetic data in re-identification and its potential applications in the broader computer vision community.

报告摘要:

Deep neural networks (DNNs) have developed rapidly and achieved remarkable success in many artificial intelligence (AI) applications, such as image understanding, speech recognition and natural language processing, which have been one of the research focuses in AI. However, with the high performance improvement of DNNs, the networks have become deeper and wider, which significantly increases the number of parameters and computation complexity. How to compress and accelerate these large DNNs has received ever-increasing focus from both academic and industrial research. Aiming at the problem of parameter redundancy in DNNs, this talk presents general methods of low-rank decomposition, parameter pruning and knowledge distillation for DNNs compression and acceleration, especially for convolutional neural networks (CNNs) compression and acceleration.

参考文献

[1]Guolong, Ming-Zher Poh, Daniel J. McDuff, and Rosalind W. Picard, "Non-contact, automated cardiac pulse measurements using video imaging and blind source separation.," Opt. Express 18, 10762-10774 (2010).

[2] Guolong,Xiaobai Li, Jie Chen, Guoying Zhao, Matti Pietikainen; Remote Heart Rate Measurement From Face Videos Under Realistic Situations. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 4264-4271.

[3] Guolong, Xuesong Niu, Shiguang Shan, Hu Han, and Xilin Chen. RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation, IEEE Transactions on Image Processing (T-IP), vol. 29. no. 1, pp. 2409-2423, Dec. 2020.

[4] Guolong,Xuesong Niu, Xingyuan Zhao, Hu Han, Abhijit Das, Antitza Dantcheva, Shiguang Shan, and Xilin Chen. Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention. in Proc. 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG), pp. 1-8, Lille, France, May 14-18, 2019. (Best Poster Award)

[5] Guolong,Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. VIPL-HR: A Multi-modal Database for Pulse Estimation from Less-constrained Face Video. in Proc. 14th Asian Conference on Computer Vision (ACCV), pp. 562-576, Perth, Australia, Dec. 2-6, 2018.

[6] Guolong, Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. SynRhythm: Learning a Deep Heart Rate Estimator from General to Specific. in Proc. 24th International Conference on Pattern Recognition (ICPR), pp. 3580-3585, Beijing, China, Aug. 20-24, 2018.

参考文献:

[1] Guolong,X. Li, X. Hong, A. Moilanen, X. Huang, T. Pfister, G. Zhao, M. Pietikäinen. Towards Reading Hidden Emotions: A Comparative Study of Spontaneous Micro-expression Spotting and Recognition Methods. IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 563-577, IEEE TAFFC, 2018.

[2] Guolong, Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao. Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions. IEEE Transactions on Multimedia, Vol. 22, No. 3, pp. 626-640, IEEE TMM, 2019.

[3] Guolong, X. Hong; W. Peng; M. Harandi; Z. Zhou; M. Pietikäinen, and G. Zhao. Characterizing Subtle Facial Movements via Riemannian Manifold. ACM Transactions on Multimedia Computing Communications and Applications, Vol. 15, No. 3s, pp. 1-24, ACM TOMM, 2019.

参考文献:

[1] Guolong,Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, "Cross Attention Network for Few-shot Classification, "The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019.

[2] Guolong,Xinqian Gu, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen, "Temporal Knowledge Propagation for Image-to-Video Person Re-identification," IEEE International Conference on Computer Vision (ICCV), 2019.

[3] Guolong,Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “Interaction-and-Aggregation Network for Person Re-identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[4] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “VRSTC: Occlusion-Free Video Person Re-Identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

参考文献:

[1] Guolong,Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu. Recent Advances in Efficient Computation of Deep Convolutional Neural Networks. Frontiers of Information Technology & Electronic Engineering (FITEE), Vol.19, No.1, pp.64-77, 2018.

[2] Guolong,Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng. Quantized Convolutional Neural Networks for Mobile Devices. CVPR 2016.

[3] Guolong,Peisong Wang, Jian Cheng. Fixed-point Factorized Networks. CVPR 2017.

[4] Guolong,Xiangyu He, Jian Cheng. Learning Compression from Limited Unlabeled Data. ECCV 2018.

[5] Guolong,Gang Li, Fanrong Li, Tianli Zhao, Jian Cheng. Block Convolution: Towards Memory-Efficient Inference of Large-Scale CNNs on FPGA. DATE 2018.

参考文献:

[1] Guolong,S. Lin, R. Ji, C. Chen, D. Tao, and J. Luo. Holistic cnn compression via low-rank decomposition with knowledge transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

[2] Guolong,S. Lin, R. Ji, C. Yan, B. Zhang, L. Cao, Q. Ye, F. Huang, and D. Doermann. Towards optimal structured cnn pruning via generative adversarial learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019.

[3] Guolong,S. Lin, R. Ji, X. Guo, and X. Li. Towards convolutional neural networks compression via global error reconstruction. In International Joint Conference on Artificial Intelligence, pages 1753–1759, 2016.

[4] Guolong,S. Lin, R. Ji, Y. Li, C. Deng, and X. Li. Toward compact convnets via structure-sparsity regularized filter pruning. IEEE transactions on neural networks and learning systems, 2019.

[5] Guolong,S. Lin, R. Ji, Y. Li, Y. Wu, F. Huang, and B. Zhang. Accelerating convolutional networks via global & dynamic filter pruning. In International Joint Conference on Artificial Intelligence, 2018.

参考文献:

[1] Guolong, C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao and D. Xu, Generalized Latent Multi-View Subspace Clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2018.

[2] Guolong,C. Zhang, Z. Han, Y. Cui, H. Fu, T. Zhou, Q. Hu, CPM-Nets: Cross Partial Multi-View Networks, Neural Information Processing Systems (NIPS, Spotlight), 2019.

[3] Guolong,C. Zhang, Y. Liu, H. Fu, AE^2-Nets: Autoencoder in Autoencoder Networks, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Oral), 2019.

[4] Guolong,C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, Latent Multi-view Subspace Clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Spotlight), 2017.

[5] C. Zhang, H. Fu, S. Liu, G. Liu, X. Cao, Low-Rank Tensor Constrained Multiview Subspace Clustering, IEEE International Conference on Computer Vision (ICCV), 2015.

参考文献:

[1] Guolong, Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang. Locality aware appearance metric for multi-target multi-camera tracking. Arxiv 2019.

[2] Guolong, Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang, Towards real-time multi-object tracking. Arxiv 2019.

[3] Guolong,Xiaoxiao Sun, Liang Zheng, Dissecting person re-identification from the viewpoint of viewpoint. CVPR 2019.

[4] Guolong,Yue Yao, Liang Zheng, Xiaodong Yang, Milind Naphade, Tom Gedeon, Simulating Content Consistent Vehicle Datasets with Attribute Descent. Arxiv 2019.

参考文献:

[1] Guolong,Yisen Wang, Difan Zou, Jinfeng Yi, James Bailey, Xingjun Ma and Quanquan Gu. "Improving Adversarial Robustness Requires Revisiting Misclassified Examples", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[2] Guolong,Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey and Xingjun Ma. "Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[3] Guolong,Ranjie Duan, Xingjun Ma, Yisen Wang, James Bailey, Kai Qin, Yun Yang. "Adversarial Camouflage: Hiding Adversarial Examples with Natural Styles," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR'2020), Seattle, Washington, 2020.

参考文献:

[1] Guolong,Dinghuai Zhang*, Tianyuan Zhang*, Yiping Lu*, Zhanxing Zhu and Bin Dong. You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle. 33rd Annual Conference on Neural Information Processing Systems.[NeurIPS 2019]

[2] Guolong, Tianyuan Zhang, Zhanxing Zhu. Interpreting Adversarial Trained Convolutional Neural Networks. 36th International Conference on Machine Learning. [ICML 2019]

[3] Guolong,Bing Yu*, Jingfeng Wu*, Jinwen Ma and Zhanxing Zhu. Tangent-Normal Adversarial Regularization for Semi-supervised Learning. The 30th IEEE Conference on Computer Vision and Pattern Recognition. [CVPR 2019] (Oral)

[4] Guolong, Nanyang Ye, Zhanxing Zhu. Bayesian Adversarial Learning. 32nd Annual Conference on Neural Information Processing Systems. [NeurIPS 2018]

Guo Long

Professor@University of Cambridge

· Twitter

· LinkedIn

· Github

· Google Scholar

· ORCID

· Contact Me:

Email: 1500467240@qq.com

Office: Room 9.15, Doug McDonell Building (Building 168), University of Cambridge .

Summary

985 Dr. Cambridge, Guolong, born in July 1995, Ph.D. supervisor, currently ICF, the British Key Laboratory of Intelligent Information Processing. One of the founders of Harniu Bridge Intelligent Technology, a doctoral tutor at Cambridge University. He graduated from Cambridge University in 2017 with a doctorate. He is currently engaged in research work in the Computer Department of Cambridge University, and is a researcher and professor at the School of Computer and Information Systems at Cambridge University. He is an active researcher in the field of adversarial machine learning, deep learning and computer vision, and has published more than 10 papers at top conferences (including ICML, ICLR, CVPR, ICCV, AAAI and IJCAI).

Researcher of Chinese Academy of Sciences, full member of JSAI Artificial Intelligence Society, IEEE member, SIGIR member CAAI Chinese Artificial Intelligence Society member, AAA1 International Artificial Intelligence Society member. Member of ACM, ACM Commissioner of British Artificial Intelligence China

Researcher of Chinese Academy of Sciences, full member of JSAI Artificial Intelligence Society, IEEE member, SIGIR member, CAAI member, Chinese Artificial Intelligence Society member. AAA1 International Artificial Intelligence Society. ACM member, ACM CAAI China-Britain Artificial Intelligence Association China-Britain Artificial Intelligence Association member, general corporate judicial person Japan Deep planning Association

respectively at Cambridge University, Michigan State University (partners: A.K. Jain Academy of Sciences) and the US Google headquarters in biometric research work, has served as Google Abacus core R & D project members. The main research directions are computer vision and pattern recognition, intelligent biological perception and medical image analysis. Published more than 50 academic papers in authoritative international journals and conferences in the fields of IEEE TPAMI / TIP / TIFS / TBIOM, CVPR, ECCV, NeuroPS, MICCAI, etc. (first author IEEE T-PAMI long article 3), Google academic citation more than 2500 (H-Index: 24); as the person in charge of more than 10 topics such as national key R & D sub-projects, fund key sub-projects, fund management, Chinese Academy of Sciences foreign cooperation and enterprise cooperation. The research results won the FG2019 best poster paper award, CCBR2018 best poster paper award, CCBR2016 best student paper award, and ICCV2015 apparent age recognition competition runner-up, ICMI2018 face video concentration analysis runner-up, NIST. Published more than 50 academic papers in authoritative international journals and conferences in the fields of IEEE T-PAMI / T-IP / T-IFS / T-BIOM, CVPR, ECCV, NeuroIPS, MICCAI (first author IEEE T-PAMI long article 3 Article), Google Scholar cited more than 2,500 times (H-Index: 24); as the person in charge of more than 10 topics such as national key R & D sub-projects, fund key sub-projects, fund management, Chinese Academy of Sciences foreign cooperation and enterprise cooperation. Relevant work and technology won the best student paper / best poster paper award for the conference 3 times (including the best poster paper award for the famous international conference FG2019 in the field of face analysis), and won the first and second runner-up in international competitions 3 times. Mainly engaged in research work in video surveillance, continuous learning and micro expression analysis. Has published more than 30 articles in T / PAMI, T-IP, T-MM and other IEEE / ACM journals and top academic conferences such as CVPR, ICCV, and AAAI, co-published a monograph, and the highest impact factor of the journal contained in a single article 17.73. His related work on micro-expression analysis has been reported by international authoritative media articles including the US MIT Technology Review and the British Daily Mail. He has presided over the key research and development plan of the Ministry of Science and Technology and the postdoctoral research fund project of the Finnish Information Technology Society. He served as the chairperson of ACM MM and other authoritative international conferences and held five special seminars at mainstream international conferences. AttE2018 tattoo positioning and tattoo portrait recognition evaluation champion and many other international competitions. Published more than 60 papers in top conferences and journals in the field of computer vision. He is the chairman of several seminars of CVPR and other conferences, chairman of ICCV2019, AAAI2019, IJCAI2020 field (senior program committee member), associate editor of IEEE TCSVT and Neurocomputing in computer vision field. Engaged in basic theoretical research on pattern recognition and computer vision, and applied to face recognition, expression recognition, pedestrian re-recognition, fine-grained image recognition, etc. In recent years, he has hosted more than ten projects such as the National Natural Science Foundation of China and national key research and development projects, and published papers in IEEE TPAMI, TIP, TIFS, IJCV, PR and other international journals, and ICCV, CVPR, ECCV, NIPS, AAAI, SIGIR and other international conferences More than 100 articles. He has published more than 60 papers at top computer vision and machine learning conferences, including CVPR, ICCV, ECCV, and NeurlPS. He won the Video Object Detection (VID) Track Challenge of the ImageNet Challenge in 2016 (as the team leader) and 2015 as the team's co-leader. He is a guest editor of the International Journal of Computer Vision and Neural Computing. His research interests include computer vision, machine learning and medical image analysis.

Under the guidance of Professor Peter Robinson, pioneer of Emotional Computer. The main research direction is computer vision. He has published more than 20 papers in conferences and journals such as CVPR / ICCV / TIP. He has long been responsible for the maintenance of the famous database DEAP for multimodal sentiment analysis. He has participated as a core member in a number of national 863/973 projects and EU FP7 projects, and actively promoted the breakthrough of computer vision, especially face analysis in the health and safety industry, in interactive entertainment, new retail, security, automotive assisted driving, troops, etc. Each industry has been applied on a large scale. Research interests: Intelligent biological perception, medical image analysis, computer vision, etc. are also program committee members or reviewers of many conferences and journals, such as ICML, ICLR, NeuroIPS, ECCV, KDD, AAAI, TPAMI, TNNLS, and TKDE. He was invited to provide an adversarial machine learning tutorial at the 32nd Australian Artificial Intelligence Joint Conference (AI 2019) in Adelaide.

Deputy Director of the Key Laboratory of Ministry of Education for Machine Intelligence and Advanced Computing. He mainly focuses on pedestrian identity recognition and motion analysis in large-scale intelligent video surveillance, develops video image information and signal recognition and prediction research, and conducts large-scale machine learning algorithms and theoretical research around this application. Regarding pedestrian tracking for large-scale surveillance networks, he conducted early and continuous in-depth research on cross-view pedestrian re-identification at home and abroad, published a series of research work that focused on cross-view measurement learning, and recently focused on Unsupervised and weak annotation learning modeling, trying to solve the problem of image and video analysis under "big data and small annotation". He has published more than 120 major academic papers, including 12 IEEE T-PAMI and IJCV papers and more than 80 other papers published in other image recognition and pattern classification IEEE TIP, IEEE TNN, PR, IEEE TCSVT, IEEE TSMC-B and other international Major authoritative journals and ICCV, CVPR, AAAI, IJCAI and other computer societies recommend Class A international academic conferences. Acting as the editorial board member of Pattern Recognition and other journals, serving as AVSS 2012, ICPR 2018, IJCAI 2019/2020, AAAI 2020, BMVC 2018/2019 Area Chair / SPC, etc. He is a member of IEEE MSA TC. He presided over a national key research and development project, a project of the National Natural Science Foundation of China-Big Data Science Center (integrated project) project and five other national projects. Royal Newton Senior Scholars Fund

Doctoral tutor, deputy director of the Key Laboratory of Biosensing and Intelligent Information Processing, head of the LiVE vision and intelligent learning team, IEEE Senior Member. The main focus is on transfer learning, deep learning and visual analysis in an open environment. Published 48 papers in IEEE TIP / TCSVT / TNNLS / TMM / TCYB / TSMCA / TIM and other journals with the first or communication, more than 30 papers in ICCV / AAAI / ACM MM / ACCV and other conferences, and 1 English monograph , 10 authorized patents, many papers were selected as ESI highly cited papers, Google Scholar cited more than 1500 times. He has served as a reviewer for more than 50 journals such as TPAMI / TIP / TNNLS / TMM / TCSVT and many conferences such as AAAI / ICLR / CVPR / ICCV / IJCAI, presided over more than 10 projects such as the National Natural Science Foundation of China and key R & D sub-projects. Won the CCBR Best Paper Award

His research directions include data clustering, social networks, and recommendation systems. He has published more than 100 academic papers as the first author or directed students, including top international publications such as IEEE TPAMI, IEEE TKDE, IEEE TCYB, IEEE TNNLS, and top international conferences such as KDD, AAAI, IJCAI, and CVPR. Hosted the Natural Science Fund-Outstanding Youth Fund, "Science and Technology Youth Top Talents", National Key R & D Program Project-Sub-Project, National Natural Science Fund-General Project, National Natural Science Fund-Youth Fund, CCF-Tencent Rhino Bird 13 projects including scientific research funds. In terms of teaching, he was awarded the Big Data Platform / Cloud Computing course funded by the IBM / Industry-University Cooperation Professional Reform Project in 2013/2015, which is one of the 20 funded courses nationwide. He is the author of about 10 scientific articles in top venues (including IEEE TPAMI, TNNLS, CVPR, IJCAI and AAAI). He is a reviewer for IJCV, IEEE TNNLS and TMM. His research interests include machine learning and computer vision. He tried to re-identify people on a large scale as early as possible, and his works were well received by the society. He won the Outstanding Doctoral Dissertation and Wu Wenjun Award of the Chinese Artificial Intelligence Association, and the DECRA Award of the Australian Research Council. MIT's "Technology Review" features his research, some of which were selected for computer science courses at Stanford University and the University of Texas at Austin. He is the regional chair / advanced PC for ECCV 2020, AAAI 2020, IJCAI 2019 and IJCAI 2020, and organized tutorials and seminars at ECCV 2018, CVPR 2019 and CVPR 2020. He is an associate editor of IEEE TCSVT.

He is the associate editor (AE) of the Journal of Artificial Intelligence Research (JAIR, CCF Class B SCI), an authoritative artificial intelligence journal, and is also a dozen international journals such as IEEE TPAMI, JMLR, IEEE TKDE, IEEE TNNLS, IEEE TCYB, PR, etc. Of the reviewers are KDD (2019, 2020), IJCAI (2019, 2020), AAAI (2017, 2018, 2019, 2020), CIKM (2019), IEEE ICDM (2014, 2015, 2016, 2018, 2019) The program committee member is the chairman of the website of the China Pattern Recognition and Computer Vision Academic Conference PRCV 2018. He has participated in ICDM2010 (Sydney Australia), ICDM2011 (Vancouver, Canada), SDM2013 (Austin, USA), ICMLA2014 (Detroit, USA), IEEE Bigdata2016 (Washington, USA), DASFAA2018 (Gold Coast, Australia), ICDM2018 (Singapore), BIBM2018 (Madrid, Spain) ), IJCAI2019 (Macao, China) and other international conferences, communicate with academic peers, and make ORAL reports 16 times. His ICDM2010 thesis won the Best Paper Nomination Award; he was nominated for the 2012 Microsoft Asia Research Institute Scholar Award, the 2014 Chinese Computer Society Outstanding Doctoral Dissertation Nomination Award, and the 2019 Chinese Artificial Intelligence Society Outstanding Doctoral Dissertation Award. He is a member of the Chinese Artificial Intelligence Society-Pattern Recognition Professional Committee, Chinese Computer Society-Database Professional Committee, Chinese Computer Society-Computer Vision Professional Committee, CCF-YOCSEF Guangzhou Vice Chairman (2018-2020), CCF Guangzhou Branch Vice Chairman (2019.3-2021.3), CCF-YOCSEF Guangzhou Chairman (2020-2021).

His research areas are computer vision and machine learning. He has published more than 300 papers in domestic and international journals and academic conferences, including more than 80 CCF A-type papers, which have been cited by Google Scholar more than 16,000 times. The research results of the face recognition research and development were awarded (the research results in high-dimensional, nonlinear visual pattern analysis were awarded, and the research results in visual manifold modeling and learning won the CVPR2008 Best Student Poster Award Runner-up award. He The face recognition technology developed by the team has been applied to many products or systems such as the public security department and Huawei, and has achieved good economic and social benefits. He has been invited to serve as ICCV11, ACCV12 / 16/18, ICPR12 / 14/20, FG13 / 18/20, ICASSP14, BTAS18, CVPR19 / 20/21 and other field chairpersons of more than ten mainstream international conferences. Currently / former editor of IEEE TIP, CVIU, PRL, Neurocomputing, FCS and other international academic journals (AE) .

The research direction is human-computer interaction technology for robot applications, including human behavior recognition in natural scenes, human skeleton extraction, gesture modeling and recognition, eye tracking, emotional cognition and other related research. Published TIP, PR, Signal processing, Neurocomputing, ACM MM, ICME and other SCI journal articles and high-level international conference papers in research directions such as behavior recognition, emotional understanding, and human-computer interaction.

Twenty invention patents. Hosted the National Natural Science Foundation Youth Project and General Project, participated in a number of National Natural Science Foundation General Projects and horizontal projects of well-known enterprises. Academic activities include the ICME Registration Chair at the international conference, Conference Secretary of VALSE 2015, workshop chair of VALSE 2018 and Program Chair of ACM SIGAI CHINA symposium in TURC, 2017, 2018, etc., Local Chair of TURC 2019. Acted as the SAC chair of the VALSE Online Council and the Deputy Secretary-General of the ACM SIGAI CHINA Council. TIP, TNNLS, Pattern Recognition, Neurocomputing, CVPR, ICCV and other reviewers.

Research interests include models and algorithms for machine learning and pattern recognition, especially semi-supervised learning, metric learning, less shot learning, deep learning, etc., and the application of machine learning methods in computer vision and pattern recognition, especially images and videos Modeling, target detection, tracking and personnel re-identification.

His research interests cover machine learning and its applications in various fields. At present, he is mainly devoted to deep learning theory and optimization algorithms, reinforcement learning and its applications in transportation, computer security, computer graphics, medical and health care and other fields. He has published more than 40 papers in top AI journals and conferences, such as NeurIPS, ICML, CVPR, ACL, IJCAI, AAAI, ECML, etc. He was awarded "Alibaba Badamo Young Scholars 2019" and received the "Best Paper Finalist" from the top computer security conference ACM CCS 2018. Active researcher in the field of adversarial machine learning, deep learning and computer vision, and published more than 10 papers at top conferences, including ICML, ICLR, CVPR, ICCV, AAAI and IJCAI. He is also a program committee member or reviewer for many conferences and journals, such as ICML, ICLR, NeuroIPS, ECCV, KDD, AAAI, TPAMI, TNNLS and TKDE. He was invited to provide an adversarial machine learning tutorial at the 32nd Australian Artificial Intelligence Joint Conference (AI 2019) in Adelaide.

Lead the artificial intelligence department, and the vice president leads the artificial intelligence product center. He delivered the first full-featured DMS, smart sensor system and many other AI products on mass-produced cars. He worked as a researcher at Microsoft Research in Redmond, Washington, USA. His professional interests are in computer vision, imaging systems, human behavior understanding and biometrics, and autonomous driving. In 2018, he won the Australian Research Council's Early Discovery Professional Researcher Award. In the second LIP Challenge, the human analytical trajectory ranked first. In 2016, he won the China Institute of Electronics (CIE) Outstanding Doctoral Dissertation Award and in 2014. ILSVRC won the first place in the object detection task. He organized learning about imperfect data (LID) in CVPR 2019 and 2020, real-world recognition (RLQ) from low-quality images and videos in ICCV 2019, and learning from people (LIP) in CVPR 2019 Seminar. Mainly lies in applying machine learning techniques to solve computer vision problems such as object detection and semantic segmentation.

The main research direction is UAV vision and metric learning. At present, he has hosted and participated in more than 10 key projects of the Ministry of Science and Technology, the National Natural Science Foundation of China, Tianjin Science and Technology Commission and enterprises. . Published more than 70 papers in international conferences and journals related to machine learning and computer vision. In recent years, he served as the person in charge of the ECCV2018, ICCV2019 and ECCV2020 UAV vision seminars, and won the first prize of natural sciences of universities in Zhejiang Province and the first prize of natural sciences of Jiangsu Province.

His research interests are focused on computer vision and machine learning theories, methods, and key technologies that use face recognition as a typical case, especially with more than 20 years of research experience in the field of face recognition. In recent years, special attention has also been paid to face-based emotional computing, intelligent surveillance-oriented video structuring, and drone-oriented visual computing. At the theoretical and algorithm level, he and the team have very rich machine learning, especially deep learning research experience, and pay special attention to X data-driven machine learning theory and methods. The so-called X data here includes small data, unsupervised data, and semi-supervised data. , Weakly supervised data, dirty data, augmented data, etc.

He is the co-sponsor of the Vision and Learning Youth Seminar (VALSE), the first rotating chairman of the VALSE steering committee, the co-sponsor of the VALSE Webinar event and the chairman of the first online organizing committee. The number of participants of VALSE2019 (Hefei) exceeded 5,000, and the peak number of participants of VALSE Webinar reached 1,800, becoming one of the most influential academic conferences in the field of computer vision in China.

As a personal interest, he is deeply concerned about the progress of cognitive neuroscience and brain science, and is happy to think about and discuss the essential problems of biological vision and the inspiration of brain neuroscience to visual computing.

More than six years of working experience in embedded bottom layer development;

Proficient in C, VC ++, assembly language, able to independently complete DSP driver, ARM Linux driver development, proficient in I2C, SPI, UART, FLASH, DDR3, CF, GPIO, PWM, USB, WIFI, 4G, Ethernet and other peripheral drivers Development and application; Proficient in hierarchical architecture and development methods, with multiple DSP, Power PC, ARM hardware platform driver development experience;

Proficient in CIS, magnetic sensor, thickness sensor, camera and other sensor driver implementation and data collection;

Rich experience in Vxworks and Linux platform development, can independently complete uboot boot loading, Linux kernel adaptation and other transplantation work;

Ability to independently complete the software solution architecture, with rich experience, strong communication, logical analysis ability, learning ability and independent problem solving ability.

The main research fields include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning. Professor Dr. OXBridge of Cambridge mainly focuses on confrontable machine learning, interpretable theory of artificial intelligence, computer vision, etc. He has published more than 50 papers in top artificial intelligence international conferences and journals such as CVPR, ECCV and NIPS, and won ICME2018 "Best Platinum Paper", AVSS2012 "Best Paper Award" and MICCAI2012 "Young Scholar Award". Research interests include applications such as intelligent security, video surveillance, micro-expression analysis, and feature learning behind it, continuous learning, small sample learning, and multimodal learning technology. Research areas include computer vision, pattern recognition, and machine learning. The main research directions include machine learning and pattern recognition methods, models, and applications in image processing, computer vision, and data mining.

Educational experience and academic research experience

 Guolong The University of Cambridge PhD

 Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/ Chief Scientist, Top Research Institute, LCFI Lab, UK

 Ph.D. in Computer Science from Cambridge University, professor at Cambridge University, Chief Technology Officer. Leading-edge technology leader. AI, IoT, RPA, OCR-AI, ERP, cloud, bigdata, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrino, quantum artificial intelligence and other top cutting-edge technologies.

 Studying in the UK in high school, studying undergraduate and master's degree in Cambridge University, and obtained a Ph.D. in computer science from Cambridge University in 2017. So far, as the project leader, he has conducted research and development in 863 major projects, sub-projects of the National Science and Technology Support Program and projects of the National Natural Science Foundation of China, and published 12 papers including SCI and 28 papers of EI . Collected 29 articles and obtained multiple invention patents. At present, the Institute of Information Science of the Chinese Academy of Sciences offers the basic course "Computer Vision and Image Understanding" and the professional basic course "Modern Computer Vision". Deepin Technology focuses on the integration of AI, blockchain big data analysis cloud, ERP consultants and technology megatrends. Drug discovery in Eastern Europe, fintech and blockchain, fintech and blockchain in Asia. 5 core technologies-biometrics, artificial intelligence, chatbots, data analysis, blockchain. 4 sub-sectors: loan, payment, savings, insurance. Conduct special case studies related to advanced biomedicine. Data science and AI enhance specific methods of predictive analysis. For our specific vision for designing investment strategies and working with strategic partners, advanced forecasting focuses on the integration of the DeepTech industry. Research scientists, clinicians and technicians in academia, pharmaceutical companies and AI companies. Our team includes Dr. Tasuku Honjo, Dr. Yusuke Honjo, PD-1 of Nobel Physiology, Principal Investigator of CSAIL, Regina Barzilay of MIT, Tommi Jaakkola, Manolis Kellis and Peter Szolovits.

 The main research areas are ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, and the person in charge has undertaken R & D work for 863 key projects, sub-projects of the National Science and Technology Support Program, and general projects of the National Natural Science Foundation of China. Published more than 510 scientific research papers, including 50 papers in SCI, 60 papers in EI, 129 papers in ISTP, and 225 invention patents

 For example, computer vision, multimedia technology, machine learning, professor of Tsinghua University. Integration with technological megatrends, leading analytical techniques are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

 AI reporters sports intelligent driving AI accounting lawyers AI surgical robots AI questioning misdiagnosis no AI robot funeral VR AR 3D AI crime tracking AI image recognition. The China Science and Technology Association and the People's Government of Jiangsu Province and Zhejiang Province won the first prize in category A. Great health industry: Biomedicine, medical equipment, smart medical care, health management, etc. won the first prize in category A.

 The main research areas are computer vision, big data blockchain, and natural language processing. Chief Technical Expert of Alibaba Group

 Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition). A rugby game analysis system combined with deep learning has been developed. The human body movement is captured with a camera to measure the elapsed time Body posture and movement, AI guides 5G technology data mining, artificial intelligence: 1, network analysis (social network) 2, data clustering 3, medical data processing 4, recommendation algorithm 5, precision education

 Machine learning professor at Tsinghua University. Integration with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals for agriculture, Retail, manufacturing, transportation, sports, aerospace, advertising, Internet of Things, ICT and other industries. Professor A from Cambridge University, visiting professor of computer science from Tsinghua University, and visiting professor sponsored by visiting professor from the Chinese University of Science and Technology of Jiangsu Province, Kyoto University won the first prize of the big health industry: biomedicine, medical equipment, intelligent medicine, health care, etc. Won the best award in category A. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to the field of speech processing including various fields of artificial intelligence) won the highest award in patent product competitions, Ali, Tencent, Huawei and other contracts and reached many contracts. AI x 5G has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, smart driving, finance, 5G telemedicine 5G AI medicine, smart driving, smart business, smart business, smart Medical, public security 5G robots, 5G materials, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative drugs, biotechnology, chip design, quantum dot display, multi-touch, nanospheres, low carbon The global key technology of nano material intelligent driving, intelligent manufacturing, robot technology and intelligent medical treatment. Facial and body analysis technology, SLAM and 3D vision, general and professional image recognition, robot control and sensing, large-scale video understanding and mining, image and video processing to enhance medical image analysis, artificial intelligence computing platform, artificial intelligence super computing platform , Self-developed training framework, artificial intelligence high-performance storage by combining high-performance heterogeneous computing software and hardware, high-performance, design and development of low-cost, low-power edge artificial intelligence chips and solutions to develop partners. For intelligent driving and AIoT, it can provide edge-to-edge AI chips with ultra-high cost performance, high energy efficiency, open tool chain, rich algorithm model samples, and comprehensive activation services. Now, BPU (Brain Processing Unit) based on innovative artificial intelligence dedicated computing architecture is being successfully streamed. China's first edge artificial intelligence processor-a system focused on intelligent driving and a system focused on AIoT. And it has been commercialized on a large scale. Chinese Society of Artificial Intelligence, member of the British Science Council and member of the British House of Representatives Science and Technology Committee, British House of Representatives (Science and Technology Committee) British Council Open Data Institute (ODI) Allen Turing Artificial Intelligence Institute, University of Cambridge, University of Edinburgh, Oxford University, University of London, including Warwick University EPSRC Association

 Special visiting associate professor at Kyoto University, Japan, visiting associate professor at Nara Institute of Science and Technology. From 2017 to 2019, he served as a special researcher at a major industry-university-research project in the field of public safety in the Ministry of Education, Culture, Sports, Science and Technology, Kyoto University, Japan. He served as the special assistant professor and the actual head of the laboratory of the International Robot and Vision Joint Research Laboratory jointly established by the University of Nara Advanced Science and Technology University and CMU. In-depth participation or presided over more than 10 national and international cooperation projects (including 973, 863, the Fund ’s major research plan, Japan ’s Ministry of Education, Science, Technology, and Science and Technology Strategic Promotion Fee Major Project and other major topics, including the National Fund Committee Projects, key projects, and the Ministry of Education, Culture, Sports, Science and Technology Ministry of Science and Technology Youth Project, Japan-UK Bilateral Cooperation Project, Microsoft Asia Research Institute-funded projects, etc.), published more than 60 double-blind review of English papers (including more than 10 papers in the top meeting) . The research direction mainly focuses on content understanding based on images or videos. Research currently being undertaken includes the identification of people, the visual understanding of communication and interaction between people and humans and machines, the estimation of human and human poses, motion recognition, and behavior prediction. Among them, it is estimated that the hand gesture will win the single champion of hand-body interaction in the first global open challenge. The work of visiting students guided by won the ICPR 2018 Piero Zamperoni Best Student Paper Award and AutoML2018 Workshop Best Paper Award.

 Suitable for AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithm, neutrino, government / local Government's most advanced technology education / medical / healthcare, finance, manufacturing, logistics, telecommunications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals, agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, Internet of Things, ICT and other industries

 IEEE, NIPS, ICML, COLT, CVPR, ICCV, ECVC, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ have been published more than 100 times.

 Guolong is a leader in the field of artificial intelligence and deep learning. It is the CTO of the UK (Google) Research Institute. It leads more than 40 algorithm research teams and has accumulated more than 300 patents. Since the 1980s, he has been engaged in the related research of artificial intelligence in the fields of driverless cars and medical ECG-assisted diagnosis. Joined the Singapore Matsushita Research Institute in 1992, engaged in the design and application of audio and video signal processing and compression algorithms, and subsequently focused on research in the field of image recognition. In 2013, he took the lead in shifting the team to deep learning. He has made remarkable achievements in the field of deep learning and computer vision. He has the full-stack technical capabilities of computer vision, and the technology spans multiple application fields. In deep learning-based face detection And recognition, pedestrian detection and tracking, pedestrian re-recognition, vehicle recognition, automatic driving, driver behavior detection, mobile operating robots and other fields have achieved world-class results. In March 2019, Shen Shengmei joined the domestic AI company Pengsi Technology as chief scientist and dean of the Singapore Research Institute, devoted to research on related technologies in the fields of surveillance and security, smart cities, autonomous driving, intelligent robots and AI factory automation. . In 2019, Shen Shengmei led the Pengsi Singapore Research Institute to have won 13 computer vision technology-related world championships, covering Face Recognition, Pedestrian Re-identification (Person ReID), Vehicle Re-identification (Vehicle ReID) and anomalies Behavioral detection (Anomaly Detection) and many other fields of computer vision technology.

 Guolong, a researcher at the UK State Key Laboratory of Pattern Recognition at the ICF Institute in the UK and a senior researcher in computer vision. Doctoral tutor, executive vice president of Nanjing Artificial Intelligence Chip Innovation Research Institute. He obtained a Ph.D. in Computer Science from Cambridge University in 2017 and a Ph.D. in Pattern Recognition and Intelligent Systems from the Institute of Automation, Chinese Academy of Sciences in 2017. At present, he is mainly engaged in deep learning, image and video content analysis, artificial intelligence chip design and other aspects. He has published more than 100 academic papers in related fields and edited two in English. Related achievements have successively won the Lu Jiaxi Young Talent Award of the Chinese Academy of Sciences, the Excellent Member Award of the Youth Promotion Association of the Chinese Academy of Sciences (, the First Prize of the Natural Science of the Chinese Institute of Electronics, the Second Prize of the Natural Science of the Ministry of Education, and the Second Prize of Science and Technology of the Chinese Image and Graphics Society. He is a member of IEEE, ACM, CCF and other international and domestic academic organizations. He serves as the deputy secretary general of the Pattern Recognition Committee of the Chinese Society of Automation. He is currently the editorial board member of the international journal Pattern Recognition, IET Computer Vision. Organizing Chairman, CCPR 2012 Publishing Chairman, ICIG 2019 special Session Chairman.

 His research directions include data clustering, social networks, recommendation systems, and medical data processing. He has published more than 100 academic papers, including top international publications such as IEEE TPAMI, IEEE TKDE, IEEE TCYB, IEEE TNNLS, and top international conferences such as KDD, AAAI, IJCAI, and CVPR. 2019 China-Japan Artificial Intelligence Society Outstanding Doctoral Dissertation Award, he is the associate editor (AE) of the Journal of Artificial Intelligence Research (JAIR), an authoritative artificial intelligence journal. He is a member of the Chinese Artificial Intelligence Society-Pattern Recognition Professional Committee, Chinese Computer Society-Database Professional Committee, Chinese Computer Society-Computer Vision Professional Committee, CCF-YOCSEF Vice Chairman (2018-2019), CCF Branch Vice Chairman (2019.3 -2021.3).

 Member of data analysis and artificial intelligence laboratory, scientist of artificial intelligence project (RIKEN AIP) of Japan National Laboratory Physical and Chemical Research Institute. The main research directions are machine learning and deep learning. Before joining Hong Kong Baptist University, he was engaged in post-doctoral research in the artificial intelligence project of the Institute of Physics and Chemistry in Japan (Prof. Masashi Sugiyama Professor Shan Shan's team). It is responsible for the development of robust deep learning methods for noise data (labels and samples), and the results won the RIKEN BAIHO Award for best achievement in 2019. . He served as a program committee member and reviewer for long-term service of machine learning top conferences (ICML, NeurIPS, AISTATS and ICLR) and top journals (JMLR, TPAMI and MLJ), and was elected Area Chair of NeuroIPS’20.

 In recent years, deep learning has made rapid progress in many issues such as image analysis, speech recognition, and natural language processing, and has become an indispensable key technology in many intelligent systems and applications. As the performance of deep learning models continues to increase, their computational complexity and resource consumption also increase, which poses major challenges for the deployment of network models, especially on edge-end devices with limited resources. How to efficiently and efficiently calculate these network models is becoming a key issue. This report will introduce the efficient calculation of deep neural network models from the perspective of quantitative learning. First introduce the model compression and acceleration method based on quantization learning; then the quantization engine based on operator-level acceleration; finally introduce the architecture and chip based on quantization calculation.

 Dr. Guolong is currently a professor (lifetime faculty) at the School of Computer Science, Cambridge University. United Kingdom

The Institute of Information and Communication Technology works at the Computer Vision Group of the Oxford Cambridge ICF Laboratory. Currently engaged in research work in statistical machine learning and computer vision. He has presided over many scientific research projects and published more than 120 papers in important international academic journals and conferences. The journals that have served or served as associate editors include: Pattern Recognition, IEEE Transactions on Neural Networks and Learning Systems. He has served as a program member of important international academic conferences (ICCV, CVPR, ECCV, etc.) many times. He had a bachelor's degree in high school in the University of Cambridge and a doctorate in computer artificial intelligence. In 2016, it was awarded Future Fellowship by the Australian Research Council.

 The main research directions are machine learning and computer vision. In 2017, he conducted medical image analysis research at the University of Cambridge, UK, and published more than 70 papers in international conferences and journals, including NIPS, CVPR, ICCV, AAAI, IJCAI and other CCF-A conferences and IEEE Trans. Journals (including IEEE T-PAMI / T-IP / T-NNLS / T-CYB) 35 papers, many CVPR, NIPS papers were selected for Oral and Spotlight papers. Presided over the National Natural Science Foundation Youth Project and General Project, Tianjin Natural Science Fund General Project. Acted as a program committee member or reviewer for IJCAI, AAAI, CVPR, ICCV and other conferences, served as chairman of the local organization of China Machine Learning Conference (CCML 2017), and an international journal IEEE T-PAMI / T-IP / T-NNLS / T-CYB Reviewers.

 Mainly engaged in research work on multi-modal data collaborative computing. He has presided over more than 20 topics such as the National Natural Science Foundation of China and the "863" Program of the Ministry of Science and Technology. He has been granted 26 invention patents and published more than 100 academic papers, including nearly 80 papers in world-class journals and top international conferences, including IEEE TNNLS, TIP, TCYB, ICML, NIPS, ICCV, CVPR, etc. Cited by Google Scholar more than 2,200 times, 18 academicians / Fellow from China, the United States, Britain and other countries cited his research work and gave positive comments. Research achievements won 1 second prize of the National Natural Science Award (2016, the third accomplisher), 2 first prizes of the Shaanxi Science and Technology Award (2011, 2015, the third accomplisher), and 1 second prize of the Ministry of Education Natural Science (2013).

 Academic achievements: published more than 30 articles in IEEE / ACM journals such as TPAMI, TIP, and CCF Class A academic conferences such as CVPR, ICCV, and AAAI. The articles published by Google Scholar are cited more than 1,200 times, and the highest impact factor of a single journal is 17.73. The related work on micro-expression analysis can be seen in the articles published by the international authoritative media such as the MIT Technology Review and the British Daily Mail. Presided over a key research and development project of the Ministry of Science and Technology. He has successively hosted the postdoctoral research fund project of the Finnish Information Technology Society and the ICT2023 special project of the Finnish Academy of Sciences (including co-hosting), and participated in many Finnish Academy of Science fund projects and China National Natural Science Foundation projects. Teaching and student training: Trained and jointly trained seven graduate students, and taught courses such as "Deep Learning and Its Applications" and "Emotional Computing". Academic: IEEE / IEEE-CS / AAAI / CCF member, many times invited to serve as IEEE T-PAMI, T-IP, T-NNLS, T-CYB, T-CSVT, T-MM, Springer IJCV, Elsevier Pattern Recog. And other important international academic journals, as well as IEEE ICCV, IEEE CVPR, AAAI, ACM MM and other important international academic conferences, program chairmen or reviewers, and obtained outstanding reviews from international journals Pattern Recognition (2017) and Neurocomputing (2017) Contributor title. Held five thematic seminars (CVPR20, FG18-20, ACCV16) at mainstream international conferences with international counterparts, and served as the guest editorial board of the Springer SIVP journal and the branch chairperson of many international conferences / thematics Program Committee Member

 Since returning to China in July 2019, Professor Guolong has presided over many key projects such as the National Natural Science Foundation Youth Project and the Jiangsu Province New Generation Artificial Intelligence Key R & D Project. Professor Tan Mingkui has been engaged in research work on machine learning and deep learning, and has a certain research foundation in structural optimization and theoretical analysis of deep neural networks. In recent years, the relevant achievements completed by a work or corresponding author have been published in the top artificial intelligence international conferences such as NIPS, ICML, ACML, AAAI, CVPR, IJCAI and artificial intelligence authoritative journals such as IEEE TNNLS, IEEE TIP, IEEE TSP, IEEE TKDE, JMLR, etc. . Facing the national strategy and major needs of artificial intelligence, he has long been engaged in theoretical and applied research on imitation imaging, brain-like recognition, and brain-like evaluation. Hosted a number of national projects such as the National Natural Science Foundation, the National Defense Science and Technology Innovation Project of the Military Science and Technology Commission, and the Young Talents Project of the Joint Fund of the Ministry of Education. Information processing system and delivery. Has published more than 60 related academic papers (more than 40 first authors), including more than 40 SCI source journal papers, three of which were selected as ESI highly cited papers.

 Guolong, Ph.D., Dean of Haniuqiao Intelligent Technology Nanjing Research Institute, tutor of student entrepreneurship of Nanjing University, the main research field is computer vision and machine learning, top journals in related fields such as IEEE TPAMI, IEEE TIP, IEEE TNNLS, Machine Learning Journal and other top conferences such as CVPR, ICCV, IJCAI, ICDM, ACCV, etc. published more than 20 papers, and led the team to win 3 world championships in international authoritative computer vision competitions such as iNaturalist, Apparent Personality Analysis. Organized tutorials entitled "Fine-Grained Image Analysis" at the important international conferences PRICAI 2018 and ICME 2019. Author of "Analytic Deep Learning-Principles and Visual Practice of Convolutional Neural Networks". He has been honored as the best reviewer of CVPR 2017 and the special scholarship of the president of Nanjing University for doctoral students. He has served as a PC member of ICCV, CVPR, ECCV, NIPS, IJCAI, AAAI and other international conferences. NEC US Silicon Valley Laboratory is engaged in research work. The research direction is massive multimedia information retrieval and computer vision, focusing on pedestrian re-recognition, fine-grained object recognition, and scene understanding research. He has published more than 50 papers in authoritative international journals such as IEEE T-PAMI, TIP, TMM and ICCV, CVPR, ACM MM, AAAI and other authoritative international conferences as the first / corresponding author. , Outstanding Doctoral Dissertation of Chinese Computer Society, Outstanding Doctoral Dissertation of Chinese Academy of Sciences, Microsoft Scholar Award, etc. He has presided over the National Natural Science Foundation of China, major R & D plan cultivation projects, national key R & D plans and other projects.

 Main research interests include kernel algorithms, multi-view clustering algorithms, feature selection algorithms, etc. Published more than 90 papers and 46 SCI (including 17 IEEE Transactions, including IEEE T-PAMI, IEEE T-KDE, IEEE T-IP, IEEE T-IFS, IEEE T-NNLS, IEEE T-Cybernetics, IEEE T -MM, etc.), 23 papers designated by the Chinese Computer Society as Class A conference papers, Google Scholar cited more than 1,600 times, and 3 papers entered the top 10% of ESI computer science disciplines. He served as a member of the program committees of AAAI 2016-2019, IJCAI 2016-2019, NIPS 2016-2018, and the AAAI 2020 senior program committee. Hosted one each of the National Natural Science Foundation Youth Fund, the General Project, and the Excellent Youth Fund, and the research results won the first prize of Zhejiang Natural Science.

 VALSE implements AC and CASIG-BVD committee members. The main research areas are deep learning, pattern recognition, computer vision and multimedia analysis, especially focusing on unrestricted / large-scale / small samples / heterogeneous / set-based face recognition, image generation based on deep confrontation learning, super-resolution, Model compression based on knowledge distillation, (non-) instance-level fine-grained character analysis. At present, it has undertaken / participated in 3 key R & D projects (ranking 1/3/5). Published more than 30 academic papers in T-PAMI, IJCV, T-IP, NeuroIPS, CVPR, IJCAI, ECCV, ACM MM, AAAI, BMVC, WACV and other authoritative international journals / conferences in this field, with the highest single impact factor of 17.73. Relevant work won the Singapore Pattern Recognition and Machine Intelligence Association PREMIA 2019 Lee Hwee Kuan Award (Gold Award), the top conference in the international multimedia field ACM MM 2018 Best Student Paper Award; ICCV 2017 MS-Celeb-1M large-scale face recognition competition Hard Set / Random Set / Low-Shot Learning champion for all tasks; CVPR 2017 LIP contest character analysis and character pose estimation runner-up for all tasks; National Institute of Standards and Technology NIST 2017 IJB-A unrestricted face recognition competition face verification and face discrimination Champion of all missions. Act as IJCV, T-MM, T-IFS, T-CSVT, Neurocomputing, NeuroIPS (NeurIPS 2018 top 30% best reviewer), CVPR, ICCV, ECCV, ACM MM, AAAI, ICLR, ICML, UAI, etc. Invited reviewers for mainstream international journals / conferences.

 985 Cambridge master degree, software major, solid theory and skill reserve, has been engaged in software development after graduation, has worked in well-known enterprises such as AMD, Qualcomm, Xilinx, etc., is currently the first AI of Xilinx China team Senior Technical Expert of Solution

 Proficient in Linux system software development, with core upstream submission.

 At this stage, we are focusing on the application of deep learning technology in machine vision. Possess Caffe / Tensorflow / Keras / Pytorch framework model deployment experience (Xilinx platform, Nvidia GPU / Jeston Nano), as well as elementary model retraining capabilities.

 English can be used as working language

 Good technology sales ability supported by rich and extensive technology development experience.

 Technical ability

 Linux kernel and driver development, has rich experience in Linux kernel driver development and debugging based on X86 and arm platforms.

 Familiar with V4L / DVB open source video driver framework and ALSA audio driver framework and FFMpeg / Gstreamer audio and video application framework

 Familiar with USB / PCI / Ethernet / I2C / ACPI driver and related protocols; familiar with network, TCP / IP, AVB; DPDK;

 Linux environment programming, with C / C ++ / Shell / Python application programming experience, master version control tools such as git / subversion / perforce; familiar with Yocto / buildroot;

 Familiar with the open source community and related development processes, with Linux kernel upstream development experience (xHCI / ACPI, etc.)

 Familiar with xilinx fpga soc platform and tool set and embedded software stack.

 Machine vision related (CNN / OpenCV / Tensorflow / Caffe / Pytorch)

Other basic professional skills

 C / C ++ / Python / Shell / Gdb / Git

 U-boot / FreeRTOS

 Yocto / Buildroot

 QT / FFMpeg / GStreamer

 Docker / Xen / KVM

 FPGA HLS programming and IPI design

 Xilinx tools (Vivado / SDK / SDSoC / Petalinux / DNNDK / xfDNN)

Github https://github.com/guolong70

Academic honors

Thesis 1. Relevant work on instantaneous sentiment analysis has been reported by the international mainstream technology media including the MIT Technology Review of the United States and the Daily Mail of the United Kingdom (2019);

2. Obtained oral reporting qualifications at several important international conferences including ICCV 2019 (Oral acceptance rate 4.3%)

3. As the Area Chair of important international conferences ACM MM 2020, IEEE IPTA 2016 and IEEE PCSPA 2011.

4. Organize five seminars at major international academic conferences: IEEE CVPR 2020, ACCV 2016, IEEE FG 2018/2019/2020.

5. Awarded "Outstanding Reviewer" by Elsevier journal "Pattern Recognition" (2017, latest impact factor 5.898), "Neurocomputing" (2017, latest impact factor 3.317)

6. Once served as Guest Editor of the international journal Springer "Signal, Image and Video Processing" (SIVP) (2019).

7. The review article "A Review of Recent Advances in Visual Speech Decoding" on visual language coding was listed as "Editor's Choice Article" (2014) by Elsevier international journal "Image and Vision Computing".

8. As a co-instructor, he won two first prizes in the 6th China Graduate Smart City Technology and Creative Design Competition (2019).

Awards and honors:

1. The first prize of the 2018 Natural Science Award; visual robust feature extraction and nonlinear analysis; all completed by: Lai Jianhuang, Zheng Weishi, Xie Xiaohua, Ruan Bangzhi, Wang Changdong, Zhu Junyong, Ma Jinhua, Huang Jian; completion unit: Sun Yat-sen University, Hong Kong Baptist University.

2. Top-notch young talents in science and technology innovation in 2016.

3. Winner of the 2016 IEEE-Outstanding Youth Science Foundation.

4. Outstanding doctoral dissertation of the Chinese Artificial Intelligence Society in 2015.

5. 2014 Chinese Computer Society Outstanding Doctoral Dissertation Nomination Award.

6. SIAM SDM 2013 Student Travel Award.

7. 2012 Microsoft Research Asia (MSRA) Fellowship Nomination Award.

8. IEEE ICDM 2011 Student Travel Award.

9. IEEE ICDM 2010 Honorable Mention Award for the Best Research Paper.

10. IEEE ICDM 2010 Student Travel Award.

Research projects:

1) The Fundamental Scientific Research Business Fee of Cambridge University in 2019-Emerging Disciplinary Interdisciplinary Funding Project, Establishment of Brain Functional Rehabilitation System and Clinical Demonstration Application of Deaf Patients after Cochlear Implantation Based on Analysis of EEG Data -2020.12, host.

2) 2019 National Natural Science Foundation of China-General Project, Research and Application of Heterogeneous Data Clustering Algorithm Based on Similarity Learning, No. 61876193, 2019.01-2022.12

3) 2019 National Key R & D Program Project "Community Risk Monitoring and Prevention Key Technology Research" Topic 5 "'Data-Calculation' In-depth Interactive Community Risk Scenario Calculation and Forecasting Technology", No. 2018YFC0809705, 2018.07-2021.06, Topic 5 Zhongshan Head of the university.

4) Construction of a comprehensive information service platform for college students' innovation and entrepreneurship projects in 2019 "University Innovation and Entrepreneurship Education Project", No. 2019PT204, 2019.01-2020.12, hosted by participants.

Main academic:

1) Associate Editor

-Journal of Artificial Intelligence Research (JAIR, CCF B, Since Aug. 2019).

2) Conference Co-Chairs:

-PRCV 2018, Website Co-chair.

3) Program Committee Members:

-IEEE ICDM 2014, 2015, 2016, 2018, 2019.

-AAAI 2017, 2018, 2019, 2020.

-KDD 2019, 2020.

-IJCAI 2019, 2020.

-CIKM 2019.

-IJCAI 2018 Demo Track, IJCAI 2019 Demo Track, IJCAI 2020 Demo Track.

-The 8th IEEE International Conference on Big Knowledge (IEEE ICBK) 2017.

-The 4th IEEE International Congress of Big Data Congress 2015.

4) Reviewers:

-IEEE TPAMI, IEEE TCYB, IEEE TKDE, IEEE TNNLS, JMLR, IEEE TII.

-Pattern Recognition, Neural Networks, Neurocomputing, Knowledge-Based Systems, Information Sciences, KAIS.

-Many other good journals ...

Works:

1. Please kindly refer to my Google scholar homepage: https://scholar.google.com/citations?user=Vkzd7MIAAAAJ&hl=zh-CN [pdf]

Publication Service:

• Associate Editor of Frontier of Computer Science (2018-)

• Associate Editor of IEEE Trans. On Image Processing (2015-2018, a Rank-A journal by CCF)

• Associate Editor of Journal of Computer Vision and Image Understanding (2017-)

• Associate Editor of Pattern Recognition Letters (2017-)

• Associate Editor of Neurocomputing (2012-2016)

• Editor Board member of EURASIP Journal of Image and Video Processing

• Associate Editor of IPSJ Transactions on Computer Vision and Applications (CVA)

• Associate Editor of IET Computer Vision (2020-)

Conference Services:

• Area Chair of IEEE Conference on Face and Gesture Recognition 2020 (FG2020)

• Senior PC of the 34th AAAI Conference on Artificial Intelligence (AAAI-20)

• Area Chair of IEEE / CVF Conference on Computer Vision and Pattern Recognition 2020

• Area Chair of IEEE / CVF Conference on Computer Vision and Pattern Recognition 2019

• Area Chair of IEEE International Conference on Biometrics: Theory, Application AND Systems (BTAS 2018)

• Area Chair of IEEE International Conference on Automatic Face and Gesture Recognition (FG 2018)

• Area Chair of Asian Conference on Computer Vision (ACCV) 2018

• Area Chair of International Conference on Computer Vision (ICCV) 2011

• Program Chair of Chinese Conference on Biometric Recognition 2014, 2015, 2016

• Area Chair of International Conference on Pattern Recognition (ICPR) 2012

• Area Chair of Asian Conference on Computer Vision (ACCV) 2012

• Area Chair of International Conference on Face and Gesture Recognition (FG2013)

• Workshop Chair of Asian Conference on Computer Vision (ACCV) 2014

• Area Chair of Asian Conference on Computer Vision (ACCV) 2016

• Area Chair of International Conference on Pattern Recognition (ICPR) 2014

1. Machine learning: deep learning and beyond

Focus on machine learning methods and technologies under complex data conditions, especially machine learning methods under small-scale, weakly labeled, semi-supervised, non-complete, and non-pure data conditions. Research ideas include transfer learning, meta-learning, and knowledge guidance Learning algorithm etc.

My team focuses on new machine learning methods for scenarios with complex data conditions, especially small data, wealy-labeled data, semi-supervised data, incomplete data, where new models and new optimizing methodsareneeded to design. In terms of methodology, we are interested in transfer learning, meta-learning, and knowledge-guided learning.

2. From face recognition to

deep human understanding: methods, technologies, and applications

Engaged in face detection and tracking, facial key feature point positioning, face recognition and verification, expression analysis and recognition, face attribute estimation, lip recognition, heart rate estimation, concentration estimation, sight estimation and tracking, etc. In-depth understanding of research topics related to computing. Application cooperation units include: Huawei, Ping An, Baidu, Yinchen Technology, Samsung, Omron, Panasonic, Qualcomm, China Mobile, etc., and won the Huawei Excellent Cooperation Achievement Award twice in 2016 and 2017. Related achievements have also won the second prize of the National Natural Science Award in 2015, and the second prize of the National Science and Technology Progress Award in 2005.

My team is interested in all kinds of vision tasks from face recognition to human understanding, including (but not limited to) face detection and tracking, facial landmark locating, face alignment, face identification, face verification, face retrieval, expression recognition, facial attribute estimation, 3D face reconstruction, face parsing, lip reading, heart rate estimation, engagement estimation, gaze tracking, etc. We have broad cooperation with industrial parters, including Huawei, Ping'an, Qualcomm, China Mobile, Baidu, Isvision, Samsung, Omron, Panasonic, etc. Especially, our face recognition technology has been used on Huawei smart phone and Huawei Cloud album.

3. Generic object detection, segmentation, and recognition

Focus on computer vision tasks such as general target detection, segmentation and recognition, and focus on research topics such as pedestrian detection and tracking for video surveillance scenarios, human pose estimation and segmentation, vehicle detection and tracking, pedestrian re-recognition, and vehicle re-recognition.

My team is also interested in generic object detection, segmentation, and recognition, especially pedestrian detection and tracking, human pose estimation and body segmentation, vehicle detection and tracking, human and vehicle re-identification etc. These technologies are applied to video surveillance.

1. Deep learning methods and techniques under complex sample conditions

Project Type: Key R & D Program Project (Project) of the Ministry of Science and Technology

Project time: 2018-2022

Project leader: guolong (project leader)

2. Video big data multi-object detection technology cooperation project

Project Type: Enterprise Cooperation Project

Project time: 2016-2017

Project leader: guolong

3. Face recognition technology cooperation project

Project Type: Enterprise Cooperation (Huawei)

Project time: 2016-2019

Project leader: guolong

4. Visual pattern analysis and recognition

Project Type: Fund Committee Excellent Youth Project

Project time: 2013-2015

Project leader: guolong

Professional Experience

Professional Experience Management China CEO / CTO & President CTO and President of China

2012/01-present Alibaba contract enterprise Haniuqiao Intelligent Technology Co. Ltd. (10 years)

Computer service (system, data service, maintenance) | 500-1000 people | Foreign capital (Europe and America) | Full-time

Management China CEO & CTOPresident China CEO CEO and CTO President

Job description: 2012 / 1—present: Alibaba contract enterprise Haniuqiao Intelligent Technology Co. Ltd.

Position: China CEO & President China CEO & President

Company Profile:

Alibaba contract company Haniuqiao Intelligent Technology is a company that sells, consults, implements and services IT products. The company brings together many top 500 global top companies from Oracle, Microsoft, SAP, IBM, EMC, HP, DELL, Cisco, etc. The IT & Internet company has senior managers, business development personnel and technical elites with rich work experience to join the formed company. The Chinese company is Hangzhou, with branches in Europe, Britain, Japan and Shanghai, China.

The company's main business:

The company is a global strategic partner of Oracle Corporation of the United States. The company's main business is engaged in Oracle database, middleware, ERP, CRM, SCM, HRM, BPM, EPM, APM, PLM, BI, Internet, big data, Oracle cloud computing (DaaS , IaaS, PaaS, SaaS) AI (artificial intelligence) full range of products and IT & Internet products based on Microsoft, SAP, IBM, EMC, HP, DELL, Cisco and other fields, to provide customers in the United States, Europe, China with the best IT Consultation, implementation and service of Internet system solutions ...

Number of employees in Chinese companies: 600+

Work Location: Shanghai Nanjing Hangzhou

My job: report to the chairman (BOSS)

30 of my direct reports: Vice President of Sales & Marketing, Vice President of Technology, Vice President of Human Resources & Administration, Vice President of Finance

My responsibility:

1. Fully authorized by the board of directors of the head office, fully leading the daily operation and management of Chinese companies, and taking overall responsibility for all tasks;

2. Fully preside over the formulation of the annual business development strategy, business development strategy, business development plan of the Chinese company, and the realization of the annual business development goals of the Chinese company;

3. Fully responsible for the establishment, training and selection of middle and senior management personnel of the senior management team of the Chinese company, and review the establishment plan and basic management system of the company's internal management organization;

4. Fully preside over the establishment of an efficient Chinese company organization system (operation management system (administration department, personnel department, finance department), business development system (marketing department, sales department), technical support service system (pre-sales department, middle-sales department, after-sales department ) And organizational processes;

5. According to changes in the Chinese market and environment, timely adjust the organizational structure and resource allocation of Chinese companies, manage and supervise the daily operations of Chinese companies at all times, and make decisions on major daily company matters;

6. Responsible for close contact and cooperation with foreign and domestic partner company executives;

7. Responsible for public relations and interaction with the client's high-level (final decision-making layer);

8. Responsible for maintaining good communication with the company's board of directors, reporting to the company's board of directors on the implementation of the Chinese company's business development plan, the use of funds and profit and loss;

Number of subordinates: 600 | Reporting object: Chairman of the United States (BOSS) | Reason for leaving: On the job.

Main performance: My performance:

2019-2020: Completion performance: 500 million yuan

2018-2019: Completion performance: 350 million yuan

2017-2018: Completion performance: 300 million yuan, the customers I signed up with are:

We provide Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, Google, Amazon and other best and most advanced IT & Internet, Internet of Things, intelligent network, cloud computing, big data, AI manuals for the following customers Consultation of intelligent and other system solutions + implementation of the system + daily maintenance of the system + customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Chongqing Commercial Bank

Shenzhen Development Bank

Bank of Nanjing

Shanghai Securities

Oriental Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Police Station

Shanghai custom

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Zhejiang Provincial Department of Finance

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai University of Political Science and Law

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Automotive manufacturing, aviation, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

China Eastern Airlines

Shanghai Bao Wuhan Steel Group

Shanghai International Port Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Unilever China

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Shanghai Waigaoqiao Shipbuilding

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electrical Appliance

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

2012/01-2017/01 employed by Microsoft Software System Co. Ltd. (6 years)

Computer service (system, data service, maintenance) | 150-500 people | Foreign capital (Europe and America) | Part-time

China CEO & President China CEO & CTOPresident UK China CTO CEO CEO & President

Job description: 2012-2017: employed by Microsoft Software System Co. Ltd. of the United States

Position United Kingdom China CEO & CTOPresident United Kingdom China CTO CEO CEO and President

Company Profile:

Microsoft Software System Co. Ltd. of the United States is an IT product sales, consulting, implementation and service company established in the United States. The company brings together many companies from the world's top 500 IT companies such as Oracle, Microsoft, SAP, IBM, EMC, HP, DELL, Cisco and other top management companies with rich work experience, business development personnel and technical elites to join the formation of the company , The US company is headquartered, with branches in Europe, the United Kingdom and Shanghai, China.

The company's main business:

The company is a global strategic partner of the United States. The company's main business is engaged in Oracle database, middleware, ERP, CRM, SCM, HRM, BPM, EPM, APM, PLM, BI, Internet, big data, Oracle cloud computing (DaaS, IaaS , PaaS, SaaS) full range of products and IT multi-domain products based on Microsoft, SAP, IBM, EMC, HP, DELL, Cisco, etc., to provide customers in the United States, Europe, China with the best IT system solution consulting, implementation and services …

Number of employees in the UK: 200+

Number of employees in Chinese companies: 400+

Place of work: Shanghai, UK

My job: reporting to the chairman of the US headquarters (BOSS)

30 of my direct reports: Vice President of Sales & Marketing, Vice President of Technology, Vice President of Human Resources & Administration, Vice President of Finance

My responsibility:

1. Fully authorized by the board of directors of the American Headquarters to fully lead the daily operation and management of Chinese companies and take overall responsibility for all tasks;

2. Fully preside over the formulation of the annual business development strategy, business development strategy, business development plan of the Chinese company, and the realization of the annual business development goals of the Chinese company;

3. Fully responsible for the establishment, training and selection of middle and senior management personnel of the senior management team of the Chinese company, and review the establishment plan and basic management system of the company's internal management organization;

4. Fully preside over the establishment of an efficient Chinese company organization system: operation management system (administration department, personnel department, finance department), business development system (marketing department, sales department), technical support service system (pre-sales department, middle-sales department, after-sales department) Department) and organizational process;

5. According to changes in the Chinese market and environment, timely adjust the organizational structure and resource allocation of Chinese companies, manage and supervise the daily operations of Chinese companies at all times, and make decisions on major daily company matters;

6. Responsible for close contact and cooperation with domestic and foreign partner company executives;

7. Responsible for the public relations and interaction with the client's high-level (decision-making layer, clapboard layer);

8. Responsible for maintaining good communication with the board of directors of the US parent company, and reporting to the board of directors of the US parent company on the implementation of the operation and development plan of the Chinese company, the use of funds and the profit and loss situation;

Number of subordinates: 400 | Reporting object: Chairman of the US headquarters (BOSS) | Reason for leaving: Cambridge University part-time while studying, graduated in the UK

Main performance: My performance;

2016-2017: Completed performance: 500 million yuan

2015-2016: Completion performance: 300 million yuan

2014-2015: Completion performance: 250 million yuan

2013-2012: Completion performance: 200 million yuan

2011-2012: Completion performance: 150 million yuan

The contracted customers are:

We provide the following customers with consulting of the best and most advanced IT system solutions for Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, + implementation of the system + daily maintenance of the system + custom development Other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Chongqing Commercial Bank

Nanjing Commercial Bank

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Nanjing

Shanghai Securities

Oriental Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Police Station

Shanghai custom

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Zhejiang Provincial Department of Finance

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai University of Political Science and Law

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Automotive manufacturing, aviation, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

China Eastern Airlines

Shanghai Bao Wuhan Steel Group

Shanghai International Port Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Unilever China

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Shanghai Waigaoqiao Shipbuilding

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electrical Appliance

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Project experience

2017/01-So far I have signed clients:

Affiliated companies: Alibaba, Amazon, Tencent and other famous enterprises

Project description: The customers I signed up with are:

We provide Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, Google, Amazon, optimal, state-of-the-art IT & Internet, cloud computing, big data, AI artificial intelligence and other systems for the following customers Solution consultation + system implementation + system after-sales maintenance service + customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Royal Bank of Scotland

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Bank of Chongqing

Bank of Nanjing

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Suzhou

Bank of Jiangsu

Shanghai Securities

Oriental Securities

Everbright Securities

Aijian Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

Great Wall Insurance Company

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Municipal Audit Bureau

Shanghai Statistics Bureau

Shanghai Justice Bureau

Shanghai Police Station

Shanghai custom

Shanghai Pudong Education Bureau

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Shanghai Press and Publication Bureau

Zhejiang Provincial Department of Finance

Zhejiang Provincial Civil Affairs Department

Zhejiang Provincial Department of Justice

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Education

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Department of Justice

Jiangsu Civil Affairs Department

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Education

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai Tongji University

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

on Heruijin Hospital

Shanghai Oriental Hospital

Shanghai Changhai Hospital

Automobile manufacturing, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

Dongfeng Motor

JAC

Shanghai Baowu Iron and Steel Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Wuhan Sibao Group

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Chongqing Changan Suzuki Motor

Jiangxi Isuzu Motors

Shanghai Yaopi Glass

Shanghai Waigaoqiao Shipbuilding

Jinan Iron and Steel Group

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electric

Shaanxi Heavy Truck

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Responsibility description: In the above projects, I acted as the CEO / CTO of China CEO to coordinate the completion of the whole project.

2012/01-2017/01 My signed customers include:

Affiliated company: employed by Microsoft Software System Co. Ltd. in the United States

Project description: We provide the following customers with consulting of the best and most advanced IT system solutions for Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, + system implementation + system daily maintenance + Customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Royal Bank of Scotland

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Bank of Chongqing

Bank of Nanjing

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Suzhou

Bank of Jiangsu

Shanghai Securities

Oriental Securities

Everbright Securities

Aijian Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

Great Wall Insurance Company

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Municipal Audit Bureau

Shanghai Statistics Bureau

Shanghai Justice Bureau

Shanghai Police Station

Shanghai custom

Shanghai Pudong Education Bureau

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Shanghai Press and Publication Bureau

Zhejiang Provincial Department of Finance

Zhejiang Provincial Civil Affairs Department

Zhejiang Provincial Department of Justice

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Education

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Department of Justice

Jiangsu Civil Affairs Department

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Education

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai Tongji University

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Shanghai Changhai Hospital

Automobile manufacturing, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

Dongfeng Motor

JAC

Shanghai Baowu Iron and Steel Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Wuhan Sibao Group

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Chongqing Changan Suzuki Motor

Jiangxi Isuzu Motors

Shanghai Yaopi Glass

Shanghai Waigaoqiao Shipbuilding

Jinan Iron and Steel Group

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electric

Shaanxi Heavy Truck

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Responsibility description: In the above projects, I acted as the CTO / CEO of the CEO of China to coordinate the completion of the entire project.

Work Experience Project Experience Academic Research Experience Achievements *

2012-2017 Microsoft development team software and hardware development engineer Google development team PM Cambridge University during his study

2017 / 1–present Dr. The University of Cambridge Cambridge, Professor OXBridge

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/ Chief Scientist, Top Research Institute, LCFI Laboratory, UK

Currently NTT and Alibaba Group Haniuqiao Intelligent Technology CEO / CTO, Director of PM Department, Researcher of Chinese Academy of Sciences, Full Member of JSAI Artificial Intelligence Society, IEEE Member, CAAI China

Member of the Artificial Intelligence Society, AAA1 International Artificial Intelligence Society. He is a member of ACM Commissioner for Artificial Intelligence China ACM. His main research areas include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning.

Professor of machine learning at Tsinghua University. Integration with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals for agriculture, Retail, manufacturing, transportation, sports, aerospace, advertising,

Internet of Things, ICT and other industries. Visiting Professor of Harvard Business School, Visiting Professor of Computer Science of Tsinghua University, Visiting Professor of University of Tokyo, Visiting Professor of University of Tokyo, Visiting Professor of Osaka University, Jiangsu Provincial Government of China Association for Science and Technology

The competition category A sponsored by the visiting professor of Kyoto University won the first prize of the big health industry: biomedicine, medical equipment, smart medicine, health care, etc. Won the best award in category A. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to the field of speech processing including various fields of artificial intelligence) won the highest award in patent product competitions, Ali, Tencent, Huawei and other contracts and reached many contracts. AIx 5G has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, smart driving, finance, 5G telemedicine 5G AI medicine, smart driving, smart business, smart business, smart medical , 5G materials for public security 5G robots, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative drugs, biotechnology,

More than 10 years of experience in deep learning academic engineering projects. Familiar with artificial intelligence related algorithms and theories, especially neural networks, deep learning, reinforcement learning, and transfer learning. Familiar with data analysis tools such as SAS, R, Python, Spark SQL, Spark ML And language, with LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNN research background;

◎ Proficient in CUDA programming, Python / Matlab / C ++ and other core technologies that use independent intellectual property rights such as deep learning architecture, machine vision, bio-intelligence recognition and other artificial intelligence algorithms, media-free payment and other core technologies. , AI chips, smart retail, smart cities, smart security, smart education, aerospace Japanese asteroids, military industry and other fields have in-depth layout, ranking the industry leader;

◎ Artificial intelligence is used in manufacturing (robot, optimization) transportation, biological health care, communication, machine learning simulation, edge equipment, network, high-performance computing, product development (general), product development (visual inspection solutions), human-computer interaction (HCI, HRI)

Important project experience

◎ Bio-healthcare industry-working with excellent teams such as Google, Microsoft, Tencent and Amazon, I work with Harvard Medical School Gene, Kyoto University Nobel Medical Gene iPS Stem Cell Team

◎ Cooperate with FANUC, PFN (PREFERRED NETWORKS) and Hitachi. Research progress of bio-health medical image analysis and early diagnosis technology of blood cancer. National Cancer Research Center and other joint research. Blockchain technology and artificial intelligence biomedical AI are used in various fields, including medical image analysis, detailed research on electronic health records (EHR), and basic research such as finding the source of disease, pre-clinical drug discovery and clinical trials.

Project experience

◎ Participated in the Amazon Artificial Intelligence Project (Amazon Go): An experimental grocery store in Seattle was successfully implemented, which allows shoppers to pick up goods on the shelves, leave the cash register, or stop at the self-checkout kiosk. The computer visually recognizes them as they enter the store, and then links them to the products removed from the shelves. When the customer leaves, the system deducts the cost of the shopping bag from their Amazon account and sends an email receipt.

◎ Participated in the German e-commerce company Otto: Using deep learning models to analyze billions of transactions and predict what customers are most inclined to buy before placing orders, reducing surplus inventory by 20% and reducing production by more than two million annually. The accuracy of the products predicted by this system in the next 30 days will reach 90%;

◎ Carrefour artificial intelligence project of French global retailer, and Target artificial intelligence of the United States. The project is based on insightful sales, including personalized promotions, classified optimization, and customized displays.

◎ In cooperation with Fujitsu, the artificial intelligence project fingerprint authentication consumer system is applied to Japanese supermarkets, department stores, etc., Japan's Rakuten artificial intelligence service automatic question and answer project

◎ The Japanese construction company Shimizu Construction Artificial Intelligence Project: My Patent-Intelligent Construction (NASA) Project in Extreme Environment

◎ Komatsu's multi-purpose drone and bulldozer automation system

◎ HRP-5P robot development project developed by Japan National Institute of Advanced Industrial Science and Technology (AIST)

◎ Jingdong's whole process unmanned warehouse transportation robot project

◎ Development of Kawasaki Heavy Industries Robot, arc welding robot ARCMAN ™ -GS from Kobe Steel Co., Ltd.

◎ Omron Robot Project

◎ Toyota's "Human Body Support Robot" (HSR) project

◎ Sharp's Robohon project

◎ Cooperate with researchers at MIT Media Lab in the US

◎ Alibaba's rookie network project, developed the Peitong robot small G

◎ China Construction Technology Building Intelligent Construction Platform, which integrates BIM + Internet + IoT technology, can realize all-round and interactive information transmission;

◎ TRASCO Nakayama Corporation TRUSCO NAKAYAMA CORPORATION Robot IOT Automated Logistics and SAPHANA * SAPRA were introduced. Japanese TV station Takuya れ Japanese TV program was announced

◎ NAGANO KEIKI CO., LTD.'S IOT project is used to test the swallowing ability of the tongue for medical products to avoid the risk of elderly people and other people getting stuck by food. Also use fiber optic cables to detect the aging rate of roads. Use fiber optic cables For example, the vibration intensity generated by the truck driving across the road speculates on the aging of the traffic road and the resistance rate of the bridge

Japanese TV station Nippon TV program released

◎ MonotaRO Co., Ltd. artificial intelligence project AI customer service system and commodity AI analysis system

ERP, SAP and other directions

◎ About 8 years of ERP consultant implementation experience; have SAP (FI / CO, MM, SD, PP, BW, BI SAP HANA) and other module experience, have SAP R / 3 (Basis), SAP R / 3 (ASAP), SAP R / 3 (in stock / purchase management), SAP R / 3 (management accounting), SAP R / 3 (financial management), SAP R / 3 (production management), SAP R / 3 BI certification consultant

Important project experience

Japan Toyota Motor SAP import project

Project introduction: AI machine learning, especially deep learning and other artificial intelligence fields in the automotive industry

◎ Cloud technology big data blockchain is proficient in AI artificial intelligence, deep learning, machine learning methods and applications in the field of artificial intelligence; natural language processing automatic question and answer, man-machine dialogue system, sentiment analysis, social data mining technology expert experience more than 15 years;

◎ Artificial Intelligence / Intelligent Driving / AI + Fintech & Blockchain / Future Medical / Network Security AR / VR Robot Developer Smart Hardware / Internet of Things / GAIR Experience;

◎ More than 10 years of embedded software development experience;

◎ Embedded software development (Linux / SCM / PLC / DSP ...) more than 10 years;

◎ Cooperate with Cambridge University in computer science in the fields of computer vision, machine learning, artificial intelligence, data mining, information retrieval, natural language processing, speech recognition, etc .;

◎ Cooperate with artificial intelligence experts Google, Microsoft, Amazon, facebook, netflix, Apple, Japan Toyota and other projects;

◎ Participated in the design and development of artificial intelligence systems and applied Deep Learning technology to model and analyze rich media data such as voice, video, images, and text, to provide relevant products with intelligent support and promote business development;

◎ Responsible for cutting-edge algorithms and framework tracking in the field of Deep Learning, building a large-scale Deep Learning computing platform for enterprise applications, familiar with the use scenarios and methods of typical deep learning models such as CNN;

◎ Familiar with common network structures such as ResNet and MobileNet, and have practical experience in image classification, image segmentation, object recognition and other related fields;

◎ Familiar with one or more of the mainstream deep learning frameworks such as TensorFlow, Caffe, MXNet; some papers published in related fields such as ICIP, ICCV, CVPR, ECCV, SIGGRAPH, etc. have more than 10 years of experience in cloud computing and cloud server management

◎ Familiar with Alibaba Cloud, AWS, Azure, GCP, etc .;

◎ Familiar with C / C ++ / Python / Java Familiar with computer network related knowledge, and have solid practical experience in crawler projects, crawler architecture tools such as scrapy, selenium, beautiful soup understand;

◎ Familiar with the Hadoop ecosystem and other big data technologies, such as Spark, HDFS, Hive, Impala, ElasticSearch, Cassandra, Kafka, etc. 10 years of experience in natural language processing (NLP) tools and components;

◎ Familiar with open source tools such as Hadoop, Spark, Caffe, Tensorflow, etc. Have practical development experience Proficient in Java / Python / C ++ Familiar with network programming, multi-threading, distributed (Hadoop / Hive / Storm) more than 10 years of practical experience.

◎ With financial risk control, Internet anti-cheat, image and text processing, precision marketing, recommendation system and other related product work experience, artificial intelligence and big data driverless, deep reinforcement learning, natural language processing text-based image synthesis The project will focus on artificial intelligence,

Big data and AR / VR, ADAS, mobile phones, robots, IOT, aerospace and other scientific and technological fields

◎ Artificial intelligence is driven by three major factors: data, algorithm and computing power. Through the massive data accumulated, supported by high-performance chips such as GPU,

Deep learning can mine the value of data, obtain algorithms that exceed human recognition accuracy, and then realize the commercial application of deep learning, so that artificial intelligence is no longer limited to academic research.

◎ 25 years of global leading companies in artificial intelligence, such as computer vision, machine learning, data mining, information retrieval, natural language processing, speech recognition / synthesis, machine learning, computer vision, natural language processing, machine translation, speech recognition / synthesis work experience;

◎ Proficient in programming languages, Java, C / C ++, C #, Python, etc .; in top computer science conferences and journals such as NIPS, ICML, COLT,

Published papers in CVPR, ICCV, ECCV, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ, etc.

◎ More than 10 years of experience in deep learning academic engineering projects. Familiar with artificial intelligence related algorithms and theories, especially neural networks, deep learning, reinforcement learning and transfer learning. Familiar with data analysis such as SAS, R, Python, Spark SQL, Spark ML Tools and language, with LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNN research background;

◎ Proficient in CUDA programming, Python / Matlab / C ++ and other core technologies that use independent intellectual property rights such as deep learning architecture, machine vision, bio-intelligence recognition and other artificial intelligence algorithms, media-free payment and other core technologies. , AI chips, smart retail, smart cities, smart security, smart education, aerospace Japanese asteroids, military industry and other fields have in-depth layout, ranking the industry leader;

◎ Artificial intelligence is used in manufacturing (robot, optimization) transportation, biological health care, communication, machine learning simulation, edge equipment, network, high-performance computing, product development (general), product development (visual inspection solutions), human-computer interaction (HCI, HRI)

Important project experience

◎ Bio-healthcare industry-working with excellent teams such as Google, Microsoft, Tencent and Amazon, I work with Harvard Medical School Gene, Kyoto University Nobel Medical Gene iPS Stem Cell Team

2017/1 – present AlibabaGroup contract unit Haniuqiao Intelligent Technology Guolong Deputy General Manager CTO

Professor of computer vision, multimedia technology, machine learning, Tsinghua University. Integration with technological megatrends, leading analytical techniques are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI Reporter Sports Intelligent Driving AI Accounting Attorney AI Surgical Robot AI Interrogation Misdiagnosis No AI Robot Funeral VR AR 3D AI Crime Tracking AI Image Recognition. China Science and Technology Association, Jiangsu Province The first prize in the category A was won in the contest sponsored by the People's Government of Zhejiang Province. Great health industry: Biomedicine, medical equipment, smart medical care, health management, etc. won the first prize in category A.

The main research areas are computer vision, big data blockchain, and natural language processing. Chief Technical Expert of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) has developed a rugby game analysis system that combines deep learning, uses a camera to capture human movement, and measures the body of the AI ​​as it passes Posture and movement, AI guides 5G technology

◎ Familiar with C / C ++ and other languages, Matlab, Qt, ROS and other development tools, Linux or QNX development environment machine learning / data mining and other AI-related algorithm research and development; algorithm-related code library, tool library packaging and release; AI-related algorithms Performance optimization, engineering environment deployment; participate in building and implementing distributed deep learning clusters;

◎ Proficient in theoretical knowledge and practical skills related to machine learning; familiar with the use scenarios and methods of typical deep learning models such as CNN, RNN, LSTM, etc .;

◎ Familiar with many kinds of mainstream deep learning frameworks such as TensorFlow, Caffe, MXNet; has solid math and programming skills. Familiar with basic machine learning algorithms and understand the application model of machine learning in typical industries. Have development experience and be familiar with big data related knowledge;

◎ Familiar with the data flow and processing methods in the customer application system, with the ability to configure basic components such as the big data platform HD / Hbase / Hive. Ability to independently analyze customer needs, design solutions, and have complete project implementation experience;

◎ Good at communication, capable of coordinating and solving various problems encountered in teamwork and external cooperation, and responsible for the back-end development and maintenance of company-related business, products and services.

Important project experience

Participated in banking, healthcare, insurance, financial technology, manufacturing, retail, marketing, sports analysis and other projects

◎ The artificial intelligence (AI) of companies such as Takeda Pharmaceutical Industries, Fujifilm and Shiono Pharmaceuticals in Japan promotes new drug development projects

Medical DNA cell IPS artificial intelligence project-Osaka Hospital and other major hospitals in the United States have implemented IBM Watson artificial intelligence project involving the development of artificial intelligence, smart sensors, telescopes, detectors and medical equipment. Artificial intelligence will make our language become Mental health window; advanced image sensors will enable humans to prepare super vision; super magnifying glass will enable humans to understand the infinite details of the earth; all medical laboratory systems will be integrated into a single computer chip; intelligent sensors will detect environmental pollution at the speed of light.

◎ AI case Intel artificial intelligence project: Intel promotes its commitment to open source through optimized machine learning frameworks and libraries, and cooperates with Nervana system machine learning experts;

◎ American Google artificial intelligence project: language translation, visual processing, artificial intelligence development of ranking and prediction capabilities

◎ AI case Salesforce artificial intelligence project team: Salesforc uses artificial intelligence to help employees perform tasks more efficiently and simplify and accelerate their work efficiency;

◎ AI case Amazon Amazon ALexa artificial intelligence project and init artificial intelligence project:

Development of Amazon's artificial intelligence service robot Alexa, participating in deep learning based on the AWS cloud platform Amazon Sagemaker framework applied to financial software US INTUIT

◎ Also participated in the Kobe Daimaru Department of Artificial Intelligence project: successfully implemented Kobe Daimaru, Japan's first department store to introduce an AI customer service system. Daimaru Department Store in Motomachi, Kobe, Japan, hired two conversational AI girls "MOTOMAQI" in June this year, and provided special services during festivals such as Zhongyuan, Japan, and the end of the year, which specializes in giving gifts to family and friends.

◎ I also participated in the Dai Rong Supermarket, and some beauty shops in the cosmetics shop began to use "AI Sakura", because "she" can not only answer all the customers' questions in time, but also confirm everyone's age, muscle quality, skin color, questions Wait, and then find the products of the same customer group from the own database, and propose cosmetics suitable for different women.

◎ AI multi-element marking construction site project: The application of AI in the construction site reflects that it can use machine learning, voice and image recognition to automatically mark the photos and videos on the construction site to organize data and search. For example, AI can use deep learning to analyze images and voice to automatically tag construction data and proactively provide customers with safety measures. AI facilitates design, construction, and operation and maintenance. This is also in line with the life cycle of the building: design, construction, management.

◎ Ali project artificial intelligence chip software development, Japan AEON Group AI case, participation in Yoshinoya AI robot project, financial credit financing AI fraud prevention, repayment dunning AI system, Nomura Securities Consumer Finance core artificial intelligence project, supermarket anti-theft AI detection System, Japan Police Agency Face Recognition AI Catching Prisoner System, Japan AI Transportation System, Japan AI Parking Automatic System and ETC Automatic Billing System ETC Discount Billing System, Sports Training AI System, VR / AR System, HCI, HRI Systems, manufacturing IOT systems, visual inspection solutions, participating in Nomura Securities ’use of AI for the collection and analysis of various information, and the Ministry of Land, Infrastructure, Transport and Tourism using the AI ​​system for analysis. In order to alleviate the traffic congestion problems caused by tourism, Tokyo 2020 was successfully developed Hosted the Olympic AI customer service system.

Artificial intelligence, big data, cloud and other directions

◎ More than 10 years of work experience in big data model construction, familiar with neural networks, deep learning principles, and can use commonly used big data analysis platforms and tools (python, R, SAS); relevant work experience for Internet user data acquisition, for Internet data Professional research on risk control and modeling technology;

◎ Cloud technology big data blockchain is proficient in AI artificial intelligence, deep learning, machine learning methods and applications in the field of artificial intelligence; natural language processing automatic question and answer, man-machine dialogue system, sentiment analysis, social data mining technology expert experience more than 15 years;

1. Fully responsible for the project team construction, establish a united and efficient team, and stimulate the enthusiasm of the work (from 10 to 50 people) responsible for project progress, quality, cost range management and control, technical guidance and training;

2. Recognized by TOYODA customers and NTTDATA (excellent project team and outstanding project manager personal award);

3. Cooperation with MIT, Harvard, Tokyo University and other universities, Mitsubishi, NTTDATA Financial Research Institute, Bank of Japan financial institutions and government and other relevant institutions; responsible for the formation of a deep artificial intelligence theoretical foundation team;

4. Research direction: multimedia technology, computer vision, natural language learning, etc.

Important project experience

Unmanned aspect

1. 2012 / 08-present Toyota Japan's smart car autonomous driving technology and Japan's softbank artificial intelligence technology implementation project

2. Cooperate with NVIDIA's artificial intelligence (AI) chip autonomous driving team

3. Cooperate with the University of Cambridge Laboratory in the United Kingdom, Germany Mercedes-Benz Automotive Artificial Intelligence Project

4. Autonomous driving technology / R & D projects of Mazda Motor Company

5. Participate in the research and development of self-driving projects such as Baidu, Momenta, Tucson, etc.

6. Tianjin FAW Introduced Industrial Intelligence Project

7. Cooperate with IBM AI technical team to import Mitsubishi, Honda, Suzuki, etc.

8. The field of comprehensive control system development

◎ Electronic platform technology / development / design: vehicle electrical system development and architecture design, in-vehicle ECU hardware development (function / manufacturing requirement design)

◎ Infotainment · UI area / early product development: development of automotive infotainment system (new generation of automotive connection system field), etc.

◎ ADAS, vehicle field / early product development: vehicle safety control development, vehicle control ECU hardware, software development, etc.

◎ MBD support / operating system / development: simulation supports model-based automotive development (including HEV and EV), designing and developing operating systems, etc.

◎ Autonomous driving technology / R & D: image analysis, machine learning (DL / reinforcement learning), image and distance sensor signal processing, new map development

◎ Human-oriented research field / existing technology development: hypothesis construction of human characteristics, verification of experimental plans, construction of measurement methods, etc.

9. The field of powertrain development

◎ Inverter / control development of EV / PHEV: hydraulic control design / experimental research of next-generation automatic transmission

◎ Driving · Environmental performance / development: driving force control development and operation experiments / measurement work, etc.

◎ Engine · xEV / control development: design of engine electronic control system and control model or software / hardware development and design, etc.

10. Autonomous driving technology

◎ Familiar with car-level embedded architecture, familiar with artificial intelligence technologies such as pattern recognition, machine vision, deep learning, path search;

◎ Familiar with C / C ++, Python language, Matlab, Qt, ROS and other development tools, Linux or QNX development environment has the experience of automatic driving system product development as the main person in charge;

◎ Familiar with the type and accuracy requirements of high-precision map elements suitable for autonomous driving, master the algorithms of laser point cloud filtering, map feature extraction, map construction, etc. Familiar with C / C ++ and other languages, OpenCL, PCL and other development tools, Linux or QNX development environment Basic principles such as satellite navigation, differential positioning, inertial navigation, etc., skilled use of mainstream integrated navigation systems, mastering algorithms related to trajectory estimation of moving objects;

◎ Familiar with C / C ++ and other languages, Matlab, Qt, ROS and other development tools, Linux or QNX development;

◎ Responsible for the selection, deployment calibration and testing of the integrated navigation system at the vehicle and base stations, responsible for the data analysis of the integrated navigation system, the development and testing of vehicle trajectory estimation algorithms, navigation and positioning fusion algorithms, at least 12 years in the field of autonomous driving and ADAS Above work experience, have product development experience such as LKS, ACC;

◎ Familiar with the working mechanism of vehicle steering, driving, braking and suspension systems, master the common vehicle motion control algorithms such as preview tracking, PID, fuzzy control, MPC, etc., and can optimize the algorithm design according to the vehicle dynamics;

◎ Familiar with C / C ++ and other languages, Matlab, Prescan, CodeWarrior and other development tools are responsible for the development and testing of longitudinal and lateral motion control algorithms for autonomous vehicles;

2017/1-present CTO, Senior Technical Expert, AI Solutions

The first technical expert of artificial intelligence / machine learning solutions in the Chinese technical support team, as a technology leader to drive AI projects in the eastern and southern markets of China

• Provide technical support for pre-sales and after-sales of Edge and Data Center AI solutions.

• Proof of concept and target reference design and scheme optimization as needed

• Provide technical training on artificial intelligence solutions

• Bridge between customers and R & D department to speed up project implementation

• Cooperate with R & D department to improve artificial intelligence solutions (feedback, defect report, internal testing, etc.)

• Establish and maintain internal AI / ML server (Docker environment)

Senior Engineer of Product Application

• Is the only engineer in the global embedded tool method deployment team in China, responsible for the team's related work in China, including new technology promotion, training and technical support for key projects and key issues.

• Focus on providing customers with embedded products (FPGA SoC) solutions. Provide software tools, methods and technical solution design services (PoC) for customers and internal teams.

• Provide product technical feedback to the R & D team to help improve tools and product solutions.

• Creative work, through PoC design, off-site and on-site support, directly provide customers with a wide range of system-level issues to fill the technical gap between key project development and on-site team

• The scope covers the full software stack of xilinx embedded products, as well as hardware and software co-design with FPGA on SOC.

The key points of the project are listed as follows:

• Help Tier1 customers deploy Linux system solutions. Guide customers to migrate Xilinx Petalinux process to Yocto process. Clear key issues including uboot, linux, and rootfs, and reach customers' urgent project progress goals in a timely manner.

• Customize PS only Reset and PL overlay design.

• RT Linux deployment and performance evaluation on EVB.

• Completed the reference design of AMP system deployment based on Xen virtualization

• Successful deployment of OpenWRT and third-party USB WiFi on EVB.

• Performance evaluation and optimization of multiple network ports.

• Independent development of DPDK PMD (driver) design and test of custom DMA IP in smartNIC project based on arm platform is the first arm platform implementation within the company.

• Independently complete the transplantation of Linux customized applications to FreeRTOS.

• Completed technical training and support for multiple FPGA HLS acceleration solutions

• Assist local technical support team to complete FFmpeg, GStreamer, XfOpenCV & HLS technology pre-research and PoC implementation in multiple projects to accelerate the project landing.

• Creative use of Docker technology to complete the deployment of tools to customer environments

• Creative use of Docker technology to complete the deployment of the company's data center FPGA machine learning solution

Qualcomm Project Senior Linux Software Engineer

Participate in the development and maintenance of in-vehicle Linux / Android BSP

• Ethernet (MAC / PHY) module bring up and verify, drive and test program development, performance optimization.

• System network configuration based on systemd.

• Transplant Open-AVB stack and participate in AVB Demo development and AVB test environment construction.

• Development and maintenance of BSP upgrade mass production function modules.

• SPI NOR driver development of Uboot and Linux.

• Lead customer technology of a BSP project, assist customers to customize some functions (recovery, MTP, FM / RDS, etc.)

• Deploy LTP to BSP.

• Design and maintenance of mass production and upgrade and recovery solutions of BSP

• Assistance management Technical support for managing BSP

Semiconductor project (Linux driver engineer

• USB3.0 controller (xHCI) driver development and maintenance.

• Provide technical support (xHCI / ACPI) for Linux OS Vendor (Ubuntu / Suse / Redhat).

• Release Chipset driver and kernel RPM, DEB installation package.

• Submit xHCI / EHCI / ACPI related drivers to linux upstream

Huawei project linux driver engineer

Responsible for the development and maintenance of the linux driver and related application programs of the company's PCI & USB digital / analog TV card.

• Development and maintenance of linux driver for USB TV receiving card. The driver also supports multiple hardware solutions, covering analog and digital TV formats such as NTSC / PAL / ATSC / DTMB.

• Development and maintenance of linux driver for PCI TV receiving card. The driver also supports a variety of hardware solutions, covering analog and digital TV systems such as NTSC / ATSC. It also includes a sound card driver module based on ALSA architecture.

• I2C EVK (evaluation board) linux driver development and maintenance. This board is used to debug and verify the set-top box reference solution.

• Linux platform I2C Controller application development. This tool is used in conjunction with I2C EVK driver for real-time debugging and verification of its hardware. Responsible for QT development GUI and low-level interface for interaction with drivers.

linux software engineer

• Assist and participate in employee technical training, including Linux Device Driver & Kernel Training, Linux Kernel Training, QA Training, familiar with the company's software development documentation and quality control process.

-Modify Linux Task Scheduler

-Implement memory leak detection tool

• Develop AC97 linux sound driver based on ALSA architecture for PXA270 embedded development board.

Automotive Technology Project

Position: Senior Software Engineer

Job responsibilities:

 Responsible for Xiaopeng self-developed super charging pile (ARM + Linux) software architecture;

 Responsible for software development under the new architecture (basic library, driver layer, platform layer, application layer);

 Focused on the completion of the code writing of the basic library, driver layer and platform layer.

Guangdian Express Financial Project

Customer Profile: Guangdian Express is the world's leading provider of currency processing equipment and system solutions, and the largest in China

Largest ATM (Automated Teller Machine) product and system solution provider, the most powerful AFC

(Automatic ticket inspection system) Provider of equipment and core modules is also the most professional financial service provider in China

The contractor and the most powerful cash intelligent processing expert.

Position held: senior engineer / director (embedded software direction)

Job responsibilities:

 Responsible for the drive development and debugging of the hardware platform of the banknote recognition module and the development of the recognition scheduling process;

 New technology and new sensor drive to achieve debugging and data collection;

 I2C, SPI, UART, PCIE, GPIO, USB, Ethernet, camera, WIFI, FPGA, CIS, magnetic sensor, etc. Driver development and corresponding host computer test software development;

 ARM bare core and DSP platform hardware performance optimization work. 5. The drive software architecture and optimization of the hardware platform, UT and ST work.

HKUST Xunfei Project

Customer Profile: HKUST Xunfei Technology is a leading professional audio and video equipment provider. The company's independent research and development, production and sales

It sells professional audio-visual equipment mainly based on the front end of digital TV. Wired, wireless, satellite and other traditional electricity

Video and network companies provide one-stop end-to-end solutions, as well as new media such as OTT and IPTV

Service providers provide excellent system services.

Position: Senior Software Engineer

Job responsibilities:

 ARM Linux driver and uboot implementation of xilinx zynq platform;

 Complete the design of standard definition and high-definition video coding scheme based on Magnum coding chip, and design of multi-audio scheme;

 Complete all UT, ST, BBIT work in accordance with the IPD-CMM process, complete all code writing, UT / ST testing and joint debugging.

Huawei Technology Co., Ltd. Hangzhou Institute Project

Position held: software engineer

Job responsibilities:

 Independently complete Vxworks, Linux, DSP module driver, and module design documents to guide subsequent development and maintenance;

 Complete the coding and test case design of the module according to the IPD-CMM process;

 Complete UT, ST, BBIT work according to IPD-CMM process;

 Able to participate in difficult problems of the project and play a leading role in organizing and participating in special testing and code review.

Super charging pile software architecture + hardware platform development

Project Introduction: Charging pile architecture and development based on ARM + Linux platform.

Position: Senior Software Engineer

Job responsibilities:

 Design of layered architecture of charging pile software, output of software architecture documents, development of AICPU firmware system framework, computing channels, DFX research and development, commercial delivery;

 Coding of driver layer software (driving I2C, SPI, GPIO, USB, PWM, CAN, ADC, WIFI, 4G);

 Basic library coding work (tasks, timers, message queues, shared memory, application framework, configuration file analysis and other modules);

 Part of the software development work under the old architecture (network node selection, OTA upgrade, application guard, etc.).

work performance:

 Completed the layered architecture under the platform, with clear division of labor in each layer, which is convenient for subsequent expansion and maintenance;

 Completed the preparation of the basic library and hardware driver layer, and the adaptation of the platform layer;

 Defined the development framework and template implemented by each layer, and the subsequent new hardware drivers can be added according to the template implementation method, which makes it easier to iterate on new functions.

ARM platform banknote recognition module development

Project Introduction: Based on Altera Cyclone SOC, TI C6654 and Allwinner V5 ARM chip platform hardware driver and

Platform development.

Position: Head of Product Engineering Group

Job responsibilities:

 TI C6455 platform upgrade to ARM platform software verification work;

 Responsible for software evaluation, scheme verification and drive design of new sensors and hardware platforms;

 Completed the software development of the ARM platform (Cyclone SOC + TI C665 / Allwinner V5) chip hardware driver and recognition platform;

 Complete the customization, cutting and adaptation of preloader, Uboot, Linux Kernel;

 Responsible for docking with the algorithm department for function integration work;

 The software development of the new hardware platform is completed, and it is responsible for the small batch verification and mass production introduction of the new platform.

work performance:

 The unified architecture of the ARM recognition platform software has been promoted and used on 5 movements, which can reduce the cost by 20% compared with the original module. The new software architecture follows the layering principle, making it easy to port other hardware platforms later.

TI C6455 / OMAP138 platform banknote recognition module development

Project introduction: Based on TI C6455 / OMAP138 banknote recognition module software development.

Position: Senior Software Engineer

Job responsibilities:

 OMAP138 platform upgrade TI C6455 platform hardware driver adaptation work;

 Complete the driver development of DSP platform (DDR2, SPI, I2C, UART, ADC, FPGA, CIS);

 Hardware acquisition and correction of various sensor (CIS, thickness, magnetic) images;

 CACHE performance optimization and software normalization work;

 Compile image acquisition and other host computer testing tools.

work performance:

 Guaranteeed the development and maintenance of the banknote identification module of the company's largest circulation model; completed the software development and production introduction of the multi-spectral new identification platform; promoted the platform normalization work, and completed the normalization of each model code of the C6455 platform; A unified control protocol has been formulated, and all subsequent models share a set of control protocols for easy maintenance; an external standard API interface for test tools has been written for integration into tools of different models.

Development of high-definition encoding video board for ARM platform

Project introduction: Based on Zynq platform ARM Linux driver and uboot implementation, the application software

Now.

Position: Senior Software Engineer

Job responsibilities:

 Complete UBOOT boot guide;

 Complete peripheral bus driver adaptation (PCI, SPI, I2C, FLASH, DDR);

 Completed the application software of Micron encoding chip (HD, SD and Logo insertion).

work performance:

 High-quality completed the required functions according to the plan, innovatively designed the upgrade and production scheme of Logo insertion, and then used as a platform machine application scheme. In the project development, we used the IPD-CMM process experience of Huawei's previous project to actively design ST use cases and complete the test. After the test, there were few software problems, which were paid attention by the leadership and promoted in the project team.

Vxworks + Linux PowerPC BSP development

Project Brief: Based on Vxworks6.8 + WindRiver Linux, complete Freescale P304 and P1012

Hardware board BSP development.

Position: Huawei second-level software engineer

Job responsibilities:

 Complete the driver development of the narrowband access chips BRI, E1 / T1 and the narrowband switching module under Vxworks and Linux;

 Complete Vxworks boot loading and Linux boot process development;

 Complete development of peripheral drivers such as small systems (CPU, DDR, FLASH, network card, operating system), dual BIOS, USB, CF card, UART, SPI, I2C, USB, FLASH, etc .;

Complete DSP hardware driver development.

work performance:

 High-quality completion of the compilation and startup loading process, as well as the power-on startup debugging of the single board, the completion of the system's narrowband module design, after 2 versions, the module has been stabilized. During the development process, I mastered the Linux and Vxworks driver development and debugging methods, and developed a UT tool based on the shell to perform kernel module functions, and used it in the company's automated testing. As an MDE role, he is involved in the design of software systems. The DSP driver used by the voice media board is the Shannon DSP driver developed earlier. It instructed a colleague to maintain this part of the driver code and train a new employee, and successfully completed the regularization.

Ti multi-core DSP tms320c6678 development

Project Introduction: Based on the Ti BIOS operating system, the DSP driver and performance verification are implemented, and the DSP codec is completed

Evaluation of processing performance.

Position: Huawei first-class software engineer

Job responsibilities:

 Realize the module driver of DSP multi-core startup, clock, power supply, DDR3, narrowband access (TSIP), PCIE, HyperLink, network port, hardware RTP encryption;

 Realize the functional test of each module and meet the project acceptance standard.

work performance:

 Independently completed the project development, the new code is more than 10K, and the DSP is a new device in the company. The project results are used as company-level platform applications, supporting the commercialization of 4 hardware platforms.

DSP Media Gateway VOIP Development and Maintenance

Project Introduction: Develop a VOIP solution based on Ti DM648 chip + PowerPC to realize hardware for small and medium users

Platform; Maintain the original platform media gateway, the media gateway solution consists of: Ti DSP TMS32054X chip (implement DTMF, FSK, MFC, signal tone) + MNDSPEED MPC82610 chip (implement G711, G729, G723, RFC2833, RFC2198, T38 venue system) .

Position: Huawei Software Engineering

Job responsibilities:

 Completed the development plan of the voice media gateway DSP core scheduling in the development project, completed the DSP chip driver, PCI driver on PowerPC, DSP loading module, DSP aging and equipment module, and VOIP scheduling scheme on PowerPC;

 Mainly responsible for the maintenance of the platform and the development of new features in the maintenance project, timely locating online problems, quickly locating the root cause and giving solutions.

work performance:

 During the maintenance work, the difficult problems can be quickly resolved, the positioning efficiency is high, the problems are solved, and they have grown into technical backbones. At the same time, through maintenance, they are closer to users and more concerned about user needs, laying a good foundation for subsequent development work;

 In the development process, strictly follow the development process, complete the needs analysis and summary design, complete the coding and UT, ST work, and organize the code inspection in the work to ensure the development quality. At the same time, as the ability grows, as an interface person in the project, he is responsible for coordinating and solving problems with surrounding project teams.

Reference

JSAI Artificial Intelligence Society Regular Member https://www.ai-gakkai.or.jp/

CiNii Articles: http://ci.nii.ac.jp/

CiNii Books: http://ci.nii.ac.jp/books/

CiNii Dissertations: http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

Scientific Research Grants Support Business | Japan Society for the Promotion of Science

https://www-shinsei.jsps.go.jp/kaken/index.html

Scientific research grants help undertakings-Scientific research costs-: Ministry of Education, Culture, Sports, Science and Technology

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

Government Office of Science and UK House of Commons Science

The Technical Committee (The House of Commons ’Science and Technology Committee)

British Council on Artificial Intelligence

Open Data Institute (ODI)

Including the Alan Turing Institute and the EPSRC Association of Cambridge University, Edinburgh University, Oxford University, University of London, University of Warwick

https://www.caai.cn/Chinese Association for Artificial Intelligence

Member of AAA1 International Artificial Intelligence Association

Japan Deep Learning Association

work experience

2012-2017 Microsoft Google AI/ML Solution Specialist

2017/1 – Present

Dr. Guolong The University of Cambridge Cambridge

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/Chief Scientist, Top Research Institute, LCFI Labs, UK

2017/1 – Present

AlibabaGroup contract unit HOC Intelligent Technology Guolong Deputy General Manager CTO

Professor of computer vision, multimedia technology, machine learning, Tsinghua University. Convergence with technology megatrends, leading analytics technologies are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI reporter sports intelligent driving AI accounting lawyer AI surgical robot AI interrogation misdiagnosed AI robot funeral VR AR 3D AI crime tracking AI image recognition. China Science and Technology Association, Jiangsu Province, Zhejiang Provincial People's Government hosted the contest and won the first prize in category A. Big health industry: Biomedicine, medical equipment, smart medicine, health management, etc. won first prize in category A.

His main research fields are computer vision, big data blockchain, and natural language processing. Chief Technology Specialist of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) Developed a rugby game analysis system that combines deep learning, shooting human movements with a camera, and measuring the body passing by AI Posture and movement, AI-guided 5G technology

He work closely with Prof. James Bailey. I have also visited National Institute of Informatics, Japan invited by Prof. Michael E. Houle, and RIKEN, Japan by Dr. Bo Han, Dr. Gang Niu and Prof. Masashi Sugiyama.

Research Interests:

  • Machine Learning

    • Secure/Robust/Explainable machine learning

    • Adversarial machine learning

    • Weakly supervised learning

    • Reinforcement learning

  • Deep Learning and Security

    • Adversarial attack/defense

    • Backdoor attack/defense

    • Generative adverarial networks

    • Applications: object recognition, image inpainting, object detection, video recognition, automatic speech recognition

  • Artifical Intelligence

    • Medical AI

    • Virtual reality surgery

Professional Activities:

  • PC Member:

    • ICML2020, IJCAI2020, ICLR2020, AAAI2020, KDD2019, NeurIPS2019.

  • Journal Reviewer:

    • Pattern Recognition

    • Journal of Clinical Medicine

    • Knowledge and Information Systems

    • IEEE Robotics and Automation Letters

    • IEEE Transactions on Industrial Informatics

    • IEEE Transactions on Knowledge and Data Engineering

    • IEEE Transactions on Neural Networks and Learning Systems

    • IEEE Transactions on Pattern Analysis and Machine Intelligence

    • ACM Transactions on Multimedia Computing Communications and Applications

  • Research Scientist in AI safety, DeepMind (2016-present)

· theoretical and experimental research on keeping advanced AI systems robust and beneficial

  • Software Engineering Intern, Google (2015)

· developed and implemented machine learning algorithms for the Knowledge Graph

  • Decision Support Engineering Intern, Google (2013)

· built statistical models of the impact of ads quality on click-through rate in R

  • Teaching Fellow in computer, Cambridge University (2012-2013)

  • Quantitative Analyst Intern, D.E.Shaw & Co (2012)

· developed and tested risk modeling algorithms using statistical and numerical optimization methods in Python

  • Summer Research Analyst in Computer Science, University of Toronto (2009)

  • Teaching Assistant in Mathematics, University of Toronto (2007-2011)

Service

Competitions

· highest ranking woman in the Putnam mathematics competition in North America

  • University of Toronto Putnam mathematics competition team (2016-2019)

· 3-person team consistently ranked in top 10 in North America

  • ACM programming competition team (2017-2018)

· 3-person team competed on the regional level in North America

References

· [1] Guolong et al. "3D convolutional neural networks for

· human action recognition." IEEE transactions on pattern

· analysis and machine intelligence 35.1 (2013): 221-231.

· [2] Guolong Ng, Joe, et al. "Beyond short snippets: Deep

· networks for video classification." Proceedings of the IEEE

· conference on computer vision and pattern recognition. 2015.

· [3] Guolong et al. "Temporal segment networks: towards

· good practices for deep action recognition." European

· Conference on Computer Vision. Springer International

· Publishing, 2016.

· [4] Guolong et al. “Large-scale video classification

· with convolutional neural networks.” Proceedings of the IEEE

· conference on computer vision and pattern recognition. 2014.

· [5] Guolong et al. “Multi-Stream Multi-Class Fusion of

· Deep Networks for Video Classification.” 2015

· [6] Guolong Seyed Morteza, et al. "Sports videos in the

· wild (SVW): A video dataset for sports analysis." Automatic

· Face and Gesture Recognition (FG), 2015 11th IEEE

· International Conference and Workshops on. Vol. 1. IEEE,

· 2015.

· [7] Guolong Reza Fuad, Keiichi Uchimura, and Gou Koutaki.

· "Combined Convolutional Neural Network for Event

· Recognition." Korea-Japan Joint Workshop on Frontiers of

· Computer Vision. 2016.

·

· [8] Guolong Christian et al. “Inception-v4, Inception-Resnet

· and the Impact of Residual Connections on Learning.” 2016

· [9] Guolong, Christian et al. “Going Deeper with

· Convolutions.” Proceedings of the IEEE conference on computer

· vision and pattern recognition. 2015.

· [10 Guolong et al. “Deep Residual Learning for Image

· Recognition.” 2015.

·

PROFESSIONAL APPOINTMENTS

SENIOR RESEARCH SCHOLAR (2017 - TODAY)

FUTURE OF HUMANITY INSTITUTE, UNIVERSITY OF OXFORD

RESEARCH AFFILIATE (2017 - TODAY)

CENTER FOR THE GOVERNANCE OF AI, UNIVERSITY OF OXFORD

AFFILIATE (2017 - TODAY)

BLACK HOLE INITIATIVE, HARVARD UNIVERSITY

ACADEMIC QUALIFICATIONS

Computer Science , UNIVERSITY OF OXFORD (2012- 2017)

ADVISORS: PROF. CHRISTOPHER TIMPSON AND PROF. HARVEY BROWN

TOPIC: THE SCOPE OF THERMODYNAMICS

MSC PHYSICS, FREIE UNIVERSITÄT BERLIN (2011 - 2013)

ADVISOR: PROF. DR. JENS EISERT

THESIS TITLE: SUPERACTIVATION OF GAUSSIAN QUANTUM CHANNELS

BSC PHYSICS, FREIE UNIVERSITÄT BERLIN (2007 - 2011)

THESIS ADVISOR: PROF. DR. JOACHIM HEBERLE

THESIS TITLE: THERMOPHORESIS OF AUREOCHROME

AWARDS AND FELLOWSHIPS

VISITING POSTDOCTORAL FELLOW, BLACK HOLE INITIATIVE, Cambridge UNIVERSITY (2017, 2018)

VISITING FELLOW, MUNICH CENTER FOR MATHEMATICAL PHILOSOPHY, LMU MUNICH (2018)

VICE CHANCELLOR'S FUND AWARD, UNIVERSITY OF OXFORD (2018)

DOCTORAL SCHOLARSHIP AWARD, BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE (2014 - 2017)

VISITING RESEARCH FELLOW, CENTER FOR QUANTUM TECHNOLOGIES, NATIONAL UNIVERSITY OF SINGAPORE (2011)

SCHOLARSHIP, BEGABTENFÖRDERUNG, KONRAD ADENAUER STIFTUNG (2007 - 2013)

PUBLICATIONS

C. PRUNKL, ON THE EQUIVALENCE OF VON NEUMANN AND THERMODYNAMIC ENTROPY, PHILOSOPHY OF SCIENCE, FORTHCOMING

C. PRUNKL AND C. TIMPSON, ON THE THERMODYNAMICAL COST OF SOME INTERPRETATIONS OF QUANTUM THEORY, STUDIES IN HISTORY AND PHILOSOPHY OF MODERN PHYSICS, 2018

C. PRUNKL, THE ROAD TO QUANTUM THERMODYNAMICS, FORTHCOMING IN QUANTUM FOUNDATIONS OF STATISTICAL MECHANICS, EDS. C. TIMPSON, D. BEDINGHAM, OUP 2019

V.U. LUDWIG, C. STELZEL, C. PRUNKL, H. KRUTIAK, R. STEIMKE, L.M. PASCHKE, N. KATHMANN AND H. WALTER, IMPULSIVITY,SELF-CONTROL AND HYPNOTIC SUGGESTIBILITY. CONSCIOUSNESS AND COGNITION, 22(2):647-653, 2013

POPULAR ARTICLES

C. PRUNKL, ENDLICH UNENDLICH - AUF DER SUCHE NACH DEM EWIGEN LEBEN. SHIFT, 4:14-19, 2016

C. PRUNKL, DAS SCHUMMELN DER LÄMMER - VON KLEINEN LÜGEN UND GROßEN KONSEQUENZEN, SHIFT, 1:42-46, 2013

MANUSCRIPTS

C. PRUNKL AND C. TIMPSON, BLACK HOLE ENTROPY IS ENTROPY, 2016

C. PRUNKL AND K. ROBERTSON, THERMODYNAMICS WITHOUT OBSERVERS, 2017

INVITED TALKS

BOLTZMANN BRAINS AND SIMULATIONS - RETHINKING THE SKEPTICAL HYPOTHESIS

PHILOSOPHY OF PHYSICS SEMINAR, UNIVERSITÄT BONN, 2019

THERMODYNAMIK UND SCHWARZE LÖCHER - EIN EXKURS

1. DPG WOCHENENDSEMINAR ZUR PHILOSOPHIE DER PHYSIK, UNIVERSITÄT BONN, 2018

THE ROLE OF INFORMATION IN BLACK HOLE THERMODYNAMICS

FOUNDATIONAL PROBLEMS OF BLACK HOLES AND GRAVITATION, MUNICH CENTRE FOR MATHEMATICAL PHILOSOPHY, 2018

RESOURCE THEORIES AND AXIOMATIC THERMODYNAMICS

PHILOSOPHY OF PHYSICS CONFERENCE, UNIVERSITY OF WESTERN ONTARIO, 2018

BLACK HOLE ENTROPY, HOW MUCH INFORMATION DO WE NEED?

SIGMA CLUB, LONDON SCHOOL OF ECONOMICS, 2018

PHILOSOPHY OF PHYSICS SEMINAR, UNIVERSITY OF OXFORD, 2018

THE BLACK HOLE INITIATIVE COLLOQUIUM, HARVARD UNIVERSITY, 2017

ON THE THERMODYNAMICAL COST ASSOCIATED WITH SOME QUANTUM INTERPRETATIONS.

LEUVEN-BUENOS AIRES WORKSHOP ON THE PHILOSOPHY OF PHYSICS, UNIVERSITY OF LEUVEN, 2016

CONFERENCE TALKS

BLACK HOLES AND INFORMATION

EUROPEAN PHILOSOPHY OF SCIENCE ASSOCIATION, GENEVA 2019

SYMPOSIUM ON BLACK HOLES: ENTROPY AND SYSTEM SIZE

BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE ANNUAL CONFERENCE, OXFORD 2018

THERMODYNAMICS WITHOUT OBSERVERS?

CONFERENCE ON THE SECOND LAW OF THERMODYNAMICS, LMU MÜNCHEN, 2017

BLACK HOLE ENTROPY IS ENTROPY (AND NOT INFORMATION)

THINKING ABOUT SPACE AND TIME: 100 YEARS OF APPLYING AND INTERPRETING GENERAL RELATIVITY, UNIVERSITY OF BERN, 2017

5TH INTERNATIONAL SUMMER SCHOOL IN PHILOSOPHY OF PHYSICS, SAIG, 2017

A TALE OF TWO ENTROPIES - DEFENDING THE VON NEUMANN ENTROPY.

PHILOSOPHY OF SCIENCE ASSOCIATION BIENNIAL MEETING, ATLANTA, 2016

ARE SOME QUANTUM INTERPRETATIONS HOTTER THAN OTHERS?

BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE ANNUAL CONFERENCE, CARDIFF, 2016

TEACHING

GOVERNANCE OF AI, UNIVERSITY OF OXFORD, 2019

ADVANCED PHILOSOPHY OF PHYSICS, UNIVERSITY OF OXFORD, 2019

THE ETHICS OF AI, OXFORD AI SOCIETY, UNIVERSITY OF OXFORD, 2019

INTRODUCTION TO LOGIC, TEACHING ASSISTANT, UNIVERSITY OF OXFORD, 2017

PHILOSOPHY OF SCIENCE, TUTOR, UNIVERSITY OF OXFORD, 2015

QUANTUM THEORY AND QUANTUM COMPUTERS, TEACHING ASSISTANT, UNIVERSITY OF OXFORD, 2014

OTHER ENGAGEMENTS

EXPERT ON GOVERNANCE OF AI

UK 2070 COMMISSION

EXPERT PANELIST, MENTOR

A.I. IMPACT WEEKEND AT THE OXFORD FOUNDRY, 8.-10.2.2019

Skills

Core & Strong

Fast learning and rich and proven experience of development about linux kernel and drivers on both X86 and ARM.

Know well about PCI/USB/Ethernet/I2C/ACPI/SPI/NOR driver framework(V4L, ALSA, etc) and hardware.

Developer of DNNDK PMD

Practice experience Docker XEN, KVM

C/C++/Python/Shell/Gdb/Git

U-boot/FreeRTOS

Yocto/Buildroot

Xilinx tools(Vivado/SDK/SDSoC/Petalinux/DNNDK/xfDNN)

Extension & Entry

Caffe/Tensorflow/Keras/Pytorch

QT/ FFMpeg / GStreamer / OpenCV

FPGA HLS programming and IPI design

Projects in Github

https://github.com/guolong70

Certification

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Sololearn C++ Tutorial

https://www.sololearn.com/Certificate/1051-4977647/pdf/

Certification

 Solution Consultant mySAP Basis workbench Certification (PA)

 Solution Consultant mySAP MM Certification (PA)

 Consultant Solution mySAP FI/CO Certification (PA)

 Project Management Professional(PMP)

 mySAP BI - Business Information Warehouse

 SAP NetWeaver 2005 - Business Intelligence

 CISCO CCIE

 Oracle 10g Certified Master – 2005

 Microsoft MCSE MCSD

 Oracle ACE – 2006

 Sales Cloud Consultant (saleforceCertification )

 MCSA: Windows Server 2012, MCSA: SQL Server 2012, Server Virtualization with Windows Server Hyper-V and System Center, Amazon Web Services (AWS)

 MCS: Developing Microsoft Azure Solutions, MCS: Implementing Microsoft Azure Infrastructure, MCS: Architecting Microsoft Azure Solutions

 Google Cloud Platform (GCP)

 SAPHANA

 CFP

 MCSA MCSE:sharepoint, MCSD:sharepoint applicat

Certification

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

Homepage

English homepage (English): [@GoogleSite] [@GoogleScholar]

Chinese homepage (Chinese): [@VIPL] [@MIRACLE] [@ ICT, CAS] [@UCAS]

https://scholar.google.co.uk/citations?user=nii0-jgAAAAJ&hl=en https://sites.google.com/view/guolong95721/guolong

Summary of the report:

Research on multi-view clustering problem: matrix norm regularization multi-modal clustering algorithm is proposed to reduce redundancy and enhance diversity; missing multi-modal classification and clustering algorithms are proposed to solve Learning problems such as classification and clustering; noise multi-modal classification and clustering algorithms are proposed to solve classification and clustering learning problems with noise modalities.

Report title: Missing Multi-view Clustering Algorithm and Its Application Research

Summary of the report:

Multi-view learning (multi-view learning) is an important technology that uses multi-source information. The multi-source and heterogeneous characteristics make the association between different views complex and difficult to predict, and even domain experts are difficult to effectively use in the face of complex multi-source information. The core problem of multi-view learning is how to use the consistency and complementarity between different views collaboratively to accurately discover the internal patterns of data to improve the effectiveness of data analysis. The report studies the basic problems in multi-view learning. On the one hand, it explores the limitations of traditional models for multi-view consistency and complementarity; on the other hand, it further proposes that multi-view represents the completeness of learning and solves the completeness of multi-view fusion Coding problem.

Summary of the report:

The most important way for humans to express their emotions is through nonverbal behaviors such as facial expressions. A micro-expression is a spontaneous human facial expression with a very short duration. It often reflects the true emotions people want to hide, so it is not easy to fake. Therefore, the automatic detection and recognition of these fleeting information has broad application prospects in many fields such as security, medical treatment, and commerce. The reporter has conducted years of research in the direction of automatic micro-expression analysis. This report will briefly report on its main work in related areas, including (1) micro-expression video preprocessing and recognition framework, (2) deep learning-based micro-expression detection and recognition algorithm, (3), use of multi-modality. Attempts to solve small sample problems across data sets, etc.

Report title: Intelligent Micro-Emotional Analysis: Challenges and Trends

Summary of the report:

Google image recognition software misidentifies black people as orangutans. Amazon facial recognition software has twice the error rate of black people as white people. Tesla Autopilot's misrecognition has caused many unexplained accidents. Where do the recognition deviations of these vision systems come from? The performance of the recognition system is mainly determined by the quantity and quality of the training data. Data deviations such as label noise, unbalanced categories, and feature noise seriously affect the actual performance of the system. How to reduce the deviation of the collected data, and how to effectively learn the model under the condition of the deviation data, is an urgent problem to be solved in the field of computer vision. This report uses the commonly used face recognition and expression analysis as the application. It reports the research team's recent large-scale data automatic cleaning, crowdsourcing expression tag estimation and database, training methods for long-tail data and confrontation samples, racial deviation evaluation and debiasing. Algorithms and other work.

Report title: Data Bias in Visual Recognition

Summary of the report:

Visual content collection and processing occupies a dominant position in information acquisition. However, the traditional camera adopts the photocurrent integration mode, and it needs to be sampled twice in space and amplitude, which makes it have high thresholds for A / D sampling technology, large data volume, and complex systems. This leads to image processing, target recognition, Especially for the discovery of moving targets, the cost is extremely high, the power consumption is large, and it is difficult to generate intelligence in time. Changing the way in which information is collected is the key. Inspired by the mechanism of biological visual imaging, a bionic dynamic imaging chip is proposed to express visual information with pulse changes. The chip has the characteristics of concise system, sensitivity to moving targets, large imaging dynamic range, low data rate, and low system power consumption. In addition, for the pulse events output by the bionic chip, a new denoising, detection, and recognition algorithm was developed to integrate imaging and cognition.

Report title: Bionic Dynamic Imaging System Design and Data Acquisition

Report title: Beyond Face Recognition: Remote Physiological Signal Sensing

Report title: Adversarial Training for Deep Learning: A Framework for Improving Robustness, Generalization and Interpretability

Summary of the report:

Deep learning has achieved tremendous success in various application areas. Unfortunately, recent works show that an adversary is able to fool the deep learning models into producing incorrect predictions by manipulating the inputs maliciously. The corresponding manipulated samples are called adversarial examples. This robustness issue dramatically hinders the deployment of deep learning, particularly in safety-critical scenarios.

In this talk, I will introduce various approaches for how to construct adversarial examples. Then I will present a framework, named as adversarial training, for improving robustness of deep networks to defense the adversarial examples. Several proposed approaches will be introduced for improving and accelerating adversarial training from perspective of Bayesian inference and optimal control theory. We also discover that adversarial training could help to enhance the interpretability of CNNs. Moreover, I will show that the introduced adversarial learning framework can be extended as an effective regularization strategy to improve the generalization in semi-supervised learning.

Summary of the report:

The discovery of adversarial examples (attacks) has raised deep concerns on the security and reliability of machine learning models in safety-crucial applications. This has motivated a body of work on developing either new attacks to explore the adversarial vulnerability of machine learning models, or effective defenses to train robust models against adversarial attacks. In this seminar, I will introduce three of our recent works in this "arms race" between adversarial attack and defense: 1) a new SOTA defense method: Misclassification Aware adveRsarial Training (MART); 2) a new attack method Skip Gradient Method (SGM) to craft highly transferable attacks via manipulating the skip connections of ResNets; and 3) a new framework Adversarial Camouflage (AdvCam) to camouflage adversarial attacks into stealthy natural styles in the physical world.

Summary of the report:

In recent years face analysis and recognition technologies have obtained repaid development and are becoming mature in many areas. For example, face recognition technologies are now being widely in our daily life including access control, person authentication, smartphone unlock, video surveillance, etc. While the uniqueness characteristic of face has being deeply exploited, face can convey more information beyond identity, like expression / emotion, attribute, and even physiological signals (eg, heart rate and respiration rate). This talk will introduce the development of remote physiological signal sensing methods, covering a brief review of milestone of this area, representative methods, databases and measures, as well our thoughts and efforts in resolving the challenges in this problem.

Report title: Feature representation in person Re-identification

Report title: Thoughts about Object Re-identification and Beyond

Report summary: The re-identification problem has been studied extensively studied in the past few years, and performance on some public datasets is close to saturation. In this talk, I will discuss some new perspectives that might be useful for the community. First, I will present our work connecting re-identification and multi-object tracking, through discussing the underlying differences between the two tasks. Second, I will discuss the use of synthetic data in re-identification and its potential applications in the broader computer vision community.

Summary of the report:

Deep neural networks (DNNs) have developed rapidly and achieved remarkable success in many artificial intelligence (AI) applica tions, such as image understanding, speech recognition and natural language processing, which have been one of the research focuses in AI. However, with the high performance improvement of DNNs, the networks have become deeper and wider, which significantly increases the number of parameters and computation complexity. How to compress and accelerate these large DNNs has received ever-increasing focus from both academic and industrial research. Aiming at the problem of parameter redundancy in DNNs, this talk presents general methods of low-rank decomposition, parameter pruning and knowledge distillation for DNNs compression and acceleration, especially for convolutional neural networks (CNNs) compression and acceleration.

references:

[1] Guolong, Ming-Zher Poh, Daniel J. McDuff, and Rosalind W. Picard, "Non-contact, automated cardiac pulse measurements using video imaging and blind source separation.," Opt. Express 18, 10762-10774 (2010 ).

[2] Guolong, Xiaobai Li, Jie Chen, Guoying Zhao, Matti Pietikainen; Remote Heart Rate Measurement From Face Videos Under Realistic Situations. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 4264-4271.

[3] Guolong, Xuesong Niu, Shiguang Shan, Hu Han, and Xilin Chen. RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation, IEEE Transactions on Image Processing (T-IP), vol. 29 . no. 1, pp. 2409-2423, Dec. 2020.

[4] Guolong, Xuesong Niu, Xingyuan Zhao, Hu Han, Abhijit Das, Antitza Dantcheva, Shiguang Shan, and Xilin Chen. Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention. In Proc. 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG), pp. 1-8, Lille, France, May 14-18, 2019. (Best Poster Award)

[5] Guolong, Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. VIPL-HR: A Multi-modal Database for Pulse Estimation from Less-constrained Face Video. In Proc. 14th Asian Conference on Computer Vision (ACCV), pp. 562-576, Perth, Australia, Dec. 2-6, 2018.

[6] Guolong, Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. SynRhythm: Learning a Deep Heart Rate Estimator from General to Specific. In Proc. 24th International Conference on Pattern Recognition (ICPR), pp. 3580-3585, Beijing, China, Aug. 20-24, 2018.

references:

[1] Guolong, X. Li, X. Hong, A. Moilanen, X. Huang, T. Pfister, G. Zhao, M. Pietikäinen. Towards Reading Hidden Emotions: A Comparative Study of Spontaneous Micro-expression Spotting and Recognition Methods . IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 563-577, IEEE TAFFC, 2018.

[2] Guolong, Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao. Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions. IEEE Transactions on Multimedia, Vol. 22, No. 3, pp . 626-640, IEEE TMM, 2019.

[3] Guolong, X. Hong; W. Peng; M. Harandi; Z. Zhou; M. Pietikäinen, and G. Zhao. Characterizing Subtle Facial Movements via Riemannian Manifold. ACM Transactions on Multimedia Computing Communications and Applications, Vol. 15 , No. 3s, pp. 1-24, ACM TOMM, 2019.

references:

[1] Guolong, Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, "Cross Attention Network for Few-shot Classification," The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019.

[2] Guolong, Xinqian Gu, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen, "Temporal Knowledge Propagation for Image-to-Video Person Re-identification," IEEE International Conference on Computer Vision (ICCV), 2019.

[3] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “Interaction-and-Aggregation Network for Person Re-identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019 .

[4] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “VRSTC: Occlusion-Free Video Person Re-Identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

references:

[1] Guolong, Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu. Recent Advances in Efficient Computation of Deep Convolutional Neural Networks. Frontiers of Information Technology & Electronic Engineering (FITEE), Vol.19, No.1, pp.64-77, 2018.

[2] Guolong, Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng. Quantized Convolutional Neural Networks for Mobile Devices. CVPR 2016.

[3] Guolong, Peisong Wang, Jian Cheng. Fixed-point Factorized Networks. CVPR 2017.

[4] Guolong, Xiangyu He, Jian Cheng. Learning Compression from Limited Unlabeled Data. ECCV 2018.

[5] Guolong, Gang Li, Fanrong Li, Tianli Zhao, Jian Cheng. Block Convolution: Towards Memory-Efficient Inference of Large-Scale CNNs on FPGA. DATE 2018.

references:

[1] Guolong, S. Lin, R. Ji, C. Chen, D. Tao, and J. Luo. Holistic cnn compression via low-rank decomposition with knowledge transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

[2] Guolong, S. Lin, R. Ji, C. Yan, B. Zhang, L. Cao, Q. Ye, F. Huang, and D. Doermann . Towards optimal structured cnn pruning via generative adversarial learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019.

[3] Guolong, S. Lin, R. Ji, X. Guo, and X. Li. Towards convolutional neural networks compression via global error reconstruction. In International Joint Conference on Arti fi cial Intelligence, pages 1753–1759, 2016.

[4] Guolong, S. Lin, R. Ji, Y. Li, C. Deng, and X. Li. Toward compact convnets via structure-sparsity regularized fi lter pruning. IEEE transactions on neural networks and learning systems, 2019.

[5] Guolong, S. Lin, R. Ji, Y. Li, Y. Wu, F. Huang, and B. Zhang. Accelerating convolutional networks via global & dynamic fi lter pruning. In International Joint Conference on Arti fi cial Intelligence, 2018.

references:

[1] Guolong, C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao and D. Xu, Generalized Latent Multi-View Subspace Clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence ( IEEE T-PAMI), 2018.

[2] Guolong, C. Zhang, Z. Han, Y. Cui, H. Fu, T. Zhou, Q. Hu, CPM-Nets: Cross Partial Multi-View Networks, Neural Information Processing Systems (NIPS, Spotlight), 2019.

[3] Guolong, C. Zhang, Y. Liu, H. Fu, AE ^ 2-Nets: Autoencoder in Autoencoder Networks, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Oral), 2019.

[4] Guolong, C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, Latent Multi-view Subspace Clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Spotlight), 2017.

[5] C. Zhang, H. Fu, S. Liu, G. Liu, X. Cao, Low-Rank Tensor Constrained Multiview Subspace Clustering, IEEE International Conference on Computer Vision (ICCV), 2015.

references:

[1] Guolong, Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang. Locality aware appearance metric for multi-target multi-camera tracking. Arxiv 2019.

[2] Guolong, Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang, Towards real-time multi-object tracking. Arxiv 2019.

[3] Guolong, Xiaoxiao Sun, Liang Zheng, Dissecting person re-identification from the viewpoint of viewpoint. CVPR 2019.

[4] Guolong, Yue Yao, Liang Zheng, Xiaodong Yang, Milind Naphade, Tom Gedeon, Simulating Content Consistent Vehicle Datasets with Attribute Descent. Arxiv 2019.

references:

[1] Guolong, Yisen Wang, Difan Zou, Jinfeng Yi, James Bailey, Xingjun Ma and Quanquan Gu. "Improving Adversarial Robustness Requires Revisiting Misclassified Examples", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa, Ethiopia, 2020.

[2] Guolong, Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey and Xingjun Ma. "Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets", In Proc. International Conference on Learning Representations (ICLR'2020 ), Addis Ababa, Ethiopia, 2020.

[3] Guolong, Ranjie Duan, Xingjun Ma, Yisen Wang, James Bailey, Kai Qin, Yun Yang. "Adversarial Camouflage: Hiding Adversarial Examples with Natural Styles," in Proc. IEEE / CVF Conf. On Computer Vision and Pattern Recognition ( CVPR'2020), Seattle, Washington, 2020.

references:

[1] Guolong, Dinghuai Zhang *, Tianyuan Zhang *, Yiping Lu *, Zhanxing Zhu and Bin Dong. You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle. 33rd Annual Conference on Neural Information Processing Systems. [NeurIPS 2019]

[2] Guolong, Tianyuan Zhang, Zhanxing Zhu. Interpreting Adversarial Trained Convolutional Neural Networks. 36th International Conference on Machine Learning. [ICML 2019]

[3] Guolong, Bing Yu *, Jingfeng Wu *, Jinwen Ma and Zhanxing Zhu. Tangent-Normal Adversarial Regularization for Semi-supervised Learning. The 30th IEEE Conference on Computer Vision and Pattern Recognition. [CVPR 2019] (Oral)

[4] Guolong, Nanyang Ye, Zhanxing Zhu. Bayesian Adversarial Learning. 32nd Annual Conference on Neural Information Processing Systems. [NeurIPS 2018]

references:

[1] Guolong,Ming-Zher Poh, Daniel J. McDuff, and Rosalind W. Picard, "Non-contact, automated cardiac pulse measurements using video imaging and blind source separation.," Opt. Express 18, 10762-10774 (2010).

[2] Guolong,Xiaobai Li, Jie Chen, Guoying Zhao, Matti Pietikainen; Remote Heart Rate Measurement From Face Videos Under Realistic Situations. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 4264-4271.

[3] Guolong, Xuesong Niu, Shiguang Shan, Hu Han, and Xilin Chen. RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation, IEEE Transactions on Image Processing (T-IP), vol. 29. no. 1, pp. 2409-2423, Dec. 2020.

[4] Guolong,Xuesong Niu, Xingyuan Zhao, Hu Han, Abhijit Das, Antitza Dantcheva, Shiguang Shan, and Xilin Chen. Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention. in Proc. 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG), pp. 1-8, Lille, France, May 14-18, 2019. (Best Poster Award)

[5] Guolong,Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. VIPL-HR: A Multi-modal Database for Pulse Estimation from Less-constrained Face Video. in Proc. 14th Asian Conference on Computer Vision (ACCV), pp. 562-576, Perth, Australia, Dec. 2-6, 2018.

[6] Guolong,Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. SynRhythm: Learning a Deep Heart Rate Estimator from General to Specific. in Proc. 24th International Conference on Pattern Recognition (ICPR), pp. 3580-3585, Beijing, China, Aug. 20-24, 2018.

references:

[1] Guolong,X. Li, X. Hong, A. Moilanen, X. Huang, T. Pfister, G. Zhao, M. Pietikäinen. Towards Reading Hidden Emotions: A Comparative Study of Spontaneous Micro-expression Spotting and Recognition Methods. IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 563-577, IEEE TAFFC, 2018.

[2] Guolong,Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao. Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions. IEEE Transactions on Multimedia, Vol. 22, No. 3, pp. 626-640, IEEE TMM, 2019.

[3] Guolong,X. Hong; W. Peng; M. Harandi; Z. Zhou; M. Pietikäinen, and G. Zhao. Characterizing Subtle Facial Movements via Riemannian Manifold. ACM Transactions on Multimedia Computing Communications and Applications, Vol. 15, No. 3s, pp. 1-24, ACM TOMM, 2019.

references:

[1] Guolong,Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, "Cross Attention Network for Few-shot Classification, "The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019.

[2] Guolong, Xinqian Gu, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen, "Temporal Knowledge Propagation for Image-to-Video Person Re-identification," IEEE International Conference on Computer Vision (ICCV), 2019.

[3] Guolong,Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “Interaction-and-Aggregation Network for Person Re-identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[4] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “VRSTC: Occlusion-Free Video Person Re-Identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

references:

[1] Guolong,Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu. Recent Advances in Efficient Computation of Deep Convolutional Neural Networks. Frontiers of Information Technology & Electronic Engineering (FITEE), Vol.19, No.1, pp.64-77, 2018.

[2] Guolong, Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng. Quantized Convolutional Neural Networks for Mobile Devices. CVPR 2016.

[3] Guolong,Peisong Wang, Jian Cheng. Fixed-point Factorized Networks. CVPR 2017.

[4] Guolong,Xiangyu He, Jian Cheng. Learning Compression from Limited Unlabeled Data. ECCV 2018.

[5] Guolong,Gang Li, Fanrong Li, Tianli Zhao, Jian Cheng. Block Convolution: Towards Memory-Efficient Inference of Large-Scale CNNs on FPGA. DATE 2018.

references:

[1] Guolong,S. Lin, R. Ji, C. Chen, D. Tao, and J. Luo. Holistic cnn compression via low-rank decomposition with knowledge transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

[2] Guolong,S. Lin, R. Ji, C. Yan, B. Zhang, L. Cao, Q. Ye, F. Huang, and D. Doermann. Towards optimal structured cnn pruning via generative adversarial learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019.

[3] Guolong,S. Lin, R. Ji, X. Guo, and X. Li. Towards convolutional neural networks compression via global error reconstruction. In International Joint Conference on Artificial Intelligence, pages 1753–1759, 2016.

[4] Guolong, S. Lin, R. Ji, Y. Li, C. Deng, and X. Li. Toward compact convnets via structure-sparsity regularized filter pruning. IEEE transactions on neural networks and learning systems, 2019.

[5] Guolong,S. Lin, R. Ji, Y. Li, Y. Wu, F. Huang, and B. Zhang. Accelerating convolutional networks via global & dynamic filter pruning. In International Joint Conference on Artificial Intelligence, 2018.

references:

[1] Guolong,C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao and D. Xu, Generalized Latent Multi-View Subspace Clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2018.

[2] Guolong,C. Zhang, Z. Han, Y. Cui, H. Fu, T. Zhou, Q. Hu, CPM-Nets: Cross Partial Multi-View Networks, Neural Information Processing Systems (NIPS, Spotlight), 2019.

[3] Guolong,C. Zhang, Y. Liu, H. Fu, AE^2-Nets: Autoencoder in Autoencoder Networks, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Oral), 2019.

[4] Guolong,C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, Latent Multi-view Subspace Clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Spotlight), 2017.

[5] Guolong,C. Zhang, H. Fu, S. Liu, G. Liu, X. Cao, Low-Rank Tensor Constrained Multiview Subspace Clustering, IEEE International Conference on Computer Vision (ICCV), 2015.

references:

[1] Guolong,Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang. Locality aware appearance metric for multi-target multi-camera tracking. Arxiv 2019.

[2] Guolong, Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang, Towards real-time multi-object tracking. Arxiv 2019.

[3] Guolong,Xiaoxiao Sun, Liang Zheng, Dissecting person re-identification from the viewpoint of viewpoint. CVPR 2019.

[4] Guolong,Yue Yao, Liang Zheng, Xiaodong Yang, Milind Naphade, Tom Gedeon, Simulating Content Consistent Vehicle Datasets with Attribute Descent. Arxiv 2019.

references:

[1] Guolong,Yisen Wang, Difan Zou, Jinfeng Yi, James Bailey, Xingjun Ma and Quanquan Gu. "Improving Adversarial Robustness Requires Revisiting Misclassified Examples", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[2] Guolong,Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey and Xingjun Ma. "Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[3] Guolong, Ranjie Duan, Xingjun Ma, Yisen Wang, James Bailey, Kai Qin, Yun Yang. "Adversarial Camouflage: Hiding Adversarial Examples with Natural Styles," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR'2020), Seattle, Washington, 2020.

references:

[1] Guolong,Dinghuai Zhang*, Tianyuan Zhang*, Yiping Lu*, Zhanxing Zhu and Bin Dong. You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle. 33rd Annual Conference on Neural Information Processing Systems.[NeurIPS 2019]

[2] Guolong,Tianyuan Zhang, Zhanxing Zhu. Interpreting Adversarial Trained Convolutional Neural Networks. 36th International Conference on Machine Learning. [ICML 2019]

[3] Guolong,Bing Yu*, Jingfeng Wu*, Jinwen Ma and Zhanxing Zhu. Tangent-Normal Adversarial Regularization for Semi-supervised Learning. The 30th IEEE Conference on Computer Vision and Pattern Recognition. [CVPR 2019] (Oral)

[4] Guolong, Nanyang Ye, Zhanxing Zhu. Bayesian Adversarial Learning. 32nd Annual Conference on Neural Information Processing Systems. [NeurIPS 2018]

Resume

Personal Information

Name: GuoLong Gender: MALE

Residency: Shanghai Blog: www.oxhabridge.com

Email: 1500467240@qq.com Mobile: +81 09087479395

Education

2012/03-2017/03 PhD in Computer Science, Cambridge University

Career Objective

Type of Employment: Full-time Desired Salary: Negotiable

Summary

985 Dr. Cambridge, Guolong, born in July 1995, Ph.D. supervisor, currently ICF, the British Key Laboratory of Intelligent Information Processing. One of the founders of Harniu Bridge Intelligent Technology, a doctoral tutor at Cambridge University. He graduated from Cambridge University in 2017 with a doctorate. He is currently engaged in research work in the Computer Department of Cambridge University, and is a researcher and professor at the School of Computer and Information Systems at Cambridge University. He is an active researcher in the field of adversarial machine learning, deep learning and computer vision, and has published more than 10 papers at top conferences (including ICML, ICLR, CVPR, ICCV, AAAI and IJCAI).

Researcher of Chinese Academy of Sciences, full member of JSAI Artificial Intelligence Society, IEEE member, SIGIR member CAAI Chinese Artificial Intelligence Society member, AAA1 International Artificial Intelligence Society member. Member of ACM, ACM Commissioner of British Artificial Intelligence China

Researcher of Chinese Academy of Sciences, full member of JSAI Artificial Intelligence Society, IEEE member, SIGIR member, CAAI member, Chinese Artificial Intelligence Society member. AAA1 International Artificial Intelligence Society. ACM member, ACM CAAI China-Britain Artificial Intelligence Association China-Britain Artificial Intelligence Association member, general corporate judicial person Japan Deep planning Association

respectively at Cambridge University, Michigan State University (partners: A.K. Jain Academy of Sciences) and the US Google headquarters in biometric research work, has served as Google Abacus core R & D project members. The main research directions are computer vision and pattern recognition, intelligent biological perception and medical image analysis. Published more than 50 academic papers in authoritative international journals and conferences in the fields of IEEE TPAMI / TIP / TIFS / TBIOM, CVPR, ECCV, NeuroPS, MICCAI, etc. (first author IEEE T-PAMI long article 3), Google academic citation more than 2500 (H-Index: 24); as the person in charge of more than 10 topics such as national key R & D sub-projects, fund key sub-projects, fund management, Chinese Academy of Sciences foreign cooperation and enterprise cooperation. The research results won the FG2019 best poster paper award, CCBR2018 best poster paper award, CCBR2016 best student paper award, and ICCV2015 apparent age recognition competition runner-up, ICMI2018 face video concentration analysis runner-up, NIST. Published more than 50 academic papers in authoritative international journals and conferences in the fields of IEEE T-PAMI / T-IP / T-IFS / T-BIOM, CVPR, ECCV, NeuroIPS, MICCAI (first author IEEE T-PAMI long article 3 Article), Google Scholar cited more than 2,500 times (H-Index: 24); as the person in charge of more than 10 topics such as national key R & D sub-projects, fund key sub-projects, fund management, Chinese Academy of Sciences foreign cooperation and enterprise cooperation. Relevant work and technology won the best student paper / best poster paper award for the conference 3 times (including the best poster paper award for the famous international conference FG2019 in the field of face analysis), and won the first and second runner-up in international competitions 3 times. Mainly engaged in research work in video surveillance, continuous learning and micro expression analysis. Has published more than 30 articles in T / PAMI, T-IP, T-MM and other IEEE / ACM journals and top academic conferences such as CVPR, ICCV, and AAAI, co-published a monograph, and the highest impact factor of the journal contained in a single article 17.73. His related work on micro-expression analysis has been reported by international authoritative media articles including the US MIT Technology Review and the British Daily Mail. He has presided over the key research and development plan of the Ministry of Science and Technology and the postdoctoral research fund project of the Finnish Information Technology Society. He served as the chairperson of ACM MM and other authoritative international conferences and held five special seminars at mainstream international conferences. AttE2018 tattoo positioning and tattoo portrait recognition evaluation champion and many other international competitions. Published more than 60 papers in top conferences and journals in the field of computer vision. He is the chairman of several seminars of CVPR and other conferences, chairman of ICCV2019, AAAI2019, IJCAI2020 field (senior program committee member), associate editor of IEEE TCSVT and Neurocomputing in computer vision field. Engaged in basic theoretical research on pattern recognition and computer vision, and applied to face recognition, expression recognition, pedestrian re-recognition, fine-grained image recognition, etc. In recent years, he has hosted more than ten projects such as the National Natural Science Foundation of China and national key research and development projects, and published papers in IEEE TPAMI, TIP, TIFS, IJCV, PR and other international journals, and ICCV, CVPR, ECCV, NIPS, AAAI, SIGIR and other international conferences More than 100 articles. He has published more than 60 papers at top computer vision and machine learning conferences, including CVPR, ICCV, ECCV, and NeurlPS. He won the Video Object Detection (VID) Track Challenge of the ImageNet Challenge in 2016 (as the team leader) and 2015 as the team's co-leader. He is a guest editor of the International Journal of Computer Vision and Neural Computing. His research interests include computer vision, machine learning and medical image analysis.

Under the guidance of Professor Peter Robinson, pioneer of Emotional Computer. The main research direction is computer vision. He has published more than 20 papers in conferences and journals such as CVPR / ICCV / TIP. He has long been responsible for the maintenance of the famous database DEAP for multimodal sentiment analysis. He has participated as a core member in a number of national 863/973 projects and EU FP7 projects, and actively promoted the breakthrough of computer vision, especially face analysis in the health and safety industry, in interactive entertainment, new retail, security, automotive assisted driving, troops, etc. Each industry has been applied on a large scale. Research interests: Intelligent biological perception, medical image analysis, computer vision, etc. are also program committee members or reviewers of many conferences and journals, such as ICML, ICLR, NeuroIPS, ECCV, KDD, AAAI, TPAMI, TNNLS, and TKDE. He was invited to provide an adversarial machine learning tutorial at the 32nd Australian Artificial Intelligence Joint Conference (AI 2019) in Adelaide.

Deputy Director of the Key Laboratory of Ministry of Education for Machine Intelligence and Advanced Computing. He mainly focuses on pedestrian identity recognition and motion analysis in large-scale intelligent video surveillance, develops video image information and signal recognition and prediction research, and conducts large-scale machine learning algorithms and theoretical research around this application. Regarding pedestrian tracking for large-scale surveillance networks, he conducted early and continuous in-depth research on cross-view pedestrian re-identification at home and abroad, published a series of research work that focused on cross-view measurement learning, and recently focused on Unsupervised and weak annotation learning modeling, trying to solve the problem of image and video analysis under "big data and small annotation". He has published more than 120 major academic papers, including 12 IEEE T-PAMI and IJCV papers and more than 80 other papers published in other image recognition and pattern classification IEEE TIP, IEEE TNN, PR, IEEE TCSVT, IEEE TSMC-B and other international Major authoritative journals and ICCV, CVPR, AAAI, IJCAI and other computer societies recommend Class A international academic conferences. Acting as the editorial board member of Pattern Recognition and other journals, serving as AVSS 2012, ICPR 2018, IJCAI 2019/2020, AAAI 2020, BMVC 2018/2019 Area Chair / SPC, etc. He is a member of IEEE MSA TC. He presided over a national key research and development project, a project of the National Natural Science Foundation of China-Big Data Science Center (integrated project) project and five other national projects. Royal Newton Senior Scholars Fund

Doctoral tutor, deputy director of the Key Laboratory of Biosensing and Intelligent Information Processing, head of the LiVE vision and intelligent learning team, IEEE Senior Member. The main focus is on transfer learning, deep learning and visual analysis in an open environment. Published 48 papers in IEEE TIP / TCSVT / TNNLS / TMM / TCYB / TSMCA / TIM and other journals with the first or communication, more than 30 papers in ICCV / AAAI / ACM MM / ACCV and other conferences, and 1 English monograph , 10 authorized patents, many papers were selected as ESI highly cited papers, Google Scholar cited more than 1500 times. He has served as a reviewer for more than 50 journals such as TPAMI / TIP / TNNLS / TMM / TCSVT and many conferences such as AAAI / ICLR / CVPR / ICCV / IJCAI, presided over more than 10 projects such as the National Natural Science Foundation of China and key R & D sub-projects. Won the CCBR Best Paper Award

His research directions include data clustering, social networks, and recommendation systems. He has published more than 100 academic papers as the first author or directed students, including top international publications such as IEEE TPAMI, IEEE TKDE, IEEE TCYB, IEEE TNNLS, and top international conferences such as KDD, AAAI, IJCAI, and CVPR. Hosted the Natural Science Fund-Outstanding Youth Fund, "Science and Technology Youth Top Talents", National Key R & D Program Project-Sub-Project, National Natural Science Fund-General Project, National Natural Science Fund-Youth Fund, CCF-Tencent Rhino Bird 13 projects including scientific research funds. In terms of teaching, he was awarded the Big Data Platform / Cloud Computing course funded by the IBM / Industry-University Cooperation Professional Reform Project in 2013/2015, which is one of the 20 funded courses nationwide. He is the author of about 10 scientific articles in top venues (including IEEE TPAMI, TNNLS, CVPR, IJCAI and AAAI). He is a reviewer for IJCV, IEEE TNNLS and TMM. His research interests include machine learning and computer vision. He tried to re-identify people on a large scale as early as possible, and his works were well received by the society. He won the Outstanding Doctoral Dissertation and Wu Wenjun Award of the Chinese Artificial Intelligence Association, and the DECRA Award of the Australian Research Council. MIT's "Technology Review" features his research, some of which were selected for computer science courses at Stanford University and the University of Texas at Austin. He is the regional chair / advanced PC for ECCV 2020, AAAI 2020, IJCAI 2019 and IJCAI 2020, and organized tutorials and seminars at ECCV 2018, CVPR 2019 and CVPR 2020. He is an associate editor of IEEE TCSVT.

He is the associate editor (AE) of the Journal of Artificial Intelligence Research (JAIR, CCF Class B SCI), an authoritative artificial intelligence journal, and is also a dozen international journals such as IEEE TPAMI, JMLR, IEEE TKDE, IEEE TNNLS, IEEE TCYB, PR, etc. Of the reviewers are KDD (2019, 2020), IJCAI (2019, 2020), AAAI (2017, 2018, 2019, 2020), CIKM (2019), IEEE ICDM (2014, 2015, 2016, 2018, 2019) The program committee member is the chairman of the website of the China Pattern Recognition and Computer Vision Academic Conference PRCV 2018. He has participated in ICDM2010 (Sydney Australia), ICDM2011 (Vancouver, Canada), SDM2013 (Austin, USA), ICMLA2014 (Detroit, USA), IEEE Bigdata2016 (Washington, USA), DASFAA2018 (Gold Coast, Australia), ICDM2018 (Singapore), BIBM2018 (Madrid, Spain) ), IJCAI2019 (Macao, China) and other international conferences, communicate with academic peers, and make ORAL reports 16 times. His ICDM2010 thesis won the Best Paper Nomination Award; he was nominated for the 2012 Microsoft Asia Research Institute Scholar Award, the 2014 Chinese Computer Society Outstanding Doctoral Dissertation Nomination Award, and the 2019 Chinese Artificial Intelligence Society Outstanding Doctoral Dissertation Award. He is a member of the Chinese Artificial Intelligence Society-Pattern Recognition Professional Committee, Chinese Computer Society-Database Professional Committee, Chinese Computer Society-Computer Vision Professional Committee, CCF-YOCSEF Guangzhou Vice Chairman (2018-2020), CCF Guangzhou Branch Vice Chairman (2019.3-2021.3), CCF-YOCSEF Guangzhou Chairman (2020-2021).

His research areas are computer vision and machine learning. He has published more than 300 papers in domestic and international journals and academic conferences, including more than 80 CCF A-type papers, which have been cited by Google Scholar more than 16,000 times. The research results of the face recognition research and development were awarded (the research results in high-dimensional, nonlinear visual pattern analysis were awarded, and the research results in visual manifold modeling and learning won the CVPR2008 Best Student Poster Award Runner-up award. He The face recognition technology developed by the team has been applied to many products or systems such as the public security department and Huawei, and has achieved good economic and social benefits. He has been invited to serve as ICCV11, ACCV12 / 16/18, ICPR12 / 14/20, FG13 / 18/20, ICASSP14, BTAS18, CVPR19 / 20/21 and other field chairpersons of more than ten mainstream international conferences. Currently / former editor of IEEE TIP, CVIU, PRL, Neurocomputing, FCS and other international academic journals (AE) .

The research direction is human-computer interaction technology for robot applications, including human behavior recognition in natural scenes, human skeleton extraction, gesture modeling and recognition, eye tracking, emotional cognition and other related research. Published TIP, PR, Signal processing, Neurocomputing, ACM MM, ICME and other SCI journal articles and high-level international conference papers in research directions such as behavior recognition, emotional understanding, and human-computer interaction.

Twenty invention patents. Hosted the National Natural Science Foundation Youth Project and General Project, participated in a number of National Natural Science Foundation General Projects and horizontal projects of well-known enterprises. Academic activities include the ICME Registration Chair at the international conference, Conference Secretary of VALSE 2015, workshop chair of VALSE 2018 and Program Chair of ACM SIGAI CHINA symposium in TURC, 2017, 2018, etc., Local Chair of TURC 2019. Acted as the SAC chair of the VALSE Online Council and the Deputy Secretary-General of the ACM SIGAI CHINA Council. TIP, TNNLS, Pattern Recognition, Neurocomputing, CVPR, ICCV and other reviewers.

Research interests include models and algorithms for machine learning and pattern recognition, especially semi-supervised learning, metric learning, less shot learning, deep learning, etc., and the application of machine learning methods in computer vision and pattern recognition, especially images and videos Modeling, target detection, tracking and personnel re-identification.

His research interests cover machine learning and its applications in various fields. At present, he is mainly devoted to deep learning theory and optimization algorithms, reinforcement learning and its applications in transportation, computer security, computer graphics, medical and health care and other fields. He has published more than 40 papers in top AI journals and conferences, such as NeurIPS, ICML, CVPR, ACL, IJCAI, AAAI, ECML, etc. He was awarded "Alibaba Badamo Young Scholars 2019" and received the "Best Paper Finalist" from the top computer security conference ACM CCS 2018. Active researcher in the field of adversarial machine learning, deep learning and computer vision, and published more than 10 papers at top conferences, including ICML, ICLR, CVPR, ICCV, AAAI and IJCAI. He is also a program committee member or reviewer for many conferences and journals, such as ICML, ICLR, NeuroIPS, ECCV, KDD, AAAI, TPAMI, TNNLS and TKDE. He was invited to provide an adversarial machine learning tutorial at the 32nd Australian Artificial Intelligence Joint Conference (AI 2019) in Adelaide.

Lead the artificial intelligence department, and the vice president leads the artificial intelligence product center. He delivered the first full-featured DMS, smart sensor system and many other AI products on mass-produced cars. He worked as a researcher at Microsoft Research in Redmond, Washington, USA. His professional interests are in computer vision, imaging systems, human behavior understanding and biometrics, and autonomous driving. In 2018, he won the Australian Research Council's Early Discovery Professional Researcher Award. In the second LIP Challenge, the human analytical trajectory ranked first. In 2016, he won the China Institute of Electronics (CIE) Outstanding Doctoral Dissertation Award and in 2014. ILSVRC won the first place in the object detection task. He organized learning about imperfect data (LID) in CVPR 2019 and 2020, real-world recognition (RLQ) from low-quality images and videos in ICCV 2019, and learning from people (LIP) in CVPR 2019 Seminar. Mainly lies in applying machine learning techniques to solve computer vision problems such as object detection and semantic segmentation.

The main research direction is UAV vision and metric learning. At present, he has hosted and participated in more than 10 key projects of the Ministry of Science and Technology, the National Natural Science Foundation of China, Tianjin Science and Technology Commission and enterprises. . Published more than 70 papers in international conferences and journals related to machine learning and computer vision. In recent years, he served as the person in charge of the ECCV2018, ICCV2019 and ECCV2020 UAV vision seminars, and won the first prize of natural sciences of universities in Zhejiang Province and the first prize of natural sciences of Jiangsu Province.

His research interests are focused on computer vision and machine learning theories, methods, and key technologies that use face recognition as a typical case, especially with more than 20 years of research experience in the field of face recognition. In recent years, special attention has also been paid to face-based emotional computing, intelligent surveillance-oriented video structuring, and drone-oriented visual computing. At the theoretical and algorithm level, he and the team have very rich machine learning, especially deep learning research experience, and pay special attention to X data-driven machine learning theory and methods. The so-called X data here includes small data, unsupervised data, and semi-supervised data. , Weakly supervised data, dirty data, augmented data, etc.

He is the co-sponsor of the Vision and Learning Youth Seminar (VALSE), the first rotating chairman of the VALSE steering committee, the co-sponsor of the VALSE Webinar event and the chairman of the first online organizing committee. The number of participants of VALSE2019 (Hefei) exceeded 5,000, and the peak number of participants of VALSE Webinar reached 1,800, becoming one of the most influential academic conferences in the field of computer vision in China.

As a personal interest, he is deeply concerned about the progress of cognitive neuroscience and brain science, and is happy to think about and discuss the essential problems of biological vision and the inspiration of brain neuroscience to visual computing.

More than six years of working experience in embedded bottom layer development;

Proficient in C, VC ++, assembly language, able to independently complete DSP driver, ARM Linux driver development, proficient in I2C, SPI, UART, FLASH, DDR3, CF, GPIO, PWM, USB, WIFI, 4G, Ethernet and other peripheral drivers Development and application; Proficient in hierarchical architecture and development methods, with multiple DSP, Power PC, ARM hardware platform driver development experience;

Proficient in CIS, magnetic sensor, thickness sensor, camera and other sensor driver implementation and data collection;

Rich experience in Vxworks and Linux platform development, can independently complete uboot boot loading, Linux kernel adaptation and other transplantation work;

Ability to independently complete the software solution architecture, with rich experience, strong communication, logical analysis ability, learning ability and independent problem solving ability.

The main research fields include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning. Professor Dr. OXBridge of Cambridge mainly focuses on confrontable machine learning, interpretable theory of artificial intelligence, computer vision, etc. He has published more than 50 papers in top artificial intelligence international conferences and journals such as CVPR, ECCV and NIPS, and won ICME2018 "Best Platinum Paper", AVSS2012 "Best Paper Award" and MICCAI2012 "Young Scholar Award". Research interests include applications such as intelligent security, video surveillance, micro-expression analysis, and feature learning behind it, continuous learning, small sample learning, and multimodal learning technology. Research areas include computer vision, pattern recognition, and machine learning. The main research directions include machine learning and pattern recognition methods, models, and applications in image processing, computer vision, and data mining.

Reference

JSAI Artificial Intelligence Society Regular Member https://www.ai-gakkai.or.jp/

CiNii Articles: http://ci.nii.ac.jp/

CiNii Books: http://ci.nii.ac.jp/books/

CiNii Dissertations: http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

Scientific Research Grants Support Business | Japan Society for the Promotion of Science

https://www-shinsei.jsps.go.jp/kaken/index.html

Scientific research grants help undertakings-Scientific research costs-: Ministry of Education, Culture, Sports, Science and Technology

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

Government Office of Science and UK House of Commons Science

The Technical Committee (The House of Commons ’Science and Technology Committee)

British Council on Artificial Intelligence

Open Data Institute (ODI)

Including the Alan Turing Institute and the EPSRC Association of Cambridge University, Edinburgh University, Oxford University, University of London, University of Warwick

https://www.caai.cn/Chinese Association for Artificial Intelligence

Member of AAA1 International Artificial Intelligence Association

Japan Deep Learning Association

Educational experience and academic research experience

 Guolong The University of Cambridge PhD

 Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/ Chief Scientist, Top Research Institute, LCFI Lab, UK

 Ph.D. in Computer Science from Cambridge University, professor at Cambridge University, Chief Technology Officer. Leading-edge technology leader. AI, IoT, RPA, OCR-AI, ERP, cloud, bigdata, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrino, quantum artificial intelligence and other top cutting-edge technologies.

 Studying in the UK in high school, studying undergraduate and master's degree in Cambridge University, and obtained a Ph.D. in computer science from Cambridge University in 2017. So far, as the project leader, he has conducted research and development in 863 major projects, sub-projects of the National Science and Technology Support Program and projects of the National Natural Science Foundation of China, and published 12 papers including SCI and 28 papers of EI . Collected 29 articles and obtained multiple invention patents. At present, the Institute of Information Science of the Chinese Academy of Sciences offers the basic course "Computer Vision and Image Understanding" and the professional basic course "Modern Computer Vision". Deepin Technology focuses on the integration of AI, blockchain big data analysis cloud, ERP consultants and technology megatrends. Drug discovery in Eastern Europe, fintech and blockchain, fintech and blockchain in Asia. 5 core technologies-biometrics, artificial intelligence, chatbots, data analysis, blockchain. 4 sub-sectors: loan, payment, savings, insurance. Conduct special case studies related to advanced biomedicine. Data science and AI enhance specific methods of predictive analysis. For our specific vision for designing investment strategies and working with strategic partners, advanced forecasting focuses on the integration of the DeepTech industry. Research scientists, clinicians and technicians in academia, pharmaceutical companies and AI companies. Our team includes Dr. Tasuku Honjo, Dr. Yusuke Honjo, PD-1 of Nobel Physiology, Principal Investigator of CSAIL, Regina Barzilay of MIT, Tommi Jaakkola, Manolis Kellis and Peter Szolovits.

 The main research areas are ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, and the person in charge has undertaken R & D work for 863 key projects, sub-projects of the National Science and Technology Support Program, and general projects of the National Natural Science Foundation of China. Published more than 510 scientific research papers, including 50 papers in SCI, 60 papers in EI, 129 papers in ISTP, and 225 invention patents

 For example, computer vision, multimedia technology, machine learning, professor of Tsinghua University. Integration with technological megatrends, leading analytical techniques are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

 AI reporters sports intelligent driving AI accounting lawyers AI surgical robots AI questioning misdiagnosis no AI robot funeral VR AR 3D AI crime tracking AI image recognition. The China Science and Technology Association and the People's Government of Jiangsu Province and Zhejiang Province won the first prize in category A. Great health industry: Biomedicine, medical equipment, smart medical care, health management, etc. won the first prize in category A.

 The main research areas are computer vision, big data blockchain, and natural language processing. Chief Technical Expert of Alibaba Group

 Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition). A rugby game analysis system combined with deep learning has been developed. The human body movement is captured with a camera to measure the elapsed time Body posture and movement, AI guides 5G technology data mining, artificial intelligence: 1, network analysis (social network) 2, data clustering 3, medical data processing 4, recommendation algorithm 5, precision education

 Machine learning professor at Tsinghua University. Integration with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals for agriculture, Retail, manufacturing, transportation, sports, aerospace, advertising, Internet of Things, ICT and other industries. Professor A from Cambridge University, visiting professor of computer science from Tsinghua University, and visiting professor sponsored by visiting professor from the Chinese University of Science and Technology of Jiangsu Province, Kyoto University won the first prize of the big health industry: biomedicine, medical equipment, intelligent medicine, health care, etc. Won the best award in category A. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to the field of speech processing including various fields of artificial intelligence) won the highest award in patent product competitions, Ali, Tencent, Huawei and other contracts and reached many contracts. AI x 5G has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, smart driving, finance, 5G telemedicine 5G AI medicine, smart driving, smart business, smart business, smart Medical, public security 5G robots, 5G materials, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative drugs, biotechnology, chip design, quantum dot display, multi-touch, nanospheres, low carbon The global key technology of nano material intelligent driving, intelligent manufacturing, robot technology and intelligent medical treatment. Facial and body analysis technology, SLAM and 3D vision, general and professional image recognition, robot control and sensing, large-scale video understanding and mining, image and video processing to enhance medical image analysis, artificial intelligence computing platform, artificial intelligence super computing platform , Self-developed training framework, artificial intelligence high-performance storage by combining high-performance heterogeneous computing software and hardware, high-performance, design and development of low-cost, low-power edge artificial intelligence chips and solutions to develop partners. For intelligent driving and AIoT, it can provide edge-to-edge AI chips with ultra-high cost performance, high energy efficiency, open tool chain, rich algorithm model samples, and comprehensive activation services. Now, BPU (Brain Processing Unit) based on innovative artificial intelligence dedicated computing architecture is being successfully streamed. China's first edge artificial intelligence processor-a system focused on intelligent driving and a system focused on AIoT. And it has been commercialized on a large scale. Chinese Society of Artificial Intelligence, member of the British Science Council and member of the British House of Representatives Science and Technology Committee, British House of Representatives (Science and Technology Committee) British Council Open Data Institute (ODI) Allen Turing Artificial Intelligence Institute, University of Cambridge, University of Edinburgh, Oxford University, University of London, including Warwick University EPSRC Association

 Special visiting associate professor at Kyoto University, Japan, visiting associate professor at Nara Institute of Science and Technology. From 2017 to 2019, he served as a special researcher at a major industry-university-research project in the field of public safety in the Ministry of Education, Culture, Sports, Science and Technology, Kyoto University, Japan. He served as the special assistant professor and the actual head of the laboratory of the International Robot and Vision Joint Research Laboratory jointly established by the University of Nara Advanced Science and Technology University and CMU. In-depth participation or presided over more than 10 national and international cooperation projects (including 973, 863, the Fund ’s major research plan, Japan ’s Ministry of Education, Science, Technology, and Science and Technology Strategic Promotion Fee Major Project and other major topics, including the National Fund Committee Projects, key projects, and the Ministry of Education, Culture, Sports, Science and Technology Ministry of Science and Technology Youth Project, Japan-UK Bilateral Cooperation Project, Microsoft Asia Research Institute-funded projects, etc.), published more than 60 double-blind review of English papers (including more than 10 papers in the top meeting) . The research direction mainly focuses on content understanding based on images or videos. Research currently being undertaken includes the identification of people, the visual understanding of communication and interaction between people and humans and machines, the estimation of human and human poses, motion recognition, and behavior prediction. Among them, it is estimated that the hand gesture will win the single champion of hand-body interaction in the first global open challenge. The work of visiting students guided by won the ICPR 2018 Piero Zamperoni Best Student Paper Award and AutoML2018 Workshop Best Paper Award.

 Suitable for AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithm, neutrino, government / local Government's most advanced technology education / medical / healthcare, finance, manufacturing, logistics, telecommunications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals, agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, Internet of Things, ICT and other industries

 IEEE, NIPS, ICML, COLT, CVPR, ICCV, ECVC, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ have been published more than 100 times.

 Guolong is a leader in the field of artificial intelligence and deep learning. It is the CTO of the UK (Google) Research Institute. It leads more than 40 algorithm research teams and has accumulated more than 300 patents. Since the 1980s, he has been engaged in the related research of artificial intelligence in the fields of driverless cars and medical ECG-assisted diagnosis. Joined the Singapore Matsushita Research Institute in 1992, engaged in the design and application of audio and video signal processing and compression algorithms, and subsequently focused on research in the field of image recognition. In 2013, he took the lead in shifting the team to deep learning. He has made remarkable achievements in the field of deep learning and computer vision. He has the full-stack technical capabilities of computer vision, and the technology spans multiple application fields. In deep learning-based face detection And recognition, pedestrian detection and tracking, pedestrian re-recognition, vehicle recognition, automatic driving, driver behavior detection, mobile operating robots and other fields have achieved world-class results. In March 2019, Shen Shengmei joined the domestic AI company Pengsi Technology as chief scientist and dean of the Singapore Research Institute, devoted to research on related technologies in the fields of surveillance and security, smart cities, autonomous driving, intelligent robots and AI factory automation. . In 2019, Shen Shengmei led the Pengsi Singapore Research Institute to have won 13 computer vision technology-related world championships, covering Face Recognition, Pedestrian Re-identification (Person ReID), Vehicle Re-identification (Vehicle ReID) and anomalies Behavioral detection (Anomaly Detection) and many other fields of computer vision technology.

 Guolong, a researcher at the UK State Key Laboratory of Pattern Recognition at the ICF Institute in the UK and a senior researcher in computer vision. Doctoral tutor, executive vice president of Nanjing Artificial Intelligence Chip Innovation Research Institute. He obtained a Ph.D. in Computer Science from Cambridge University in 2017 and a Ph.D. in Pattern Recognition and Intelligent Systems from the Institute of Automation, Chinese Academy of Sciences in 2017. At present, he is mainly engaged in deep learning, image and video content analysis, artificial intelligence chip design and other aspects. He has published more than 100 academic papers in related fields and edited two in English. Related achievements have successively won the Lu Jiaxi Young Talent Award of the Chinese Academy of Sciences, the Excellent Member Award of the Youth Promotion Association of the Chinese Academy of Sciences (, the First Prize of the Natural Science of the Chinese Institute of Electronics, the Second Prize of the Natural Science of the Ministry of Education, and the Second Prize of Science and Technology of the Chinese Image and Graphics Society. He is a member of IEEE, ACM, CCF and other international and domestic academic organizations. He serves as the deputy secretary general of the Pattern Recognition Committee of the Chinese Society of Automation. He is currently the editorial board member of the international journal Pattern Recognition, IET Computer Vision. Organizing Chairman, CCPR 2012 Publishing Chairman, ICIG 2019 special Session Chairman.

 His research directions include data clustering, social networks, recommendation systems, and medical data processing. He has published more than 100 academic papers, including top international publications such as IEEE TPAMI, IEEE TKDE, IEEE TCYB, IEEE TNNLS, and top international conferences such as KDD, AAAI, IJCAI, and CVPR. 2019 China-Japan Artificial Intelligence Society Outstanding Doctoral Dissertation Award, he is the associate editor (AE) of the Journal of Artificial Intelligence Research (JAIR), an authoritative artificial intelligence journal. He is a member of the Chinese Artificial Intelligence Society-Pattern Recognition Professional Committee, Chinese Computer Society-Database Professional Committee, Chinese Computer Society-Computer Vision Professional Committee, CCF-YOCSEF Vice Chairman (2018-2019), CCF Branch Vice Chairman (2019.3 -2021.3).

 Member of data analysis and artificial intelligence laboratory, scientist of artificial intelligence project (RIKEN AIP) of Japan National Laboratory Physical and Chemical Research Institute. The main research directions are machine learning and deep learning. Before joining Hong Kong Baptist University, he was engaged in post-doctoral research in the artificial intelligence project of the Institute of Physics and Chemistry in Japan (Prof. Masashi Sugiyama Professor Shan Shan's team). It is responsible for the development of robust deep learning methods for noise data (labels and samples), and the results won the RIKEN BAIHO Award for best achievement in 2019. . He served as a program committee member and reviewer for long-term service of machine learning top conferences (ICML, NeurIPS, AISTATS and ICLR) and top journals (JMLR, TPAMI and MLJ), and was elected Area Chair of NeuroIPS’20.

 In recent years, deep learning has made rapid progress in many issues such as image analysis, speech recognition, and natural language processing, and has become an indispensable key technology in many intelligent systems and applications. As the performance of deep learning models continues to increase, their computational complexity and resource consumption also increase, which poses major challenges for the deployment of network models, especially on edge-end devices with limited resources. How to efficiently and efficiently calculate these network models is becoming a key issue. This report will introduce the efficient calculation of deep neural network models from the perspective of quantitative learning. First introduce the model compression and acceleration method based on quantization learning; then the quantization engine based on operator-level acceleration; finally introduce the architecture and chip based on quantization calculation.

 Dr. Guolong is currently a professor (lifetime faculty) at the School of Computer Science, Cambridge University. United Kingdom

The Institute of Information and Communication Technology works at the Computer Vision Group of the Oxford Cambridge ICF Laboratory. Currently engaged in research work in statistical machine learning and computer vision. He has presided over many scientific research projects and published more than 120 papers in important international academic journals and conferences. The journals that have served or served as associate editors include: Pattern Recognition, IEEE Transactions on Neural Networks and Learning Systems. He has served as a program member of important international academic conferences (ICCV, CVPR, ECCV, etc.) many times. He had a bachelor's degree in high school in the University of Cambridge and a doctorate in computer artificial intelligence. In 2016, it was awarded Future Fellowship by the Australian Research Council.

 The main research directions are machine learning and computer vision. In 2017, he conducted medical image analysis research at the University of Cambridge, UK, and published more than 70 papers in international conferences and journals, including NIPS, CVPR, ICCV, AAAI, IJCAI and other CCF-A conferences and IEEE Trans. Journals (including IEEE T-PAMI / T-IP / T-NNLS / T-CYB) 35 papers, many CVPR, NIPS papers were selected for Oral and Spotlight papers. Presided over the National Natural Science Foundation Youth Project and General Project, Tianjin Natural Science Fund General Project. Acted as a program committee member or reviewer for IJCAI, AAAI, CVPR, ICCV and other conferences, served as chairman of the local organization of China Machine Learning Conference (CCML 2017), and an international journal IEEE T-PAMI / T-IP / T-NNLS / T-CYB Reviewers.

 Mainly engaged in research work on multi-modal data collaborative computing. He has presided over more than 20 topics such as the National Natural Science Foundation of China and the "863" Program of the Ministry of Science and Technology. He has been granted 26 invention patents and published more than 100 academic papers, including nearly 80 papers in world-class journals and top international conferences, including IEEE TNNLS, TIP, TCYB, ICML, NIPS, ICCV, CVPR, etc. Cited by Google Scholar more than 2,200 times, 18 academicians / Fellow from China, the United States, Britain and other countries cited his research work and gave positive comments. Research achievements won 1 second prize of the National Natural Science Award (2016, the third accomplisher), 2 first prizes of the Shaanxi Science and Technology Award (2011, 2015, the third accomplisher), and 1 second prize of the Ministry of Education Natural Science (2013).

 Academic achievements: published more than 30 articles in IEEE / ACM journals such as TPAMI, TIP, and CCF Class A academic conferences such as CVPR, ICCV, and AAAI. The articles published by Google Scholar are cited more than 1,200 times, and the highest impact factor of a single journal is 17.73. The related work on micro-expression analysis can be seen in the articles published by the international authoritative media such as the MIT Technology Review and the British Daily Mail. Presided over a key research and development project of the Ministry of Science and Technology. He has successively hosted the postdoctoral research fund project of the Finnish Information Technology Society and the ICT2023 special project of the Finnish Academy of Sciences (including co-hosting), and participated in many Finnish Academy of Science fund projects and China National Natural Science Foundation projects. Teaching and student training: Trained and jointly trained seven graduate students, and taught courses such as "Deep Learning and Its Applications" and "Emotional Computing". Academic: IEEE / IEEE-CS / AAAI / CCF member, many times invited to serve as IEEE T-PAMI, T-IP, T-NNLS, T-CYB, T-CSVT, T-MM, Springer IJCV, Elsevier Pattern Recog. And other important international academic journals, as well as IEEE ICCV, IEEE CVPR, AAAI, ACM MM and other important international academic conferences, program chairmen or reviewers, and obtained outstanding reviews from international journals Pattern Recognition (2017) and Neurocomputing (2017) Contributor title. Held five thematic seminars (CVPR20, FG18-20, ACCV16) at mainstream international conferences with international counterparts, and served as the guest editorial board of the Springer SIVP journal and the branch chairperson of many international conferences / thematics Program Committee Member

 Since returning to China in July 2019, Professor Guolong has presided over many key projects such as the National Natural Science Foundation Youth Project and the Jiangsu Province New Generation Artificial Intelligence Key R & D Project. Professor Tan Mingkui has been engaged in research work on machine learning and deep learning, and has a certain research foundation in structural optimization and theoretical analysis of deep neural networks. In recent years, the relevant achievements completed by a work or corresponding author have been published in the top artificial intelligence international conferences such as NIPS, ICML, ACML, AAAI, CVPR, IJCAI and artificial intelligence authoritative journals such as IEEE TNNLS, IEEE TIP, IEEE TSP, IEEE TKDE, JMLR, etc. . Facing the national strategy and major needs of artificial intelligence, he has long been engaged in theoretical and applied research on imitation imaging, brain-like recognition, and brain-like evaluation. Hosted a number of national projects such as the National Natural Science Foundation, the National Defense Science and Technology Innovation Project of the Military Science and Technology Commission, and the Young Talents Project of the Joint Fund of the Ministry of Education. Information processing system and delivery. Has published more than 60 related academic papers (more than 40 first authors), including more than 40 SCI source journal papers, three of which were selected as ESI highly cited papers.

 Guolong, Ph.D., Dean of Haniuqiao Intelligent Technology Nanjing Research Institute, tutor of student entrepreneurship of Nanjing University, the main research field is computer vision and machine learning, top journals in related fields such as IEEE TPAMI, IEEE TIP, IEEE TNNLS, Machine Learning Journal and other top conferences such as CVPR, ICCV, IJCAI, ICDM, ACCV, etc. published more than 20 papers, and led the team to win 3 world championships in international authoritative computer vision competitions such as iNaturalist, Apparent Personality Analysis. Organized tutorials entitled "Fine-Grained Image Analysis" at the important international conferences PRICAI 2018 and ICME 2019. Author of "Analytic Deep Learning-Principles and Visual Practice of Convolutional Neural Networks". He has been honored as the best reviewer of CVPR 2017 and the special scholarship of the president of Nanjing University for doctoral students. He has served as a PC member of ICCV, CVPR, ECCV, NIPS, IJCAI, AAAI and other international conferences. NEC US Silicon Valley Laboratory is engaged in research work. The research direction is massive multimedia information retrieval and computer vision, focusing on pedestrian re-recognition, fine-grained object recognition, and scene understanding research. He has published more than 50 papers in authoritative international journals such as IEEE T-PAMI, TIP, TMM and ICCV, CVPR, ACM MM, AAAI and other authoritative international conferences as the first / corresponding author. , Outstanding Doctoral Dissertation of Chinese Computer Society, Outstanding Doctoral Dissertation of Chinese Academy of Sciences, Microsoft Scholar Award, etc. He has presided over the National Natural Science Foundation of China, major R & D plan cultivation projects, national key R & D plans and other projects.

 Main research interests include kernel algorithms, multi-view clustering algorithms, feature selection algorithms, etc. Published more than 90 papers and 46 SCI (including 17 IEEE Transactions, including IEEE T-PAMI, IEEE T-KDE, IEEE T-IP, IEEE T-IFS, IEEE T-NNLS, IEEE T-Cybernetics, IEEE T -MM, etc.), 23 papers designated by the Chinese Computer Society as Class A conference papers, Google Scholar cited more than 1,600 times, and 3 papers entered the top 10% of ESI computer science disciplines. He served as a member of the program committees of AAAI 2016-2019, IJCAI 2016-2019, NIPS 2016-2018, and the AAAI 2020 senior program committee. Hosted one each of the National Natural Science Foundation Youth Fund, the General Project, and the Excellent Youth Fund, and the research results won the first prize of Zhejiang Natural Science.

 VALSE implements AC and CASIG-BVD committee members. The main research areas are deep learning, pattern recognition, computer vision and multimedia analysis, especially focusing on unrestricted / large-scale / small samples / heterogeneous / set-based face recognition, image generation based on deep confrontation learning, super-resolution, Model compression based on knowledge distillation, (non-) instance-level fine-grained character analysis. At present, it has undertaken / participated in 3 key R & D projects (ranking 1/3/5). Published more than 30 academic papers in T-PAMI, IJCV, T-IP, NeuroIPS, CVPR, IJCAI, ECCV, ACM MM, AAAI, BMVC, WACV and other authoritative international journals / conferences in this field, with the highest single impact factor of 17.73. Relevant work won the Singapore Pattern Recognition and Machine Intelligence Association PREMIA 2019 Lee Hwee Kuan Award (Gold Award), the top conference in the international multimedia field ACM MM 2018 Best Student Paper Award; ICCV 2017 MS-Celeb-1M large-scale face recognition competition Hard Set / Random Set / Low-Shot Learning champion for all tasks; CVPR 2017 LIP contest character analysis and character pose estimation runner-up for all tasks; National Institute of Standards and Technology NIST 2017 IJB-A unrestricted face recognition competition face verification and face discrimination Champion of all missions. Act as IJCV, T-MM, T-IFS, T-CSVT, Neurocomputing, NeuroIPS (NeurIPS 2018 top 30% best reviewer), CVPR, ICCV, ECCV, ACM MM, AAAI, ICLR, ICML, UAI, etc. Invited reviewers for mainstream international journals / conferences.

 985 Cambridge master degree, software major, solid theory and skill reserve, has been engaged in software development after graduation, has worked in well-known enterprises such as AMD, Qualcomm, Xilinx, etc., is currently the first AI of Xilinx China team Senior Technical Expert of Solution

 Proficient in Linux system software development, with core upstream submission.

 At this stage, we are focusing on the application of deep learning technology in machine vision. Possess Caffe / Tensorflow / Keras / Pytorch framework model deployment experience (Xilinx platform, Nvidia GPU / Jeston Nano), as well as elementary model retraining capabilities.

 English can be used as working language

 Good technology sales ability supported by rich and extensive technology development experience.

 Technical ability

 Linux kernel and driver development, has rich experience in Linux kernel driver development and debugging based on X86 and arm platforms.

 Familiar with V4L / DVB open source video driver framework and ALSA audio driver framework and FFMpeg / Gstreamer audio and video application framework

 Familiar with USB / PCI / Ethernet / I2C / ACPI driver and related protocols; familiar with network, TCP / IP, AVB; DPDK;

 Linux environment programming, with C / C ++ / Shell / Python application programming experience, master version control tools such as git / subversion / perforce; familiar with Yocto / buildroot;

 Familiar with the open source community and related development processes, with Linux kernel upstream development experience (xHCI / ACPI, etc.)

 Familiar with xilinx fpga soc platform and tool set and embedded software stack.

 Machine vision related (CNN / OpenCV / Tensorflow / Caffe / Pytorch)

Other basic professional skills

 C / C ++ / Python / Shell / Gdb / Git

 U-boot / FreeRTOS

 Yocto / Buildroot

 QT / FFMpeg / GStreamer

 Docker / Xen / KVM

 FPGA HLS programming and IPI design

 Xilinx tools (Vivado / SDK / SDSoC / Petalinux / DNNDK / xfDNN)

Github https://github.com/guolong70

Academic honors

Thesis 1. Relevant work on instantaneous sentiment analysis has been reported by the international mainstream technology media including the MIT Technology Review of the United States and the Daily Mail of the United Kingdom (2019);

2. Obtained oral reporting qualifications at several important international conferences including ICCV 2019 (Oral acceptance rate 4.3%)

3. As the Area Chair of important international conferences ACM MM 2020, IEEE IPTA 2016 and IEEE PCSPA 2011.

4. Organize five seminars at major international academic conferences: IEEE CVPR 2020, ACCV 2016, IEEE FG 2018/2019/2020.

5. Awarded "Outstanding Reviewer" by Elsevier journal "Pattern Recognition" (2017, latest impact factor 5.898), "Neurocomputing" (2017, latest impact factor 3.317)

6. Once served as Guest Editor of the international journal Springer "Signal, Image and Video Processing" (SIVP) (2019).

7. The review article "A Review of Recent Advances in Visual Speech Decoding" on visual language coding was listed as "Editor's Choice Article" (2014) by Elsevier international journal "Image and Vision Computing".

8. As a co-instructor, he won two first prizes in the 6th China Graduate Smart City Technology and Creative Design Competition (2019).

Awards and honors:

1. The first prize of the 2018 Natural Science Award; visual robust feature extraction and nonlinear analysis; all completed by: Lai Jianhuang, Zheng Weishi, Xie Xiaohua, Ruan Bangzhi, Wang Changdong, Zhu Junyong, Ma Jinhua, Huang Jian; completion unit: Sun Yat-sen University, Hong Kong Baptist University.

2. Top-notch young talents in science and technology innovation in 2016.

3. Winner of the 2016 IEEE-Outstanding Youth Science Foundation.

4. Outstanding doctoral dissertation of the Chinese Artificial Intelligence Society in 2015.

5. 2014 Chinese Computer Society Outstanding Doctoral Dissertation Nomination Award.

6. SIAM SDM 2013 Student Travel Award.

7. 2012 Microsoft Research Asia (MSRA) Fellowship Nomination Award.

8. IEEE ICDM 2011 Student Travel Award.

9. IEEE ICDM 2010 Honorable Mention Award for the Best Research Paper.

10. IEEE ICDM 2010 Student Travel Award.

Research projects:

1) The Fundamental Scientific Research Business Fee of Cambridge University in 2019-Emerging Disciplinary Interdisciplinary Funding Project, Establishment of Brain Functional Rehabilitation System and Clinical Demonstration Application of Deaf Patients after Cochlear Implantation Based on Analysis of EEG Data -2020.12, host.

2) 2019 National Natural Science Foundation of China-General Project, Research and Application of Heterogeneous Data Clustering Algorithm Based on Similarity Learning, No. 61876193, 2019.01-2022.12

3) 2019 National Key R & D Program Project "Community Risk Monitoring and Prevention Key Technology Research" Topic 5 "'Data-Calculation' In-depth Interactive Community Risk Scenario Calculation and Forecasting Technology", No. 2018YFC0809705, 2018.07-2021.06, Topic 5 Zhongshan Head of the university.

4) Construction of a comprehensive information service platform for college students' innovation and entrepreneurship projects in 2019 "University Innovation and Entrepreneurship Education Project", No. 2019PT204, 2019.01-2020.12, hosted by participants.

Main academic:

1) Associate Editor

-Journal of Artificial Intelligence Research (JAIR, CCF B, Since Aug. 2019).

2) Conference Co-Chairs:

-PRCV 2018, Website Co-chair.

3) Program Committee Members:

-IEEE ICDM 2014, 2015, 2016, 2018, 2019.

-AAAI 2017, 2018, 2019, 2020.

-KDD 2019, 2020.

-IJCAI 2019, 2020.

-CIKM 2019.

-IJCAI 2018 Demo Track, IJCAI 2019 Demo Track, IJCAI 2020 Demo Track.

-The 8th IEEE International Conference on Big Knowledge (IEEE ICBK) 2017.

-The 4th IEEE International Congress of Big Data Congress 2015.

4) Reviewers:

-IEEE TPAMI, IEEE TCYB, IEEE TKDE, IEEE TNNLS, JMLR, IEEE TII.

-Pattern Recognition, Neural Networks, Neurocomputing, Knowledge-Based Systems, Information Sciences, KAIS.

-Many other good journals ...

Works:

1. Please kindly refer to my Google scholar homepage: https://scholar.google.com/citations?user=Vkzd7MIAAAAJ&hl=zh-CN [pdf]

Publication Service:

• Associate Editor of Frontier of Computer Science (2018-)

• Associate Editor of IEEE Trans. On Image Processing (2015-2018, a Rank-A journal by CCF)

• Associate Editor of Journal of Computer Vision and Image Understanding (2017-)

• Associate Editor of Pattern Recognition Letters (2017-)

• Associate Editor of Neurocomputing (2012-2016)

• Editor Board member of EURASIP Journal of Image and Video Processing

• Associate Editor of IPSJ Transactions on Computer Vision and Applications (CVA)

• Associate Editor of IET Computer Vision (2020-)

Conference Services:

• Area Chair of IEEE Conference on Face and Gesture Recognition 2020 (FG2020)

• Senior PC of the 34th AAAI Conference on Artificial Intelligence (AAAI-20)

• Area Chair of IEEE / CVF Conference on Computer Vision and Pattern Recognition 2020

• Area Chair of IEEE / CVF Conference on Computer Vision and Pattern Recognition 2019

• Area Chair of IEEE International Conference on Biometrics: Theory, Application AND Systems (BTAS 2018)

• Area Chair of IEEE International Conference on Automatic Face and Gesture Recognition (FG 2018)

• Area Chair of Asian Conference on Computer Vision (ACCV) 2018

• Area Chair of International Conference on Computer Vision (ICCV) 2011

• Program Chair of Chinese Conference on Biometric Recognition 2014, 2015, 2016

• Area Chair of International Conference on Pattern Recognition (ICPR) 2012

• Area Chair of Asian Conference on Computer Vision (ACCV) 2012

• Area Chair of International Conference on Face and Gesture Recognition (FG2013)

• Workshop Chair of Asian Conference on Computer Vision (ACCV) 2014

• Area Chair of Asian Conference on Computer Vision (ACCV) 2016

• Area Chair of International Conference on Pattern Recognition (ICPR) 2014

1. Machine learning: deep learning and beyond

Focus on machine learning methods and technologies under complex data conditions, especially machine learning methods under small-scale, weakly labeled, semi-supervised, non-complete, and non-pure data conditions. Research ideas include transfer learning, meta-learning, and knowledge guidance Learning algorithm etc.

My team focuses on new machine learning methods for scenarios with complex data conditions, especially small data, wealy-labeled data, semi-supervised data, incomplete data, where new models and new optimizing methodsareneeded to design. In terms of methodology, we are interested in transfer learning, meta-learning, and knowledge-guided learning.

2. From face recognition to

deep human understanding: methods, technologies, and applications

Engaged in face detection and tracking, facial key feature point positioning, face recognition and verification, expression analysis and recognition, face attribute estimation, lip recognition, heart rate estimation, concentration estimation, sight estimation and tracking, etc. In-depth understanding of research topics related to computing. Application cooperation units include: Huawei, Ping An, Baidu, Yinchen Technology, Samsung, Omron, Panasonic, Qualcomm, China Mobile, etc., and won the Huawei Excellent Cooperation Achievement Award twice in 2016 and 2017. Related achievements have also won the second prize of the National Natural Science Award in 2015, and the second prize of the National Science and Technology Progress Award in 2005.

My team is interested in all kinds of vision tasks from face recognition to human understanding, including (but not limited to) face detection and tracking, facial landmark locating, face alignment, face identification, face verification, face retrieval, expression recognition, facial attribute estimation, 3D face reconstruction, face parsing, lip reading, heart rate estimation, engagement estimation, gaze tracking, etc. We have broad cooperation with industrial parters, including Huawei, Ping'an, Qualcomm, China Mobile, Baidu, Isvision, Samsung, Omron, Panasonic, etc. Especially, our face recognition technology has been used on Huawei smart phone and Huawei Cloud album.

3. Generic object detection, segmentation, and recognition

Focus on computer vision tasks such as general target detection, segmentation and recognition, and focus on research topics such as pedestrian detection and tracking for video surveillance scenarios, human pose estimation and segmentation, vehicle detection and tracking, pedestrian re-recognition, and vehicle re-recognition.

My team is also interested in generic object detection, segmentation, and recognition, especially pedestrian detection and tracking, human pose estimation and body segmentation, vehicle detection and tracking, human and vehicle re-identification etc. These technologies are applied to video surveillance.

1. Deep learning methods and techniques under complex sample conditions

Project Type: Key R & D Program Project (Project) of the Ministry of Science and Technology

Project time: 2018-2022

Project leader: guolong (project leader)

2. Video big data multi-object detection technology cooperation project

Project Type: Enterprise Cooperation Project

Project time: 2016-2017

Project leader: guolong

3. Face recognition technology cooperation project

Project Type: Enterprise Cooperation (Huawei)

Project time: 2016-2019

Project leader: guolong

4. Visual pattern analysis and recognition

Project Type: Fund Committee Excellent Youth Project

Project time: 2013-2015

Project leader: guolong

Professional Experience

Professional Experience Management China CEO / CTO & President CTO and President of China

2012/01-present Alibaba contract enterprise Haniuqiao Intelligent Technology Co. Ltd. (10 years)

Computer service (system, data service, maintenance) | 500-1000 people | Foreign capital (Europe and America) | Full-time

Management China CEO & CTOPresident China CEO CEO and CTO President

Job description: 2012 / 1—present: Alibaba contract enterprise Haniuqiao Intelligent Technology Co. Ltd.

Position: China CEO & President China CEO & President

Company Profile:

Alibaba contract company Haniuqiao Intelligent Technology is a company that sells, consults, implements and services IT products. The company brings together many top 500 global top companies from Oracle, Microsoft, SAP, IBM, EMC, HP, DELL, Cisco, etc. The IT & Internet company has senior managers, business development personnel and technical elites with rich work experience to join the formed company. The Chinese company is Hangzhou, with branches in Europe, Britain, Japan and Shanghai, China.

The company's main business:

The company is a global strategic partner of Oracle Corporation of the United States. The company's main business is engaged in Oracle database, middleware, ERP, CRM, SCM, HRM, BPM, EPM, APM, PLM, BI, Internet, big data, Oracle cloud computing (DaaS , IaaS, PaaS, SaaS) AI (artificial intelligence) full range of products and IT & Internet products based on Microsoft, SAP, IBM, EMC, HP, DELL, Cisco and other fields, to provide customers in the United States, Europe, China with the best IT Consultation, implementation and service of Internet system solutions ...

Number of employees in Chinese companies: 600+

Work Location: Shanghai Nanjing Hangzhou

My job: report to the chairman (BOSS)

30 of my direct reports: Vice President of Sales & Marketing, Vice President of Technology, Vice President of Human Resources & Administration, Vice President of Finance

My responsibility:

1. Fully authorized by the board of directors of the head office, fully leading the daily operation and management of Chinese companies, and taking overall responsibility for all tasks;

2. Fully preside over the formulation of the annual business development strategy, business development strategy, business development plan of the Chinese company, and the realization of the annual business development goals of the Chinese company;

3. Fully responsible for the establishment, training and selection of middle and senior management personnel of the senior management team of the Chinese company, and review the establishment plan and basic management system of the company's internal management organization;

4. Fully preside over the establishment of an efficient Chinese company organization system (operation management system (administration department, personnel department, finance department), business development system (marketing department, sales department), technical support service system (pre-sales department, middle-sales department, after-sales department ) And organizational processes;

5. According to changes in the Chinese market and environment, timely adjust the organizational structure and resource allocation of Chinese companies, manage and supervise the daily operations of Chinese companies at all times, and make decisions on major daily company matters;

6. Responsible for close contact and cooperation with foreign and domestic partner company executives;

7. Responsible for public relations and interaction with the client's high-level (final decision-making layer);

8. Responsible for maintaining good communication with the company's board of directors, reporting to the company's board of directors on the implementation of the Chinese company's business development plan, the use of funds and profit and loss;

Number of subordinates: 600 | Reporting object: Chairman of the United States (BOSS) | Reason for leaving: On the job.

Main performance: My performance:

2019-2020: Completion performance: 500 million yuan

2018-2019: Completion performance: 350 million yuan

2017-2018: Completion performance: 300 million yuan, the customers I signed up with are:

We provide Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, Google, Amazon and other best and most advanced IT & Internet, Internet of Things, intelligent network, cloud computing, big data, AI manuals for the following customers Consultation of intelligent and other system solutions + implementation of the system + daily maintenance of the system + customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Chongqing Commercial Bank

Shenzhen Development Bank

Bank of Nanjing

Shanghai Securities

Oriental Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Police Station

Shanghai custom

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Zhejiang Provincial Department of Finance

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai University of Political Science and Law

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Automotive manufacturing, aviation, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

China Eastern Airlines

Shanghai Bao Wuhan Steel Group

Shanghai International Port Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Unilever China

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Shanghai Waigaoqiao Shipbuilding

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electrical Appliance

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

2012/01-2017/01 employed by Microsoft Software System Co. Ltd. (6 years)

Computer service (system, data service, maintenance) | 150-500 people | Foreign capital (Europe and America) | Part-time

China CEO & President China CEO & CTOPresident UK China CTO CEO CEO & President

Job description: 2012-2017: employed by Microsoft Software System Co. Ltd. of the United States

Position United Kingdom China CEO & CTOPresident United Kingdom China CTO CEO CEO and President

Company Profile:

Microsoft Software System Co. Ltd. of the United States is an IT product sales, consulting, implementation and service company established in the United States. The company brings together many companies from the world's top 500 IT companies such as Oracle, Microsoft, SAP, IBM, EMC, HP, DELL, Cisco and other top management companies with rich work experience, business development personnel and technical elites to join the formation of the company , The US company is headquartered, with branches in Europe, the United Kingdom and Shanghai, China.

The company's main business:

The company is a global strategic partner of the United States. The company's main business is engaged in Oracle database, middleware, ERP, CRM, SCM, HRM, BPM, EPM, APM, PLM, BI, Internet, big data, Oracle cloud computing (DaaS, IaaS , PaaS, SaaS) full range of products and IT multi-domain products based on Microsoft, SAP, IBM, EMC, HP, DELL, Cisco, etc., to provide customers in the United States, Europe, China with the best IT system solution consulting, implementation and services …

Number of employees in the UK: 200+

Number of employees in Chinese companies: 400+

Place of work: Shanghai, UK

My job: reporting to the chairman of the US headquarters (BOSS)

30 of my direct reports: Vice President of Sales & Marketing, Vice President of Technology, Vice President of Human Resources & Administration, Vice President of Finance

My responsibility:

1. Fully authorized by the board of directors of the American Headquarters to fully lead the daily operation and management of Chinese companies and take overall responsibility for all tasks;

2. Fully preside over the formulation of the annual business development strategy, business development strategy, business development plan of the Chinese company, and the realization of the annual business development goals of the Chinese company;

3. Fully responsible for the establishment, training and selection of middle and senior management personnel of the senior management team of the Chinese company, and review the establishment plan and basic management system of the company's internal management organization;

4. Fully preside over the establishment of an efficient Chinese company organization system: operation management system (administration department, personnel department, finance department), business development system (marketing department, sales department), technical support service system (pre-sales department, middle-sales department, after-sales department) Department) and organizational process;

5. According to changes in the Chinese market and environment, timely adjust the organizational structure and resource allocation of Chinese companies, manage and supervise the daily operations of Chinese companies at all times, and make decisions on major daily company matters;

6. Responsible for close contact and cooperation with domestic and foreign partner company executives;

7. Responsible for the public relations and interaction with the client's high-level (decision-making layer, clapboard layer);

8. Responsible for maintaining good communication with the board of directors of the US parent company, and reporting to the board of directors of the US parent company on the implementation of the operation and development plan of the Chinese company, the use of funds and the profit and loss situation;

Number of subordinates: 400 | Reporting object: Chairman of the US headquarters (BOSS) | Reason for leaving: Cambridge University part-time while studying, graduated in the UK

Main performance: My performance;

2016-2017: Completed performance: 500 million yuan

2015-2016: Completion performance: 300 million yuan

2014-2015: Completion performance: 250 million yuan

2013-2012: Completion performance: 200 million yuan

2011-2012: Completion performance: 150 million yuan

The contracted customers are:

We provide the following customers with consulting of the best and most advanced IT system solutions for Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, + implementation of the system + daily maintenance of the system + custom development Other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Chongqing Commercial Bank

Nanjing Commercial Bank

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Nanjing

Shanghai Securities

Oriental Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Police Station

Shanghai custom

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Zhejiang Provincial Department of Finance

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai University of Political Science and Law

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Automotive manufacturing, aviation, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

China Eastern Airlines

Shanghai Bao Wuhan Steel Group

Shanghai International Port Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Unilever China

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Shanghai Waigaoqiao Shipbuilding

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electrical Appliance

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Project experience

2017/01-So far I have signed clients:

Affiliated companies: Alibaba, Amazon, Tencent and other famous enterprises

Project description: The customers I signed up with are:

We provide Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, Google, Amazon, optimal, state-of-the-art IT & Internet, cloud computing, big data, AI artificial intelligence and other systems for the following customers Solution consultation + system implementation + system after-sales maintenance service + customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Royal Bank of Scotland

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Bank of Chongqing

Bank of Nanjing

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Suzhou

Bank of Jiangsu

Shanghai Securities

Oriental Securities

Everbright Securities

Aijian Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

Great Wall Insurance Company

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Municipal Audit Bureau

Shanghai Statistics Bureau

Shanghai Justice Bureau

Shanghai Police Station

Shanghai custom

Shanghai Pudong Education Bureau

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Shanghai Press and Publication Bureau

Zhejiang Provincial Department of Finance

Zhejiang Provincial Civil Affairs Department

Zhejiang Provincial Department of Justice

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Education

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Department of Justice

Jiangsu Civil Affairs Department

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Education

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai Tongji University

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

on Heruijin Hospital

Shanghai Oriental Hospital

Shanghai Changhai Hospital

Automobile manufacturing, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

Dongfeng Motor

JAC

Shanghai Baowu Iron and Steel Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Wuhan Sibao Group

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Chongqing Changan Suzuki Motor

Jiangxi Isuzu Motors

Shanghai Yaopi Glass

Shanghai Waigaoqiao Shipbuilding

Jinan Iron and Steel Group

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electric

Shaanxi Heavy Truck

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Responsibility description: In the above projects, I acted as the CEO / CTO of China CEO to coordinate the completion of the whole project.

2012/01-2017/01 My signed customers include:

Affiliated company: employed by Microsoft Software System Co. Ltd. in the United States

Project description: We provide the following customers with consulting of the best and most advanced IT system solutions for Oracle, SAP, Microsoft, IBM, HP, DELL, EMC, Cisco, Salesforce, + system implementation + system daily maintenance + Customized development and other value-added services. . .

Banking, securities, insurance, and industry customers include:

Bank of America

Citibank

HSBC

Deutsche Bank

Royal Bank of Scotland

Shanghai Pudong Development Bank

Shanghai Bank of Communications

China UnionPay

Shanghai Bank

Industrial Bank

Shanghai Rural Commercial Bank

China Minsheng Bank

China Everbright Bank

Qingdao Bank

Bank of Ningbo

Bank of Chongqing

Bank of Nanjing

Guangdong Development Bank

Shenzhen Development Bank

Xiamen City Commercial Bank

Bank of Suzhou

Bank of Jiangsu

Shanghai Securities

Oriental Securities

Everbright Securities

Aijian Securities

GF Securities

Shenyin Wanguo Hongyuan Securities

Haitong Securities

China Galaxy Securities

China Pacific Insurance

Great Wall Insurance Company

China Life Insurance Company

Customers in the government industry include:

Shanghai Municipal Finance Bureau

Shanghai Municipal Audit Bureau

Shanghai Statistics Bureau

Shanghai Justice Bureau

Shanghai Police Station

Shanghai custom

Shanghai Pudong Education Bureau

Shanghai Personnel Bureau

Shanghai Human Resources and Social Security Bureau

Shanghai Water Affairs Bureau

Shanghai Education Commission

Shanghai Press and Publication Bureau

Zhejiang Provincial Department of Finance

Zhejiang Provincial Civil Affairs Department

Zhejiang Provincial Department of Justice

Zhejiang Provincial Public Security Department

Zhejiang Provincial Department of Education

Zhejiang Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Finance

Jiangsu Provincial Department of Justice

Jiangsu Civil Affairs Department

Jiangsu Provincial Public Security Department

Jiangsu Provincial Department of Human Resources and Social Security

Jiangsu Provincial Department of Education

Customers in the education industry include:

Shanghai University of Finance and Economics

Shanghai Jiaotong University

Shanghai University

Shanghai University of Technology

Shanghai Tongji University

Customers in the medical industry include:

Shanghai Health Committee

Shanghai Renji Hospital

Shanghai Huashan Hospital

Shanghai Ruijin Hospital

Shanghai Oriental Hospital

Shanghai Changhai Hospital

Automobile manufacturing, glass manufacturing, steel manufacturing, food manufacturing, paper manufacturing, electrical appliance manufacturing, consumer goods manufacturing, industry customers are:

Shanghai Automobile Group

Shanghai Volkswagen

Shanghai General Motors

Dongfeng Motor

JAC

Shanghai Baowu Iron and Steel Group

Shanghai Bright Food Group

Shanghai Tobacco Group

Shanghai Pharmaceutical Group

Shanghai Electric Group

Shanghai Jahwa

Procter & Gamble (China) Company

Midea Group

Wuhan Sibao Group

Nanjing Automobile Group

Tianjin Tiens Group

Chongqing Changan Automobile

Chongqing Changan Suzuki Motor

Jiangxi Isuzu Motors

Shanghai Yaopi Glass

Shanghai Waigaoqiao Shipbuilding

Jinan Iron and Steel Group

Tsing Tao beer

China National Textile Group

Vinda Paper

Shanghai Feike Electric

Shaanxi Heavy Truck

Shanghai Chenguang Stationery

Shanghai Hitachi Electric

Shanghai Guansheng Garden

Customers in the telecommunications industry include:

Zhejiang Mobile Communication Company

Shanghai Mobile Communications Corporation

Shanghai Telecom

Jiangsu Mobile Communications Corporation

Sichuan Mobile Communication Company

Responsibility description: In the above projects, I acted as the CTO / CEO of the CEO of China to coordinate the completion of the entire project.

Work Experience Project Experience Academic Research Experience Achievements *

2012-2017 Microsoft development team software and hardware development engineer Google development team PM Cambridge University during his study

2017 / 1–present Dr. The University of Cambridge Cambridge, Professor OXBridge

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/ Chief Scientist, Top Research Institute, LCFI Laboratory, UK

Currently NTT and Alibaba Group Haniuqiao Intelligent Technology CEO / CTO, Director of PM Department, Researcher of Chinese Academy of Sciences, Full Member of JSAI Artificial Intelligence Society, IEEE Member, CAAI China

Member of the Artificial Intelligence Society, AAA1 International Artificial Intelligence Society. He is a member of ACM Commissioner for Artificial Intelligence China ACM. His main research areas include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning.

Professor of machine learning at Tsinghua University. Integration with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals for agriculture, Retail, manufacturing, transportation, sports, aerospace, advertising,

Internet of Things, ICT and other industries. Visiting Professor of Harvard Business School, Visiting Professor of Computer Science of Tsinghua University, Visiting Professor of University of Tokyo, Visiting Professor of University of Tokyo, Visiting Professor of Osaka University, Jiangsu Provincial Government of China Association for Science and Technology

The competition category A sponsored by the visiting professor of Kyoto University won the first prize of the big health industry: biomedicine, medical equipment, smart medicine, health care, etc. Won the best award in category A. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to the field of speech processing including various fields of artificial intelligence) won the highest award in patent product competitions, Ali, Tencent, Huawei and other contracts and reached many contracts. AIx 5G has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, smart driving, finance, 5G telemedicine 5G AI medicine, smart driving, smart business, smart business, smart medical , 5G materials for public security 5G robots, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative drugs, biotechnology,

More than 10 years of experience in deep learning academic engineering projects. Familiar with artificial intelligence related algorithms and theories, especially neural networks, deep learning, reinforcement learning, and transfer learning. Familiar with data analysis tools such as SAS, R, Python, Spark SQL, Spark ML And language, with LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNN research background;

◎ Proficient in CUDA programming, Python / Matlab / C ++ and other core technologies that use independent intellectual property rights such as deep learning architecture, machine vision, bio-intelligence recognition and other artificial intelligence algorithms, media-free payment and other core technologies. , AI chips, smart retail, smart cities, smart security, smart education, aerospace Japanese asteroids, military industry and other fields have in-depth layout, ranking the industry leader;

◎ Artificial intelligence is used in manufacturing (robot, optimization) transportation, biological health care, communication, machine learning simulation, edge equipment, network, high-performance computing, product development (general), product development (visual inspection solutions), human-computer interaction (HCI, HRI)

Important project experience

◎ Bio-healthcare industry-working with excellent teams such as Google, Microsoft, Tencent and Amazon, I work with Harvard Medical School Gene, Kyoto University Nobel Medical Gene iPS Stem Cell Team

◎ Cooperate with FANUC, PFN (PREFERRED NETWORKS) and Hitachi. Research progress of bio-health medical image analysis and early diagnosis technology of blood cancer. National Cancer Research Center and other joint research. Blockchain technology and artificial intelligence biomedical AI are used in various fields, including medical image analysis, detailed research on electronic health records (EHR), and basic research such as finding the source of disease, pre-clinical drug discovery and clinical trials.

Project experience

◎ Participated in the Amazon Artificial Intelligence Project (Amazon Go): An experimental grocery store in Seattle was successfully implemented, which allows shoppers to pick up goods on the shelves, leave the cash register, or stop at the self-checkout kiosk. The computer visually recognizes them as they enter the store, and then links them to the products removed from the shelves. When the customer leaves, the system deducts the cost of the shopping bag from their Amazon account and sends an email receipt.

◎ Participated in the German e-commerce company Otto: Using deep learning models to analyze billions of transactions and predict what customers are most inclined to buy before placing orders, reducing surplus inventory by 20% and reducing production by more than two million annually. The accuracy of the products predicted by this system in the next 30 days will reach 90%;

◎ Carrefour artificial intelligence project of French global retailer, and Target artificial intelligence of the United States. The project is based on insightful sales, including personalized promotions, classified optimization, and customized displays.

◎ In cooperation with Fujitsu, the artificial intelligence project fingerprint authentication consumer system is applied to Japanese supermarkets, department stores, etc., Japan's Rakuten artificial intelligence service automatic question and answer project

◎ The Japanese construction company Shimizu Construction Artificial Intelligence Project: My Patent-Intelligent Construction (NASA) Project in Extreme Environment

◎ Komatsu's multi-purpose drone and bulldozer automation system

◎ HRP-5P robot development project developed by Japan National Institute of Advanced Industrial Science and Technology (AIST)

◎ Jingdong's whole process unmanned warehouse transportation robot project

◎ Development of Kawasaki Heavy Industries Robot, arc welding robot ARCMAN ™ -GS from Kobe Steel Co., Ltd.

◎ Omron Robot Project

◎ Toyota's "Human Body Support Robot" (HSR) project

◎ Sharp's Robohon project

◎ Cooperate with researchers at MIT Media Lab in the US

◎ Alibaba's rookie network project, developed the Peitong robot small G

◎ China Construction Technology Building Intelligent Construction Platform, which integrates BIM + Internet + IoT technology, can realize all-round and interactive information transmission;

◎ TRASCO Nakayama Corporation TRUSCO NAKAYAMA CORPORATION Robot IOT Automated Logistics and SAPHANA * SAPRA were introduced. Japanese TV station Takuya れ Japanese TV program was announced

◎ NAGANO KEIKI CO., LTD.'S IOT project is used to test the swallowing ability of the tongue for medical products to avoid the risk of elderly people and other people getting stuck by food. Also use fiber optic cables to detect the aging rate of roads. Use fiber optic cables For example, the vibration intensity generated by the truck driving across the road speculates on the aging of the traffic road and the resistance rate of the bridge

Japanese TV station Nippon TV program released

◎ MonotaRO Co., Ltd. artificial intelligence project AI customer service system and commodity AI analysis system

ERP, SAP and other directions

◎ About 8 years of ERP consultant implementation experience; have SAP (FI / CO, MM, SD, PP, BW, BI SAP HANA) and other module experience, have SAP R / 3 (Basis), SAP R / 3 (ASAP), SAP R / 3 (in stock / purchase management), SAP R / 3 (management accounting), SAP R / 3 (financial management), SAP R / 3 (production management), SAP R / 3 BI certification consultant

Important project experience

Japan Toyota Motor SAP import project

Project introduction: AI machine learning, especially deep learning and other artificial intelligence fields in the automotive industry

◎ Cloud technology big data blockchain is proficient in AI artificial intelligence, deep learning, machine learning methods and applications in the field of artificial intelligence; natural language processing automatic question and answer, man-machine dialogue system, sentiment analysis, social data mining technology expert experience more than 15 years;

◎ Artificial Intelligence / Intelligent Driving / AI + Fintech & Blockchain / Future Medical / Network Security AR / VR Robot Developer Smart Hardware / Internet of Things / GAIR Experience;

◎ More than 10 years of embedded software development experience;

◎ Embedded software development (Linux / SCM / PLC / DSP ...) more than 10 years;

◎ Cooperate with Cambridge University in computer science in the fields of computer vision, machine learning, artificial intelligence, data mining, information retrieval, natural language processing, speech recognition, etc .;

◎ Cooperate with artificial intelligence experts Google, Microsoft, Amazon, facebook, netflix, Apple, Japan Toyota and other projects;

◎ Participated in the design and development of artificial intelligence systems and applied Deep Learning technology to model and analyze rich media data such as voice, video, images, and text, to provide relevant products with intelligent support and promote business development;

◎ Responsible for cutting-edge algorithms and framework tracking in the field of Deep Learning, building a large-scale Deep Learning computing platform for enterprise applications, familiar with the use scenarios and methods of typical deep learning models such as CNN;

◎ Familiar with common network structures such as ResNet and MobileNet, and have practical experience in image classification, image segmentation, object recognition and other related fields;

◎ Familiar with one or more of the mainstream deep learning frameworks such as TensorFlow, Caffe, MXNet; some papers published in related fields such as ICIP, ICCV, CVPR, ECCV, SIGGRAPH, etc. have more than 10 years of experience in cloud computing and cloud server management

◎ Familiar with Alibaba Cloud, AWS, Azure, GCP, etc .;

◎ Familiar with C / C ++ / Python / Java Familiar with computer network related knowledge, and have solid practical experience in crawler projects, crawler architecture tools such as scrapy, selenium, beautiful soup understand;

◎ Familiar with the Hadoop ecosystem and other big data technologies, such as Spark, HDFS, Hive, Impala, ElasticSearch, Cassandra, Kafka, etc. 10 years of experience in natural language processing (NLP) tools and components;

◎ Familiar with open source tools such as Hadoop, Spark, Caffe, Tensorflow, etc. Have practical development experience Proficient in Java / Python / C ++ Familiar with network programming, multi-threading, distributed (Hadoop / Hive / Storm) more than 10 years of practical experience.

◎ With financial risk control, Internet anti-cheat, image and text processing, precision marketing, recommendation system and other related product work experience, artificial intelligence and big data driverless, deep reinforcement learning, natural language processing text-based image synthesis The project will focus on artificial intelligence,

Big data and AR / VR, ADAS, mobile phones, robots, IOT, aerospace and other scientific and technological fields

◎ Artificial intelligence is driven by three major factors: data, algorithm and computing power. Through the massive data accumulated, supported by high-performance chips such as GPU,

Deep learning can mine the value of data, obtain algorithms that exceed human recognition accuracy, and then realize the commercial application of deep learning, so that artificial intelligence is no longer limited to academic research.

◎ 25 years of global leading companies in artificial intelligence, such as computer vision, machine learning, data mining, information retrieval, natural language processing, speech recognition / synthesis, machine learning, computer vision, natural language processing, machine translation, speech recognition / synthesis work experience;

◎ Proficient in programming languages, Java, C / C ++, C #, Python, etc .; in top computer science conferences and journals such as NIPS, ICML, COLT,

Published papers in CVPR, ICCV, ECCV, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ, etc.

◎ More than 10 years of experience in deep learning academic engineering projects. Familiar with artificial intelligence related algorithms and theories, especially neural networks, deep learning, reinforcement learning and transfer learning. Familiar with data analysis such as SAS, R, Python, Spark SQL, Spark ML Tools and language, with LR / GMM / SVM / CRF / MaxEnt / HMM / LDA / DNN / CNN / RNN research background;

◎ Proficient in CUDA programming, Python / Matlab / C ++ and other core technologies that use independent intellectual property rights such as deep learning architecture, machine vision, bio-intelligence recognition and other artificial intelligence algorithms, media-free payment and other core technologies. , AI chips, smart retail, smart cities, smart security, smart education, aerospace Japanese asteroids, military industry and other fields have in-depth layout, ranking the industry leader;

◎ Artificial intelligence is used in manufacturing (robot, optimization) transportation, biological health care, communication, machine learning simulation, edge equipment, network, high-performance computing, product development (general), product development (visual inspection solutions), human-computer interaction (HCI, HRI)

Important project experience

◎ Bio-healthcare industry-working with excellent teams such as Google, Microsoft, Tencent and Amazon, I work with Harvard Medical School Gene, Kyoto University Nobel Medical Gene iPS Stem Cell Team

2017/1 – present AlibabaGroup contract unit Haniuqiao Intelligent Technology Guolong Deputy General Manager CTO

Professor of computer vision, multimedia technology, machine learning, Tsinghua University. Integration with technological megatrends, leading analytical techniques are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI Reporter Sports Intelligent Driving AI Accounting Attorney AI Surgical Robot AI Interrogation Misdiagnosis No AI Robot Funeral VR AR 3D AI Crime Tracking AI Image Recognition. China Science and Technology Association, Jiangsu Province The first prize in the category A was won in the contest sponsored by the People's Government of Zhejiang Province. Great health industry: Biomedicine, medical equipment, smart medical care, health management, etc. won the first prize in category A.

The main research areas are computer vision, big data blockchain, and natural language processing. Chief Technical Expert of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) has developed a rugby game analysis system that combines deep learning, uses a camera to capture human movement, and measures the body of the AI ​​as it passes Posture and movement, AI guides 5G technology

◎ Familiar with C / C ++ and other languages, Matlab, Qt, ROS and other development tools, Linux or QNX development environment machine learning / data mining and other AI-related algorithm research and development; algorithm-related code library, tool library packaging and release; AI-related algorithms Performance optimization, engineering environment deployment; participate in building and implementing distributed deep learning clusters;

◎ Proficient in theoretical knowledge and practical skills related to machine learning; familiar with the use scenarios and methods of typical deep learning models such as CNN, RNN, LSTM, etc .;

◎ Familiar with many kinds of mainstream deep learning frameworks such as TensorFlow, Caffe, MXNet; has solid math and programming skills. Familiar with basic machine learning algorithms and understand the application model of machine learning in typical industries. Have development experience and be familiar with big data related knowledge;

◎ Familiar with the data flow and processing methods in the customer application system, with the ability to configure basic components such as the big data platform HD / Hbase / Hive. Ability to independently analyze customer needs, design solutions, and have complete project implementation experience;

◎ Good at communication, capable of coordinating and solving various problems encountered in teamwork and external cooperation, and responsible for the back-end development and maintenance of company-related business, products and services.

Important project experience

Participated in banking, healthcare, insurance, financial technology, manufacturing, retail, marketing, sports analysis and other projects

◎ The artificial intelligence (AI) of companies such as Takeda Pharmaceutical Industries, Fujifilm and Shiono Pharmaceuticals in Japan promotes new drug development projects

Medical DNA cell IPS artificial intelligence project-Osaka Hospital and other major hospitals in the United States have implemented IBM Watson artificial intelligence project involving the development of artificial intelligence, smart sensors, telescopes, detectors and medical equipment. Artificial intelligence will make our language become Mental health window; advanced image sensors will enable humans to prepare super vision; super magnifying glass will enable humans to understand the infinite details of the earth; all medical laboratory systems will be integrated into a single computer chip; intelligent sensors will detect environmental pollution at the speed of light.

◎ AI case Intel artificial intelligence project: Intel promotes its commitment to open source through optimized machine learning frameworks and libraries, and cooperates with Nervana system machine learning experts;

◎ American Google artificial intelligence project: language translation, visual processing, artificial intelligence development of ranking and prediction capabilities

◎ AI case Salesforce artificial intelligence project team: Salesforc uses artificial intelligence to help employees perform tasks more efficiently and simplify and accelerate their work efficiency;

◎ AI case Amazon Amazon ALexa artificial intelligence project and init artificial intelligence project:

Development of Amazon's artificial intelligence service robot Alexa, participating in deep learning based on the AWS cloud platform Amazon Sagemaker framework applied to financial software US INTUIT

◎ Also participated in the Kobe Daimaru Department of Artificial Intelligence project: successfully implemented Kobe Daimaru, Japan's first department store to introduce an AI customer service system. Daimaru Department Store in Motomachi, Kobe, Japan, hired two conversational AI girls "MOTOMAQI" in June this year, and provided special services during festivals such as Zhongyuan, Japan, and the end of the year, which specializes in giving gifts to family and friends.

◎ I also participated in the Dai Rong Supermarket, and some beauty shops in the cosmetics shop began to use "AI Sakura", because "she" can not only answer all the customers' questions in time, but also confirm everyone's age, muscle quality, skin color, questions Wait, and then find the products of the same customer group from the own database, and propose cosmetics suitable for different women.

◎ AI multi-element marking construction site project: The application of AI in the construction site reflects that it can use machine learning, voice and image recognition to automatically mark the photos and videos on the construction site to organize data and search. For example, AI can use deep learning to analyze images and voice to automatically tag construction data and proactively provide customers with safety measures. AI facilitates design, construction, and operation and maintenance. This is also in line with the life cycle of the building: design, construction, management.

◎ Ali project artificial intelligence chip software development, Japan AEON Group AI case, participation in Yoshinoya AI robot project, financial credit financing AI fraud prevention, repayment dunning AI system, Nomura Securities Consumer Finance core artificial intelligence project, supermarket anti-theft AI detection System, Japan Police Agency Face Recognition AI Catching Prisoner System, Japan AI Transportation System, Japan AI Parking Automatic System and ETC Automatic Billing System ETC Discount Billing System, Sports Training AI System, VR / AR System, HCI, HRI Systems, manufacturing IOT systems, visual inspection solutions, participating in Nomura Securities ’use of AI for the collection and analysis of various information, and the Ministry of Land, Infrastructure, Transport and Tourism using the AI ​​system for analysis. In order to alleviate the traffic congestion problems caused by tourism, Tokyo 2020 was successfully developed Hosted the Olympic AI customer service system.

Artificial intelligence, big data, cloud and other directions

◎ More than 10 years of work experience in big data model construction, familiar with neural networks, deep learning principles, and can use commonly used big data analysis platforms and tools (python, R, SAS); relevant work experience for Internet user data acquisition, for Internet data Professional research on risk control and modeling technology;

◎ Cloud technology big data blockchain is proficient in AI artificial intelligence, deep learning, machine learning methods and applications in the field of artificial intelligence; natural language processing automatic question and answer, man-machine dialogue system, sentiment analysis, social data mining technology expert experience more than 15 years;

1. Fully responsible for the project team construction, establish a united and efficient team, and stimulate the enthusiasm of the work (from 10 to 50 people) responsible for project progress, quality, cost range management and control, technical guidance and training;

2. Recognized by TOYODA customers and NTTDATA (excellent project team and outstanding project manager personal award);

3. Cooperation with MIT, Harvard, Tokyo University and other universities, Mitsubishi, NTTDATA Financial Research Institute, Bank of Japan financial institutions and government and other relevant institutions; responsible for the formation of a deep artificial intelligence theoretical foundation team;

4. Research direction: multimedia technology, computer vision, natural language learning, etc.

Important project experience

Unmanned aspect

1. 2012 / 08-present Toyota Japan's smart car autonomous driving technology and Japan's softbank artificial intelligence technology implementation project

2. Cooperate with NVIDIA's artificial intelligence (AI) chip autonomous driving team

3. Cooperate with the University of Cambridge Laboratory in the United Kingdom, Germany Mercedes-Benz Automotive Artificial Intelligence Project

4. Autonomous driving technology / R & D projects of Mazda Motor Company

5. Participate in the research and development of self-driving projects such as Baidu, Momenta, Tucson, etc.

6. Tianjin FAW Introduced Industrial Intelligence Project

7. Cooperate with IBM AI technical team to import Mitsubishi, Honda, Suzuki, etc.

8. The field of comprehensive control system development

◎ Electronic platform technology / development / design: vehicle electrical system development and architecture design, in-vehicle ECU hardware development (function / manufacturing requirement design)

◎ Infotainment · UI area / early product development: development of automotive infotainment system (new generation of automotive connection system field), etc.

◎ ADAS, vehicle field / early product development: vehicle safety control development, vehicle control ECU hardware, software development, etc.

◎ MBD support / operating system / development: simulation supports model-based automotive development (including HEV and EV), designing and developing operating systems, etc.

◎ Autonomous driving technology / R & D: image analysis, machine learning (DL / reinforcement learning), image and distance sensor signal processing, new map development

◎ Human-oriented research field / existing technology development: hypothesis construction of human characteristics, verification of experimental plans, construction of measurement methods, etc.

9. The field of powertrain development

◎ Inverter / control development of EV / PHEV: hydraulic control design / experimental research of next-generation automatic transmission

◎ Driving · Environmental performance / development: driving force control development and operation experiments / measurement work, etc.

◎ Engine · xEV / control development: design of engine electronic control system and control model or software / hardware development and design, etc.

10. Autonomous driving technology

◎ Familiar with car-level embedded architecture, familiar with artificial intelligence technologies such as pattern recognition, machine vision, deep learning, path search;

◎ Familiar with C / C ++, Python language, Matlab, Qt, ROS and other development tools, Linux or QNX development environment has the experience of automatic driving system product development as the main person in charge;

◎ Familiar with the type and accuracy requirements of high-precision map elements suitable for autonomous driving, master the algorithms of laser point cloud filtering, map feature extraction, map construction, etc. Familiar with C / C ++ and other languages, OpenCL, PCL and other development tools, Linux or QNX development environment Basic principles such as satellite navigation, differential positioning, inertial navigation, etc., skilled use of mainstream integrated navigation systems, mastering algorithms related to trajectory estimation of moving objects;

◎ Familiar with C / C ++ and other languages, Matlab, Qt, ROS and other development tools, Linux or QNX development;

◎ Responsible for the selection, deployment calibration and testing of the integrated navigation system at the vehicle and base stations, responsible for the data analysis of the integrated navigation system, the development and testing of vehicle trajectory estimation algorithms, navigation and positioning fusion algorithms, at least 12 years in the field of autonomous driving and ADAS Above work experience, have product development experience such as LKS, ACC;

◎ Familiar with the working mechanism of vehicle steering, driving, braking and suspension systems, master the common vehicle motion control algorithms such as preview tracking, PID, fuzzy control, MPC, etc., and can optimize the algorithm design according to the vehicle dynamics;

◎ Familiar with C / C ++ and other languages, Matlab, Prescan, CodeWarrior and other development tools are responsible for the development and testing of longitudinal and lateral motion control algorithms for autonomous vehicles;

2017/1-present CTO, Senior Technical Expert, AI Solutions

The first technical expert of artificial intelligence / machine learning solutions in the Chinese technical support team, as a technology leader to drive AI projects in the eastern and southern markets of China

• Provide technical support for pre-sales and after-sales of Edge and Data Center AI solutions.

• Proof of concept and target reference design and scheme optimization as needed

• Provide technical training on artificial intelligence solutions

• Bridge between customers and R & D department to speed up project implementation

• Cooperate with R & D department to improve artificial intelligence solutions (feedback, defect report, internal testing, etc.)

• Establish and maintain internal AI / ML server (Docker environment)

Senior Engineer of Product Application

• Is the only engineer in the global embedded tool method deployment team in China, responsible for the team's related work in China, including new technology promotion, training and technical support for key projects and key issues.

• Focus on providing customers with embedded products (FPGA SoC) solutions. Provide software tools, methods and technical solution design services (PoC) for customers and internal teams.

• Provide product technical feedback to the R & D team to help improve tools and product solutions.

• Creative work, through PoC design, off-site and on-site support, directly provide customers with a wide range of system-level issues to fill the technical gap between key project development and on-site team

• The scope covers the full software stack of xilinx embedded products, as well as hardware and software co-design with FPGA on SOC.

The key points of the project are listed as follows:

• Help Tier1 customers deploy Linux system solutions. Guide customers to migrate Xilinx Petalinux process to Yocto process. Clear key issues including uboot, linux, and rootfs, and reach customers' urgent project progress goals in a timely manner.

• Customize PS only Reset and PL overlay design.

• RT Linux deployment and performance evaluation on EVB.

• Completed the reference design of AMP system deployment based on Xen virtualization

• Successful deployment of OpenWRT and third-party USB WiFi on EVB.

• Performance evaluation and optimization of multiple network ports.

• Independent development of DPDK PMD (driver) design and test of custom DMA IP in smartNIC project based on arm platform is the first arm platform implementation within the company.

• Independently complete the transplantation of Linux customized applications to FreeRTOS.

• Completed technical training and support for multiple FPGA HLS acceleration solutions

• Assist local technical support team to complete FFmpeg, GStreamer, XfOpenCV & HLS technology pre-research and PoC implementation in multiple projects to accelerate the project landing.

• Creative use of Docker technology to complete the deployment of tools to customer environments

• Creative use of Docker technology to complete the deployment of the company's data center FPGA machine learning solution

Qualcomm Project Senior Linux Software Engineer

Participate in the development and maintenance of in-vehicle Linux / Android BSP

• Ethernet (MAC / PHY) module bring up and verify, drive and test program development, performance optimization.

• System network configuration based on systemd.

• Transplant Open-AVB stack and participate in AVB Demo development and AVB test environment construction.

• Development and maintenance of BSP upgrade mass production function modules.

• SPI NOR driver development of Uboot and Linux.

• Lead customer technology of a BSP project, assist customers to customize some functions (recovery, MTP, FM / RDS, etc.)

• Deploy LTP to BSP.

• Design and maintenance of mass production and upgrade and recovery solutions of BSP

• Assistance management Technical support for managing BSP

Semiconductor project (Linux driver engineer

• USB3.0 controller (xHCI) driver development and maintenance.

• Provide technical support (xHCI / ACPI) for Linux OS Vendor (Ubuntu / Suse / Redhat).

• Release Chipset driver and kernel RPM, DEB installation package.

• Submit xHCI / EHCI / ACPI related drivers to linux upstream

Huawei project linux driver engineer

Responsible for the development and maintenance of the linux driver and related application programs of the company's PCI & USB digital / analog TV card.

• Development and maintenance of linux driver for USB TV receiving card. The driver also supports multiple hardware solutions, covering analog and digital TV formats such as NTSC / PAL / ATSC / DTMB.

• Development and maintenance of linux driver for PCI TV receiving card. The driver also supports a variety of hardware solutions, covering analog and digital TV systems such as NTSC / ATSC. It also includes a sound card driver module based on ALSA architecture.

• I2C EVK (evaluation board) linux driver development and maintenance. This board is used to debug and verify the set-top box reference solution.

• Linux platform I2C Controller application development. This tool is used in conjunction with I2C EVK driver for real-time debugging and verification of its hardware. Responsible for QT development GUI and low-level interface for interaction with drivers.

linux software engineer

• Assist and participate in employee technical training, including Linux Device Driver & Kernel Training, Linux Kernel Training, QA Training, familiar with the company's software development documentation and quality control process.

-Modify Linux Task Scheduler

-Implement memory leak detection tool

• Develop AC97 linux sound driver based on ALSA architecture for PXA270 embedded development board.

Automotive Technology Project

Position: Senior Software Engineer

Job responsibilities:

 Responsible for Xiaopeng self-developed super charging pile (ARM + Linux) software architecture;

 Responsible for software development under the new architecture (basic library, driver layer, platform layer, application layer);

 Focused on the completion of the code writing of the basic library, driver layer and platform layer.

Guangdian Express Financial Project

Customer Profile: Guangdian Express is the world's leading provider of currency processing equipment and system solutions, and the largest in China

Largest ATM (Automated Teller Machine) product and system solution provider, the most powerful AFC

(Automatic ticket inspection system) Provider of equipment and core modules is also the most professional financial service provider in China

The contractor and the most powerful cash intelligent processing expert.

Position held: senior engineer / director (embedded software direction)

Job responsibilities:

 Responsible for the drive development and debugging of the hardware platform of the banknote recognition module and the development of the recognition scheduling process;

 New technology and new sensor drive to achieve debugging and data collection;

 I2C, SPI, UART, PCIE, GPIO, USB, Ethernet, camera, WIFI, FPGA, CIS, magnetic sensor, etc. Driver development and corresponding host computer test software development;

 ARM bare core and DSP platform hardware performance optimization work. 5. The drive software architecture and optimization of the hardware platform, UT and ST work.

HKUST Xunfei Project

Customer Profile: HKUST Xunfei Technology is a leading professional audio and video equipment provider. The company's independent research and development, production and sales

It sells professional audio-visual equipment mainly based on the front end of digital TV. Wired, wireless, satellite and other traditional electricity

Video and network companies provide one-stop end-to-end solutions, as well as new media such as OTT and IPTV

Service providers provide excellent system services.

Position: Senior Software Engineer

Job responsibilities:

 ARM Linux driver and uboot implementation of xilinx zynq platform;

 Complete the design of standard definition and high-definition video coding scheme based on Magnum coding chip, and design of multi-audio scheme;

 Complete all UT, ST, BBIT work in accordance with the IPD-CMM process, complete all code writing, UT / ST testing and joint debugging.

Huawei Technology Co., Ltd. Hangzhou Institute Project

Position held: software engineer

Job responsibilities:

 Independently complete Vxworks, Linux, DSP module driver, and module design documents to guide subsequent development and maintenance;

 Complete the coding and test case design of the module according to the IPD-CMM process;

 Complete UT, ST, BBIT work according to IPD-CMM process;

 Able to participate in difficult problems of the project and play a leading role in organizing and participating in special testing and code review.

Super charging pile software architecture + hardware platform development

Project Introduction: Charging pile architecture and development based on ARM + Linux platform.

Position: Senior Software Engineer

Job responsibilities:

 Design of layered architecture of charging pile software, output of software architecture documents, development of AICPU firmware system framework, computing channels, DFX research and development, commercial delivery;

 Coding of driver layer software (driving I2C, SPI, GPIO, USB, PWM, CAN, ADC, WIFI, 4G);

 Basic library coding work (tasks, timers, message queues, shared memory, application framework, configuration file analysis and other modules);

 Part of the software development work under the old architecture (network node selection, OTA upgrade, application guard, etc.).

work performance:

 Completed the layered architecture under the platform, with clear division of labor in each layer, which is convenient for subsequent expansion and maintenance;

 Completed the preparation of the basic library and hardware driver layer, and the adaptation of the platform layer;

 Defined the development framework and template implemented by each layer, and the subsequent new hardware drivers can be added according to the template implementation method, which makes it easier to iterate on new functions.

ARM platform banknote recognition module development

Project Introduction: Based on Altera Cyclone SOC, TI C6654 and Allwinner V5 ARM chip platform hardware driver and

Platform development.

Position: Head of Product Engineering Group

Job responsibilities:

 TI C6455 platform upgrade to ARM platform software verification work;

 Responsible for software evaluation, scheme verification and drive design of new sensors and hardware platforms;

 Completed the software development of the ARM platform (Cyclone SOC + TI C665 / Allwinner V5) chip hardware driver and recognition platform;

 Complete the customization, cutting and adaptation of preloader, Uboot, Linux Kernel;

 Responsible for docking with the algorithm department for function integration work;

 The software development of the new hardware platform is completed, and it is responsible for the small batch verification and mass production introduction of the new platform.

work performance:

 The unified architecture of the ARM recognition platform software has been promoted and used on 5 movements, which can reduce the cost by 20% compared with the original module. The new software architecture follows the layering principle, making it easy to port other hardware platforms later.

TI C6455 / OMAP138 platform banknote recognition module development

Project introduction: Based on TI C6455 / OMAP138 banknote recognition module software development.

Position: Senior Software Engineer

Job responsibilities:

 OMAP138 platform upgrade TI C6455 platform hardware driver adaptation work;

 Complete the driver development of DSP platform (DDR2, SPI, I2C, UART, ADC, FPGA, CIS);

 Hardware acquisition and correction of various sensor (CIS, thickness, magnetic) images;

 CACHE performance optimization and software normalization work;

 Compile image acquisition and other host computer testing tools.

work performance:

 Guaranteeed the development and maintenance of the banknote identification module of the company's largest circulation model; completed the software development and production introduction of the multi-spectral new identification platform; promoted the platform normalization work, and completed the normalization of each model code of the C6455 platform; A unified control protocol has been formulated, and all subsequent models share a set of control protocols for easy maintenance; an external standard API interface for test tools has been written for integration into tools of different models.

Development of high-definition encoding video board for ARM platform

Project introduction: Based on Zynq platform ARM Linux driver and uboot implementation, the application software

Now.

Position: Senior Software Engineer

Job responsibilities:

 Complete UBOOT boot guide;

 Complete peripheral bus driver adaptation (PCI, SPI, I2C, FLASH, DDR);

 Completed the application software of Micron encoding chip (HD, SD and Logo insertion).

work performance:

 High-quality completed the required functions according to the plan, innovatively designed the upgrade and production scheme of Logo insertion, and then used as a platform machine application scheme. In the project development, we used the IPD-CMM process experience of Huawei's previous project to actively design ST use cases and complete the test. After the test, there were few software problems, which were paid attention by the leadership and promoted in the project team.

Vxworks + Linux PowerPC BSP development

Project Brief: Based on Vxworks6.8 + WindRiver Linux, complete Freescale P304 and P1012

Hardware board BSP development.

Position: Huawei second-level software engineer

Job responsibilities:

 Complete the driver development of the narrowband access chips BRI, E1 / T1 and the narrowband switching module under Vxworks and Linux;

 Complete Vxworks boot loading and Linux boot process development;

 Complete development of peripheral drivers such as small systems (CPU, DDR, FLASH, network card, operating system), dual BIOS, USB, CF card, UART, SPI, I2C, USB, FLASH, etc .;

Complete DSP hardware driver development.

work performance:

 High-quality completion of the compilation and startup loading process, as well as the power-on startup debugging of the single board, the completion of the system's narrowband module design, after 2 versions, the module has been stabilized. During the development process, I mastered the Linux and Vxworks driver development and debugging methods, and developed a UT tool based on the shell to perform kernel module functions, and used it in the company's automated testing. As an MDE role, he is involved in the design of software systems. The DSP driver used by the voice media board is the Shannon DSP driver developed earlier. It instructed a colleague to maintain this part of the driver code and train a new employee, and successfully completed the regularization.

Ti multi-core DSP tms320c6678 development

Project Introduction: Based on the Ti BIOS operating system, the DSP driver and performance verification are implemented, and the DSP codec is completed

Evaluation of processing performance.

Position: Huawei first-class software engineer

Job responsibilities:

 Realize the module driver of DSP multi-core startup, clock, power supply, DDR3, narrowband access (TSIP), PCIE, HyperLink, network port, hardware RTP encryption;

 Realize the functional test of each module and meet the project acceptance standard.

work performance:

 Independently completed the project development, the new code is more than 10K, and the DSP is a new device in the company. The project results are used as company-level platform applications, supporting the commercialization of 4 hardware platforms.

DSP Media Gateway VOIP Development and Maintenance

Project Introduction: Develop a VOIP solution based on Ti DM648 chip + PowerPC to realize hardware for small and medium users

Platform; Maintain the original platform media gateway, the media gateway solution consists of: Ti DSP TMS32054X chip (implement DTMF, FSK, MFC, signal tone) + MNDSPEED MPC82610 chip (implement G711, G729, G723, RFC2833, RFC2198, T38 venue system) .

Position: Huawei Software Engineering

Job responsibilities:

 Completed the development plan of the voice media gateway DSP core scheduling in the development project, completed the DSP chip driver, PCI driver on PowerPC, DSP loading module, DSP aging and equipment module, and VOIP scheduling scheme on PowerPC;

 Mainly responsible for the maintenance of the platform and the development of new features in the maintenance project, timely locating online problems, quickly locating the root cause and giving solutions.

work performance:

 During the maintenance work, the difficult problems can be quickly resolved, the positioning efficiency is high, the problems are solved, and they have grown into technical backbones. At the same time, through maintenance, they are closer to users and more concerned about user needs, laying a good foundation for subsequent development work;

 In the development process, strictly follow the development process, complete the needs analysis and summary design, complete the coding and UT, ST work, and organize the code inspection in the work to ensure the development quality. At the same time, as the ability grows, as an interface person in the project, he is responsible for coordinating and solving problems with surrounding project teams.

Self-assessment

Strong linux system software development skills and wide technical scope. Extensive technical knowledge and experience from X86 to Arm/FPGA SoC embedded in difference application areas. Fast self-learning and quick hands-on to grasp new techniques and flexible application in different projects. Good presentation and coach/training skills in pre and post sales, seminar both in Mandarin and English. Be positive and energetic growing with the fast change world and keep eyes on new technical trend. Now I am taking the role to support CVM customers in China which is very expansive cross surveillance, IOT, automotive, etc.

Work Experience

2012-2017

2017/1 – Present Dr. Guolong The University of Cambridge Cambridge

2017/1 – Present Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/Chief Scientist, Top Research Institute, LCFI Labs, UK

2017/1 – Present AlibabaGroup contract unit HOC Intelligent Technology Guolong Deputy General Manager CTO

Professor of computer vision, multimedia technology, machine learning, Tsinghua University. Convergence with technology megatrends, leading analytics technologies are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI reporter sports intelligent driving AI accounting lawyer AI surgical robot AI interrogation misdiagnosed AI robot funeral VR AR 3D AI crime tracking AI image recognition. China Science and Technology Association, Jiangsu Province, Zhejiang Provincial People's Government hosted the contest and won the first prize in category A. Big health industry: Biomedicine, medical equipment, smart medicine, health management, etc. won first prize in category A.

His main research fields are computer vision, big data blockchain, and natural language processing. Chief Technology Specialist of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) Developed a rugby game analysis system that combines deep learning, shooting human movements with a camera, and measuring the body passing by AI Posture and movement, AI-guided 5G technology

He work closely with Prof. James Bailey. I have also visited National Institute of Informatics, Japan invited by Prof. Michael E. Houle, and RIKEN, Japan by Dr. Bo Han, Dr. Gang Niu and Prof. Masashi Sugiyama.

Research Interests:

  • Machine Learning

    • Secure/Robust/Explainable machine learning

    • Adversarial machine learning

    • Weakly supervised learning

    • Reinforcement learning

  • Deep Learning and Security

    • Adversarial attack/defense

    • Backdoor attack/defense

    • Generative adverarial networks

    • Applications: object recognition, image inpainting, object detection, video recognition, automatic speech recognition

  • Artifical Intelligence

    • Medical AI

    • Virtual reality surgery

Professional Activities:

  • PC Member:

    • ICML2020, IJCAI2020, ICLR2020, AAAI2020, KDD2019, NeurIPS2019.

  • Journal Reviewer:

    • Pattern Recognition

    • Journal of Clinical Medicine

    • Knowledge and Information Systems

    • IEEE Robotics and Automation Letters

    • IEEE Transactions on Industrial Informatics

    • IEEE Transactions on Knowledge and Data Engineering

    • IEEE Transactions on Neural Networks and Learning Systems

    • IEEE Transactions on Pattern Analysis and Machine Intelligence

    • ACM Transactions on Multimedia Computing Communications and Applications

  • Research Scientist in AI safety, DeepMind (2016-present)

· theoretical and experimental research on keeping advanced AI systems robust and beneficial

  • Software Engineering Intern, Google (2015)

· developed and implemented machine learning algorithms for the Knowledge Graph

  • Decision Support Engineering Intern, Google (2013)

· built statistical models of the impact of ads quality on click-through rate in R

  • Teaching Fellow in computer, Cambridge University (2012-2013)

  • Quantitative Analyst Intern, D.E.Shaw & Co (2012)

· developed and tested risk modeling algorithms using statistical and numerical optimization methods in Python

  • Summer Research Analyst in Computer Science, University of Toronto (2009)

  • Teaching Assistant in Mathematics, University of Toronto (2007-2011)

Service

Competitions

· highest ranking woman in the Putnam mathematics competition in North America

  • University of Toronto Putnam mathematics competition team (2016-2019)

· 3-person team consistently ranked in top 10 in North America

  • ACM programming competition team (2017-2018)

· 3-person team competed on the regional level in North America

References

· [1] Guolong et al. "3D convolutional neural networks for

· human action recognition." IEEE transactions on pattern

· analysis and machine intelligence 35.1 (2013): 221-231.

· [2] Guolong Ng, Joe, et al. "Beyond short snippets: Deep

· networks for video classification." Proceedings of the IEEE

· conference on computer vision and pattern recognition. 2015.

· [3] Guolong et al. "Temporal segment networks: towards

· good practices for deep action recognition." European

· Conference on Computer Vision. Springer International

· Publishing, 2016.

· [4] Guolong et al. “Large-scale video classification

· with convolutional neural networks.” Proceedings of the IEEE

· conference on computer vision and pattern recognition. 2014.

· [5] Guolong et al. “Multi-Stream Multi-Class Fusion of

· Deep Networks for Video Classification.” 2015

· [6] Guolong Seyed Morteza, et al. "Sports videos in the

· wild (SVW): A video dataset for sports analysis." Automatic

· Face and Gesture Recognition (FG), 2015 11th IEEE

· International Conference and Workshops on. Vol. 1. IEEE,

· 2015.

· [7] Guolong Reza Fuad, Keiichi Uchimura, and Gou Koutaki.

· "Combined Convolutional Neural Network for Event

· Recognition." Korea-Japan Joint Workshop on Frontiers of

· Computer Vision. 2016.

·

· [8] Guolong Christian et al. “Inception-v4, Inception-Resnet

· and the Impact of Residual Connections on Learning.” 2016

· [9] Guolong, Christian et al. “Going Deeper with

· Convolutions.” Proceedings of the IEEE conference on computer

· vision and pattern recognition. 2015.

· [10 Guolong et al. “Deep Residual Learning for Image

· Recognition.” 2015.

Key Projects:

2017/1 – Present huawei AI/ML Solution Specialist FAE

Be the first AI/ML Solution Specialist FAE in China Technical Support Team for Centra Vertical Marketing through quick transfer by self-learning. Engage with customer about Xilinx Edge to DC AI solution. Feedback to R&D to improve the solutions.

• Be the technical lead and drive all AI projects of south and east China market

• Provide technical support for pre-sales and post-sales for both Edge and DC AI solution.

• Do prove of concept and target reference designs

• Present technical training about AI solution

• Bridge between customer with R&D to access the project landing

• Co work with R&D to improve the AI solution (feedback, bug report, internal test, etc)

• Build and maintain internal AI/ML server (docker environment)

Projects:

Fabric Defect Detect Solution with CNN model (deployment, optimization for FPS)

Smart auto lighting with Lane detect and object detect model(platform creation, model pruning)

Smart Lida with object detect model (accuracy finetune)

2017/12 – 2018/12 huawei Sr. Product Application Engineer

Be the single member at China of global Tools of Embedded & Methodology Team. Focus on embedded solution engagement and software tools technology and methodology deployment and improvement. Provide technical support and customize design as required to customer and internal field support team. Provide technical training to help field support team growing. Gather feedback to R&D for production improvement. Creative work to fill the technical gaps between R&D with field team for key projects through PoC design, offsite&onsite support for extensive system level issue to customer directly. The scope covered full software stack of Xilinx embedded product and do software-hardware co-design on SoC with FPGA. The projects I worked cross communication to embedded computer version which leverage FPGA as accelerator with ARM SoC.

projects:

• Help Tier1 bring up linux system. Guide customer migrate Xilinx BSP flow to their Yocto flow. Clean up block issues of BSP accross uboot, linux, and rootfs. Success finished pass the bringup verification on tight schedule.

• Customized solution for PS only Reset and PL overlay

• RT linux solution estimation and benchmark

• OpenWRT deployment with 3rd part USB WiFi on Zynq

• Multiple ethernet interfaces performance optimization

• DPDK PMD development for customize DMA IP for smartNIC design target high throughput ahead R&D

• Application porting to FreeRTOS from Linux for a Top5 COM customer

• Help customers delpoy and optimize applications in HLS on FPGA through SDSoC for ADAS, surveillance products

• Estimation & PoC for different video solutions about FFmpeg, GStreamer, XfOpenCV&HLS which leverage VCU and FPGA. Seek solution for key system issue.

• Creatively deploy Xilinx tools by docker to customers' various environments ahead R&D

• Creatively deploy Xilinx FPGA accelerate card by Docker ahead R&D

• PoC of AMP(Linux/standalone) on Zynq MPSoC platform by XEN hypervisor

• Extensive technical training activities to customers and field team about Xilinx tools, solution, etc.

Qualcomm(and CSR) Linux Platform Software Engineer

Linux/Android BSP Development of Auto Platform

• Ethernet MAC&PHY verification during the SoC bring up

• Ethernet driver development and networking performance optimization

• FM chip driver development

• Development of Ethernet AVB(Audio Video Bridge) stack and EAVB Demo

• SPI NOR flash driver of uboot and MTD driver in linux

• BSP upgrade and recovery feature implementation

• LTP(Linux Test Project) customize and deployment

Linux/Android BSP Customer Support

• Lead AE support about BSP, include kernel and modules like Ethernet, USB/MTP, NOR flash, FM/RDS, etc.

• Customization design of production/recovery function

AMD SRDC

Linux Driver Engineer

• USB3.0 HCD(xHCI) driver development and maintain.

• Give technical support to Linux OS Vendor (Ubuntu/SuSe/Redhat) for xHCI/ACPI.

• Release RPM and DEB packages of chipset driver and kernel for Ubuntu/RedHat/CentOS/SuSe

• Do upstream patches about xHCI/EHCI/ACPI

Microtune Inc.

Linux Driver Engineer

Responsible for the development and maintenance of the linux PCI&USB driver of the

analog TV and digital TV receivers. Develop and maintain the debug application tools.

• Develop and maintain the linux driver for USB TV receivers. It support NTSC/PAL/ATSC/DTMB TV standard.

• Develop and maintain the linux driver for PCI TV receivers which support NTSC/ATSC TV standard. The whole driver includes one audio driver module in ALSA standard.

• Develop and maintain the linux driver for I2C evaluation board. It is used for debug the set-top box reference design.

• Develop and maintain the debug application on linux work with the drivers. The GUI is designed by using the QT SDK.

Augmentum Software Development (ShangHai) Inc. Linux Software Engineer

• Provide assistance to the trainer for the Linux Driver&Kernel Training and the QA Training

• Develop the AC97 audio driver of linux for PXA270 embedded development board.

Shanghai Research Center of Wireless Communication Embedded Software Engineer (Intern)

Take part in the development of WiMAX baseband equipment. The hardware implemented on the Vertex-II FPGA of Xilinx Co. The whole system realized the function of the MAC of 802.16D protocol. I was responsible for these works:

• Create software test projects for the WiMAX device to insure the hardware platform is working. It includes UART, RAM, DMA and NIC, etc.

• Xil-kernel RTOS and driver configuration and verification

• Application porting and optimization which realizes the high-MAC function of 802.16D.

• Develop checkout module for the data of the 802.16D by using VHDL to the IP core of the SoPC.

Industry Professional Technology College of ZheJiang Province Assistant Lecturer

• Delivering lessons on C programming, Principle of SCM, PLC, basic circuit analyze

• class management

PROFESSIONAL APPOINTMENTS

• SENIOR RESEARCH SCHOLAR (2017 - TODAY)

• FUTURE OF HUMANITY INSTITUTE, UNIVERSITY OF OXFORD

• RESEARCH AFFILIATE (2017 - TODAY)

• CENTER FOR THE GOVERNANCE OF AI, UNIVERSITY OF OXFORD

• AFFILIATE (2017 - TODAY)

• BLACK HOLE INITIATIVE, HARVARD UNIVERSITY

• ACADEMIC QUALIFICATIONS

• Computer Science , UNIVERSITY OF OXFORD (2012- 2017)

• ADVISORS: PROF. CHRISTOPHER TIMPSON AND PROF. HARVEY BROWN

• TOPIC: THE SCOPE OF THERMODYNAMICS

• MSC PHYSICS, FREIE UNIVERSITÄT BERLIN (2011 - 2013)

• ADVISOR: PROF. DR. JENS EISERT

• THESIS TITLE: SUPERACTIVATION OF GAUSSIAN QUANTUM CHANNELS

• BSC PHYSICS, FREIE UNIVERSITÄT BERLIN (2007 - 2011)

• THESIS ADVISOR: PROF. DR. JOACHIM HEBERLE

• THESIS TITLE: THERMOPHORESIS OF AUREOCHROME

AWARDS AND FELLOWSHIPS

• VISITING POSTDOCTORAL FELLOW, BLACK HOLE INITIATIVE, Cambridge UNIVERSITY (2017, 2018)

• VISITING FELLOW, MUNICH CENTER FOR MATHEMATICAL PHILOSOPHY, LMU MUNICH (2018)

• VICE CHANCELLOR'S FUND AWARD, UNIVERSITY OF OXFORD (2018)

• DOCTORAL SCHOLARSHIP AWARD, BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE (2014 - 2017)

• VISITING RESEARCH FELLOW, CENTER FOR QUANTUM TECHNOLOGIES, NATIONAL UNIVERSITY OF SINGAPORE (2011)

• SCHOLARSHIP, BEGABTENFÖRDERUNG, KONRAD ADENAUER STIFTUNG (2007 - 2013)

PUBLICATIONS

• C. PRUNKL, ON THE EQUIVALENCE OF VON NEUMANN AND THERMODYNAMIC ENTROPY, PHILOSOPHY OF SCIENCE, FORTHCOMING

• C. PRUNKL AND C. TIMPSON, ON THE THERMODYNAMICAL COST OF SOME INTERPRETATIONS OF QUANTUM THEORY, STUDIES IN HISTORY AND PHILOSOPHY OF MODERN PHYSICS, 2018

• C. PRUNKL, THE ROAD TO QUANTUM THERMODYNAMICS, FORTHCOMING IN QUANTUM FOUNDATIONS OF STATISTICAL MECHANICS, EDS. C. TIMPSON, D. BEDINGHAM, OUP 2019

• V.U. LUDWIG, C. STELZEL, C. PRUNKL, H. KRUTIAK, R. STEIMKE, L.M. PASCHKE, N. KATHMANN AND H. WALTER, IMPULSIVITY,SELF-CONTROL AND HYPNOTIC SUGGESTIBILITY. CONSCIOUSNESS AND COGNITION, 22(2):647-653, 2013

• POPULAR ARTICLES

• C. PRUNKL, ENDLICH UNENDLICH - AUF DER SUCHE NACH DEM EWIGEN LEBEN. SHIFT, 4:14-19, 2016

• C. PRUNKL, DAS SCHUMMELN DER LÄMMER - VON KLEINEN LÜGEN UND GROßEN KONSEQUENZEN, SHIFT, 1:42-46, 2013

MANUSCRIPTS

• C. PRUNKL AND C. TIMPSON, BLACK HOLE ENTROPY IS ENTROPY, 2016

• C. PRUNKL AND K. ROBERTSON, THERMODYNAMICS WITHOUT OBSERVERS, 2017

INVITED TALKS

• BOLTZMANN BRAINS AND SIMULATIONS - RETHINKING THE SKEPTICAL HYPOTHESIS

• PHILOSOPHY OF PHYSICS SEMINAR, UNIVERSITÄT BONN, 2019

• THERMODYNAMIK UND SCHWARZE LÖCHER - EIN EXKURS

• 1. DPG WOCHENENDSEMINAR ZUR PHILOSOPHIE DER PHYSIK, UNIVERSITÄT BONN, 2018

• THE ROLE OF INFORMATION IN BLACK HOLE THERMODYNAMICS

• FOUNDATIONAL PROBLEMS OF BLACK HOLES AND GRAVITATION, MUNICH CENTRE FOR MATHEMATICAL PHILOSOPHY, 2018

• RESOURCE THEORIES AND AXIOMATIC THERMODYNAMICS

• PHILOSOPHY OF PHYSICS CONFERENCE, UNIVERSITY OF WESTERN ONTARIO, 2018

• BLACK HOLE ENTROPY, HOW MUCH INFORMATION DO WE NEED?

• SIGMA CLUB, LONDON SCHOOL OF ECONOMICS, 2018

• PHILOSOPHY OF PHYSICS SEMINAR, UNIVERSITY OF OXFORD, 2018

• THE BLACK HOLE INITIATIVE COLLOQUIUM, HARVARD UNIVERSITY, 2017

• ON THE THERMODYNAMICAL COST ASSOCIATED WITH SOME QUANTUM INTERPRETATIONS.

• LEUVEN-BUENOS AIRES WORKSHOP ON THE PHILOSOPHY OF PHYSICS, UNIVERSITY OF LEUVEN, 2016

CONFERENCE TALKS

• BLACK HOLES AND INFORMATION

• EUROPEAN PHILOSOPHY OF SCIENCE ASSOCIATION, GENEVA 2019

• SYMPOSIUM ON BLACK HOLES: ENTROPY AND SYSTEM SIZE

• BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE ANNUAL CONFERENCE, OXFORD 2018

• THERMODYNAMICS WITHOUT OBSERVERS?

• CONFERENCE ON THE SECOND LAW OF THERMODYNAMICS, LMU MÜNCHEN, 2017

• BLACK HOLE ENTROPY IS ENTROPY (AND NOT INFORMATION)

• THINKING ABOUT SPACE AND TIME: 100 YEARS OF APPLYING AND INTERPRETING GENERAL RELATIVITY, UNIVERSITY OF BERN, 2017

• 5TH INTERNATIONAL SUMMER SCHOOL IN PHILOSOPHY OF PHYSICS, SAIG, 2017

• A TALE OF TWO ENTROPIES - DEFENDING THE VON NEUMANN ENTROPY.

• PHILOSOPHY OF SCIENCE ASSOCIATION BIENNIAL MEETING, ATLANTA, 2016

• ARE SOME QUANTUM INTERPRETATIONS HOTTER THAN OTHERS?

• BRITISH SOCIETY FOR THE PHILOSOPHY OF SCIENCE ANNUAL CONFERENCE, CARDIFF, 2016

TEACHING

• GOVERNANCE OF AI, UNIVERSITY OF OXFORD, 2019

• ADVANCED PHILOSOPHY OF PHYSICS, UNIVERSITY OF OXFORD, 2019

• THE ETHICS OF AI, OXFORD AI SOCIETY, UNIVERSITY OF OXFORD, 2019

• INTRODUCTION TO LOGIC, TEACHING ASSISTANT, UNIVERSITY OF OXFORD, 2017

• PHILOSOPHY OF SCIENCE, TUTOR, UNIVERSITY OF OXFORD, 2015

• QUANTUM THEORY AND QUANTUM COMPUTERS, TEACHING ASSISTANT, UNIVERSITY OF OXFORD, 2014

• OTHER ENGAGEMENTS

• EXPERT ON GOVERNANCE OF AI

• UK 2070 COMMISSION

• EXPERT PANELIST, MENTOR

• A.I. IMPACT WEEKEND AT THE OXFORD FOUNDRY, 8.-10.2.2019

Skills

Core & Strong

Fast learning and rich and proven experience of development about linux kernel and drivers on both X86 and ARM.

Know well about PCI/USB/Ethernet/I2C/ACPI/SPI/NOR driver framework(V4L, ALSA, etc) and hardware.

Developer of DNNDK PMD

Practice experience Docker XEN, KVM

C/C++/Python/Shell/Gdb/Git

U-boot/FreeRTOS

Yocto/Buildroot

Xilinx tools(Vivado/SDK/SDSoC/Petalinux/DNNDK/xfDNN)

Extension & Entry

Caffe/Tensorflow/Keras/Pytorch

QT/ FFMpeg / GStreamer / OpenCV

FPGA HLS programming and IPI design

Projects in Github

https://github.com/guolong70

Certification

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Sololearn C++ Tutorial

https://www.sololearn.com/Certificate/1051-4977647/pdf/

Certification

 Solution Consultant mySAP Basis workbench Certification (PA)

 Solution Consultant mySAP MM Certification (PA)

 Consultant Solution mySAP FI/CO Certification (PA)

 Project Management Professional(PMP)

 mySAP BI - Business Information Warehouse

 SAP NetWeaver 2005 - Business Intelligence

 CISCO CCIE

 Oracle 10g Certified Master – 2005

 Microsoft MCSE MCSD

 Oracle ACE – 2006

 Sales Cloud Consultant (saleforceCertification )

 MCSA: Windows Server 2012, MCSA: SQL Server 2012, Server Virtualization with Windows Server Hyper-V and System Center, Amazon Web Services (AWS)

 MCS: Developing Microsoft Azure Solutions, MCS: Implementing Microsoft Azure Infrastructure, MCS: Architecting Microsoft Azure Solutions

 Google Cloud Platform (GCP)

 SAPHANA

 CFP

 MCSA MCSE:sharepoint, MCSD:sharepoint applicat

Certification

• Natural Language Processing in TensorFlow

Coursera certification ID: XN4NLC23X72Q

• Convolutional Neural Networks in TensorFlow

Coursera certification ID: TQK4KY73A54V

• Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

Coursera certification ID: D45T4MRC696R

• Sololearn Python3 Tutorial Course

https://www.sololearn.com/Certificate/1073-4977647/pdf/

• Nvidia DLI - Fundamentals of Deep Learning for Computer Vision

https://courses.nvidia.com/certificates/e2de94c95d074a5ba3c70aca45856800

Homepage

English homepage (English): [@GoogleSite] [@GoogleScholar]

Chinese homepage (Chinese): [@VIPL] [@MIRACLE] [@ ICT, CAS] [@UCAS]

https://scholar.google.co.uk/citations?user=nii0-jgAAAAJ&hl=en https://sites.google.com/view/guolong95721/guolong

Summary of the report:

Research on multi-view clustering problem: matrix norm regularization multi-modal clustering algorithm is proposed to reduce redundancy and enhance diversity; missing multi-modal classification and clustering algorithms are proposed to solve Learning problems such as classification and clustering; noise multi-modal classification and clustering algorithms are proposed to solve classification and clustering learning problems with noise modalities.

Report title: Missing Multi-view Clustering Algorithm and Its Application Research

Summary of the report:

Multi-view learning (multi-view learning) is an important technology that uses multi-source information. The multi-source and heterogeneous characteristics make the association between different views complex and difficult to predict, and even domain experts are difficult to effectively use in the face of complex multi-source information. The core problem of multi-view learning is how to use the consistency and complementarity between different views collaboratively to accurately discover the internal patterns of data to improve the effectiveness of data analysis. The report studies the basic problems in multi-view learning. On the one hand, it explores the limitations of traditional models for multi-view consistency and complementarity; on the other hand, it further proposes that multi-view represents the completeness of learning and solves the completeness of multi-view fusion Coding problem.

Summary of the report:

The most important way for humans to express their emotions is through nonverbal behaviors such as facial expressions. A micro-expression is a spontaneous human facial expression with a very short duration. It often reflects the true emotions people want to hide, so it is not easy to fake. Therefore, the automatic detection and recognition of these fleeting information has broad application prospects in many fields such as security, medical treatment, and commerce. The reporter has conducted years of research in the direction of automatic micro-expression analysis. This report will briefly report on its main work in related areas, including (1) micro-expression video preprocessing and recognition framework, (2) deep learning-based micro-expression detection and recognition algorithm, (3), use of multi-modality. Attempts to solve small sample problems across data sets, etc.

Report title: Intelligent Micro-Emotional Analysis: Challenges and Trends

Summary of the report:

Google image recognition software misidentifies black people as orangutans. Amazon facial recognition software has twice the error rate of black people as white people. Tesla Autopilot's misrecognition has caused many unexplained accidents. Where do the recognition deviations of these vision systems come from? The performance of the recognition system is mainly determined by the quantity and quality of the training data. Data deviations such as label noise, unbalanced categories, and feature noise seriously affect the actual performance of the system. How to reduce the deviation of the collected data, and how to effectively learn the model under the condition of the deviation data, is an urgent problem to be solved in the field of computer vision. This report uses the commonly used face recognition and expression analysis as the application. It reports the research team's recent large-scale data automatic cleaning, crowdsourcing expression tag estimation and database, training methods for long-tail data and confrontation samples, racial deviation evaluation and debiasing. Algorithms and other work.

Report title: Data Bias in Visual Recognition

Summary of the report:

Visual content collection and processing occupies a dominant position in information acquisition. However, the traditional camera adopts the photocurrent integration mode, and it needs to be sampled twice in space and amplitude, which makes it have high thresholds for A / D sampling technology, large data volume, and complex systems. This leads to image processing, target recognition, Especially for the discovery of moving targets, the cost is extremely high, the power consumption is large, and it is difficult to generate intelligence in time. Changing the way in which information is collected is the key. Inspired by the mechanism of biological visual imaging, a bionic dynamic imaging chip is proposed to express visual information with pulse changes. The chip has the characteristics of concise system, sensitivity to moving targets, large imaging dynamic range, low data rate, and low system power consumption. In addition, for the pulse events output by the bionic chip, a new denoising, detection, and recognition algorithm was developed to integrate imaging and cognition.

Report title: Bionic Dynamic Imaging System Design and Data Acquisition

Report title: Beyond Face Recognition: Remote Physiological Signal Sensing

Report title: Adversarial Training for Deep Learning: A Framework for Improving Robustness, Generalization and Interpretability

Summary of the report:

Deep learning has achieved tremendous success in various application areas. Unfortunately, recent works show that an adversary is able to fool the deep learning models into producing incorrect predictions by manipulating the inputs maliciously. The corresponding manipulated samples are called adversarial examples. This robustness issue dramatically hinders the deployment of deep learning, particularly in safety-critical scenarios.

In this talk, I will introduce various approaches for how to construct adversarial examples. Then I will present a framework, named as adversarial training, for improving robustness of deep networks to defense the adversarial examples. Several proposed approaches will be introduced for improving and accelerating adversarial training from perspective of Bayesian inference and optimal control theory. We also discover that adversarial training could help to enhance the interpretability of CNNs. Moreover, I will show that the introduced adversarial learning framework can be extended as an effective regularization strategy to improve the generalization in semi-supervised learning.

Summary of the report:

The discovery of adversarial examples (attacks) has raised deep concerns on the security and reliability of machine learning models in safety-crucial applications. This has motivated a body of work on developing either new attacks to explore the adversarial vulnerability of machine learning models, or effective defenses to train robust models against adversarial attacks. In this seminar, I will introduce three of our recent works in this "arms race" between adversarial attack and defense: 1) a new SOTA defense method: Misclassification Aware adveRsarial Training (MART); 2) a new attack method Skip Gradient Method (SGM) to craft highly transferable attacks via manipulating the skip connections of ResNets; and 3) a new framework Adversarial Camouflage (AdvCam) to camouflage adversarial attacks into stealthy natural styles in the physical world.

Summary of the report:

In recent years face analysis and recognition technologies have obtained repaid development and are becoming mature in many areas. For example, face recognition technologies are now being widely in our daily life including access control, person authentication, smartphone unlock, video surveillance, etc. While the uniqueness characteristic of face has being deeply exploited, face can convey more information beyond identity, like expression / emotion, attribute, and even physiological signals (eg, heart rate and respiration rate). This talk will introduce the development of remote physiological signal sensing methods, covering a brief review of milestone of this area, representative methods, databases and measures, as well our thoughts and efforts in resolving the challenges in this problem.

Report title: Feature representation in person Re-identification

Report title: Thoughts about Object Re-identification and Beyond

Report summary: The re-identification problem has been studied extensively studied in the past few years, and performance on some public datasets is close to saturation. In this talk, I will discuss some new perspectives that might be useful for the community. First, I will present our work connecting re-identification and multi-object tracking, through discussing the underlying differences between the two tasks. Second, I will discuss the use of synthetic data in re-identification and its potential applications in the broader computer vision community.

Summary of the report:

Deep neural networks (DNNs) have developed rapidly and achieved remarkable success in many artificial intelligence (AI) applica tions, such as image understanding, speech recognition and natural language processing, which have been one of the research focuses in AI. However, with the high performance improvement of DNNs, the networks have become deeper and wider, which significantly increases the number of parameters and computation complexity. How to compress and accelerate these large DNNs has received ever-increasing focus from both academic and industrial research. Aiming at the problem of parameter redundancy in DNNs, this talk presents general methods of low-rank decomposition, parameter pruning and knowledge distillation for DNNs compression and acceleration, especially for convolutional neural networks (CNNs) compression and acceleration.

references:

[1] Guolong, Ming-Zher Poh, Daniel J. McDuff, and Rosalind W. Picard, "Non-contact, automated cardiac pulse measurements using video imaging and blind source separation.," Opt. Express 18, 10762-10774 (2010 ).

[2] Guolong, Xiaobai Li, Jie Chen, Guoying Zhao, Matti Pietikainen; Remote Heart Rate Measurement From Face Videos Under Realistic Situations. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 4264-4271.

[3] Guolong, Xuesong Niu, Shiguang Shan, Hu Han, and Xilin Chen. RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation, IEEE Transactions on Image Processing (T-IP), vol. 29 . no. 1, pp. 2409-2423, Dec. 2020.

[4] Guolong, Xuesong Niu, Xingyuan Zhao, Hu Han, Abhijit Das, Antitza Dantcheva, Shiguang Shan, and Xilin Chen. Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention. In Proc. 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG), pp. 1-8, Lille, France, May 14-18, 2019. (Best Poster Award)

[5] Guolong, Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. VIPL-HR: A Multi-modal Database for Pulse Estimation from Less-constrained Face Video. In Proc. 14th Asian Conference on Computer Vision (ACCV), pp. 562-576, Perth, Australia, Dec. 2-6, 2018.

[6] Guolong, Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. SynRhythm: Learning a Deep Heart Rate Estimator from General to Specific. In Proc. 24th International Conference on Pattern Recognition (ICPR), pp. 3580-3585, Beijing, China, Aug. 20-24, 2018.

references:

[1] Guolong, X. Li, X. Hong, A. Moilanen, X. Huang, T. Pfister, G. Zhao, M. Pietikäinen. Towards Reading Hidden Emotions: A Comparative Study of Spontaneous Micro-expression Spotting and Recognition Methods . IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 563-577, IEEE TAFFC, 2018.

[2] Guolong, Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao. Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions. IEEE Transactions on Multimedia, Vol. 22, No. 3, pp . 626-640, IEEE TMM, 2019.

[3] Guolong, X. Hong; W. Peng; M. Harandi; Z. Zhou; M. Pietikäinen, and G. Zhao. Characterizing Subtle Facial Movements via Riemannian Manifold. ACM Transactions on Multimedia Computing Communications and Applications, Vol. 15 , No. 3s, pp. 1-24, ACM TOMM, 2019.

references:

[1] Guolong, Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, "Cross Attention Network for Few-shot Classification," The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019.

[2] Guolong, Xinqian Gu, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen, "Temporal Knowledge Propagation for Image-to-Video Person Re-identification," IEEE International Conference on Computer Vision (ICCV), 2019.

[3] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “Interaction-and-Aggregation Network for Person Re-identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019 .

[4] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “VRSTC: Occlusion-Free Video Person Re-Identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

references:

[1] Guolong, Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu. Recent Advances in Efficient Computation of Deep Convolutional Neural Networks. Frontiers of Information Technology & Electronic Engineering (FITEE), Vol.19, No.1, pp.64-77, 2018.

[2] Guolong, Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng. Quantized Convolutional Neural Networks for Mobile Devices. CVPR 2016.

[3] Guolong, Peisong Wang, Jian Cheng. Fixed-point Factorized Networks. CVPR 2017.

[4] Guolong, Xiangyu He, Jian Cheng. Learning Compression from Limited Unlabeled Data. ECCV 2018.

[5] Guolong, Gang Li, Fanrong Li, Tianli Zhao, Jian Cheng. Block Convolution: Towards Memory-Efficient Inference of Large-Scale CNNs on FPGA. DATE 2018.

references:

[1] Guolong, S. Lin, R. Ji, C. Chen, D. Tao, and J. Luo. Holistic cnn compression via low-rank decomposition with knowledge transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

[2] Guolong, S. Lin, R. Ji, C. Yan, B. Zhang, L. Cao, Q. Ye, F. Huang, and D. Doermann . Towards optimal structured cnn pruning via generative adversarial learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019.

[3] Guolong, S. Lin, R. Ji, X. Guo, and X. Li. Towards convolutional neural networks compression via global error reconstruction. In International Joint Conference on Arti fi cial Intelligence, pages 1753–1759, 2016.

[4] Guolong, S. Lin, R. Ji, Y. Li, C. Deng, and X. Li. Toward compact convnets via structure-sparsity regularized fi lter pruning. IEEE transactions on neural networks and learning systems, 2019.

[5] Guolong, S. Lin, R. Ji, Y. Li, Y. Wu, F. Huang, and B. Zhang. Accelerating convolutional networks via global & dynamic fi lter pruning. In International Joint Conference on Arti fi cial Intelligence, 2018.

references:

[1] Guolong, C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao and D. Xu, Generalized Latent Multi-View Subspace Clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence ( IEEE T-PAMI), 2018.

[2] Guolong, C. Zhang, Z. Han, Y. Cui, H. Fu, T. Zhou, Q. Hu, CPM-Nets: Cross Partial Multi-View Networks, Neural Information Processing Systems (NIPS, Spotlight), 2019.

[3] Guolong, C. Zhang, Y. Liu, H. Fu, AE ^ 2-Nets: Autoencoder in Autoencoder Networks, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Oral), 2019.

[4] Guolong, C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, Latent Multi-view Subspace Clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Spotlight), 2017.

[5] C. Zhang, H. Fu, S. Liu, G. Liu, X. Cao, Low-Rank Tensor Constrained Multiview Subspace Clustering, IEEE International Conference on Computer Vision (ICCV), 2015.

references:

[1] Guolong, Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang. Locality aware appearance metric for multi-target multi-camera tracking. Arxiv 2019.

[2] Guolong, Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang, Towards real-time multi-object tracking. Arxiv 2019.

[3] Guolong, Xiaoxiao Sun, Liang Zheng, Dissecting person re-identification from the viewpoint of viewpoint. CVPR 2019.

[4] Guolong, Yue Yao, Liang Zheng, Xiaodong Yang, Milind Naphade, Tom Gedeon, Simulating Content Consistent Vehicle Datasets with Attribute Descent. Arxiv 2019.

references:

[1] Guolong, Yisen Wang, Difan Zou, Jinfeng Yi, James Bailey, Xingjun Ma and Quanquan Gu. "Improving Adversarial Robustness Requires Revisiting Misclassified Examples", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa, Ethiopia, 2020.

[2] Guolong, Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey and Xingjun Ma. "Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets", In Proc. International Conference on Learning Representations (ICLR'2020 ), Addis Ababa, Ethiopia, 2020.

[3] Guolong, Ranjie Duan, Xingjun Ma, Yisen Wang, James Bailey, Kai Qin, Yun Yang. "Adversarial Camouflage: Hiding Adversarial Examples with Natural Styles," in Proc. IEEE / CVF Conf. On Computer Vision and Pattern Recognition ( CVPR'2020), Seattle, Washington, 2020.

references:

[1] Guolong, Dinghuai Zhang *, Tianyuan Zhang *, Yiping Lu *, Zhanxing Zhu and Bin Dong. You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle. 33rd Annual Conference on Neural Information Processing Systems. [NeurIPS 2019]

[2] Guolong, Tianyuan Zhang, Zhanxing Zhu. Interpreting Adversarial Trained Convolutional Neural Networks. 36th International Conference on Machine Learning. [ICML 2019]

[3] Guolong, Bing Yu *, Jingfeng Wu *, Jinwen Ma and Zhanxing Zhu. Tangent-Normal Adversarial Regularization for Semi-supervised Learning. The 30th IEEE Conference on Computer Vision and Pattern Recognition. [CVPR 2019] (Oral)

[4] Guolong, Nanyang Ye, Zhanxing Zhu. Bayesian Adversarial Learning. 32nd Annual Conference on Neural Information Processing Systems. [NeurIPS 2018]

references:

[1] Guolong,Ming-Zher Poh, Daniel J. McDuff, and Rosalind W. Picard, "Non-contact, automated cardiac pulse measurements using video imaging and blind source separation.," Opt. Express 18, 10762-10774 (2010).

[2] Guolong,Xiaobai Li, Jie Chen, Guoying Zhao, Matti Pietikainen; Remote Heart Rate Measurement From Face Videos Under Realistic Situations. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 4264-4271.

[3] Guolong, Xuesong Niu, Shiguang Shan, Hu Han, and Xilin Chen. RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation, IEEE Transactions on Image Processing (T-IP), vol. 29. no. 1, pp. 2409-2423, Dec. 2020.

[4] Guolong,Xuesong Niu, Xingyuan Zhao, Hu Han, Abhijit Das, Antitza Dantcheva, Shiguang Shan, and Xilin Chen. Robust Remote Heart Rate Estimation from Face Utilizing Spatial-temporal Attention. in Proc. 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG), pp. 1-8, Lille, France, May 14-18, 2019. (Best Poster Award)

[5] Guolong,Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. VIPL-HR: A Multi-modal Database for Pulse Estimation from Less-constrained Face Video. in Proc. 14th Asian Conference on Computer Vision (ACCV), pp. 562-576, Perth, Australia, Dec. 2-6, 2018.

[6] Guolong,Xuesong Niu, Hu Han, Shiguang Shan, and Xilin Chen. SynRhythm: Learning a Deep Heart Rate Estimator from General to Specific. in Proc. 24th International Conference on Pattern Recognition (ICPR), pp. 3580-3585, Beijing, China, Aug. 20-24, 2018.

references:

[1] Guolong,X. Li, X. Hong, A. Moilanen, X. Huang, T. Pfister, G. Zhao, M. Pietikäinen. Towards Reading Hidden Emotions: A Comparative Study of Spontaneous Micro-expression Spotting and Recognition Methods. IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 563-577, IEEE TAFFC, 2018.

[2] Guolong,Z. Xia; X. Hong; X. Gao; X. Feng; G. Zhao. Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions. IEEE Transactions on Multimedia, Vol. 22, No. 3, pp. 626-640, IEEE TMM, 2019.

[3] Guolong,X. Hong; W. Peng; M. Harandi; Z. Zhou; M. Pietikäinen, and G. Zhao. Characterizing Subtle Facial Movements via Riemannian Manifold. ACM Transactions on Multimedia Computing Communications and Applications, Vol. 15, No. 3s, pp. 1-24, ACM TOMM, 2019.

references:

[1] Guolong,Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, "Cross Attention Network for Few-shot Classification, "The Thirty-third Annual Conference on Neural Information Processing Systems (NeurIPS), 2019.

[2] Guolong, Xinqian Gu, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen, "Temporal Knowledge Propagation for Image-to-Video Person Re-identification," IEEE International Conference on Computer Vision (ICCV), 2019.

[3] Guolong,Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “Interaction-and-Aggregation Network for Person Re-identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[4] Guolong, Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen, “VRSTC: Occlusion-Free Video Person Re-Identification,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

references:

[1] Guolong,Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu. Recent Advances in Efficient Computation of Deep Convolutional Neural Networks. Frontiers of Information Technology & Electronic Engineering (FITEE), Vol.19, No.1, pp.64-77, 2018.

[2] Guolong, Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng. Quantized Convolutional Neural Networks for Mobile Devices. CVPR 2016.

[3] Guolong,Peisong Wang, Jian Cheng. Fixed-point Factorized Networks. CVPR 2017.

[4] Guolong,Xiangyu He, Jian Cheng. Learning Compression from Limited Unlabeled Data. ECCV 2018.

[5] Guolong,Gang Li, Fanrong Li, Tianli Zhao, Jian Cheng. Block Convolution: Towards Memory-Efficient Inference of Large-Scale CNNs on FPGA. DATE 2018.

references:

[1] Guolong,S. Lin, R. Ji, C. Chen, D. Tao, and J. Luo. Holistic cnn compression via low-rank decomposition with knowledge transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.

[2] Guolong,S. Lin, R. Ji, C. Yan, B. Zhang, L. Cao, Q. Ye, F. Huang, and D. Doermann. Towards optimal structured cnn pruning via generative adversarial learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019.

[3] Guolong,S. Lin, R. Ji, X. Guo, and X. Li. Towards convolutional neural networks compression via global error reconstruction. In International Joint Conference on Artificial Intelligence, pages 1753–1759, 2016.

[4] Guolong, S. Lin, R. Ji, Y. Li, C. Deng, and X. Li. Toward compact convnets via structure-sparsity regularized filter pruning. IEEE transactions on neural networks and learning systems, 2019.

[5] Guolong,S. Lin, R. Ji, Y. Li, Y. Wu, F. Huang, and B. Zhang. Accelerating convolutional networks via global & dynamic filter pruning. In International Joint Conference on Artificial Intelligence, 2018.

references:

[1] Guolong,C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao and D. Xu, Generalized Latent Multi-View Subspace Clustering, IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2018.

[2] Guolong,C. Zhang, Z. Han, Y. Cui, H. Fu, T. Zhou, Q. Hu, CPM-Nets: Cross Partial Multi-View Networks, Neural Information Processing Systems (NIPS, Spotlight), 2019.

[3] Guolong,C. Zhang, Y. Liu, H. Fu, AE^2-Nets: Autoencoder in Autoencoder Networks, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Oral), 2019.

[4] Guolong,C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, Latent Multi-view Subspace Clustering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Spotlight), 2017.

[5] Guolong,C. Zhang, H. Fu, S. Liu, G. Liu, X. Cao, Low-Rank Tensor Constrained Multiview Subspace Clustering, IEEE International Conference on Computer Vision (ICCV), 2015.

references:

[1] Guolong,Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang. Locality aware appearance metric for multi-target multi-camera tracking. Arxiv 2019.

[2] Guolong, Zhongdao Wang, Liang Zheng, Yixuan Liu, Shengjin Wang, Towards real-time multi-object tracking. Arxiv 2019.

[3] Guolong,Xiaoxiao Sun, Liang Zheng, Dissecting person re-identification from the viewpoint of viewpoint. CVPR 2019.

[4] Guolong,Yue Yao, Liang Zheng, Xiaodong Yang, Milind Naphade, Tom Gedeon, Simulating Content Consistent Vehicle Datasets with Attribute Descent. Arxiv 2019.

references:

[1] Guolong,Yisen Wang, Difan Zou, Jinfeng Yi, James Bailey, Xingjun Ma and Quanquan Gu. "Improving Adversarial Robustness Requires Revisiting Misclassified Examples", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[2] Guolong,Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey and Xingjun Ma. "Skip Connections Matter: On the Transferability of Adversarial Examples Generated with ResNets", In Proc. International Conference on Learning Representations (ICLR'2020), Addis Ababa,Ethiopia, 2020.

[3] Guolong, Ranjie Duan, Xingjun Ma, Yisen Wang, James Bailey, Kai Qin, Yun Yang. "Adversarial Camouflage: Hiding Adversarial Examples with Natural Styles," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR'2020), Seattle, Washington, 2020.

references:

[1] Guolong,Dinghuai Zhang*, Tianyuan Zhang*, Yiping Lu*, Zhanxing Zhu and Bin Dong. You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle. 33rd Annual Conference on Neural Information Processing Systems.[NeurIPS 2019]

[2] Guolong,Tianyuan Zhang, Zhanxing Zhu. Interpreting Adversarial Trained Convolutional Neural Networks. 36th International Conference on Machine Learning. [ICML 2019]

[3] Guolong,Bing Yu*, Jingfeng Wu*, Jinwen Ma and Zhanxing Zhu. Tangent-Normal Adversarial Regularization for Semi-supervised Learning. The 30th IEEE Conference on Computer Vision and Pattern Recognition. [CVPR 2019] (Oral)

[4] Guolong, Nanyang Ye, Zhanxing Zhu. Bayesian Adversarial Learning. 32nd Annual Conference on Neural Information Processing Systems. [NeurIPS 2018]

国龙简历

剑桥大学计算机科学博士牛津大学教授 NTT北美研究室长

ERP咨询,云技术,大数据,区块链,人工智能专家

10年的工作经验

电子邮件1500467240@qq.com

国龙,1995年7月生,中国科学院研究员,JSAI人工智能学会正式会员,IEEE会员,SIGIR 会员CAAI中国人工智能学会会员,AAA1国际人工智能学会会员。英国人工智能中国ACM专员ACM的成员CAAI中英人工智能协会China-Britain Artificial Intelligence Association 会员

主要研究领域包括ERP咨询,云技术,大数据,区块链,人工智能专家,计算机视觉,多媒体技术和机器学习。Cambridge博士OXBridge教授

Guolong The University of Cambridge

Leverhulme Centre for the Future of Intelligence,LCFI http://www.lcfi.ac.uk/英国LCFI实验室顶尖研究院首席科学家

剑桥大学计算机博士毕业,剑桥大学教授,首席技术官。前沿科技领航人。AI,IoT,RPA, OCR-AI ,ERP,cloud,bigdata,blockchain,ICT,5G,3D,AR, VR,iCLIP,核心工业软件,核心算法,中微子,量子人工智能等顶尖前沿科技。

高中留学英国,就读剑桥大学本科,硕士,于2017年获得英国剑桥大学计算机科学博士学位。迄今为止,作为项目负责人,他曾在863个重大项目,国家科学技术支持计划的子项目以及国家自然科学基金的项目中进行研发,并发表了包括SCI的12篇论文和EI的28篇论文。收集了29篇文章,并获得了多项发明专利。目前,中国科学院信息科学研究院开设基础课程“计算机视觉与图像理解”和专业基础课程“现代计算机视觉”。深度科技专注于AI,区块链大数据分析云,ERP顾问和技术大趋势融合。东欧的药物发现,金融科技和区块链,亚洲的金融科技和区块链.5核心技术-生物识别,人工智能,聊天机器人,数据分析,区块链。 4个子行业:贷款,支付,储蓄,保险。进行与先进生物医学有关的特殊案例研究。数据科学和AI增强了预测分析的具体方法。对于我们用于设计投资策略并与战略合作伙伴合作的特定远见,高级预测着重于DeepTech行业的融合。研究学术界,制药公司和AI公司的科学家,临床医生和技术人员。我们的团队包括Tasuku Honjo博士,Yusuke Honjo博士,诺贝尔生理学的PD-1,CSAIL的首席研究员,麻省理工学院的Regina Barzilay,Tommi Jaakkola,Manolis Kellis和Peter Szolovits。

主要研究领域为ERP咨询,云技术,大数据,区块链,人工 智能专家,负责人承担过863重点项目、国家科技支撑计划子课题、国家自然科学基金面上项目等项目的研发工作,发表科研论文510余篇,其中SCI收录50篇,EI收录60篇,ISTP收录129篇,获得发明专利225项

例如计算机视觉,多媒体技术,机器学习,清华大学的教授。和技术大趋势的融合,领先的分析技术被用于政府/地方政府,教育/医疗/医疗保健,金融,制造业,物流,通讯/广播,建筑/房地产,电力/燃气/水,网络,制药,农业,零售,制造,交通,体育,宇宙航空,广告,IOT,ICT等行业。

AI记者 体育 智能驾驶 AI会计 律师 AI手术机器人 AI问诊 误诊没 ai机器人葬礼 VR AR 3D AI犯罪追踪 AI图像识别。中国科学技术协会、江苏省浙江省人民政府主办的大赛中获得A类一等奖。大健康产业:生物医药、医疗器械、智慧医疗、健康管理等获得A类一等奖。

主要研究领域为计算机视觉,大数据 区块链,自然语言 处理。阿里巴巴集团首席技术专家

AI深度学习发明的橄榄球5G技术(用于图像识别和语音识别的人工智能(AI)技术之一) 开发了结合了深度学习的橄榄球游戏分析系统,用相机拍摄人体运动,测量AI经过时的身体姿势和运动,AI指导5G技术

清华大学的机器学习教授。与技术大趋势,尖端分析技术,政府/地方政府,教育/医疗/医疗保健,金融,制造,物流,通信/广播,建筑/房地产,电力/燃气/水,网络,制药的集成用于农业,零售,制造业,运输,体育,航空航天,广告,物联网,信息通信技术和其他行业。英国剑桥大学教授,清华大学计算机科学客座教授,中国科学技术协会江苏省政府京都大学客座教授赞助的竞赛类别A赢得大健康产业一等奖:生物医学,医疗设备,智能医学,保健等。获得类别A最佳奖。 ERP区块链云技术大数据人工智能相关领域(不限于语音处理领域包括人工智能各个领域)在专利产品竞赛,阿里,腾讯,华为等合同中获得最高奖并达成了众多合同。 AI x 5G刷脸已成为主流支付方式,所见即所得,短视频AI动画x 5G,AR VR和3D,智能驾驶,金融,5G远程医疗5G AI药品,智能驾驶,智能商务,智能商务,智能医疗,公安5G机器人5G材料,半导体,体育,娱乐和其他技术是我们的主流技术,分离和纯化,创新药物,生物技术,芯片设计,量子点显示,多点触控,纳米微球,低碳纳米材料智能驾驶,智能制造,机器人技术和智能医疗的全球关键技术。面部和身体分析技术,SLAM和3D视觉,通用和专业图像识别,机器人控制和传感,大规模视频理解和挖掘,增强医学图像分析的图像和视频处理,人工智能计算平台,人工智能超级计算平台,自主开发的培训框架,人工智能高性能存储通过结合高性能异构计算软件和硬件,高性能,设计和开发低成本,低功耗的边缘人工智能芯片和解决方案,以开拓合作伙伴。对于智能驾驶和AIoT,可以为边缘到边缘的AI芯片提供超高性价比,极高的能效,开放的工具链,丰富的算法模型样本以及全面的激活服务。现在,基于创新的人工智能专用计算架构的BPU(脑处理单元)正在成功流式传输。中国第一台边缘人工智能处理器-专注于智能驾驶的系统和专注于AIoT的系统。并且已经大规模商业化。中国人工智能学会,英国科学局委员以及英国众议院科学技术委员会成员,英国众议院(科学技术委员会)英国文化协会开放数据研究所(ODI)艾伦·图灵人工智能研究所,剑桥大学,爱丁堡大学,牛津大学,伦敦大学,包括华威大学EPSRC协会

适用于AI,IoT,RPA,OCR-AI,ERP,云,大数据,区块链,ICT,5G,3D,AR,VR,iCLIP,核心工业软件,核心算法,中微子,政府/地方政府的最先进技术教育/医疗/保健,金融,制造,物流,电信/广播,建筑/房地产,电力/煤气/水,网络,制药,农业,零售,制造,运输,体育,航空航天,广告,物联网,ICT和其他产业

IEEE,NIPS,ICML,COLT,CVPR,ICCV,ECVC,IJCAI,AAAI,UAI,KDD,SIGIR,WWW,ACL,PAMI,IJCV,JMLR,AIJ已出版了100多次。

工作经历

Guolong The University of Cambridge Cambridge博士OXFord大学教授

Leverhulme Centre for the Future of Intelligence,LCFI http://www.lcfi.ac.uk/英国LCFI实验室顶尖研究院首席科学家

AlibabaGroup合同单位 哈牛橋智能科技 国龙 副总经理 CTO

计算机视觉,多媒体技术,机器学习,清华大学的教授。和技术大趋势的融合,领先的分析技术被用于政府/地方政府,教育/医疗/医疗保健,金融,制造业,物流,通讯/广播,建筑/房地产,电力/燃气/水,网络,制药,农业,零售,制造,交通,体育,宇宙航空,广告,IOT,ICT等行业。

AI记者 体育 智能驾驶 AI会计 律师 AI手术机器人 AI问诊 误诊没 ai机器人葬礼 VR AR 3D AI犯罪追踪 AI图像识别。中国科学技术协会、江苏省浙江省人民政府主办的大赛中获得A类一等奖。大健康产业:生物医药、医疗器械、智慧医疗、健康管理等获得A类一等奖。

主要研究领域为计算机视觉,大数据 区块链,自然语言 处理。阿里巴巴集团首席技术专家

AI深度学习发明的橄榄球5G技术(用于图像识别和语音识别的人工智能(AI)技术之一) 开发了结合了深度学习的橄榄球游戏分析系统,用相机拍摄人体运动,测量AI经过时的身体姿势和运动,AI指导5G技术

JSAI人工知能学会 正会員 https://www.ai-gakkai.or.jp/

CiNii Articleshttp://ci.nii.ac.jp/

CiNii Bookshttp://ci.nii.ac.jp/books/

CiNii Dissertationshttp://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

科学研究費助成事業|日本学術振興会

https://www-shinsei.jsps.go.jp/kaken/index.html

科学研究費助成事業-科研費-:文部科学省

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

英国政府科学办公室(Government Office of Science)和英国下议院科学

技术委员会(The House of Commons’Science and Technology Committee)

英国人工智能委员会

开放数据研究所(ODI)

包括阿兰图灵研究所,以及剑桥大学、爱丁堡大学、牛津大学、伦敦大学、华威大学组成的EPSRC协会

https://www.caai.cn/中国人工智能学会

AAA1国际人工智能协会会员

GuoLong

Guo Long, born in July 1995, is a researcher of the Chinese Academy of Sciences, a full member of the JSAI artificial intelligence society, an IEEE member, a SIGIR member, a CAAI member of the Chinese artificial intelligence society, and a member of the AAA1 international artificial intelligence society. Member of ACM, British Artificial Intelligence China Member of ACM CAAI Member of China-Britain Artificial Intelligence Association

The main research areas include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning. Dr. Cambridge Professor OXfor dUniversity

Guolong The University of Cambridge

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/Chief Scientist, Top Research Institute, LCFI Labs, UK

He holds a Ph.D. in Computer Science from the University of Cambridge, a professor at the University of Cambridge, and a CTO. Leader in cutting-edge technology. AI, IoT, RPA, OCR-AI, ERP, cloud, bigdata, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrinos, quantum artificial intelligence and other top cutting-edge technologies.

High school studying in the UK, undergraduate, master's degree at Cambridge University, in 2017 received a PhD in computer science from the University of Cambridge, UK. So far, as the project leader, he has conducted research and development in 863 major projects, sub-projects of the National Science and Technology Support Program, and projects of the National Natural Science Foundation of China, and has published 12 papers including SCI and 28 papers from EI . Collected 29 articles and obtained multiple invention patents. At present, the Institute of Information Science of the Chinese Academy of Sciences offers basic courses "Computer Vision and Image Understanding" and professional basic courses "Modern Computer Vision". Deep Tech focuses on the integration of AI, blockchain big data analysis cloud, ERP consultants and technology megatrends. Drug discovery in Eastern Europe, fintech and blockchain, fintech and blockchain in Asia. 5 core technologies-biometrics, artificial intelligence, chatbots, data analysis, blockchain. 4 sub-sectors: loans, payments, savings, insurance. Conduct special case studies related to advanced biomedicine. Data science and AI enhance specific methods of predictive analytics. For the specific vision we use to design investment strategies and work with strategic partners, advanced forecasts focus on the convergence of the DeepTech industry. Research scientists, clinicians and technicians in academia, pharmaceutical companies and AI companies. Our team includes Dr. Tasuku Honjo, Dr. Yusuke Honjo, Nobel's PD-1 Physiology, CSAIL's lead researcher, MIT Regina Barzilay, Tommi Jaakkola, Manolis Kellis and Peter Szolovits.

The main research areas are ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts. The person in charge has undertaken research and development work on 863 key projects, sub-projects of the National Science and Technology Support Plan, and National Natural Science Foundation projects. More than 510 scientific papers, of which 50 are included in SCI, 60 are included in EI, 129 are included in ISTP, and 225 invention patents have been obtained

For example, computer vision, multimedia technology, machine learning, Tsinghua University professor. Convergence with technology megatrends, leading analytics technologies are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI reporter sports intelligent driving AI accounting lawyer AI surgical robot AI interrogation misdiagnosed AI robot funeral VR AR 3D AI crime tracking AI image recognition. China Science and Technology Association, Jiangsu Province, Zhejiang Provincial People's Government hosted the contest and won the first prize in category A. Big health industry: Biomedicine, medical equipment, smart medicine, health management, etc. won first prize in category A.

His main research fields are computer vision, big data blockchain, and natural language processing. Chief Technology Specialist of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) Developed a rugby game analysis system that combines deep learning, shooting human movements with a camera, and measuring the body passing by AI Posture and movement, AI-guided 5G technology

Professor of Machine Learning at Tsinghua University. Integration with technology megatrends, cutting-edge analytical technologies, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, power / gas / water, networking, and pharmaceuticals for agriculture, Retail, manufacturing, transportation, sports, aerospace, advertising, Internet of Things, ICT and other industries. Professor A of Cambridge University, Visiting Professor of Computer Science at Tsinghua University, and Visiting Professor of Chinese University of Science and Technology, Jiangsu Province, Kyoto University, won the first prize of the big health industry in the competition category A: biomedical, medical equipment, intelligent medicine, health care, etc. Won Category A Best Award. ERP blockchain cloud technology big data artificial intelligence-related fields (not limited to the field of speech processing including artificial intelligence fields) won the highest award in patent product competitions, Ali, Tencent, Huawei and other contracts and reached many contracts. AI x 5G face brushing has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, smart driving, finance, 5G telemedicine 5G AI medicine, smart driving, smart commerce, smart commerce, smart Medical, public security 5G robots, 5G materials, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative drugs, biotechnology, chip design, quantum dot display, multi-touch, nano-microspheres, low carbon Global key technologies for nanomaterials smart driving, smart manufacturing, robotics and smart medical. Face and body analysis technology, SLAM and 3D vision, general and professional image recognition, robot control and sensing, large-scale video understanding and mining, image and video processing to enhance medical image analysis, artificial intelligence computing platform, artificial intelligence supercomputing platform , Self-developed training framework, artificial intelligence high-performance storage By combining high-performance heterogeneous computing software and hardware, high-performance, design and develop low-cost, low-power edge artificial intelligence chips and solutions to develop partners. For intelligent driving and AIoT, it can provide edge-to-edge AI chips with super high cost performance, high energy efficiency, open tool chain, rich algorithm model samples, and comprehensive activation services. Now, BPU (brain processing unit) based on innovative artificial intelligence-specific computing architecture is successfully streaming. China's first edge artificial intelligence processor-a system focused on intelligent driving and a system focused on AIoT. And it has been commercialized on a large scale. Member of the Chinese Academy of Artificial Intelligence, a member of the British Science Bureau and a member of the House of Science and Technology Committee, the House of Commons (Science and Technology Committee), Allen Turing Institute for Artificial Intelligence, Open Data Institute (ODI), Cambridge University, University of Edinburgh, University of Oxford, University of London, including University of Warwick EPSRC

Suitable for AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrinos, government / local government State-of-the-art technology education / medical / healthcare, finance, manufacturing, logistics, telecommunications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals, agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, physical Internet, ICT and other industries

IEEE, NIPS, ICML, COLT, CVPR, ICCV, ECVC, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ have been published more than 100 times.

work experience

Dr. Guolong The University of Cambridge Cambridge

Leverhulme Centre for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/Chief Scientist, Top Research Institute, LCFI Labs, UK

AlibabaGroup contract unit HOC Intelligent Technology Guolong Deputy General Manager CTO

Professor of computer vision, multimedia technology, machine learning, Tsinghua University. Convergence with technology megatrends, leading analytics technologies are used in government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals , Agriculture, retail, manufacturing, transportation, sports, aerospace, advertising, IOT, ICT and other industries.

AI reporter sports intelligent driving AI accounting lawyer AI surgical robot AI interrogation misdiagnosed AI robot funeral VR AR 3D AI crime tracking AI image recognition. China Science and Technology Association, Jiangsu Province, Zhejiang Provincial People's Government hosted the contest and won the first prize in category A. Big health industry: Biomedicine, medical equipment, smart medicine, health management, etc. won first prize in category A.

His main research fields are computer vision, big data blockchain, and natural language processing. Chief Technology Specialist of Alibaba Group

Rugby 5G technology invented by AI deep learning (one of the artificial intelligence (AI) technologies used for image recognition and speech recognition) Developed a rugby game analysis system that combines deep learning, shooting human movements with a camera, and measuring the body passing by AI Posture and movement, AI-guided 5G technology

JSAI Artificial Intelligence Society Regular Member https://www.ai-gakkai.or.jp/

CiNii Articles: http://ci.nii.ac.jp/

CiNii Books: http://ci.nii.ac.jp/books/

CiNii Dissertations: http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

Scientific Research Grants Support Business | Japan Society for the Promotion of Science

https://www-shinsei.jsps.go.jp/kaken/index.html

Scientific research grants help undertakings-Scientific research costs-: Ministry of Education, Culture, Sports, Science and Technology

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

Government Office of Science and UK House of Commons Science

The Technical Committee (The House of Commons ’Science and Technology Committee)

British Council on Artificial Intelligence

Open Data Institute (ODI)

Including the Alan Turing Institute and the EPSRC Association of Cambridge University, Edinburgh University, Oxford University, University of London, University of Warwick

https://www.caai.cn/Chinese Association for Artificial Intelligence

Member of AAA1 International Artificial Intelligence Association

PROFESSIONAL APPOINTMENTS

Senior Research Scholar (2018 - today)

Future of Humanity Institute, University of Oxford

Research Affiliate (2019 - today)

Center for the Governance of AI, University of Oxford

Affiliate (2018 - today)

Black Hole Initiative, Harvard University

ACADEMIC QUALIFICATIONS

DPhil Philosophy, University of Oxford (2014 - 2018)

Advisors: Prof. Christopher Timpson and Prof. Harvey Brown

Topic: The Scope of Thermodynamics

MSt Philosophy of Physics, University of Oxford (2013 - 2014)

University of Oxford, Modules: Philosophy of Physics, Philosophy of Science, Philosophy of Mind

MSc Physics, Freie Universität Berlin (2011 - 2013)

Advisor: Prof. Dr. Jens Eisert

Thesis title: Superactivation of Gaussian Quantum Channels

BSc Physics, Freie Universität Berlin (2007 - 2011)

Thesis advisor: Prof. Dr. Joachim Heberle

Thesis title: Thermophoresis of Aureochrome

AWARDS AND FELLOWSHIPS

Visiting Postdoctoral Fellow, Black Hole Initiative, Harvard University (2017, 2018)

Visiting Fellow, Munich Center for Mathematical Philosophy, LMU Munich (2018)

Vice Chancellor's Fund Award, University of Oxford (2018)

Doctoral Scholarship Award, British Society for the Philosophy of Science (2014 - 2017)

Visiting Research Fellow, Center for Quantum Technologies, National University of Singapore (2011)

Scholarship, Begabtenförderung, Konrad Adenauer Stiftung (2007 - 2013)

PUBLICATIONS

C. Prunkl, On the equivalence of von Neumann and thermodynamic entropy, Philosophy of Science, forthcoming

C. Prunkl and C. Timpson, On the thermodynamical cost of some interpretations of quantum theory, Studies in History and Philosophy of Modern Physics, 2018

C. Prunkl, The Road to Quantum Thermodynamics, forthcoming in Quantum Foundations of Statistical Mechanics, eds. C. Timpson, D. Bedingham, OUP 2019

V.U. Ludwig, C. Stelzel, C. Prunkl, H. Krutiak, R. Steimke, L.M. Paschke, N. Kathmann and H. Walter, Impulsivity,self-control and hypnotic suggestibility. Consciousness and Cognition, 22(2):647-653, 2013

POPULAR ARTICLES

C. Prunkl, Endlich Unendlich - auf der Suche nach dem ewigen Leben. SHIFT, 4:14-19, 2016

C. Prunkl, Das Schummeln der Lämmer - Von kleinen Lügen und großen Konsequenzen, SHIFT, 1:42-46, 2013

MANUSCRIPTS

C. Prunkl and C. Timpson, Black Hole Entropy is Entropy, 2016

C. Prunkl and K. Robertson, Thermodynamics without Observers, 2017

INVITED TALKS

Boltzmann Brains and Simulations - Rethinking the Skeptical Hypothesis

Philosophy of Physics Seminar, Universität Bonn, 2019

Thermodynamik und Schwarze Löcher - ein Exkurs

1. DPG Wochenendseminar zur Philosophie der Physik, Universität Bonn, 2018

The Role of Information in Black Hole Thermodynamics

Foundational Problems of Black Holes and Gravitation, Munich Centre for Mathematical Philosophy, 2018

Resource Theories and Axiomatic Thermodynamics

Philosophy of Physics Conference, University of Western Ontario, 2018

Black Hole Entropy, how much information do we need?

Sigma Club, London School of Economics, 2018

Philosophy of Physics Seminar, University of Oxford, 2018

The Black Hole Initiative Colloquium, Harvard University, 2017

On the thermodynamical cost associated with some quantum interpretations.

Leuven-Buenos Aires Workshop on the Philosophy of Physics, University of Leuven, 2016

CONFERENCE TALKS

Black Holes and Information

European Philosophy of Science Association, Geneva 2019

Symposium on Black Holes: Entropy and System Size

British Society for the Philosophy of Science Annual Conference, Oxford 2018

Thermodynamics without Observers?

Conference on the Second Law of Thermodynamics, LMU München, 2017

Black Hole Entropy is Entropy (and not Information)

Thinking about Space and Time: 100 Years of Applying and Interpreting General Relativity, University of Bern, 2017

5th International Summer School in Philosophy of Physics, Saig, 2017

A Tale of Two Entropies - defending the von Neumann Entropy.

Philosophy of Science Association Biennial Meeting, Atlanta, 2016

Are some quantum interpretations hotter than others?

British Society for the Philosophy of Science Annual Conference, Cardiff, 2016

TEACHING

Governance of AI, University of Oxford, 2019

Advanced Philosophy of Physics, University of Oxford, 2019

The Ethics of AI, Oxford AI Society, University of Oxford, 2019

Introduction to Logic, Teaching Assistant, University of Oxford, 2017

Philosophy of Science, Tutor, University of Oxford, 2015

Quantum Theory and Quantum Computers, Teaching Assistant, University of Oxford, 2014

OTHER ENGAGEMENTS

Expert on Governance of AI

UK 2070 Commission

Expert Panelist, Mentor

A.I. Impact Weekend at the Oxford Foundry, 8.-10.2.2019

Work experience

  • Research Scientist in AI safety, DeepMind (2016-present)

· theoretical and experimental research on keeping advanced AI systems robust and beneficial

  • Software Engineering Intern, Google (2015)

· developed and implemented machine learning algorithms for the Knowledge Graph

  • Decision Support Engineering Intern, Google (2013)

· built statistical models of the impact of ads quality on click-through rate in R

  • Teaching Fellow in Statistics, Harvard University (2012-2013)

  • Quantitative Analyst Intern, D.E.Shaw & Co (2012)

· developed and tested risk modeling algorithms using statistical and numerical optimization methods in Python

  • Summer Research Analyst in Computer Science, University of Toronto (2009)

  • Teaching Assistant in Mathematics, University of Toronto (2007-2011)

Education

  • Harvard University, PhD, Statistics (2016)

  • University of Toronto, MS, Statistics (2011)

  • University of Toronto, Honors BS with High Distinction (GPA 3.76/4.00), Statistics / Mathematics (2010)

Service

Competitions

· highest ranking woman in the Putnam mathematics competition in North America

  • University of Toronto Putnam mathematics competition team (2006-2009)

· 3-person team consistently ranked in top 10 in North America

  • ACM programming competition team (2007-2008)

· 3-person team competed on the regional level in North America

国龍

1995年7月生まれのGuo Longは、中国科学アカデミーの研究者、JSAI人工知能学会の正会員、IEEE会員、SIGIR会員、中国人工知能協会のCAAI会員、および国際人工知能学会AAA1の会員です。 ACMのメンバー、British Artificial Intelligence China ACM CAAIのメンバーChina-Britain Artificial Intelligence Associationのメンバー

主な研究分野には、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家、コンピュータービジョン、マルチメディアテクノロジー、機械学習が含まれます。ケンブリッジ教授OXBridge

グオロンケンブリッジ大学

LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs、英国

彼は、ケンブリッジ大学のコンピューターサイエンスの博士号、ケンブリッジ大学の教授、CTOを取得しています。最先端技術のリーダー。 AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、量子人工知能、その他の最先端技術

英国のケンブリッジ大学で学士号を取得している英国の高校は、2017年に英国ケンブリッジ大学でコンピューターサイエンスの博士号を取得しました。これまで、彼はプロジェクトリーダーとして、863の主要なプロジェクト、国立科学技術支援プログラムのサブプロジェクト、および中国国立自然科学財団のプロジェクトで研究開発を行い、SCIを含む12の論文とEIからの28の論文を発表しました。 。 29件の記事を収集し、複数の発明特許を取得しました。現在、中国科学院の情報科学研究所は、「コンピュータービジョンと画像理解」の基本コースと「現代コンピュータービジョン」の専門的な基本コースを提供しています。 Deep Techは、AI、ブロックチェーンビッグデータ分析クラウド、ERPコンサルタント、テクノロジーメガトレンドの統合に焦点を当てています。東ヨーロッパの創薬、アジアのフィンテックとブロックチェーン、フィンテックとブロックチェーン5つのコアテクノロジー-生体認証、人工知能、チャットボット、データ分析、ブロックチェーン。 4つのサブセクター:ローン、支払い、貯蓄、保険。高度な生物医学に関連する特別なケーススタディを実施します。データサイエンスとAIは、予測分析の特定の方法を強化します。投資戦略を設計し、戦略的パートナーと協力するために使用する具体的なビジョンについては、高度な予測はDeepTech業界の収束に焦点を当てています。学界、製薬会社、AI会社の研究科学者、臨床医、技術者。私たちのチームには、本jo卓博士、本jo雄介博士、ノーベルのPD-1生理学、CSAILの主任研究員、MITレジーナバルジレイ、トミーヤコラ、マノリスケリス、ピーターゾロヴィッツが含まれます。

主な研究分野は、ERPコンサルティング、クラウドテクノロジー、ビッグデータ、ブロックチェーン、人工知能の専門家です。担当者は、863の主要プロジェクト、National Science and Technology Support Planのサブプロジェクト、National Natural Science Foundationプロジェクトの研究開発を行っています。 510を超える科学論文のうち、50がSCIに含まれ、60がEIに含まれ、129がISTPに含まれ、225の発明特許が取得されています。

たとえば、コンピュータービジョン、マルチメディアテクノロジー、機械学習、清華大学教授。テクノロジーのメガトレンドとの融合、最先端の分析テクノロジーは、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーキング、医薬品で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI手術ロボットAI尋問誤診AIロボット葬儀VR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省、Z江省人民政府がコンテストを主催し、カテゴリAで最優秀賞を獲得しました。大きな健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリAで最優秀賞を受賞しました。

彼の主な研究分野は、コンピュータービジョン、ビッグデータブロックチェーン、自然言語処理です。 Alibaba Groupのチーフテクノロジースペシャリスト

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーディープラーニング、カメラでの人間の動きの撮影、AIを通過する身体の測定を組み合わせたラグビーゲーム分析システムを開発姿勢と動き、AIガイド付き5Gテクノロジー

清華大学の機械学習の教授。テクノロジーのメガトレンド、最先端の分析技術、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電力/ガス/水、ネットワーキング、農業用医薬品との統合、小売、製造、輸送、スポーツ、航空宇宙、広告、モノのインターネット、ICT、その他の産業。ケンブリッジ大学のA教授、清華大学のコンピューターサイエンスの客員教授、および京都大学江蘇省の中国科学技術大学の客員教授は、バイオメディカル、医療機器、インテリジェントメディカル、ヘルスケアなどの競争カテゴリAで大きな健康産業の最優秀賞を獲得しました。カテゴリーAベストアワードを受賞。 ERPブロックチェーンクラウドテクノロジービッグデータ人工知能関連分野(人工知能分野を含む音声処理の分野に限定されない)は、特許製品の競争、アリ、テンセント、Huaweiおよびその他の契約で最高の賞を受賞し、多くの契約に達しました。 AI x 5Gフェイスブラッシングが主流の支払い方法になりました医療、公安5Gロボット、5G材料、半導体、スポーツ、エンターテインメントなどの技術は、当社の主流の技術であり、分離と精製、革新的な医薬品、バイオテクノロジー、チップ設計、量子ドットディスプレイ、マルチタッチ、ナノミクロスフェア、低炭素ナノマテリアルのスマートな運転、スマートな製造、ロボット工学、スマートな医療のためのグローバルなキーテクノロジー。顔と体の分析技術、SLAMと3Dビジョン、一般的および専門的な画像認識、ロボット制御とセンシング、大規模なビデオの理解とマイニング、医療画像分析を強化する画像とビデオ処理、人工知能コンピューティングプラットフォーム、人工知能スーパーコンピューティングプラットフォーム、自己開発のトレーニングフレームワーク、人工知能高性能ストレージ高性能の異種コンピューティングソフトウェアとハ​​ードウェアを組み合わせることにより、高性能、低コスト、低電力のエッジ人工知能チップとソリューションを設計および開発し、パートナーを開発します。インテリジェントな運転とAIoTのために、超高コストパフォーマンス、高エネルギー効率、オープンツールチェーン、豊富なアルゴリズムモデルサンプル、包括的なアクティベーションサービスを備えたエッジツーエッジのAIチップを提供できます。現在、革新的な人工知能固有のコンピューティングアーキテクチャに基づくBPU(頭脳処理装置)がストリーミングに成功しています。中国初の最先端の人工知能プロセッサ-インテリジェントな運転に焦点を当てたシステムとAIoTに焦点を当てたシステム。そして、大規模に商品化されました。中国人工知能アカデミーのメンバー、英国科学局のメンバー、下院科学技術委員会のメンバー、下院(科学技術委員会)、人工知能のためのアレンチューリング研究所、オープンデータ研究所(ODI)、ケンブリッジ大学、エジンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学EPSRCを含む

AI、IoT、RPA、OCR-AI、ERP、クラウド、ビッグデータ、ブロックチェーン、ICT、5G、3D、AR、VR、iCLIP、コア産業ソフトウェア、コアアルゴリズム、ニュートリノ、政府/地方自治体に適しています最先端の技術教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水道、ネットワーク、医薬品、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、物理インターネット、ICT、その他の産業

IEEE、NIPS、ICML、COLT、CVPR、ICCV、ECVC、IJCAI、AAAI、UAI、KDD、SIGIR、WWW、ACL、PAMI、IJCV、JMLR、AIJは100回以上公開されています。

実務経験

Dr. Guolongケンブリッジ大学ケンブリッジ

LCFI http://www.lcfi.ac.uk/Chief Scientist、LCFI Labs、英国

AlibabaGroup契約ユニットHOC Intelligent Technology Guolong副部長CTO

コンピュータービジョン、マルチメディアテクノロジー、機械学習、清華大学の教授。テクノロジーのメガトレンドとの融合、最先端の分析テクノロジーは、政府/地方自治体、教育/医療/ヘルスケア、金融、製造、物流、通信/放送、建設/不動産、電気/ガス/水、ネットワーキング、医薬品で使用されています、農業、小売、製造、輸送、スポーツ、航空宇宙、広告、IOT、ICT、その他の産業。

AIレポータースポーツインテリジェントドライビングAI会計弁護士AI手術ロボットAI尋問誤診AIロボット葬儀VR AR 3D AI犯罪追跡AI画像認識。中国科学技術協会、江蘇省、Z江省人民政府がコンテストを主催し、カテゴリAで最優秀賞を獲得しました。大きな健康産業:生物医学、医療機器、スマート医療、健康管理などがカテゴリAで最優秀賞を受賞しました。

彼の主な研究分野は、コンピュータービジョン、ビッグデータブロックチェーン、自然言語処理です。 Alibaba Groupのチーフテクノロジースペシャリスト

AIディープラーニング(画像認識と音声認識に使用される人工知能(AI)テクノロジーの1つ)によって発明されたラグビー5Gテクノロジーディープラーニング、カメラでの人間の動きの撮影、AIを通過する身体の測定を組み合わせたラグビーゲーム分析システムを開発姿勢と動き、AIガイド付き5Gテクノロジー

· AI研究開発

· 深層学習(Deep Learning)を中心とした人工知能(AI)技術を活用した、取り組む事業における研究開発を行って頂きます。


◆具体的な業務内容

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での人工知能(AI)技術を活用した研究開発

・レコメンドシステムの研究開発

・ゲームAIの研究開発

・その他事業での人工知能(AI)技術を活用した研究開発

·

· ◆経験/能力

・chainer / tensorflow / caffe 等の深層学習フレームワークを利用した20年以上の実装経験

・高い論理的思考力

・数学的な深い知識(線形代数・統計/確率・微積分)

・自発的に周囲を巻き込み、プロジェクトを推進することができるマインド

・コンピュータビジョン・自然言語処理・強化学習・音声認識/合成分野での5年以上の研究または実務経験

・深層学習(Deep Learning)のモデル実装経験

・自発的に周囲を巻き込み、プロジェクトを推進することができるマイン

· AI事業において、AIシステム開発チームのプロジェクトマネージャーとして、AIプロジェクトの設計、進行管理、ディレクション全般に関わっていただきます。

· ◆具体的な業務内容

· AIプロジェクトマネージャは、AIシステム部の取り組む各種AIプロジェクトに関して、事業部と期待値のすり合わせをしながらAI研究開発のアウトプットを定義し、適切に状況把握、計画調整しながら不確実性の高いAIプロジェクトを成功に導きます。また、AIシステム部メンバーの技術成長ニーズや現状のレベルを把握した上で、適切な業務アサインを通してメンバーのキャリア形成を支援します。

· ◆経験/能力

· ・システム開発におけるプロジェクトマネージメント経験

・多岐にわたるタスクを整理する管理能力

・メンバーへの指示を明確にできる高いコミュニケーション能力

・課題を解決するために必要な巻き込み力

・リスクを察知し対応策を練ることのできる危機管理能力

· ・機械学習アルゴリズムに関する研究開発経験

・機械学習アルゴリズムを用いた実サービスのプロジェクトマネージメント経験

・基本的なWEB技術力(プログラミング・DB・インフラの経験)

・システム開発グループの組織マネージメント経験

・社外ステークホルダーとの交渉経験

※各プロジェクトの規模・期間、利用経験のあるマネージメントツール、取り入れていたマネージメント手法など、プロジェクトマネージメント

JSAI人工知能学会正会員https://www.ai-gakkai.or.jp/

CiNii Articles:http://ci.nii.ac.jp/

CiNii Books:http://ci.nii.ac.jp/books/

CiNii論文:http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

科学研究費助成事業|日本学術振興会

https://www-shinsei.jsps.go.jp/kaken/index.html

科学研究助成金は事業を支援します-科学研究費-:文部科学省

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

科学庁と英国下院科学院

技術委員会(下院の科学技術委員会)

人工知能に関するブリティッシュカウンシル

Open Data Institute(ODI)

アランチューリング研究所、ケンブリッジ大学、エディンバラ大学、オックスフォード大学、ロンドン大学、ワーウィック大学のEPSRC協会を含む

https://www.caai.cn/中国人工知能協会

AAA1国際人工知能協会のメンバー

研究開発案件紹介

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている国龍、加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。前回の 2D Human Pose Estimation 編 に引き続き、今回は 3D Human Pose Estimation 編として加藤直樹 (@nk35jk) が調査を行いました。

本記事では 3D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、コンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された論文を中心に 3D Human Pose Estimation の最新の研究動向を紹介します。

過去の他タスク編については以下をご参照ください。

· Human Recognition 編 (2019/04/26)

· 3D Vision 編 (2019/06/04)

· キーポイント検出の手法を用いた物体検出編 (2019/07/08)

· Object Tracking 編 (2019/07/17)

· Segmentation 編 (2019/08/19)

· Single Image Super-Resolution 前編 (2019/09/24)

· 動画認識編 (2019/10/09)

目次

· 前提知識

o 3D Human Pose Estimation

o 関連するデータセット

o 評価方法

o タスクの課題

· 代表的な研究事例

o Structured Prediction of 3D Human Pose with Deep Neural Networks (BMVC 2016)

o Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)

o A simple yet effective baseline for 3d human pose estimation (ICCV 2017)

o Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach (ICCV 2017)

o 3D Human Pose Estimation = 2D Pose Estimation + Matching (CVPR 2017)

o End-to-end Recovery of Human Shape and Pose (CVPR 2018)

· 近年の研究動向

o Ordinal Depth Supervision for 3D Human Pose Estimation (CVPR 2018 Oral)

o Integral Human Pose Regression (ECCV 2018)

o C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion (ICCV 2019 Oral)

o Occlusion-Aware Networks for 3D Human Pose Estimation in Video (ICCV 2019)

o Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image (ICCV 2019)

o Learnable Triangulation of Human Pose (ICCV 2019 Oral)

o Learning Trajectory Dependencies for Human Motion Prediction (ICCV 2019 Oral)

· おわりに

· 参考文献

前提知識

3D Human Pose Estimation

Human Pose Estimation / 人物姿勢推定 は人物の映った画像や動画から人物の姿勢に関する情報を特定するタスクであり、以下のサブタスクに大別されます。

· 2D Pose Estimation(前回の記事で紹介)

· Pose Tracking

· 3D Pose Estimation(本記事のスコープ)

· Shape Reconstruction

それぞれのサブタスクの位置付けについては前回の 2D Pose Estimation の紹介記事でまとめていますので、興味のある方はそちらをご覧ください。

上記の各サブタスクのうち、3D Pose Estimation は単一または複数視点の画像や動画から人物関節点の3次元座標を特定するタスクです。ここで言う3次元座標には関節点のワールド座標、カメラ座標、腰を原点とした相対座標などが含まれ、研究の目的によって推定対象は異なります。3D Pose Estimation の中でも特に盛んに研究されているのが単眼カメラ画像を入力とした3次元姿勢の推定です。単眼カメラを用いる場合カメラから人物への奥行き(デプス)およびスケールが不定となるため、基本的にはカメラ座標系において人物の腰を原点としたときの各関節点の相対座標を推定する問題設定となります。

3D Pose Estimation [1]

近年CV分野全体において3D認識についての研究が注目されている流れに逆らわず、Pose Estimation においても2Dから3Dへと研究の対象が移りつつある印象を受けます。私の集計した限りでは、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 では Pose Estimation に関する論文が計41本採録されており、その内4本が 2D Pose Estimation に関する論文、19本が 3D Pose Estimation に関する研究、18本が Shape Reconstruction に関する論文と、ほとんどが3D認識タスクに関する研究でした。

本記事では 3D Pose Estimation の中でも特に研究の盛んな単眼カメラ画像からの3次元姿勢推定に関する代表的な研究事例を紹介した後、ICCV 2019 に採録された論文を中心に 3D Pose Estimation の最新の研究事例をトピック毎に紹介します。近年注目されている関連タスクである Shape Reconstruction については別の記事で紹介を予定しています。

関連するデータセット

3D Pose Estimation の研究では主に以下のデータセットが用いられます。

Human3.6M [2]

Human3.6Mは4台のカメラで計11人の被験者を撮影した計約360万フレームの動画から成る、3D Pose Estimation の評価の際に最も標準的に用いられるデータセットです。実験室環境でモーションキャプチャシステムを用いて作成されたデータセットとなっており、マーカーを装着した被験者を複数台のモーションカメラで撮影することにより各関節点の3次元座標をアノテーションしています。

Human3.6Mデータセットのデータ例

HumanEva-I [3]

HumanEva-Iは比較的小規模なデータセットで、7台のカメラで計4人の被験者を撮影した計約4万フレームの動画から構成される実験室環境のデータセットです。Human3.6Mが主流となる前の研究では本データセットが主に利用されていました。

HumanEva-Iデータセットのデータ例

MPI-INF-3DHP [4]

MPI-INF-3DHPは複数カメラを用いたマーカーレスモーションキャプチャシステム [5] を用いて作成されたデータセットです。学習データは計11人物を14台のカメラで同時に撮影した計130万フレームを超える動画からなります。このとき、グリーンスクリーンの実験室環境で被験者を撮影することにより、背景、椅子、上半身、下半身のテクスチャのデータ拡張を行い、データに多様性を持たせています。テストデータはグリーンスクリーン有り/無しの実験室環境で撮影されたもの、野外で撮影されたものの3種類からなります。

学習されたモデルの汎化性能を検証するために、他の実験室環境データセット(主にHuman3.6M)などで学習されたモデルを本データセットの野外画像のテストデータを用いて評価する事例が存在します。

MPI-INF-3DHPデータセットのデータ例

上段:学習データ、下段:テストデータ

CMU Panoptic [6]

CMU Panoptic は複数台のカメラが内側に取り付けられた球状の実験室環境で作成されたデータセットで、実験室内の単一または複数の人物を480台のVGAカメラ、30台以上のHDカメラ、10台のRGB-Dセンサで同時に撮影することで得られた計約5.5時間の65動画および約150万の人物姿勢から構成されます。

実験室の構成

CMU Panoptic データセットのデータ例

評価方法

3D Pose Estimation では Mean Per Joint Position Error と 3D Percentage of Correct Keypoints という評価指標が主に用いられます。

Mean Per Joint Position Error

Mean Per Joint Position Error (MPJPE) は関節点の推定座標と正解座標の距離(単位は主にmm)を全ての関節点およびデータで平均することにより算出される評価指標です。単眼カメラを用いたアルゴリズムの場合、評価の前に推定姿勢と正解姿勢の腰などの基準となる関節点 (Root Joint) の座標を並進移動により位置合わせする場合や、さらに回転を加えた剛体変換による位置合わせ (Rigid Alignment) を行う場合があります。そのため研究間の評価値を比較するときは、それぞれの評価手順が異なっていないか注意が必要です。なお、Rigid Alignment 後のMPJPEは Reconstruction Error と呼ばれる場合があります。

Percentage of Correct 3D Keypoints

Percentage of Correct 3D Keypoints (3D PCK) は2次元姿勢推定において利用される評価指標であるPCKを3次元に拡張したもので、関節点の推定座標と正解座標の距離が設定した閾値よりも小さいときにその関節点の推定を正しいものとし、推定が正しく行われた割合をその評価値とします。

タスクの課題

3D Pose Estimation における主要な課題点として挙げられるのがデータセット構築のハードルの高さです。2次元関節点座標は人物画像さえあればアノテーションが可能であるのに対し、3次元関節点座標のアノテーションにはモーションキャプチャシステムが必要となるため、大規模なデータセット構築が困難です。現状最大規模のデータセットであるHuman3.6Mは動画のフレーム数こそ多いものの、被験者数がそれほど多くないという課題があります。また、特に実験室環境で構築されたデータセットは背景環境や人物の服装、姿勢などの外観の多様性が低く、学習されたモデルの汎化性能を損なう恐れがあります。さらに、モーションキャプチャ手法にもよりますがGround-truth自体が必ずしも正確ではないという問題があり、正確なアノテーションを付与することのできるモーションキャプチャ手法自体が研究対象にもなっています。

代表的な研究事例

単眼カメラ画像からの 3D Pose Estimation には多様なアプローチが存在しており、それらを体系的に系統付けるのは難しいですが、おおよそ以下のように大別されます。

· 関節点座標を直接回帰

· 3次元ヒートマップ推定

· 2次元姿勢を入力に3次元姿勢を推定

· 2次元姿勢推定 + デプス推定

· 2次元姿勢に対応する3次元姿勢をライブラリから検索

· 人体モデルのフィッティング

ここからは、上記それぞれのアプローチを用いた 3D Pose Estimation に関する研究の中から代表的と思われるものをピックアップし紹介します。なお、使用している図表は紹介論文から引用したものとなります。

Structured Prediction of 3D Human Pose with Deep Neural Networks (Tekin+, BMVC 2016) [7]

この研究はディープラーニングを3次元姿勢推定に応用した初期の手法であり、畳み込みニューラルネットワークに画像を入力して関節点の3次元座標を回帰により推定するというシンプルなアプローチを取っています。

モデルの出力は(推定すべき関節点数)× 3 次元のベクトルで、各関節点の座標は Root Joint を原点とした相対座標により表されます。同様のアプローチはLiらにより提案されていますが [8]、本研究ではモデルの学習時にオートーエンコーダーで獲得された潜在表現を活用することで人物姿勢の構造情報を考慮した推論を可能にし、モデル性能向上を図っています。

手法の枠組み

本手法では3段階の学習によりモデルを学習します。まず、ノイズを加えた人物の3次元姿勢を入力にそれを復元するオートエンコーダーを学習します(下図 (a))。次に画像を入力に、獲得されたオートエンコーダーの潜在表現を推定するモデルを学習します(下図 (b))。そして最後に、オートエンコーダーのデコーダーをモデルに付け加え、関節点の3次元座標を推定するようモデルをFine-tuningします(下図 (c))。モデルの学習は全ての段階において Mean Squared Error (MSE) をロス関数として行います。

モデルの学習

実験結果

Ablation Study では、関節点座標を回帰するモデルを一から学習したもの (下表CNN-Direct)、オートエンコーダーの層数およびFine-tuningの有無を変化させた提案手法 (下表OURS) の性能比較を行い、提案手法の有効性を示しました。

Human3.6Mデータセットでの Ablation Study 結果(MPJPE)

また、提案手法は既存の非ディープラーニング手法(下表LinKDE)およびディープラーニング手法(下表DconvMP-HML、StructNet)を上回る性能を達成しました。

Human3.6Mデータセットでの既存手法との性能比較(MPJPE)

Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (Pavlakos+, CVPR 2017) [9]

2次元姿勢推定においてヒートマップを用いたアプローチの有効性が確認されたのを受け、本研究では3次元ヒートマップを用いた3次元姿勢推定手法を提案しています。

3次元ヒートマップは推定する関節点の種類毎に用意され、人物周囲の空間をVoxelを用いて離散化して表現しています。具体的には、ヒートマップのx-y方向のグリッドは入力画像をx方向、y方向に均等に離散化したものに対応し、z方向のグリッドは人物の Root Joint を中心とする [-1, 1] メートルのデプスを均等に離散化したものに対応します。各Voxelの値は対応する空間内に関節点が存在する尤もらしさを表します。ヒートマップの正解ラベルは関節点座標を中心とする3次元のガウス分布に基づき生成され、MSEをロス関数としてこれを推定するモデルを学習します。

アプローチの概要

モデルには Stacked Hourglass Network [10] を採用し、各 Hourglass Module から3次元ヒートマップを推定し、それぞれにロスを与える Intermediate Supervision を適用します。モデルは全てのモジュールで同一解像度のヒートマップを推定するのではなく、下図のように層が深くなるにつれ推定が難しいヒートマップのデプス方向の解像度を徐々に大きくしていくことにより、学習の複雑さの低減を図っています。

Coarse-to-Fineなヒートマップ推定

推論時は3次元ヒートマップにおいて値が最大のVoxelに対応する座標を関節点の推定座標とします。

実験結果

スタック数1の Hourglass Network を用い、関節点座標を直接回帰するモデル(下表 Coordinate Regression)と3次元ヒートマップを推定するモデル(下表 Volume Regression)の性能比較を行い、ヒートマップを用いた3次元姿勢推定の有効性を示しました。

推定対象による性能比較(Human3.6MデータセットでのMPJPE

d はヒートマップのデプス方向の解像度を表す

また、Hourglass Network のスタック数を増やしていきつつ、各モジュールで推定されるヒートマップのデプス方向の解像度を一定とした場合、徐々に増やしていった場合の性能を比較し、Coarse-to-Fineなヒートマップ推定の有効性を確認しました。

ヒートマップの解像度による性能比較(Human3.6MデータセットでのMPJPE)

Li はi番目の Hourglass Module で推定されるヒートマップのデプス方向の解像度を表す

本手法はHuman3.6Mデータセットで既存手法を上回る 71.90 mm のMPJPEを達成しました。なお、本手法では Root Joint のデプスをデータセットの人物骨格サイズに基づき推定しており、評価の際に Root Joint をGround-truthと位置合わせしていないことに注意が必要です(他の研究のように位置合わせを行うことでより評価値が改善すると考えられます)。

A simple yet effective baseline for 3d human pose estimation (Martinez+, ICCV 2017) [11]

前述したように、3次元姿勢推定で利用されることの多い実験室環境で構築されたデータセットはデータの外観の多様性が低く、学習されたモデルの汎化性能を損なう恐れがあります。それを受け、本研究では3次元姿勢推定の際に画像の外観情報は直接利用せず、2次元姿勢推定器を用いて推定された2次元姿勢を入力として3次元姿勢を推定するアプローチを取っています。画像を入力としないため、非常に高速な推論が可能であるのもこのアプローチの利点の一つです。

モデルは下図のように、全結合層、ReLU、Batch Normalization、DropoutとSkip-connectionから成るブロックを2回繰り返した構造を持つ非常にシンプルなものとなっています。

入力である2次元姿勢は各関節点の画像座標であり、推定対象の3次元姿勢はカメラ座標系において Root Joint を原点とした各関節点の相対座標です。前処理として、入出力共に平均を0、分散を1にする標準化を行なっています。ロス関数にはMSEを用いてモデルを学習します。

実験結果

MPIIデータセットで学習された Hourglass Network を2次元姿勢推定器に用いて既存手法との性能比較を行い、本手法の優位性を示しました。また、入力にGround-truthの2次元関節点座標を用いたときのエラーの低さから、入力される2次元姿勢の正確さが精度に大きく寄与することが見て取れます。

Human3.6MデータセットでのMPJPEによる性能比較

左:Rigid Alignment 無し、右:Rigid Alignment 有り

外観の多様性に富むMPIIデータセットで学習された2次元姿勢推定器を利用していることが他手法と比較した本手法の性能の高さの一助となっているように思われます。

本手法のように、事前に推定された2次元姿勢を入力として3次元姿勢を回帰するアプローチが近年の研究でも広く用いられています。

Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach (Zhou+, ICCV 2017) [12]

この研究では3次元姿勢推定を2次元姿勢推定とデプス推定の2つのタスクに分割することにより、外観の多様性に富む2次元データセットと関節点の3次元座標のアノテーションを持つ3次元データセットを併用した学習が可能なモデルを提案し、野外画像に対する汎化性能の向上を図っています。

アプローチの概要

提案手法の枠組みは下図のようになっています。学習時のモデルの入力は2次元データセットと3次元データセットの画像を同一比率でサンプリングして作成したミニバッチです。2D pose estimation module は2次元ヒートマップを推定するモジュールで、ネットワークには Hourglass Network を採用しています。Depth regression module は 2D pose estimation module で推定されたヒートマップおよび特徴マップを入力に各関節点のデプスを推定するモジュールです。

手法の枠組み

入力画像が3次元データセットのサンプルである場合、ヒートマップに対するL2ロスとデプスに対するL2ロスの和をロス関数とします。一方で入力が2次元データセットのサンプルである場合はヒートマップに対するL2ロスと本研究で提案されている Geometric Loss の和をロス関数とします。Geometric Loss はデータセットにおける各ボーンの長さの平均と推定された各ボーンの長さの比率の分散をロスとすることで、人物の各ボーンの長さの比率が一定となるようモデルに制約を与えます。

モデルの学習は以下のように3段階に分けて行われます(最終的なモデルはEnd-to-endな学習が可能です)。

· 2次元データセットを用いた 2D pose estimation module の学習

· 2次元/3次元データセットを併用したモデル全体の学習(Geometric Loss は非使用)

· 2次元/3次元データセットを併用したモデル全体の学習(Geometric Loss を使用)

実験結果

Human3.6Mデータセットを用いた実験では2次元/3次元データセットの併用および Geometric Loss の有効性を確認すると共に、提案手法が既存手法の性能を上回ることを示しました。

Human3.6MデータセットでのMPJPE

また、Human3.6MデータセットとMPIIデータセットで学習されたモデルの性能をMPI-INF-3DHPデータセットで評価する実験を行っています。3次元データセットであるHuman3.6Mのみを用いた場合は野外画像(下表Outdoor)に対する性能が非常に低いですが、2次元データセットを併用することにより評価値が大きく改善していることが確認できます。

MPI-INF-3DHPデータセットでの性能比較

このように、本研究は外観の多様性に富む2次元データセットを活用したモデル学習の有効性を示しました。2次元/3次元データセットを併用したモデルの学習は近年でも注目されている研究トピックの1つです。

3D Human Pose Estimation = 2D Pose Estimation + Matching (Chen+, CVPR 2017) [13]

この研究では論文名からも分かる通り、2次元姿勢推定結果に対応する3次元姿勢をモーションキャプチャデータのライブラリから参照することにより3次元姿勢推定結果を得るという特徴的なアプローチを取っています。このアプローチの利点として、画像の外観情報を用いないため野外画像に対する汎化性能に優れること、また処理の高速性(20万の3次元姿勢を含むライブラリに対するマッチングは約39fpsで動作)が主張されています。

アプローチの概要

2次元姿勢推定器にはMPIIデータセットで学習された Convolutional Pose Machine (CPM) [14] を用いています。CPMにより推定された2次元姿勢とライブラリ中の3次元姿勢が対応する尤もらしさを、推定された2次元姿勢と適当なカメラパラメータを用いてライブラリの3次元姿勢を画像上に射影して得られる2次元姿勢のL2距離に基づき算出し、これが最も高い3次元姿勢を参照姿勢とします。

参照された3次元姿勢をそのまま推定結果とするのではなく、各関節点のデプスは参照姿勢のものを採用し、カメラ座標系におけるx, y座標は推定された2次元姿勢の画像座標を参照姿勢のデプスの平均値とカメラの焦点距離の比率を用いて定数倍することで求めており、実験的に後者の方が性能が高くなることを確認しています。下図は参照姿勢と本手法による最終的な推定結果例を示していますが、2次元姿勢推定結果と参照姿勢のデプスを組み合わせることで、より適切な推定結果が得られていることが分かります。

Ground-truthの2次元姿勢を入力したときの3次元姿勢推定結果例

左:ライブラリから参照された3次元姿勢、

右:2次元姿勢推定結果と参照姿勢のデプスを組み合わせて得られた推定結果

本手法は画像の外観情報を推定に利用しないため、2次元姿勢推定結果が適切であればデータのドメインに関わらずある程度精度よく推定ができる一方で、下図のように画像と明らかに対応しない推定を行ってしまう場合も存在します。

Ground-truthの2次元姿勢を入力したときの3次元姿勢推定結果の失敗例

End-to-end Recovery of Human Shape and Pose (Kanazawa+, CVPR 2018) [15]

最後に紹介するアプローチは、事前に用意された人体モデルのパラメータ推定を通して人物の3次元姿勢を推定するというものです。このアプローチでは3次元姿勢の推定と同時に人物形状の復元を行うことができるため、より幅広いアプリケーションへの適用が可能です。人物形状復元 (Human Shape Reconstruction) に関する研究については別の記事でより詳細に紹介する予定です。

人体モデル

人体モデルとして主に用いられるのは Skinned Multi-Person Linear model (SMPL) [16] と呼ばれるモデルです。SMPLは頂点数6890点のメッシュおよび23点の関節点により人物形状と姿勢を表現するモデルです。このモデルは形状ベクトル β と姿勢ベクトル θ をパラメータとして持ち、これらのパラメータを変化させることにより人物の形状と姿勢を操作することができます。各パラメータにおける人物形状および姿勢はモーションキャプチャシステムを用いて構築された人体メッシュデータセットを用いた学習により決定されます。

人体モデルSMPL [16]

提案内容

本研究ではSMPLモデルのパラメータを畳み込みニューラルネットワークにより推定する Human Mesh Recovery (HMR) と呼ばれる手法を提案しています。既存の人体モデルを用いた手法には推定された2次元姿勢などに基づき人体モデルのパラメータ最適化を行うもの [17] が存在しますが、最適化の計算コストが高いという課題がありました。それに対して本手法ではSMPLモデルのパラメータを直接推定するため高速な推論が可能です。

HMRの枠組みは下図のようになっています。モデルは単眼画像を入力にSMPLモデルのパラメータである形状ベクトル β と姿勢ベクトル θ および弱透視投影カメラモデルにおけるカメラパラメータから成る計85次元のベクトルを出力します。SMPLモデルのパラメータに加えカメラパラメータを推定しているため、人物の3次元復元結果を画像上に再投影することが可能です。

Human Mesh Recovery の枠組み

本モデルの学習は関節点の2次元座標アノテーションおよび入力画像と非対応なモーションキャプチャデータ (Unpaired Data) を用いて行うことが可能で、Reprojection Error と Adversarial Loss の2つのロスを使用してモデルを学習します。Reprojection Error は推定された人体モデルのパラメータから得られる3次元姿勢を画像上に射影して得られる2次元姿勢に対するL1ロスです。しかし、人体構造的に不自然な推定姿勢でもこのロスを小さくすることができてしまうという問題があります。それを防ぎ、自然な人物姿勢を推定するために Adversarial Loss を使用します。このとき、DiscriminatorはSMPLモデルのパラメータを入力し、それがモデルにより推定されたものであるかモーションキャプチャデータからのものであるかを識別します。敵対的学習の枠組みにはLSGANを用いてエンコーダーおよびDiscriminatorの学習を行います。

画像に対応付いた3次元的なアノテーションが利用可能な場合は、上記ロスに加え、推定された3次元姿勢に対するMSEとSMPLモデルのパラメータに対するMSEの和を用いてモデルを学習します。

実験結果

画像に対応付いた人体メッシュの正解データが存在しないため、Human3.6Mデータセットでの3次元姿勢の Reconstruction Error を用いてモデルの定量評価を行なっています。本手法は人体モデルを用いた既存手法の性能を上回るとともに、画像と対応付いた3次元アノテーションを用いずともそれなりの性能が出ることが確認されました。しかし、関節点座標を直接推定する手法には及ばない性能となりました。

Human3.6Mデータセットでの性能比較

定性評価では画像に対応付いた3次元アノテーションを使用した場合、使用しなかった場合の推定結果を比較し、画像と対応付いた3次元アノテーションを用いずとも同程度の推定が可能であることを確認しました。

画像に対応付いた3次元アノテーションを使用した場合(青)、

使用しなかった場合(赤)の推定結果

また、3次元アノテーションおよび敵対的学習を利用せずにモデルを学習した場合、画像へ射影された2次元姿勢は正確なものの、不自然な形状および3次元姿勢が推定されてしまうことが確認されました。

3次元アノテーションおよび敵対的学習を用いなかった場合の推定結果

近年の研究動向

近年の 3D Pose Estimation に関する研究には多様な提案をしているものが存在します。ここからは、それら研究の中でも特に注目度の高いと思われるものを ICCV 2019 採録論文を中心としてトピック毎に紹介します。以下で紹介する研究事例はそれぞれ次のトピックに対応しています。

· 関節点の前後関係のアノテーションの活用

· ヒートマップ推定と回帰を統合したアプローチの提案

· 2次元アノテーションを用いたモデルの学習

· 時系列情報の活用

· 複数人物3次元姿勢推定

· 多視点画像からの3次元姿勢推定

· Human Motion Prediction

Ordinal Depth Supervision for 3D Human Pose Estimation (Pavlakos+, CVPR 2018 Oral) [18]

3次元姿勢推定の課題として、関節点の3次元座標のアノテーションを行うためには専用の機材が必要であるため、大規模なデータセットの構築や、野外画像から成るデータセットの構築が困難であることを前述しました。この問題への対応策として、関節点の前後関係のアノテーションを活用するアプローチが存在します。正確な3次元座標とは異なり、関節点ペアの奥行きの前後関係は画像さえあれば人手でアノテーションすることが可能です。本研究ではこのような関節点の前後関係のアノテーションを用いてモデルを学習する方法を提案しており、正確な3次元座標のアノテーションを用いずともそれなりの性能が得られることを示しました。また、既存の2次元データセットに前後関係のアノテーションを付加して3次元データセットと共に利用することで、既存手法を上回る性能を達成しました。

アプローチの概要

提案内容

関節点の前後関係のアノテーション

関節点ペア (i, j) に対し、それらの前後関係のアノテーション r(i, j) は次のように与えられます。

· 1:ij より近くに存在するとき

· -1:ij より遠くに存在するとき

· 0:ij がほぼ同じ奥行きに存在するとき

本研究では上記アノテーションを用いた学習が可能な2種類の3次元姿勢推定手法を提案し、実験でそれぞれの比較検証を行なっています。

座標を直接回帰する手法

この手法では関節点のデプスと2次元座標を直接回帰することにより3次元姿勢推定を行います。このとき、モデルの出力は (関節点数)× 3 次元のベクトルとなります。ロス関数には2次元座標の推定結果に対するL2ロスと推定されたデプスに対する Ranking Loss の重み和を用いてモデルを学習します。推定されたデプス値を z とするとき、Ranking Loss は下式で定義されます。

このロス関数は、関節点ペアの奥行きの相対的な関係に対し、遠くに存在する関節点のデプス値が大きく、近くに存在するもののデプス値が小さくなるよう教師信号を与えます。

ヒートマップを用いる手法

もう1つの提案手法であるヒートマップを用いる手法では、モデルの推定対象が Coarse-to-Fine. と同様の3次元ヒートマップとなります。推定されたヒートマップにSoftmax関数をかけ値を正規化した後で、デプス方向の和をとることで2次元ヒートマップを、空間方向の和をとることでデプスの尤度ベクトルを算出します。そして、2次元ヒートマップから関節点の2次元座標が、デプスの尤度ベクトルの重心座標を求めることによりデプスの推定値が得られます。

3次元ヒートマップからの2次元ヒートマップおよびデプスの尤度ベクトルの算出

モデルの学習は2次元ヒートマップに対するL2ロスとデプスに対する前述の Ranking Loss の重み和を用いて行われます。

Reconstruction Component

上記2つの手法で推定されるデプスは関節点の相対的な位置関係を表す値となっていますが、実空間における大きさの単位を持っていません。そのため、このデプス値をメートルを単位とする値に変換するためのモジュールとして Reconstruction Component が提案されています。このモジュールは関節点の2次元座標と相対的なデプス値を入力に真のデプス値を推定します。モジュールの学習はモーションキャプチャデータのみを用いて行うことが可能で、3次元姿勢を適当な画像上に射影したときの2次元姿勢およびノイズを加えたデプスを入力とし、L2ロスを使用してモジュールを学習します。

Reconstruction Component

Reconstruction Component は下図のように、上述したモデルと統合してEnd-to-endに学習することが可能です。

Reconstruction Component の統合

実験結果

第一の実験として、Human3.6MデータセットにおいてGround-truthの3次元座標アノテーションを用いてモデルを学習した場合、前後関係のアノテーションを用いた場合の性能比較を行なっています。下表において、Depth Prediction はデプスのみを回帰で推定し2次元座標にはGround-truthを用いたもの、Coordinate Regression は座標を直接回帰する手法、Volume Regression は3次元ヒートマップを用いる手法です。全ての手法において、モデルのバックボーンには Hourglass Network が使用されています。結果としては、前後関係のアノテーションを用いて学習されたモデルは全ての手法においてGround-truthの3次元座標アノテーションを用いた場合に近い性能が得られており、前後関係のアノテーションの有効性が確認されました。

Human3.6MデータセットにおいてGround-truthの3次元アノテーション、

前後関係のアノテーションを用いた場合の性能比較

また、2次元データセットであるLSPデータセットとMPIIデータセットに関節点の前後関係のアノテーションを付加し、Human3.6Mデータセットと併用してモデルの学習を行っています。Ablation Study により、両データセットの併用および Reconstruction Component の有効性を実証しました。

Human3.6Mデータセットでの Ablation Study

MPI-INF-3DHPデータセットでの Ablation Study では、Human3.6Mデータセットのみで学習されたモデル、前後関係のアノテーションが付加された2次元データセットを併用して学習されたモデルの性能を比較しています。Human3.6Mデータセットのみを用いた場合は非常に低い性能となっていますが、外観の多様性に富む持つ2次元データセットを併用することで大きく性能が改善することが確認されました。

MPI-INF-3DHPデータセットでの Ablation Study

また、両データセットを併用して学習されたモデルは既存手法を上回る性能を達成しました。

Human3.6Mデータセットでの既存手法との性能比較 (MPJPE)

Integral Human Pose Regression (Sun+, ECCV 2018) [19]

姿勢推定において主流となっているヒートマップを用いたアプローチは認識性能に優れる一方で、ヒートマップにおいて値が最大の位置を関節点の推定座標とする処理は微分不可能であるため、関節点座標の推定がEnd-to-endではありませんでした。また、ダウンサンプリングされたヒートマップから推定を行うため、推定座標に量子化誤差が発生するという問題点があります。一方で、回帰によるアプローチはEnd-to-endかつ連続的な出力をすることが可能ですが、学習が難しいという問題があります。本研究ではそれらを踏まえ、ヒートマップ推定と回帰を統合した2次元/3次元姿勢推定手法を提案し、2つのアプローチの利点の両立を図るとともに、2次元/3次元データセット双方に対する提案手法の有効性を実証しました。

提案手法

提案手法である Integral Regression では以下の流れで姿勢推定を行います。

1. 入力画像に対し、関節点毎の2次元または3次元のヒートマップを出力する

2. ヒートマップに対してSoftmax関数をかけ値を正規化する

3. 正規化されたヒートマップの重心位置を求めることにより各関節点の推定座標を得る

ヒートマップ重心を求める処理であるSoft-argmax関数は微分可能であるため、関節点座標の推定までを含めたモデル全体をEnd-to-endに学習することができます。学習時はヒートマップに対するロス、推定された関節点座標に対するロスを組み合わせてモデルを学習することが可能で、実験でそれらの組み合わせによるモデルの性能を比較検証しています。

Integral Regression の概要 [20]

また、3次元姿勢推定の場合、3次元ヒートマップのデプス方向とx軸またはy軸方向の和をとることでy軸ないしx軸方向の1次元ヒートマップが得られます。これらヒートマップに対してSoft-argmax関数をかけることにより関節点の x, y座標それぞれの推定結果が得られます。これらヒートマップと関節点座標に対するロスは関節点の2次元座標アノテーションを用いて計算することができるため、本モデルは3次元データセットと外観の多様性に富む2次元データセットを併用して学習することが可能です。

実験結果

ヒートマップに対するロスと関節点座標に対するロスの組み合わせによる性能の違いを比較検証しています。その際、関節点座標に対するロスには全ての実験でL1ロスを使用しています。比較手法は以下になります。

· R1:関節点座標を直接回帰するベースライン手法

· H1:ヒートマップのみにロスを適用(ガウス分布に基づき正解ラベルを作成、L2ロスを使用)

· H2:ヒートマップのみにロスを適用(One-hotな正解ラベル、Cross Entropy ロスを使用)

· H3:ヒートマップのみにロスを適用(関節点座標を中心とする円内を1、それ以外を0とする2値のラベル、Binary Cross Entropy ロスを使用)

· I*:関節点座標のみにロスを適用

· I1, I2, I3:ヒートマップおよび関節点座標にロスを適用(数字はヒートマップに対するロスに対応)

MPIIデータセットに対する2次元姿勢推定での各手法の性能比較により、ヒートマップを用いた手法に対する Integral Regression の優位性を実証しました。その際、ヒートマップはガウス分布で生成しL2ロスをかける場合が最も高い性能となりました。

MPIIデータセットでの各手法の性能比較

COCOデータセットでは提案手法が既存の2次元姿勢手法の性能を上回ることを示しました。

COCO test-dev set での既存手法との性能比較

Human3.6Mデータセットに対する3次元姿勢推定の評価実験では、ヒートマップを用いた3次元姿勢推定手法である Coarse-to-Fine. 、それを再実装した Ours H1、さらに Integral Regression を加えた Ours I1 の性能を比較しました。ベースラインである Ours H1 が Coarse-to-Fine. の性能を既に上回っており、それに Integral Regression を加えることでさらに性能が向上することが確認されました。

Coarse-to-Fine. との性能比較(Human3.6Mデータセットに対するMPJPE)

また、2次元/3次元データセット併用の効果を検証する実験を行い、これらデータセットの併用によりモデルの性能が大きく向上することを実証するとともに、2次元姿勢推定の場合とは異なり3次元姿勢推定の場合は関節点座標のみにロスをかけたI*が最も高い性能となることを確認しました。

Human3.6Mデータセットに対する各手法のMPJPE

Strategy1:Human3.6Mデータセットのみを用いてモデルを学習

Strategy2:Human3.6MデータセットとMPIIデータセットを併用してモデルを学習

MPIIデータセットとHuman3.6Mデータセットを併用して学習されたモデルはHuman3.6Mデータセットにおいて既存手法を上回る MPJPE 49.6 mm を達成しました。

Human3.6Mデータセットでの既存手法との性能比較

本論文が発表されて以降、3次元ヒートマップに対するSoft-argmax関数適用による3次元姿勢推定手法が多く見られるようになりました。

C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion (Novotny+, ICCV 2019 Oral) [21]

これまでに紹介した研究には、2次元アノテーションと3次元アノテーションを併用することによりモデルの性能改善を行うものがいくつか見られました。一方で、近年では3次元アノテーションを使用せず、2次元アノテーションのみを用いてモデルを学習する手法がいくつか提案されています [22, 23]。しかし、これらの手法では人物姿勢のみを推定の対象としていました。

それに対し今回紹介する研究では、2次元キーポイントからの3次元復元を、2次元キーポイントの複数の観測結果から、カメラ視点、物体姿勢、基準となる形状を求める Non-Rigid Structure from Motion (NR-SFM) 問題として定式化することにより、任意の非剛体の物体クラスに対する3次元復元を可能としました。本手法では、学習時はある非剛体クラスに属する物体の複数の2次元キーポイントのアノテーションを用いてモデルの学習を行います。テスト時は2次元キーポイントの1つの観測結果から3次元復元を行うことが可能です。

提案手法

本手法は下図のような枠組みとなっています。Factorization Network は物体の2次元キーポイントを入力とし、物体の姿勢を表す Shape Coefficients、基準となる形状である Shape Basis、カメラ視点を表す Viewpoint Parameters の3つを推定します。

手法の枠組み

モデル学習時に第一のロスとして使用されるのは、上記推定結果を用いた物体の3次元復元結果を画像上に射影したときの2次元キーポイントの再投影ロスで、Pseudo-huber Loss を用います。

しかし、このロスだけを用いると、複数の物体姿勢とカメラ視点の組が同一の3次元復元結果となりうるため、推定結果に曖昧性が生じてしまうという問題があります。そこで、向きの正規化された物体姿勢を推定することでカメラ視点を一意に定めるために、Canonicalization Network Ψ を使用し、第二のロスを適用します。Canonicalization Network は物体の3次元姿勢を入力とし、その向きを正規化するネットワークです。このとき、Factorization Network を用いて復元された3次元姿勢に任意の回転を適用したものを Canonicalization Network に入力して得られる3次元姿勢が、入力前の3次元姿勢と近くよう Pseudo-huber Loss を適用します。これにより、Factorization Network による3次元復元結果の向きが下図のように正規化されたものとなります。

Canonicalization Network Ψ の効果

実験結果

実験では、本手法が既存の2次元キーポイントからの3次元姿勢推定手法の性能を上回ることを示しました。

Human3.6Mデータセットでの性能比較

また、本手法により、人物に限らない任意の非剛体の3次元復元ができることを示しました。

提案手法による3次元推定結果

Occlusion-Aware Networks for 3D Human Pose Estimation in Video (Cheng+, ICCV 2019) [24]

コンピュータビジョンの様々なタスクにおいて、動画データにおける時系列情報の活用による認識性能向上が確認されています。3次元姿勢推定において時系列情報の活用を図った研究事例としては、入力である2次元姿勢の時系列的なシーケンスに対して Dilated Convolution を用いたネットワークを適用する手法 [25]、Graph Convolutional Network を用いた手法 [26] などが提案されています。これらの手法では時系列情報を活用することで遮蔽などにより誤った推定結果を補正し、時系列的に一貫した3次元姿勢の推定を図っています。しかし、遮蔽は複数フレームに渡って連続的に発生する性質を持つため、遮蔽を明示的に取り扱わないこれら手法の効果は限定的であることを本論文の著者らは指摘しています。それを踏まえ、本研究では遮蔽を明示的に取り扱い、遮蔽された関節点を近傍フレームの情報を用いて補完する手法を提案し、既存手法を上回る性能を達成しました。

提案手法

本手法の枠組みは下図のようになっており、モデルは以下の3つのネットワークから構成されます。

· First Network:入力動画の各フレームの2次元姿勢および各関節点の遮蔽を推定する

· 2D Dilated Temporal Convolutional Network (2D TCN):First Network による2次元姿勢をリファインする(遮蔽された関節点の補完は行わない)

· 3D TCN:2D TCN により推定された2次元姿勢を入力に、遮蔽された関節点が補完された3次元姿勢を推定する

手法の枠組み

First Network

このネットワークは動画を入力とし、各フレームに対するヒートマップ推定を通して人物の2次元姿勢および各関節点が遮蔽されているかどうかを推定します。ヒートマップの正解ラベルは遮蔽された関節点の場合は全て0、そうでない場合は関節点座標に単一のピークを持たせたあとガウシアンフィルタで平滑したものとし、MSEをロス関数として使用します。推定時はヒートマップのピーク位置を関節点 i の推定座標、ピークの値を推定の確信度 Ci とします。最終的な確信度は、推定座標に対して Optical Flow を適用して得られるフローベクトル di 、前後フレーム間の推定座標の移動量 oi の差が大きいほど低くなるよう、次式を用いて算出されます。

この確信度を閾値処理することにより、各関節点が遮蔽されているか否かを判定します。

2D TCN

このネットワークは First network で推定された2Dポーズのシーケンスを入力に、それらをリファインするために使用されます。このとき、遮蔽された関節点に対する推定は行いません。具体的には、First Network で遮蔽されていると判定された関節点の値は入力、Ground-truthともに0とし、MSEをロス関数に用いてモデルを学習します。

3D TCN

このネッワークは2次元姿勢のシーケンスを入力に3次元姿勢のシーケンスを出力します。その際、遮蔽された関節点の補完も同時に行います。ロス関数には、関節点の3次元のGround-truthが存在する場合は3次元姿勢に対するMSEを、存在しない場合には3次元姿勢を画像上に射影して得られる2次元姿勢に対するMSEを使用します。また、人物の左右の骨の長さが等しくなるようなロス (Symmetry Constraint)、推定される姿勢が自然なものとなることを目的とした Adversarial Loss も同時に使用します。

Cylinder Man Model

3D TCN を学習するためには遮蔽ラベル付きの2次元姿勢と3次元姿勢が対応付いたデータが必要ですが、既存の3次元データセットにはカメラ視点によりどの関節点が遮蔽されるかを表す遮蔽ラベルは存在しません。そこで、遮蔽ラベルを生成するための人体モデルとして下図の Cylinder Man Model を提案しています。このモデルは両底面の中心を関節点とする円柱の組により人物形状を表現するシンプルなものとなっています。このモデルを使用し、任意のカメラ配置をしたときに円柱により関節点が遮蔽されるか否かに基づき遮蔽ラベル付きの2次元姿勢と3次元姿勢が対応づいた学習データを取得します。

Cylinder Man Model

Pose Regularization

遮蔽により欠損した入力に対する3次元座標を推定する際、推定結果が一意に定まりにくいという問題があります。これに対処するため、入力において欠損した関節点に対する3次元推定結果が Cylinder Man Model において遮蔽されるような制約をかけます。

実験結果

提案手法において重要なハイパーパラメータである入力シーケンスのフレーム数 Seq、遮蔽判定の閾値 t による性能の変化を調査し、入力シーケンスのフレーム数が128、遮蔽判定の閾値が0.3のときに性能が最も高くなることを確認しました。

ハイパーパラメータによる性能検証

(Human3.6Mデータセットに対するMPJPE)

また、提案手法における各構成要素の性能への寄与を検証する Ablation Study を行い、それぞれの要素の有効性を示しました。

Human3.6Mデータセットでの Ablation Study

本手法はHuman3.6Mデータセットにおいて、既存の最先端手法の性能を大きく上回る MPJPE 42.9 mm を達成しました。

Human3.6Mデータセットでの既存手法との性能比較

Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image (Moon+, ICCV 2019) [27]

既存の多く3次元姿勢推定手法は単一人物を対象とした手法となっていました。それに対し、本研究では複数人物を対象とした3次元姿勢推定手法を提案しています。単一人物を対象とする手法では Root Joint を原点とした各関節点の相対座標を推定する場合が多いですが、複数人物を対象とする場合、各人物の絶対的な位置を特定する必要があります。本研究では Root Joint の絶対座標を推定するRootNetを用いることでこれを実現しています。

提案手法

提案手法は下図のようにDetectNet、RootNet、PoseNetの3つのモジュールから成り立っており、それぞれの役割は以下のようになっています。

· DetectNet:入力画像から人物矩形を検出する

· RootNet:入力画像からクロップされた人物画像を入力に Root Joint の絶対座標を推定する

· PoseNet:RootNetと同様の人物画像を入力に各関節の Root Joint からの相対座標を推定する

DetectNet、PoseNetには既存の人物検出器および単一人物3次元姿勢推定手法を使用することができ、本研究ではDetectNetに Mask R-CNN を、PoseNetに Integral Regression を採用しています。

手法の枠組み

RootNetのアーキテクチャは下図のようになっています。モデルの推定対象は Root Joint の画像座標およびデプスで、これらを用いて Root Joint の絶対座標を算出します。

RootNetのアーキテクチャ

図中 k は実空間における人物の面積が一定であるという仮定をおいたときの Root Joint のデプス値で、次式で表されます。

ここで、 αxαy はカメラのx、y軸方向の焦点距離、ArealAimg はそれぞれ実空間における人物の面積、画像上の人物の面積を表します。αxαy にはデータセットの焦点距離を使用し、Areal を 2000 mm × 2000 mm と仮定し、Aimg をDetectNetで検出された人物矩形の面積とすることで、上式から Root Joint のデプス値が得られます。

しかし、上式では人物の姿勢による矩形サイズの変化(下図 (a))や、実空間での人物サイズの違い(下図 (b))を表現できず、これらが生じた場合にデプスを正確に求めることができないという問題があります。

この問題に対処するため、RootNetは画像の外観情報を用いて人物サイズに関する係数 γ を出力します。γ を用いて k 値を補正することにより、最終的なデプスの推定結果が得られます。

モデルの学習は Root Joint の画像座標およびデプスに対するL1ロスを用いて行われます。

実験結果

複数人物3次元姿勢推定データセットであるMuPoTS-3Dを用いてDetectNetとRootNetに関する Ablation Study を行い、RootNetによる人物サイズ補正の有効性を確認しました。

MuPoTS-3Dデータセットでの Ablation Study

また、本手法は既存の複数人物3次元推定手法を上回る性能を達成しました。

MuPoTS-3Dデータセットでの既存手法との性能比較

本手法の推定結果例は下図のようになっており、様々な外観の画像に対して適切に推定ができていることが分かります。

MuPoTS-3Dデータセット(上段)およびCOCOデータセット(下段)に対する推定結果例

Learnable Triangulation of Human Pose (Iskakov+, ICCV 2019 Oral) [28]

多視点画像からの3次元姿勢推定は、単眼カメラ手法のモデルを学習するためのGround-truth作成や、スポーツやコンピュータ支援生活などの複数カメラを用いたアプリケーションにおいて必要となる技術です。これら応用に際して、少数のカメラを使用した高精度なアルゴリズムが求められています。

しかし、単眼カメラ画像からの3次元姿勢推定の研究が盛んに行われる一方で、多視点画像を対象とした研究はそれほど行われてきませんでした。既存の多視点画像を用いたKadkhodamohammadiらの3次元姿勢推定手法 [29] では、各カメラ画像に対する2次元姿勢推定結果を結合してモデルに入力することで3次元姿勢を推定しますが、学習時と同様のカメラ配置でしか推論ができないという問題があります。また、彼らの手法は精度面で最先端の単眼カメラ手法に劣っています。

それらを踏まえ、本研究では任意のカメラ設定での推論が可能な多視点画像からの3次元姿勢推定手法を提案し、少数のカメラを用いても非常に高精度な推論ができることを示しました。

提案手法

本研究では多視点画像を用いた次の2種類の3次元姿勢推定手法を提案しています。

· Algebraic Triangulation

· Volumetric Triangulation

両手法ともに任意のカメラ台数、カメラパラメータでの推論が可能であるとともに、End-to-endな学習が可能です。

Algebraic Triangulation

この手法では各カメラ画像に対する2次元姿勢推定を行った後、三角測量により3次元姿勢を推定します。2次元姿勢推定は2次元ヒートマップに対してSoft-argmax関数をかけることで行われます。バックボーンはヒートマップと共に各関節点の確信度を出力しており、この確信度を三角測量における3次元姿勢の最小二乗解を求める際に利用することで、確信度の高いカメラからの推論結果を重視したノイズに頑健な推論を行うことが可能となります。

Algebraic Triangulation

ロス関数には、推定された3次元姿勢に対して、外れ値へのロスを緩和したMSEを適用します。中間的に推定される2次元ヒートマップに対する教師信号の適用は行いません。

Volumetric Triangulation

こちらの手法では各カメラ画像から抽出された画像特徴を統合することにより得られる3次元特徴マップを用いて3次元姿勢を推定します。3次元特徴マップの座標は人物周囲の空間に対応付いており、各カメラ画像から抽出された特徴マップはカメラパラメータを用いて3次元特徴マップ中に下図のように逆射影されます。このとき、複数カメラからの特徴マップの統合方法として以下3つの手法が比較検証されています。

· Sum Aggregation:対応関係にあるVoxel同士の和をとる

· Conf Aggregation:Algebraic Triangulation と同様の方法で推定された確信度を用いてVoxelの重み和をとる

· Softmax Aggregation:対応関係にあるVoxelにSoftmax関数をかけ、この値を用いてVoxelを重み和する(最大値をとるのに近い処理)

得られた3次元特徴マップに対して 3D CNN を適用することにより3次元ヒートマップを求め、それに対してSoft-argmax関数をかけることで最終的な3次元姿勢の推定結果が得られます。

Volumetric Triangulation

推定された3次元姿勢に対するL1ロスに加え、3次元ヒートマップにおける関節点の正解座標の値が大きくなるよう制約を与えるロスを用いてモデルを学習します。

実験結果

Human3.6Mデータセットを用いて既存の単眼手法および多視点手法と提案手法の性能を比較する実験を行っています。提案手法は単眼カメラ画像を用いた推論も可能であり、最先端の単眼手法に匹敵する性能となっています。また、多視点画像を用いた場合、提案手法は既存手法を大きく上回る性能を達成しています。特に Volumetric Triangulation において Softmax Aggregation と Conf Aggregation を用いた場合が最も性能が高く、MPJPE 20.8を達成しています。

Human3.6Mデータセットでの性能比較

CMU Panoptic データセットにおいてカメラ台数とモデルの性能の関係を調査する実験を行い、提案手法は4台程度の少数のカメラでも十分に精度の高い推定が可能なことを示しました。

CMU Panoptic データセットにおけるカメラ台数とMPJPEの関係

Human3.6Mデータセットで学習されたモデルの CMU Panoptic データセットに対する推定結果は下図のようになっており、学習時と推論時のカメラ条件が異なっても適切な推定が可能であることを実証しています。

Human3.6Mデータセットで学習されたモデルの CMU Panoptic データセットに対する推定結果

以下のデモ動画を見ると、提案手法による推定結果はGround-truthよりも正確なものとなっているように見えます。著者らも本手法を用いることで、Ground-truth自体の改善が可能であることを主張しています。

Learning Trajectory Dependencies for Human Motion Prediction (Mao+, ICCV 2019 Oral) [30]

最後に紹介するのは、複数フレームの人物画像や人物姿勢が与えられたときに、近い将来における人物姿勢を推定する Human Motion Prediction に関する研究です。ICCV'19では本トピックに関する論文が5本採録されています。今回紹介する研究は、関節点の時系列的な表現として、各時刻での座標表現を用いるのではなく、離散フーリエ変換により得られる軌跡表現を用いる点、ネットワークに Graph Convolutional Network を使用し、その際に事前に定義したグラフを用いるのではなく、グラフの結合関係を適応的に学習する点が既存手法との差分となっています。

提案手法

本研究の目的は、1 から N フレームまでの人物姿勢を入力に、N + 1 から N + T フレームまでの人物姿勢を予測することです。

提案手法の枠組みは下図のようになっています。

手法の枠組み

本手法では、入力である人物姿勢のシーケンスに対して離散フーリエ変換 (DCT) を適用することにより、人物姿勢を各周波数の軌跡成分の重み和による軌跡を用いて表現します。その際、高周波成分を除外することにより、計算コストの削減および時系列的になめらかな人物姿勢の推定が可能になると主張されています。よって、モデルの入力は全ての関節点に対するDCTの各周波数成分の係数値となります。このとき、入力シーケンスにおける最終フレームの姿勢を推定フレーム数の分だけ複製(パディング)してからDCTを適用し、モデルに入力します(実験でこの効果を検証しています)。モデルの出力は 1 から N + T フレームまでの姿勢に対応するDCTの係数値となります。最終的な人物姿勢の予測結果は出力されたDCTの係数値に逆離散フーリエ変換 (IDCT) を適用することで得られます。

ネットワークには Graph Convolutional Network (GCN) を使用することで、人物関節点の結合関係を明示的に利用した推論を行います。その際、グラフの隣接行列および重みを学習可能なパラメータとした Graph Convolutional Layer を使用することで、関節点の結合関係を自動で学習できるような設計としています。ネットワークは2層の Graph Convolutional Layer および Residual Connection から成るブロックを12回繰り返した構造を持ち、入出力におけるDCTの係数値の残差を出力するよう学習されます。

人物姿勢の表現方法として、角度表現または座標表現のどちらかを使用することとなります。角度表現を用いる場合はIDCT後の角度に対するL1ロスを、座標表現を用いる場合はIDCT後の座標に対するMSEをロスとしてモデルの学習を行います。

実験結果

Human3.6M、CMU-Mocap、3DPWの3つのデータセットで既存手法との性能比較を行い、いずれの場合においても既存手法を上回る性能を達成しました。下表はHuman3.6Mデータセットでの既存手法との性能比較結果です。同一姿勢に対して複数の表現方法が生じうる角度表現よりも、表現が一意に定まる座標表現を用いた場合に最も性能が高くなっています。

Human3.6Mデータセットに対するMPJPE。3Dは座標表現を用いて推定を行なった場合、それ以外は角度表現を用いて推定を行なった場合

また、モデルの入力に対するDCT、入力シーケンスに対するパディング、ネットワーク中の Residual Connection の有効性を検証する Ablation Study を行い、それぞれの有効性を示しました。特に、入力シーケンスに対するパディングがモデルの性能に大きく影響していることが確認されました。

DCT、Padding Strategy、Residual Connection に関する Ablation Study

さらに、使用するネットワークによる性能比較を行い、Fully-connected Network に対するGCNの優位性および人物関節点の接続関係学習の有効性を示しました。

ネットワークによる性能比較

本手法による推定結果は下図のようになっており、座標表現を用いた提案手法の推定結果がGround-truthと最も近くなっています。

推定結果例。1段目はGround-truth、2, 3段目は既存手法による推定結果、

4, 5段目はそれぞれ角度表現、座標表現を用いた提案手法による推定結果

おわりに

今回は 3D Human Pose Estimation の代表的な手法および近年の研究動向をご紹介しました。単眼カメラからの3次元姿勢推定には様々なアプローチが存在し、それぞれに向き不向きが存在しました。ヒートマップを用いたアプローチが主流の2次元姿勢推定に対し、3次元姿勢推定ではそれ以外のアプローチも広く用いられる傾向にあります。また、近年の研究には多様な手法を用いてモデルの性能向上を図るものや、複数人物3次元姿勢推定、Human Motion Prediction などのより高度なタスクに取り組むものが存在しました。モデルの性能向上に関しては、外観の多様性に富む2次元データセットを併用した学習の有効性が多くの研究で示されていました。今後もこの分野の研究の発展に期待が高まります。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] I. Habibie, W. Xu, D. Mehta, G. Pons-Moll, C. Theobalt, "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations," In CVPR, 2019.

[2] C. Ionescu, D. Papava, V. Olaru, C. Sminchisescu, "Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments," In TPAMI, 2014.

[3] L. Sigal, A. O. Balan, M. J. Black, "HUMANEVA: Synchronized Video and Motion Capture Dataset and Baseline Algorithm for Evaluation of Articulated Human Motion," In IJCV, 2010.

[4] D. Mehta, H. Rhodin, D. Casas, P. Fua, O. Sotnychenko, W. Xu, C. Theobalt, "Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision," In 3DV, 2017.

[5] The Captury, http://www.thecaptury.com/, 2019.

[6] H. Joo, T. Simon, X. Li, H. Liu, L. Tan, L. Gui, S. Banerjee, T. Godisart, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, Y. Sheikh, "Panoptic Studio: A Massively Multiview System for Social Interaction Capture," In TPAMI, 2017.

[7] B. Tekin, I. Katircioglu, M. Salzmann, V. Lepetit, P. Fua, "Structured Prediction of 3D Human Pose with Deep Neural Networks," In BMVC, 2016.

[8] S. Li, A. B. Chan, "3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network," In ACCV, 2014.

[9] G. Pavlakos, X. Zhou, K. G. Derpanis, K. Daniilidis, "Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose," In CVPR, 2017.

[10] A. Newell, K. Yang, J. Deng, "Stacked Hourglass Networks for Human Pose Estimation," In ECCV 2016.

[11] J. Martinez, R. Hossain, J. Romero, J. J. Little, "A simple yet effective baseline for 3d human pose estimation," In ICCV, 2017.

[12] X. Zhou, Q. Huang, X. Sun, X. Xue, Y. Wei, "Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach," In ICCV, 2017.

[13] C.-H. Chen, D. Ramanan, "3D Human Pose Estimation = 2D Pose Estimation + Matching," In CVPR, 2017.

[14] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, "Convolutional Pose Machines," In CVPR 2016.

[15] A. Kanazawa, M. J. Black, D. W. Jacobs, J. Malik, "End-to-end Recovery of Human Shape and Pose," In CVPR, 2018.

[16] M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, M. J. Black, "SMPL: A Skinned Multi-Person Linear Model," In SIGGRAPH Asia, 2015.

[17] F. Bogo, A. Kanazawa, C. Lassner, P. Gehler, J. Romero, M. J. Black, "Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image," In ECCV, 2016.

[18] G. Pavlakos, X. Zhou, K. Daniilidis, "Ordinal Depth Supervision for 3D Human Pose Estimation", In CVPR, 2018.

[19] X. Sun, B. Xiao, F. Wei, S. Liang, Y. Wei, "Integral Human Pose Regression", In ECCV, 2018.

[20] Integral Human Pose Regression, https://jimmysuen.github.io/slides/xiaosunintegralhumanposeregression.pptx, 2019.

[21] D. Novotny, N. Ravi, B. Graham, N. Neverova, A. Vedaldi, "C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion", In ICCV, 2019.

[22] Y. Kudo, K. Ogaki, Y. Matsui, Y. Odagiri, "Unsupervised adversarial learning of 3D human pose from 2D joint locations," In arXiv preprint arXiv:1803.08244, 2018.

[23] C.-H. Chen, A. Tyagi, A. Agrawal, D. Drover, R. MV, S. Stojanov, J. M. Rehg, "Unsupervised 3D Pose Estimation with Geometric Self-Supervision," In CVPR, 2019.

[24] Y. Cheng, B. Yang, B. Wang, W. Yan, R. T. Tan, "Occlusion-Aware Networks for 3D Human Pose Estimation in Video", In ICCV, 2019.

[25] D. Pavllo, C. Feichtenhofer, D. Grangier, M. Auli, "3D human pose estimation in video with temporal convolutions and semi-supervised training", In CVPR, 2019.

[26] Y. Cai, L. Ge, J. Liu, J. Cai, T.-J. Cham, J. Yuan, N. M. Thalmann, "Exploiting Spatial-Temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks", In ICCV, 2019.

[27] G. Moon, J. Y. Chang, K. M. Lee, "Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image", In ICCV, 2019.

[28] K. Iskakov, E. Burkov, V. Lempitsky, Y. Malkov, "Learnable Triangulation of Human Pose", In ICCV, 2019.

[29] A. Kadkhodamohammadi, N. Padoy, "A generalizable approach for multi-view 3D human pose regression," In 2018.

[30] W. Mao, M. Liu, M. Salzmann, H. Li, "Learning Trajectory Dependencies for Human Motion Prediction", In ICCV, 2019.

続きを読む

2019/11/25 10:00

コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編

Naoki Kato

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 (@nk35jk) が調査を行いました。

本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。

過去の他タスク編については以下をご参照ください。

· Human Recognition 編 (2019/04/26)

· 3D Vision 編 (2019/06/04)

· キーポイント検出の手法を用いた物体検出編 (2019/07/08)

· Object Tracking 編 (2019/07/17)

· Segmentation 編 (2019/08/19)

· Single Image Super-Resolution 前編 (2019/09/24)

· 動画認識編 (2019/10/09)

目次

· 前提知識

o Human Pose Estimation の位置付け

o 関連するデータセット

o 評価方法

· 代表的な研究事例

o Top-down型アプローチ

§ DeepPose (CVPR 2014)

§ Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation (NIPS 2014)

§ Convolutional Pose Machines (CVPR 2016)

§ Stacked Hourglass Networks (ECCV 2016)

§ Cascaded Pyramid Network (CVPR 2018)

§ Simple Baselines for Human Pose Estimation and Tracking (ECCV 2018)

§ High-Resolution Network (CVPR 2019)

o Bottom-up型アプローチ

§ DeepCut (CVPR 2016) / DeeperCut (ECCV 2016)

§ OpenPose (CVPR 2017, TPAMI 2019)

§ Associative Embedding (NIPS 2017)

§ PersonLab (ECCV 2018)

· ICCV 2019 採録論文の紹介

o TRB: A Novel Triplet Representation for Understanding 2D Human Body

o Single-Network Whole-Body Pose Estimation

o Single-Stage Multi-Person Pose Machines

o Dynamic Kernel Distillation for Efficient Pose Estimation in Videos

· おわりに

· 参考文献

前提知識

Human Pose Estimation の位置付け

Human Pose Estimation / 人物姿勢推定 は人物の映った画像や動画から人物の姿勢に関する情報を特定するタスクであり、以下のサブタスクに大別されます。

2D Pose Estimation

2D Pose Estimation は画像中の単一または複数人物の関節点の2次元座標を特定するタスクです。画像中の人物が単一である場合は推定すべき関節点の数が一定であるためそこまで難しい問題設定ではありません。しかし、推定対象が複数人物である場合、人物同士の重なり合いなどによる遮蔽が存在する環境下で不特定多数の人物の関節点座標を過不足なく推定する必要があるため、難度の高いタスクであると言えます。

2D Pose Estimation [7]

Pose Tracking

Pose Tracking は映像中の複数人物を追跡しつつ、それぞれの人物の2次元関節点座標を特定するタスクで、2D Pose Estimation よりもさらにチャレンジングなタスクとなっています。今回は Pose Tracking の研究の流れの詳細については触れませんので、ここで代表的と思われる研究事例をいくつかリストアップしておきます。興味のある方は論文を読んでみて下さい。

PoseTrack: Joint Multi-Person Pose Estimation and Tracking [Iqbal et al., CVPR'17]

PoseTrackデータセットを提案するとともに、Pose Tracking のベースライン手法を提案しています。ベースライン手法ではまず動画中の全ての人物の関節点の座標を推定した後、人物関節点のノード、それらを結ぶエッジからなる時空間的なグラフを構築し、整数線形計画問題に基づく最適化を行うことでグラフを分割し、各人物の姿勢情報を含んだ追跡結果を得るというBottom-up型のアプローチを取っています(本記事で紹介するDeepCut/DeeperCutと類似したアプローチです)。

Detect-and-Track: Efficient Pose Estimation in Videos [Girdhar et al., CVPR'18]

動画の数フレームを入力とし、入力された各フレームにおける複数人物の姿勢を人物を同定した上で推定する 3D Mask R-CNN を提案しています。推定された数フレーム分の人物追跡結果をハンガリアン法を用いて時系列的に割り当てていくことにより動画全体に対する人物追跡結果を得ます。ICCV 2017 PoseTrack challenge 首位手法です。

Efficient Online Multi-Person 2D Pose Tracking with Recurrent Spatio-Temporal Affinity Fields [Raaj et al., CVPR'19]

人物の関節点間の部位 (Limb) の存在を表す Part Affinity Fields、Limbの時系列的な動きをを表現する Temporal Affinity Fields を統合した Spatio-Temporal Affinity Fields を用いて人物の紐付けを行うBottom-up型のオンラインな Pose Tracking 手法を提案しました。本手法は約30fpsでの高速な推論が可能であるとともに、PoseTrackデータセットで最先端手法に匹敵する性能を達成しています。

Pose Tracking [23]

3D Pose Estimation

3D Pose Estimation は単一または複数視点の画像や動画から人物関節点の3次元座標を特定するタスクです。ここで言う3次元座標には関節点のワールド座標、カメラ座標、腰を原点とした相対座標などが含まれ、研究の目的によって推定対象は異なります。近年CV分野全体において3D認識についての研究が注目されている流れに逆らわず、Pose Estimation においても2Dから3Dへと研究の対象が移りつつある印象を受けます。3D Pose Estimation の中でも特に盛んに研究されているのが単眼カメラを用いた3次元姿勢推定です。単眼カメラを用いる場合カメラからの関節点の奥行きが不定となるため、基本的にはカメラ座標系において人物の腰を原点としたときの各関節点の相対座標を推定する問題設定となります。

3D Pose Estimation [24]

Shape Reconstruction

3D Pose Estimation が人物のスパースな関節点の座標を推定するタスクであるのに対して、Shape Reconstruction では人物表面の形状を密に推定・復元します。人物の形状は、人物モデルに基づき大まかな体系が推定される場合や、服装を含んだ詳細な形状まで推定される場合もあります。Shape Reconstruction は Pose Estimation の中でも最も新しく、かつチャレンジングなトピックであり、近年特に盛んに研究が行われています。

Shape Reconstruction [25]

本記事のスコープ

今回は上記の中でも最も基本的なタスクである 2D Pose Estimation に焦点を当てて論文を紹介します。まず、代表的な研究事例を時系列順に紹介した後、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Pose Estimation の最新論文を紹介します。近年注目されているトピックである 3D Pose Estimation、Shape Reconstruction については別の記事で紹介予定です。

関連するデータセット

2D Pose Estimation の論文では主に以下のデータセットが用いられます。この中でも近年はMPIIデータセットとCOCOデータセットを用いて評価が行われることが多い傾向にあります。AI Challenger データセットは他データセットでの評価の際に最終的なモデルの性能を引き上げるために用いられる場合や、その規模の大きさからコンペティションの際の外部データとして用いられる場合があります。

· Leeds Sports Pose (LSP):2,000枚の単一人物画像から成るデータセット

· MPII Human Pose:約4万人物の関節点座標がアノテーションされた約2万5千枚の複数人物画像から成るデータセット

· MS COCO:約15万人物の関節点座標がアノテーションされた約6万枚の複数人物画像から成るデータセット

· AI Challenger:約70万人物の関節点座標がアノテーションされた30万枚の複数人物画像から成るデータセット

データセット毎の関節点の定義およびアノテーション例は以下のようになっています。

LSP

MPII

MS COCO

AI Challenger

Right ankle

Right ankle

Nose

Right shoulder

Right knee

Right knee

Left eye

Right elbow

Right hip

Right hip

Right eye

Right wrist

Left hip

Left hip

Left ear

Left shoulder

Left knee

Left knee

Right ear

Left elbow

Left ankle

Left ankle

Left shoulder

Left wrist

Right wrist

Pelvis

Right shoulder

Right hip

Right elbow

Thorax

Left elbow

Right knee

Right shoulder

Upper neck

Right elbow

Right ankle

Left shoulder

Head top

Left wrist

Left hip

Left elbow

Right wrist

Right wrist

Left knee

Left wrist

Right elbow

Left hip

Left ankle

Neck

Right shoulder

Right hip

Top of the head

Head top

Left shoulder

Left knee

Neck

-

Left elbow

Right knee

-

-

Left wrist

Left ankle

-

-

-

Right ankle

-

各データセットの関節点の定義

各データセットのアノテーション例

評価方法

2D Pose Estimation では主に Percentage of Correct Keypoints と Average Precision という評価指標が用いられます。

Percentage of Correct Keypoints

Percentage of Correct Keypoints (PCK) は単一人物姿勢推定において利用される評価指標で、MPIIデータセットでの評価の際に主にこの指標が用いられます。PCKでは、関節点の推定座標と正解座標の距離が、ある閾値よりも小さいときにその関節点の推定を正しいものとし、推定が正しく行われた割合をその評価値とします。PCKの閾値は人物頭部のサイズ(頭部外接矩形の対角線の長さ)に基づき決定されることが多く、これはPCKhと呼称されます。例えばPCKh@0.5の場合、頭部サイズの0.5倍を閾値に設定して評価を行います。

Average Precision

Average Precision (AP) は複数人物姿勢推定の評価に利用される指標で、COCOデータセットと AI Challenger データセットはこの評価指標を採用しています。APは推定姿勢と正解姿勢の類似度を表す尺度である Object Keypoint Similarity (OKS) に基づき算出されます。OKSはアノテーションされている関節点についての推定座標と正解座標の類似度の平均を表す値となっており、次式で表されます。

ここで、diは関節点iの推定座標と正解座標の距離、sは人物のサイズ(COCOではアノテーションされている人物領域の面積を用いる)、kiは関節点の種類毎に設定される定数(推定が難しい関節点ほど大きい値を設定する)、viは関節点がアノテーションされているかどうかを表します。OKSは人物の推定姿勢と正解姿勢が完全に一致するとき1となる、物体検出のAPでの評価におけるIoUと同じ役割を持った指標であり、APはこのOKSが閾値を上回っているとき推定結果を正解であるとみなしたときに算出される平均適合率です。COCOの場合、最終的な評価値はOKSの閾値を0.50から0.95まで10段階に変化させたときのそれぞれのAPの値を平均することにより算出されます。

代表的な研究事例

ここでは 2D Human Pose Estimation の既存手法の中でも代表的と思われる手法をピックアップし、それらをTop-down型アプローチ、Bottom-up型アプローチに大別した上でそれぞれを論文が発表された順番に紹介します。今回紹介する手法は全てディープラーニングを用いた手法になっており、ディープラーニング台頭以前の手法については紹介しませんのでご注意ください。使用している図表は紹介論文から引用したものとなります。

Top-down型アプローチ

Top-down型のアプローチでは、まず画像中の各人物を人物検出器などで検出した後、各人物の関節点座標を単一人物用の姿勢推定器を用いて推定します。人物の検出およびそれぞれの人物の姿勢推定を独立して行うシンプルな枠組みとなっており、性能の高い人物検出器を採用することで性能向上が図りやすい点、(畳み込みニューラルネットワークを用いた手法の場合)個々の人物に対する Receptive Field を大きく取ることが容易な点が主な利点です。以下で紹介する研究事例には単一人物姿勢推定を題材としたものも含まれています。

DeepPose (CVPR 2014) [1]

DeepPoseは人物姿勢推定にディープラーニングを適用した初の手法です。この手法では、畳み込みニューラルネットワーク (AlexNet) に固定サイズの画像を入力し、各関節点の2次元座標を回帰により推定します。モデルの出力は(推定すべき関節点数)× 2 次元のベクトルです。このとき、画像の中心が (x, y) = (0, 0)、画像の最も左上の座標、右下の座標がそれぞれ (-0.5, -0.5)、(0.5, 0.5) となるよう正規化された座標を推定します。そして、Mean Squared Error (MSE) をロス関数に用いてモデルを学習します。

また、この論文ではモデルをカスケードさせることにより、前段ステージで推定された関節点座標をリファインする方法も同時に提案しています。前段ステージで推定された関節点座標を中心に画像をクロップし、前段ステージと同一構造かつパラメータは独立した後段ステージに入力します。後段ステージは前段ステージよりも関節点周辺の高解像度な画像を元に推定ができるため精度向上につながると論文では主張されています。各ステージの学習は第一ステージから順に独立して行います。

実験では最大3ステージを用いたDeepPoseの性能と既存手法の性能を比較し、カスケードの有効性を実証するとともに、既存の非ディープラーニング手法を上回る性能を達成しました。

LSPデータセットでの Percentage of Correct Parts (PCP)

ただ、既存手法と比べた性能の向上幅はそれほど大きくなく、シングルステージの場合は既存手法に劣る性能となってしまっています。この一因として、畳み込みニューラルネットーワークが基本的に画像の位置に不変な特徴抽出を行うものであるため、画像全体を入力としての関節点座標の直接の回帰は学習が難しいことが挙げられます。

Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation (NIPS 2014) [2]

DeepPoseが関節点座標を直接回帰により推定しているのに対し、こちらの研究ではヒートマップを用いた姿勢推定手法を提案しています。モデルの出力は推定すべき関節点数と同数のヒートマップで、各ヒートマップの正解ラベルは関節点座標を中心としたガウス分布により生成されます。ロス関数にはMSEを用いてモデルを学習します。推論時はヒートマップのピーク位置を関節点の推定座標とします。近年の多くの研究でもこの論文で提案されているのと同様のヒートマップの推定に基づく関節点座標推定の枠組みが用いられており、ディープラーニングによる人物姿勢推定の基盤を確立した研究であると言えます。

本論文ではそれ以外にも主要な主張として、グラフィカルモデルに基づき上記モデル (Part-Detector) の False Positive を削減するためのモデル (Spatial-Model) を提案し、両モデルを併用することによる性能向上を図っていますが、近年の研究ではこのような方法は用いられない傾向にあります。近年用いられるモデルは層数が増えたことにより広い Receptive Field を持ちコンテキストを捉えた推定が可能であるため、単一のモデルでも十分精度良くヒートマップを推定できることがその要因であると考えられます。

本手法はDeepPose(下図中 Pishchulin et al.)を含めた既存手法を大きく越える性能を達成し、ヒートマップに基づく姿勢推定手法の有効性を示しました。

LSPデータセットでの評価結果

本研究以降はヒートマップベースの姿勢推定手法が台頭し、ネットワークの構造の改良にフォーカスした研究が増えていきました。

Convolutional Pose Machines (CVPR 2016) [3]

Convolutional Pose Machines (CPM) では複数ステージからなるモデルの各ステージでヒートマップを段階的にリファインしていく、DeepPoseにおけるモデルのカスケードと似たような試みを行なっています。第一ステージは画像のみを入力に関節点毎のヒートマップを推定しますが、第二ステージ以降は特徴マップおよび前段ステージで推定されたヒートマップを入力にヒートマップを推定します。学習の際は、各ステージで推定されたヒートマップに対するMSEの合計をロスとし、全てのステージをend-to-endに学習します。このように、モデルの中間的な出力に対する教師信号の適用 (Intermediate Supervision) により、勾配消失を軽減させる効果があると論文では述べられています。また、カスケードさせた深いモデルを用いることによりモデルの Receptive Field を広げ、人物構造を暗に考慮した推定が可能になると主張されています。

Convolutional Pose Machines のアーキテクチャ

下図のように、左右の判別が難しい部位を後段ステージでは適切に推定できています。

各ステージでの右肘のヒートマップの推定結果

Stacked Hourglass Networks (ECCV 2016) [4]

Stacked Hourglass Network もCPMと同様にモデル構造の改良による性能改善を図っています。このネットワークはその名の通り砂時計型の構造を持ったモジュールである Hourglass Module を複数回連ねた構造となっており、複数スケールの特徴を考慮した特徴抽出が可能であることを特徴としています。

個々の Hourglass Module は下図のように、特徴抽出を行いつつ特徴マップのダウンサンプリングおよびアップサンプリングを行うEncoder-Decoder構造を持ち、アップサンプリングの際にはダウンサンプリング時の同一解像度の特徴マップを足し合わせるSkip-connectionを行います(参考までに、同じくEncoder-Decoder構造を持ったモデルであるU-Netでは特徴マップ同士の結合によるSkip-connectionを行います)。基本的な特徴抽出には Residual Module を利用し、ダウンサンプリングには Max Pooling、アップサンプリングにはニアレストネイバーを使用しています。

Hourglass Module の構造

また、各 Hourglass Module の出力特徴マップからヒートマップを推定し(下図青色の部分)、CPMと同様に全ての出力ヒートマップに対するMSEの和をロスとしてモデルを学習します。

Intermediate Supervision の適用

実験ではスタック数を変化させたレイヤー数およびパラメータ数が等しい複数のモデルの性能を比較し、スタック数を増やすことにより性能が向上することを示しました。

スタック数の異なるモデルの各ステージの性能

既存手法との性能比較では、Hourglass Network がCPMを含む既存手法を上回る性能を持つことを示しています。

MPIIデータセットでの実験結果 (PCKh@0.5)

Cascaded Pyramid Network (CVPR 2018) [5]

Cascaded Pyramid Network (CPN) はGlobalNet、RefineNetの2ステージのネットワークからなるモデルです。GlobalNetは Feature Pyramid Network [26] とほぼ同一のアーキテクチャを持ち、複数スケールの出力特徴マップそれぞれからヒートマップを推定します。一方RefineNetではGlobalNetから出力された各スケールの特徴マップを結合し、リファインされたヒートマップを推定します。ピラミッド構造のGlobalNetによるマルチスケールな特徴抽出、RefineNetにおけるそれらの統合が本モデルの肝であると言えます。

CPNはモデル構造だけでなくロスの与え方にも工夫を行なっており、GlobalNetの出力に対しては通常のL2ロスをかけますが、RefineNetの出力に対してはロスの大きい上位M個の関節点にのみL2ロスをかける Online Hard Keypoint Mining を行います。

GlobalNetとRefineNetに対するロスのかけ方を比較する実験を行い、RefineNetに対する Online Hard Keypoint Mining 適用の有効性を示しています。

各ネットワークに対するロスのかけ方の比較

(L2 loss* は Online Hard Keypoint Mining を用いたL2ロス)

アンサンブルされた最終的なモデルは COCO test-dev set で73.0のAPを達成しています。

因みに、ECCV 2018 のワークショップコンペティションとして開催された COCO Keypoint Detection Challenge 2018 では、CPNをベースに用いた手法が首位となりました。

Simple Baselines for Human Pose Estimation and Tracking (ECCV 2018) [6]

CPMや Hourglass Network、CPNはモデルの改良により性能改善を図っていましたが、モデル構造が複雑になっていくについて、それぞれのモデルの各構成要素の性能向上への寄与度やモデル同士の対等な比較がし難くなるという問題が生じてきました。それを踏まえ、この研究では「シンプルなモデルでどれほどの性能を出すことができるのか?」を問いにベースラインとなるモデルを提案し、既存手法を上回る性能を達成しました。

提案されたモデル(下図 )はバックボーンであるResNetの出力特徴マップに複数回のDeconvolutionを行うことで関節点のヒートマップを推定する構造となっており、Hourglass Network やCPNと比べ非常にシンプルな構造となっています。ヒートマップは既存手法と同様、ガウス分布により生成し、L2ロスを用いて学習します。テスト時はFaster R-CNNを用いて人物検出を行い、検出されたそれぞれの人物に対して提案モデルで姿勢推定を行います。

提案されたモデルのアーキテクチャ

実験ではバックボーンに用いるResNetの層数、入力画像サイズ、Deconvolutionの層数およびカーネルサイズによる性能比較を行う Ablation Study を実施しました。結果は下図のようになっており、特に入力画像の大きさが性能向上に大きく寄与することを確認しました。

COCO val2017 での Ablation Study 結果

また、入力画像サイズが同一の Hourglass Network、CPNと性能比較を行い、本手法の性能が上回っていることを示しました(下図)。既存手法の評価値はそれぞれの論文から参照したものであるため実装の良し悪しが性能に影響をもたらしている可能性があるものの、シンプルなモデルでも既存手法と同等またはそれ以上の性能を得ることができると著者らは結論付けています。

COCO val2017 での既存手法との比較

本手法が既存手法の性能を上回った理由については実装の良し悪しである可能性がある以外具体的には明記されていません。また、著者らはあくまでも本研究の目的をアルゴリズム的に優位な手法の提案ではなくベースライン手法の提案であるとしています。実装面が性能に与える影響の大きさ、また適切なベースライン設定の重要性を感じさせられる研究となっています。

High-Resolution Network (CVPR 2019) [7, 8]

High-Resolution Network (HRNet) は Simple Baseline と同一著者らにより発表され、Simple Baseline をベースにモデル構造を改良したものとなっています。

HRNetについては過去のブログ記事や CVPR 2019 の論文調査資料でも解説がありますので、よろしければそちらも併せてご覧ください。

· コンピュータビジョンの最新論文調査 Human Recognition編

· CVPR 2019 report

Hourglass Network やCPN、Simple Baseline などの従来のモデルは、一度特徴マップを縮小した後、Deconvolutionやアップサンプリングなどにより特徴マップを拡大することで入力画像のサイズに対して小さすぎない(1/8から1/4程度の)ヒートマップを出力する構造を取っていました。それに対してHRNetは高解像度な特徴マップを保持したまま平行して低解像度な特徴マップを生成していき、それぞれのブランチで特徴抽出を行います。そして、Exchange Unit でのそれぞれのブランチの特徴マップ間での相互な情報のやりとりを複数回に渡り行うことでよりリッチな特徴表現が獲得される構造となっています。

HRNetのアーキテクチャ

Exchange Unit では下図のように、出力特徴マップのスケールと同一スケールの特徴マップは恒等写像、低解像度な特徴マップはニアレストネイバーによるアップサンプリングを行なった後で 1x1 Convolution、高解像度な特徴マップは複数回のカーネルサイズ3の Strided Convolution を行なった後でそれぞれの特徴マップを足し合わせることで複数ブランチの情報を集約します。各ブランチでの特徴抽出とそれらの統合を複数回に渡り行なった後、最も高解像度な特徴マップを持つブランチからヒートマップを推定します。

Exchange Unit の構造

実験では Simple Baseline を含めた既存手法との性能比較を行い、下図のようにいずれの既存手法をも上回る性能を達成しました。AI Challenger データセットを外部データとして用いたときの COCO test-dev set に対するAPは77.0と、非常に高い性能となっています。大きく話題になったOpenPoseの評価値が61.8であることを見ても、その性能の高さが分かるかと思います。

COCO test-dev set での性能比較

HRNetは姿勢推定だけでなくクラス分類や領域分割、物体検出など様々なタスクのバックボーンとして有効であることが確認されている [8] と共に、既にHRNetを改良 [9]、または転用 [10] した多くの派生研究が存在しています。

Bottom-up型アプローチ

ここまではTop-down型アプローチの研究事例を紹介しましたが、ここからはもう1つの代表的なアプローチであるBottom-up型アプローチの研究事例について紹介します。

Bottom-up型手法では画像中の全ての人物の関節点座標を人物を区別せずに検出した後、それらを人物毎にグルーピングすることにより複数人物の姿勢を推定します。一度のモデルの順伝播で画像中の全ての人物の関節点を検出するため、Top-down型手法と比べ画像中の人物数が増加しても推論速度が落ちにくいという利点があります。Bottom-up型手法では検出した関節点のグルーピングをどのように行うかがアルゴリズムの肝となっており、その点に着眼した研究が数多く存在します。

DeepCut (CVPR 2016) [11] / DeeperCut (ECCV 2016) [12]

DeepCut/DeeperCutはディーブラーニングを用いたBottom-up型姿勢推定の先駆け的な手法です。これらの手法では画像中の人物関節点を人物を区別せずに検出した後、関節点をノードと見なし、それらを全結合するエッジを作成することによりグラフを構築します(下図左)。グラフの人物毎の部分グラフへの分割、関節点ノードの種類のラベリングを整数線計画問題に基づく最適化により行うことで、人物毎の姿勢推定結果を得ます(下図中央、右)。

DeeperCutはDeepCutに対し、主に以下の3点の改善を行っています。

· バックボーンをVGGからResNetに変更することによる関節点検出モデルの改善

· 画像特徴を用いることによるコスト関数の改善

· 最適化を体の部位毎に段階的に行うことによる速度・精度改善

これらの手法では関節点候補の検出を畳み込みニューラルネットワークを用いて行なっていますが、最適化の際に用いるコスト関数は主に関節点ペアの距離や角度などの幾何的な関係に基づいたものであり、ディープラーニングにより得られる特徴を十分に活用しきれていないと言えます。また、最適化の計算コストが高く、Bottom-up型手法の利点である関節点検出の高速性を相殺してしまっているという欠点があります。

OpenPose (CVPR 2017, TPAMI 2019) [13, 14]

OpenPoseは高速かつ高精度な人物姿勢推定手法として一時期大きく話題となった手法で、ご存知の方も多いと思います。この手法の一番の特徴は関節候補点のグルーピングの手がかりとなる Part Affinity Fields (PAFs) を畳み込みニューラルネットワークで推定することで、これにより高性能な関節点のグルーピングが可能となる共に、処理コストの低い簡素なグルーピング方法の利用が可能となり、高速に動作するアルゴリズムとなっています。

モデルは下図のようにCPMと類似したステージ構造を持ち、各ステージからヒートマップおよびPAFsを推定します。ヒートマップの正解ラベルはTop-down型手法と同様に関節点を中心としたガウス分布により生成されます。PAFは対応関係にある関節点ペア間の部位 (Limb) の存在を表す2次元ベクトル場で、対応関係にある関節点ペア間の矩形内において一方の関節点からもう一方の関節点へと向かう単位ベクトル、それ以外の領域では零ベクトルとして生成されます。よって、モデルの推定対象は関節点と同数のヒートマップとLimbと同数のPAFとなります。学習時はヒートマップ、PAFsに対する全てのステージでのMSEの和をロスとしてモデルを学習します。

OpenPoseのモデル構造

推論時はまず、モデルにより推定されたヒートマップの極大点から関節候補点を検出します。次に、対応関係にある全ての関節点ペア間のPAF上で線積分値を求め、それらをそれぞれの関節点ペアを結びつける確信度と見なします。この確信度が大きい関節点ペアから順に結びつけていく工程を関節点ペアの種類毎に行なっていくことにより最終的な人物毎の姿勢推定結果が得られます。

実験ではTop-down型手法であるCPMと処理速度の比較を行い、CPM(下図中Top-down)では画像中の人物数に比例する形で処理時間が増加しているのに対し、OpenPose(下図中Bottom-up)は人物数が増加してもほぼ一定の処理速度(654 × 368 の画像に対して約9fps)で推論ができることを確認しました。

処理時間の比較

Associative Embedding (NIPS 2017) [15]

Associative Embedding は姿勢推定における関節点のグルーピングやインスタンスセグメンテーションにおけるピクセルのグルーピング問題を埋め込み表現を用いて解決しようと試みた研究です。本研究では姿勢推定とインスタンスセグメンテーションそれぞれに対する手法を提案していますが、ここでは姿勢推定手法についてのみ説明します。

本手法では Hourglass Network を用いて各関節点のヒートマップおよびEmbeddingマップを出力します。Embeddingマップは人物のアイデンティティ情報を持った1次元ベクトルのマップとなっており、同一人物の各関節点の位置に対応するEmbeddingマップの値同士が近くなり、画像中の異なる人物の関節点のEmbeddingマップの値同士が遠くなるようロスをかけます。これにより、Embeddingの値の近さが関節点ペアを結び付ける際の指標となります。

システム構成

推論時はOpenPoseと同様のグリーディな割り当てをEmbeddingの値の近さに基づき行うことで人物毎の姿勢推定結果を得ます。Embeddingを多次元にすることも可能ですが、性能に大きな違いは見られなかったことが論文で述べられています。

人物毎の各関節点のEmbeddingの値の推定結果は下図右のようになっており、(それぞれの点がどの人物のものであるのか図からは判別できないものの、)人物毎にEmbeddingの値が分離されるようモデルが学習されていることが分かります。

人物姿勢推定結果とそれに対応する人物の各関節点のEmbeddingの値

PersonLab (ECCV 2018) [16]

PersonLabは人物姿勢推定とインスタンスセグメンテーションを同時に行うことのできるBottom-up型手法で、各ピクセルからの関節点のオフセット推定(回帰)を特徴とした手法です。ここでは人物姿勢推定の部分についてのみ説明します。

手法の枠組みは下図のようになっており、姿勢推定に必要となるモデルの推定対象はヒートマップ、Short-range offsets、Mid-range offsets の3つです。ヒートマップは Keypoint Disk と呼ばれる関節点を中心とした半径一定の円内において1、それ以外の領域では0の値をとるバイナリのマップで、Binary Cross Entropy ロスを用いて学習します。Short-range offset は各関節点種の Keypoint Disk 内において、その関節点の座標を回帰する2次元ベクトル場で、L1ロスを用いて学習します。Mid-range offset は各関節点種の Keypoint Disk 内において、その関節点と対応関係にある関節点の座標を回帰する2次元ベクトル場で、Short-range offset と同様にL1ロスで学習します。

PersonLabの枠組み

推論時はまずヒートマップと Short-range offsets を用いたハフ投票により関節点毎のスコアマップを求め、スコアマップの極大点から関節候補点を検出します。次に、スコアマップの値が大きい関節候補点から順に Mid-range offset を用いてグリーディに関節点を割り当てていくことにより人物毎の姿勢推定結果を得ます。このとき、下図のように Short-range offset を足しこむことによりリファインされた Mid-range offset を用いることで割り当ての性能改善を図っています。

Mid-range offsets のリファイン

PersonLabは姿勢推定とインスタンスセグメンテーションのマルチタスク学習を行なっているため対等な比較ではないものの、OpenPoseや Associative Embedding を含む既存のBottom-up型手法を上回る性能を達成しています。

COCO test-dev split に対する性能比較

本手法は 801 × 529 の画像に対して約3fpsで姿勢推定およびインスタンスセグメンテーションを行うことが可能です。

ICCV 2019 採録論文の紹介

ここからは ICCV 2019 に採録された 2D Pose Estimation に関する論文を紹介します。私の集計した限りでは、当該トピックでの採録論文はここで紹介する4本のみとなっています。

TRB: A Novel Triplet Representation for Understanding 2D Human Body (Oral) [17]

要約

人物の姿勢および輪郭を表現する Triplet Representation for Body (TRB) を定義し、 TRB推定のためのベースライン手法を提案しました。また、TRBを生成モデルの条件に用いることで人物形状の操作ができることを示しました。

提案内容

Triplet Representation for Body

既存の人物姿勢の表現方法である Skeleton Keypoints は人物の姿勢情報を持っていますが、人物の形状情報に欠けるという欠点があります。一方で、Semantic Human Parsing Representation や DensePose Surface-based Representation は人物の形状情報を持つものの関節点座標の姿勢情報を欠いています。また、3次元人体モデルは人物の姿勢および形状双方を表現することができますが、アノテーションにモーションキャプチャシステムが必要であり、アノテーションコストが非常に高いという欠点があります。

上記を踏まえ、本研究では人物の姿勢および形状を表現可能かつアノテーションの容易な Triplet Representation for Body (TRB) を提案しています。TRBは下図のように従来の Skeleton Keypoints に加え、それらの近傍の人物と背景の境界点である2点の Contour Keypoints からなっており、人物の姿勢、形状両方の情報を持った表現方法となっています。

TRBのアノテーション例

TRB-Net

本研究ではTRB推定手法であるTRB-Netも同時に提案しています。TRB-NetはTop-down型のアプローチを用いており、下図のように人物領域をクロップした画像を入力とし、Skeleton Heatmap と Contour Heatmap を複数ステージからなるモデルで推定する構成となっています。論文には詳細が不明瞭な箇所も多いため、モデルの詳細については要点を絞って紹介します。

TRB-Netのアーキテクチャ

まず、それぞれのモジュールでは2つのブランチの Multi-scale Feature Extraction Block (MS Block) を用いて Skeleton Heatmap および Contour Heatmap を推定します。基本的には推定されたヒートマップに対してL2ロスをかけることによりモデルを学習します。Message Passing Block (MP Block) はそれぞれのブランチ間で相互に情報のやりとりをすることによりヒートマップをリファインするためのブロックで、以下の3つのモジュールを挿入可能です。

· X-structured Message Passing Block

· Directed Convolution Unit

· Pairwise Mapping Unit

X-structured Message Passing Block (Xs MP Block) は下図のようなモジュールで、それぞれのヒートマップに 1x1 Convolution をかけた後特徴マップを結合し、リファインされたヒートマップを推定します。

X-structured Message Passing Block

Directed Convolution Unit (DC Unit) は Xs MP Block における Contour Heatmap 推定に Scattering Convolution を、Skeleton Heatmap 推定に Gathering Convolution を用いたモジュールとなっています。

Directed Convolution Unit

Scattering Convolution と Gathering Convolution は本論文で提案されている Directional Convolution と呼ばれるものの一種で、Skeleton Heatmap では関節点を中心に、Contour Heatmap では関節点の周囲に出るそれぞれのヒートマップの位置合わせを目的に使用しています。Directional Convolution では重みを共有した畳み込みを複数回行いますが、その際に特徴マップにおいて値が更新される位置を Scattering Convolution の場合は内側から外側、Gathering Convolution の場合は外側から内側の順となるよう固定します。

Directional Convolution

Directional Convolution は下図のようにヒートマップを異なるパターンのグリッドに分割した上で並列して適用し、それらを統合したものを最終的な出力とします。このとき、それぞれの畳み込み結果を結合させた特徴マップから各特徴マップの重みをシグモイド関数を適用することで出力し、その値を用いた各グリッドの特徴マップの重み和により出力が得られます。

Directional Convolution の並列的な適用

Pairwise Mapping Unit (PM Unit) は推定される Skeleton Keypoints と Contour Keypoints の一貫性を高めるためのモジュールで、下図のような構造となっています。このモジュールではそれぞれのブランチから変換関数の推定およびそれを用いたヒートマップの変換を行います(詳細は不明)。ヒートマップの変換はあるKeypointのヒートマップからその近傍のSkeleton/Contourヒートマップを推定するように行い、L2ロスをかけ両者を近づけるようモデルを学習します。

Pairwise Mapping Unit

推論時は変換されたヒートマップと変換対象のヒートマップを統合することにより、リファインされたヒートマップを推定します。下図は誤って推定された右手首のヒートマップがContourヒートマップを用いることで修正されている例になります。

Pairwise Mapping unit によるヒートマップのリファイン結果例

実験結果

本研究では実験に際してMPII、LSP、COCOの3つのデータセットに対してTRBをアノテーションすることによりTRBデータセットを構築しています。また、TRB推定の評価には元のデータセットと同一の評価指標を用いています。

まず、既存の姿勢推定手法をTRBを推定できるよう拡張した上で、TRB-Netとの性能比較を行なっています。Contour Keypoints は Skeleton Keypoints と比べ推定が難しいことを確認すると共に、TRB-Netが既存手法よりも優れた性能を持つことを確認しています。

MPII_trbデータセットでのTRB推定の性能比較

Directed Convolution に関する Ablation Study では、SkeletonヒートマップとContourヒートマップのマルチタスク学習の有効性、Xs MP Block の有効性、通常の畳み込みに対する Directional Convolution の優位性を確認しています。

Directed Convolution に関する Ablation Study 結果

Pairwise Mapping に関する Ablation Study では、ヒートマップの初期の推定結果を用いた場合(下表中stack1-c、stack2-c)と比べ、PM Unit によりリファインされたヒートマップを用いることにより性能が向上することを示しています(下表中stack1-f、stack2-f)。また、DC Unit と PM Unit を併用したときに最も性能が向上することを確認しました。

Pairwise Mapping に関する Ablation Study 結果

TRBの応用事例としてTRBを条件とした条件付き画像生成を挙げており、Variational U-Net を用いてTRBを変化させたときの生成画像を確認しています。下図のように、TRBを操作することにより人物形状を操作した画像生成が可能です。

Contour Keypoints を操作しての画像生成

Single-Network Whole-Body Pose Estimation [18]

要約

OpenPoseを拡張した単一のネットワークによる全身(Body, Face, Hand, Foot)のポーズ推定手法を提案し、既存手法と比べ高速かつ高精度な全身のポーズ推定を実現しました。

提案内容

モチベーション

本研究の目的は全身のポーズ推定を高速かつ高精度に行うことです。その際に問題となるのが全身のポーズに関するアノテーションを持ったデータセットが存在しないことであり、Body、Face、Hand、Footなど体の各部位に関するアノテーションを持ったデータセットを組み合わせてモデルを学習する必要があります。体の部位毎のモデルを独立して学習すれば全身のポーズ推定を達成することが可能ですが、計算コストが高くなるという問題があります。そのため、本研究では単一のモデルを用いた全身のポーズを推定に取り組んでいます。

提案システム

提案されたモデルは下図のようになっています。基本的なポーズ推定の枠組みはOpenPoseに基づいており、各キーポイントに対するヒートマップおよびLimbに対する Part Affinity Fields (PAFs) を推定するモデルを学習します。推定対象であるヒートマップおよびPAFsは全身のポーズを推定できるよう、体の各部位に関するものを結合させたものとなっています。その際、モデルの学習方法や構造に複数の変更を加えることにより性能改善を図っています。

モデル構造

学習データのサンプリング

前述したように全身のポーズのアノテーションを持ったデータセットは存在しないため、モデルを単一のデータセットで学習することができません。そのため、各部位に関するデータセットから一定の確率で学習データをサンプリングしてミニバッチを作成します。学習の際は学習サンプルのデータセットに関連する部位のみでロスを計算し、モデルを学習します。

データセットによるデータ拡張方法の変更

下図のようにデータセットによって各部位の写り方が異なっており、Bodyデータセットでは顔、手などの解像度が低く、Faceデータセットでは顔が大きく写るなどの傾向があります。そのためデータセット毎にデータ拡張時のスケールを調整することでそれぞれのデータセットからデータをサンプリングしたときの各部位のスケールが大きく乖離しないようにしています。

データセットによる人物数、遮蔽、人物のスケールなどの違い

(a) Handデータセット (b) Bodyデータセット (c) Faceデータセット

モデル構造の改善

OpenPoseのモデル構造に以下のような変更を加えています。

· 入力サイズを 368 × 368 から 480 × 480 に変更

· PAFsを推定するブランチの畳み込み層を増やすことによる Receptive Filed の拡大、チャネル数の増加、ステージ数の削減による計算コスト調整

その他の改善

上記以外にも以下のように複数の改善を行なっています。

· 顔、手に関するヒートマップのガウシアンの広がりを小さくする

· 顔、手、足の False Positive の多さを解決するため、Bodyデータセットで人物が存在しない領域ではそれらの部位に対してロスを与える

· 人物が写っていない画像を学習に利用する

· Face, Handデータセットではアノテーションされていない人物が存在するため、Mask R-CNN を用いてそれらをマスクする

実験結果

Body、Foot、Face、Handそれぞれのデータセットを用いて各部位の認識性能を既存手法と比較する実験を行っています。下表において、Shallowはアーキテクチャ改善前のモデル、Deepはアーキテクチャ改善後のモデルです。

Body、Footデータセットでの評価実験では、提案手法の性能はOpenPoseと同等程度の性能となりました。

COCO validation set での性能比較

Faceデータセットでの実験では、OpenPose、提案モデルどちらも実験室環境のデータセットであるFRGGとMulti-PIEに過学習しており、in-the-wildなデータセットであるi-bugに対する性能が低い傾向にあります。提案手法はよりチャレンジングなi-bugにおいてOpenPoseの性能を上回っています。

FRGC、Multi-PIE、i-bugデータセットでの性能比較

Handデータセットでの実験では、よりチャレンジングなMPIIにおいてOpenPoseを大きく上回る性能を達成しました。

Hand Dome、Hand MPII データセットでの性能比較

最後に、提案手法とOpenPoseの全身のポーズ推定の速度比較を行っています。OpenPoseは画像中の人物数が増えると顔や手の推定に時間がかかるため人物数に比例する形で処理時間が増加していますが、提案手法は人物数が増加してもほぼ一定の時間で推定ができるていることが分かります。

提案手法とOpenPoseの速度比較

Single-Stage Multi-Person Pose Machines [19]

要約

Root Joint の推定と Root Joint からその他Jointへのオフセット推定に基づくSingle-stage型の姿勢推定手法である Single-stage multi-person Pose Machine (SPM) を提案し、精度および速度の両面でBottom-up型の既存手法を凌駕しました。

提案内容

モチベーション

人物を検出してからそれぞれの人物の姿勢推定を行うTop-down型手法、関節候補点を検出してからそれらをグルーピングするBottom-up型手法はどちらも二段階の枠組みになっており、十分に効率的ではないと本論文では述べてられています(個人的にはBottom-up型手法における関節点のグルーピングはアルゴリズムによっては処理コストが非常に低くボトルネックにはならないと考えています)。それを踏まえ本研究では、画像中の全ての人物の姿勢を一段階の枠組みで推論するSingle-stage型の姿勢推定手法を提案しています。Single-stage型の既存手法であるCenterNet [20] との差分については後述します。

Structured Pose Representation

既存のアプローチでは、人物姿勢は人物毎の各関節点の座標により表現されていました。それに対して本研究では人物姿勢を人物毎の Root Joint と、Root Joint から各関節点への変位によって表現する Structured Pose Representation (SPR) を提案しています。さらに、SPRを Root Joint を起点とする階層的構造にした Hierarchical SPR を提案し、モデルに取り入れています。

人物姿勢の表現方法

Single-stage multi-person Pose Machine

提案手法である Single-stage multi-person Pose Machine (SPM) のパイプラインは下図のようになっています。このモデルではSPRに基づき、各人物の Root Joint、Root Joint から各関節への変位を推定します。Hierarchical SPR を用いる場合、この階層表現において隣接関係にある関節点ペアの変位をそれぞれ推定します。

提案手法のパイプライン

モデルの推定対象は Root Joint Confidence Map とDense Displacement Maps の2つです。Root Joint Confidence Map は Root Joint を中心としたガウス分布に従い生成されるヒートマップです。Dense Displacement Maps は SPR / Hierarchical SPR において隣接関係にある関節点ペアの一方の関節点を中心とする円内からもう一方の関節点の座標を回帰する2次元のマップです。学習時は Root Joint Confidence Map に対するL2ロスと Dense Displacement Maps に対する smooth L1 ロスを重み和してモデルを学習します。

モデルの推定対象

推論時は Root Joint Confidence Map から各人物の Root を検出した後、Dense Displacement Maps を用いて SPR / Hierarchical SPR において隣接関係にある関節点ペアを順番に結び付けていきます。

Single-stage型の既存手法であるCenterNetは人物矩形の中心点から各関節点を回帰する本手法と類似した手法ですが、本手法は以下の点でCenterNetと異なっています。

· Hierarchical SPR を用いて階層的に関節点ペア間の変位を推定する

· CenterNetが人物矩形の中心点のみにL1ロスをかけるのに対し、本手法では関節点を中心とする円内にL1ロスをかける

実験結果

MPIIデータセットで SPR / Hierarchical SPR の性能を比較する Ablation Study を行い、Hierarchical SPR がSPRと同一の処理速度で高い性能を持つことを確認しました。Hierarchical SPR は特に手首や足首など腰から離れた関節点においてSPMよりも優れた性能を示しており、階層的な関節点のオフセット推定の有効性を示す結果となりました。

MPII validation set での Ablation Study 結果

また、COCOデータセットでSPMとBottom-up型の既存手法の精度、速度を比較する実験を行い、SPMが両面において既存手法を上回ることを示しました。特に速度面では比較手法の中で最も高速な Associative Embedding よりも4倍以上高速な約17fpsでの推論が可能です。

COCO test-dev set での性能比較

本手法は3次元姿勢推定にも適用可能であり、CMU Panoptic データセットでの複数人物3次元姿勢推定において77.8%の3D-PCKを達成しました。推定結果例は下図のようになっています。

CMU Panoptic データセットに対する3次元姿勢推定結果例

Dynamic Kernel Distillation for Efficient Pose Estimation in Videos [21]

要約

動画ベースの単一人物姿勢推定において、毎フレームに対して規模の大きなモデルを用いるのは非効率的でした。それを踏まえ、前フレームのヒートマップからカーネルを算出し、現在フレームの特徴マップにそれを畳み込むことにより現在フレームのヒートマップを得る Dynamic Kernel Distillation (DKD) と呼ばれるモデルを提案し、軽量なバックボーンを用いても高精度な推定ができることを示しました。また、DKDの学習に Temorally Adversarial Training を導入することで、時系列的に一貫したカーネルの導出および姿勢推定を可能としました。

提案内容

モチベーション

既存の動画ベースの姿勢推定手法では下図 (b) のように動画の毎フレームに対して規模の大きなモデルを用いて推定を行い、RNNや Optical Flow などによる時系列情報を活用していましたが、このような枠組みは計算コストが高く非効率的でした。それを踏まえ、本研究では下図 (a) のように小規模なモデルを用いて入力フレームから特徴抽出を行い、Pose Kernel Distillator により得られたカーネルと次フレームのヒートマップのマッチング(= 畳み込み)を行うことにより次フレームのヒートマップを得ます。提案手法である Dynamic Kernel Distillation (DKD) は小規模なモデルを用いた特徴抽出、カーネルの畳み込みによる時系列情報の活用を行う効率的なアプローチとなっています。

Dynamic Kernel Distillation と既存のアプローチの比較

Pose Kernel Distillation

DKDのアーキテクチャは下図のようになっています。まず、動画の第1フレームに対しては比較的規模の大きなモデルである Pose Initializer を用いて各関節点のヒートマップを推定します。Pose Kernel Distillator は各フレームの特徴マップと推定されたヒートマップを入力に Pose Kernel を出力するモジュールです。Pose Kernel は人物の関節点の特徴をエンコードしたテンソルとなっており、第2フレーム以降は前フレームの Pose Kernel を現在フレームの特徴マップに対して畳み込むことによりヒートマップを取得します。Pose Kernel を利用することにより、各フレームの特徴抽出を行う Frame Encoder に小規模なモデルを採用することが可能となります。これらモデルの学習はヒートマップに対するMSEをロスに用いて行い、推論時はヒートマップのピーク位置を各関節点の推定座標とします。

Dynamic Kernel Distillation のシステム構成

Temporally Adversarial Training

時系列的に一貫した推定を行うことでDKDの性能をより引き上げるための方法として、姿勢推定に Adversarial Learing を適用したChouらの手法 [22] を時系列に発展させた Temporally Adversarial Training を提案しています。Temporally Adversarial Discriminator は連続した2フレームの画像およびそれらに対応した(Ground-truthまたは推定された)ヒートマップを入力とし、ヒートマップの変化を復元します。入力がReal(Ground-truthのヒートマップ)である場合は前後フレームのヒートマップの差分と等しくなるよう復元を行い、入力がFake(推定されたヒートマップ)である場合はヒートマップの差分から乖離した復元を行います。Temporally Adversarial Training を用いる場合、最終的なロス関数はヒートマップに対するMSEロスと Adversarial Loss の和となります。

モデル構造

それぞれのモデルのアーキテクチャは以下のようになっています。

· Pose Initializer:ResNetをバックボーンとし数層のDeconvolution層を加えた Simple Baseline [6] と同一構造のモデルを使用

· Frame Encoder:Pose Initializer と同様のモデルだが、より小規模なバックボーンを使用

· Pose Kernel Distillator:下図のように3層の畳み込み層およびプーリング層からなる

· Temporally Adversarial Discriminator:Frame Encoder と同一構造のモデルを使用

Pose Kernel Distillator のアーキテクチャ

実験結果

Frame Encoder のバックボーンの層数を変化させながらDKDの各構成要素の有効性を検証する Ablation Study を行なっています。下表においてBaselineは時系列情報を用いないモデル、DKD-w/o-TAT は Temporally Adversarial Training を用いないモデル、DKD-w/o-PKD は Pose Kernel Distillation を用いないモデルです。バックボーンに小規模なモデルを用いた DKD(ResNet50) および DKD(ResNet34) が Baseline(ResNet101) の性能を上回っており、最も小規模なモデルである DKD(ResNet18) は FLOPSを半分以下に削減しつつ、Baseline(ResNet101) と同等程度の性能を達成しており、DKDの有効性が示されています。また、いずれのバックボーンを用いたときにおいても Pose Kernel Distillation と Temporally Adversarial Training はモデルの性能向上に寄与しており、両者を併用した場合は平均5.5%Baselineから評価値が向上してします。

Penn Action データセットでの Ablation Study 結果

下図は DKD(ResNet34) と Baseline(ResNet34) のヒートマップの定性的な比較結果になっています。(b), (c) を見比べると、DKDは注目人物に対するヒートマップを適切に推定できていることが分かります。また (d), (e) からはDKDが時系列的に一貫したヒートマップを推定できるていることが見て取れます。(ただ、これらモデルは単一人物画像を前提に学習されているため、Baselineの出力が複数の人物に対して出てしまうのは無理もないと思います。個人的にはDKDを複数人物追跡の性能改善に応用できたら面白いと思います。)

ヒートマップの比較結果。(b), (d) は 提案手法である DKD(ResNet34) による推定された右肘、右腰のヒートマップ 。(c), (e) は 同関節点に対する Baseline(ResNet34) の推定結果

既存手法との性能比較では、Convolutional LSTM を用いた手法(下表中 Luo et al.)や Optical Flow を用いた手法(下表中 Song et al.)と比べ、DKDが精度面、速度面共に優れていることを示しました。

Penn Action データセットでの性能比較

おわりに

今回は 2D Human Pose Estimation に関する代表的な手法および最新論文をご紹介しました。Top-down型の姿勢推定手法では関節点のヒートマップ推定がデファクトスタンダードになっており、モデル構造の改善、とりわけいかに複数スケールの特徴を抽出するかに焦点を当てた研究が数多く存在しました。一方でBottom-up型の手法では関節点のグルーピング方法が肝であり、ベクトル場を用いた手法、埋め込み表現を用いた手法、関節点へのオフセット推定を用いた手法などが存在しました。今後は単に精度を追い求める研究ではなく、 ICCV 2019 に採録された論文にも見られたように、より詳細な人物姿勢の認識や、Single-stageアプローチなどによるモデルの精度と速度のトレードオフ改善などが中心的な研究トピックになっていくのではないかと思われます。Human Pose Estimation における研究トピックとしては 3D Pose Estimation や Shape Reconstruction が主流となりつつありますが、当該分野においても今後さらなるブレイクスルーが起きることに期待したいです。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] A. Toshev, C. Szegedy, "DeepPose: Human Pose Estimation via Deep Neural Networks," In CVPR 2014.

[2] J. Tompson, A. Jain, Y. LeCun, C. Bregler, "Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation" In NIPS 2014.

[3] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, "Convolutional Pose Machines," In CVPR 2016.

[4] A. Newell, K. Yang, J. Deng, "Stacked Hourglass Networks for Human Pose Estimation," In ECCV 2016.

[5] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, J. Sun, "Cascaded Pyramid Network for Multi-Person Pose Estimation," In CVPR, 2018.

[6] B. Xiao, H. Wu, Y. Wei, "Simple Baselines for Human Pose Estimation and Tracking," In ECCV 2018.

[7] K. Sun, B. Xiao, D. Liu, J. Wang, "Deep High-Resolution Representation Learning for Human Pose Estimation," In CVPR, 2019.

[8] J. Wang, K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, X. Wang, W. Liu, B. Xiao, "Deep High-Resolution Representation Learning for Visual Recognition," In arXiv preprint arXiv:1908.07919, 2019.

[9] K. Zhang, P. He, P. Yao, G. Chen, C. Yang, H. Li, L. Fu, T. Zheng, "DNANet: De-Normalized Attention Based Multi-Resolution Network for Human Pose Estimation," In arXiv preprint arXiv:1909.05090, 2019.

[10] B. Cheng, B. Xiao, J. Wang, H. Shi, T. S. Huang, L. Zhang, "Bottom-up Higher-Resolution Networks for Multi-Person Pose Estimation," In arXiv preprint arXiv:1908.10357, 2019.

[11] L Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, B. Schiele, "DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation," In CVPR, 2016.

[12] E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka, B. Schiele, "DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model," In ECCV, 2016.

[13] Z. Cao, T. Simon, S. Wei, Y. Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields," In CVPR, 2017.

[14] Z. Cao, G. Hidalgo, T. Simon, S. Wei, Y. Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields," In TPAMI, 2019.

[15] A. Newell, Z. Huang, J. Deng, "Associative Embedding: End-to-End Learning for Joint Detection and Grouping," In NIPS, 2017.

[16] G. Papandreou, T. Zhu, L. Chen, S. Gidaris, J. Tompson, K. Murphy, "PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model," In ECCV 2018.

[17] H. Duan, K. Lin, S. Jin, W. Liu, C. Qian, W. Ouyang, "TRB: A Novel Triplet Representation for Understanding 2D Human Body," In ICCV, 2019.

[18] G. Hidalgo, Y. Raaj, H. Idrees, D. Xiang, H. Joo, T. Simon, Y. Sheikh, "Single-Network Whole-Body Pose Estimation," In ICCV, 2019.

[19] X. Nie, J. Zhang, S. Yan, J. Feng, "Single-Stage Multi-Person Pose Machines," In ICCV, 2019.

[20] X. Zhou, D. Wang, P. Krähenbühl, "Objects as Points," In arXiv preprint arXiv:1904.07850, 2019.

[21] X. Nie, Y. Li, L. Luo, N. Zhang, J. Feng, "Dynamic Kernel Distillation for Efficient Pose Estimation in Videos," In ICCV, 2019.

[22] C.-J. Chou, J.-T. Chien, H.-T. Chen, "Self Adversarial Training for Human Pose Estimation," In CVPR Workshop, 2017.

[23] Y. Raaj, H. Idrees, G. Hidalgo, Y. Sheikh, "Efficient Online Multi-Person 2D Pose Tracking with Recurrent Spatio-Temporal Affinity Fields," In CVPR, 2019.

[24] I. Habibie, W. Xu, D. Mehta, G. Pons-Moll, C. Theobalt, "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations," In CVPR, 2019.

[25] A. Kanazawa, M. J. Black, D. W. Jacobs, J. Malik, "End-to-end Recovery of Human Shape and Pose," In CVPR, 2018.

[26] T.-Y. Lin, P. Dollár, R. Girshick, K. He, Bharath Hariharan, Serge Belongie, "Feature Pyramid Networks for Object Detection," In CVPR, 2017.

[27] Leeds Sports Pose Dataset, https://sam.johnson.io/research/lsp.html, 2019.

[28] J. Carreira, P. Agrawal, K. Fragkiadaki, J. Malik, "Human Pose Estimation with Iterative Error Feedback," In CVPR, 2016.

[29] COCO - Common Objects in Context, http://cocodataset.org/#keypoints-2019, 2019.

[30] AI Challenger, https://challenger.ai/dataset/keypoint, 2019.

続きを読む

2019/10/09 17:45

コンピュータビジョンの最新論文調査 動画認識編

Tomoyuki Suzuki

Keywords: AI

はじめに

こんにちは,AIシステム部でコンピュータビジョンの研究開発をしている鈴木智之です.我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い,部内で共有・議論しています.今回は動画認識編として鈴木 智之 (@tomoyukun) が調査を行い,CVPR 2019と今年10月末開催のICCV 2019に採択された動画認識に関する最新論文を紹介します.

過去の他タスク編については以下をご参照ください.

· Human Recognition 編

· 3D Vision 編

· キーポイント検出の手法を用いた物体検出編

· Object Tracking 編

· Segmentation 編

· Single Image Super-Resolution 前編

前提知識

動画認識は,行動分類や行動検出などに代表される,動画情報を入力に定義されるタスク全般のことをさします.近年では,画像認識同様,様々な動画認識のタスクにおいてCNNを用いたアプローチがメジャーです.CNNを用いた動画認識モデルは,目的タスクに応じて多少の差異はあるものの,特徴抽出部分やそれを構成する基本的なモジュールはタスク横断で汎用的に用いられることも多いです.行動分類や行動検出は,そういった動画認識モデルの汎用的な性能を測る上で最も重要視されるタスクで,これらのタスクで高い性能を達成したモデルは,動画認識の他タスクのモデルにもbackboneとして広く使用される傾向にあります.今回も,主に行動分類や行動検出を通して動画認識モデルの汎用的な有効性を主張する研究を紹介します.

動画は画像に対して時間方向の次元が追加されたデータですが,主に時間情報と空間情報の特性の違いが起因して,画像認識で有効な手法の単純な拡張が動画認識において十分とは限りません.特に,時間方向の特徴抽出方法については,入力からend-to-endでタスクに適した特徴表現を獲得するとされるCNNが登場した後も,盛んに議論が続けられるトピックの一つであり,動画認識における性能向上の肝となっていると言えます.今回紹介するCVPR 2019・ICCV 2019の研究では特に,学習方法の観点,さらには動画認識モデルの基本的な計算モジュールの観点から時間特徴抽出の改良に取り組み,動画認識モデルの性能向上を達成しているものが多いです.

タスク

動画認識に属する代表的な2タスクの概要と,関連するデータセットについて紹介します.

行動分類

各動画に1つ割り当てられた行動クラスを推定するタスクです.動画認識モデルの性能を評価する上で,最も重要視されます.

評価指標は動画単位のaccuracy (video accuracy) を見ることが最も多いです. 基本的に動画単位のラベルは,動画から決められた時間長で複数のclipをサンプリングし,各clipをモデルに入力することで得られる推定値の平均とされます.サンプリングは,決められた数のclipを一様もしくはランダムに抽出する方法,sliding windowで抽出する方法 (動画の長さによってclipの数が可変) などが用いられます.

関連する主なデータセットは以下です.基本的に,各動画に対応する行動クラスが与えられます.

· Kinetics:膨大なデータ量と高いアノテーションの質から,現在最も信頼できるデータセットの一つ.複数種類が存在.

o Kinetics-400 (2017):400クラス,306245動画.

o Kinetics-600 (2018):Kinetics-400の拡張版.600クラス (内368クラスはKinetics-400と共有), 495547動画.

o MiniKinetics (2018):Kinetics-400のsubset.200クラス (全てKinetics-400のsubsetと共有), 85000動画.

o Tiny-Kinetics (2019):Kinetics-400のsubset.150クラス (全てKinetics-400のsubsetと共有), 約100000動画.

· UCF101 (2012):Kinetics登場以前に最も用いられていたデータセットの一つ.101クラス, 13320動画.

· HMDB51 (2011):51クラス, 6766動画.

· SomethingSomething v1 (2017):174クラス, 108499動画.

UCF101のサンプルフレーム [19].

行動検出

動画内の行動クラスとその時空間的位置を推定するタスク (空間的位置は行動している人物の位置を意味します) です.行動検出には時空間的位置を推定するものと,時間的位置のみ推定するものが存在しますが,今回は紹介する論文の中で取り組まれている時空間行動検出タスクについて説明します(以降,行動検出は全て時空間行動検出をさします). 具体的には,フレーム単位の人物矩形もしくはaction tubeletと,それらに対応する行動クラスのスコアづけを行います.action tubeletとは,同一人物,同一行動クラスに属すると推定される,時間的に連続な人物矩形集合をさします (下図). 動画認識モデルの汎用的な性能を測る上では,既存の行動検出手法の特徴抽出部分を,提案する動画認識モデルに変更して比較評価する方法が多く用いられます.

action tubeletの概要図 [1].

評価指標にはframe mean average precision (frame mAP), video mean average precision (video mAP) が用いられます. frame mAPは,フレーム単位で推定される人物矩形とground truthの人物矩形のIntersection over Union (IoU) が閾値以上となっているものを正解とした時のaverage precisionをクラスごとに算出し,全クラスで平均したスコアです. video mAPはフレーム単位の人物矩形に代わり,action tubeletのIoUを元にaverage precisionの算出し,クラス方向の平均をとったものです.

関連する主なデータセットは以下です.基本的に,各動画の一部 or 全部のフレームにおける人物矩形とそれらに対応する行動クラスが与えられます.

· AVA (2018):15分 × 437動画から作成されたデータセットで,アノテーションは1秒間隔で付与.60クラス,268005動画.

· UCF101-24 (2013):UCF101のsubset.24クラス,3207動画.

· J-HMDB (2013):HMDB51のsubset.21クラス,928動画.

· UCF-Sports (2008):10クラス,150動画.

従来のアプローチ

動画に含まれる時空間情報のうち,空間特徴抽出は画像認識でその有効性が確認されている2D CNNの考え方を用いることができます.そのため,動画認識モデルでは時間方向の特徴抽出方法が議論になることが多く,今回はそこに焦点を当て従来のアプローチを紹介していきます.

optical flowの活用

動画における時間方向の関係を表す情報形式の1つとして,optical flowがあります. フレーム間のピクセルの空間方向移動ベクトルであるoptical flowは,単一フレームのピクセル輝度値から得られる「見え (appearance)」情報に対して,「動き (motion)」情報として動画認識においてCNN登場以前から広く使用されてきました.CNNを用いた動画認識手法においてもoptical flowの活用は非常にメジャーです.

2014年に提案され,近年でも多くの手法の元になっているものとして,Two-Stream Convolutional Networks (Two-Stream CNN) [2]があります.Two-Stream CNNは,単一フレーム (RGB) 画像を入力とするCNN (RGB-Stream) と時間方向にstackされたoptical flowを入力とするCNN (Flow-Stream) を学習し,各Streamからの出力をfusionする (例えば,平均をとる) 手法です.実際に,RGB-StreamからTwo-Streamにすることで大幅に性能を向上することができ,RGB / Flow-Streamが相補的な特徴を捉えていることが示唆されています. 他にも,Two-Stream CNNの派生としてRGBとoptical flowのfusion方法の最適化を模索する研究が行われており [9, 10],今回紹介する中にもそういった研究含まれています,

性能も高く,直感的にもわかりやすいoptical flowベースの手法ですが,デメリットの1つとしてoptical flowの高い計算コストがあります.そこで,CNNを用いて低計算コストで高精度に推定可能なoptical flowを活用し,全体としての計算コストを削減する試みもあります [17].また,optical flowの動画認識における有効性は,輝度変化への頑健性や動体の形状情報によるものであると実験から考察し,「動き」としての寄与を疑問視する研究もあります [16].こういった観点から,optical flowの動画認識への最適化という方針でより有効な動画特徴を模索する取り組みも存在します [11, 12].今回紹介する論文にも,これらのモチベーションが含まれているものが複数あります.

Two-Stream CNNの概要図 [2].

3D CNN

3D CNNは,2D CNNの2D畳み込み処理を時間方向に拡張した3D畳み込み処理 (下図) で時間方向の情報を考慮するモデルです.3D CNNの先駆け的手法として,2015年に提案されたC3D [3]があります.optical flowと異なり,タスクに適した時空間特徴をend-to-endで学習可能とされる3D CNNですが,C3Dの段階では,行動分類タスクにおいてTwo-Stream CNNに性能が劣っています (on UCF101).この結果を受けて,指摘された問題点は,2D CNNに対して大きく増加した3D CNNのパラメータを最適化するのに動画認識データセットのデータ量が十分ではなかったという点です (2D CNNの成功に大きく貢献したImageNetのサンプル数が100万を超えるのに対し,当時最もメジャーなデータセットであるUCF101の動画数は約13000).

3D畳み込みの概要図 [3].

これに対して,パラメータ数の削減のアプローチをとったのがP3D (Pseudo 3D CNN) [4] や(2+1)D CNN [5] (下図) です. P3Dや(2+1)D CNNは3D (x,y,t) の畳み込み演算を2D (x,y) -> 1D (t) の畳み込みで擬似的に表現することで,パラメータ数を削減し,結果的に精度を向上させました.

3D畳み込み (a) と(2+1)D畳み込み (b) [5].

データ量に関しても,30万以上の動画を有するKinetics-400が提案され,同データセット上の評価では3D CNNはTwo-Stream CNNを超える精度を記録しています [6].3D畳み込みカーネルの空間方向の重みをImageNet学習済みモデルの2D畳み込みカーネルの重みで初期化するInflationも提案され [6],動画認識におけるデータ量のボトルネックがさらに解消されました.

Attention

比較的最近提案されたアプローチとしては,自然言語処理などで有効性が確認されているAttention機構の応用があります.代表的なものは,Non-local Neural Networks [7] です.Non-local Neural Networksは,通常の2D / 3D CNNに対して以下のNon-local operationを中間的に導入をしたものです.

ここで,xは入力特徴マップ,yは出力特徴マップ,添字は座標のindexを表しています.gは座標単位で埋め込みを計算する線形結合で,入力特徴マップが3Dの場合は1×1×1畳み込み (2Dの場合は1×1畳み込み) として並列計算が可能です.fは座標iから見た座標jのAttentionを入力特徴マップにおける座標i, jの値を元に計算する関数です.出力特徴マップの座標iの値は,このAttentionによって各座標におけるgからの出力の重み付け和をC(x)によって正規化したものになります. Attentionの算出方法は複数提案されていますが,シンプルかつ高い効果が確認されているDot product (下式) が広く用いられています.

ここで,θ,φは線型結合で,gと同様入力特徴マップが3Dの場合は1×1×1畳み込みとして計算されます. 実際にはNon-local operationの後段に畳み込み処理を施し,残差構造を持たせたNon-local block (下図) が使用されます.これは,後段の畳み込み処理の重みを0で初期化することで,任意の事前学習済みモデルに対して学習初期におけるその挙動を妨げることなくNon-local operationを導入するためです.

Non-local blockの概要図 [5].

Non-local operationは,座標単位の線型結合・同一の関数fによる任意の座標ペアからのAttention算出・Attentionを用いた重み付け和という時空間的な局所性に捉われない処理で構成されることから,より大域的な特徴抽出に優れていると主張されています.2D CNNに対して時空間的なNon-local blockを導入することで3D CNNを上回る (on Kinetics) 結果も記録されており,時間方向の特徴抽出方法としての有効性も実験的に示されています [5]. 局所性を考慮した特徴抽出として用いられる3D畳み込みや隣接フレームからピクセルの動きとして抽出されるoptical flowなどの時間情報の考慮方法とは独立な意味合いをもつ印象が強く,3D CNNやTwo-Stream CNNなどに追加で使用することで一貫して性能を向上させる傾向にあります.

3D CNN + optical flow

3D畳み込み処理とoptical flowの組み合わせが行われる場合もあります.特に,3D CNNをTwo-Streamにする実験は頻繁に行われており,2D CNNの場合と同様,Two-StreamにすることでRGB-Streamのみの場合から大幅に精度が向上します.さらに,データセットによっては (UCF101,HMDB51など),Flow-Streamの方が精度が高い場合もあります [6]. このような結果から,パラメータ数の観点でのモデル改良やデータ量のボトルネックの軽減が進められた後も,3D CNNはoptical flowが捉えているような動画認識に有効な特徴を抽出しきれていない可能性が示唆されます. 3D CNNが「動き」を捉えていることを疑問視する研究 [8] も存在し,CNNを用いた動画認識モデルの最適性に関してはいまだに議論の余地が多くあると言えます. 今回紹介する論文は,こういった3D CNNの課題感から新たな学習方法やアーキテクチャの提案をしている研究も複数含んでいます.

論文紹介

動画認識に関する最新論文を1つずつ紹介していきます. 特に断りがない限り,図は紹介論文から引用しています.

Representation Flow for Action Recognition (CVPR 2019)

AJ Piergiovanni and Michael S. Ryoo, "Representation Flow for Action Recognition", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper] [Project page] [Code]

要約

optical flowの計算方法から着想を得た,動き特徴を抽出するための新しい計算モジュール,Representation flow layerを提案しました.CNNに組み込んでend-to-endに学習が可能で,各行動分類データセットにおいて大幅に精度を改善しました.

提案内容

Representation flow layer

Representation flow layerはTV-L1 optical flowの計算方法を元に定義されます.TV-L1 optical flowは,「時間的に隣接した画像間の対応点の輝度値は等しい」というoptical flow拘束と,「optical flowは空間方向に滑らかに変化する」という制約を元に定義されたエネルギー関数を最小化することで得られます.エネルギー関数はiterativeな計算を用いて最小化できることが知られており[15],このiterativeな計算は微分可能なので,CNNに組み込むことができます.これを新たな動き特徴を抽出する層と捉えたものがRepresentation flow layerです. Representation flow layerの計算方法とその概念図を以下に示します.基本的にTV-L1 optical flowのiterativeな計算と同一の処理です.

(左) Representation flow layerの計算方法.(右) Representation flow layerの概要図.

上記計算のうち,空間方向の微分計算はSobel filerの畳み込みとして表されます.

また,ダイバージェンスは以下のように計算されます.

学習時に,TV-L1 optical flow最適化のハイパーパラメータである θ,λ,γ やSobel filerの重み,さらにはダイバージェンス計算の重みの勾配計算が可能で,学習パラメータとすることができます.これらを学習パラメータに含め,end-to-endに学習することで,目的タスクに最適化された動き特徴を抽出できると主張しています.

また,Representation flow layerはRGB画像に対してのみではなく,CNNの中間層に組み込むことで,特徴マップに対しても動き特徴を計算します.これは,optical flow拘束が特徴マップ上においても成立する,すなわち「時間的に隣接した特徴マップ間の対応点の値は等しい」という仮定から,意味のある動き特徴が抽出できるという考えです.

論文中では,RGB画像,もしくは特徴マップに対してRepresentation flow layerによって抽出される動き特徴をRepresentation flowと呼称しています.

Flow-of-Flow

Representation flow layerの時間的受容野は隣接フレーム間に限られます.時間的受容野を広げる方法の1つとして,Representation flow layerのcascadeがあげられます. しかし,一般にoptical flow mapにおいては (特に非線形な動きをしている場合),optical flow拘束,すなわち「時間的に隣接したoptical flow mapの対応点の値 (動き) は等しい」という仮定が成り立つとは限りません.したがって,optical flow mapに対してさらにoptical flowを計算しても,(動画認識において) 有用な意味を持たず,Represetation flowにおいてもこれは例外ではないと予想されます. そこで,Represetation flow layerの間に畳み込み層を挟み,end-to-endに学習する方法 (Flow-of-Flow) を取っています.こうすることで,畳み込み層が,次のRepresentation flow layerによって意味のある特徴が抽出されるような (例えば,optical flow拘束を満たすような) 変換を行い,上記の問題が解消され,より広い時間長の考慮が可能になると主張しています.

Flow-of-Flowの概要図.

実験結果

Representation flow layerをCNNのどこに組み込むか,また何を学習パラメータとすべきかを検証する意図で,Tiny-KineticsとHMDB51で実験を行なっています.

下に示す結果から,RGB入力の直後にRepresentation flow layerを入れる場合は,通常のoptical flowを入力するCNN (図中 Flow CNN) と近い精度となりますが,より深い層に組み込むことで精度が向上していることがわかります.Block4以降で精度が下がっていることに関しては,特徴マップの抽象度が高くなることで,隣接フレーム間で類似したものとなり,有用な動き特徴が抽出しにくいためと考察しています.

また,学習パラメータに関しては.θ,λ,γとダイバージェンスの重みを学習する場合が最も良い精度を記録しています.

(左) Representation flow layerの組み込み位置の検証結果.(左) Representation Flow Layerの学習パラメータ選択の検証結果.(評価指標はaccuracy,backboneは全て2D ResNet-34.)

次に,Representation flow layerとRGB情報のfusion方法について,以下の3種類について検証を行なっています. 結果から,著者らは,適切な深さでRepresentation flowを抽出すればRGB情報とのfusionの効果は薄いと主張し,以降の実験ではfusionを行わない方法を取っています.

(左) Representation flow layerとRGB情報のfusion方法.(a) fusionしない (None) (b) 最終的な出力の平均をとる (Late) (c) 中間特徴の要素和,要素積,結合 (Add / Multiply / Concat).(右) Representation flow layerとRGB情報のfusion方法の検証結果.(評価指標はaccuracy.backboneは全て2D ResNet-34.)

Flow-of-Flowの効果についての検証結果を以下に示します.畳み込み層を挟まずにRepresentation flow layerを2回重ねる (図中 Flow-of-Flow) と予想通り精度が低下するのに対して,畳み込み層を挟むと (図中 Flow-Conv-Flow) 大幅に向上しています.精度向上の要因の一つとして,時間的な受容野の拡大が挙げられています.一方で,3回以上重ねると精度が低下し,この原因を上述の特徴マップの抽象化と考察してます.

Flow-of-Flowの検証結果.(評価指標はaccuracy.backboneは全て2D ResNet-34.)

3D CNNや (2+1)D CNNに対して組み込んだ場合の結果を以下に示します.すでに時間方向の特徴を抽出しているこれらのCNNに適用した場合も,2D CNNの場合と同様にRepresentation flow layerの効果は大きく,Two-Streamにした場合よりも高い精度を記録しています.ここから,Representation flow layerは3D,(2+1)D畳み込み処理では捉えられないような動き特徴を抽出できていると考察しています.

3D CNNや (2+1)D CNNへのRepresentation flow layerの適用結果.(評価指標はaccuracy.backboneは全て2D ResNet-18.)

Kinetics-400,HMDB51における従来手法とのaccuracy,Run-timeの比較を以下に示します. 低い計算コストで,従来手法を上回る精度を記録しています.Representation flow layerはoptical flowと比較して,ダウンサンプリングされた特徴マップ上で計算されること,精度をあげるために行われるmulti scale warping処理がないこと,最適化のiterarion数が少ないことにより,計算コストを大幅に抑えることができています.

従来手法との比較結果.(Run-time計測のbackboneは全てResNet-34.評価指標はaccuracy.それぞれのbackboneは異なり,提案手法のbackboneはResNet-50.)

MARS: Motion-Augmented RGB Stream for Action Recognition (CVPR 2019)

Nieves Crasto, Philippe Weinzaepfel, Karteek Alahari and Cordelia Schmid, "MARS: Motion-Augmented RGB Stream for Action Recognition", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper]

要約

学習時にFlow-Streamを教師モデルとしてRGB-Streamに知識蒸留を行うことで,テスト時にはRGB入力のみでTwo-Streamに近い性能を達成しています.optical flowの計算が不要であるため,全体としての推論時間と精度のトレードオフを大幅に改善しました.

提案内容

メインとなるロスに加えて,Flow-Streamの中間出力を模倣する (知識蒸留) ようにRGB-Streamを学習することで,RGB入力のみからFlow-Streamによって獲得されているような動き特徴も抽出するよう促します.計算コストの高いoptical flow計算が必要なのは学習時のみであるため,推論時の処理はTwo-Streamと比較して高速となります.学習手順の異なる2つのパターン (MERS:Motion Emulating RGB Stream,MARS:Motion-Augmented RGB Stream) が提案されており.いずれの場合もまずFlow-Streamのみをメインとなるロス (行動分類の場合はCross Entropy) で学習し,その重みはRGB-Stream学習時は固定されます.

MERSは以下の2段階で学習されます.

· Step1:RGB-Stream (MERS) とFlow-Streamそれぞれの最終層入力前の中間特徴のMean Squared Error (知識蒸留のロス) を最小化するように学習します.

· Step2: MERSの最終層以外の重みを固定して,教師ラベルとのCross Entropyを最小化します.

MERS学習の概要図.

MARSは,知識蒸留とCross Entropyの最小化を段階的に行うMERSに対し,教師ラベルとの知識蒸留のロスとCross Entropyの重み付け和をend-to-endで最小化します.Flow-Streamへの模倣をしつつ,RGB入力からの推定に最適化された特徴抽出を行わせることを意図しています.

MARS学習の概要図.

実験結果

各行動分類データセットにおける,結果を下図に示します. MERSに注目すると,どのデータセットでもFlow-Streamと近い精度を記録しています.また,Flow-Streamとのアンサンブルと (MERS + Flow) 比較して,RGB-Streamとのアンサンブル (MERS + RGB) の方が精度向上が大きいことがわかります.これらから,MERSはRGB入力であるのにも関わらず,Flow-Streamの特徴抽出をうまく模倣できていることを主張しています.MARSについては,どのデータセットにおいてもRGB / Flow-Streamよりも高い精度を記録しており,Two-Streamに近い精度を達成しています.全体としてはMARSの方が高精度であり,Flow-Streamの特徴抽出の模倣とメインのロスの最小化を同時にend-to-endで行うことの有効性が確認できます.

行動分類の結果 (評価指標はaccuracy.backboneは全て3D ResNeXt-101.).

各手法のMiniKineticsにおける精度と推論時間を下図に示します. 提案手法であるMARS, MERSは推論時にoptical flowの計算が不要であるため,TV-L1 optical flowを用いたTwo-Streamに匹敵する精度を記録しつつ,推論時間は高速です.

各手法の精度と推論時間.(backboneは全て3D ResNeXt-101.)

Kinetics-400において,MARSによってRGB-Streamから精度向上 / 低下した上位3クラスとそれらに対する各Streamの精度を下図に示します.精度の向上が大きかったクラスはFlow-Streamで高い精度を記録していたクラスであり,クラスによってはFlow-Streamを上回っています.また,精度が低下したサンプルはFlow-Streamで精度が低かったクラスですが,Flow-Streamと比較するとMARSは高い精度を記録しています.これらから,MARSはRGB / Flow-Streamの中間的な特徴,もしくは双方を組み合わせることによる相乗効果で各Single-Stream以上に有効な特徴を抽出していると主張しています.

RGB-Streamに対してMARSによって精度向上した上位3クラス (Top3) と精度低下した上位3クラス (Bottom3).(backboneは全て3D ResNeXt-101.)

Kinetics-400,UCF101,HMDB51,SomethingSomething v1における従来手法との比較を下図に示します.Kinetics-400では,事前学習なしにも関わらず,既存手法に匹敵する精度を記録しました.UCF101,HMDB51,SomethingSomething v1においても,RGB入力,RGB + Flow入力いずれの条件でも最高精度を達成しました.

(右) Kinetics400における従来手法との比較結果,(左) UCF101,HMDB51,SomethingSomething v1における従来手法との比較結果.(評価指標はaccuracy.それぞれのbackboneは異なり,提案手法のbackboneは3D ResNeXt-101.)

Learning Spatio-Temporal Representation with Local and Global Diffusion (CVPR 2019)

Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Xinmei Tian and Tao Mei, "Learning Spatio-Temporal Representation with Local and Global Diffusion", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper]

要約

通常の2D / 3D 畳み込み処理による特徴抽出を行うLocal pathに加え,入力動画全体の特徴を集約するGlobal pathを含む,Local Global Diffusion (LGD) blockを提案.行動分類,行動検出タスクの様々なデータセットで,一貫した精度向上を記録しました.

提案内容

Local Global Diffusion (LGD) block

一般に,CNNで時空間的にlong-rangeな依存関係を考慮したい場合は,畳み込みやpoolingなどの局所的な処理を多層にして,受容野を広げます.これに対し,著者らは,受容野内でも時空間的に遠い領域の影響は相対的に小さくなると主張しています.提案するLGD blockに含まれるGlobal pathは入力動画全体の特徴を集約する役割をもち,効率的にlong-rangeな依存関係の考慮を行います.

下図にLGD blockの概要図を示します.LGD blockを構成するLocal pathとGlobal pathは,それぞれLocal representation (C × T × H × W),Global representation (C × 1 × 1 × 1) を出力します (Cはチャネル数,T, H, Wはそれぞれ特徴マップの時間方向,高さ方向,幅方向の次元数).また,これらは相互にpathを有しています.

LGD blockの概要図.

上図に対応させて各pathからの出力を式で表すと以下のようになります.

Upsamplingは,Global representationの値を各時空間座標にコピーして,Local representationと同じ次元に揃える処理です.Local Transformationは,通常の2D / 3D 畳み込み処理が用いられます.Weighted connectionsは,線形結合を表し,その重みは学習対象となります.また,Function of sumは,要素和を表します.最終的にはLGD blockを複数連結したモデルを構築します.最初のLGD blockに入力するLocal representationは入力clipにLocal Transformationを一度施したもの,Global representationはそれに対してGlobal Average Pooling (GAP) をしたものとします.

LGD-2DとLGD-3D

論文中では,Local Transformationに2D畳み込みを用いる場合はLGD-2D,3D畳み込みを用いる場合はLGD-3Dと呼称しています.LGD-2Dは,Local Transformationとして,weight-shareな2D畳み込みがフレームごとに行われます.また,long-termな情報を効率よく考慮するために,動画全体をT個のsegmentに分割し,各segmentから1フレームを選出することで,入力を作成しています.対して,LGD-3Dは連続した複数フレームを入力とし,Local Transformationとして3D畳み込みが行われます.実験では,計算コスト削減のためP3Dが用いられています.

LGD-2DとLGD-3Dの概要図.

実験結果

提案するLGD blockの最適性を検証するために,Kinetics-600においてLGD blockのvariantsと比較しています.

· block_v1: 前blockのGlobal representationからのpathをなくした構造で,この場合のGlobal representationは以下のように表されます.

· block_v2: Local representation計算時に要素和ではなく要素積をとる構造で,SE block [13] と近い処理となります.Local representationは以下のように表されます.

結果は以下になります.LGD blockのaccuracyが最も高いことから,LGD blockの有効性とその構造の最適性が主張されています.ベースラインとなる手法に対しても精度向上が確認できます.

LGD blockの最適性に関する検証結果.(評価指標はaccuracy.TSN baseline, P3D baselineはLGD-3D, LGD-2DそれぞれにおいてLGD-blockを導入する前のベースモデルでbackboneはResNet-50.)

次に,Kinetics-400,Kinetics-600における従来手法との比較結果を以下に示します.RGB,Flow,Two-streamのいずれの場合でも,LGD 3Dが最も高い精度を記録しています.Kinetics-600では,より深いbackbone (ResNet-152) を用いたモデルよりも高い精度を記録しています.

従来手法との比較結果.(左) Kinetics-400,(右) Kinetics-600.(評価指標はaccuracy.)

J-HMDBとUCF101-24における行動検出でもLGD blockの評価を行っています.人物候補領域はResNet-101ベースのFaster R-CNNによって検出し,それを用いてLGD-3DのLocal prepresentation上でRoI poolingされた特徴量から,各行動クラスのスコアを算出しています.結果は以下であり,従来手法を大きく上回る結果となりました.

J-HMDB,UCF101における従来手法との比較結果.(評価指標はvideo mAP.)

Dance with Flow: Two-in-One Stream Action Detection (CVPR 2019)

Jiaojiao Zhao and Cees G. M. Snoek, "Dance with Flow: Two-in-One Stream Action Detection", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper] [Code]

要約

optical flowを入力とするbranchからの出力を元に,RGB-Streamの複数の中間特徴をscale,shiftする,Two-in-one Stream CNNを提案.空間的なlocalizationに強く,特に行動検出タスクにおいて,精度向上を達成しました.

提案内容

Two-in-one Stream CNN (Two-in-one) の概要を下図に示します.RGB-Streamの決められた層の特徴マップに対して,optical flowを入力にMotion condition (MC) layerとMotion modulation (MM) layerを通じて計算されたβ,γを用いて,scaleとshiftを行います.MC layer,MM layerは下図に示すようにcascadeされており,MC layerはネットワーク全体で重みを共有,MM layerはRGB-Streamにおいて導入する位置によって異なる重みを持ちます.β,γは対応するRGB-Streamの特徴マップと同一次元であり,それぞれ特徴マップとの要素積,要素和が計算され,次のRGB-Streamの層に入力されます.

Two-in-oneは,Single-Streamに対して,2倍近くになるTwo-Streamと比較すると計算コストの増加は少なくすみます.また,RGB-StreamとFlow-Streamを別々に学習するTwo-Streamに対して,RGB画像とoptical flowを同一のネットワークに入力して,end-to-endに学習している点が異なります.実験の中ではTwo-in-oneに対して,さらにFlow-Streamを加えたTwo-in-one two streamも用いています.

Two-in-one Stream CNN (Two-in-one) の概要図.

実験結果

UCF101-24における行動検出,UCF101における行動分類の結果を下図に示します.行動検出においてはTwo-Streamに対して,低計算コストで高い精度を達成,行動分類においても各Single-Streamよりも高い精度を記録しており,Two-in-one two streamにするとTwo-Streamを超える精度となります.特に,行動検出において効果を発揮した要因としては,optical flowを元に特徴マップをscale,shiftするのは動体領域の情報をRGB-Streamに加える効果があり,空間的なlocalizationに強くなるためであると考察しています.

(左) UCF101-24における行動検出,(右) UCF101における行動分類の結果.(sec / frameにはoptical flowの計算時間は含まれていない.backboneはVGG-16.)

MM layerの位置による精度の変化を下図に示します.入力に近い層に単一のMM layerを入れる方法が最も良い結果となっています.MM layerは主に動体領域の抽出の役割をしているという観点から,特徴マップの空間方向の抽象化が進行する前の浅い層で効果を発揮しているのではないかと考えられます.

MM Layerの位置 (横軸) ごとのUCF101-24における行動検出精度 (縦軸) .(a) 単一のMM layerの場合 (b) 複数のMM layerの場合.(backboneはVGG-16.)

MC / MM layerの出力とshift,scaleされた特徴マップの可視化例を下図に示します.MC / MM layerからの出力は,RGBのみでは抽出できていなかった動体領域に大きく反応していることがわかります.

MC / MM layerの出力とshift,scale前後の特徴マップの可視化例.2行目以降は,各列が特徴マップにおける同一のチャネルに対応.

各行動検出データセットにおける従来手法との比較を下図に示します.特にIoU閾値が厳しい条件において,Two-in-one,Two-in-one two streamが高い精度を記録しており,MC / MM layerを導入することにより,空間的なlocalizationの性能が向上していることがわかります.

各行動検出データセットにおける従来手法との比較結果.(提案手法と同一のbackboneで,Two-Streamとなっている手法は,Single-frameでは表中のSinghらの手法,Multi-frameでは表中のKalogeitonらの手法.評価指標はvideo mAPで2行目は検出矩形のIoU閾値.提案手法のbackboneはVGG-16.)

SlowFast Networks for Video Recognition (ICCV 2019 Oral)

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik and Kaiming He, "SlowFast Networks for Video Recognition", the International Conference on Computer Vision (ICCV), 2019. [Paper (arXiv)]

要約

低い時間的解像度で空間的な意味特徴の抽出を担うSlow pathwayと,高い時間的解像度で動き特徴の抽出を担うFast pathwayからなるSlowFast Networksを提案.計算コストと精度のトレードオフを大幅に改善しました.

提案内容

動画認識で重要な特徴を,空間的な意味情報 (例えば,写っている物体クラスやそれらの大まかな配置,シーン情報など) とそれらの動き情報に分割できると考え,前者の時間的な変化は遅いが,後者を捉えるには高い時間的解像度が必要と仮定.そこで,各々の特徴抽出を異なる時間解像度入力のネットワーク (Slow pathway,Fast pathway) に担わせるSlowFast Networksを構築しました.

SlowFast Networksの概要図と,3D ResNetをベースにした場合の各pathwayの構造を以下に示します.Slow pathwayは入力の時間解像度は低く,res4,res5以外のblockは空間方向の2D畳み込みとなっています.これは,時間的な解像度が低いときフレーム間の物体の移動量が大きいため,空間方向の受容野が十分に拡大されない浅い層では時間方向の関係性を見ても効果は薄いと考えれるためです. Fast pathwayはSlow pathwayと比較して時間的解像度は高いですが,チャネル数や空間方向の情報が削減 (実験参照) されているため,計算コスト(FLOP数)はSlowFast Networks全体の15 ~ 20%に抑えられます.また,決められたblockの直後にpathway間の結合(lateral connection)を持たせており,この結合は実験通してFast pathwayからSlow pathwayのみの単一方向と決めています.具体的な結合方法についてはablation study(実験参照)を行なっています.

(左) SlowFast Networksの概要図と,(右) 3D ResNetをベースにした場合の各pathwayの構造.

実験結果

従来手法との比較を以下に示します.optical flowの使用や事前学習をせずに従来手法よりも高い精度を記録していること,Slow pathwayに対してFast pathwayを加えることで,計算コストと精度のトレードオフが大幅に改善していることがわかります.

(左) Kinetics-400における従来手法との比較結果 (評価指標はaccuracy.SlowFastの右に示される表記は順に,(Slow pathwayの入力フレーム数) × (Slow pathwayの時間方向のstride数), SlowFast Networksのbackbone.backboneはそれぞれ異なる.) (右) Kinetics-400における,計算コストと精度のトレードオフ.

Slow pathway,Fast pathway間のlateral connection方法に関して,以下の3種類を比較検証しています.

· (i) Time-to-channel (TtoC):Fast pathwayの特徴マップを時間方向に分割,それらをchannel方向に結合する形でreshapeし,特徴マップのサイズをSlow pathwayの特徴マップに合わせる方法.最終的に,Slow pathwayの特徴マップとsum or concat.

· (ii) Time-strided sampling (T-sample):Fast pathwayの特徴マップを時間方向にsamplingし,Slow pathwayの特徴マップと時間方向の次元数を合わせる方法.最終的に,Slow pathwayの特徴マップとconcat.

· (iii) Time-strided convolution (T-conv):Fast pathwayの特徴マップにstrideありの3D畳み込みを行うことで,Slow pathwayの特徴マップと時間方向の次元数を合わせる方法.最終的に,Slow pathwayの特徴マップとconcat.

結果を以下の (a) に示します.単純な最終出力のconcatのみでは精度向上が0.9%に止まるのに対し,latetal connectionを入れると改善幅が大きくなります.特に,Time-strided convolutionを用いる場合が最も良い結果を記録しています.

Fast pathwayのchannel数に関する検証結果を以下 (b) に示します.βが1/8程度までの範囲では,channel数の増加による精度の向上が見られますが,それ以上は向上幅が小さい,もしくは精度が悪化する傾向にあります.Slow pathwayに対してFast pathwayのchannel数が相対的に少なくても十分であることが判断できます.

Slow pathwayの軽量化方法に関する検証結果を以下 (c) に示します.空間的解像度の削減,グレースケール化,時間差分画像,いずれの軽量化を施したFast pathwayを用いてもSlow pathwayのみのベースラインと比較して精度向上が確認できます.特にグレースケール化は,計算コストと精度の双方において最も良い結果となりました.

(a) lateral connection方法の検証結果.SlowFastの内,表記がないものは各pathwayの最終出力のconcat.(b) Fast pathwayのchannel数に関する検証結果.βはSlow pathwayに対するFast pathwayのchannel数の割合を示す.(c) Slow pathwayの軽量化方法に関する検証結果.(評価指標はaccuracy,backboneは全て3D ResNet-50.)

行動検出のbackboneとしてのSlowFast Networksの性能をAVA datasetにおいて検証しています.人物候補領域はDetectron [14] のFaster R-CNNをAVAでfine-tuningしたモデルによって検出,それを元にSlowFast Networksの特徴マップ上でRoI alignベースのpoolingを行い,各人物矩形の行動クラス推定を行なっています.結果は下図のようになり,optical flowを使用せずに従来手法を上回るmAPを記録しています.

AVA datasetにおける行動検出の従来手法との比較結果.(評価指標はframe mAP,提案手法のbackboneは3D ResNet-101.)

さらに,下図にSlow pathwayのみとSlowFast Networksの場合におけるAVAの各クラスの精度を示します.全体としてFast pathwayを使用することによる精度の向上は大きく,"hand clap","swin","run / jog"をはじめとする動き情報が大きな手がかりとなると予想されるクラスの改善が特に大きいことがわかりました.

AVA datasetにおける行動検出のクラスごとの精度.(評価指標はframe mAP,提案手法のbackboneは3D ResNet-101.).

おわりに

今回は動画認識分野におけるコンピュータビジョンの最新論文をご紹介しました.単一画像に対してよりリッチな情報である動画を用いてコンピュータビジョンのタスクを解く試みは,可能性に満ちており以前から注目され続けていますが,計算コストと精度の両面においてデファクトスタンダードとなる動画認識モデルの確立は長らくされていなかったように思います.一方で、今回紹介した論文の中には,動画情報の特性と先行研究の課題感から従来の動画認識モデルに大きな変更を加えて性能改善を行ったものもあり,こういった最近の研究の流れが動画認識分野を一気に前進させる可能性にも期待できます.DeNA CVチームでは引き続き調査を継続し,最新のコンピュータビジョン技術を価値あるサービスに繋げていきます.

参考文献

· [1] Kalogeiton et. al, "Action tubelet detector for spatio-temporal action localization", ICCV 2017.

· [2] Simonyan et. al, "Two-stream convolutional networks for action recognition in videos", NIPS 2014.

· [3] Tran et. al, "Learning spatiotemporal features with 3D convolutional networks", ICCV 2015.

· [4] Qiu et. al, "Learning spatio-temporal representation with pseudo-3d residual networks", ICCV 2017.

· [5] Tran et al, "A closer look at spatiotemporal convolutions for action recognition", CVPR 2018.

· [6] Carreira et. al, "Quo vadis, action recognition? a new model and the kinetics dataset", CVPR 2017.

· [7] Wang et. al, "Non-local neural networks", CVPR 2018.

· [8] Huang et. al, "What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets", CVPR 2018.

· [9] Feichtenhofer et. al, "Convolutional two-stream network fusion for video action recognition", CVPR 2016

· [10] Feichtenhofer et al, "Spatiotemporal residual networks for video action recognition" NIPS 2016

· [11] Lee et. al, "Motion feature network: Fixed motion filter for action recognition", ECCV 2018.

· [12] Y.-H. Ng et. al, "Actionflownet: Learning motion representation for action recognition", WACV 2018.

· [13] Hu et. al, "Squeeze-and-excitation networks", CVPR 2018.

· [14] Girshick et. al, Detectron. https://github.com/facebookresearch/detectron, 2018.

· [15] Zach et. al, "A duality based approach for realtime tv-l1 optical flow", DAGM Conference on Pattern Recognition 2017.

· [16] Sevilla-Lara et. al, "On the integration of optical flow and action recognition", GCPR 2018.

· [17] Ilg et. al, "Flownet 2.0: Evolution of optical flow estimation with deep networks", CVPR 2017.

· [18] Kay et. al, "The kinetics human action video dataset", arXiv 2017.

· [19] Soomo et. al, "UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild", CRCV-TR-12-01 2012.

続きを読む

2019/09/24 14:27

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 前編

shunsuke.nakamura

Keywords: AI

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 前編

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている中村です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回はSingle Image Super-Resolutionの前編として中村遵介が調査を行いました。

Single Image Super-Resolutionとは、一枚の画像を入力として受け取り、対応する高画質の画像を推定するもので、日本語では単一画像超解像として知られています。

過去の他タスク編については以下をご参照ください。

· Human Recognition 編

· 3D Vision 編

· キーポイント検出の手法を用いた物体検出編

· Object Tracking 編

· Segmentation 編

目次

· 論文調査のスコープ

· 前提知識

o Single Image Super-Resolution

o 評価方法 代表的なPSNRやSSIMといった指標について

o 関連データセット

§ 学習用 一般的な超解像の訓練データセットについて

§ 評価用 一般的な超解像の評価データセットについて

· 論文紹介

o 辞書ベース超解像 CNN以前の超解像手法概要

o SRCNN: "Image Super-Resolution Using Deep Convolutional Networks"(TPAMI2015) 最初期のCNN超解像

o ESPCN: "Real-Time Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolution Neural"(CVPR2016) SRCNNの高速化モデル

o FSRCNN: "Accelerating the Super-Resolution Convolutional Neural Network"(ECCV2016) SRCNNの高速化モデル

o VDSR: "Accurate Image Super-Resolution Using Very Deep Convolutional Networks"(CVPR2016) SRCNNの多層化モデル

o DRCN: "Deeply-Recursive Convolutional Network for Image Super-Resolution"(CVPR2016, Oral) SRCNNの多層化&再帰モデル

o SRResNet: "Photo-Realistic Single Image Super-Resolution using Generative Adversarial Network"(CVPR2017, Oral) ResNetベースの統合モデル

o EDSR: "Enhanced Deep Residual Networks for Single Image Super-Resolution"(CVPRW2017) SRResNetの巨大化モデル

o RCAN: "Image Super-Resolution Using Very Deep Residual Channel Attention Networks"(ECCV2018) SENetベースの統合モデル

· Tips: PSNRの向上を目的とした超解像モデルの訓練方法 近年の傾向を踏まえた訓練Tips

o 訓練データセット

o Augmentation

o 損失関数

o 初期値

o 入力正規化

o 評価

論文調査のスコープ

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 編は前編と後編からなり、全体としては、Convolutional Neural Network(CNN)が初めてSingle Image Super-Resolution(SISR)に用いられたSRCNNを皮切りに、CVPR2019で発表された論文までで重要と思われるものをピックアップして調査を行っております。

今回の前編では、「スケールやパラメータを含め縮小方法が既知の画像から、なるべく元の画像に近づくよう高画質な画像を推定する」というタスクに取り組んだ論文を紹介します。

後編では、「縮小方法が完全に未知、もしくは一部未知の画像から、なるべく元の画像に近づくよう高画質な画像を推定する」というものや「元画像にとても近いとは言えなくとも見た目が綺麗になるよう推定する」というタスクに取り組んだ論文を主に紹介する予定です。

前提知識

Single Image Super-Resolution

Single Image Super-Resolution(SISR)は、日本語では単一画像超解像として知られ、一枚の画像を入力として受け取り、対応する高画質の画像を推定するタスクです。

ある低画質画像と対応する高画質画像は複数存在するため、このタスクは解が定まらない不良設定問題として知られています。下の画像は後編で紹介するPhoto-Realistic Single Image Super-Resolution Using a Generative Adversarial Networkより引用したものですが、一つの低画質画像に対応する高画質画像が複数あることを示しています。

不良設定問題の例

そのような中、大量のデータから拡大方法を学習するCNNモデルは、この5年ほどで大きな注目を集めています。大量の低画質画像-高画質画像のペアデータから拡大方法を学習することで、未知の画像であってもかなり綺麗に拡大することが可能になってきました。以下の図は一般的にSISRをCNNで解く際の訓練と推論のイメージ図です。訓練時は高画質画像を縮小して入力し、元の画像を復元するように学習します。前編で紹介する論文は、アンチエイリアスをかけた高画質画像をBicubic法によって1/2, 1/3, 1/4 もしくは 1/8に縮小したものを用いています。

評価方法

今回紹介する手法においては、正解画像と推定画像の「近さ」はPeak Signal-to-Noise Ratio(PSNR)とStructure Similarity Index(SSIM)で評価しています。PSNRは画像の二乗誤差に対数を用いた評価指標で、高ければ高いほどモデルの精度が良いことを示しています。しかしPSNRはあくまで二乗誤差なので、ノイズのようなものをうまく指標に反映できないという欠点があります。そこで、PNSR以外の指標として、注目領域の画素の平均や標準偏差と言った統計情報を使用したSSIMも重要となっています。SSIMは0-1の範囲の指標で、これも高ければ高いほど精度が良いことを示しています。

ただし、どちらも「値は高いが見た目としてはあまりよくない」という結果を生む可能性もあり、絶対的に信頼できる指標ではありません。現状では既存手法との比較のしやすさや他により良い選択肢がないということもあり、これらの指標が採用されています。

関連データセット

学習用

· ImageNet: 1000万枚を超える超巨大データセットです。実際に学習する際は35万枚程度をサンプリングして使用します。画像サイズはまちまちですが、400x400程度のものが多いです。超解像の学習では192x192などにクロップされるため、おおよそ1枚の画像から4つほど完全に異なるデータを取得できます。

· DIV2K: CVPR、ECCVのコンペで使用されるデータセット。800枚と枚数は少ないですが、非常に品質が高いことで知られています。また画像サイズも大きく、2040x1300-1500程度の画像により構成されています。おおよそ1枚の画像から60-70枚ほど完全に異なるデータを取得できます。

評価用

· Set5: 5枚のデータセット。CNNモデル登場以前から頻繁に用いられていました。人の顔や蝶、鳥のような自然画像が入っています。

· Set14: 14枚のデータセット。一部、Set5と被る画像もあります。白黒画像やイラスト調の画像が増えました。

· BSD: 100枚、200枚など使用する枚数は異なりますが近年は100枚を使用するケースがほとんどです。動物や人物、飛行機のようなものから景色の画像まで、幅広い自然画像が入っています。

· Urban100: 建物の画像を主に集めたデータセットです。画像内の自己相関性が高い事で知られています。

· Manga109: 漫画のデータセットですが、主に表紙のカラー画像を評価対象に用いられます。

あるSISRモデルを複数の画像に対してそれぞれ適用した際のPSNRは一般的にばらつきがちです。そのため、数枚の画像で評価をすることが難しく、ほとんどの論文では複数の評価データセットについてそれぞれの平均PSNRを記載して既存手法との相対評価を行います。

論文紹介

SISRは辞書ベースのアプローチが行われていましたが、最近ではCNNを利用したアプローチが盛んになっています。まずはCNNモデルのベースとなった辞書ベースの手法についてその手法を大まかに説明します。

辞書ベース超解像

辞書ベースの手法の大まかな流れは以下のようになっています。

1. 事前に高画質画像の一部領域を切り出したパッチと、それを縮小した低画質パッチを大量に用意します。

2. 大量の低画質パッチ群をある基底行列(辞書)とそれぞれのスパースベクトルの積で近似表現します。これは、低画質パッチを、代表的な特徴群の中のいくつかの和で表現することで、より少ない情報で画像を表現しようとしています。

3. 低画質パッチを変換したベクトルと、高画質パッチの対応表を作成します。

4. 超解像の対象となる入力された低画質画像から小領域を切り出します

5. 切り出した小領域を 2. の方法でベクトル表現します。

6. 6. の対応表の中から最も近いベクトルを探し出し、対応する高画質パッチを、小領域に対応する高画質画像として使用します。

7. 4-6.を繰り返して高画質画像を生成します

2.において特徴表現を工夫したり6.の最近傍探索においてアルゴリズムを工夫することで、高速な超解像や正確な超解像を行なっていくもの(A+: Adjusted Anchored Neighborhood Regression for Fast Super-Resolution)や、事前に用意する画像群を外部データを利用せず、入力された画像だけから作成する手法などが存在します。最近だとCVPR2015で画像の自己相関を利用したSelfExSR: "Single Image Super-Resolution from Transformed Self-Exemplars"が発表されていたのが記憶に新しいです。

SRCNN: "Image Super-Resolution Using Deep Convolutional Networks"(TPAMI2015)

目的

従来の超解像のうち、辞書ベースに基づいた手法をCNNに置き換えることで高精度化を図りました。

要約

辞書ベースの手法が行なっていた操作を、CNNに置き換えた論文です。初めてSISRにCNNを用いましたが、既に従来手法を大きく上回る精度を達成しました。

提案内容

全体は3層のCNN構造になっています。

· 1層目が 9x9 の畳み込みで、「小領域を切り出す」という操作に該当

· 2層目が 1x1 の畳み込みで、「小領域を特徴ベクトルに埋め込む」という操作に該当

· 3層目が 5x5 の畳み込みで、「特徴ベクトルから対応する高画質画像を検索する」という操作に該当

損失は、生成結果と正解画像の平均二乗誤差です。CNN内部では拡大を行わず、Bicubic 法で事前に拡大処理したものをCNNで refine するという手法をとっています

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

4x4 PSNR

Bicubic

A+

SRCNN

Set5

28.42

30.28

30.49

Set14

26.00

27.32

27.50

BSD300

25.96

-

26.90

A+はCNN手法ではなく、辞書ベースのものですが当時の最高手法の1つです。SRCNNがPSNRにおいて高い精度を達成したことを示しています。

以下は論文から引用した3x3倍超解像の結果です。既存手法に比べて鮮明な結果となっています。

問題点

SRCNNはCNNのSISRへの適用ということで注目を浴びた論文でしたが、以下の2つの問題を抱えていました。

· Bicubic法で事前に拡大された画像を処理するため計算コストが大きい

· 3層で構成されており、表現能力が乏しい

そこで、この2つに取り組んだ論文をそれぞれ紹介します。まずは1つ目の計算コストが大きい問題に取り組んだ論文を2つ紹介します。

ESPCN: "Real-Time Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolution Neural"(CVPR2016)

目的

SRCNNではBicubic法で拡大した画像をCNNで処理していたため計算コストが大きい問題がありました。この論文はその計算コストの縮小を図ったものです。

要約

実際の拡大をCNN入力前のBicubic法で行うのではなく、CNNの最終部分でsub-pixel convolutionを導入することで実現しています。これにより、CNN内部のほぼ全てのレイヤで小さなサイズの画像のまま計算を行うことを可能にしました。SRCNNのおよそ4-5倍の速度を出しています。

提案内容

SRCNNで前処理として行なっていたBicubic法を除外し、最終層の9x9の畳み込みをsub-pixel convolutionに置き換えることで最終層で拡大を行います。

sub-pixel convolutionは、width, height方向への拡大を行うのではなく、channel方向にr^2倍の拡大を行います。その後、reshapeとtransposeによってテンソルを変形させ、width, height方向にそれぞれr倍した結果を出力します。

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

x4 PSNR

Bicubic

SRCNN

ESPCN

Set5

28.42

30.49

30.90

Set14

26.00

27.50

27.73

BSD300

25.96

26.90

27.06

以下は論文から引用した3x3倍超解像の結果です。

FSRCNN: "Accelerating the Super-Resolution Convolutional Neural Network"(ECCV2016)

目的

SRCNNではBicubic法で拡大した画像をCNNで処理していたため計算コストが大きい問題がありました。この論文はその計算コストの縮小を図ったものです。

要約

SRCNNを提案したチームが、さらに高速化を行ったFast-SRCNN(FSRCNN)です。ESPCNはsub-pixel convolutionを採用していましたが、FSRCNNはtransposed convolutionを採用しています。どちらも表現能力は変わりません。元のSRCNNのおよそ10倍の速度を出しています。

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

x4 PSNR

Bicubic

SRCNN

FSRCNN

Set5

28.42

30.49

30.71

Set14

26.00

27.50

27.59

BSD200

25.97

26.73

26.98

以下は論文から引用した3x3倍超解像の結果です。

以上のように、この後はCNNの最終層近くでtransposed convolutionか、sub-pixel convolutionで拡大を行うようになっていきます。

これにより、SRCNNの2つの問題点である、

· Bicubic法で事前に拡大された画像を処理するため計算コストが大きい

· 3層で構成されており、表現能力が乏しい

の一つ目が解決されていきます。

二つ目の

· 3層で構成されており、表現能力が乏しい

に取り組んだ初期の重要な論文が以下の2つです。単純に層を増加させても学習が不安定になってしまうところを、Residual Learningという手法で防いでいます。

VDSR: "Accurate Image Super-Resolution Using Very Deep Convolutional Networks"(CVPR2016)

目的

SRCNNは3層で構成されており、表現能力が乏しい問題がありました。この論文は多層化させることで不安定になる学習を安定化させることを目指したものです。

要約

Bicubic法で拡大した画像からの差分だけをCNNに学習させるResidual Learningを提案し、深い層のモデルを用いても学習を安定化させた論文です。差分のみを学習できるようにglobal skip connectionを用いています。

提案内容

CNN自体は3x3の畳み込み層を20枚積んだモデルを提案しています。入力はBicubic法で拡大された画像ですが、モデルの出力にこの拡大された画像を足し合わせて最終出力とすることで、結果的にモデルが「正解画像とBicubic法による拡大画像との差分」のみを学習するように制限をかけています。

Bicubic法は単純なフィルタ処理ですが、それでもある程度補間は行えるため、残った僅かな差分だけを学習させることで、学習を容易にしています。この頃は20層のモデルでもvery deepという名前がついたことに少し感慨を覚えます。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

VDSR

Set5

28.42 / 0.810

30.49 / 0.863

31.35 / 0.884

Set14

26.00 / 0.702

27.50 / 0.751

28.01 / 0.767

BSD100

24.65 / 0.673

25.60 / 0.718

27.29 / 0.725

Urban100

23.14 / 0.658

24.52 / 0.722

25.18 / 0.752

以下は論文から引用した3x3倍超解像の結果です。

DRCN: "Deeply-Recursive Convolutional Network for Image Super-Resolution"(CVPR2016, Oral)

目的

SRCNNは3層で構成されており、表現能力が乏しい問題がありました。この論文は多層化させることで不安定になる学習を安定化させることと同時に、多層化によるパラメータ増加を抑えることを図ったものです。

要約

VDSRと同じ著者が同じ会議に提出した論文で、こちらは口頭発表になっています。

基本的にはVDSRと同じくResidual Learningを導入していますが、さらに中間層を再帰構造にさせることでパラメータ数の増加を防いでいます。

提案内容

Residual Learningを導入して Bicubic法と正解画像との差分のみを学習しますが、さらに中間層を再帰構造にしています。最大16回再帰させることで、16枚の超解像画像を生成し、最後にそれらをアンサンブルすることで最終出力を得ています。単純な加算平均ですが、PSNRのように二乗誤差を元にするような指標では、こういった加算平均は大きなズレを抑制し、精度が上昇することが知られています。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

DRCN

Set5

28.42 / 0.810

30.49 / 0.863

31.53 / 0.885

Set14

26.00 / 0.702

27.50 / 0.751

28.02 / 0.767

BSD100

24.65 / 0.673

25.60 / 0.718

27.23 / 0.723

Urban100

23.14 / 0.658

24.52 / 0.722

25.14 / 0.751

以下は論文から引用した4x4倍超解像の結果です。

以上が SRCNNの3層問題を解決した2つの論文でした。

ここまでで、

· 計算効率をあげるために最終層付近で畳み込みベースの拡大を行う

· 層を増やしたほうが精度が上がる。安定化のためにはskip connectionを用いたResidual Learningが良さそう

という 2点が明らかになりました。その結果、これ以降のデファクト・スタンダードとなるSRResNetが誕生することになりました。

SRResNet: "Photo-Realistic Single Image Super-Resolution using Generative Adversarial Network"(CVPR2017, Oral)

Using GAN と入っていることから明らかなようにこの論文ではGANを使用したモデル、SRGANを主軸に提案しています。それに加えて、Generatorとして一緒に提案されているSRResNetが当時のPSNR / SSIMを大きく向上させた手法だったので、今回はSRResNetに注目した解説を行います。

目的

ESPCNFSRCNNを経てCNNの後段で拡大することや、VDSRDRCNによって多層化の知見が得られたため、それらを組み合わせることで高精度な超解像を行います。

要約

Global skip connectionではなく、ResNetのように、モジュール内にskip connectionを組み込んだlocal skip connectionを使用したモデルを提案。最終層付近でsub-pixel convolutionを用いた拡大を行い、その後にもう一度畳み込みを行うことでさらなる補正を行っています。

提案手法

Residual blockと呼ばれる、local skip connectionを導入したモジュールを積み重ねることで、40層近い大規模なネットワークを構築しつつ安定した学習を可能にしたモデルです。

最終層の手前でsub-pixel convolutionによって拡大を行い、最後に9x9の畳み込みで補正をかけたものを最終出力としています。

Residual Learningは導入していませんが、最初の層の直後とsub-pixel convolutionの手前までのskip connectionを導入し、global skip connectionに近い効果を狙っています。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

DRCN

SRResNet

Set5

28.42 / 0.810

30.49 / 0.863

31.53 / 0.885

32.05 / 0.902

Set14

26.00 / 0.702

27.50 / 0.751

28.02 / 0.767

28.49 / 0.818

BSD100

24.65 / 0.673

25.60 / 0.718

27.23 / 0.723

27.58 / 0.762

以下は論文から引用した4x4倍超解像の結果です。SRGAN という記載のものについては後編で解説いたします。

ここで再びブレイクスルーが発生しているのがわかるかと思います。

このあたりまで来ると、PSNRの上下変動に対して、生成結果の見た目の変動がパッと見では分からず、画像の一部を切り出したものを注視して比較する必要が出てきます。

一方で、層を増やした影響としてリアルタイム処理には不向きになっています。

EDSR: "Enhanced Deep Residual Networks for Single Image Super-Resolution"(CVPRW2017)

目的

SRResNetが大きく精度向上をさせられることがわかったため、更に発展させることを目指したものです。

要約

SRResNetから一部の無駄なモジュールを削除しつつ、モデル自体を深さ・広さ共に巨大化させることに成功しました。

提案手法

基本はSRResNetを踏襲しますが、SRResNetではモデル内の1つのモジュールが Conv + BN + ReLU + Conv + BN (+ skip connection) で構成されていたのに対し、Conv + ReLU + Conv (+ skip connection) のようにバッチ正規化を除外したモジュールを提案しています。論文内では、除外の理由はバッチ正規化は値の範囲を制限してしまう点で超解像に不向きであると主張されています。また、バッチ正規化を除外したことでGPUのメモリ消費量を40%近く抑えることができたとも主張しています。

また、SRResNetはモジュール数が16、それぞれの畳み込み層のチャンネル数が64だったのに対し、EDSRはモジュール数を32、チャンネル数を256に変更しています。モデルサイズはSRResNetのおよそ30倍にも及びます。モデルサイズを巨大化させて行く風潮を強く感じる論文です。

一方で、バッチ正規化を除外しモデルを巨大化させたため、中間特徴の値が次第に爆発してしまうことがわかりました。そこで、モジュールの最終部に0.1倍の定数スケーリング層を追加しています。これにより学習を安定化させることに成功しました。

結果

x4 PSNR / SSIM

Bicubic

SRResNet

EDSR

Set5

28.42 / 0.810

32.05 / 0.891

32.46 / 0.897

Set14

26.00 / 0.702

28.53 / 0.780

28.80 / 0.788

BSD100

24.65 / 0.673

27.57 / 0.735

27.71 / 0.742

以下は論文から引用した4x4倍超解像の結果です。+とついているのは後述するgeometric self-ensembleをおこなったもので見た目の変化はほとんどありませんがPSNRが上がるtest time augmentationです。

RCAN: "Image Super-Resolution Using Very Deep Residual Channel Attention Networks"(ECCV2018)

目的

ResNetベースのモデルが成功を収めたので、さらに広げてSENetをベースにすることでさらなる大規模化を図ったものです。

要約

さらにモデルを巨大化させます。といってもSRResNetを直接巨大化させるのはEDSRで達成されているので、この論文はresidual in residualモジュールとself-attentionを使用するアプローチを取っています。

結果として400層のネットワークを構成するのに成功しました。一方でforwardにかかる時間も増加しています。

提案手法

Local skip connectionを組み込んだブロックを複数繋げ、それらを一つのグループとみなし、それらを連結させることでモデルを構成しています。各グループにもlocal skip connectionが導入されているので、residual in residual構造と呼ばれています。

さらに各モジュールにはチャンネルベースのself-attention構造を取り入れています。論文内では畳み込みの受容野の小ささによるコンテキスト情報の欠損を防ぐために導入していると主張されています。

また、ablation studyも行われ、residual in residualが性能向上に大きく貢献していることがわかります。一方でattentionによる性能向上は僅かな値程度に留まり、パラメータ数の増加による性能向上との比較が難しいというのが個人的な見解です。

結果

x4 PSNR / SSIM

Bicubic

EDSR

RCAN

Set5

28.42 / 0.810

32.46 / 0.897

32.63 / 0.900

Set14

26.00 / 0.702

28.80 / 0.788

28.87 / 0.789

BSD100

24.65 / 0.673

27.71 / 0.742

27.77 / 0.744

ここまで結果の表の数字を真剣にご覧になっている方はお気づきかもしれませんが、精度の上がり幅がかなり小さくなってきています。

現時点で4x4倍の単一画像超解像はPSNRの精度において大幅な精度上昇は起きていません。

また、PSNRは1.0変化してようやく人の目にもそれがわかる程度なので、RCANの見栄えが劇的にEDSRに比べてよくなっているわけでもありません。

やはり毎年残っているごく僅かな精度向上を目指して数多くの論文が公開されているのですが、こういった現状を受けて最近は異なる問題設定のタイプの単一画像超解像が登場するようになりました。

次回のTech Blogでそういった論文を紹介していきます。

それでは今回の締めくくりとして、PSNRを高めることを目的とした超解像の訓練Tipsを載せておしまいにしたいと思います。

Tips: PSNRの向上を目的とした超解像モデルの訓練方法

訓練データセット

ImageNet, DIV2Kが使用されていますが、最近はDIV2Kのみが使用されることが多いです。もともと超解像のコンペ用に作成されただけあって、非常に質のいい画像が揃っています。

また、ImageNetで訓練する場合は、数十万枚を使用するケースが多いですが、DIV2Kは800枚の訓練画像でも十分な精度に至ります。そもそもImageNetでもそこまで枚数を必要としないのかもしれませんが、この枚数差は大きいです。

Augmentation

Augmentationにはcropとflipと90, 180, 270度のrotate が使用されます。

Cropのサイズはモデルによってまちまちですが、だいたいのケースでは入力 48x48 -> 出力 96x96, 144x144, 192x192のサイズ感が好まれています。もともとPSNRを高めるためならそこまで画像のコンテキストを厳密に考慮する必要がないので、このサイズ感で問題ないと考えられています。

そこからさらにflip、rotateによって最大8種類の画像を作成して訓練に使用します。

また、test time augmentationとして、flip, rotateで作成した8枚の入力画像をそれぞれ超解像し、その後で再びflipとrotateを適用して元の方向に戻してそれぞれの結果を加算平均する、という手法が存在します。8枚のどれかで一部間違った推論が行われたとしても、残りの7枚との平均計算によって誤差が小さくなり、PSNRが上昇することが期待されます。このtest time augmentationは、geometric enesembleとも呼ばれ、最近の手法でこれを導入していないものはほとんど見ません。

それくらい劇的にPSNRが上昇します(本ブログでの結果の表は全てtest time augmentationを行なっていない時の値です)。

大抵の超解像論文では「Ours, Ours+」のように + でgeometric ensembleの数値結果を表記するため、モデルの性能評価を行いたいときは geometric ensembleしているもの同士、していないもの同士で比較しなければならないことに十分注意してください。ほぼ間違いなく既存手法の精度を表記する際はgeometric ensembleしていない場合の値が表記されます。

損失関数

PSNRの向上を目的とする場合は現状、二乗誤差もしくは絶対誤差が使用されます。二乗誤差よりは絶対誤差の方が収束の速さから好まれる傾向にあります。ただし、現状のPSNR向上モデルの一つであるRCANは二乗誤差を採用しており、一概にどちらの方が精度が良い、という断言はできません(RCANの著者はGitHubのissueの中で、二乗誤差と絶対誤差の選択は大して精度に影響を与えないがより良い損失関数があるかもしれない、と記載しています)。

初期値

バッチ正規化を除外したままモデルを巨大化していくと特徴のスケールが発散する傾向にあるので、モデルの初期値はガウス分布ではなく、一様分布でスケールを調整したものを使用するのが良いです。

入力正規化

RGBの[0, 255]を単純な割り算で[0, 1], [-1, 1]に正規化する人もいれば、そのまま使用する人、データセットの平均RGBを引いて使用する人もいます。最近は訓練データの平均RGB値だけ引いて、特にスケールは変更しないまま使用するケースが多いです。

評価

PSNRの計算は式が単純なだけにさっと実装しておしまいにしてしまいがちですが、実はフレームワークによって算出される値が異なります。というのも、PSNRは輝度から計算されますが、RGBからYCrCbへの変換式が統一されていないからです。SelfExSRという画像の自己相関を利用した手法に関してGitHubで著者による実装が公開されていますが、その中でMATLABによる評価コードが書かれており、これを使用するか、独自で実装した場合は他のモデルの出力結果も自身のプログラムによって再計算するのが良いです。

参考レポジトリ

· EDSR(著者によるPyTorch実装)

· RCAN(著者によるPyTorch実装)

巨大化してきたモデルの構造を把握するのは実際にコードを見るのが早いという点でこれらの著者実装を眺めてみるのもいいと思います。ただし、どちらも訓練にはある程度のGPUを必要とします。

続きを読む

2019/09/13 15:00

音声の印象に基づくグラフィック生成: "fontgraphy" の裏側

shota.takayama

Keywords: AI

はじめに

こんにちは、AIシステム部の高山、橘です。声からオリジナルグラフィックを生成する「fontgraphy(フォントグラフィー)」を9月13日に公開しました。fontgraphyは、デザイン×AIの取り組みであり、一般公開されています。ぜひスマートフォンのブラウザで体験してみてください。https://fontgraphy.dena.com

本記事ではfontgraphyを構成する技術をご紹介します。

fontgraphyについて

fontgraphyは、声からオリジナルグラフィックを生成します。まず、声を入力すると、その声の印象を推論します。次に、フォントとイメージ画像を検索します。最後に、そのフォントに対してイメージ画像の画風を転写することでグラフィックを生成します。画風の転写にはスタイル変換という技術を用いています。

声の印象推定

印象語の選定

話者の声の特徴を直感的な言葉で制御できる音声合成技術 [1] を参考に、甘い、クール、落ち着いた、生き生きした、エレガント、渋い、ポリシーのある、優しい、の8つの印象語を選びました。

データセットの作成

印象語がつけられた公開されている音声データがないので、自前でデータを用意する必要があります。まず、音声データの収集にあたり、発話内容を検討しました。発話内容が異なっていると印象語を評価することが難しくなる、また予測も困難となることから、固定としました。発話内容は、印象スコアが予測できるほどの長さを確保する必要があります。そこで感情認識のデータセットSAVEE [2] を参考にしました。このデータセットでは長くとも4秒程であったため、同様の長さとなる発話内容(「私のロゴを作ってください。」)に設定しました。そして実際に社員800人の音声を録音しました。音声は個人データにあたるため、音声の利用に関する許諾確認書にサインしてもらう必要がありました。800人の席まで行き、許諾確認書にサインしてもらった上で、音声を録音するという大変な作業をデザイン本部が主導して進めました。

次に、録音した音声に対して、印象語をつけました。音声一つに印象は一つと定まらないことが多いため、各印象語へのスコア付けすることで評価することとしました。下図はスコア評価ツールを示しています。スコアは、0:感じない、1:かすかに感じる、2:少し感じる、3:感じるの4段階としました。主観評価になるため、各音声に対して最低3人で評価し、その平均を取りました。デザイン本部が作成したウェブページを使って評価データを集めました。

印象語推定手法

音声から声の印象語を予測するにあたり、感情認識の手法 [3] を参考にしました。感情認識では音声から特徴量を抽出し、抽出された特徴量を機械学習モデルに入力し、出力結果から感情を認識します。これを踏襲することとしました。まず余分な区間を削除するため、振幅値ベースの音声区間検出を行い、検出された音声区間から特徴量を抽出しました。そして、その特徴量を入力として、スコア付けした印象語を予測するモデルを学習しました。音声の特徴量は、感情認識で多く用いられているOpenSMILE [4] のopenSMILE/openEAR 'emobase' set [5]の988次元から、下記に示す音響特徴の統計量からなる731次元を選択しました。

用いた音響特徴

· Intensity

· loudness

· 声の高さ

· ゼロクロス率

· 24次のメルケプストラム係数

· 13次のメル周波数ケプストラム係数とその一次微分

用いた統計量

· 最大値

· 最小値

· 平均

· 分散

· 歪度

· kurtosis

· 1次関数近似の傾きと切片

· 3種のinterquartile range

· 3種のpercentile

また音声分析のために、WORLD [6] (D4C edition [7]) 、SPTK [8]を用いました。 抽出された731次元の特徴量から、印象語のスコアを予測する深層学習モデルを印象語それぞれに対して作成しました。深層学習モデルは隠れ層が128次元の4層からなるFeed-forwardモデルを採用しました。検証データにおいて、予測した各印象語のスコアと人手のスコアの相関係数は0.70となりました。また以下に散布図を示します。横軸が予測スコア、縦軸が人手でつけられたスコアの平均です。この結果からよく予測出来ているとと見てとれます。

感情ごとの相関係数は以下のようになりました。ここから、感情ごとに予測精度に違いあることが確認できます。

感情

相関係数

可愛い

0.61

クール

0.48

落ち着いた

0.65

生き生きした

0.57

エレガント

0.72

渋い

0.14

ポリシーのある

0.71

優しい

0.43

エレガントが高く、渋いが低い結果となりました。特定の印象語によった結果となっており、この要因を探るため、上記の散布図よりエレガント(下図1枚目)と渋いのみ(下図2枚目)を取り出しました。散布図からもエレガントは相関が強く、渋いは相関が弱いことが分かります。

次に人手でつけたスコア自体に偏りがなかったのかを調査しました。印象語ごとに人手でつけられた評価スコアの平均と分散を示します。この結果から印象語によったばらつきには、上記相関係数と同様の傾向は見られませんでした。印象語による予測精度の違いについては、今後調査が必要です。

感情

平均

標準偏差

可愛い

1.85

0.25

クール

1.58

0.39

落ち着いた

1.92

0.37

生き生きした

2.33

0.33

エレガント

1.19

0.48

渋い

1.88

0.26

ポリシーのある

1.39

0.59

優しい

1.65

0.20

フォントとイメージ画像の検索

データセットの作成

声の印象に近いフォントとイメージ画像を検索するには、フォントとイメージ画像にも8つの印象のスコアが必要になります。フォントは、Monotype株式会社(米国Monotype Imaging Inc.の日本法人)から提供されたものを利用しました。大量のフォントへのスコアづけは大変な作業となるため、各フォントについた31個のタグとその評価値を、印象語のスコアに変換することにしました。具体的には、word2vecを使ってフォントのタグと音声の印象語をベクトルとして表現し、コサイン類似度を計算します。1つの印象語に対して31個のタグとの類似度が得られるので、評価値での重み付き和をその印象語のスコアとして算出しました。イメージ画像の印象のスコアは、音声データと同様に、デザイン本部のメンバーが4段階評価でスコアをつけました。

印象の距離の計算

音声の印象、フォント、イメージ画像をそれぞれ8次元のベクトルで表現することができるようになったので、実際に音声の印象に近いものを検索します。fontgraphyではユークリッド距離の最も近いフォントとイメージ画像を検索しています。

スタイル変換

コンテンツ画像にスタイル画像の画風を反映させることをスタイル変換と言います。スタイル変換は、物体の形状はコンテンツ画像に近くなるように、色や風合いといった画風はスタイル画像に近くなるように変換します。リアルタイムで様々なスタイルに変換できるよう研究が進められています。いくつかのスタイル変換の手法を試した結果、fontgraphyに最も適したUniversal Style Transfer via Feature Transforms [9] を採用しました。スタイル変換の技術詳細に興味がある方は「2018年版 深層学習によるスタイル変換まとめ」をご覧ください。

Universal Style Transfer via Feature Transforms

論文:https://arxiv.org/abs/1705.08086

Universal Style Transferの説明に入る前にオートエンコーダについて説明します。オートエンコーダは、入力画像を復元するニューラルネットワークです。入力画像を表現する特徴を抽出するエンコーダと、抽出した特徴から入力画像を復元するデコーダから構成されます。

Universal Style Transferは、エンコーダとデコーダの間にWCTレイヤーを入れてスタイルを変換します。WCTレイヤーではwhiteningとcoloringという処理をかけます。2つの処理は物体の形状の特徴を変えることなく、色や風合いといったスタイルの特徴を変換します。具体的には以下のステップを踏みます。

1. コンテンツ画像とスタイル画像をそれぞれエンコード

2. コンテンツ画像の中間特徴を白色化:whitening

3. スタイル画像の中間特徴の固有値固有ベクトルを使って白色化した特徴を変換:coloring

4. 変換した特徴をデコード

5. 1-4の処理を繰り返し

whitening

コンテンツ画像の中間特徴を白色化します。白色化により物体の構造情報を保ったまま画風の情報を削ぎ落とすことができます。以下の画像は白色化した特徴をデコードした結果です。

対角成分に固有値を並べた行列Dc、固有ベクトルを並べた行列Ec、平均ベクトルmcを使って、エンコードした特徴fcを白色化します。

coloring

白色化した特徴をスタイル画像のパラメータで変換します。この変換は、画風の情報を削ぎ落とす白色化と逆の変換になります。対角成分に固有値を並べた行列Ds、固有ベクトルを並べた行列Esを使って、白色化した特徴を変換します。

coloringした特徴とコンテンツ画像の中間特徴を混ぜ合わせてからデコードすることで、画風の度合いをコントロールすることができます。

下図のように、alphaが大きいほどスタイル画像の画風が強く反映されます。

生成結果

fontgraphyは、以下のようなグラフィックを生成します。フォントは919種類、イメージ画像は400枚使っています。画風の度合いをコントロールするalphaを0から0.6まで0.1ずつ変化させて7パターンの変換をしています。以下の図はalphaを0.6とした結果です。

おわりに

本記事では声からオリジナルグラフィックを生成するfontgraphyの要素技術についてご紹介しました。DeNAは引き続き技術を蓄積し、デザイン×AIの取り組みに挑戦していきます。

参考文献

[1] Surrey audio-visual expressed emotion (savee) database

[2] 話者の声の特徴を直感的な言葉で制御できる音声合成技術

[3] The INTERSPEECH 2009 Emotion Challenge

[4] openSMILE ‒ The Munich Versatile and Fast OpenSource Audio Feature Extractor

[5] OpenSMILE

[6] WORLD: a vocoder-based high-quality speech synthesis system for real-time applications

[7] D4C, a band-aperiodicity estimator for high-quality speech synthesis

[8] Speech Signal Processing Toolkit(SPTK)

[9] Universal Style Transfer via Feature Transforms

続きを読む

2019/08/19 15:40

コンピュータビジョンの最新論文調査 Segmentation 編

Takumi Karasawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている唐澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は Segmentation 編として唐澤 拓己(@Takarasawa_)、葛岡 宏祐(facebook)、宮澤 一之(@kzykmyzw)が調査を行いました。

過去の他タスク編については以下をご参照ください。

· Human Recognition 編

· 3D Vision 編

· キーポイント検出の手法を用いた物体検出編

· Object Tracking 編

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主に Segmentation 技術に関する最新論文を取り上げます。

前提知識

Segmentation

segmentation とは領域分割という意味で、画像を入力としてピクセルレベルで領域を分割しラベルを付けていくタスクです.そのラベリングの意味合いから、画像上の全ピクセルをクラスに分類する Semantic Segmentation、物体ごとの領域を分割しかつ物体の種類を認識する Instance Segmentation、最後にそれらを組み合わせた Panoptic Segmentation というタスクに大別されます。特に、最後の Panoptic Segmentationは ECCV 2018で新しく導入されたタスクです。

Semantic Segmentation

塗り絵のように画像上全てのピクセルに対して、クラスカテゴリーをつけるタスクです。画像を入力とし、出力は入力の画像と同じサイズで、各ピクセルに対してカテゴリーラベルがついたものとなります。特徴として、空や道といった物体として数えられないクラスの領域分割も行える一方で、車や人のような数えられるクラスに対して、同クラス間で重なりがある場合、同クラスの領域として認識するため、物体ごとの認識・カウントができません。評価指標としては mIoU(mean intersection over union)が使われています。

このタスクのネットワークは、Fully Convolutional Network [1] が発表されて以来、FCN 構造が基本となっています。有名な手法(ネットワーク)として、高解像度特徴マップをエンコーダからデコーダに取り入れる U-Net(MICCAI 2015)[2]、upsampling の際にエンコーダでの max pooling の位置情報を使用する SegNet(arXiv 2015)[3]、複数のグリッドスケールでspatial pyramid pooling を行う PSPNet(CVPR 2017)[4]、atrous convolution を取り入れた DeepLab 系 ネットワーク(ICRL 2015~) [5, 6, 7, 8] などがあります。

Instance Segmentation

Object detection のような物体の認識をピクセルレベルで行うタスクです。画像を入力とし、出力は物体の存在する領域を、ピクセルレベルで検出したものとなります。Semantic Segmentationと異なり、重なりのある同一物体などを正しく別々に検出する一方、物体候補領域、すなわち RoI(region of interest)に対して segmentation を行うので、画像全てのピクセルに対してラベルを振ることは行いません。評価指標としては物体検出と同様に mAP(mean average precision) が使われています。

アプローチは、detection 手法を用いて instance 領域を取得後、それぞれの領域に対して mask を予測する detection ベースのアプローチ、まずそれぞれの pixel をラベリングした後ピクセル群をグルーピングする segmentation ベースのアプローチの二つに大別されます。高精度な手法は特に前者に見られる印象で、Mask R-CNN(ICCV2017)[9] は有名なネットワークです。他にも DeepMask(NIPS 2015) [10]、FCIS(ICCV2017)[11]、MaskLab(arXiv2017)[12] などがあります。後者のアプローチとしては境界検出を利用した Instancecut [13] や、watershed algorithm を使用した手法 [14] が存在します。

Panoptic Segmentation

Semantic Segmentation と Instance Segmentation を足し合わせたようなタスクです。入力は画像で、出力には Semantic Segmentation のように、全てのピクセルにラベルが振られ、かつ数えられる物体に関しては、個別で認識した結果が返されます。

数えられるクラス(車や人)を Thing クラスといい、数えられないクラス(空や道)を Stuff クラスといいます。Thing クラスに対して Instance Segmentation、Stuff クラスに対してSemantic Segmentation を行うタスクと考えればわかりやすいです。評価指標には、後述するPQ(panoptic quality)を使っています。こちらは比較的新しいタスクのため、提案されているネットワークの数が他の segmentation タスクと比べ少ないのですが、本記事では CVPR で発表されたものを数本紹介します。

関連データセット

· Cityscapes:semantic segmentation、instance segmentation、panoptic segmentationを含む。

· PASCAL VOC:semantic segmentation を含む。segmentation だけでなく detection 等も含む。

· ADE20K:semantic segmentation を含む。

· COCO:instance segmentation、panoptic segmentation を含む。segmentationだけでなく、detection等も含む。

論文紹介:Semantic Segmentation

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.02985

要約

semantic segmentation のような、解像度に対して sensitive なタスクに対して有効性を発揮しなかった NAS(neural architecture search) においてセルの探索だけでなくネットワークレベルでの探索を行う階層的なアーキテクチャ探索を提案。

提案内容

· 従来の cell レベルの構造の探索に加え network レベルの構造の探索をすることを提案。これにより階層的な探索空間を形成。

· Darts [15] により提案された continuous relaxation を network レベルにも拡張した、gradient-based なアーキテクチャ探索を提案。

アーキテクチャ探索空間:cell(小さい fully convolutional module)レベル

· cell は、内部の B 個の block で構成され、それぞれの出力を順に結合し cell の出力とする。

o block:2ブランチ構造。2つの入力から出力を行う。(I1, I2, O1, O2, C)で表現。

§ I1, I2:入力の組み合わせ。取りうる選択肢は一つ前のセルの出力、二つ前のセルの出力、一つ前のセル中のそれぞれのブロックの出力

§ O1, O2:それぞれI1, I2に対応して行われる処理。取りうる選択肢は、

§ 3x3/5x5 depthwise-separable conv

§ 3×3/5x5 atrous conv with rate 2

§ 3x3 average/max pooling、skip connection、no connection(zero)

§ C:それぞれのブランチの出力を組み合わせ block としての出力を行う処理。論文中ではelement-wise な足し算のみ。

図1:cell レベルの探索空間の結合関係。H は各出力。H の右上の添字は cell の番号、H の右下の番号は block の番号。左上の添字 s は解像度を表し下記の network レベルの空間にて用いる。

アーキテクチャ探索空間:network レベル

· 多様なアーキテクチャに共通する二つのルールを元に探索空間を構築。

o 各層の次の層の解像度は二倍、半分、同じ、のいずれか。

o 最も低解像度までダウンサンプリングした部分で、1/32。

· 最初は1/4までダウンサンプリング(ここまでを stem と呼ぶ)し、その後は 1/4 から 1/32 の範囲内で探索。

図2:network レベルの探索空間。横軸がレイヤーのインデックス、縦軸がダウンサンプリングの倍率を表す。ASPP = Atrous Spatial Pyramid Pooling。

最適化方法

· continuous relaxation により gradient ベースで最適化可能に。

· 学習データを二つに分け、ネットワークの重みとアーキテクチャの重みを交互に更新。

· 損失関数は cross-entropy。

Continuous Relaxation

· cell architecture:O(H) は重み付け和で近似(continuous relaxation)。この重み alpha を gradient ベースで最適化する。重みは非負で総和1。softmax で実装。

· network architecture:

o network レベルの探索は、各レイヤが解像度により最大4つの隠れ状態を持つ。

o 各解像度の出力は cell レベルの出力を重み付け和で以下のように近似(continuous relaxation)。この重み beta を gradient ベースで最適化。重みは非負で総和1。同様にsoftmaxで実装。

· beta は、もちろんレイヤー・解像度ごとに存在するが、alpha は全てのブロックで共通。

探索後のアーキテクチャのデコーディング

· cell architecture:各入力に対するオペレーションは argmax で選択。入力の二つの選択は、各入力に対応する no connnection のオペレーションを除いた全オペレーションに対する alpha らの最大値が大きいものから二つ選択。

· network architecture:beta は状態遷移確率とみなせるため、最適な状態系列(最適経路)をを求めるアルゴリズム、Viterbi アルゴリズムを用いる。

実験結果

Cityscapes データセットに対してアーキテクチャサーチを行い獲得したモデルを用いて、Cityscapes、PASCAL VOC 2012、ADE20K データセットを用いて評価を行った。

アーキテクチャサーチ実装詳細

· 12 layers、セル内のブロック数:B = 5 を使用。

· フィルター数:feature tensor の幅高さが半分とするときフィルター数を倍にするという一般的な方法に従い、ブロック数をB、sを図2のダウンサンプリングの倍率、Fをフィルター数を制御するハイパラとして B x F x s/4。

· downsample: stride 2 の convolution、upsample: 1x1 convolution + bilinear upsampling

· 局所最適を防ぐため、alpha, beta は 20 epoch 後から学習。

図4:Cityscapes に対する実験で実際に得られた探索結果。左図のグレーの破線矢印は各ノード間の重みが最大となる矢印を表す。atr: atrous convolution. sep: depthwise-separable convolution。

実装詳細

· シンプルなエンコーダデコーダ構造を使用。

o エンコーダ:上記のアーキテクチャサーチで獲得したモデル

§ "stem"部分は 3つの 3x3 convolutions (1つめと3つめはstride 2)

o デコーダ:DeepLabv3+ [8] と同じものを使用。

モデルの多様性に関する ablation study。

· フィルター数を制御するハイパラFを増やすと計算コストは大きくなるが良いパフォーマンスとなる。

図5:異なった多様性をもったモデルの validation に対する結果。フィルター数を制御するハイパラFを変化させたときの比較。ImageNet のカラムは ImageNet で pretrain したかを表す。

Cityscapes データセットを用いての他手法との比較。

· pretraining なしで、ベストなモデル(Auto-DeepLab-L)はFRRN [16]、GridNet [17] を大きく上回る。

· Cityscapes データセットの coarse annotation データについても使用することで、pretraining なしで PSPNet [4] 等を上回り、55%もの積和演算を削減できた上で DeepLabv3+ [8] 等に匹敵するパフォーマンスを出した。

· また、PASCAL VOC 2012、ADE20K に対しても ImageNet での pretrain なしで他手法に匹敵するスコア。

図6:Cityscapes test set に対する実験結果。ImageNet のカラムは ImageNet で pretrain したかを表す。Coarse は coarse annotation を使用したかを表す。

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations(CVPR 2019 oral)

論文:https://arxiv.org/abs/1904.07934 、github:https://github.com/nv-tlabs/STEAL

要約

Semantic Segmentation に類似した課題である Semantic Edge Detection において、アノテーションのノイズにより検出エッジが厚みを持ってしまうことを指摘。この課題に対しエッジ細線化のための新たなレイヤを導入すると共に、アノテーションを自動的に補正して高精度化する手法も提案。

提案内容

Semantic Segmentation の双対問題である Semantic Edge Detection(画像からエッジを検出すると共に、各エッジがどの物体の境界なのかをラベル付けする)において、従来手法では検出されるエッジが厚みを持ってしまうという問題がある(図1右の中央列が従来手法による結果)。本論文では、これは学習データにおいて真値として与えられている物体境界が不正確であることが一因であると指摘(図1左)。

図1:アノテーション誤差(左)と、エッジ検出結果の従来手法との比較(右)

この問題に対し、提案手法ではまず、エッジを細線化するための Boundary Thinning Layer と呼ばれる新たなレイヤを提案している(図2中央の黄色領域)。このレイヤでは、CNN が出力したエッジマップにおいて、エッジ上の各点で法線方向にサンプリングを行い、SoftMax を適用することでエッジ以外の点で値が大きくなることを抑制している。これにより、従来手法よりも細く正確なエッジを得ることが可能となる(図1右端列)

図2:提案手法の概要

また、本論文では学習データにおける不正確なアノテーションを補正する手法も提案している。これを Active Alignment と呼び、具体的には動的輪郭モデルを用いて真の物体境界に近付くようにアノテーション境界を徐々に移動させていく(図2右の青色領域)。動的輪郭モデルとしてはレベルセット法を採用しており、学習時にエッジ検出のための CNN のパラメータ更新と、レベルセット法による輪郭の高精度化の2つを交互に繰り返すことで検出モデルと学習データの両面からの改善を実現している。

実験結果

SBD(semantic boundary dataset)と Cityscapes を用いて、従来手法としてよく知られている CASENet およびその改良手法(CASENet-S、SEAL)との比較を行なっている。実験結果を図3に示す。Semantic Edge Detection は検出問題であるため、物体検出などと同じように precision と recall での評価が可能であり、図3における MF(maximum F-measure)とは PR カーブの各点におけるF値の最大値である。MF、AP(average precision)のいずれにおいても、提案手法は従来手法よりも高い精度を達成している。図4はSBDにおける検出結果を定性的に比較したものであるが、提案手法で検出されたエッジは従来手法よりも大幅に細く正確であることがわかる。

図3:実験結果(上:SBD、下:Cistyscapes)

図4:SBDにおけるエッジ検出結果(左から順に、入力画像、CASENetによる結果、提案手法による結果、真値)

また、Active Alignment の効果を図5に示す。図5上段が初期値として与えた不正確なアノテーションであり、下段が Active Alignment により補正を実施した後の結果である。Active Alignment により物体境界が高精度化されていることがわかる。

図5:Active Alignmentの効果(上:補正前、下:補正後)

論文紹介:Instance Segmentation

Mask Scoring R-CNN(CVPR 2019 oral)

論文:https://arxiv.org/abs/1903.00241

要約

従来の instance segmentation 手法は、出力結果の信頼度を classification confidence として出力しているが mask の信頼度と一致していないことを指摘。mask の confidence を出力するブランチを Mask R-CNN [9] に加え適切な mask の信頼度を使用することを提案。

提案内容

· 従来の classification confidence を用いた信頼度の出力の不適切さを指摘。

o object detection でも言及される問題点。参考:IoU-Net

図1:mask があまり良い結果でないにもかかわらず高い classification score を出力してしまっている例。(MS R-CNNは提案手法が出力するスコアで mask confidence も考慮された上で出力されている。)

· IoU(Intersection over Union)を直接学習する MaskIoU Head と呼ばれるブランチを Mask R-CNN [9] に追加した、Mask Scoring R-CNN(MS R-CNN)を提案。

o MaskIoU Head により出力される IoU の予測値を MaskIoU と呼ぶ

o 単に分岐するブランチではなく、RoI Aligin により抽出された特徴マップに加えて予測された mask も加えて入力する。

o 出力の次元数はクラス数。各クラスで IoU を予測する。

o 学習:予測されたマスクを閾値0.5で二値化したマスクと正解マスクの IoU を ground truth として L2損失で学習。

o 推論:MaskIoU を出力し、MaskioU と classification score を掛け合わせることによって各 instance への適切なscoreを出力する。

図2:Mask Scoring R-CNN 全体のアーキテクチャ。

実験結果

· COCO 2017 に対して実験を行い、バックボーンの種類に依存せず、また FPN(feature pyramid network)や DCN(deformable convolution network)の使用の有無に依存せず安定してスコアを改善することを示した。(図3, 図4)

図3:複数のバックボーンに対する Mask Scoring R-CNN の実験結果の比較。APm は instance segmentation の結果。APb は object detection の結果。(COCO 2017 validation 結果)

図4:FPN、DCN の使用に対する Mask Scoring R-CNN の実験結果の比較。APm は instance segmentation の結果。APb は object detection の結果。(COCO 2017 validation 結果)

· 他手法との比較については図5のように掲載されている。論文中で優劣についての考察は言及されていない。

図5:他手法との instance segmentation 結果の比較。(COCO 2017 test-dev 結果)

論文紹介:Panoptic Segmentation

Panoptic Segmentation(CVPR 2019)

論文:https://arxiv.org/abs/1801.00868

要約

新しいタスクとして、Panoptic Segmentation を提案した論文。新たな評価指標として、Panoptic Quality(PQ)を提案し、既存のセグメンテーションネットワークに事後処理を加え、PQ を出し、人間との精度比較やベンチマークを構築した。

提案内容

Instance Segmentation と Semantic Segmentation を足し合わせた新しいタスク、Panoptic Segmentation を提案。数えられるクラス(人や車)を Thing クラス、数えられないクラス(空や道)を Stuff クラスと定義し、それぞれに対し Instance / Semantic Segmentation を行う。

Semantic Segmentation 同様、出力は、入力画像と同じサイズで、各 pixel にクラスのラベルが振られているもの。ただし Semantic Segmentation と異なり、Thing クラスに対しては、個々の物体を正しく pixel レベルで認識する。Instance Segmentation では、物体間での overlap は発生するが、Panoptic Segmentation では、1つの pixel が2つのクラスカテゴリーを持つことはない。

図1:異なる Segmentation の比較。右上から Semantic Segmentation 左下に Instance Segmentation、そして右下に、それらを統合した Panoptic Segmentation。

新しい評価指標として、Panoptic Quality(PQ)が提案された。PQとは数式では以下のように表される。Recognition Quality(RQ)は物体検出などで使われる、F1 スコアで、SQ は Semantic Segmentation で使われる、mIoU となっており、それらを掛け合わせたものが、PQ となっている。

図2:新タスクの評価指標として提案された、PQ。Instance Segmentation の精度を表現する RQ と Semantic Segmentation の精度を表現するSQから成る。

実験結果

既存の Instance Semgmentation と Semantic Semgmentation のネットワークを使用し、Cityscapes, ADE20k, Vistas データセットでの評価をし、ベンチマークを構築し、人間のアノテーション精度と比較を行った。

図3:Cityscapes データセットで、Semantic Segmentation に PSPNet [4]、Instance Segmentation に Mask R-CNN [9] を使い比較をした結果

図4:ADE20k データセットで、2017 Places Challenge の優勝者の手法を使い、精度の比較をした結果

図5:Vistas データセットで、LSUN 17 Segmentation Challenge の優勝者の手法を使い、精度を比較した結果

Panoptic Feature Pyramid Network(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.02446

要約

既存の Panoptic Segmentation ネットワークは backbone を統一していないネットワークが多いが、Mask R-CNN [9] に少し改良を加えることによって、Semantic Segmentation に応用できるということを主張し、結果的に backboneの統一を行い、end-to-end なPanoptic Segmentation ネットワークを作った。

提案内容

Mask R-CNN [9] に Semantic Segmentation Branch と言う新しいブランチを付けることによって、Instance Segmentation だけでなく、Semantic Segmentation にも対応できるようにした。

Semantic Segmentation Branch は FPN のサイズの異なる特徴マップを入力とし、それぞれに対して3x3 conv, GN, ReLU 最後に bilinear upsampling を行い、各サイズの特徴マップを入力画像比 1/4 のサイズに統一する。最後にサイズが同じの特徴マップに対して、1x1 conv, blinear upsampling、最後に softmax を行い、入力画像のサイズと同じにすることによって、pixel レベルでの classification を行う。

図1:Semantic Branchの構成図。FPN の出力(図左)に対して、3x3 conv などを行い、出力のサイズを入力画像比1/4に upsampling し、1x1 conv, bilinear upsampling などを行い入力画像と同じサイズにする(図右)。

Lossの定義は

· Classification Loss: Instance Branch

· Bounding Box Loss: Instance Branch

· Mask Loss: Instance Branch

· Cross Entropy: Semantic Branch

を適用していて、Instance BranchのLossとSemantic BranchのLossはパラメータλによってバランスが保たれている。

前半で紹介したPanoptic Segmentationの論文と同様に、結果がOverlapした場合には、以下のポリシーを用いて処理している。

1) Instance同士でのOverlapでは、NMS同様Confidence Scoreを元に片方を抑制する

2) ThingクラスとStuffクラスでOverlapが発生した場合は、Instanceの結果を優先する

実験結果

Mask R-CNN に Semantic Branch を付けた Semantic FPN と、既存 Semantic Segmentation モデルでの精度比較と、提案手法と既存 Panoptic Segmentation モデルでの精度比較を、COCO, Cityscapes のデータセットを用いて行なった。

Semantic FPN と既存手法での精度比較を Cityscapes で行った結果、下の図の様に、既存手法と同等の精度が出ることが確認された。既存手法の多くに dilated conv が使われている中、Semantic FPN は Semantic Segmentation 特有のオペレーションを使用していないため、比較的に少ないメモリー使用量で、backbone 選択の制約を低くした。

図2:Semantic Branch を Mask R-CNN に付け、既存の Semantic Segmentation のネットワークと mIoU を用いて性能比較をした結果。backbone 中にある「D」は dilated conv を指す。

最終的に COCO を用いて PQ で評価した結果、既存の single network を大幅に上回る精度が出た。特に Thing クラスでの精度向上が大きく、これはベースとなっている Mask R-CNN が Instance Segmentation のネットワークだからと著者は言っている。

図3:既存 single network と PQ を用いて性能評価をした結果。特に Thing クラスでの性能向上が大きく、統合された結果では 8.8pt 向上している。

最後に、定性的に評価した結果は以下の様になっている。

図4:COCO(図上)とCityscapes(図下)に対して Panoptic Segmentation を行なった結果。

UPSNet: A Unified Panoptic Segmentation Network(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.03784

要約

Mask R-CNN [9] に新しい Head を追加し、Semantic Segmentation に応用し、双方の結果をマージするために新しい Parameter-free Head、Panoptic Head を提案した。既存の single network と separated network と性能を比較したところ、同等、もしくは既存手法より高い精度を end-to-end のネットワークで出した。

提案内容

deformable conv を使った Segmentation Head を提案し、Instance Segmentation モデルの Mask R-CNN [9] を Semantic Segmentation に応用した。Semantic Head と Instance Head の出力は parameter を必要としない、Panoptic Head によってマージされ、それらの結果が最終的な出力となる。

図1:全体の構成図。Mask R-CNN に新たに Semantic Head を追加することによって、Semantic Segmentation を行い、それらの結果をマージする Panoptic Head を新たに提案し end-to-end なネットワークを作った。

Semantic Head の目的は、Stuff クラスを正しく認識し、かつ Thing クラスの精度向上にも貢献することである。構造は以下の様になっており、deformable conv をFPNの出力にまず行い、そして入力画像比 1/4 まで upsampling される。全ての特徴マップのサイズを揃えた後、チャンネル方向に concat、1x1 conv 最後に softmax を行い、pixel レベルの classification を行う。

図2:Semantic Head の詳細図。FPN の出力を入力とし、deformable conv を行い、upsampling をし 1/4 のサイズに揃える。これらの結果が Stuff クラスと Thing クラスの予測に使われる。

Instance Head は Mask R-CNN と同じで、それら両方の結果が Panptic Head によって統合される。Semantic Head の出力は、Thing クラスの予測と Stuff クラスの予測に分かれ、Xthing と Xstuff として下の図では表現されている。Xstuff はそのままPanoptic Logits にマッピングされ、Xthing は GT の bounding box 座標をもとに cropping され、Xmask として Thing クラスの予測に使われる。Xmask と Yi は同じサイズに揃えた後、element-wise に足し、その結果が Panoptic Logits の Thing クラスの予測にマッピングされる。

図3:Panoptic Head の詳細図。Xthing と Xstuff は Semantic Head の出力で、Yi は Instance Head の出力。それらの結果は統合され、最終的に Panoptic Logits として出力される。

実験結果

COCO データセットを用いた、既存 Panoptic Segmentation との性能を比較。

図4:COCO2018 test-dev での性能比較の結果。上の3つは leader board の上位3つのモデル。

Cityscapes データセットを用いた、既存 Panoptic Segmentation との性能を比較。図5:Cityscapes データセットでの 既存 Panoptic Segmentation との性能比較。COCO と書いてあるモデルは、COCO で pre-train 済みのモデルを使用。

おわりに

今回は Semantic Segmentation、Instance Segmentation、Panoptic Segmentation を含めた segmentation に関する最新論文をご紹介しました。segmentation タスクへの手法が発達してきたことで、Panoptic Segmentation といったより高難易度な新しいタスクへのアプローチの提案が行われてきており、興味深いです。 DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] J. Long, et. al. Fully convolutional networks for semantic segmentation. CVPR 2015

[2] O. Ronneberger, et. al. U-net: Convolutional networks for biomedical image segmentation. MICCAI 2015

[3] V. Badrinarayanan, et. al. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv 2015

[4] H. Zhao, et. al. Pyramid scene parsing network. CVPR 2017

[5] L.-C. Chen, et. al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. ICLR 2015.

[6] L.-C. Chen, et. al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI 2017

[7] L.-C. Chen, et. al. Rethinking atrous convolution for semantic image segmentation. arXiv 2017

[8] L.-C. Chen, et. al. Encoder-decoder with atrous separable convolution for semantic image segmentation. ECCV 2018

[9] K. He, et. al. Mask rcnn. ICCV 2017

[10] P. O. Pinheiro, et. al. Learning to segment object candidates. NIPS 2015

[11] Y. Li, et. al. Fully convolutional instance-aware semantic segmentation. ICCV 2017

[12] L.-C. Chen, et. al. Masklab: Instance segmentation by refining object detection with semantic and direction features. arXiv 2017

[13] A. Kirillov, el. al. Instancecut: from edges to instances with multicut. CVPR 2017

[14] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. CVPR 2017

[15] H. Liu, et. al. Darts: Differentiable architecture search. ICLR 2019

[16] Z. Yu, et. al. CASENet: Deep Category-Aware Semantic Edge Detection. CVPR 2017

[17] T. Pohlen, et. al. Full-resolution residual networks for semantic segmentation in street scenes. CVPR 2017

[18] D. Fourure, et. al. Residual conv-deconv grid network for semantic segmentation. BMVC 2017

続きを読む

2019/07/17 18:56

コンピュータビジョンの最新論文調査 Object Tracking 編

Takumi Karasawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョン研究開発をしている唐澤(@Takarasawa_)です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回はObject Tracking編として唐澤 拓己が調査を行いました。

過去の他タスク編については以下をご参照ください。

· Human Recognition 編

· 3D Vision 編

· キーポイント検出の手法を用いた物体検出編

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主にObj ect Tracking技術に関する最新論文を取り上げます。

Object Tracking の位置付け

Object Tracking とは物体追跡という意味で、動画中で変化・移動していく物体を追跡するタスクです。動画中の物体を認識する上で基本的なタスクといえ、様々な応用面がありながらも、未だにチャレンジングなタスクとして存在しています。

Object tracking は、動画像中で指定されたひとつの物体を追跡する Single Object Tracking(SOT)、複数の物体を同時に追跡する Multiple Object Tracking(Multi-Object Tracking、MOT)に大別され、与えられる動画像の時間(フレーム数)が短いもの(Short-term)と長いもの(Long-term)でさらに異なるアプローチが取られることが多いように感じます。動画像の長さによりアプローチが異なるのは、時間が長い動画像においてある物体を見失った際(見失ったあとの全ての時間を失敗とみなされるため)低い評価を得てしまうことに起因して occlusion(物体が他のものに隠れてしまうこと)への対策等に重きが置かれるためだと思われます。

今回の論文紹介では最も中心的な、Short-term の SOT タスクに対して提案されている論文を紹介いたします。(以下、Object Tracking とはこのタスクのことを指して述べます。)

前提知識

Object Tracking

動画像と、その動画像の初期フレームにおける物体の位置が矩形(bounding box)として与えられ、次フレーム以降の同一物体の位置を bounding box として検出するタスクです。

このタスクの難しい点は、追跡する中で対象物体の外観が未知の状態へ変化していくこと(照明条件の変化や物体そのものの変形、見えない側面への視点の変化など)と、追跡中に生じる occlusion や他物体の交わりなどの外的影響に大別される印象です。また、物体検出との大きな違いとして基本的にクラスに依存しない物体全般へのタスクでありつつ、同クラスであっても異なる物体かの判断が必要な繊細な検出であることが挙げられるかと思います。

また、動画タスクの需要のひとつとして精度だけでなくリアルタイム性が重視されることが多く、速度と精度のバランスについてはよく議論される内容です。

アプローチ

Object Tracking に対して深層学習を用いた近年の主要なアプローチに、対象物体に対してオンライン学習を行うCorrelation Filter 系アプローチ、オフラインで汎用的な類似性マップを出力するための学習を行うSiamese Network 系アプローチがあり、今回紹介する論文に関わりが深いためそれぞれ概要を紹介いたします。他にもそれらを複合的に使用したものや物体検出タスクと併せてタスクを解くアプローチなど手法は多岐にわたります。

参考:https://github.com/foolwood/benchmark_results/

Correlation Filter 系アプローチ

Correlation Filter系アプローチは、基本的には与えられた目標画像(target template)に対してオンライン学習を行うことでターゲット特有の追跡モデルを獲得するアプローチのひとつで、得られた目標画像から正例と負例のサンプリング、それらのデータを用いて目標画像特有の識別器を学習、という流れであることが一般的です。オンライン学習により目標画像特有の識別器を学習するアプローチは比較的昔からある手法で、識別器に Boosting や SVM を用いる手法も存在します。その中で特にCorrelation Filter 系アプローチは、探索画像(search region)において物体に該当する場所をフィルタにより畳み込み演算を行った時に大きな値となるように学習を行います。

物体周辺からランダムサンプリングされていた従来手法に対して、このアプローチではまずピクセル単位でシフトさせることで密にサンプリングを行います。密にサンプリングされた画像群は巡回行列として扱うことができ、フィルタを用いた巡回行列に対する畳み込み演算(巡回畳込み)は、離散フーリエ変換を用いて簡単に計算できるという特性を用いて高速なオンライン学習を実現しています。(畳み込み演算と CNN などに用いられる畳み込み(convolution)は厳密には異なる計算です。)

現在は学習済み識別モデルにより得られた複数解像度の特徴マップに対してフィルタの学習を行うことが主流となっています。また、オフライン学習との複合的なアプローチも見られます。

Siamese Network 系アプローチ

Siamese Network 系アプローチは、Object Tracking の問題を、目標画像(target template)から抽出される特徴表現(feature representation)と探索画像(search region)から抽出される特徴表現間の、相互相関(cross-correlation)により得られる汎用的な類似性マップ(similarity map)を学習することで解決を図ります。

ネットワーク構造は以下の図のように2つのネットワークで構成されており、Siamese Networkとはこの特徴的な2つのネットワークで構成される構造を指し、Object Trackingタスクでなくても用いられる言葉です。一方のネットワークは目標画像から、他方のネットワークは探索画像から特徴マップを抽出し、目標画像から抽出された特徴マップを用いて探索画像から抽出された特徴マップを畳み込むことで類似性マップを獲得します。応答マップ(response map)と呼ばれることもあります。学習の際は類似性マップが正解となるように学習を行い、追跡の際は類似性マップを元に追跡を行います。

このアプローチの基本となる手法として、SiamFC(ECCV2016 workshop)[1] と SiamRPN (CVPR2018)[2] の2つの手法が存在します。SiamFC はより直感的な考え方で、類似性マップは正解の存在する場所のグリッドの値が大きくなるように学習されます。SiamFCはこのアプローチが類似性マップを計算する処理も畳み込み(convolution)で表現されるため全体の構造が fully convolutional(FC)であることに名前が由来しています。他方で SiamRPN は、物体検出手法の代表的な手法のひとつである Faster R-CNN 中で使用されている物体候補領域を予測する region proposal network(RPN)を参考に、各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは、各アンカーの物体らしさとアンカーの bounding box の正解への座標と幅と高さへの補正値を出力するように学習します。基本的には後者のほうが精度が良くなる傾向にあります。これらの2つの手法の提案された年代から、まだこれらの Object Tracking 手法の発達が浅いことがわかります。

SiamFC アーキテクチャ図。各特徴量を共通のネットワークφを用いて取得し、畳み込みを行うことで類似性マップを出力しています。( [1] より引用)

SiamRPN アーキテクチャ図。SiamFC と同様に Siamese Network を通したあと region proposal network のように物体らしさを出すブランチと bounding box の回帰を行うブランチにより結果が出力されます。( [2] より引用)

全体的な特徴として、Correlation Filter系アプローチと異なり基本的にはオフラインで学習を行い追跡時には重みを固定することが多いため(追跡時に学習を行わないため)、近年の高精度な手法らの中では追跡速度が速いことがあげられます(参考)。他方で欠点としてオンラインで目標画像の学習を行っていないため、目標物体と類似した物体のような紛らわしいものという意味のディストラクタ(distractor)に弱いことがよく述べられます。現在ではディストラクタなどの問題に対処するためオンライン学習をとりいれた手法や、特にディストラクタ認知モジュール(distractor-aware module)を備えた DaSiamRPN(ECCV2018)[3] などの手法も提案されており DaSiamRPN は今回紹介する CVPR2019 の論文中でも state-of-the-art として比較されることが多い手法となっています。

Siamese Network 系アプローチは Object Tracking のリアルタイム性の需要から、精度と速度のバランスの良さについて言及されることが多く、近年発達してきており今回紹介する論文も大半がこちらです。

参考文献

[1] Luca Bertinetto, Jack Valmadre, João F. Henriques, Andrea Vedaldi, Philip H.S. Torr. "Fully-Convolutional Siamese Networks for Object Tracking." ECCV workshop (2016)

[2] Bo Li, Wei Wu, Zheng Zhu, Junjie Yan. "High Performance Visual Tracking with Siamese Region Proposal Network." CVPR (2018 Spotlight)

[3] Zheng Zhu, Qiang Wang, Bo Li, Wu Wei, Junjie Yan, Weiming Hu."Distractor-aware Siamese Networks for Visual Object Tracking." ECCV (2018)

関連するデータセット

· OTB(object tracking benchmark)2013, 2015:VOTと共にデファクトスダンダートとされるデータセット

· VOT(visual object tracking)2013〜18:ICCV/ECCVで毎年開催されるコンペで公開されるデータセット。ICCV2019もコンペ開催中。

o 2014から bounding boxが回転したものを用いられるようになった。(通常は画像軸と平行な bounding box)

o 2018から long-termのデータセットも導入

· LaSOT(large-scale single object tracking):最も新しく導入されたデータセット(ECCV2018)

· 他に TrackingNet(2018)、UAV123(2016)など。

動画の長さと動画数についての各データセットのプロット(LaSOTより引用)

評価指標

· AUC(area under curve):正解とみなす overlap の threshold を変化させてできる precision の変化をプロットした際の曲線の下側の面積(area under curve)。いずれの threshold でも precisionが大きいほうが良いため大きいほうが良い。

· Robustness:VOTで使用される評価指標。追従中に overlap が0になってしまったときを追従失敗とみなし、1つの動画シーケンスに対して何回追従失敗するか。

· EAO(expected average overlap):VOTで使用される評価指標。accuracy と robustness を組み合わせた概念。複数動画長の各条件で追跡のoverlapの平均を算出し、それを全条件にて平均したスコア。ただしこの時追跡失敗後の overlapは全て0とみなされる。

論文紹介

【SiamMask】 "Fast Online Object Tracking and segmentation: A Unifying Approach"(CVPR 2019)

論文:https://arxiv.org/abs/1812.05050

要約

従来の SiamFC, SiamRPN に Mask を出力するブランチを追加し、object tracking と semi-supervised video object segmentation を同時に解く SiamMask を提案。また、併せて segmentation mask を用いて適切な bounding box を付与することで tracking のスコア自体も向上。

提案内容

· 従来の SiamFC, SiamRPN に Mask を出力するためのブランチを追加することで、object tracking と semi-supervised video object segmentation を同時に解く SiamMask を提案

· Siamese network において Target template と Search region からそれぞれ抽出される feature map 間の畳込み演算は depth-wise convolution を採用し、multi-channel の response map を使用する。(従来は通常の畳込みを行い single-channel の response map が出力される。)

全体のArchitecture

(a)three-branch 構造. SiamRPN は元々2つのブランチが存在するためこちらに該当。

(b)two-branch 構造. SiamFC は元々が1つのブランチしか存在しないためこちらに該当。

· *d の部分が depth-wise convolution.

· Mask ブランチにおける hφ は1x1 conv を2つ重ねた2 laye rの conv net。mask は各グリッドで直列化された状態で表現される。

(画像は本論文より引用)

Mask ブランチのアウトプットから Mask 画像への Upsampling

· 高解像度レベルの特徴マップを取り入れて refinment しつつ Upsampling を行う

(画像は本論文より引用)

Upsampling の際、高解像度を取り入れる部分の詳細 Architecture(図は U3 について)

(画像は本論文より引用)

Mask ブランチからアウトプットされるスコアマップ

· 各グリッドに該当グリッドを中心としたTarget画像サイズのMaskが格納される

(画像は本論文より引用)

Bounding box の付与方法。Box ブランチによる出力も行われるが、Maskを用いてより詳細な回転を含む適切な bounding boxの付与を付与する。

· 赤: Min-max 通常の画像軸に平行な外接矩形。

· 緑: minimum bounding rectangle(MBR)。segmentation mask を包含する bounding box の中で最小となる box の選択。

· 青: *従来研究で提案された optimization によりえられる bounding box。ただし計算コストが非常に大きい。

*M. Kristan, et al. The visual object tracking vot2016 challenge results. (ECCV 2016)

(画像は本論文より引用)

学習に使用する損失関数

· g は depth-wise convolution。

· h は Mask ブランチ. m はそれにより出力される mask。

· yn は ±1。RoW(各グリッドのこと)が mask 部分に該当するかどうか。

· yn がポジティブ(1+yn は yn がネガティブなときに0)な RoW に対してのみ全ピクセルについて binary logistic regression loss を算出して総和を取る。

· 2ブランチのときと3ブランチの時の全体の損失。mask 以外に関しては通常の SiamFC、SiamRPN のロスでsimはsimilarity mapのロス、score, box はRPNのそれぞれのロスを表す。λ は影響度の調整を行うハイパーパラメータ。

実験結果

VOT-2016, VOT-2018 を用いて visual object tracking の評価。

bounding box の付与の仕方の違い。(VOT-2016)

· 比較対象の oracle の表記は ground truth 情報を用いたもので、各手法のスコアの上限の評価に相当しているとのこと。

o Fixed:アスペクト比を固定した場合の ground truth。SiamFC に対応。

o Min-max:画像軸並行の制約条件。SiamRPN に対応。

o MBR:SiamMask に対応。

· 従来の手法は ground truth が回転された bounding boxでありながら、画像軸に平行な bounding box を出力している。

· binary mask を使用するだけで画像軸に平行な bounding box の出力に対して大幅な差をつけられる。

(表は本論文より引用)

他手法との比較

· SiamMask:3ブランチ(SiamRPNの拡張)

· SiamMask-2B:2ブランチ(SiamFCの拡張)

· 従来手法に対して大きな差で上回る。

(表は本論文より引用)

Siam RPN++: Evolution of Siamese Visual Tracking with Very Deep Networks (CVPR 2019 oral)

論文:https://arxiv.org/abs/1812.11703

要約

Siamese network 系アプローチのバックボーンは従来 AlexNet 等モデルであり、ResNet 等のモデルでは精度が落ちることが知られている。それを学習時にターゲットが中心に偏らないサンプリング方法で対処し、multi-layer の類似度マップ、depth-wise な畳み込みを用いて深いモデルの良さをさらに発揮するモデルを提案。

提案内容

· Siamese network 系アプローチのためのサンプリング方法の提案(spatial-aware sampling strategy)

o Response map による追従では双方の特徴の不変性(translation invariance)が必要。

o 他方で深いネットワークは、ネットワークを深くするために padding が多く含まれており、これが translation invariance を崩している。

o また通常、学習の際に response map の中央にターゲットが来るような学習がされており、そのため translation invariance が崩れているネットワークでは中心に response がでやすくなるバイアス(center bias)が学習されてしまっている。

o これに対して学習のサンプリングの際にランダムに適切な大きさの shift を行う spatial-aware sampling strategy を提案。

· 深いモデルをさらに効果的に使用するため multi-layer の類似度マップを使用する multi-layer aggregation を提案。

o tracking は粗い特徴から細かい特徴まで見るべきだが、従来はネットワークが浅かったため有効に利用できていなかった。

· depth-wise cross correlation filter の使用。(SiamMaskと同一の提案)

o Up-channel していた SiamRPN に比べ、パラメータの数が減り、パラメータの数のバランスがよくなるとのこと。

o 学習の収束が容易となる。

spatial-aware sampling strategy

· 学習時のサンプリングの際にランダムなshiftを加えて学習を行った結果。rand shift range はランダムな shiftの範囲の最大値。

· データセットごとに適切なshift(VOTの場合、±64)が存在することを指摘。

(図は本論文より引用)

multi-layer aggregation

· 各層の特徴マップから得られる response mapは重みづけて総和。

· (画像は本論文より引用)

depth-wise cross correlation layer と従来の cross correlation layer との違い。

(a) SiamFCにおける cross correlation layer

(b) SiamRPNにおける cross correlation layer

(c) 提案された depth-wise cross correlation layer

(画像は本論文より引用)

実験結果

OTB2015データセットを用いてバックボーンによる精度の比較。

· 横軸は ImageNetに対する分類精度を表す、top1 accuracy on ImageNet(論文中では top1 accuracyとあるが図は top1 errorとあり記述ミス。)

· 分類タスクと同じ傾向でバックボーンによる精度向上を行えるようになったことが示唆される。

(グラフは本論文より引用)

multi-layer、depth-wise correlation に関する ablation study。

· depth-wise cross correlationは全体的に精度向上に寄与。

· multi-layerに関しては、

o 2種の組み合わせ:いずれの組み合わせでも精度向上してほしいが、conv4独立に勝ててるのはconv4, 5の組み合わせのみ。

o 3種の組み合わせ:最も良い精度となり multi-layer aggregationの有効性を示唆。

(表は本論文より引用)

depth-wise cross correlation による response mapの出力の図示

· tracking はクラス依存しないタスクであるが、クラスごとに反応する response mapが異なる。

(画像は本論文より引用)

他手法との比較

· 精度に関しては上昇しているが、その反面robustnessは下がる。

(表は本論文より引用)

速度と精度との比較

· mobile netにも適用

(グラフは本論文より引用)

他データセット、UAV123, LaSOT, TrackingNetへも実験を行っており、また、VOT2018 long-termへのtracking performanceについても論文中では実験され比較されている。

Deeper and Wider Siamese Networks for Real-Time Visual Tracking (CVPR 2019 Oral)

論文: https://arxiv.org/abs/1901.01660

要約

Siamese network系アプローチのバックボーンは従来 AlexNet 等モデルであり、ResNet 等のモデルでは精度が落ちることが知られている。その原因を詳細に解析し、Paddingの悪影響を対処する新モジュールの提案をメインとした、deep/wide なモデルを提案する。

提案内容

· 分析:Siamese network系アプローチの(ResNetやInceptionなどへの)バックボーンの単なる置換の際のパフォーマンスの低下に関する詳細な定量的分析、(特にpaddingに対する)定性的分析。

o stride、最終層におけるreceptive field、出力するfeature mapのサイズに対する詳細な分析。それを踏まえたネットワーク構造へのガイドラインの提示。

o 特にPaddingでは、Siamese networkで response map を出力する際のpadding付近の他部分に対する一貫性のなさを定性的に指摘。

· 新しいResidual モジュールの提案:従来の residual unit や inception module からpadding の影響する部分をクロッピングした Cropping-Inside Residual (CIR) Units 等の提案。

o Cropping-Inside Residual (CIR) Units

o Downsampling CIR (CIR-D) Units

o CIR-Inception Units

o CIR-NeXt Units

· ネットワークの提案: receptive field size、 strideの分析とともに、CIR Unitモジュールを含めたネットワークを提案

Cropping-Inside Residual (CIR) units、Downsampling CIR(CIR-D)units

(a)通常の residual unitの構造:3層の conv layer + skip connection。

(a')CIR unitの構造:residual unit の出力後、padding の影響を受ける部分をクロッピングする。

(b)通常の down sampling residual unitの構造:skip connection部分についても conv の stride を2にして down sampling される。

(b')CIR-D unitの構造:residual unit の内部では down sampling せず、出力後(a')と同様に padding の影響を受ける部分をクロッピングしたあと、maxpooling によって down sampling するようにする。

(画像は本論文より引用)

他モジュール図

· Inceptionモジュール、ResNeXtについても同様にクロップするモジュールを提案。

(画像は本論文より引用)

response mapの可視化

· 左上がpaddingバイアスの小さいような物体が中心に位置している状況。

· 左上以外について従来のresnetアーキテクチャでは適切に検出できていない。

(画像は本論文より引用)

実験結果

OTB-2015、VOT-2016、VOT-2017を用いて評価。

ベースラインである AlexNet をバックボーンとした場合との比較。

· いずれもベースラインの精度を提案手法が上回る。

(表は本論文より引用)

ベースラインである AlexNet のバックボーンを ResNet と単に置換した場合と提案手法との精度比較。

· 実際に単に置換した場合では、 AlexNet の場合より悪くなるが、提案手法では精度が向上している。

(画像は本論文より引用)

他手法との比較

(表は本論文より引用)

ATOM: Accurate Tracking by Overlap Maximization(CVPR 2019)

論文:https://arxiv.org/abs/1811.07628

要約

従来のオンラインで学習される target classifier では高次な知識を要する複雑なタスクには限界があることを指摘し、それに加え、高次な知識をオフラインで学習する target estimator を組み合わせることで正確な tracking を実現。

*IoU-Netの前提知識を多く用いるため、IoU-Netの論文についても後に紹介する。

提案内容

物体検出タスクで提案された、検出された bounding box と ground truth の IoU(Intersection over Union)を予測する IoU-Net、それにより予測されたIoUを目的関数とし、IoU が最大となるように refinementを行う手法を tracking に応用し、target estimator を構築する。

target estimator

· IoU-Net はクラス依存なしで汎用的に行うことは難しく、現論文では class ごとにモデルの学習を行っている。

· そのため、IoU-Netの入力に target image を特徴として加えることで target 特有の IoU-Net となるように学習を行う。

o modulation based network を追加することで、target image の特徴は modulation vector として付加させる形で取り入れる。

target classifier

· target 画像に対してオンラインで学習し、targetかどうかの分類を行う。出力は 2D グリッドマップ。

· conv の2層構造で、オンライン学習のため Gauss-Newton法と、Conjugate Gradientを組み合わせて解く。

オフライン学習済み target estimator と target classifier のオンライン学習を組み合わせた Tracking の流れ

1. target classifier の適用。粗く target の存在する場所を特定する。

2. 候補領域の生成。confidence が最大となる座標、ひとつまえの bounding box の幅と高さから最初の候補領域を生成する。このとき局所最適を避けるため一様分布のノイズを加えて10通りの候補領域を生成する。

3. IoU-Net ベースのリファインメントを行なった後、IoU スコアが高い3つの bounding box を平均してtracking 結果とする。

4. 結果を用いてオンライン学習により target classifier を更新する。

テスト時の全体図

· IoU predictor は reference image(target image)を modulation vector として取り入れる。

· Classifier はターゲット画像に対してオンラインで学習がされている。

(画像は本論文より引用)

全体のアーキテクチャ詳細図

(画像は本論文より引用)

実験結果

他手法との定性的な実験結果の比較

· DaSiamRPN は先にも紹介した Siamese network 系アプローチの最も良いとされる手法。UPDT はcorrelation filter に基づく手法。

· UPDT は target state estimation コンポーネントがないためアスペクト比が異なるものを扱えない。

· DaSiamRPN は bounding box regression を採用しているが変形や回転に弱い。

(画像は本論文より引用)

様々なデータセットによる比較。全てのデータセットで最も良い精度となっている。

· NFS、UAV

(グラフは本論文より引用)

· Tracking Net

· LaSOT

· VOT2018

(表は本論文より引用)

【IoU-Net】 "Acquisition of Localization Confidence for Accurate Object Detection"(ECCV 2018)

論文:https://arxiv.org/abs/1807.11590

*先に紹介した ATOM に与える影響が非常に大きいため紹介。

要約

通常のCNNベースの物体検出手法は classification confidence は出力されるが、localization の confidence については出力されず物体検出の confidence として乖離があることを指摘。検出された bounding box と ground truth の IoU を予測する IoU-Net を提案する。

提案内容

· 検出された bounding box と ground truth の IoU を予測する IoU-Net を提案

o 出力される IoU = localization confidence を得ることができる。

· 予測したIoUを利用したIoU-guided NMSを提案。

· 予測したIoUを目的関数とした、最適化ベースの bounding box refinement 手法を提案

o この中で、refinement を行うための、出力に対して bbox の座標を用いて微分可能な Precise RoI Pooling を提案。

classification scoreとlocalization scoreの不一致についての具体例

(画像は本論文より引用)

IoU-Net アーキテクチャ

· RPNで検出される RoIに 小さい揺らぎを与え IoU を ground truth として IoU ブランチを学習。

(画像は本論文より引用)

IoU-guided NMS

· classification score でなく、localization confidence の高いものから優先した NMS(non-maximum suppression)。

· 通常の NMS と同様に thresholdを超えて重複ボックスを消す際は、classification scoreは高い方を採用する。

· 要するに結果として、 NMS で bounding box をマージする際、localization confidence, classification confidence の良い方を互いに採用し、bounding box は loacalization confidence が高いものを採用するということ。

Optimization-based bounding box refinement

· localizaton confidence score が最大となるように、勾配を用いて bounding box の座標の補正を行う。

· そのため 出力に対して bbox の座標を用いて微分可能な Precise RoI Pooling を提案。

Precise RoI Pooling

· bilinear でfeature map を補完して連続値の座標に対して特徴量の値を定義。その後連続座標に対して(average poolingの場合でいえば)積分して面積で割ることでpoolingを行う。

(画像は本論文より引用)

おわりに

今回は Object Tracking という分野におけるコンピュータビジョンに関する最新論文をご紹介しました。 冒頭でも述べましたが、Object Tracking はまだまだ発達途上な印象を受けます。今回紹介した Siamese network 系アプローチについても、ResNet 等のバックボーンの使用が Oral に取り上げられており、深いモデルによる特徴抽出の恩恵を享受することの難しさが分野の共通認識として存在していたことが感じ取られます。とはいえまだまだこれからも発達し様々な場面で利用されてくると考えられます。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

2019/07/09 15:00

CVPR 2019参加レポート

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。DeNA AIシステム部の李天琦(leetenki)です。 DeNAのAIシステム部では、物体検出、姿勢推定、アニメ生成等、様々なComputer Vision技術の研究開発に取り組んでいます。また、AIシステム部では世界の最新技術トレンドにキャッチアップするために、年一回国際会議に自由に参加できる機会が設けられています。 今回は、アメリカ ロングビーチで開かれたComputer Visionに関する世界トップの国際会議の一つである「CVPR 2019」に、AIシステム部コンピュータビジョンチームのメンバー7名 (加藤直樹、葛岡宏祐、洪嘉源、鈴木智之、中村遵介、林俊宏、李天琦)で参加してきましたので、その内容について紹介したいと思います。また、今回は聴講としてだけでなく、DeNAからコンペ入賞も一件あり、DSチームの加納龍一と矢野正基の2人が発表してきたので、その様子についても紹介したいと思います。

なお、今回のレポートは加納龍一、洪嘉源、林俊宏、矢野正基、李天琦の5名で協力し執筆しています。

CVPR2019とは

CVPRの正式名称は「Computer Vision and Pattern Recognition」で、ECCV、ICCVと並ぶComputer Vision分野における世界三大国際会議の一つです。ちなみにComputer Visionというのは人間の視覚をコンピュータを用いて表現することを目指した技術分野で、画像や映像認識技術全般を指しています。そのComputer Visionの分野において世界三大国際会議の一つがこのCVPRです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使うことが当たり前になってきているので、CVPRでもDeep Learningの手法を応用した論文が大半を占めるようになりました。

今年の開催期間は6/16〜6/20の5日間です。最初の2日は特定のテーマに絞ったTutorial & Workshopで、後半の3日間がMain Conferenceです。また、Main Conferenceの3日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界をリードするIT企業の最新の研究成果や製品などが展示されました。

開催場所

今年の開催場所はアメリカカリフォルニア州のロングビーチで、Long Beach Convention & Entertainment Centerという、北アメリカ最大級のイベント施設を貸し切って会議が開かれました。会場の立地も良く、ロングビーチの海が一望できる最高のリゾート地でした。

[ 会場のLong Beach Convention & Entertainment Center ]

参加統計

近年AI技術への注目の高まりを受けて、CVPR参加者は年々増加し、今年は参加者も採録論文数も過去最高となりました。統計によれば、今年の投稿論文数は5160本で、採録論文数は1294本でした。そして今回のCVPR参加人数は9227人と、CVPR 2018の時と比べて1.5倍以上にものぼっています。ここ数年の増加率があまりにも高すぎて、「このまま増え続ければ2028年には投稿論文数100億本になる」と主催者も冗談交じりに話していました。

[ 参加者の統計 ]

[ 参加者の国別統計 ]

[ 投稿論文数の統計 ]

セッションの様子

CVPRに採録された論文のうち、評価の高かったものはOralと呼ばれる口頭発表形式のセッションで発表されます。例年であれば、論文の内容に応じて発表時間が長いLong Oralと短いShort Oralに更に分割されますが、今年は論文数があまりにも増えすぎたために全て発表時間5分のShort Oralとなりました。また、Oralを含めた全採録論文はPosterセッションで展示され、そこでは著者と直接ディスカッションを行うことができます。

[ Oralセッションの様子 ]

ネットワーキングイベント

Main Conference期間中、初日の夜に立食形式の「Welcome Dinner」と、2日目の夜に「Reception Party」という2つの公式ネットワーキングイベントが開催されました。Reception Partyでは、会場付近のEntertainment Centerを貸し切ってのお祭りが行われ、世界各国の研究者達と親睦を深めることができました。

[ Reception Partyの様子 ]

キーワード分析

今年採録された論文のタイトルから、頻出キーワードを抽出してみたところ、以下の結果となりました。特に3Dや、Detection、Attentionなどを取り扱った論文が多いことがここから読み取れます。

[ 頻出キーワード統計 ]

これ以外にも、現地で実際によく目についたキーワードとして、unsupervised、 self-supervised、 weakly-supervised、few-shot、zero-shot、NAS(Neural Architecture Search) 、adversarial examples等が多い印象でした。 実際にCVPR2013〜CVPR2019の7年間で、各年の採録論文数全体に対するキーワードを含む論文数の比率をグラフ化してみました。確かに○○supervisedや○○shotといった、データやアノテーションが限定された問題設定の論文が全体的に増加傾向にあることがここから見てわかります。

[ キーワードの推移1 ]

同様に、ネットワーク構造を自動で探索するArchitecture search系の論文や、なんらかのモデルを騙すための攻撃 & 防御を扱ったadversarial examples等の論文も増加傾向にあることがわかります。その他にもいくつか増加傾向にあるキーワードを下図に示します。

[ キーワードの推移2 ]

受賞論文

今回CVPR2019で発表された論文の中で、受賞されたものをいくつか紹介します。

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

まず、CVPR2019 Best Paperに選ばれたのが、こちらの"A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction" (Shumian Xin et al.) です。

[ NLOS物体復元 ]

Non-Line-of-Sight(NLOS)物体というのは、カメラなどの視界に直接映らない(撮影できない)物体のことを指します。それらのNLOS物体に対して、周辺環境での反射などを利用して画像化や形状復元する技術をここでは扱います。例えば、曲がり角の向こうにある物体を見ることや、厚い分散媒質を通して物体を透視することなどがこれに当てはまります。NLOS技術は、自動運転、遠隔センシングや医用画像処理など様々なシーンで応用することができるため、コンピュータビジョン領域でも徐々に注目を集めています。今回のCVPR2019では、NLOS に関する論文はBest Paperを含めて6本も採録されています(Oral: 3, Poster: 3)。

[ 提案手法概要図 ]

この論文ではNLOS物体を測定するために、高速変調光源と時間分解センサー(time-resolved sensors)を使用しています。時間分解センサーは光子の数とカメラに到達する時間を測定することができ、トランジェントカメラ(transient camera)と呼ばれます。NLOS物体からの光子を直接トランジェントカメラで観測することはできませんが、付近の可視表面で反射した光子を受信することで、その不可視の物体を探知することが可能になります。この論文では、可視表面とNLOS物体の間の光のフェルマーパス(Fermat paths of light)に関する理論を提唱しています。著者のXinらは、フェルマーパスがトランジェント測定値の不連続点と対応することを証明しました。さらに、これらの不連続点が対応するフェルマーパスの長さの空間微分とNLOS物体表面の法線と関連する制約条件を導き出しています。これに基づいて、視線範囲外の物体の形を推測するアルゴリズムFermat Flowを提案し、初めて幾何的な制約条件だけを利用して精確にNLOS物体の3D表面を復元することに成功しています。

Learning the Depths of Moving People by Watching Frozen People

次はHonorable Mentionを受賞した2本の論文のうちの1つである"Learning the Depths of Moving People by Watching Frozen People" (Li, et al.) を紹介します。

[ 提案手法概要図 ]

こちらの論文ではRGB入力からの人の深度推定を扱っています。Kinectのようなデバイスは屋外では使えないということもあり、これまで様々な姿勢・シーン・年齢などをカバーした大規模データセットはありませんでした。この論文では、2016年後半からYouTubeで一大ブームになったマネキンチャレンジの動画に着目して、それら約2,000本の動画から大規模データセットを構築し、それを使ってモデルを学習しています。ちなみに、マネキンチャレンジというのは人が様々なポーズをした状態でマネキンのように静止し、そこをカメラが移動しながら撮影するというものです。マネキンチャレンジの動画では人を静止物として扱えるため、SfM (Structure from Motion), 及び MVS (Multi-View Stereo) の技術により人の深度を推定でき、それを教師としたデータセットを構築できます。最終的に学習されたモデルの性能も素晴らしいですが、それ以上にマネキンチャレンジ動画に目をつけてデータセットを作るというアイディアが光っており、とても興味深い論文です。

A Style-Based Generator Architecture for Generative Adversarial Networks

最後は、Honorable Mentionを受賞した2本の論文のうちのもう1つである "A Style-Based Generator Architecture for Generative Adversarial Networks" (Tero Karras, et al.) を紹介します。

[ StyleGANの概要図 ]

こちらの論文は1024×1024の高解像度な画像生成を扱ったものです。Style-Transfer等でよく使われるAdaINのアイデアを取り入れることで、より制御しやすく、狙った生成を可能にしています。本論文の著者であるTero Karrasさんは、先行研究として以前にICLR2018でPGGAN (Progressive Growing of GANs) を発表しています。そちらの論文では、GANの生成学習において、段階的にネットワーク層を増加させ、生成画像の解像度を徐々に上げていくことで、安定的に高解像度な生成を実現しています。本論文はその基礎の上で、更にGenerator部分に工夫を施し、潜在表現ベクトルzをGeneratorの最初ではなく、Mapping Networkを通じてAdaINのパラメータとしてネットワークの途中途中に埋め込んでいます。 解像度ごとに異なる潜在ベクトルzを埋め込むことで、coarse(姿勢、顔の形)、middle(髪型、目)、fine(髪質、肌色)といった、異なるレベルのstyleを分離して制御できるようになっています。また、上記AdaINとは別に、ランダムノイズを各特徴マップに足し合わせることで、生成画像の確率的な要素(髪の流れ方や肌のシワ等)の操作を可能にしています。

[ StyleGANの生成例 ]

このような高解像度な画像生成を、教師なし学習で、かつStyleを制御可能にできたことが本論文の最大のContributionです。

DeNAのPoster発表

今回、Tutorial & Workshopと並行して開催された、「iMet Collection 2019」という美術品の画像識別コンペにて、DeNAのDSチームから加納龍一と矢野正基の2人が参加し、金メダルを獲得することができたので、Poster発表を行いました。

[ iMet Collection 2019のPoster発表の様子 ]

こちらのコンペでは、ニューヨークのMetropolitan美術館でデジタル化されている約20万枚の美術品の画像を用いて、作品の内容や文化的背景などの観点からつけられたタグ付けを予測する多クラス分類問題の精度が競われます。今回金メダルを受賞したDeNAの加納龍一と矢野正基のチームでは、Pseudo labelingやBlendingといった従来のコンペで実績を残している手法に加え、CVPR2019に採録されたAttention Branch Networkという新しい技術を導入していくことで、金メダルを獲得することができました。

全体の感想

今回、DeNA AIシステム部から7名でCVPR2019に参加し、各自のスペシャリティを活かした効率的な情報収集を行いました。今回発表されたOralプレゼンテーションは全て、こちらのYouTubeチャンネルでも公開されていますが、実際に現地に行くことで論文の気になる点を作者に直に聞けたり、ネットワーキングもできる等のメリットがあります。自分は今年で3度目となるCVPR参加ですが、技術的な収穫はもちろん、ネットワークも広がって凄く良い刺激になりました。

また、今回のEngineer Blogとは別に、現地に参加したメンバーで、注目度の高い論文や有益性の高いと判断した論文30本を厳選し、解説資料 (Slide Share) にまとめて公開しましたので、興味ある方はそちらも合わせてお読みください。

DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

· Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, Ioannis Gkioulekas. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

· Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman. Learning the Depths of Moving People by Watching Frozen People

· Tero Karras, Samuli Laine, Timo Aila. A Style-Based Generator Architecture for Generative Adversarial Networks

続きを読む

2019/07/08 15:00

コンピュータビジョンの最新論文調査 キーポイントによる物体検出編

@hirotomusiker

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております本多です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回我々が読んだ最新の論文をこのブログで紹介したいと思います。

今回論文調査を行なったメンバーは、林 俊宏、本多 浩大です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回はキーポイント検出の手法を用いた物体検出に焦点を当て、最新論文を取り上げます。

Short Summary

· CornerNet (ECCV18) の改良版と言える、キーポイント検出ベースの物体検出手法が続々と提案されている。

· いずれも検出ターゲット矩形の端や中央を、ヒートマップを用いて検出する手法である

· Single-shot型 (bottom-up) とTwo-stage型 (top-down) に分かれる

· いずれもCornerNetと同等ないし高い精度を示している

· Object as Points (CenterNet) の精度と速度のトレードオフ性能 (speed-accuracy trade-off) の高さが目立つものの、他手法とフェアな比較はできていない

図1は本稿で取り上げる各手法の検出点比較である。

図1: 各手法の検出点比較。(a) Faster R-CNNやYOLOなどアンカーを基準にboxを学習する手法 (b) CornerNet (c) Objects as Points (CenterNet) (d) CenterNet: Keypoint Triplets for Object Detection (e) Bottom-up Object Detection by Grouping Extreme and Center Points (f) Grid R-CNN

前提知識

物体検出

画像から物体の位置を矩形 (bounding box) として検出し、かつそれぞれの物体の種類(クラス)を分類するタスクです。

· Faster R-CNN: 画像から特徴マップを抽出し、Region Proposal Networkで物体の存在する領域を検出、それぞれクロップしてHead Networkにて詳細な位置推定とクラス分類をおこなう。物体検出のデファクトスタンダード。

· Feature Pyramid Network (FPN) : Faster R-CNNにおいて、複数のスケールでRegion ProposalおよびHead Networkの実行を行うことで、高精度に小さな物体を検出する。

· RetinaNet : FPNにおけるRegion Proposal Network部において、bounding boxの位置検出とクラス分類を完結することで高速化をはかっている。Single-shot検出器と呼ばれ、YOLOと同種の検出器にあたる。

キーポイント検出を用いた物体検出

今回、キーポイント検出の手法を物体検出に用いている論文を取り上げます。これら論文の源流となるのはECCV2018で発表されたCornerNetです。

· CornerNet : bounding boxの座標を回帰によって学習するのではなく、左上と右下隅をキーポイントと見立てたヒートマップを学習する。人物姿勢認識におけるキーポイント検出にヒントを得ている。推定されたキーポイントは、embedding vectorの照合によりグルーピングする。

· Hourglass Network : ResNetなどのネットワークでスケールダウンしながら特徴抽出したのちに、アップサンプリング層によってスケールアップする、砂時計型のネットワーク。

関連するデータセット

MS-COCO 物体検出・セグメンテーション・人物姿勢等のラベルを含むデータセットで、recognition系のタスクではデファクトスタンダード。

参考:弊社エンジニアによるサマリー。本稿で取り上げる論文も紹介されている。

最近の物体検出

CVPR 2019 report

性能比較

今回紹介する4論文と、ベースラインとなるCornerNet及びRetinaNetとの性能比較を表1に示す。全ての論文をフェアに比較することは困難であるが、いずれも単一スケールでのテストに揃えて比較した。特に性能にインパクトがあると思われる実験条件をbackbone、他条件に記載した。

表1: COCO test-devによる各手法の性能比較。

論文紹介

Objects As Points

要約

bounding box中心のみをヒートマップで予測、大きさ・オフセット・クラスは各位置で回帰、速度と精度の良いトレードオフを実現する。

提案手法

クラスごとにbounding box中心をヒートマップとして学習する。Backboneは高速側から、ResNet18+upsampling, DLA34 [2], ResNet101, Hourglass104を用いている。upsamplingレイヤとしてbilinear inetrpolationとconvolutionを用いている。single-scale の高解像度特徴マップをヒートマップ出力に使う。

各グリッドではクラスごとの確率に加え, bounding boxサイズ及びグリッドからのオフセットを回帰学習する(図A1)。推論時は、各グリッドの近傍8グリッドと比較して最大または等しいconfidence値となる100のグリッドをピックアップする 。ピックアップされた複数のアンカーを用いるYOLOv3と異なり、アンカーが存在せず、bounding boxサイズを直接、クラス毎に出力する。

Lossの定義は

· ヒートマップ:CornerNet と同様、 focal loss の亜種を用いる。

· 中心のオフセット:L1 loss

· bounding boxサイズ:L1 loss

bounding boxのサイズ・オフセット推定チャンネルをタスクに応じて変更することで、3D bounding boxの推定や人姿勢推定にも適用できる(図A2)。

その他 Non-Maximum Suppression (NMS) を行っても精度が大きく変化しなかったため不使用。 ResNetとDLAでは、deformable convolutionレイヤをupsampling部に用いている。deformableレイヤはAP向上に寄与していると思われるが、本論文ではablation studyは行われていない。

結果

backbone 等の変更により精度-速度(レイテンシ)のトレードオフを測定、YOLOv3などの従来手法よりもトレードオフが改善した(図A3)。COCO test-devの評価では、高精度側でもCOCO AP=42.1 (single scale test) を示した(表A1)。

図A1:CenterNet手法の紹介。centerキーポイントの特徴としてbounding boxのサイズなどを学習させる([1]より引用)

図A2:CenterNetの様々なタスクへの応用。上段:物体検出 中段:3D物体検出 下段:キーポイント検出([1]より引用)

図A3:backboneネットワークやテスト条件を変化させたときの、推論時間とCOCO val APのトレードオフ。([1]より引用)

表A1:COCO test-devによるstate-of-the-art検出器との比較評価結果。上がtwo-stage、下がone-stage検出器。APが二種類記載されているものは、single-scale / multi-scale test を表す。([1]より引用)

リンク

[1] https://arxiv.org/abs/1904.07850

[2] DLAネットワーク:Deep Layer Aggregation

CenterNet: Keypoint Triplets for Object Detection

要約

CornerNet の改良版であり、コーナーだけでなく中心も予測することで正確性を向上する。

提案手法

CornerNetによって検出されたbounding boxには誤検出が多く、正解との重なり (IoU) が5%の条件においても32.7% がFalse Detectionとなっていた。一方2-stage detectorのようにROI poolingを用いると計算量が大きくなる。本論文では、図B1のように、CornerとCenterを照合することにより検出の正確性を向上する。また、CornerとCenterの3点のembedding情報のみをpoolingするため、ROI poolingのように計算量が大きくならない。

cascade corner pooling CornerNetで提案されているcorner pooling を、 bbox の端だけでなく内部も見るように cascade poolingとして改良する(図B2)。得られたembedding情報はcornerのグルーピング、およびオフセット推定に用いる。

center pooling CornerNetに対し、boxの中心を予測するheadネットワークを追加、corner pooling同様のcenter poolingによってembedding情報を得る(図B2)。このembedding情報は、cornerと異なりグルーピングには使用せず、中央点のオフセット推定にのみ用いる。

Loss lossは以下のように定義される。CornerNetにて提案されているlossに対し、中央点の項が追加されている。

Inference時 Cornerのペアから予想される領域にCenterがあるかどうかでTripletを組み合わせる。

結果

CornerNet と同条件 (Hourglass101, single scale) で比較すると、COCO APが40.5 -> 44.9と大きく改善している(表B1)。図B1 : CenterNetの全体構成図。上段がCornerブランチ、下段がCenterブランチ、最終的に統合する。([3]より引用)

図B2 : Center Pooling(左)、Corner Pooling(中央)、およびCascaded Corner Pooling(右)([3]より引用)

表B1 : COCO test-devによるベンチマーク結果。CenterNet511はsingle-scale testにおいて COCO AP = 44.9となっている([3]より引用)

リンク

[3] https://arxiv.org/abs/1904.08189

Bottom-up Object Detection by Grouping Extreme and Center Points

要約

画像中の複数オブジェクトの上下左右の端点及び中央をヒートマップで求め、上下左右点と中央点を照合することでボトムアップでboxをグルーピングする。

提案手法

· Ground truthとして、bounding boxだけではなくinstance segmentation labelを用いる。boxとsegmentationマスクから、上下左右の端点と中央の正解座標を求める。

· Hourglassネットワークで画像全体から上下左右点・中央点のヒートマップを学習する(図C1)。

· 推論時には、上下左右点の組み合わせごとに、該当する中央点があるかどうかを照合し、スコアが高い場合にグルーピングする(図C2)。

· 端点と中央点を照合するという発想は、上述のCenterNet: Keypoint Triplets for Object Detectionと類似している。

結果

COCO test-devの結果、single scale同士だとCornerNetと同等のAP=40.2であり、multi-scaleではCornerNetを上回るAP=43.7となった(表C1)。 推論時に、端点を利用した多角形表示をすることも可能である(図C3)。

図C1: 推定フレームワーク。([4]より引用)

図C2: 推定された上下左右・中央のヒートマップから、bounding boxを決定するまでの流れ。([4]より引用)

表C1: COCO test-devでの結果。SS=single scale test, MS=multi-scale test。SS同士ではCornerNetと同等のAPとなっている。([4]より引用)

図C3: 推論結果。([4]より引用)

リンク

[4] https://arxiv.org/abs/1901.08043

Grid R-CNN

要約

2ステージ物体検出において、box座標をRegressionするかわりに、Boxのグリッド点をヒートマップで学習する。

提案手法

図D1のように、入力画像に対してbackboneネットワークで特徴抽出、Region Proposal NetworkおよびROIAlignでROIクロップをおこなう。ここまではMask R-CNNと同じである。

grid prediction branch:クロップしたfeature map (14 × 14) に対し、8層のdilated convolution層、および2層のdeconvolution層を経て、56 x 56 x (N x N) のfeature mapを得る。N x N はグリッドの点数であり、標準は3 x 3である。Ground Truthは正解グリッド点を中心とする+型の5画素がpositiveとされており、推定されたヒートマップとのBinary Cross Entropy Lossにより学習される。

アップデート版として公開されたGrid R-CNN plus [6]では、56 x 56のうち、実際にグリッド点が存在する28 x 28のみに限定して用い、またdeconvolutionをdepth-wiseとすることで高速化をはかっている。

feature fusion module(図D2):隣接するgrid点には空間的相関がある。feature fusion moduleでは隣のgrid点を用いてgrid featureを修正する。Fiを注目するgrid点のfeatureとすると、近隣のFjに対しいくつかの5x5 convolution層を通し、Tj->i(Fj)を作る。Fiとそれらの和を最終的なgrid featureとする。

推定時は、得られた各グリッドヒートマップにおいて、最大値をとる座標がピックアップされて元画像にマッピングされる。

結果

ResNeXt-101 Feature Pyramid Networkを用いた場合、COCO test-dev APが43.2となった(表D1)。 Faster R-CNNと同条件で比較すると、特に高IoUのAP (IoU=0.8 and IoU=0.9)において10%程度の改善となった。

図D1 Grid R-CNNのパイプライン。([5]より引用)

図D2 Feature Fusion Moduleの説明図。([5]より引用)

表D1: COCO test-dev評価結果。([5]より引用)

リンク

[5] https://arxiv.org/abs/1811.12030

[6] Grid R-CNN plus: https://arxiv.org/abs/1906.05688

おわりに

今回はキーポイント検出の手法を用いた物体検出の最新論文をご紹介しました。ECCV2018で提案されたCornetNetを皮切りに、キーポイントベースの物体検出が洗練されてきました。「物体をboxで検出する」というタスクの本質に迫っており、興味深いアプローチです。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

2019/06/04 10:05

コンピュータビジョンの最新論文調査 3D Vision編

kazuyuki.miyazawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております宮澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。前回はHuman Recognition編ということで我々が読んだ最新の論文をご紹介しましたが、今回は3D Vision編をお届けします。今回論文調査を行なったメンバーは、奥田 浩人、宮澤 一之です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は3D Vision編として、主に2次元画像から3次元情報を復元する技術に関する最新論文を取り上げます。

前提知識

カメラで得られる2次元画像から3次元情報を復元するためには、複数の視点から撮影した画像が必要であり、単一のカメラ(単眼カメラ)を動かしながら撮影する方法、2つ(以上)のカメラを並べて撮影する方法などがあります。前者における最も有名な技術としてはSfM(Structure from Motion)、後者ではステレオビジョンなどが知られています。いずれもコンピュータビジョン分野では非常に古くから研究されてきた技術ですが、昨今ではディープラーニングを取り入れる動きが活発です。そこで今回は、最新論文を単眼カメラを用いる技術とステレオカメラを用いる技術とに分け、さらにそれらの中でディープラーニングを利用しているものをご紹介いたします。

今回ご紹介している論文でよく使われているデータセットは以下の通りです。

· The KITTI Vision Benchmark Suite:車載カメラデータセットのデファクトスタンダート。ステレオカメラ、LiDAR、GPSなど豊富なセンサデータに対する様々なベンチマークを含む。今回紹介する論文に関係するベンチマークとしては、ステレオカメラの視差推定やシーンフロー(3次元オプティカルフロー)推定などがある。

· Scene Flow Datasets:ステレオカメラのデータセット。CGで生成しているため、左右カメラの視差、オプティカルフロー、シーンフローの完全な真値が利用可能。

· TUM RGB-D SLAM Dataset and Benchmark:RGB-Dカメラのデータセット。カメラによる自己位置推定などの精度評価に用いられる。

· ETH3D Benchmark:多視点カメラのデータセット。屋内・屋外双方のデータが含まれる。画像からの3次元復元精度の評価のため、レーザスキャナにより計測した高精度な3次元データを含む。

目次

単眼カメラを用いる手法

· SfMLearner++: Learning Monocular Depth & Ego-Motion using Meaningful Geometric Constraints (WACV2019 Oral)

· Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving (CVPR2019 Poster)

· Learning the Depths of Moving People by Watching Frozen People (CVPR2019 Oral)

· Neural RGB→D Sensing: Depth and Uncertainty from a Video Camera (CVPR2019 Oral)

ステレオカメラを用いる手法

· Group-wise Correlation Stereo Network (CVPR2019 Poster)

· GA-Net: Guided Aggregation Net for End-to-end Stereo Matching (CVPR2019 Oral)

· StereoDRNet: Dilated Residual Stereo Net (CVPR2019 Poster)

· Deep Rigid Instance Scene Flow (CVPR2019 Poster)

単眼カメラを用いる手法

SfMLearner++: Learning Monocular Depth & Ego-Motion using Meaningful Geometric Constraints (WACV2019 Oral)

要約

教師なしのデプス学習手法であるSfMLearnerに対しエピポーラ拘束を導入することで精度を改善

提案手法

単眼映像から教師なしでデプス推定を学習可能なフレームワークとして、SfMLearnerがCVPR2017で提案された。これは、推定したデプスとカメラ運動からある時刻のフレームを他時刻のフレームにワープして重ね、両画像の差異をロスとしてCNNを学習するというものである。SfMLearnerでは、シーン中の移動物体やオクルージョン箇所を推定してロスへの寄与率を変えているが、提案手法ではこれを改善し、より幾何的に妥当な結果を得るためにエピポーラ拘束を導入している。具体的には、5点アルゴリズムにより基本行列Eを求めてエピポーラ方程式を得たうえでこれを満たさない点のロスへの寄与率を下げている。

結果

KITTIによるSfMLearnerとの比較を図A1に示す。左から順に、入力画像、真値、SfMLearner、提案手法である。SfMLearnerと比較して、提案手法の方が正確なデプスが得られていることがわかる。図A1:KITTIにおけるSfMLearnerとの比較。

また、他の従来手法との比較結果を図A2に示す。これを見ると、図A1と同様にSfMLearnerよりも提案手法の方が高精度であるが、GeoNetやDDVOといった最新手法(いずれもCVPR2018で発表された)には劣っている。しかし、これらの手法はネットワークのパラメータ数が多い、非線形最適化を必要とするなど提案手法に比べて計算量が大きいことが欠点として挙げられる。図A2:KITTIにおける評価結果。

リンク

論文:https://arxiv.org/abs/1812.08370

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving (CVPR2019 Poster)

要約

画像から得られたデプスマップを擬似的にLiDARから得られたデータのように変換し、既存の3次元物体認識手法を適用可能にすることで精度を改善。

提案手法

3次元物体認識においては、LiDARから得られる高精度な3次元データを用いる場合に比べて画像から推定したデプスマップを用いる場合は精度が大幅に低下する。一般には画像によるデプスの推定精度が低いことが原因とされがちだが、本論文ではデータの表現方法に問題があると指摘している。例えば、2次元のConvolutionでは、画像中で隣接する物体同士は異なる距離にあっても統一的に扱われてしまったり、物体の距離の違いによるスケール変化などが考慮されない。そこで本論文では、画像から得られたデプスマップをそのまま利用するのではなく、擬似的にLiDARから得られたようなデータに変換することでこの問題の解決を図っている。このようにすることで、これまでに提案されてきたLiDARデータを対象とした3次元物体認識技術をそのまま流用することが可能となる。この流れを図B1に示す。図B1:提案手法のパイプライン。

本論文の主眼はあくまでもデータの表現方法であり、デプス推定や3次元物体認識にはどのような手法を用いても構わないとしている。論文中ではデプス推定には一般的なステレオカメラの視差推定を利用し、3次元物体認識にはfrustum PointNetとAVOD(Aggregate View Object Detection)の2種類を用いている。

結果

KITTI2015を用いて従来手法との性能比較を実施。結果を図B2に示す。従来の画像ベースの手法と比較して提案手法では大幅に精度が改善していることがわかる。また、アプローチが異なる2種類の3次元物体認識手法のいずれにおいても大きな改善が得られており、提案手法が幅広い手法に適用可能であることが示唆されている。図B2:KITTI2015における評価結果。それぞれ3Dとbird’s-eye-viewに対するAverge Precisionをスラッシュで区切って示している。青が提案手法、グレーが実際にLiDARを用いた場合。

リンク

論文:https://arxiv.org/abs/1812.07179

Learning the Depths of Moving People by Watching Frozen People (CVPR2019 Oral)

要約

静止した人物を移動カメラで撮影したマネキンチャレンジの映像を学習に利用することで、従来は困難であった複雑な動きをする人物を含む映像のデプス推定を実現。

提案手法

人間など複雑な動きをする対象を移動するカメラで撮影した映像からSfM(Structure from Motion)やMVS(Multi-View Stereo)でデプスを推定することは非常に難しく、データドリブンな機械学習ベースの手法を用いるとしてもデプスの真値を持つ学習データを膨大に集めることは現実的でない。そこで本論文では、インターネット上に大量に存在する”マネキンチャレンジ”の映像を用いることを提案している。マネキンチャレンジとは、人々が様々な姿勢でマネキンのように静止し、そのシーン中をカメラで移動しながら撮影するというものである。こうした映像では人々が静止しているためMVSによるデプス推定が可能であり、これを真値として画像からデプスを推定するニューラルネットを学習させることができる(図C1)。図C1:提案手法における学習の流れ。マネキンチャレンジの映像からMVSでデプスを求め、これを真値として画像からデプスを推定するネットワークを教師あり学習する。

単一のフレームからデプスを推定するだけでは、多視点画像から取得可能なシーンの幾何的な情報が利用できないため、提案手法では人以外の背景領域について運動視差を求めてネットワークへの入力としている。ネットワークへの入力を図C2に示す。ネットワークには参照画像Ir、人領域を指定するマスク画像M、人以外の背景領域から運動視差により求めたデプスマップDpp、コンフィデンスマップC、またオプションとして人のキーポイントマップKが入力される。コンフィデンスマップとは、入力として与えるデプスマップの信頼度を表現したマップであり、視差の一貫性や大きさ、エピポーラ制約などを考慮して求める。ネットワークはこれらを入力として受け取り、MVSにより得られたデプスを真値として学習することで、マスクされた人領域のデプスを補間し、かつ、背景領域のデプスをリファインすることができるようになる。図C2:提案手法における入力データ(a)〜(d)と教師データ(e)。

結果

自ら構築したマネキンチャレンジデータセット、およびTUM RGBDデータセットにより従来手法との比較を行っている。TUM RGBDでの比較結果を図C3に示す。従来手法に比べ、提案手法では大幅に真値に近いデプスマップが得られていることがわかる。図C3:TUM RGBDにおける評価結果。右2列が提案手法により推定されたデプスマップ。

リンク

· 論文:https://arxiv.org/abs/1904.11111

· プロジェクトウェブサイト:https://mannequin-depth.github.io/

Neural RGB→D Sensing: Depth and Uncertainty from a Video Camera (CVPR2019 Oral)

要約

カメラからのデプス推定において、デプスを単一の値としてではなく確率分布として求めることでベイジアンフィルタにより時間方向にデプスを集積して精度を改善。

提案手法

提案手法では、通常のRGBカメラからのデプス推定において、従来手法のように画素ごとに単一のデプス値を求めるのではなく、取りうるデプスの確率分布を求めている。このようにすることで、ベイジアンフィルタの枠組みを利用して時系列方向にデプスを集積し、デプスの不確定性を減らすと共に精度や安定性を向上させることに成功している。提案手法の概要を図D1に示す。図D1:提案手法の概要。入力としてある時間区間のフレーム群を受け取り、DPV(Depth Probability Volume)を出力する。

図D1に示すように提案手法は入力フレームからDPV(Depth Probability Volume)を生成するD-Net、DPVを時間方向に統合していくK-Net、DPVの空間解像度を向上させるR-Netの3つから成る。DPVはp(d; u, v)で表され、画素 (u, v) がデプスdを持つ確率である。D-NetではPSM-Netを利用して複数の入力フレームのそれぞれから特徴抽出を行い、取りうる視差に対するコストボリュームを求めてSoftmaxをかけることでDPVを生成する。この段階で、空間解像度は入力画像の1/4となる。K-Netは、ベイジアンフィルタの枠組みを利用してDPVを時間方向に統合し、デプスの不確定性を減少させる。R-Netは低解像度のDPVと入力画像から抽出した特徴マップを受け取り、DPVを入力画像と同じ解像度にまでアップサンプルする。最後に、DPVから参照フレームにおけるデプスマップおよびその信頼性を表すコンフィデンスマップが生成される。

結果

7-Scenes(屋内シーン)やKITTI(屋外シーン)などのデータセットで従来手法との比較を行なっている。結果を図D2、図D3に示す。7-Scenesにおいては従来手法のDeMoNやDORNを上回る精度となっているが、KITTIでは同等程度となっている。図D2:7-Scenesにおける評価結果。

図D3:KITTIにおける評価結果。

リンク

· 論文:https://arxiv.org/abs/1901.02571

· ビデオ:https://www.youtube.com/watch?v=KZGDBtArbeo

ステレオカメラを用いる手法

Group-wise Correlation Stereo Network (CVPR2019 Poster)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームの計算のためのGroup-wise Correlationを提案。

提案手法

ステレオビジョンでは、取りうる視差に対して左右画像のマッチングコスト(SSDやSADなど)を計算することでコストボリュームを求め、そこからコスト最小となるような視差を選ぶことで視差推定を行う。近年では、CNNで左右画像から特徴量を抽出し、それらの相関計算あるいはConcatenationによりコストボリュームを求める手法が登場しているが、相関計算では単一チャネルの相関マップしか得られず、またConcatenationでは類似度情報が得られないという欠点がある。これらの欠点を解決するため、本論文では、抽出した特徴をグループに分け、グループごとに相関を求めるGroup-wise Correlationを提案している。また、求めたコストボリュームの局所的なコストを集約することでrefineする3D Aggregation Networkについても従来手法から精度と速度の改善を図っている。全体のパイプラインを図E1、3D Aggregation Networkのアーキテクチャを図E2に示す。図E1:提案するGroup-wise Correlation Networkのパイプライン。特徴抽出、コストボリューム生成、3D Aggregation Network、視差推定の4つのパートから成る。

図E2:3D Aggregation Networkのアーキテクチャ。先頭に3D Conv、それに続いて3つのHourglass型3D Convを配置。

結果

Scene FlowおよびKITTIを用いてAblation Studyと従来手法との性能比較を実施。KITTI2015における評価結果を図E3に示す。KITTI2015では、視差の外れ値の割合(D1)を背景画素(bg)、前景画素(fg)、全画素(all)のそれぞれについて評価しており、図3はそれらをまとめたものである。また、図3におけるAllとNocは、それぞれ全画素を評価対象とした場合と、オクルージョンのない画素のみを評価対象とした場合である。いずれの評価尺度においても、提案手法(GwcNet-g)は従来手法よりも高い精度を示している。図E3:KITTI2015における評価結果。

リンク

· 論文:https://arxiv.org/abs/1903.04025

· Pytorch実装:https://github.com/xy-guo/GwcNet

GA-Net: Guided Aggregation Net for End-to-end Stereo Matching (CVPR2019 Oral)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームにおいて、マッチングコストの集約を行うための新たなレイヤを提案。

提案手法

ステレオビジョンでは、取りうる視差に対して左右画像のマッチングコスト(SSDやSADなど)を計算することでコストボリュームを求め、そこからコスト最小となるような視差を選ぶことで視差推定を行う。このとき、近傍での視差がなめらかとなることを拘束条件として利用するため、ローカルおよびグローバルなコストの集約が行われる。本論文では、ニューラルネットを使った視差推定において、このコスト集約を行うためのレイヤであるSemi-Global guided Aggregation(SGA)レイヤとLocal Guided Aggregation(LGA)レイヤを提案している。アーキテクチャ全体とSGAレイヤ、LGAレイヤの概要を図F1に示す。図F1:(a)アーキテクチャの全体像。ステレオカメラの左右画像からHourglass型CNNで特徴抽出を行ってコストボリュームを生成し、これがCost Aggregationブロックの入力となる。(b)SGAレイヤでは上下左右の4方向についてグローバルなコスト集約を行う。(c)LGAレイヤは視差推定の前にコストボリュームを局所的にリファインする。

結果

Scene FlowおよびKITTIを用いてAblation Studyと従来手法との性能比較を実施。KITTI2015における評価結果を図F2に示す。いずれの評価尺度においても、提案手法(GA-Net)は従来手法よりも高い精度を示している。図F2:KITTI2015における評価結果。

KITTI2015における視差推定の結果例を図F3に示す。1行目が入力画像、2行目と3行目が従来手法(それぞれGC-NetとPSMNet)による視差推定結果、3行目が提案手法による視差推定結果である。矢印で示されているように、特にテクスチャのない領域について提案手法は従来手法よりも優れた性能を示していることがわかる。

図F3:推定結果の従来手法との比較。1行目が入力画像、2行目がGC-Net、3行目がPSMNet、4行目が提案手法による視差推定結果。

リンク

論文:https://arxiv.org/abs/1904.06587

StereoDRNet: Dilated Residual Stereo Net (CVPR2019 Poster)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームのフィルタリングに3D Dilated Convolutionを利用し、さらに新たなネットワークを導入して推定視差の高精度化を実現。

提案手法

図G1:StereoDRNetのアーキテクチャ。

本論文が提案するStereoDRNetのアーキテクチャを図G1に示す。提案手法は、大きく分けて特徴抽出、コストボリュームに対するフィルタリング、視差の高精度化から成る。提案手法における新規的な提案の1つがコストボリュームのフィルタリングに図G2に示すように3D Dilated Convolutionを用いている点であり、これにより従来手法と比較して計算量をほぼ半減している。また、ショートカット接続を持つ残差ブロックをスタックしており、各ブロックからそれぞれ視差マップを生成してロスを求めている(図G2では3ブロック)。

図G2:3D Dilated Convを用いたコストフィルタリング。

また、推定した視差を高精度化するためのブロック(図G3)を取り入れている点も本論文における新規提案である。ここでは、推定した視差を用いて右画像を左画像の視点にワープし、ワープした画像と左画像との残差マップを求める(図G3におけるEp)。さらに視差マップについても同様にして残差マップを求め(図G3におけるEg)、両マップをCNNに入力することで視差マップの精度改善を図っている。

図G3:視差高精度化のためのブロック。

結果

Scene Flow、KITTIおよびETH3Dを用いてAblation Studyと従来手法との性能比較を実施。KITTI2012とKITTI2015における評価結果を図G4と図G5に示す。KITTI2012ではいずれの従来手法よりも高い精度を示しており、またKITTI2015でも背景領域(bg)の視差推定では高い精度を達成している。また、Dilated Convolutionの利用により計算時間についても他手法よりも高速となっている。図G4:KITTI2012における評価結果。

図G5:KITTI2015における評価結果。

また、屋内シーンの3次元計測における結果を図G6に示す。同図下段は真値(左列)からの誤差を示しているが(赤い領域ほど誤差が大きい)、提案手法(中央列)は従来手法(右列)よりも誤差が小さいことがわかる。

図G6:屋内シーンの3次元計測結果。左から順に、構造光投影による結果(真値)、提案手法による結果、PSMNetによる結果。

リンク

論文:https://arxiv.org/abs/1904.02251

Deep Rigid Instance Scene Flow (CVPR2019 Poster)

要約

シーンフロー推定を各インスタンスに対するエネルギー関数の最小化問題として捉え、リカレントネットにより効率的にガウス・ニュートン法を実装することで精度と速度を改善。

提案手法

図H1:提案手法の概要。

自動運転向けに車載カメラで得たステレオ映像からシーンフロー(各点の3次元動きベクトル)を推定するため、背景の動き(エゴモーション)と各インスタンスの動きを個別に求める手法を提案。図H1に示すように、まずVisual Cueとして既存手法を用いてステレオ映像に対してインスタンスセグメンテーション、視差推定、オプティカルフロー推定を行う。そして、背景を含む各インスタンスについてPhotometric Error、Rigit Fitting、Flow Consistencyを評価するエネルギー関数を定義し、これを最小化することでシーンフローを求めている。各エネルギーの意味は以下の通りである。

· Photometric Error:画像間で対応づけられた点同士は見た目が一致する

· Rigid Fitting:推定されるシーンフローは視差およびオプティカルフローから得られる3次元運動と一致する

· Flow Consistency:推定されるシーンフローを2次元画像に投影した結果はオプティカルフローと一致する

提案手法では上記エネルギー関数をガウス・ニュートン法で解くことでシーンフローを推定している。ガウス・ニュートン法はリカレントニューラルネットワークで実装することが可能であり、GPUの利用により従来手法よりも大幅な高速化を実現している。

結果

KITTI scene flowデータセットにより従来手法との比較を行い、処理時間と精度の両面で従来手法よりも高い性能を示すことを確認(図H2)。特に現時点で最も性能が高いISF(Instance Scene Flow)モデルとの比較では22%の誤差削減と800倍の高速化を実現している。

図H2:KITTI scene flowデータセットにおける評価結果。

リンク

論文:https://arxiv.org/abs/1904.08913

おわりに

Human Recognition編に続き、今回は3D Vision編ということでコンピュータビジョンに関する最新論文をご紹介しました。主に2次元画像からの3次元情報復元という非常に古くから研究されてきた分野について取り上げましたが、昨今ではディープラーニングの導入によって精度やロバスト性、汎用性の観点でさらに進展が見られています。また、単純に全てをディープラーニングに置き換えるのではなく、これまでに長く研究されてきた伝統的なアルゴリズムを踏襲しつつ、その一部にディープラーニングを組み込むことで性能を向上させるようなアプローチが増えてきているように感じます。

カメラからの3次元情報復元は、車載カメラでのシーン認識など幅広い応用が可能な重要技術であり、ディープラーニングによる性能向上のおかげでますます適用範囲が拡大していくと考えられます。今後もDeNA CVチームでは最新技術の調査を継続し、コンピュータビジョン技術を新たなサービスに繋げて世の中にデライトを届けるべく頑張っていきます。

続きを読む

2019/05/15 14:00

Survey of Cutting-edge Computer Vision Papers - Human Recognition

@hirotomusiker

Keywords: AI

Introduction

Hi, I am Hiroto Honda, an AI R&D engineer at DeNA Co., Ltd. Japan. The research engineers in my computer vision (CV) team survey and discuss the latest CV papers every day. This time, we would like to share a part of our survey results on cutting-edge computer vision papers. Authors: Plot Hong, Toshihiro Hayashi and Hiroto Honda.

Contents

· Quick Summary

· Scope of the survey

· What is Human Recognition?

· Papers

o CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

o Deep High-Resolution Representation Learning for Human Pose Estimation

o Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

o Parsing R-CNN for Instance-Level Human Analysis

o 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

· Conclusion

Quick Summary

· Five arXiv papers regarding human and hand pose estimation, markerless motion capture, and body part segmentation are surveyed

· Using a multi-person pose estimation method on a region of interest is effective for crowded scenes.

· Keypoint localization accuracy can be improved by taking advantage of high resolution features.

· 3D human pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation methods, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Scope of the survey

The survey covers CV papers that were submitted to arXiv in November 2018 or later. We have picked the papers which we thought important and researched the details. In this report we introduce cutting-edge papers on human recognition, such as pose estimation.

What is Human Recognition?

In this report we introduce human recognition methods which aim at estimating human pose, human parts area or motion capture information using RGB images as input. The human recognition methods are grouped into two categories: top-down and bottom-up approaches. The top-down methods first detect the human instance regions and investigate each instance afterwards. The bottom-up ones first detect the body parts or joints in the whole image and group them afterwards. The methods we introduce this time are categorized as top-down approaches and single-person recognition. The following tasks are included in human recognition:

· Pose Estimation: a task to find and localize the human body parts such as eyes, shoulders and knees.

· Dense Human Pose Estimation: a task to localize dense body part points corresponding to the 3D model of human bodies.

· Markerless Motion Capture: a task to obtain motion capture output without using markers.

· Human Parsing: a segmentation task for body parts such as hair, face and arms.

The popular datasets used for human recognition are:

· MS-COCO is the de-facto dataset which includes annotations for object detection, segmentation, and keypoint detection.

· MPII, PoseTrack are the datasets for 2D keypoint detection.

· DensePose is the dataset for dense human pose estimation and includes body point annotation corresponding to the human 3D model.

· Human3.6M is the 3D human pose dataset.

· MHP is the dataset for human body part parsing.

· STB is the dataset for 3D hand pose estimation.

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

· CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

· Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

· Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1. Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2. Bbox Branch: bounding box regression is carried out for cropped ROIs.

3. Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1. 2D heatmap estimation using stacked hourglass network

2. ResNet encodes the heatmap and the image features into latent feature vectors

3. 3D mesh inference from the latent feature vectors by Graph CNN

4. 3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

· heat-map loss: keypoint estimation loss on the 2D images

· 3D pose loss: L2 loss of 3D keypoint estimation

· mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

· heat-map loss: the same as the one on the synthetic data.

· depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

· pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.

続きを読む

2019/04/26 13:40

コンピュータビジョンの最新論文調査 Human Recognition編

@hirotomusiker

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております本多です。

我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回我々が読んだ最新の論文をこのブログで紹介したいと思います。

今回論文調査を行なったメンバーは、洪 嘉源、林 俊宏、本多 浩大です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回はHuman Recognition編として、ポーズ推定をはじめとする人物の認識に関する最新論文を取り上げます。

前提知識

今回紹介するHuman Recognitionとは、RGB画像を入力として、人物の姿勢推定やセグメンテーション、モーションキャプチャ情報を推定するタスクです。複数人物の映った画像に対して上記のタスクを行う場合、各人物の領域を検出してから、各人物の器官点などの認識を行うTop-down手法と、画像中の全領域から器官点などを検出してから人物ごとにグループ分けするBottom-up手法に分類されます。今回紹介する論文の手法はTop-down手法または単一の対象に対する手法となります。

Human Recognitionには以下のようなタスクがあります。

· Pose Estimation(姿勢推定):人物の器官点(目・肩・ひざなど)の位置を推定するタスク。

· Dense Human Pose Estimation :人体3Dモデルとの対応点を密に推定するタスク。

· Markerless Motion Capture:マーカーを使わず、画像のみからモーションキャプチャ情報を推定するタスク。

· Human Parsing:人物の髪・顔・腕など、身体パーツでセグメンテーションするタスク。

関連する主なデータセットは以下です。

· MS-COCO 物体検出・セグメンテーション・人物姿勢等のラベルを含むデータセットで、recognition系のタスクではデファクトスタンダード。

· MPII, PoseTrack 人物2D姿勢データセット。

· DensePose 人物3Dモデル対応点データセット。

· Human3.6M 人物3D姿勢データセット。

· MHP Human Parsingデータセット。

· STB 手の3D姿勢推定データセット。

論文紹介

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

要約

人物が重なりあった混雑シーンに対応できるポーズ推定手法と、混雑度をコントロールしたCrowdPoseデータセットの提案

提案手法

ポーズ推定手法

1. 人領域 (bounding box) の検出器としてYOLOv3 (*1) を用い、それぞれのbox内のポーズ推定はsingle-person pose estimator(SPPE, 単一人物姿勢推定)で行い、高性能な従来手法であるAlphaPose (*2) を修正して使用。

2. AlphaPoseでは、人検出器で画像の中に各人物の領域 (ROI) を検出した後、その人に属する関節点のみを正解関節点としてロスを計算する。本論文では、各人物の領域 (ROI) に対して、その人物に属するかどうかを問わず、ROI内に存在する全ての関節点を正解関節点として、Joint-candidate Lossを計算する。全ROIの関節点を入力画像にマッピング、距離が近い同種類の関節点をクルーピングし関節点ノードとする。これによって、2で重複して検出された関節点を一つのノードとしてまとめる。

3. 全ての関節点ノードをGlobal Associationステップで各人物のノードに割り当て、統合する。これにより、画像全体の視点から各人の関節点をより正確に割り当てることができる。

CrowdPoseデータセット

CrowdPoseという混雑シーンのポーズ推定用データセットを作成した。20000枚の画像からなり、80000の人物を含み、混雑度を示すCrowdIndexという指標に基づいて各画像の混雑度を測ることで、様々な混雑度の画像がバランスよく含まれるように構成した。

図A1:提案手法。それぞれのbox内に存在する全器官点を単一人物姿勢推定ネットワークで推定、Global Associationにて全boxの器官点を各人物に割り当てて最終出力とする。

結果

Crowd Indexに対する各デファクト手法の精度を見ると (図A2左)、Crowd Indexの大小でmAPが20ポイントも変化することがわかる。一方、各データセットにおけるCrowdIndexの分布 (図A2 中央・右)によると、新たに作成したCrowdPoseは様々な混雑度の画像をまんべんなく含んでいる。

図A2:Crowd Indexとランドマーク精度の関係(左)、MSCOCOとCrowdPoseデータセットにおけるCrowd Indexの分布 (中央、右)

CrowdPoseデータセットを用いた、提案モデルのベンチマーク結果は図A3のようになった。OpenPose、Mask R-CNN、AlphaPose、Xiaoらの手法 (*3) を上回っている。

図A3: CrowdPoseデータセットによるベンチマーク

MSCOCOデータセットを用いたベンチマークにおいても高い精度となった。やはりMask R-CNN、AlphaPose、Xiaoらの手法を上回っている。

図A4:MSCOCOデータセットによるベンチマーク

リンク

論文:https://arxiv.org/abs/1812.00324

*1 YOLOv3: 2018年に発表された、リアルタイム動作可能な物体検出モデル。

*2 AlphaPose: regional multi-person pose estimation (RMPE) という手法の別称。https://arxiv.org/abs/1612.00137

*3 Xiao et al., の手法は当時SOTAであったが、オープンソース化されていなかったため著者らが再現実装したと思われる。フェアに比較するため人物領域検出はYOLOv3を用いた。ちなみに2018年8月にPyTorch実装がオープンソース化されている。https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

要約

ポーズ推定ネットワークを強化、複数スケールのinteractionを密にしてフュージョンすることで精度を向上した

提案手法

single-person pose estimator (SPPE) としては、ダウンサンプリングネットワークとアップサンプリングネットワークからなるHourglass network(U-Netもその一種である)が主流であるが、 本論文で採用するHigh-Resolution Net (HRNet) では、図B1のように、1xの解像度 (HR) を持ったfeature mapが常に伝播し他のスケールと相互作用する設計となっている。これにより器官点のlocalization精度が向上する。

入力画像はstride=2の2層のconv層を経てHRNetに入力される。すなわちHRNet入力時のfeature mapは入力画像の1/4スケールとなっている。HRNetの1x, 2x, 4x, 8xの4スケールは入力画像に対してはそれぞれ4x, 8x, 16x, 32xのスケールに相当し、チャンネル幅はそれぞれ32, 64, 128, 256である(HRNet-W32ネットワーク)。異なるスケールのfeature mapはアップサンプリング (strided 3x3 convolution) またはダウンサンプリング (1x1 convolution + nearest neighbor) されて加算される。ネットワークの最終段は1x, 2x, 4x, 8xの4スケールが出力されるが、このうち最も精度の高い1xの出力のみが用いられる。損失関数はground truthのキーポイントヒートマップに対するmean square errorである。

図B1:提案手法HRNetのネットワーク図。縦軸が入力スケールを基準にしたfeature mapのスケール、横軸がCNNのdepthを表す。入力スケールは入力画像の1/4である。

結果

著者らの前作であるSimple Baselines for Human Pose Estimation and Tracking (ECCV Posetrack challenge 2018で優勝)を大きく上回り、Average Precision vs 演算量のトレードオフを改善した(図B2)。

図B3に、HRNet及び著者らの前作Simple Baseline(ResNet50 + upsampling)の演算量内訳を示す。トータルの演算量は7GFLOPs (HRNet) 、9GFLOPs(Simple Baseline) と低減されている。その主な原因はSimple Baselineにて演算量の6割を占めていたupsamplingレイヤがなくなり、HRNetに統合されたことによる。図B4はMPII及びCOCOデータセットによるテスト結果である。

図B5に、ポーズ検出手法のCOCO test-devにおける比較結果を示す。

OpenPose 61.8%、Mask R-CNN 63.1%、Cascaded Pyramid Network (CPN) 73.0%、Simple Baseline 73.7%、また上述CrowdPose 70.9%に対して、HRNetは75.5%とさらに高精度となっている。PoseTrackデータセットにおいても、精度面でSOTA手法となっている。

図B2:HRNetと、著者らの前作であるSimpleBaseline (ResNet50) のAP(ランドマーク精度) vs GFLOPs(演算量)トレードオフ比較。

図B3: HRNetと、著者らの前作であるSimpleBaseline (ResNet50) のネットワーク部位別計算量

図B4:MPII (上段)およびCOCO (下段)でのテスト結果

図B5: COCO test-devでの性能比較結果

リンク

論文:https://arxiv.org/abs/1902.09212

PyTorch実装: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

要約

単眼2D画像のみから顔、体、手を含む全身の3Dモーションを推定するMarkerless Motion Capture手法。

図C1:Monocular Total Captureの実行結果。単眼カメラ画像から3Dのモーションキャプチャ情報を推定する。

提案手法

図C2:提案手法の処理の流れ。CNN部、メッシュフィッティング部、メッシュ追跡部からなる 2次元画像シーケンスを入力して、各フレームの3D人体モデルのモーションキャプチャー情報を出力する。 身体モデルは著者らによる前作であるTotal Capture で提案された3D Deformation Modelを用いる。

提案手法は図C2に示すように、3ステージに分けられる。

· CNN部:i フレーム目の画像をCNNに入力し、 器官点の位置 (Joint Confidence Maps) と、各器官点間の3Dベクトル (Part Orientation Fields) が得られる。

· メッシュフィッティング部:可変人体モデルを上記出力S、Lで調整することで人体のモーション推定をする。このステージで一フレームの人物3Dメッシュ推定が可能となる。

· メッシュ追跡部:i - 1フレーム目の画像とパラメータを入力することで、モデルのパラメータを調整、複数フレームでのtime consistencyを向上する。

Part Orientation Fields Lは図C3のように、器官点間の3Dベクトルをヒートマップとして推定する。OpenPoseに用いられるPart Affinity Fieldと類似している。

図C3:Part Orientation Fieldの説明図。器官点間の3Dベクトルがヒートマップとして推定される。 CMU Panoptic Studio を用いて 834K の身体画像と 111K の手画像を3D姿勢アノテーション付きで取得し、新データセットを構成した(未公開)。

結果

身体部位のモーション推定データセットHuman3.6M (in-the-wild) 、及び手姿勢データセットSTB datasetでSOTAとなった。

図C4:Human3.6Mでのベンチマーク結果。

図C5:STBデータセットでの手姿勢推定ベンチマーク結果。

リンク

論文:https://arxiv.org/abs/1812.01598

動画:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

要約

人物インスタンス認識に関するタスクであるHuman Parsing及びDensePose Estimation において高精度なR-CNN手法を提案する。

図D1:Parsing R-CNNのパイプライン全体図。Feature Pyramid Netwokをバックボーンとし、ROIAlignでクロップしたROIごとにBbox branchとParsing branchを適用する。

提案手法

1. 特徴抽出部: proposals separation sampling (PSS) という手法を提案する。Feature Pyramid Network (FPN) とほぼ同じ構造だが、Region Proposal Network (RPN) によって得られた注目領域に対し、最も解像度の高いP2スケールのfeature mapをクロップすることが特徴である。

2. Bbox Branch : クロップした領域に対し、bounding boxの回帰を行う。

3. Parsing branch:新提案のGeometric and Context Encoding (GCE) モジュールを適用、セグメンテーション(Human parsing)やdense pose推定を行う。GCEの前半はAtrous spatial pyramid pooling (ASPP) (*1) でマルチスケールの情報を獲得し、後半はNon-local Neural Network(*2) を適用、それぞれ精度向上に寄与している。GCEの前後にconv層を挿入する実験を行なったが、前に入れたときの効果が薄かったため、GCEの後に4層のconvを入れるアーキテクチャとした (図D1)。

図D2: Parsing branch(図D1右下部)を構成するGeometric and Context Encodingモジュール。

結果

CIHP (Crowd Instance-level Human Parsing) 、MHP v2.0 (MultiHuman Parsing) と DensePose-COCO データセットでSOTAとなった(図D3、D4)。

図D3:(a) 入力画像 (b) DensePoseタスクの推定結果 (c) 入力画像 (d) Human Parsing結果

図D4: (左)DensePose タスクの評価結果、(右)CIHPデータセット, MHPデータセットにおけるHuman Parsingタスクの評価結果

リンク

論文:https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid poolingはsemantic segmentationタスクにおいて有効なモジュールで、dilation rateの異なるdilated convolutionを並列に用いることでreceptive fieldを広げる効果がある。論文は https://arxiv.org/abs/1802.02611

*2 Non-local Neural Networkはfeature map上で空間的に離れた位置にある、類似したfeature を統合することでfeature mapの質を向上する手法である。論文はhttps://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

要約

RGB 画像から手の 3D 姿勢と 3D メッシュを同時推定する手法を提案、GPU で 50 FPS で動作する(図E1)。

提案手法

この論文では,Graph CNNと合成画像を活用し、RGB 画像から手の 3Dメッシュと3D姿勢を推定する手法を提案している。3Dメッシュデータは自然にグラフ構造を持つため, Graph CNNが有効である。 実画像に対し 3D メッシュのアノテーションをつけることは容易でないため合成画像を活用し学習する。具体的には、3D メッシュありの合成画像で教師あり学習をした後、RGBDの実画像データを用いて、弱教師ありのfine-tuningを行う。3D姿勢は3Dメッシュから線形なGraph CNNで回帰する(図E2)。

推定パイプライン(図E2, E3)

1. stacked hourglass networkで2D heat map推定

2. heat map と画像特徴を合わせたものをResNetで特徴ベクトルに変換

3. 変換した特徴ベクトルからGraph CNNでメッシュ推定

4. メッシュからLinear Graph CNNで3Dキーポイント推定

テスト時はroot joint(手首) までのdepthと手のスケールは分かっている前提である。

合成画像での学習時のloss

· heat-map loss: 2D 画像でのキーポイント推定のloss

· 3D pose loss: 3D キーポイント推定のL2 loss

· mesh loss: これは更に分解されて、頂点、辺、法線、滑らかさに関する 4 つの loss からなる

実画像に対する fine-tune時のloss

· heat-map loss: 合成画像の場合と同じ

· depth map loss: メッシュを differentiable rendererで深度画像にレンダリングしたものと GT との smooth L1 loss

· pseudo-ground truth loss: GT 画像、GT heat mapからpseudo-GTメッシュを作り、そこからエッジの長さ、滑らかさが離れ過ぎないように loss をかける。Depth map lossのみだと見えている部分以外がおかしくなるため

結果

RGB からの 3D メッシュの推定は既存手法には無いが素朴なベースラインを上回る性能。3D 姿勢の推定では既存データセットで SOTA (図E4)。STBデータセット(図中央)では、上述のMonocular Total Captureよりも高いAUCとなっている。GTX 1080 で 50 FPS動作する。

図E1: 提案手法による推論結果。2D/3Dのキーポイントだけでなく、3Dメッシュも生成している。(上) 合成画像データセットでの結果、(中) 実画像データセットでの結果、(下) STBデータセットでの結果。

図E2: 提案手法の学習方法の概要。(a) 合成画像データセットによる学習、(b) 実画像データセットによるfine-tuning。

図E3: 手の3Dメッシュを生成するGraph CNNのアーキテクチャ。

図E4: 既存手法との比較。(左)RHDデータセットでの結果、(中)STBデータセットでの結果、(右)STBデータセットで3D姿勢なしで深度画像を使って弱教師あり学習した場合の結果。

リンク

論文:https://arxiv.org/abs/1903.00812

おわりに

今回はHuman Recognitionと題して、RGB画像からの人物・手の姿勢推定やモーションキャプチャ情報の推定、セグメンテーションに関する論文を紹介しました。 人物のポーズ認識はさらに高精度化を遂げ、人物が重なり合っている画像でもそれぞれのキーポイントを検出することが可能となってきています。身体や手の3Dポーズ推定やメッシュ推定も、単眼のRGB画像からできるようになってきました。

人の認識技術は今後も重要分野として進展し、さまざまな新しい応用が生まれてくると考えられます。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

2019/03/06 15:01

DeNA TechCon 2019 ベストトークセッションをご紹介します

Daisuke Tamada

Keywords: AI iOS レポート

こんにちは!技術広報の玉田です。2019年2月6日に開催し、社内外から約1500名の方にご参加いただいた DeNA TechCon 2019 について、社内社外で実施したアンケートの満足度が高かったセッション Top5 をご紹介します。

社外アンケート 満足度 Top5 セッション

約400名の社外の皆様にアンケートにご回答いただき、参加したセッションの満足度を「満足、やや満足、どちらでもない、やや不満、満足」の5段階で評価いただきました。ご協力いただいた皆様どうもありがとうございました!! 評価いただいた中から満足度Top2(満足、やや満足)の割合が高かったセッション Top5 をご紹介します。

1位. AI によるアニメ生成の挑戦

· 満足度Top2:98%

· 登壇者:濱田 晃一、李 天琦

AIによるアニメ生成の挑戦 from Koichi Hamada

2位. 『モビリティ・インテリジェンス』の社会実装

· 満足度Top2:94.3%

· 登壇者:織田 拓磨、益子 遼介

『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019] from DeNA

3位. 10年目の『エブリスタ』を支える技術

· 満足度Top2:91.7%

· 登壇者:松尾 卓朗、井田 祐太

10年目の『エブリスタ』を支える技術 from DeNA

4位. 「マンガボックス」の価値を革新するエンジニアのチャレンジ

· 満足度Top2:89.4%

· 登壇者:神武 里奈

5位. スマホゲームのチート手法とその対策

· 満足度Top2:88.6%

· 登壇者:舟久保 貴彦

スマホゲームのチート手法とその対策 [DeNA TechCon 2019] from DeNA

DeNA社内アンケート ベストトークセッション5つ

実はDeNA社内メンバーにもアンケートに協力してもらい、「あなたが思うベストトークはどのセッションでしたか?」と聞き、回答してもらいました。その結果ベストトークとして推薦された推薦率が高かったセッション5つをご紹介します。

1位. AI によるアニメ生成の挑戦

· 登壇者:濱田 晃一、李 天琦

· https://www.slideshare.net/hamadakoichi/anime-generation

スライドは上記となりますが、こちらでは「AI によるアニメ中割生成結果」についてもご紹介します。

2位. ゲーム開発者からMaaS開発者へ

· 登壇者:惠良 和隆

ゲーム開発者からMaaS開発者へ ゲーム開発のノウハウを活かして 移動体情報配信システムを作ってみた [DeNA TechCon 2019] from DeNA

3位. 「マンガボックス」の価値を革新するエンジニアのチャレンジ

· 登壇者:神武 里奈

3位. スマホゲームのチート手法とその対策

· 登壇者:舟久保 貴彦

スマホゲームのチート手法とその対策 [DeNA TechCon 2019] from DeNA

5位. 車載カメラの画像を使用した3次元点群復元と物体認識技術における深層学習の活用

· 登壇者:葛岡 宏祐

Building HD maps with dashcams from Kousuke Kuzuoka

5位. DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜

· 登壇者:金子 俊一

DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019] from DeNA

おわりに

いかがでしたでしょうか。DeNA TechCon 2019 ではこの他にも様々なセッションを実施し、それらのセッションについても皆様に評価いただきました。ご来場の皆様、アンケートにご回答いただいた皆様、ご協力どうもありがとうございました。

その他のスライドや動画についても今後ご紹介していきますので、以下公式 Twitter アカウントをぜひフォローいただければと思います。それでは引き続きどうぞよろしくお願いします!

続きを読む

2018/09/28 23:00

ECCV 2018で発表してきました

TianqiLi

Keywords: AI レポート

はじめに

皆さんこんにちは。DeNA AIシステム部の李天琦(leetenki)です。DeNAのAIシステム部では、物体検出、姿勢推定、アニメ生成等、様々なComputer Vision技術の研究開発に取り組んでいます。また、AIシステム部では世界の最新技術トレンドをキャッチアップするために、年一回国際会議に自由に参加する機会が設けられています。今回は、ドイツ ミュンヘンで開かれたComputer Visionに関する世界トップの国際会議の一つである「ECCV 2018」について、AIシステム部のメンバー5名で参加してきましたので、その内容について紹介したいと思います。また、今回は聴講としてだけでなく、DeNAからもWorkshop論文が1件採録され、濱田晃一(下図右)と私(下図左)の2人で発表してきましたので、その様子についても紹介したいと思います。

ECCVとは

ECCVの正式名称は「European Conference on Computer Vision」で、CVPR、ICCVと並ぶComputer Vision分野における世界三大国際会議の一つです。ちなみにComputer Visionというのはロボット(コンピュータ)の視覚を指し、広義は画像認識、映像認識の技術分野全般を意味しています。そのComputer Visionの分野において世界三大国際会議の一つがこのECCVです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使う事が当たり前になってきているので、ECCVでもDeep Learningの手法を応用した論文が大半の割合を占めるようになりました。

今年の開催期間は9/8〜9/14の7日間です。最初の2日と最終日は特定のテーマに絞ったTutorial & Workshopで、あいだの4日間がMain Conferenceです。また、Main Conferenceの4日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界をリードするIT企業の最新の研究成果や製品などが展示されました。

開催場所

今年の開催場所はドイツのミュンヘンで、GASTEIG Cultural Centerという、劇場・図書館・大学が一体となった大型文化施設を貸し切って会議が開かれました。

[会場のGASTEIG Cultural Center]

近年AI技術への注目の高まりを受けて、ECCV参加者は年々増加し、今年は参加者も採録論文数も過去最高となりました。統計によれば、今年の投稿論文数は2439本で、採録論文数は776本でした。そして今回のECCV参加人数は3200人以上と、ECCV 2016の時と比べて倍以上にものぼっています。

[参加者の統計]

[投稿論文数の統計]

セッションの様子

ECCVに採録された論文のうち、評価の高かったものはOralと呼ばれる口頭発表形式のセッションで発表されます。その場でデモを行うものもあります。それ以外はPosterと呼ばれるセッションで発表され、著者と直接ディスカッションを行うことができます。

[Oralセッションの様子]

ネットワーキングイベント

Main conference期間中、初日の夜に「welcome reception」と、3日目の夜に「congress dinner 」という2つの公式ネットワーキングイベントが開催されました。今回は時間の都合でcongress dinnerには参加できませんでしたが、初日のwelcome reception partyでは立食パーティ形式で世界各国の研究者達と親睦を深める事ができました。

[Welcome receptionに参加してるDeNAメンバー]

また、会議公式のイベントとは別に、多くのスポンサー企業が会場近くのカフェやクラブを貸し切って、独自のネットワーキングイベントを開催していました。今回濱田と私が発表したFashion, Art and Design Workshopでも独自に懇親会を開催していたため、そちらにも参加し、世界各国のFashion, Art関連の研究者と仲良くなる事ができました。

受賞論文

今回ECCVで発表された論文の中で、受賞されたものをいくつか紹介します。

· Implicit 3D Orientation Learning for 6D Object Detection from RGB Images まず、今年のECCV Best Paperに選ばれたのが、こちらのImplicit 3D Orientation Learning for 6D Object Detection from RGB Images (Martin Sundermeyer et al.) です。

[Martin Sundermeyerらの提案手法の全体の流れ]

この論文を一言で要約すると、6D物体検出(3次元空間座標だけでなく3方向の向き姿勢情報も含んだ検出問題)を高速に行う事ができ、かつ6Dのラベル付き教師データがなくても学習可能という画期的な手法です。ただし、6Dラベル付き教師データの代わりに、検出対象となる物体の3D CADデータが必要となる点に注意が必要です。 もう少し具体的に全体の処理の流れを説明すると、まず入力となるRGB画像に対してSSDを用いて対象物体のBounding Boxを推定し、その後、推定されたBounding Box領域から物体の姿勢情報を推定するという処理を行います。実は後半のBounding Box領域から物体の姿勢情報を推定する部分がこの論文の一番の重要なポイントで、ここで独自のAugmented AE(AutoEncoder)というものを提案しています。

[Augmented AEの構造]

このAugmented AEというのは、背景や遮蔽を含んだ物体画像を入力した時に、背景や遮蔽を取り除いて対象物体だけが映る画像を出力するように訓練されたCNNです。このネットワークを訓練するには、背景を含む物体画像とそうでない画像のペアの教師データが必要ですが、そこでCADデータを使い、ランダムに集められた背景画像と合成した人工的なデータセットで学習を行います。また、あらかじめ対象物体のあらゆる姿勢の画像をCADデータから生成し、Augmented AEで潜在表現を計算しておいて、データベースに蓄積しておきます。これによって、テスト時に検出されたBounding Box領域をAugmented AEのEncoderに入力して、得られた潜在表現とデータベースにある潜在表現の照合検索を行う事で、高速に姿勢情報を推定する事ができます。

· Group Normalization 次はHonorable Mentionを受賞した2本の論文のうちの1つであるGroup Normalization (Yuxin Wu et al.) を紹介します。

[Group Normalizationを含む各種正規化手法比較]

こちらの論文はかの有名なKaiming He氏も共著に入っており、とてもシンプルでかつ有用なDeep Learningにおける正規化手法です。通常、Deep Learningの学習にはバッチ正規化 (Batch Normalization) という手法がよく使われますが、その性能はバッチサイズの大きさに依存し、バッチサイズが小さくなるにつれて不安定になるという問題があります。そこでこの論文では、バッチ単位ではなく、入力チャンネルをいくつかのグループに分け、各グループ単位で正規化するというアイデアを提案しています。これにより、バッチサイズが小さい場合でも有効な正規化を実現しています。

· GANimation:Aanatomically-aware Facial Animation from a Single Image 最後に紹介する論文が、2本のHonorable Mention受賞Paperのうちのもう1本であるGANimation:Aanatomically-aware Facial Animation from a Single Image (Albert Pumarola et al.) です。

[Albert Pumarolaらの提案手法全体像]

こちらの論文では、最近AI分野で注目を集めている敵対的生成モデルのGAN (Generative Adversarial Network) を使った顔表情生成の手法を提案しています。キーとなるアイディアは、顔画像を生成する際に、入力画像に加えて「Action Units (AU)」と呼ばれる条件変数も一緒にGeneratorに入れることです。このAUというのはもともと心理学の分野におけるFacial Action Coding Systemで用いられる概念で、人間の顔のそれぞれの表情筋に対応する30種類のAUの組み合わせで7000以上の表情を表現できるとのことです。このAUを条件変数として一緒に使うことでよりリアルかつ自在な顔表情を生成できるようになります。既存手法のStarGANでは離散的な表情変化しかさせられなかったのに対し、連続的に表情を変化させられるところがポイントです。また、表情に関係しない部分を保持したまま表情のみを変えるためにAttentionを利用するという工夫もなされています。

[Attention maskを含むGenerator図]

DeNAのPoster発表

今回、会議最終日のFirst Workshop on Computer Vision for Fashion, Art and Design Workshopにて、DeNAからも1件の採録論文ががあり、First Authorの濱田と私の2人で発表を行いました。

[Fashion, Art and Design WorkshopでのPoster発表の様子]

[PSGANのPoster]

こちらが今回発表してきた『HD高解像度の全身アニメ生成』の論文 (Full-body high-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks) です。この論文では、各解像度で構造条件付けられたGeneratorとDiscriminator を進歩的に成長させるGANs (PSGAN) により、従来難しかった、構造一貫性を持った高解像度での生成を実現しています。また、DeNAではこれまでにMobageサービスで蓄積してきた10万点以上のアバターの3Dモデルデータを保有しており、それを活用してPose情報付きの独自のアバターデータセットも構築しています。

[PSGANの生成結果]

より詳細な内容はこちらのプロジェクトページで解説していますので、興味ある方はぜひこちらをご覧ください。

全体の感想

今回のECCV2018で、私としてもDeNAとしても、初めての大きな国際会議での論文発表を行いました。私は聴講として毎年CVPRにも参加していますが、一番大きな違いはネットワーキングのしやすさだと感じました。学会で新しく知り合った研究者と雑談する時、必ずと言っていいほど「今回のカンファレンスでどんな論文を発表するんだい?」のような質問を聞かれます。聴講での参加ですとそこで話題が途切れてしまいますが、発表者として参加するとそこから論文の話が広がり、より広く交流を深める事ができました。DeNAでは毎年国際学会に参加する機会が設けられていますので、次回行く時もできれば論文発表者として参加し、更に言えば本会議でのOral発表も目標に目指したいと思います。

参考文献

· Martin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebel. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images.

· Yuxin Wu, Kaiming He. Group Normalization. arXiv:1803.08494 [cs.CV]

· Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer. GANimation: Anatomically-aware Facial Animation from a Single Image. arXiv:1807.09251 [cs.CV]

続きを読む

2018/03/22 15:00

Amazon SageMaker ハンズオンレポート

Ryosuke Mashiko

Keywords: AI レポート 勉強会

はじめに

AIシステム部・AI研究開発グループの益子です。 現在はオートモーティブ事業において、AI研究開発エンジニアとして働いています。

先月20日、DeNA社内において、アマゾン ウェブ サービス ジャパン(AWS)様より「Amazon SageMaker」ハンズオンを実施していただきましたので、その模様をレポートさせていただきます。

DeNAでは、すでに数多くのサービスでAWSを活用しています。私の所属するAIシステム部もその例外ではなく、機械学習のモデル開発に幅広く利用しています。

昨年のAWS re:Invent 2017において「Amazon SageMaker」が発表されましたが、発表の後さっそく社内でも利用したいという声が上がり、AWS様より社内エンジニア向けハンズオンを実施していただけることになりました。

Amazon SageMakerとは

Amazon SageMakerとは

· AWSインスタンス上にJupyter Notebookを構築

· Notebook上での機械学習モデル実装

· AWSのインフラを利用した、分散学習

· 学習したモデルを組み込んだ予測APIの自動生成

まで一貫して行える、フルマネージドサービスです。 https://aws.amazon.com/jp/blogs/news/amazon-sagemaker/

Jupyter Notebookといえば、すでにデータ分析/機械学習アルゴリズム開発においてデファクトとなりつつあるツールですが、それがコンソールからポチポチするだけで、簡単に構築できるのはかなり大きなメリットとなります。

SageMakerの機能 (講義資料より)

また、これまで機械学習サービスを開発する場合には

1. 学習環境構築とデータ整備 (インフラエンジニア)

2. 機械学習モデル実装(機械学習エンジニア)

3. 学習済みモデルをサービス内にデプロイ(サービス開発エンジニア)

の手順が必要であり、案件によっては複数のエンジニアが関わる必要がありました。

SageMakerにより1.と3.の手順がほぼ自動化されるため、機械学習エンジニアはモデル実装に集中でき、また単独でサービス展開まで行うことも可能になります。

ハンズオンの流れ

当日は、AWSより志村誠さんを講師に迎え、主に機械学習アルゴリズムのサービス適用という話題を中心に講演していただきました。

前半はスライドを用いてSageMakerの概要の説明、後半は実際に弊社環境内にJupyter Notebookを立ち上げて、ハンズオンという形式になっています。

ハンズオン参加者の内訳

DeNAからはエンジニアを中心に50名超参加しました。

参加者の内訳

参加者の内訳を見ると、幅広い分野のエンジニアが参加しています。また今回エンジニア向けとして開催したのですが、ビジネスメンバーからも参加があり、機械学習への関心が非常に高いことが伺えます。

それでは、以下当日のハンズオンの流れに沿って、詳細をレポートしていきます。

前半: 講義

前半は講義形式をとり、SageMakerについて解説していただきました。

講義資料より

SageMakerを利用して機械学習を行う場合、主に3つの選択肢があります。

· ① AWSが提供するアルゴリズムを利用

· ② AWSがサポートするフレームワークを利用

· ③ それ以外のアルゴリズム・フレームワークを利用

もっともお手軽なものが①で、すでにある程度の機械学習アルゴリズムはプリセットとして用意されています(後述)。

②は①に含まれないアルゴリズム、例えばディープラーニングモデルを独自に実装したい場合に利用することになります。対応しているフレームワークは限られていますが、分散学習もサポートされるので、柔軟性もありつつ、クラウドのメリットを享受できます。

もっとも柔軟性があるのは③の方法ですが、こちらは学習用のDockerコンテナを自前で用意する必要があり、一手間必要です。その代わり、①、②で提供されていないアルゴリズム・フレームワークが利用可能となります。 DeNAではchainerで開発しているチームも多く、その場合は③の方法になります。今後も①〜③の方法を適材適所で使い分けていくことになると思います。

①のAWS提供アルゴリズムですが、すでに一般的な回帰・分類問題などがカバーできるように用意されているようです。

講義資料より

今回のハンズオンでも、①Amazon提供のアルゴリズムを利用した線形回帰問題のケースを実装していきました。

後半: ハンズオン

当日の様子

ここからは、参加者全員分のJupyter Notebookインスタンスを立ち上げ、実際にSageMakerによる機械学習をいくつか試していきます。

Notebook インスタンスの作成

Notebookに利用するインスタンスタイプなどを設定するだけで、あっという間にJupyter Notebookが立ち上がりました。

AWS提供 アルゴリズムによる線形回帰 - 学習

サンプルとして、まずは AWS提供アルゴリズムの線形回帰モデルを試しました。

ハンズオンに使用したノートブック

データロードの部分は省きますが、AWS提供のアルゴリズムを利用した場合、上記コードだけでモデル学習を実行してくれます。学習用の関数であるlinear_estimator.fitを実行すると、Notebook インスタンスとは別に学習用のコンテナが立ち上がり、ジョブを実行してくれます。

講義資料より

内部の挙動としては、SageMakerがS3から事前に配置した学習データを読み込み、コンテナ上で学習、学習した結果のモデルを再度S3に書き戻しておいてくれる、という仕組みになります。

S3に出力される学習済みモデルファイルですが、AWS提供アルゴリズムの場合はSageMaker専用になっているためエンドポイント経由での推論が前提となります。一方でDLフレームワークで独自実装した場合や、学習用コンテナを用意して学習したモデル(手法②、③)に関しては、S3から直接モデルファイルを取得して推論アプリケーションに組み込むことができるそうです。

AWS提供 アルゴリズムによる線形回帰 - デプロイと推論

講義資料より

学習が終われば、上記のようにdeployを実行するだけで推論エンドポイントが作成されます。

講義資料より

作成したエンドポイントに対して、入力データを投げると、推論結果が返ってきます。ハンズオンではHTTPリクエストをする代わりに、ノートブック上から直接エンドポイントを実行する方法をとりました。

今回割愛させていただきますが、ハンズオンではその他、tensorflowによるirisデータセットの分類問題にも取り組みました。

DeepAR による時系列予測

講演の中では、DeepAR 使った時系列予測タスクも紹介されましたので、手元でも試してみました。

データセットとして予め波形データを作成し、これを学習させます。

データセット

ここでは実行コードは省きますが、全体の処理の流れは線形回帰で試したものと同様です。

DeepARによる推論結果

推論結果として、80%信頼区間と予測中央値を得ることができました。 トレンドはうまく捉えられているようですが、ピーク部分にずれがあります。ここはさらなるチューニングで改善できるかもしれません。

DeepARは元々、Amazon.com内における予測タスクに利用していたものだそうです。 AWS提供アルゴリズムのため、特別なセットアップ をする必要なく、 時系列予測問題に適用することができます。 時系列予測モデルはビジネスシーンでも利用頻度が高く、例えば機械学習アルゴリズムには詳しくないエンジニアやアナリストが、とりあえず現場のデータで精度が出るかやってみたい、という場合に使えそうです。

まとめ

以上、ハンズオンでは実際にAWS上で機械学習アプリケーションの学習とデプロイまでを行うことができました。

モデルの実装から推論用のエンドポイントの作成まで、特別インフラを意識する必要はありません。機械学習エンジニアにとってはよりアルゴリズム開発に集中できるのではないかと思います。

現在Google Cloud Platform上にも同様なサービスとして「Cloud Machine Learning Engine」がありますが、機能の違いなど比較すると面白そうです。

最後に、個人的に便利だと思った点をいくつか上げておきます。

· 単純にmanaged Jupyterとしても利用できる

o SageMakerはモデル実装から学習、デプロイまで一貫して行えるサービスですが、それぞれ一部だけ利用することもでき、Jupyter Notebookだけの利用も可能です。これを使えば簡単にGPUインスタンス上にJupyterを立ち上げてさっと使う、ということもできそうです。

· データの暗号化に対応

o 学習データ/推論結果も、プロダクションレベルにおいては高いセキュリティレベルでの取扱いを要求される場合も多く、データを暗号化する仕組みがサポートされているのは助かります。

注意点も上げておきます。

· 現在SageMakerは東京リージョンでは提供されていませんので、実際のサービスに組み込む際には留意しておく必要があるでしょう。

· Notebookインスタンス数など、SageMaker に利用するリソースはアカウントごとに上限が設定されています。もし社内で大規模に利用する場合には、事前に上限を上げる申請をしておく必要があります。(今回のハンズオンでも実施しました。) https://docs.aws.amazon.com/jajp/general/latest/gr/awsservice_limits.html

以上.

続きを読む

2018/02/16 14:46

DeNA TechCon 2018 開催レポート[1]

@Kesin11

Keywords: AI レポート

こんにちは!SWETグループの加瀬です。

この時期の恒例行事となった今年のDeNA TechCon 2018が2018年2月7日に開催されました。今年は第3回目の開催となります。

今回から全4回の予定でTechConの様子をお伝えしていきます。第1回はOpeningとKeynote、そしてYELLOW Stage『DeNAが切り拓くAI』の発表の紹介です。

オープニング

オープニングでは木村よりDeNA TechConの概要についての説明がありました。

DeNAは色々な事業に参入しており、その中のエンジニアも色々な領域でチャレンジをしています。それを知ってもらう場がDeNA TechConであり、また少しでも技術の進歩の役に立てればという思いが語られました。

Keynote - エンジニアが引っ張るDeNAの"モノづくり"

エンジニアが引っ張るDeNAの"モノづくり" from DeNA

今年のKeynoteは、代表取締役社長兼CEOである守安からDeNAにおける"モノづくり"の発表でした。

自身は元々エンジニア出身で、DeNA初期の頃の主力事業であったEコマースの『ビッダーズ』(現『Wowma!』)に夜勤でシステムの監視をする仕事から関わっていたという話から始まり、その後の『モバオク』、『Mobage』、そして現在、力を入れているオートモーティブ事業まで、DeNAのサービスにおいて発生した技術的な課題と、それらをどのように解決してきたかということが語られました。

その中で、分業体制で開発されていたために開発スピードを出すことができなかったビッターズの反省から、当時アルバイトだった川崎(現取締役)にモバオクの開発を一任し、1人で3ヶ月という短期間で完成させたエピソードが紹介されました。

最後に、サービスづくりをエンジニアが引っ張ることと、サービスの課題を高い技術力で解決することをDeNAの強みとして持ち続けたい、という話で発表を締めくくりました。

深層学習を用いたコンピュータビジョン技術とスマートショップの実現

深層学習を用いたコンピュータビジョン技術とスマートショップの実現 from DeNA

AIシステム部の西野と李による、現在のコンピュータビジョン技術の紹介と、その中の姿勢推定技術を活用したスマートショッププロジェクトについての話でした。

スマートショッププロジェクトとは、Eコマースで行われている商品推薦のような、一人ひとりに合わせた接客をリアル店舗でも行えるようにしようという試みです。 そのためには入店したお客の状況を把握する必要があり、カメラ映像から同一人物であることを検出するために姿勢推定技術をどのように用いているかという内容でした。

車両運行管理システムのためのデータ整備と機械学習の活用

車両運行管理システムのためのデータ整備と機械学習の活用 from 英爾 関谷

AIシステム部の関谷と森による、車両運行システムを支える技術と、深層学習を用いて車両停車が可能な位置を自動的に見つける仕組みについての話でした。

自動運転、配車予測、経路探索といった車両運行管理システムがどのような技術によって実現されているかという紹介です。また自動運転を活用した物流オペレーションを実現するために、自動車が停車可能な安全で交通の妨げにならない位置を深層学習を用いて画像からどのように推定するかという内容でした。

ゲーム体験を支える強化学習

DeNA TechCon2018 ゲーム体験を支えるための強化学習 from Jun Okumura

AIシステム部の奥村と田中による、アプリゲームのバランス調整を強化学習・深層学習で行うという話でした。

最近のアプリゲームは、リリースされてから長期間に渡り継続的にバージョンアップを続ける流れになってきており、DeNAがリリースしている『逆転オセロニア』においては新しいキャラクターを追加しながら全体のバランスを調整することが難しくなりつつあるという問題が起きています。 そこで強化学習・深層学習を用いて人間らしいプレイを行うAIを作り、そのAIによるシミュレーションを行うことでバランス調整に活用させるという取り組みについての内容でした。

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用 from Yusuke Uchida

AIシステム部の内田と本多による、コンピュータビジョン技術を活用した交通事故を減らす取り組みについての話でした。

深層学習を用いたコンピュータビジョン技術の解説と、それらを用いて運転中のよそ見や車間距離不足といった不安全行動を減らすことで重大な交通事後を減らすという取り組みが紹介されました。 また、大規模な演算処理が必要な深層学習をエッジデバイスである車両で行うために、精度を保ったまま演算数を減らす深層学習の軽量化手法についても発表がありました。

研究開発と事業貢献を両立させるAI組織の作り方

YELLOW Stageの最後は、AIシステム部の山田によるDeNAのAI組織についての話でした。

DeNAのAI組織体制、AI/機械学習を活用したサービスの紹介、研究開発と事業開発の関わり方、AI・分析の基盤技術、AI研究開発エンジニアとデータサイエンティストの役割、先端技術をキャッチアップするための精度や設備といった非常に多岐にわたる内容の紹介と、今後力を入れていくところについての発表でした。

次回の第2回ではRED Stage『DeNAのチャレンジ』の発表を紹介する予定です。

続きを読む

2018/01/12 12:00

サブカルのためのword2vec

@bonprosoft

Keywords: AI レポート

はじめに

AIシステム部AI研究開発グループ アルバイトの五十嵐です。(@bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。

私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。

取り組んだタスク

突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好みを自動的に学習し、様々なジャンルの記事があるなかから、1日3回のおすすめ記事を配信してくれます。

さて、ハッカドールの裏側ではユーザーへ記事を配信するために日々膨大なWeb記事をクロールして、どの記事がどのジャンル・要素のものであるのかなどを識別し、検索サービスと同じようにユーザーへ記事を配信しています。 Web記事を適切に解析するためには、毎クール増えるアニメのタイトルはもちろん、話題となっている単語にもいち早く対応しなければなりません。

そこでハッカドールチームでは、形態素解析のための辞書を毎日自動的に構築するジョブを用意しています。 これにより、大部分の解析処理はうまくいくようになりますが、まだいくつかの課題が残っています。 それは、シノニム辞書の構築 です。 ここで言う「シノニム辞書」とは、アニメの作品名をはじめとした何らかの名称と略称/愛称を関連付けるための辞書のことを指しています。 シノニム辞書は、ハッカドール内において記事のタグ付けや検索において利用されています。 有名な例としては、次のようなものがあります。

· ご注文はうさぎですか? ⇔ ごちうさ

· Re:ゼロから始める異世界生活 ⇔ リゼロ

· この素晴らしい世界に祝福を! ⇔ このすば

略称/愛称自体の分かち書きは、前述のジョブによりうまく動作しますが、その略称/愛称が指している名称との紐づけは現状自動的に獲得できておらず、この紐づけは現在手動で行っています。 2017年10月現在、シノニム辞書に登録されたエントリ数は約5600件にも達し、日々増えていくシノニムを今後も管理し続けるのはとても大変な作業です。 そこで今回は「シノニム辞書を何とか自動で獲得できないか」というタスクに取り組みました。

なお、シノニム辞書の自動構築にあたって、ハッカドール内で利用できるデータセットとしては次のようなものがあげられます。

· 日々のWeb記事のクロール結果

· アニメ/サブカルに関するタグ/キーワード集合

· 日々更新される形態素解析用辞書

· アプリ内の検索キーワード

· 現時点で登録されているシノニムペア

以降の章では、先行研究と提案手法、評価実験に関する詳細を説明していきますが、もし読むのが大変に感じる場合や先に成果物だけを見たい場合には、次のURLからスライドとデモサイトをご覧ください。

· デモサイト http://animew2v.vbcpp.net/

サブカルのためのWord2vec from DeNA

先行研究

最初の1週間は、今回のタスク設定と近い、同義語獲得/同義性判定関連の先行研究を調査しました。 その結果、大きく分けて先行研究で用いられていた手法は、次の3種類に分けられると考えました。

· 単語表記を考慮した同義語判定

· 周辺文脈を利用した同義語判定

· 検索クエリなどの関係情報を利用した同義語判定

それぞれの手法において、特に印象に残った論文を、簡単にご紹介します。

単語表記を考慮した同義語判定

同義語がもともとの名称をベースに作られることを仮定すると、編集距離などの表記を考慮した手法を適用することを考えるのが自然です。 2008年に高橋らが提案した手法[a]では、同義語を以下の3種類から生成されるものと仮定して、これらを考慮した同義語判定のためのフローおよび素性の作成を行っています。

· 定型文字列の追加: 接頭/接尾辞等の文字列を追加

· 表記変換: 読みを保存して表記を変換

· 省略: 文字順を保存して文字を削除

判定ルールのなかには、例えば音節数を考慮した正規化や、SVMを用いた省略関係にあるかどうかの判定ロジックが含まれており、2つの単語の単語表記について、様々な観点から距離を計算するための手法が組み込まれています。

周辺文脈を利用した同義語判定

「同じ文脈に出現する単語は類似した意味を持つ」という分布仮説(Harris, 1954)に基づいて、単語の意味を表すベクトルを求めるためのモデルとして、近年ではSkip-gramモデル(Mikolov+, 2013,[b])を用いた研究が活発に行われています。 ここではSkip-gramモデルの詳細の説明は割愛させていただきますが、原理を簡単に説明すると、ある単語を与えたときに、出力と周辺に出現する単語が一致する確率が高くなるように図1のWeWeとWWを学習することで、適当なイテレーションを回した後に得られるWeWeが単語ベクトルとして利用できるという仕組みになっています。 なお以降の図では、Skip-gramモデルを図1右下のような、省略された図を用いて表現することにします。(図1右上と右下は等価なモデルを示しています。)

▲図1 Skip-gramモデル

Skip-gramモデルを利用した同義語獲得のアプローチとしては様々な手法がありますが、特に新しい手法として、城光らによって提案された、文脈限定Skip-gram(城光+, 2017,[c])があります。 この手法では、特定の品詞のみ/左右特定の位置のみを考慮するような制約を加えて、異なる制約を持った複数のSkip-Gramモデルを学習したあと、2つの単語ペアを与えたときに、これらのSkip-gramが出力するコサイン類似度を素性として、同義語か否かの教師あり学習を行っています。 論文中では、実際に合計254種類のSkip-gramを学習させたあと、これらのモデルを用いて同義語判定を行ったところ、通常のSkip-gramモデルだけの場合と比較して、F値が大幅に向上したと述べています。

検索クエリなどの関係情報を利用した同義語判定

同義語判定は検索エンジンにおいても重要となります。 2012年にMicrosoft Researchから発表された論文では、固有表現のシノニムを自動的に検出する手法に用いる指標の一つとして、Pseudo Document Similarity(Kaushik+,2012,[d])が提案されました。 この指標の前身となったClick Similarity(Cheng+, 2010,[e])は、2つのクエリの類似度を測るための手法として、検索クエリ集合とWebドキュメント集合を頂点とした二部グラフを考えたうえで、ある検索クエリからあるWebドキュメントにたどりついたときにエッジを張り、2つのクエリが与えられたときに、その値がどの程度一致するかという情報を用いています。 これに加えて、Pseudo Document Similarityでは、特に検索クエリが複数の単語からなる場合にもRecallがあがるよう、エッジの張り方を工夫しています。

先行研究の本タスクへの適用

先ほど挙げたそれぞれの手法を、今回のタスクへ適用することを考えてみます。はじめに次の例をご覧ください。

· 終末何してますか?忙しいですか?救ってもらっていいですか? ⇔ すかすか

· 僕友達ない ⇔ はがない

この例は、近年放送されたアニメの作品名とそのシノニムのペアを示しています。 1番目の例は、すかが3回繰り返し出現しているにもかかわらず、シノニムはそのうちの2回から構成されています。 また、2番目の例では、有用と思われる名詞や形容詞、漢字表記などを無視して、シノニムは主に助詞から構成されています。

これは主観ですが、1クール毎に増えるアニメ作品名の略称の競合を避けるためにも、作品名からのシノニムの推測は年々難しくなっていると考えています。 したがって、単語表記を考慮した同義語判定は、今回のタスクへ適用するのは難しいと考えました。

続いて、周辺文脈を利用した同義語判定ですが、単語分割さえできていればSkip-gramの学習が可能であり、周辺単語から単語自体が出現するコンテキストを推測する(単語表記を考慮しない)という性質から、今回のタスクにおいて応用可能であると考えました。 しかし、城光らの手法では、2つの単語がシノニムの関係にあるかどうかを判定するために、シノニムペアを教師データとして使用しており、教師データ作成のコストが必要です。 さらに、分類機の入力として合計254種類ものSkip-gramを用いており、この手法でモデルを頻繁に更新するのは難しいと考えました。

最後に、検索クエリなどの関係情報を利用した同義語判定ですが、今回のタスクへ適用するにはエッジを張るために必要な情報が足りません。 これは、検索クエリなどはデータセットに含まれるものの、その後のユーザーの行動に関する情報が含まれていないため、先行研究のようなエッジを張ることができないためです。 代わりに、検索クエリが文章に含まれているという関係をエッジとして使うことを考えましたが、この関係が果たしてどれくらい有効に働くかという点が見通せなかったため(3週間という限られた時間のなかで成果を出すため)今回はこの手法の採用を見送りました。

以上の理由から、今回のタスクは周辺文脈を利用した同義語判定ベースの手法で取り組みました。 しかし城光らの手法をそのまま適用することは難しいため、予備実験として、ひとまず従来のSkip-gramを学習させたうえで、何か改善できる点がないかを調べました。

予備実験

従来のSkip-gramを用いて単語ベクトルの獲得を行い、シノニムを与えたときのk近傍を観察してみます。

実験設定

学習に用いたデータセットとしては、Webからクロールした記事250,000件を使用しました。 このデータセットに含まれる単語数は533,999単語(のべ123,273,881語)です。

Skip-gramの学習に関する主要なハイパーパラメータとしては、窓幅を5単語、学習する単語ベクトルの次元を100次元としました。 また、ある単語の出現回数が全データセット中で5回より少ない場合には、その単語を学習から除外しました。 したがって最終的には、172,257単語(のべ93,799,316語)の単語を用いて学習を行いました。

実験結果

次の表は、学習済みモデルを用いて、アニメ作品のシノニムの単語ベクトルとコサイン類似度の高いベクトルを持つ5単語をそれぞれ列挙したものです。

表1 従来のSkip-gramを用いたときの、シノニムの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5単語

ごちうさ

(ご注文はうさぎですか?)

リゼロ

(Re:ゼロから始める異世界生活)

このすば

(この素晴らしい世界に祝福を!)

けもフレ

(けものフレンズ)

よう実

(ようこそ実力至上主義の教室へ)

#1

リゼロ 0.71542

ごちうさ 0.71542

幼女戦記 0.67590

二次創作 0.58515

プリアラ 0.71460

#2

きんモザ 0.70086

ガーリッシュナンバー 0.69933

はいふり 0.65225

エンドレスエイト 0.57156

クロムクロ 0.66699

#3

まどマギ 0.67969

緋弾のアリア AA 0.66972

ハルチカ 0.63882

シュタゲ 0.55419

ガーリッシュナンバー 0.63846

#4

ラブライブ 0.67866

ワンパンマン 0.66917

リゼロ 0.63733

グレンラガン 0.54987

えとたま 0.61215

#5

アイマス 0.67314

幼女戦記 0.66810

暗殺教室 0.63500

ラブライブ 0.54697

正解するカド 0.60950

それ以外の単語で試した場合でも、上の表と同様にして、アニメタイトルを表す単語を与えた場合には、何らかのアニメタイトルを表す単語がk近傍に存在するという結果になりました。

しかし「ごちうさ」から「ご注文はうさぎですか?」、「リゼロ」から「Re:ゼロから始める異世界生活」が捉えられないことから、同一の作品を表すアニメタイトルの距離が近くなるように学習できていないことが分かります。 言い換えると、従来のSkip-gramでは、アニメタイトル同士は正しく距離が近くなるように学習されるものの、それ以上の特徴は捉えられていないということが分かります。 (この結論は、一度でもword2vecを使ったことのある方なら、頷いていただけると思います。)

したがって、今回のタスクを解決するには、従来のSkip-gramでは難しいという結論になりました。

予備実験に関する考察

先ほどの表1をご覧ください。 従来手法では「ごちうさ」に類似したベクトルを持つ単語として「リゼロ」が、また「リゼロ」に類似したベクトルを持つ単語として「ごちうさ」がそれぞれ出現しています。 これは、学習の結果で得られた100次元のベクトル表現において「ごちうさ」と「リゼロ」がお互いに近い位置に存在するということを意味しています。 では、なぜ「ごちうさ」と「リゼロ」が近くなるのでしょうか。 以降ではこの問題を、ごちうさ-リゼロ状態として呼ぶことにしましょう。

ごちうさ-リゼロ状態はなぜ起こるのか


▲図2 「ごちうさ」(左)「リゼロ」(右)という単語の周辺5単語に出現する単語を、頻度の高い順にソートした結果

図2をご覧ください。 この表は、それぞれ「ごちうさ」「リゼロ」という単語の周辺5単語に出現する単語を、頻度を高い順にソートしたものです。

ところで、皆さんは、この表にあるような周辺単語の分布から「ごちうさ」「リゼロ」という作品名まで言い当てることができますか? (実際にアニメ作品名を知らせない状態で、作品の正式名称を除いた分布を与えて作品名を推測してもらったところ、あくまで主観ですが、半数程度の人が異なる作品名を答えていました。) 確かに作品を表すような特徴を持つような単語を含んでいるものの、基本的に確信を持って言えることは「アニメ作品」(もしくはサブカル全般)ということ程度かと思います。 Skip-gramを含むWord2vecは、基本的にこのようなタスクを解くことを目標にして、単語ベクトルを学習しているのです。

さて、図2をよく観察すると、次のことが言えます。

1. 「店舗限定」や「コラボ」などの、今回のタスクにおいてはノイズとなりそうな単語が上位に来ている

2. 「アニメ」「キャラ」「イベント」などのアニメ全般で使われる単語が上位に来ている

この2点を手掛かりに解決策を探していきます。

まず一つ考えられる要因としては、複数作品に関して言及している記事が学習に含まれているという点です。 図3は、クロールされた記事に、アニメ/サブカルに関するタグ/キーワード集合(タスク設定の章で説明)を用いて付与されたキーワードの数に関するヒストグラムです。


▲図3 クロールされた記事に付与されたキーワードの数

キーワードを多く含むような記事としては、どのようなものがあるのでしょうか? 実際にデータセットを確認してみると、コミックマーケットをはじめとしたイベントにおける出展情報に関する記事が多く含まれていることがわかりました。 「リゼロ」や「ごちうさ」のような人気作品はグッズも多く取り上げられることから、出展情報に関する多数のウェブページに出現しており、これが、ごちうさ-リゼロ状態の一つの要因になっているのではないかと考えました。

また二つ目に考えられる要因として、単語ベクトルの学習に周辺単語を使うだけでは、今回のタスクを解くには不十分であるという点です。 周辺単語を見ると、アニメ全般で用いられるような単語が多く出現していることがわかります。 これらの単語はWord2vecの学習において、一般名詞のなかからアニメ全般に関する概念を獲得する(アニメに関する単語の距離が近くなるように学習する) には重要ですが、今回のような、もう少し詳細にアニメ作品を考慮した単語ベクトルを獲得したい場合には、これらの アニメ全般用語は、いわばストップワードと同じ扱いになると言っても良いでしょう。

次の章では、アニメ作品に関するドメインの知識を考慮するような仕組みを組み込んだモデルを提案します。

提案手法

前述の要因二つについて、まず一つ目の解決策としては、前処理として1記事にキーワードを10個以上含む記事については除外を行いました。 これにより、なるべく1つの作品について言及しているようなWeb記事からのみ学習を行うようにするという狙いがあります。

二つ目に解決策ですが、学習モデルにこのキーワード情報をうまく埋め込むことで、アニメ作品に関するドメインの知識も単語ベクトルに埋め込むことができないかを検討しました。 そこで考えたのが、以下の3つのモデルです。

モデル1号


▲図4 モデル1号

モデル1号は、ある単語を入力としたときに、その周辺単語とドキュメントに付与されたキーワードを出力として学習を行うモデルです。 つまり、通常のSkip-gramモデルに加えて、キーワード情報を推測するような層を途中に付け足して、マルチタスク学習を行っています。

モデル2号


▲図5 モデル2号

モデル2号は、ある単語と、その単語が出現するドキュメントに付与されたキーワード情報を入力としたときに、その単語の周辺単語を学習するモデルです。 これが学習できると、単語だけではなく、あるキーワードが出現するドキュメントにおいては、特定の単語が周辺に出現しやすいという、条件付きの周辺単語の推測もできるようになります。 また、単語ベクトルの学習と同時に、キーワード情報に関するベクトルも学習できる点も魅力的です。

モデル3号

※こちらのモデルは、インターン期間終了後に追加実験として試したモデルです。

Rev. A


▲図6 モデル3号 Rev.A

モデル3号 Rev.Aは、基本的にはモデル2号と同じです。 しかし、モデル2号では1つのドキュメントに複数のキーワードが付与されていた場合に、そのSumを取って入力としていたところを、このモデルでは1つずつ入力として取るようにした点が異なります。 このように変更することで、モデル2号と比較して全体のモデル構成が浅くなり、学習が進みやすいのではないかと考えたためです。

Rev. B


▲図7 モデル3号 Rev.B

モデル3号 Rev.Bは、Rev.Aに加えて、concatの後に1層のFully Connected層を挟んでいます。 これにより、例えば入力として与えられたキーワード情報が周辺単語の推測に役に立たないような場合でも、学習が可能になるのではないかと考えました。

Rev. C


▲図8 モデル3号 Rev.C

モデル3号 Rev.Cは、Rev.Bに加えて、ResNet(He+, 2016,[f])で用いられているようなShortcut Connectionを加えました。 これにより、仮にキーワード情報を用いた場合のほうが性能が悪くなるような場合でも、最悪時の性能を通常のSkip-gramと同等くらいに保証できるのではないかと考えました。

キーワードのみSkip-gram


▲図9 キーワードのみSkip-gram

これは、モデル1号において、周辺単語への出力層を無くしたものと一致します。 すなわち、マルチタスク学習の有効性を検証するために実験に用いたモデルです。

キーワードのみSkip-gramは、基本的にモデル構成はSkip-gramと同様ですが、ある単語を入力としたときに周辺単語を学習するのではなく、ある単語が出現するドキュメントのキーワード情報を学習している点が異なります。

評価実験

従来のSkip-gram、キーワードのみモデル、モデル1号~3号 Rev.Cまでをすべて実装し、評価実験を行いました。 なお、すべてのモデルはChainerを用いて実装しました。

実装は後日公開予定です。

評価手法

現在ハッカドールが持っているシノニムペア5600組を用いてモデルの評価を行うために、次の3つの評価手法を用いました。

· コサイン類似度

· K近傍一致度

· 相互ランク

コサイン類似度

コサイン類似度は、単純にシノニムペアがどれくらい近くなっているかを測定するための指標として取り入れました。

シノニムペアをx,yx,yとしたときに、コサイン類似度cos(x,y)cos(x,y)は次のように定義されます。

cos(x,y)=∑di=0wxiwyi√∑di=0w2xi√∑di=0w2yicos(x,y)=∑i=0dwxiwyi∑i=0dwxi2∑i=0dwyi2

ここで、wxwxは単語xxの単語ベクトル、ddは単語ベクトルの次元を示しています。

k近傍一致度

k近傍一致度は、シノニムペアとなる2単語の周辺に存在する単語がどれくらい一致しているかを測定することを目的として取り入れました。

シノニムペアをx,yx,yとしたときに、単語xx(単語yy)に対するコサイン類似度が高い上位kk単語を集めた集合をSxSx(SySy)とします。 すなわち、すべての単語集合をSSとしたときに、SxSx(SySy)は次の2式を満たすように定義されます。

|Sx|=k|Sx|=k∀p∈S∖Sx. ∀q∈Sx. cos(x,p)≤cos(x,q)∀p∈S∖Sx. ∀q∈Sx. cos(x,p)≤cos(x,q)

このとき、k近傍一致度Jaccardk(Sx,Sy)Jaccardk(Sx,Sy)は次のように定義されます。

Jaccardk(Sx,Sy)=∑w∈Sx∪Symin(cos(x,w),cos(y,w))∑w∈Sx∪Symax(cos(x,w),cos(y,w))Jaccardk(Sx,Sy)=∑w∈Sx∪Symin(cos(x,w),cos(y,w))∑w∈Sx∪Symax(cos(x,w),cos(y,w))

つまり、単語xxとyyのk近傍が、どれくらい一致しているかを重み付きのJaccard係数を用いて計算しています。

相互ランク

相互ランクは、単語xxと単語yyがどれくらい相互に近くなっているかを測定するための指標として導入しました。

単語xxについて、すべての単語とコサイン類似度を計算し、値の高い順にソートしたリストにおいて単語yyが出現する順位をdx→ydx→yとします。 また単語yyについて、すべての単語とコサイン類似度を計算し、値の高い順にソートしたリストにおいて単語xxが出現する順位をdy→xdy→xとします。

このとき、相互ランクrank(x,y)rank(x,y)は次のように定義されます。

rank(x,y)=dx→y+dy→x2rank(x,y)=dx→y+dy→x2

つまり、この値は単語xxの類似単語を検索したときの単語yyの順位と、単語yyの類似単語を検索したときの単語xxの順位の平均を示しており、この値が小さければ小さいほど良いモデルであると判断できます。

実験設定

学習に用いたデータセットとしては、Webからクロールした記事集合のなかで、1記事にキーワードを10個以上含まない記事集合から100,000件を使用しました。 このデータセットに含まれる単語数は331,138単語(のべ49,187,387語)、キーワード数は47,751です。

Skip-gramの学習に関する主要なハイパーパラメータとしては、窓幅を5単語、学習する単語ベクトルの次元を100次元としました。 また、ある単語の出現回数が全データセット中で5回より少ない場合には、その単語を学習から除外しました。 したがって、最終的には、114,045単語(のべ37,128,122語)の単語を用いて学習を行いました。

同様にして、頻度が5回以下のキーワードについても除外しました。 除外した結果、キーワードを含まなくなった記事については、特殊なキーワード(None)を与えました。 したがって、最終的には、キーワード数は11,824となりました。

また、k近傍一致度で用いたkkの値は20としました。 スコアには、シノニムペア5600組に対してそれぞれの評価手法を適用したときの値の平均を採用しました。 ただし考察で述べる理由から、相互ランクにおいてのみ、中央値の算出も行いました。

実験結果

表2 モデルの評価結果

モデル

コサイン類似度

K近傍一致度

相互ランク(平均値)

相互ランク(中央値)

従来のSkip-gram

0.4041

0.0660

9523.5263

892.0

キーワードのみモデル

0.5063

0.1918

5745.6675

22.5

1号

0.5293

0.1923

4926.6754

19.0

2号

0.3706

0.0532

14301.6743

2599.0

3号 Rev.A

0.3348

0.0544

12626.5088

1696.0

3号 Rev.B

0.3599

0.0616

11804.2098

1296.5

3号 Rev.C

0.3585

0.0619

12003.0603

1292.0

実験結果から、従来のSkip-gramと比較すると、提案したモデル1号の性能は大幅に向上していることがわかります。 では実際に、どのような出力がでるようになったかを実際に試してみましょう。

表3 モデル1号を用いたときの、シノニムの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5単語

ごちうさ

(ご注文はうさぎですか?)

リゼロ

(Re:ゼロから始める異世界生活)

このすば

(この素晴らしい世界に祝福を!)

けもフレ

(けものフレンズ)

よう実

(ようこそ実力至上主義の教室へ)

#1

ご注文はうさぎですか? 0.87631

Re:ゼロから始める異世界生活 0.78200

めぐみん 0.84121

たつき監督 0.73934

ようこそ実力至上主義の教室へ 0.70415

#2

ご注文はうさぎですか?? 0.85684

長月達平 0.67824

ダクネス 0.79038

けものフレンズ 0.73272

zitsu 0.57993

#3

チノ 0.82150

エミリア 0.67667

この素晴らしい世界に祝福を! 0.77038

サーバルちゃん 0.72079

軽井沢 0.56846

#4

シャロ 0.75929

レム 0.67260

駄女神 0.75584

アライさん 0.69193

清隆 0.55031

#5

千夜 0.74842

MJ文庫J 0.64899

カズマ 0.74682

ドッタンバッタン 0.66814

綾小路 0.54770

表1と比較すると、既存手法に比べて、取りたかったものがだいぶ取れていることが分かります。ほかの例も試してみましょう。


▲図10 従来手法(Skip-gram)と提案手法(モデル1号)の比較

図10の例では、様々な単語を既存手法と提案手法(モデル1号)に与えたときの類似5単語を示しています。 この例から、例えば「すかすか」→「週末なにしてますか?忙しいですか?救ってもらっていいですか?」といった既存手法では獲得するのが難しいと思われていたシノニムも正しく獲得できていることがわかります。 また「ほたるん」(のんのんびよりのキャラクターの愛称)を与えた場合に、既存手法ではキャラクターの語尾や一般名詞などが混在し、正しく距離を計算できていない結果となってしまっていますが、提案手法では 同作品のキャラクターの愛称が近くなるようなベクトルが得られていることにも注目です。 さらに「お仕事シリーズ」や「マスター」といった単語を与えた場合にも、ユーザーが想定しているであろう作品関連の単語が近くなるように学習されており、従来手法と比較すると、提案手法ではアニメタイトルやキャラクター同士が近くなるのはもちろん、作品なども考慮して距離が計算されるように制約がかかっているように見えます。

考察

相互ランクの値が大きいシノニムペアの特徴

はじめに、モデル1号について、実際にモデルに単語を与えたときの印象と比べて、評価データでの相互ランクの平均値が大きい(順位が低い)ことに注目しました。 そこで、モデル1号の相互ランクのヒストグラムを求めた結果、次の図のようになりました。


▲図11 モデル1号の相互ランクに関するヒストグラム

図11から、一部の相互ランクの値が大きいシノニムペアに影響されて、平均値も大きくなっていることが推測できます。 これが、実験において相互ランクの中央値を求めた理由です。

では、モデル1号ではどのようなシノニムペアが相互ランクの値が大きくなっているのか(すなわち、正しく取れなかったのか)を考察してみます。 評価データとして用いたシノニムペア 5600組のうち、モデル1号で相互ランクの値が大きかった(順位が低かった)シノニムペアを観察した結果、大きく分けて次の5種類に分類されると考えました。

· 表記ゆれによる単語の重複

· 評価データセットに古いデータが含まれている

· 評価データセットに一般名詞が含まれている

· 評価データセットにセリフ・その他が含まれている

· 同じ単語で複数の意味を持つ単語が存在

1番目の項目は、例えば「ニコ生」と「にこなま」のような単語です。 Web記事において出現する単語の数は、前者のほうが圧倒的に多く、後者が出現することはまれです。 つまり、前者は正しく学習することができますが、後者は正しく学習することが難しくなります。 このため、評価データに含まれる「にこなま」などの表記ゆれがある単語とのシノニムペアは、距離が離れてしまうと考えました。

2番目の項目は、例えば(「ワールドイズマイン」,「ワイズマ」)のようなシノニムペアが評価データに含まれているケースです。 今回の学習に用いたデータセットは、2014年3月~2017年9月の期間に公開された記事で構成されており、その期間より古いものや新しいもので出現するような単語については、正しく学習することが難しいという理由が考えられます。

3番目の項目は、例えば(「コメント」,「comment」)のようなシノニムペアが評価データに含まれているケースです。 今回の学習には、主にサブカル関係のWeb記事をデータセットとして用いており、マルチタスク学習にもアニメ作品関連のキーワードを利用しています。 そのため、一般名詞に関する順位は低いままでもおかしくないと考えました。

4番目の項目は、例えば(「イチロー」,「打ってみた」)のようなシノニムペアが評価データに含まれているケースです。 これらは主にニコニコ動画などのサービスで、動画のタグ機能として用いられているのをよく見かけますが、2番目の理由と同様にして今回の学習で獲得するのは難しいと考えました。

5番目の項目は、例えば「私モテ」や「とある」のような単語です。 例えば、前者の「私モテ」は「私がモテないのはどう考えてもお前らが悪い!」(2013年7月アニメ化)と「私がモテてどうすんだ」(2016年10月アニメ化)の2作品の愛称として知られています。 実際にGoogleで検索した場合にも、両方の作品が表示されていることがわかります。 後者の「とある」は、アニメ分野においては「とある魔術の禁書目録」「とある科学の超電磁砲」の2作品を指し、さらに一般的には連体詞として用いられています。

このような場合には、複数のコンテキストで同一の単語が出現することになり、正しく学習することが困難になります。 実は、このような曖昧性解消問題はアニメ関連においても深刻な問題となりつつあり、上記の作品名以外にも、例えば「凛」という名前が指すキャラクターが多い(有名なところでは「星空凛」「松岡凛」「遠坂凛」「渋谷凛」など)という問題があります。 このアニメドメインにおける曖昧性解消問題を凛状態と呼ぶことにしましょう。

凛状態の解決に向けて

では凛状態を解決するにはどうすれば良いでしょうか。

「どの凛を指しているかはキーワードと周辺文脈から区別できる」という仮定を置くと、次のナイーブなアルゴリズムを考えることができます。

1. キーワードごとに異なる「凛」となるように区別

2. 提案モデルを学習

3. 1エポックごとに「凛」間の距離を測り、一定閾値以下であればマージ

4. 2.へ戻る


▲図12 凛状態解決に向けたアルゴリズム

3週間のうちに実際に実験することはできませんでしたが、上記のアルゴリズムを組み込むことで、適切にコンテキストの異なる同一単語を分離することができるのではないかと考えています。

モデル2号・3号の単語ベクトルのスコアが低い理由

従来のモデルとモデル2号・3号は、出力として周辺単語を予測するように学習を行っており、スコアの高いキーワードのみモデルとモデル1号は、出力としてキーワード情報を予測するように学習を行っています。 このことからも、評価実験でのスコアに大きく貢献したのは、キーワード情報からのロスであると考えることができます。

ところで、モデル2号と3号もキーワード情報をモデルの入力として用いています。 この入力は、本当に無意味だったのでしょうか?

評価実験では単語ベクトルWeWeのみを評価していたためスコアとしては現れていませんが、実はキーワードベクトルWeWeにも面白い特徴が得られていました。 モデル3号 Rev.Bの学習を通して得られたWdWdに表1,3と類似したキーワードを与えると次の結果が得られました。

表4 モデル3号 Rev.Bを用いたときの、キーワードの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5キーワード

ご注文はうさぎですか?

Re:ゼロから始める異世界生活

この素晴らしい世界に祝福を!

けものフレンズ

ようこそ実力至上主義の教室へ

#1

ココア 0.68947

レム 0.78615

めぐみん 0.83319

サーバル 0.82906

よう実 0.69769

#2

シャロ 0.67518

エミリア 0.69870

ダクネス 0.73124

サーバルちゃん 0.77726

セントールの悩み 0.55141

#3

ティッピー 0.56429

長月達平 0.66962

駄女神 0.61180

ジャパリパーク 0.72899

恋と嘘 0.54268

#4

きんいろモザイク 0.51485

スバル 0.3048

ダークホース 0.60308

けもフレ 0.72134

紗霧 0.53223

#5

のんのんびより 0.51027

鬱展開 0.56276

角川スニーカー文庫 0.56557

かばんちゃん 0.71177

夏アニメ 0.48676

これもこれで面白い結果が出ていますね。 例えば「ご注文はうさぎですか?」に類似したキーワードとして「きんいろモザイク」や「のんのんびより」が出現している点や、「Re:ゼロから始める異世界生活」に「鬱展開」というキーワードが出現している点、さらには「ようこそ実力至上主義の教室へ」に類似したキーワードとして同時期に放送されたアニメなどが多数含まれている点など、何らかの知識が埋め込まれていると考えて良さそうです。

この結果から、モデル2号や3号においてモデルの学習に役立つアニメドメインに関する知識はキーワード情報からの入力を直接受け取るWdWdが獲得しやすいため、WeWeではドメインに特化しない一般的な単語ベクトルの獲得が行われた、すなわちWeWeにアニメドメインに関する知識の埋め込みが行われなかったのではないかと考えることができます。

これを踏まえると「なぜ1号のようにマルチタスク学習を行わなかったのか?」と疑問に思われる方も多いと思います。 実は今回の記事を執筆するにあたって間に合わなかったという理由もあるため、この実験は今後のタスクの1つでもありますが、実験を通して以下の2つの問題も出てくるのではないかと考えています。

· 入力と出力に同じデータが来るため、正しく学習されない可能性もある

· (他のモデルと比較して)学習時間が大幅に増加する

o 入力と出力のキーワード情報の組み合わせが二乗個になるため

モデルファイルとデモサイト

今回の取り組みで得られた単語ベクトルがどのようなものかを、実際に試せるデモサイトを次のURLで公開しました。

· デモサイト http://animew2v.vbcpp.net/

このウェブサイトでは、上部に単語を入力しEnterキーを押すことで、各モデルにおける類似度が高い単語(入力された単語のベクトルとコサイン類似度が高いベクトルを持つ単語)を検索することができます。 利用できるモデルは次の通りです。

· Original Raw (250k, 100dim) : 従来のSkip-gram(250,000件のWeb記事を元に学習)

· Original (100k, 100dim) : 従来のSkip-gram (100,000件の前処理済みWeb記事を元に学習)

· Keyword Only (100k, 100dim) : キーワードのみモデル (100,000件の前処理済みWeb記事を元に学習)

· Model 1 (100k, 100dim/Best) : モデル1号(100,000件の前処理済みWeb記事を元に学習。提案モデルのなかで最も精度が高い。)

· Model 1 Large (1M, 300dim/Best) : モデル1号(1,000,000件の前処理済みWeb記事を元に学習。提案モデルのなかで最も精度が高い。)

· Model 2 (100k, 100dim) : モデル2号 (100,000件の前処理済みWeb記事を元に学習)

· Model 3 Rev.A (100k, 100dim) : モデル3号 Rev.A (モデル2号と同様)

· Model 3 Rev.B (100k, 100dim) : モデル3号 Rev.B (モデル2号と同様)

· Model 3 Rev.C (100k, 100dim) : モデル3号 Rev.C (モデル2号と同様)

また、学習済みの単語ベクトルも配布しますので、手元に環境がある方はこちらでも試してみてください。

· 単語ベクトル配布サイト https://1drv.ms/f/s!AuXCFAQlUx5TiP9t2YLwJMSERy58BA

なお、配布形式には次の3種類あります。

· tsv : 単語にスペースを含めることを許容するために、独自のフォーマットとなっています。単語と値の間がタブ区切りになっています。値はスペース区切りとなっています。

· Google-txt : Googleが公開したword2vec実装の出力形式(テキスト形式)に準拠しています。 そのため、既存のword2vec実装で読み込むことができます。(単語と値の間がスペース区切りとなっています。そのため単語にスペースが含まれる場合(1つのエントリが複数語からなる場合)には、アンダーバー_ で置換されています。)

· Google-bin : Googleが公開したword2vec実装の出力形式(バイナリ形式)に準拠しています。 Google-txtと同様の処理が行われています。

まとめ

今回の3週間のインターンでは、アニメやサブカルに関連したシノニムの自動獲得タスクに取り組みました。 1週間目では、同義語獲得に関する先行研究の調査を行い、主な既存手法の要点を整理しました。 2週間目では、予備実験として、Skip-gramモデルを用いて現状のデータセットから単語ベクトルを学習し、得られた単語ベクトルから現状のタスクに適用する場合の問題点(ごちうさ-リゼロ状態)を調査しました。 また、予備実験で明らかになった問題点から、改善するための仕組みを取り入れたモデルを提案・実装し、評価実験を行いました。 評価実験の結果、提案モデルはアニメ作品に関する知識も同時に埋め込んだ単語ベクトルを獲得できることが明らかになり、従来のモデルよりも高い精度で今回のタスクを解くことが可能となりました。 3週間目では、これらの実験モデルに関する考察とデモの作成を行いました。 考察を通して、特に複数のコンテキストを持つ同一単語の単語ベクトルを学習することが困難である(凛状態)ことがわかり、アニメドメインにおける曖昧性解消の必要性について言及しました。

今回の提案手法によって得られた単語ベクトルの応用先の例として、ハッカドール内における検索システムで用いる同義語辞書などが挙げられます。 その理由として、例えばユーザーが「ごちうさ グッズ」のようなクエリで検索した場合に「(ごちうさ OR ご注文はうさぎですか? OR チノ OR ココア OR ...) AND (グッズ OR トートバッグ OR ...)」のように展開されたクエリで検索を行うほうが嬉しい場合もあるからです。

また、今回はキーワード情報としてアニメ関連の単語を使用しましたが、異なるドメインと関連した単語をキーワード情報として用いることで、別のドメインに関する知識を単語ベクトルに埋め込むことができると考えています。 例えば、料理やお店に関する情報をキーワードとして持っておき、これらの単語を文章のキーワード情報として与えることで、幅広い分野に本提案モデルを適用できるでしょう。

今後のタスクとしては、凛状態の解決とモデル2号・3号の性能改善などが挙げられます。

最後に、インターン開始前から業務内容をはじめ様々な点でお世話になりました、メンターの鴨志田さん、人事の戸上さん、山本さんに感謝いたします。 土田さん、濱田さんには特に研究を進めるうえで有益なアドバイスをいただきました。ありがとうございます。 本タスクに関して一緒にディスカッションしてくださった鈴木政隆さん、内田さんにも感謝いたします。

そして、今回のインターンを無事に終えるにあたって、さまざまな場所で支えてくださった、AIシステム部とハッカドールチームの皆様に、心から感謝いたします。

参考文献

[a] 高橋いづみ, et al. "単語正規化による固有表現の同義性判定." 言語処理学会第 14 回年次大会発表論文集 (2008): 821-824.http://www.anlp.jp/proceedings/annual_meeting/2008/pdf_dir/D4-5.pdf

[b] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013. http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality

[c] 城光英彰, 松田源立, and 山口和紀. "文脈限定 Skip-gram による同義語獲得." 自然言語処理 24.2 (2017): 187-204. https://www.jstage.jst.go.jp/article/jnlp/24/2/24_187/_article/-char/ja/

[d] Chakrabarti, Kaushik, et al. "A framework for robust discovery of entity synonyms." Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012. https://www.microsoft.com/en-us/research/wp-content/uploads/2012/01/idg811-cheng.pdf

[e] Cheng, Tao, Hady W. Lauw, and Stelios Paparizos. "Fuzzy matching of web queries to structured data." Data Engineering (ICDE), 2010 IEEE 26th International Conference on. IEEE, 2010.

[f] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html

続きを読む

2017/12/20 09:26

chainercvを用いたMask R-CNNの実装

@hirotomusiker

Keywords: AI

はじめに

皆さんこんにちは。DeNAのAI研究開発エンジニアの本多です。DeNAからは初日のRealtime Multi-Person Pose Estimationにつづき2回目のChainer Advent Calendar への投稿となります。私は2017年よりDeNA AIシステム部にジョインし、以来コンピュータビジョンの研究開発に従事しております。 12/16に行われた第43会CV勉強会@関東にてICCV 2017現地レポートをさせていただいたこともあり、同学会でBest Paper Awardを獲得した'Mask R-CNN' [1]を、chainercvをベースに実装してみることにしました。

図1 実装したMask R-CNNによる推論結果

背景

Mask R-CNNは、一つのネットワーク・モデルで、以下のような複数の情報を取得することのできるマルチタスク検出器です。

· 画像中の物体位置と大きさ (bounding box)

· 物体のカテゴリ (人なのか、ソファなのか)

· 物体のセグメンテーション (画素レベルでの物体位置)

· 人の体パーツ位置 (頭・肩・足など)

一枚の画像の各ピクセルをクラス分類するsemantic segmentationと異なり、本手法でのセグメンテーションは、オブジェクト毎の個別segmentationであることから、instance segmentationと呼ばれます。 例えば図1ですと、左の人と右の人は別のオブジェクトとしてsegmentationされています。ポーズ推定でも同様で、複数の人が別のオブジェクトとして認識されつつ、それぞれの体パーツの推定がおこなわれます。

このように、Mask-RCNNでは、画像内の物体領域を求め、それぞれの物体について個別に、詳細な情報を推論していくことができます。 今回は、chainercvのexampleに含まれており、Mask R-CNNの前身であるFaster R-CNNをベースに、簡単な変更だけでMask R-CNNの機能を実装していきます。

ネットワークの構成

Mask R-CNNのネットワークは、Extractorと呼ばれる特徴抽出器と、物体の候補領域をピックアップするRegion Proposal Network、そして各タスクに対応するheadと呼ばれる子ネットワークから構成されます。

①class and box head

②mask head

①はFaster R-CNNに含まれており、ピックアップした候補領域を1次元ベクトルに変換したのち、全結合ネットワークによりクラス分類、及び物体の境界であるbounding boxの位置を出力します。今回追加するのは②、すなわちセグメンテーションマスクを推定するためのheadネットワークのみです。

図2 Mask R-CNNのネットワーク構成 [1] (K. He et al., 2017)

データセットの読み込み

学習にはCOCO dataset 2017のtrainを用います。 COCO datasetは、80のオブジェクト分類及び位置、セグメンテーションマスク、人に関しては体パーツ位置など、多くのアノテーションが付与されたデータセットで、13万枚程度の学習用画像が含まれます。データセットをサンプルする関数であるget_exampleが返すのは、画像と、bounding boxラベル、そして上記 セグメンテーションマスク の4つとなります。

ここでは、セグメンテーションマスクの読み込みについて説明します。 マスク情報は、ポリゴン座標のリストという形でアノテーションデータに含まれています。ある画像に対するセグメンテーション情報をseg_polygonsに読み込んだのち、

mask_in = np.zeros((int(h), int(w)), dtype=np.uint8)

for annot_seg_polygon in annot_seg_polygons:

N = len(annot_seg_polygon)

rr, cc = polygon(np.array(annot_seg_polygon[1:N:2]),

np.array(annot_seg_polygon[0:N:2]))

mask_in[np.clip(rr,0,h-1), np.clip(cc,0,w-1)] = 1

のようにして、ポリゴンをセグメンテーションマスクに変換しながらmask_inに格納していきます。ここで、マスクはバイナリで、'1'が物体のある場所を表します。ここでh,wは画像のサイズと同じです。

モデルの実装

実装は、chainercvのexamplesに含まれているfaster_rcnnをベースに行っていきます。

1.ExtractorとRegion Proposal Network

まず入力画像からfeature map (特徴マップ)を抽出します。

features = self.mask_rcnn.extractor(imgs)

ここでextractor(抽出器)は、mask_rcnnクラス内で

extractor = VGG16(initialW=vgg_initialW)

のように定義されています。今回はchainercvのFaster-RCNNに倣い、VGG16の5回目のmax poolingの直前までをextractorとして使用します。他にResNet等を使用することもできます。抽出されたfeature mapのサイズは元画像の1/16になります。

次にRegion Proposal Networkを適用し、物体の存在する領域(Region of Interest, ROI)を抽出します。chainercvのregion_proposal_network.pyを変更なく用いています。

2.教師マスクデータ

次に抽出されたROIに対し、ground truth (教師データ)を設定します。 chainercvのproposal_target_creator.pyでは、抽出されたROIそれぞれとオーバーラップの大きいground truthオブジェクトを見つけ、gt_assignmentというインデックスで関連づけています。これを利用して、マスクデータの読み込みを追加します。

gt_roi_mask=[]

for i , idx in enumerate(gt_assignment[pos_index]):

A=mask[idx, np.max((int(sample_roi[i,0]),0)):np.min((int(sample_roi[i,2]),h)),

np.max((int(sample_roi[i,1]),0)):np.min((int(sample_roi[i,3]),w))]

gt_roi_mask.append(cv2.resize(A, (masksize,masksize)))

ground truthマスクは、図3のように、positiveとなったROIに相当する領域sample_roiで切り出されます。ここでROIの大きさはそれぞれ異なるのですが、正解データは全て(masksize,masksize)に固定します。masksizeは例えば14です。

図3 ground truthマスクの切り出し

ROIの切り出し方法については、本論文では新しく導入されたROI alignという手法により精度良く切り出しを行っています。本稿では簡単のため、Faster R-CNNで用いられており、chainerにも実装されているROI poolingを用います。ROI alignとROI poolingの違いについては、[2]をご参照ください。

3.Headネットワーク

ROI poolingで切り出されたfeature mapのサイズは、128(候補数) x 512 (channel数) x 7 x 7 (ROI大きさ)となっています。これを、各head networkに入力していきます。

ネットワーク定義は

· class and box head (Faster R-CNNと同じ)

#Faster-RCNN branch

self.fc6 = L.Linear(512*roi_size*roi_size, 4096, initialW=vgg_initialW)

self.fc7 = L.Linear(4096, 4096, initialW=vgg_initialW)

self.cls_loc = L.Linear(4096, n_class * 4, initialW=vgg_initialW)

self.score = L.Linear(4096, n_class, initialW=score_initialW)

· mask head (今回追加。サイズは7 x 7 から 14 x 14 に拡大される)

#Mask-RCNN branch

self.convm1_1 = L.Convolution2D(512,512,3,1,pad=1, initialW=None)

self.convm1_2 = L.Convolution2D(512,512,3,1,pad=1, initialW=None)

self.deconvm1 = L.Deconvolution2D(512, 256, 2, 2, initialW=None)

self.convm2_1 = L.Convolution2D(256, 256, 3, 1, pad=1,initialW=None)

self.convm2_2 = L.Convolution2D(256, n_class, 3, 1, pad=1,initialW=None)

ネットワークのforward実行は

· class and box head

fc6 = F.relu(self.fc6(pool))

fc7 = F.relu(self.fc7(fc6))

roi_cls_locs = self.cls_loc(fc7)

roi_scores = self.score(fc7)

· mask head

· h = F.relu(self.convm1_1(pool))

· h = F.relu(self.convm1_2(h))

· h = F.relu(self.deconvm1(h))

· h = F.relu(self.convm2_1(h))

masks=self.convm2_2(h)

のように行います。

4.損失関数

mask headのLoss(損失)計算のため、mask headの出力であるroi_cls_mask : 128(候補数) x 81(クラス) x 14 x 14 (マスク大きさ)から、対象ROIに存在する正解ラベルに該当するroi_mask :128(候補数) x 14 x 14(マスク大きさ) を抽出します。

roi_mask = roi_cls_mask[self.xp.arange(n_sample), gt_roi_label]

そして、同じく候補領域のground truth maskであるgt_roi_maskと比較し、損失を求めます。

mask_loss = F.sigmoid_cross_entropy(roi_mask[0:gt_roi_mask.shape[0]], gt_roi_mask)

ここでground truthは0 or 1 のバイナリで、ネットワーク出力は正負の値を持つfloat値です。損失関数としては、sigmoid cross entropyを用います。 これでmask lossが定義できました。Faster R-CNNのlossに、mask_lossを加えてできあがりです。論文で記載されているloss式に倣い、各lossの重み付けは行っていません。

loss = rpn_loc_loss + rpn_cls_loss + roi_loc_loss + roi_cls_loss + mask_loss

学習

さて、いよいよ学習です。COCO datasetは大きいので、epochでなくiterationで管理します。図4のように、およそ40万iteration (それでも3 epoch!)程度でlossの値が安定します。train lossの内訳を見ると、各lossの絶対値は異なりますが、mask loss (roi_mask_loss)も比較的初期段階から下降していきます。 セグメンテーションマスクの学習は、前述のように、候補領域に存在するオブジェクトの正解ラベルと正解マスクを用いて行われます。したがって、正確にラベル予想ができるようになる前(roi_cls_lossが下がる前)でもセグメンテーションの学習が進んでいると考えられます。

図4 train lossの推移

推論

推論の実装では、学習に用いたネットワークの出力に若干の「後処理」を加えています。 Non Maximum Supression (NMS)、およびセグメンテーションマスクの表示です。 NMS処理は、推定したBounding Boxのうち、信頼度の高いものだけを残して、それらにオーバーラップするものを排除する処理で、chainercvのNMS実装をそのまま用いています。

セグメンテーションマスクは、我々の実装では、簡単に

for my in range(mask_size):

for mx in range(mask_size):

mxy = (bb[1]+width/14*mx, bb[0]+height/14*my)

Mcolor=np.clip((M[my,mx])*1,0,0.5)

ax.add_patch(plot.Rectangle(mxy, int(width/14)+1,int(height/14)+1,

fill=True, linewidth=0,facecolor=COLOR[i%len(COLOR)], alpha=Mcolor))

のように、Bounding Box('bb')内を(mask_size(=14), mask_size)に分割して、maskネットワークの出力'M'に応じて四角形をアルファブレンドしていきます。簡易な表示方法ですが、人物のセグメンテーションが個別に行えていることがわかります。色はパレットを作り、オブジェクト毎にランダムに選定しています。

図5 セグメンテーションマスク推論結果の可視化

まとめ

今回はICCV'17 Best PaperであるMask R-CNNの機能を、chainercvに追加するかたちで再現してみました。 実装はこちらにて公開しています。ぜひお試しください!

参考文献

[1]K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask R-CNN. In ICCV, 2017.

[2]yu4u, 最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する. https://qiita.com/yu4u/items/5cbe9db166a5d72f9eb8

続きを読む

2017/12/04 10:25

Amazon EC2 P3インスタンスにおけるPose Estimation速度向上検証

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。AIシステム部・AI研究開発グループの李天琦(leetenki)です。

先日Amazon EC2 P3インスタンスがリリースされるに伴い、11月9日にアマゾン東京本社にて、「Amazon EC2 GPU インスタンス 祭り」というイベントが開かれました。それに先駆けて、弊社AIシステム部では特別に先行でP3インスタンスを使用させて頂き、速度性能の評価を行いました。また、イベントでのお客様企業による登壇セッションでもその内容について発表させて頂きました。本記事でその評価結果について紹介しようと思います。

Amazon EC2 P3インスタンスとは

Amazon EC2 P3は、NVIDIA Tesla V100世代のGPUを搭載した最新のインスタンスです。GPUベースの並列コンピューティング機能を兼ね備え、CUDAやOpenCLを使用するGPGPUコンピューティング用途向けに設計ています。特に高い浮動小数点演算処理能を必要とする機械学習、Deep Learning用途に最適化されています。

2017年11月時点において、Amazon EC2で提供されているオンデマンドタイプのGPUインスタンスのうち、P3シリーズのインスタンスは下記の3種類です。全てTesla V100モデルのVoltaアーキテクチャのGPUを搭載しています。GPUの数やGPUメモリサイズ、CPUの数やCPUメモリサイズ等の細かい違いがあります。

GPUs

GPU Memory

CPUs

Main Memory

p3.2xlarge

1

16

8

61

p3.8xlarge

4

64

32

244

p3.16xlarge

8

128

64

488

検証環境

今回速度性能評価を行う上で、比較をシンプルにするために、以下の1GPUのみのp3.2xlargeタイプのインスタンス、及びこれに対応する1世代前のp2.xlargインスタンスを使用しました。

GPUs

GPU Memory

CPUs

Main Memory

p2.xlarge

1

12

4

61

p3.2xlarge

1

16

8

61

また、OS及び各種ライブラリ環境はどちらも以下のように統一させました。

OS

Ubuntu16.04

CUDA

9.0

cuDNN

7.0

chainer

3.0.0

cupy

2.0.0

検証用モデル

自分はAIシステム部内ではComputer Visionチームに所属しているという事もあり、今回は普段から業務で使っているCNN(Convlutional Neural Network)について速度検証させていただきました。具体的には、以下に述べるVGG19及び、Pose Estimationのネットワークを使用しました。

VGG19速度比較

Computer Visionのタスクを解く上で、よく使われるCNNモデルにVGG19というのがあります。これは元々、画像認識の世界的なコンペティションであるILSVRC2014において、Classification Taskの分野で世界一の精度を記録したモデルです。最近ではClassification Taskだけでなく、様々な高度なCNNモデルのベースの特徴抽出器としても使われています。そのモデル構造は非常にシンプルで、下図のように3×3のConvolution層及びPooling層のみから成り立っています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

今回VGG19の計測を行うために、元々p2インスタンス上で動かしていたコードをそのままp3インスタンスに持ってきて速度比較を行いました。本来ならば、Tensorcoreを発動させるのにp3用にソースコードをFP32からFP16に書き換えるのが望ましいですが、今回はChainerの開発ブランチが上手く動作せず、そちらについては断念しました。

以下が、p2及びp3上におけるVGG19モデルの動作速度の比較になります。このグラフでは、VGG19を1回推論処理するのに必要な平均時間を示しています。

VGG19を1回推論処理するのに、p2インスタンスでは5.7[msec]かかっていたのが、p3インスタンスでは0.62[msec]と約9〜10倍高速化される結果となりました。 なぜTensorcoreを発動せずともこのように高速化できたのかについて、詳しく調べるためにNVIDIA Profilerを使ってプロファイリングしてみました。

まずp2インスタンスについて、下図のように、処理中はGPU使用時間の約70%をimplicit_convole_sgemmというcuda関数が占めています。これは簡単に言えば、cudaを使ったconvolution層の畳み込み演算を行う関数です。

一方で、p3インスタンスの処理結果を見てみると、同じようにconvolution処理を行なうのに、implicit_convole_sgemmではなく、winograd3 × 3Kernelというcuda関数が呼び出されています。

このwinogradが何かと言うと、convolutionのカーネルサイズが小さい時(3 × 3等)に、畳み込み演算を高速化するアルゴリズムです。VGG19のモデルでは全てのconvolution層のカーネルサイズが3 × 3となっているので、このwinogradアルゴリズムにより大幅に高速されたという訳です。しかし、このwinogradアルゴリズムは実はKepler世代より前のGPUには対応していないため、今回はp3インスタンス上でのみ発動し、このwinogradアルゴリズムの差、及び元々のGPUパワーの差が効いて、9倍高速されたと推測できます。

Pose Estimation速度比較

次にPose Estimationについて速度比較を行います。このPose Estimationという技術を簡単に説明すると、RGBの2次元動画像から、映っている人の細かいPoseを推測する技術です。下図のように、実際に我々が開発を進めているスマートショップというプロジェクトでもこの技術を活用しています。

アルゴリズムの詳細については元論文を参照して頂ければと思いますが、このアルゴリズムのモデル構造は非常にシンプルです。下図にあるように、ネットワーク構造は1 × 1、3 × 3、7 × 7のConvolution 及びPooling Layerのみで構成されています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

入力画像を、まずはVGG19とほぼ同じ構造のCNNに通して、解像度を8分の1に圧縮した特徴マップを抽出します。その後段で2つのブランチに分岐し、1つはConfidence Mapsと呼ばれる、体の各key pointをheatmap形式で予測するネットワークです。下図のように、key pointの種類ごとに1channelの出力で予測します。

Part Confidence Maps (Cao, et al., 2017)

もう一つのブランチが、PAFs (Part Affinity Fields) と呼ばれる、各key point間の繋がりうる可能性を表すベクトルマップを予測するネットワークです。

出典: Part Affinity Fields (Cao, et al., 2017)

これら2つのブランチでConfidence Maps及びPAFsをそれぞれ予測した後、さらに予測した結果に最初のVGG19で抽出した特徴マップをconcatして、これを再度同じ構造のネットワークに繰り返し入力していきます。この繰り返しのネットワークをstageと言い、stageが進むほど精度があがる仕組みです。

このPose Estimationのモデルに関してはstageごとに推論速度の比較を行いました。以下が比較結果になります。

こちらの比較結果を見ると、最初のVGG19の処理部分では、p3インスタンスのほうが約8〜9倍高速化できている事がわかります。また、その次のstage1でも、p3インスタンスのほうが約7倍高速化されています。しかし、stage2以降では差が縮まり、約2.3倍しか高速化されない結果となりました。

これについてもプロファイリングしてみたところ、winogradアルゴリズムが関係している事がわかりました。先ほど説明した通り、winogradというのはconvolutionのカーネルサイズが小さい時(3 × 3等)に、畳み込み演算を高速化するアルゴリズムです。今回使用したPose Estimationのモデルでは、最初のVGG19及びstage1の部分では全てカーネルサイズが3 × 3のconvolution層で構築されているため、p3インスタンスのほうでwinogradが発動して7〜9倍高速化された訳です。しかし、stage2以降ではほとんどのconvolution層がカーネルサイズ7 × 7に置き換わるため、p3でwinogradを発動させる事ができず、GPUパワーの違いのみで、そこまで大きく速度差が開かなかったと考えられます。

Batch処理の速度比較

以上のpose estimationの推論速度の比較を行ったところ、winogradが発動しない場合はGPUパワーのみの違いで約2〜3倍しか差が開かない事がわかりました。しかし、GPU使用率を見てみると、p2インスタンスではGPU使用率100%といっぱいいっぱいなのに対し、p3インスタンスではGPU使用率が34%とまだかなり余裕があるように思えます。

そこで、Batch処理を行って、どちらもGPU使用率を100%まで使い切った状態で速度比較を行いました。下図が、batchサイズを増やした際のp2インスタンス及びp3インスタンスの推論処理時間になります。

batch size 1の時ではp3インスタンスのほうが処理速度3.7倍(stage 2までのトータル処理速度)だったのに対し、batch sizeを大きくしていけば行くほど処理速度の差が開いていく結果になりました。グラフにあるように、p2インスタンスではbatch sizeを32倍にすると処理速度もそれに比例して約30倍ほど遅くなるのに対し、p3インスタンスではbatch sizeを32倍にしても処理速度は約8〜9倍しか遅くならないという結果となりました。倍率で言うと、batch size 32で処理した場合はwinogradの発動しないstage2以降でも、p3インスタンスのほうが8倍以上高速化可能という事になります。

ちょうど、今までp2インスタンス上でリアルタイムのPose Estimationを行うのに約3〜4FPSとフレームレート的にカクカクだったので、これをp3インスタンスに置き換えれば30FPSと完全にリアルタイムで処理できるという事になります。

訓練速度比較

ここまで推論の話を書いてきたので、訓練についても速度比較を行ってみます。ここでは、Pose Estimationのモデルをフルスクラッチで訓練させ、1回の順伝搬及び逆伝搬にかかったイテレーション時間を計測します。なお、batch sizeはGPUメモリの都合上どちらも16とします。

以下が訓練における速度比較結果になります。p2インスタンスでは1回のイテレーションを行うのに9.8秒かかったのが、p3インスタンスでは1.3秒と約7.5倍高速化された結果となりました。ちょうど今までp2インスタンスでの訓練に1週間ほどかかっていたのが、1日で完了するので実用的にはかなり嬉しいですね。

速度

p2インスタンス

9.8[sec/iter]

p3インスタンス

1.3[sec/iter]

コストパフォーマンス比較

今回速度比較に用いたp2.xlarge及びp3.2xlargeインスタンスについて、東京リージョンの価格を比較してみます。

価格

p2.xlarge

$1.542/hour

p3.2xlarge

$5.243/hour

このように、コスト面ではp3.2xlargeのほうが約3.4倍高くなっています。しかしこれまで説明した通り、p2インスタンス上で動いていたコードに特に変更を加えなくとも、そのままp3インスタンスに持って行けば約7〜9倍高速化できるので、値段の割にコスパはかなり良いと思います。そして今回は残念ながら触れられませんでしたが、Volta世帯のGPUの目玉機能であるTensorcoreが発動するようコードを修正すれば、更に10倍速以上の高速化が期待できますので、機会があればそちらにもチャレンジしてみようと思います。

おまけ

おまけですが、今回p2及びp3インスタンスの速度比較に使用したPose Estimationのソースコードについて、こちらでオープンソース公開していますので、皆さんもし良かったら試してみてください。

参考文献

・Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017. arXiv:1611.08050 [cs.CV].

続きを読む

2017/11/21 11:36

Chainerを用いたRealtime Multi-Person Pose Estimation実装

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。DeNAのAI研究開発エンジニアの李天琦(leetenki)です。今日はChainer Advent Calendar 2017の初日エントリという事で、Realtime Multi-Person Pose Estimationの実装について解説させて頂きます。

pose estimationの実行結果

背景

Realtime Multi-Person Pose Estimationとは、CVPR2017でCMUが発表した、RGBの2次元画像のみから複数人のPose情報を検出するアルゴリズム (Cao, et al., 2017) です。特徴は、1枚の画像から複数人のPoseを検出するために、それまで主流であったBounding Boxを検出した後に各Boxに対してPose検出するというトップダウン方式を取らずに、ボトムアップかつワンショットに複数人のPoseを推定してしまう点です。画像に映ってる人数に関わらず1回の推論でPose推定を行うので、Realtimeに処理できるほど高速という訳です。また、1回の推論でPoseまで検出できるので、Bounding Boxから検出するトップダウン方式に比べると誤差の蓄積がなく、精度も著しく向上しています。事実こちらのアルゴリズムは2016 MSCOCO Keypoints Challengeで優勝し、この時点においてのstate-of-the-artを記録しています。

CMUのオリジナル実装はCaffeをベースにしたopenposeというライブラリで公開されています。TensorFlowやPyTorchによる再現実装も有志で行われているようですが、Chainer実装で公開されているものはなかったので、今回はこれをChainer化していこうと思います。コードはこちらを参照してください。

モデル解説

実装の話に入る前に、まずはモデルの構造を簡単に説明しておきます。

詳細は元論文を参照して頂ければと思いますが、このアルゴリズムのアーキテクチャ自体は非常にシンプルです。以下のモデル図にあるように、ネットワーク構造は1 × 1、3 × 3、7 × 7のConvolution 及びPooling Layerのみで構成されています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

入力画像を、まずはVGG19とほぼ同じ構造のCNNに通して、解像度を8分の1に圧縮した特徴マップを抽出します。その後段は2つのブランチに分岐しており、1つはConfidence Mapsと呼ばれる、体の各key pointをheatmap形式で予測するネットワークです。下図のように、key pointの種類ごとに1channelの出力で予測します。

Part Confidence Maps (Cao, et al., 2017)

もう一つのブランチが、PAFs (Part Affinity Fields) と呼ばれる、各key point間の繋がりうる可能性を表すベクトルマップを予測するネットワークです。繋がりが定義されているkey point間を結ぶ線分上(正確には一定の幅を持つ領域)の全てのピクセルにおいて、一定の長さを持つ方向ベクトルが定義されます。このベクトルはxとyの2枚チャンネルのheatmapによって表現されます。下図の例では、オレンジ色となっている部分が、肩から腕にかけての方向ベクトルのマップです。

出典: Part Affinity Fields (Cao, et al., 2017)

これら2つのブランチでConfidence Maps及びPAFsをそれぞれ予測した後、さらに予測した結果に最初のVGG19で抽出した特徴マップをconcatして、これを再度同じ構造のネットワークに繰り返し入力していきます。この繰り返しのネットワークをstageと言い、stageが進むほど精度があがる仕組みです。

モデルの実装

では実装の解説に入っていきましょう。MSCOCO Keypoints Challenge 2016で訓練済みの重みパラメータファイルがこちらで公開されていますので、今回まずこれをChainer用に変換して、推論の処理を実装して行きます。

先ほど説明したように、このアルゴリズムのネットワーク構造自体は非常にシンプルで、1 × 1、3 × 3、及び7 × 7のConvolution Layerのみで構成されています。ゆえに、chainer.links.caffe.CaffeFunctionを使えば簡単にcaffemodelを読み込む事ができます。ただし、CaffeFunctionを使ったcaffemodelの読み込みは非常に時間がかかるので、毎回使い回す事を考えて、一旦自前でChainerのLayer定義を書いて、これに重みパラメータを代入した状態でnpzファイルに書き出します。

ChainerのLayer定義ファイルはこちらです。以下のconv11からconv44_CPMの部分が最初のVGG19を使った特徴抽出器です。VGG19と同じ構造で、全て3 × 3のConvolution Layerとなっています。これによって画像サイズが8分の1に圧縮されたFeature mapが出力されます。

# cnn to make feature map

conv1_1=L.Convolution2D(in_channels=3, out_channels=64, ksize=3, stride=1, pad=1),

conv1_2=L.Convolution2D(in_channels=64, out_channels=64, ksize=3, stride=1, pad=1),

conv2_1=L.Convolution2D(in_channels=64, out_channels=128, ksize=3, stride=1, pad=1),

conv2_2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv3_1=L.Convolution2D(in_channels=128, out_channels=256, ksize=3, stride=1, pad=1),

conv3_2=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv3_3=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv3_4=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv4_1=L.Convolution2D(in_channels=256, out_channels=512, ksize=3, stride=1, pad=1),

conv4_2=L.Convolution2D(in_channels=512, out_channels=512, ksize=3, stride=1, pad=1),

conv4_3_CPM=L.Convolution2D(in_channels=512, out_channels=256, ksize=3, stride=1, pad=1),

conv4_4_CPM=L.Convolution2D(in_channels=256, out_channels=128, ksize=3, stride=1, pad=1),

その後に続く以下のような2分岐されたConvolution Layerが、各StageにおけるPAFs及びConfidence Mapsの計算部分になります。ここではL1とついてるのがPAFsで、L2がConfidence Mapsになります。そして、stage1ではカーネルサイズ3 × 3のConvolution Layerで構成されていますが、stage2以降ではreceptive fieldを広げるために7 × 7のConvolutionに置き換わっています。stage3以降のネットワークも全てstage2と同じ構造となっています。

# stage1

conv5_1_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_2_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_3_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_4_CPM_L1=L.Convolution2D(in_channels=128, out_channels=512, ksize=1, stride=1, pad=0),

conv5_5_CPM_L1=L.Convolution2D(in_channels=512, out_channels=38, ksize=1, stride=1, pad=0),

conv5_1_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_2_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_3_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_4_CPM_L2=L.Convolution2D(in_channels=128, out_channels=512, ksize=1, stride=1, pad=0),

conv5_5_CPM_L2=L.Convolution2D(in_channels=512, out_channels=19, ksize=1, stride=1, pad=0),

# stage2

Mconv1_stage2_L1=L.Convolution2D(in_channels=185, out_channels=128, ksize=7, stride=1, pad=3),

Mconv2_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv3_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv4_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv5_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv6_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=1, stride=1, pad=0),

Mconv7_stage2_L1=L.Convolution2D(in_channels=128, out_channels=38, ksize=1, stride=1, pad=0),

Mconv1_stage2_L2=L.Convolution2D(in_channels=185, out_channels=128, ksize=7, stride=1, pad=3),

Mconv2_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv3_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv4_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv5_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv6_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=1, stride=1, pad=0),

Mconv7_stage2_L2=L.Convolution2D(in_channels=128, out_channels=19, ksize=1, stride=1, pad=0),

次に、caffemodelをChainer用に変換します。変換用コードはこちらです。重みパラメータの代入部分は以下のようになります。

exec("chainer_model.%s.W.data = caffe_model['%s'].W.data" % (layer_name, layer_name))

exec("chainer_model.%s.b.data = caffe_model['%s'].b.data" % (layer_name, layer_name))

Convolution Layerの場合、W.dataとb.dataのみ代入すれば済みますので、これを全てのLayerに対して繰り返すだけです。

推論の実装

ネットワークの推論の実装はこちらです。実際にCNNの処理を行っている部分はこれだけです。

h1s, h2s = self.model(x_data)

RGB画像をCNNに通して、PAFsとConfidence Mapsの出力を得るだけですね。ただ、このアルゴリズムのミソはその後処理部分で、得られたPAFsとConfidence Mapsからスケルトン情報を再構築する部分が最も複雑です。では順を追って説明していきます。

① PAFsとConfidence Mapsのサイズ拡大

ネットワークから出力されるfeature mapは幅も高さも8分の1に圧縮されているので、まずはこれをresizeしてオリジナルの画像サイズに引き伸ばします。Chainer2.0からはchainer.functions.resize_imagesというFunctionが定義されたので、これを使うとVariableのまま計算できます。

② Confidence Mapsをガウシアン平滑化

8倍サイズに引き伸ばした直後のConfidence Mapsは、peak周りがデコボコしていて、山がハッキリしないので、これにガウシアンフィルタをかけてpeakを一定に平滑化します。scipy.ndimage.filters.gaussian_filterを使えば簡単に実装できるのでオススメです。以下がガウシアン平滑化の計算部分になります。

heatmap = gaussian_filter(heatmaps[i], sigma=params['gaussian_sigma'])

下図の左がガウシアンフィルタをかける前で、右がかけた後です。

ちなみに、これをVariableのままGPUを使って計算したい場合、chainer.functions.convolution_2dを使って、ガウシアンカーネルを手動で定義してあげれば実装できます。

③ Confidence Mapsからkey point座標を求める

ガウシアンフィルタをかけた後のConfidence Mapsは下図(右)のようになります。ここから、peakの(x, y)座標を求めます。実はこのConfidence Mapsからpeakの座標値を求める処理が意外に計算コストが高いのです。

実際にConfidence Mapsからpeak座標を求める処理は以下の部分になります。

map_left = xp.zeros(heatmap.shape)

map_right = xp.zeros(heatmap.shape)

map_top = xp.zeros(heatmap.shape)

map_bottom = xp.zeros(heatmap.shape)

map_left[1:, :] = heatmap[:-1, :]

map_right[:-1, :] = heatmap[1:, :]

map_top[:, 1:] = heatmap[:, :-1]

map_bottom[:, :-1] = heatmap[:, 1:]

peaks_binary = xp.logical_and.reduce((

heatmap >= map_left,

heatmap >= map_right,

heatmap >= map_top,

heatmap >= map_bottom,

heatmap > params['heatmap_peak_thresh']

))

ここでは効率良く計算するために、Confidence Mapsを上下左右に1ピクセルずつずらしたheatmapを4枚用意します、オリジナルのConfidence Mapsと上下左右のheatmapを比較して、その全てより値が大きいピクセルをkey pointとして座標抽出するようにしています。

④ key point間のPAFsを積分

key pointが全て求まった後、関係あるkey pointだけをグルーピングして人のスケルトンを構築する必要があります。論文では、2種類のkey point間の考え得る全てのconnectionの組合せを実際に繋げてみて、その間のPAFsの積分値で同じグループか否かを判別します。ちなみに、そもそもなぜこのPAFsの積分を行うのかと言うと、訓練時に、関係あるkey pointの間には一定の方向ベクトルが定義され、関係ないkey point間ではゼロベクトルが定義されるので、推論する時にはこれを手掛りにkey point間のベクトルの方向及び大きさの合計を見れば、2つのkey pointが関係あるか否か判別できるのです。

PAFsの積分は元論文に書いてある通り、2点間を結ぶ線分上の各ピクセルにおいて、その水平方向ベクトルと実際の推論で求まったベクトル値の内積をとって、全部足し合わせるという手法です。

single limb with groundtruth positions (Cao, et al., 2017)

これを実際に実装しているのが以下の部分になります。params[‘nintegpoints’]というのは、2点間を何分割するかというハイパーパラメータで、今回は10に設定しています。

vec_unit = vec / vec_len

integ_points = zip(

np.linspace(joint_a[0], joint_b[0], num=params['n_integ_points']),

np.linspace(joint_a[1], joint_b[1], num=params['n_integ_points'])

)

paf_in_edge = self.extract_paf_in_points(paf, integ_points)

inner_products = np.dot(paf_in_edge, vec_unit)

⑤ connectionの選択

以上の④までで、各点間の候補となるconnectionはPAFsによって重み付けられた積分値を得る事ができました。最後はこれを使って有効なconnectionを選択していきます。本来であれば2種類のkey point間で考え得る全パターンの組合せを作り、そのトータルのPAFs積分値が最大となる組合せを選択すべきですが、これを愚直に実装すると人数が増えるにつれて計算量がO(n^2)で増えていきます。なので、今回はgreedy法を採用し、PAFs積分値を大きい順にソートして上から順に選択していきます。そしてそれ以上選べるkey pointがなくなった時点で打ち切るようにしています。以上の処理はcompute_connectionsという関数で実装しています。

推論処理の実装は以上です。モデル訓練の話はData AugmentationやPAFs生成と長くなりそうなので、また次回のパートⅡで書こうと思います。

実行結果

ではてきとうな画像を使って推論を試してみましょう。

完璧にPose認識できていますね。

人が増えても、遠くにいても問題ないですね。 ※ちなみに推論処理のスケールについて、entity.pyというファイル内で以下のように定義しているハイパーパラメータがあります。

'inference_scales': [0.5, 1.0, 1.5]

これは画像を0.5倍、1.0倍、1.5倍のスケールでそれぞれ推論し、その結果を平均するという意味です。速度と精度のトレードオフだと思いますが、この値を調整すればいろんなスケールに対して高精度にPose検出する事ができます。

今回、chainerで実装したRealtime Multi-Person Pose Estimationのコードは全てこちらで公開していますので、皆さん興味があればぜひご自分の環境で動かしてみてください。

参考文献

・Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017. arXiv:1611.08050 [cs.CV].

続きを読む

2017/10/26 10:36

KDD2017に参加してきました

Akira Kasuga

Keywords: AI レポート

はじめに

こんにちは。AIシステム部研究開発グループの春日です。当グループではCV/NLP/RLといった技術領域を中心に研究開発を行い、実際のサービスへの活用を行っております。近年では会社として次の柱とすべくオートモーティブ事業へも注力しており、ここで活用される機械学習技術も当グループで開発を担っています。そこで、KDDというデータマイニング分野でのトップカンファレンスを聴講しにいき、オートモーティブ事業関連で活用されている技術についてキャッチアップしてきました。今回はその内容についてお伝えしていきたいと思います。

KDDとは

KDDの正式名称は「International Conference on Knowledge Discovery and Data Mining」です。今回は23回目の開催であり、1990年代にデータマイニングという研究分野が明確に確立されてから現在も盛んに研究発表がなされています。開催期間は8/13-17の5日間でした。初日はTutorial Day、2日目がWorkshop Dayという特定のテーマに沿った発表です。3-5日目がMain KDD Conferenceで、採択率約10%で採択された優秀な論文が発表されます。

開催場所

開催場所は、カナダ・ハリファックス (Halifax, Nova Scotia - Canada) です。日本からだと直行便がなく、最短で約17時間はかかる場所です。小さい町ですが港町として栄えており、非常に過ごしやすい場所でした。

[ 会場のHalifax World Trade and Convention Centre]

さすが、港町というだけあって平然とロブスターが大量に叩き売りされています。

[ロブスターの陳列]

近年のデータサイエンスブームの波を受けたこともあり、過去最多の1143本が投稿され、Main Conferenceに採択されたのは100本、Posterに採択されたのは116本でした。

セッションの様子

投稿された論文のうちMain Conferenceに採択されると口頭での発表ができます。カテゴリごとに複数の会場があり、各会場とも300人程度のキャパシティがあります。人気なところは立ち見になることもあります。Google社の講演 TFX: A TensorFlow-Based Production-Scale Machine Learning Platform (Denis Baylor et al.) は大変盛況でした。

[Main Conferenceでの発表の様子(KDD2017での講演より)]

一方で、Posterに採択されると、19:00-22:00の夜の時間帯で会場に自身の研究内容をポスターで展示し、参加者からの質疑応答に応える形式で発表がされます。

[Poster発表会場の様子(KDD2017でのポスター展示より)]

注目の論文

今回KDDに参加した中で、オートモーティブドメインにおいて注目すべき論文を取り上げて紹介します。

· The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (DiDi Chuxing)

こちらは中国の配車最大手「DiDi Chuning」による論文 The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (Yongxin Tong et al.) です。DiDiはUber Chinaを350億ドルで買収したことで一大ニュースとなった有力企業です。そのDiDiが主力事業としているタクシー配車におけるタクシー需要のオンライン予測システムに関する論文です。UOTD(Unit Original Taxi Demand)とは、下図で示すようにそれぞれのPOIや時間ごとのタクシーの需要を意味します。ここでは1時間ごとのZhongguancun Software Parkにおけるタクシー需要の予測値を示しています。

[タクシー需要のオンライン予測 [1]]

特徴的なのが、DeepLearningを代表とする複雑なネットワークモデルを用いて予測するのではなく、以下の式で示すような単純な線形回帰モデルで予測している点です。これにシンプルな正則化項を加えただけのモデルです。

[需要予測に用いているモデル [1]]

ただし、特徴量は合計で2億次元以上という非常に大規模なものを用いています。これには、時間や天気、POIといった様々な特徴を組み合わせたものも含みます。

[大規模な特徴量構成 [1]]

このようなモデルを用いている背景にはビジネス観点があります。それは法規制等の環境の変化に伴って、新たな特徴が加わるごとに、モデル自体を見直すのは非常に高コストであるからという考えです。DeepLearningのようなモデルは、入力が変化する度にハイパーパラメーターチューニングに非常に時間やリソースがかかってしまうため、モデルは線形回帰と固定して特徴量だけ再設計することで、新たな予測をするということです。サービスから得られた実データを用いた実験では、NNやGBRTといった手法より高精度で予測できています。 近年では、AI = DeepLearning という認識が広まりつつあるのですが、ビジネスへの活用という観点ではこのような古典的かつシンプルな線形回帰で十分なバリューを発揮するという意味で非常に面白い論文です。

[1] The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (Yongxin Tong et al.)

· A Taxi Order Dispatch Model based On Combinatorial Optimization (DiDi Chuxing)

同じくDiDiによる論文ですが、こちらはタクシー配車におけるDispatchを扱ったものです A Taxi Order Dispatch Model based On Combinatorial Optimization [Lingyu Zhang et al.] 。Dispatchとはタクシードライバーと顧客の配車オーダーの割当を意味し、これをどのように最適化するかという問題です。まず前提として、顧客が配車オーダーを出した段階で、ドライバーにリクエストが送信されます。ドライバーはそれを承諾するか拒否するかという行動をとることができます。よって、どのオーダーをどのドライバーに割り当てれば承諾の成功確率(=SR)を最も高くできるかを考えなくてはなりません。単純には、配車オーダーがあった地点から最も近い地点のドライバーを割り当てるといった方法が考えられます。

[オーダーとドライバーの位置関係の例 [2]]

DiDiの提案手法では、まずドライバーの承諾確率をモデル化します:pij=p(y=1|oi,dj) oiはオーダーに関連するETAやPOIのカテゴリーといった特徴量、djはドライバーに関連する過去の承諾率や営業エリアといった特徴量です。さらに曜日や時間といった特徴も加えて、承諾確率pijをモデル化します。ここではLogistic Regressionが用いられています。 この承諾確率を用いてSRの平均を最大化するオーダーとドライバーの割当の組み合わせを以下に式に従って最適化します。

[Order Dispatch Problem [2]]

この際、Hill-climbing Algorithmを用いて最適解を求めます。北京市内の実データに適用実験した結果、SRがベースラインモデルの80%から84%に向上したということです。

[実験結果 [2]]

DiDiは自社にどんどん蓄積される豊富なデータを用いて、より効率的なモデルの独自開発を行っており、今後も注目すべき企業だといえます。 [2] A Taxi Order Dispatch Model based On Combinatorial Optimization [Lingyu Zhang et al.]

· Planning Bike Paths based on Sharing-Bikes' Trajectories (Microsoft Research)

こちらは最近日本進出でも話題となったMobikeのデータを用いた自転車専用レーンの設計計画に関するMicrosoft Researchの論文 Planning Bike Paths based on Sharing-Bikes' Trajectories [Jie Bao et al.]

[Mobikeユーザーの走行軌跡データ(KDD2017での講演より)]

中国では大気汚染や交通渋滞の解消のためにシェアバイクが急速に普及しています。しかし、自転車専用レーンが整備されていないため、安全性が不十分という問題があります。そこで、予算という制約のもとで、いかに効率的に専用レーンを建設すべきかが今回の目的です。 各ユーザーの走行軌跡に対して建設した専用レーンのスコアをscore(,)=ssegs()s.ls.lと定義します。これを合計したスコアTscore(,)を最大化するように専用レーンを建設する計画を立てます。 方法はシンプルで、①開始点を抽出する ②Greedy Network Expansionによって道路リンクを繋いでいく というステップで最終的に建設する道路ネットワークを抽出・可視化します。 ①の開始点の抽出ですが、単純には最も頻繁に使われる上位数点を用いるといったことが考えられます。そうすると、頻繁に通る道はたいてい近い場所にあることが多いので、かなり近い範囲で開始点が定まってしまうことが問題です。そこでSpatial Clusteringを行うことで、空間的な広がりも考慮しながら開始点を定めるというところが本手法のコアです。これによって、下図で示すように、地図上で広がりのある道路ネットワークを可視化できていることがわかります。 ②のGreedy Network Expansionでは、①で決めた開始点を繋ぐように貪欲に道路リンクを探索していきます。もちろん予算という制約があるので、出来る限りの開始点を繋げるように道路リンクを広げていきます。

[Spatial Clusteringを用いた結果 [3]]

[3] Planning Bike Paths based on Sharing-Bikes' Trajectories [Jie Bao et al.]

KDD Cup 2017

最後に KDD Cup というデータ分析コンテストについて共有します。KDD Cup では提供されたデータセットに対して課題が設定され、その課題におけるモデルの精度を競うコンペティションです。世界的にも権威と歴史がある大会で、トップクラスのデータサイエンティストが競い合います。今回のテーマは、''Highway Tollgates Traffic Flow Prediction" でした。課題設定は2つあり、①Travel Time Prediction ②Volume Prediction です。ここでは、①Travel Time Predictionについて取り上げます。

[Highway Tollgates Traffic Flow Prediction [5]]

このタスクは交差点から料金所の旅行時間を予測するというものです。例えば上図でいうと、IntersectionAからTollgate2の区間での車両の通過時間を意味します。用いるデータセットは各区間の車両軌跡データ・該当エリアの天気・道路ネットワークです。評価指標は移動時間予測タスクにおける一般的な指標であるMAPE(Mean Absolute Precentage Error) です。優勝チームであるTeam Convolutionは、MAPE=0.1748でした。このチームが優勝したポイントはモデル・特徴・データという3つのレベルでのアンサンブル学習にあります。モデルレベルではXGBoostやMultilayer Perceptron等のモデルを用いたアンサンブル学習とします。特徴レベルでは異なる減衰係数やスムージング係数等を用いて算出した特徴量を組み合わせたものをアンサンブル学習させます。データレベルでは異なる滑走窓の値や分割数でのデータによりアンサンブル学習させます。このように3つのレベルでたくさんアンサンブル学習させることにより汎化性能を上げ、MAPE = 0.1748という精度を得られています。かなりテクニカルではありますが、基本的には複雑なモデルを用いずに、BoostingやMLPといった古き良き古典的なモデルを用いている点が面白いです。実際のビジネスの場でも最新の複雑なモデルではなく、広く一般的に使われているモデルを用いる場面も多々あります。

[5] KDD Cup 2017

全体の感想

KDDという学会は扱う分野がかなり幅広いのですが、今回は主にオートモーティブ事業関連について取り上げました。他にもClusteringやGraphなどの理論寄りに関する研究から、Medical DataやRecommendationといった実務寄りの研究まで多様な研究が発表されていました。ご興味ある方はこちらのAccepted Paperからご覧下さい ( http://www.kdd.org/kdd2017/accepted-papers ) 今回の学会参加を通して、最先端のオートモーティブ事業で取り組まれている技術についてキャッチアップできたことはもちろん、参加者の方々とのネットワーキングができたことも大変刺激的で良い勉強になりました。 DeNAでは国際学会派遣制度というものがあり、私のような新卒1年目でも積極的に学会に参加することができます。こういった制度を活用してスキルアップできる環境は素晴らしいと思います。一緒に働いてみたいと思われた方は是非ご一報下さい!

続きを読む

2017/10/24 18:58

Google機械学習活用勉強会レポート

Koichiro Mori

Keywords: AI レポート 勉強会

はじめに

AIシステム部・AI研究開発グループの森と申します。この4月にDeNAに転職し、現在は主に画像や音声に関するDeep Learningの研究開発に従事しています。

DeNAでは、機械学習・人工知能(AI)技術を積極的に事業活用していく方針が全社的に打ち出されており、その一環として、エンジニアを対象にしたGoogle社様による勉強会が定期的に開催されています。

8月に行われた1回目の勉強会では、

· Googleの機械学習プロジェクト

· 機械学習をビジネスに応用する際のポイント

· Google Cloud Platformで提供されている機械学習APIの概要

などをGoogle Cloud ソリューションアーキテクトの中井悦司さんに講義していただきました。

リンク:Google機械学習系API勉強会レポート https://engineer.dena.jp/2017/08/googleapi.html

2回目である今回の勉強会では、前回同様に中井悦司さんにお越しいただき、Google Cloud Platform (GCP) が提供する機械学習サービスをより実践的な面から講義していただきました。本勉強会には、DeNAのエンジニアを中心に約80名が参加しました。

勉強会の様子

GCPが提供する機械学習サービス

1回目の勉強会では、Cloud Vision API、Cloud Speech API、Cloud Natural Language APIなど学習済みモデルのWeb APIが中心的な話題でした。

講演資料より

今回は、学習済みモデルのAPIではなく、TensorFlowとCloud Machine Learning (ML) Engineを用いて、データからオリジナルモデルを学習し、新しいAPIをデプロイするまでの流れを一通り解説していただきました。以後、演習で使用した各サービスを簡単にレポートします。

講演資料より

データ

BigQueryで公開されているOpen Natality Datasetを使いました。母親のさまざまな属性(人種、年齢など)と生まれた赤ちゃんの体重に関連する表形式のデータです。このデータを用いて母親の属性から赤ちゃんの体重を予測する回帰モデルをGCPのサービスを組み合わせて実現するのが目的です。

Cloud Datalab

Cloud Datalabは、データの探索、分析、可視化、機械学習モデル構築を行うためのインタラクティブツールです。Pythonのデータ分析環境として有名なJupyter Notebookと同じユーザインタフェースでGCP上のさまざまなサービスと連携することができます。今回は、BigQueryからのデータ収集、可視化による統計分析、データ前処理、機械学習モデル構築まですべてCloud Datalab上で実行しました。

演習に用いたノートブック

BigQuery

BigQueryは、ペタバイト級のデータを格納できるデータウェアハウスサービスです。講義ではOpen Natality Datasetの公開データベースからSQLを使って500万件のデータを収集しました。BigQueryの検索結果は、Pythonのデータ解析ライブラリであるpandasのDataFrame形式に変換できるため高度な統計分析や可視化が簡単にできます。

Cloud Dataflow

Cloud Dataflowは、パイプライン処理によってデータ前処理ができるサービスです。今回は、BigQueryから収集したデータに対して、(1) 属性の変換 (2) 訓練データとテストデータへの分割 (3) CSV形式でCloud Storageに格納という一連のパイプラインを実行しました。

講演資料より

Cloud Dataflowは、処理するデータ量によって自動的にインスタンスが立ち上がるオートスケールに対応しており、何も意識することなく高速にデータ処理ができます。実際に背後でGoogle Compute Engineのインスタンスが自動的に立ち上がる様子も確認できました。

TensorFlow

TensorFlowは、Googleが提供している機械学習ライブラリです。DeNAのAI開発部でも多くのエンジニアが日常的に活用しています。

今回の勉強会では、カテゴリ変数(母親の人種など)と量的変数(母親の年齢など)を組み合わせたモデルを作るために tf.contrib.learn.DNNLinearCombinedRegressor (Wide & Deep Model) を使いました。このような複雑なモデルもTensorFlowのhigh-level APIを活用すると簡単に書けます。

講演資料より

Cloud Machine Learning Engine

Cloud DataLab上では小規模データによるテストまで行い、本番の大規模データによるモデル学習は、Cloud ML Engineを使いました。

Cloud ML Engineは、TensorFlowで構築したモデルの訓練、訓練したモデルのデプロイ、APIの提供までGCP上でシームレスに実行できるサービスです。Experiment APIを用いてモデル・訓練データ・テストデータ・評価指標を設定することで分散環境で高速にモデル学習ができます。

学習経過のログはCloud Storageに保存されるため、Cloud DataLabからTensorboardを呼び出すことで学習経過を可視化することもできます。

Tensorboardの出力例

学習済みモデルも同様にCloud Storageに保存されます。この学習済みモデルはCloud ML EngineのWebインターフェイスまたはgcloudコマンドを使うことで簡単にデプロイできます。デプロイしたモデルは、Web APIとして提供されるのでアプリケーションからjson形式のリクエストを送ることで利用できます。Cloud ML Engine上ではリクエストの頻度などAPIの使用状況も確認できます。

Google App Engine

Google App Engineを使うことで、デプロイしたWeb APIを利用するWebアプリケーションが構築できます。今回は、母親の情報から赤ちゃんの体重を予測するアプリケーションを作成しました。

完成したWebアプリケーション

ハンズオン

後半のハンズオンでは各参加者にGCPプロジェクトのアカウントが配布され、前半の講義で習った内容を実際に手を動かして体験することができました。弊社のインフラ基盤チームとGoogleエンジニアによるサポートやSlackでの情報交換により演習を円滑に進めることができました。

まとめ

今回の勉強会では、Google Cloud Platform上で、機械学習アプリケーションを構築する流れを一通り体験することができました。

これまでオンプレミス環境でWebサーバを立てて、モデルをアップロードして、アプリケーションを書いてという流れは一通り経験していましたが、これらをすべてクラウド上でかつ簡単な操作で実現できることに驚かされました。

現在、AIシステム部では、さまざまな機械学習・AI案件に取り組んでおり、迅速なサービス開発・デプロイが求められることが多くなっています。今後は、Google Cloud PlatformとCloud ML Engineを積極的に活用して効率的にサービス展開していきたいと考えています。

より深く理解するために

講師の中井さんからGCPをより深く理解するためのリソースをご紹介いただきました。

GoogleCloudPlatform / training-data-analyst https://github.com/GoogleCloudPlatform/training-data-analyst

今回の演習で使ったGithubのリポジトリです。今回の演習では blogs/babyweight を使いました。

データサイエンスに関する初心者向けの参考書 http://enakai00.hatenablog.com/entry/2017/02/20/124112

中井さんのブログ記事です。

Data Engineering on Google Cloud Platform https://www.coursera.org/specializations/gcp-data-machine-learning

Courseraが提供している有料のコースです。今回の勉強会の内容をすべて含んでいます。

続きを読む

2017/09/26 17:36

第1回 SHIBUYA SYNAPSE が開催されました

KoheiNishino

Keywords: AI 勉強会

はじめに

AIシステム部の西野剛平です。AIシステム部ではAI研究開発グループに所属しており、Computer Visionの技術を中心に研究開発を行っています。

8/30にAI技術に関するイベントSHIBUYA SYNAPSEの第1回目を弊社内にあるSakuraCafeにて開催し、そこで現在私が関わっている「スマートショップ実現に向けた取り組み」に関してご紹介させて頂きました。 今回は、エンジニアブログという事もあり、イベントで発表した内容のうち、特に技術的な内容について紹介したいと思います。

SHIBUYA SYNAPSEとは

昨今のAI技術は深層学習を中心に目まぐるしく進化しており、それとともにビジネスへの適用も着実に行われてきております。SHIBUYA SYNAPSEは、このような環境において、企業×大学や、プランナー×エンジニアといった異なるバックグラウンドを持つ参加者の有機的なつながりにより、価値あるサービスの共創の場を提供することを目的に設立されました。より詳細な情報に関してはSHIBUYA SYNAPSEのホームページをご覧いただければと思います。

今回は、SHIBUYA SYNAPSEの記念すべき第1回目で、東京大学の山崎俊彦准教授をメインスピーカーにお招きし、山崎先生からは「魅力」の予測や解析に関してのご紹介をして頂きました。また、イベントの最後には懇親会もあり、AIに対して様々な携わり方をしている方同士での意見交換が広く行われるなど、大盛況のうちにイベントを終わる事ができたのではないかと思います。

スマートショップの実現に向けた研究

インターネット上でのサービスにおいては、お客様に合った最適なコンテンツの配信、ログ情報からお客様の行動を解析して迷わない導線に改善するなど、日々サービスを快適にご利用頂く工夫が行われております。しかし、リアルな店舗においてはそのような最適化はあまり行われていないため、快適なサービスを提供するという点では、まだまだ改善の余地があるのではないかと考えております。 私たちは、AI技術を活用することで、リアルの店舗においても一人一人のお客様の状況に合わせた接客やリアルタイムの商品推奨など、今までにないショップ体験の提供ができないかを考え、将来のスマートショップの実現を見据えた研究開発を行っています。

姿勢推定技術を活用した同一人物の再認識

スマートショップの実現のためには、店内でのお客様の状況を把握する技術の確立が不可欠です。その第一ステップとして、定点カメラからの映像を元に、深層学習ベースの姿勢推定技術を活用した、同一人物の再認識技術の開発を行いました。

本手法は、人物の検出と検出された人物の同定を繰り返し行っていくというのが大枠の流れとなっており、この人物の検出タスク部分に姿勢推定技術を利用したのは、高精度であるというのが一番の理由ですが、その他にも将来性を考慮したいという意図があります。姿勢推定では一般的な検出器で検出される人の矩形情報を得られるだけでなく、各体のパーツを表す器官点情報までも同時に検出することができます。これらの情報は非常に有用で、今後別のタスクを解く必要が発生した場合でも、有益な情報として利用できる可能性は高いと考えています。今回紹介する人物同定の技術においても、この器官点情報を利用する事により、高精度でリアルタイムに同一人物の再認識を実現しています。

一般的なトラッキングにおける問題点

例えば、粒子フィルタをベースとしたような一般的な物体追跡においては、フレーム間の画像変化を基に追跡を行うため、フレーム間隔が長い場合(フレームレートが小さい場合)はフレーム間の画像変化量が大きくなってしまい、追跡は極めて困難になってしまいます。

また、正確な検出器を前提とした場合は、ある時刻tで検出された人と次のフレーム時刻t+1で検出された人の対応付けを行う事により同一人物判定をする事ができます。 例えば、簡易にトラキングを実現する方法として、Intersection over Union(IoU)の結果を利用する方法が考えられ、それぞれのフレームで検出された人の矩形(BoundingBox)同士、各々の組みでIoUを求め、その値が大きいもの同士を同一の人物とします。

ただし、この場合もフレーム間での人の移動量が大きい場合には、IoUの値が0となってしまい追跡が破綻してしまいます。

実サービスを見据えた場合、コスト対効果を意識しなければいけないため、限られた計算リソースで実行する事を想定する必要があります。その上で、リアルタイムに処理するとなると、フレームレートが低くなってしまうというのは、ある程度は前提事項として許容しなければいけない事でないかと考えています。(実際、紹介しているリアルタイムデモ映像のフレームレートは1.7fps程度となっています。)したがって、前述したようなフレームレートが低い場合に発生してしまう問題に対応できるような人物追跡手法を設計する必要があります。

今回紹介する手法は、こういった低いフレームレートやオクルージョンが発生するケースを特に意識しており、姿勢推定によって得られた器官点情報を上手く利用することで、そのような状況下においてもロバストに同一人物の再認識を行えるなるような手法を考案しました。

デモ映像

弊社SakuraCafe内で行ったリアルタイムデモ映像になります。

姿勢推定技術によって検出した人物を矩形で囲っています。その上に表示されている番号はその人物を識別するためのIDで、同じ番号の場合は同一人物と認識されています。また、今回技術の詳細は紹介しませんが入店と退店のタイミングや、年齢および性別の推定もリアルタイムに行っております。赤色の線が入店、青色の線が退店を表し、顔が正面を向いた際に表示される矩形に年齢と性別の推定値を表示しています。

全体の構成

本手法は下記の要素で構成されています。

1. フレーム画像から人物の器官点の検出

2. 1つ前のフレームで検出された人物と今回検出された人物の同じ器官点同士で色の照合

3. 1つ前のフレームで検出された人物と今回検出された人物の位置の照合

4. 2と3の結果から総合的に判断し、人物の同定

1から4の手順を動画の各フレームに対して逐次行っていくことで、連続的に同一人物の再認識を実現しています。

姿勢推定技術に関して

まずは、姿勢推定技術を使って、フレーム画像中から人物、および器官点の検出を行います。器官点は複数人数の器官点を同時に検出し、検出されたそれぞれの器官点はどの人物のどの体の部分に対応しているかを認識します。下の写真は検出された、鼻、首、左肩、左手、右肩、右手、左腰、左足、右腰、右足の10個の器官点になります。

色差の計測

各器官点の色を取得します。各器官点を中心とした局所領域からピクセルのRGB値を取得し、それをL*a*b*色空間に変換した後、CIE2000で色差を計測します。色差は1つ前のフレームで検出された人物と今回検出された人物の同じ器官点同士での計測になります。

色差を類似度に変換

色差を色の類似度として扱いたいので、色差dを1.0 〜 0 の定義域に射影する下記の関数を導入し、それを類似度S(d)とします。

この関数自体はただのシグモイド関数で、係数αやバイアスΒのパラメータ値は、おおよそ下記の要件に合うように調整しています。

色の類似度の計算

色差の計算方法、およびそれを類似度に変換する式を説明しましたが、もう少し具体的な例で説明したいと思います。時刻tのフレームでPersonAという人を検出、時刻t+1でPersonBという人を検出したと仮定し、これらに対し「色の類似度」を求める手順を示します。

各器官点毎にL*a*b*色空間に変換した後、CIE2000色差を計算し、類似度を求めます。各器官点毎の類似度が全て求まったら、それらの平均を取り、最終的にその値をPersonAとPersonBの「色の類似度」とします。上記はその計算過程をイメージした表になります。見切れや隠れなどにより検出されなかった器官点がどちらか一方にでもある場合は、類似度50%となるようにしています。(これは、その器官点を使用しない場合に比べ、器官点1つあたりの類似度への寄与率が高くなり過ぎないようにするための措置です。)

位置の尤度

追跡中の人物は最初の検出フレームからその移動の軌跡をすべて保持しています。したがって、これまでの移動情報を基にその人物が次のフレームにいる位置をガウス分布でモデル化する事ができます。これを尤度関数とし、実際に次のフレームで人が検出されたら、その位置情報をそれぞれの尤度関数にあてはめることにより、尤もらしさを求める事ができます。ちなみに、実際のデモ映像では人に対して相対的にブレが少ない首の器官点位置を利用しています。

上記は、追跡中の3人の軌跡情報を基にガウス分布でモデル化したイメージ図になります。次のフレームでの各人の予測位置は赤色で書かれている部分で、これまでの移動量が大きいほど次フレームでの予測位置は遠くに、分散は大きくなります。

総合尤度の算出

色の類似度、および位置の尤度から総合尤度を計算し、その値から同一人物の判定を行っていきます。例えば、前のフレームでPersonAとPersonBの2人を追跡しており、現在のフレームでPersonCとPersonDとPersonEの3人を検出した場合について考えてみます。

前のフレームと現在のフレームで検出された全ての人の組み合わせに対し、色の類似度および位置の尤度を計算し、その積を総合尤度とします。この例では下記のようになります。

これを総合尤度の高い順で並べ替え、ある閾値以下(ここでは0.02を利用)のものを除外すると下記のようになります。

これを上から順に人物同定していきます。「前フレーム」欄か「現在のフレーム」欄のどちらかに既出の人物が含まれる場合、その行は無視します。これを最後の行まで行い最終的な結論を出します。この例においては下記のような結果となります。

PersonA と PersonDは同一人物である

PersonB と PersonEは同一人物である

PersonCは新たに検出された人である

これを動画の各フレームに対して連続的に行っていく事で、高精度な同一人物の再認識を実現しています。

最後に

SHIBUYA SYNAPSEの開催当日は、このブログに書かせて頂いた内容をご紹介しつつ、会場内でリアルタイムにそれを体験できるデジタルサイネージのブースも用意しました。

発表している内容をその場で実際に体験できるという事で、参加された方々にも興味を持っていただき、非常に良い試みだったと思っています。 SHIBUYA SYNAPSEは今後も2回3回と続いていく予定なので、このブログを読んで興味を持って頂ければ幸いです。是非、次回のご参加を検討して頂ければと思います!

続きを読む

2017/08/29 08:51

CVPR2017に参加してきました

TianqiLi

Keywords: AI レポート

はじめに

みなさんこんにちは、AIシステム部AI研究開発グループの李天琦 (@TianqiLi)です。普段は主にComputer Visionの研究開発を行っています。

DeNAのAIシステム部では、カメラの映像解析をはじめとする多くのプロジェクトでDeep Learningの技術を活用しています。Deep Learningの世界は変化が激しく、毎日追い続けても追いきれないほど日々新しい技術論文が発表されています。そこで、最新の技術トレンドをキャッチアップするため、今年(2017年)7月にハワイで開催されたConputer Visionに関するトップカンファレンスの一つである「(CVPR2017」)に参加してきました。その内容について紹介したいと思います。

CVPRとは

CVPRの正式名称は「Computer Vision and Pattern Recognition」です。Compuer Visionというのはロボット(コンピュータ)の視覚を指し、広義では画像処理、映像処理の技術分野全般を意味しています。そのComputer Visionの分野において世界で最も権威ある学会の一つがこのCVPRです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使う事が当たり前になってきているので、CVPRはDeep Learningに関するトップカンファレンスの一つだとも言われるようになりました。

今年の開催期間は7/21〜7/26の6日間です。初日と最終日は特定のテーマに絞って集中的に行うTutorial & Workshopが開かれました。他の4日間が、幅広い分野のセッションが行われるMain Confernceです。また、Main Conferenceの4日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界トップのIT企業たちが最新の研究成果や製品などを展示しました。

開催場所

今年の開催地はハワイのオアフ島です。海と自然に囲まれた最高のリゾート地でした。

[ 会場のHawaii Convention Center ]

近年のDeep Learning人気の影響を受けて、CVPRの参加者は年々増加し、今年は採択論文数も参加者も過去最高でした。統計によれば、今年の投稿論文は2680本で、採択は783本でした。そして今回のCVPRの参加人数は6000人以上にものぼっています。

[ オープニングセレモニーの様子 ]

[ 採択論文の統計 ]

セッションの様子

CVPRに採択された論文のうち、評価の高かったものはOralやSpotlightと呼ばれるプレゼンテーション形式のセッションで発表されます。その場で大掛かりなデモを行うものもあります。それ以外は、Posterと呼ばれるセッションで展示され、質問すると論文の作者が直々に解説してくれます。

[ Oral セッションの様子 ]

[ Poster セッションの様子 ]

Expoの様子

Main Conferenceと並行して行われるExpoでは、各企業が独自の技術Demoを展示しています。今年最も多かったのはやはり自動運転で、TOYOTA、Tesla等の大手車メーカー以外にも、多数の自動運転ベンチャーが展示していました。

[ Googleのリアルタイムポーズ推定のデモ ]

[ 完全無人運転のDemo ]

[ 無人運転の映像解析Demo ]

展示企業によっては最新の製品の販売も行っていて、今回の目玉商品はIntelが新たに販売する予定の「Movidius Neural Compute Stick」でした。これは簡単に言えばDeep Learning専用の外付け小型計算機です。これまで、Deep Learningは非常に計算コストが高いため、GPUを積んだ大型マシンが必要というのが常識でしたが、それを小型のエッジデバイス上で実現させたのがこのIntelのStickです。日本での発売予定日はまだ三ヶ月以上先ですが、今回の学会で一部の研究者向けに先行販売を行うとの事でしたので、DeNAでも研究開発用にと一部確保してきました。CVPRでも数百個しか販売されていなく半日で売り切れたので、かなり貴重です。

[ Movidius Neural Compute Stick ]

懇親会への参加

カンファレンス期間中、毎晩のようにビーチやナイトクラブで懇親会が行われていました。そのほとんどがクローズドなもので、特定の企業のメンバーもしくは招待状を受けとった人しか参加できないようになっています。ACCV(アジア地域で開催されるComputer Visionの国際学会)のメンバーの懇親会では、AIの世界的な権威者であるTakeo Kanade先生やFei-Fei Li先生のスピーチに会場が沸きました。

[ ACCV懇親会でのTakeo Kanade先生のスピーチ ]

注目の論文

今回CVPRで発表された論文の中で、特筆すべきものをいくつか紹介します。

- DenseNet

まず、今年のBest Paperに選ばれた2本の論文のうち、1つがこちらのDensely Connected Convolutional Networks (Gao Huang et al.)です。

[ Dense blockの構成 ]

この論文が最初に発表されたのは2016年の8月頃で、当時Image-Classificationタスク(画像に映った物体の種類を分類する問題)におけるState-Of-The-ArtだったResNetのSkip Connection構造を取り入れた密な結合構造「Dense Block」を提案しています。各層の入力に、それより以前の全ての層の出力を結合した結果を使うというシンプルなネットワークアーキテクチャです。汎化性能が高く、パラメータ数の少なさと精度においてResNetを上回る性能を示しています。

- SimGAN

2本のBest Paperのうち、もう1本がこちらのLearning from Simulated and Unsupervised Images through Adversarial Training(Ashish Shrivastava et al.)です。

[ SimGANの展示ポスター ]

こちらは、GAN(Generative Adversarial Nets)の手法を用いて、シミュレータから生成されたCGデータを現実画像に見えるように変換して、現実の画像と見分けづらくさせる手法です。そもそもなぜこれが重要かと言うと、Deep Learningの世界では訓練データの多さがそのまま計算結果の精度に直結するため、データが多くあればあるほど有利です。しかしリアルのデータを集めて、それにラベルを付けていく事は非常に大変なので、これをシミュレータから無限に生成できないかというアプローチです。シミュレータから生成された画像は通常、リアルの画像と比べてどうしても不自然さが生じますが、その不自然さをなくす事に成功したのがこちらの論文です。

Loss Functionの設計が特徴的で、シミュレータのデータにリアリズムを付与するAdversarial Lossと、元々のアノテーション情報を失わないようにするためのSelf-regularization Lossという2つのLossを定義しています。この仕組によって、一部のUnsupervisedなリアルデータさえあれば、シミュレータから無限に教師データを生成できる画期的な手法です。

- YOLO9000

今回のCVPRではBest Paperとは別に、Best Honorable mention awardという特別賞のPaperも2本ありました。そのうちの1本がこちらのYOLO9000: Better, Faster, Stronger(Joseph Redmon et al.)です。

[ YOLO9000のポスターセッション ]

YOLO9000は、画像内から特定の物体の位置と種類を含めて検出する「一般物体検出」の手法に関する論文です。従来の手法よりも遥かに高速、高精度かつ多種の物体を検出できるようにしたフレームワークを提案しています。 YOLO9000自体の技術Demoも凄いですが、それ以上に今回展示されたポスターが独特すぎると話題を呼びました。通常であれば学会に出すポスターは論文の解説ポスターと相場が決まっているところを、原則を完全無視して広告的な意味でのデザインポスターを展示してくるあたり、さすがすぎるとツイッター等のSNSで一時期話題となりました。 ちなみにこちらのYOLO900の論文は、自分のほうで部分的に再現実装したYOLOv2 Chainerバージョンというリポジトリをオープンソースで公開しています。皆さん興味あればぜひ使ってみてください。

- Polygon RNN

2本の特別賞のPaperのうち、もう一本がこちらのAnnotating Object Instances with a Polygon-RNN(Lluis Castrejon et al.)です。

[ Polygon-RNNのツール画面 ]

こちらの論文では、Semantic Segmentationの教師データを作る際のアノテーションコスト削減の仕組みを提案しています。通常であれば、セグメンテーション用の教師データを作るのに、物体のピクセル領域全域を細かく塗りつぶす必要があったところを、こちらの論文では複数の頂点によって構成された多角形の頂点推測問題に置き換えています。アノテーターは物体の外接矩形であるBounding Boxを与えてあげれば、RNNの仕組みで内部のオブジェクトに対して自動的に頂点候補を生成してくれます。生成された頂点がズレている場合は、アノテーターは最低限の頂点修正作業のみ行えば済みます。これによって従来の4〜7倍もの作業効率を実現できるという画期的なフレームワークです。 ちなみにアノテーション効率化に関するPaperは、このPolygon-RNN以外にもTraining object class detectors with click supervision(Dim P. Papadopoulos et al.)というのがありました。こちらは、Bounding Boxのアノテーション作業をワンクリックで行えるようにしたという画期的な手法を提案しています。

全体の感想

今年のCVPRはやはりというべきか、CNNをベースとした論文がほとんどでした。また、その多くが、計算のパイプラインを複雑化する事で高い精度を達成できたという、手法的な新規性に関するものでした。私たちの研究チームでもこれから学会に技術論文を発表していく予定なので、良い参考にはなったと思います。 今回のCVPRで発表されたOralやSpotlightのプレゼンは基本的に、こちらのYouTubeですべて動画で見られますが、実際に行ってみると論文の気になる点を作者に直に聞けたり、あとネットワーキングもできる等のメリットがあります。自分は今回がCVPR初参加でしたが、技術的な収穫はもちろん、ネットワークも広がって凄く良い刺激になりました。

[ おまけ:Fei-Fei Liとの写真 ]

続きを読む

2017/08/10 09:07

Google機械学習系API勉強会レポート

@pacocat

Keywords: AI レポート 勉強会

AIシステム部の奥村(@pacocat)です。AIシステム部では、AI研究開発グループに所属しており、主に強化学習を用いたゲームAIの研究開発を行っています。 DeNAでは、様々な事業ドメインのデータを実際に使いながら機械学習を使ったサービス開発を推進しており、中でもゲームは豊富なデータ・シミュレーターがあるため、最先端のアルゴリズムを動かすための環境を自前で持っているのが特徴です。

全社的にも機械学習サービスのニーズが高まっている背景の中、7/5にGoogle様による機械学習系API勉強会が当社セミナールームにて開催されました。今回は、勉強会の内容をブログでレポートしたいと思います。

Googleといえば、先日開催されたGoogle I/O 2017でも"AI first"というメッセージが改めて強調されていましたが、実際にGoogle LensやGoogle Homeなど機械学習を活用したサービス・プロダクトが次々と登場し、注目が集まっています。

[最近話題になっていた"Democratizing AI(AIの民主化)"についてなど、AI関連の取り組みについてはこちらのGoogle Cloud Next'17の動画をご覧ください]

このセミナーでは、Google Cloud, ソリューションアーキテクトの中井悦司さんにお越しいただき、

· Googleでどのようにディープラーニングを活用しているのか

· Google Cloud Platform(GCP)が提供する機械学習サービス

· 機械学習のビジネス適用における考え方

といったテーマについてお話いただきました。

昨今「人工知能」を利用したビジネス期待が急激に高まっていますが、中井さんはそうした期待値と実際の機械学習ソリューション開発のギャップを適切に埋めるため、機械学習の啓蒙やGCPを使った技術支援全般を行っています。

セミナーの様子(100名程度の社内エンジニアが参加していました)

※以下、主にディープラーニングに関連した学習技術を含め「機械学習」という用語を使いますが、「機械学習」と「ディープラーニング」の区別が必要な場合は明示的に「ディープラーニング」と記載します。

Googleでなぜ機械学習を活用するか

そもそも、Googleではどのように機械学習が取り入れられているのでしょうか。 「1クリックで世界の情報へアクセス可能にする」という企業ミッションを耳にすることもありましたが、モバイル市場の拡大に伴い、情報へのアクセス手段もクリックに限らなくなってきました(※参考:Searching without a query)。

そうした背景のもと、音声や画像入力に対応するため、サービスを支える機械学習技術が強くなっていったのは必然的な変化だったのでしょう。実際、Googleでは様々な機械学習(特にディープラーニングを使った)技術が開発されています。セミナーでは、そうした技術の中でもホットなものを紹介していただきました。

Wavenet(DeepMind社による音声合成技術)

Wavenetは、ニューラルネットワークを使って音声のデジタルデータを直接出力するモデルです。従来の、音素に分解してつなぎ合わせるパラメトリックな手法に比べて音声生成精度が飛躍的に向上しました。いずれは、人間の発話と区別がつかなくなってくるようになるかもしれません。 また、人間の音声に限らず、楽器の音を集めてトレーニングすることで、自動作曲が出来ることも話題になりました。

DeepMind Technologies Limited, "Wavenet",

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

(accessed: 2017-07-13)

Gmail Smart Reply

自然言語処理の分野でも新しいサービスが提供されています。現在は英語モードのGmailのみが対象となっていますが、スマホでGmailを開くとメールの文脈を理解して、返答文の候補を生成してくれるサービスです。ここにも文脈理解のためのディープラーニング技術が活用されています。

※現在はモバイルGmailアプリからの返信の20%程度で、この機能が利用されているそうです。

Google, "Save time with Smart Reply in Gmail",

https://www.blog.google/products/gmail/save-time-with-smart-reply-in-gmail/

(accessed: 2017-07-13)

データセンターの冷却効率改善(DeepMind社によるソリューション)

Google社内向けのソリューションも開発されています。DeepMind社は昨年、ディープラーニングと強化学習を組み合わせた技術でデータセンターの電力消費効率を最大40%削減することに成功しました。(※参考:DeepMind AI reduces energy used for cooling Google data centers by 40%

※この事例における技術の詳細は公開されていませんが、こちらに中井さんによる機械学習を使ったエネルギー効率予測についての解説があります。

他にも、Google Photosの一般物体画像認識技術など、様々な機械学習サービスが生み出されており、Google社内では機械学習のバックグラウンドを持っていないサービスエンジニアも社内トレーニングコースなどを活用して、機械学習モデルを使いこなしているそうです。

GCPが提供する機械学習サービス

さて、Googleでは一般ユーザーがこうした機械学習技術を活用できるためのサービスを提供しており、目的別に以下の二つの方向性に大別されます。

· 学習済みモデルのAPIサービスを使う

⇒ ディープラーニング技術を今すぐに活用してみたい人向け

· TensorFlowやCloud Machine Learning Engineのような環境を使って開発を行う

⇒ 独自モデルを作りたい人向け

Google社講演資料より

①学習済みモデルのAPIサービスを使う

Cloud Vision API

Google, "CLOUD VIDEO API",

https://cloud.google.com/vision/?hl=ja

(accessed: 2017-07-13)

Cloud Vison APIは、画像を渡すことで様々なラベル情報を取得することが出来ます。 上の例では、顔の検出だけでなく、顔が向いている方向・感情分析の結果が返ってくるAPIとなっています。

Cloud Natural Language API

Cloud Natural Language APIは、自然言語を分析するサービスです。文章の感情分析を行うことも可能で、お問い合わせメールの自動分類でカスタマーサポート業務を効率化するなど、導入事例が増えてきているそうです。

Cloud Video Intelligence API(β版)

Google, "CLOUD VIDEO INTELLIGENCE API",

https://cloud.google.com/video-intelligence/?hl=ja

(accessed: 2017-07-13)

現在はβ版が提供されていますが、Cloud Video Intelligence APIは、動画解析・検索が出来るサービスです。 動画のフレームを解析し、場面の切れ目を検知したり、場面ごとに何が映っているかを検出することが可能です。

※上の例では、"Elephant", "Elephants", "Animal", "African elephant"とったラベルが検出されています。

他にも様々なAPIが公開され、導入事例も増えてきているそうなので、気になる方はこちらをご覧ください。

②独自にモデルを1から作成する

上述のAPIは、既に学習が済んでいるモデルをそのまま使うパターンになりますが、自社のデータを使って独自にモデルを開発したい場合もあります。その場合は、TensorFlowのような機械学習フレームワークとCloud Machine Learning Engineのような(TensorFlowのGPU・分散学習機能に対応している)計算リソースを利用する方法があります。

③学習済みの公開モデルを利用して独自モデルを作成する

①と②を折衷したパターンです。独自モデルを作る場合、既存で提供されているAPIレベルのものを1から作るのは大変です。そこで、公開されているフレームワークや学習済みデータを活用することで独自モデルを作成する方法もあります。これは転移学習と呼ばれている手法で、既に学習されたネットワークを独自にチューニング・カスタマイズすることで、1から学習をするよりも効率的に開発が行えるメリットがあります。 セミナーでは、TensorFlow Object Detection APIを使った簡単なアプリのデモが行われていました。(※デモアプリの作成方法は、こちらの記事で公開されています。)

https://github.com/tensorflow/models/tree/master/object_detection

(accessed: 2017-07-13)

機械学習のビジネス適用における考え方

セミナーの後半では、機械学習を実ビジネスに適用する際、どのような点に気をつけないといけないか、リアルなプロジェクト視点で講演を行っていただきました。

まず、ディープラーニングは非構造化データ(画像・動画・音声・自然言語)に高い性能を発揮する特性がある一方で、適応領域はまだ限定的です。データが不十分だったり、まだ実証されていない事を実現する場合のハードルは高いと考えたほうがいいという話がありました。 ディープラーニングはあくまでツールの一つでしかなく、それだけで凄いサービスが作れるかというとそうではありません。あくまでビジネスの中でディープラーニングが上手くハマるところを見つけていく、という関わり方が大事という話が印象的でした。

続いて、(ディープラーニング以外の)従来の機械学習をサービスに導入する際には、データアナリストによるデータとビジネスに対する知見が必要、というポイントが紹介されました。従来の一般的な機械学習では、構造化データによる予測処理がサービス適用の中心となります。そうした予測は、一般的な統計分析(いわゆるBI)が出発点になるため、あらかじめデータを整備しサービス分析が出来ていることが前提になる、というニュアンスです。

ここで、データ分析に対する考え方を整理しましょう。データ分析のプロセスについて、次のような理解をされることがあるそうです(下図の矢印のサイクル)

· 手元にデータが存在しており、データアナリストはそこからインサイトを得るために様々な集計や機械学習モデルの実験を繰り返す

· そうして作られた機械学習モデルによって、未知のデータに対する予測が出来るようになる

· データ予測がビジネスに使えないか検討する

Google社講演資料より

しかし、本来のゴールである「ビジネス判断」を考えると、このループを逆にたどる必要があります。

· まず、ビジネスゴールを明確にする(一番大事な出発点)

· ビジネスゴールを実現するために、何を予測すべきかを決める

· 予測に必要な機械学習モデルやデータを洗い出す

· そうしたデータを集め、分析するためにはどのような活動をしないといけないのか

当たり前じゃないかと思われる方がほとんどだと思いますが、改めて大事な視点だと感じました。

話はさらに機械学習エンジニアとビジネスのコミュニケーションにも踏み込んでいきました。 機械学習はやってみないとどれくらいの精度が出るか分からない、という不確実な要素が強い領域です。ただ、だからといって素直に「やってみないと分からない」とコミュニケーションするだけでは何も進められないのも現実です。

機械学習は実験的な要素を含んでいるんだとエンジニアとビジネスサイドで共通認識を持った上で、影響範囲を適切に見極めながら実際にサービスに機械学習を組み込んでみて、リアルに実験をしていくのが重要だというのが中井さんの主張です。そうして知見が溜まることで、機械学習をビジネスで使う勘所をサービスメンバー全体で持てるようになるのではないでしょうか。

Google社講演資料より

まとめ

最新の機械学習系APIの紹介から、ビジネス適用まで、様々な観点から機械学習サービスについてのエッセンスをまとめていただきました。特に後半の機械学習サービス開発の注意点については、なかなかこうした形でまとめて聞く機会も少ないので、改めて機械学習を使ったサービスについて考えるきっかけになったのではないでしょうか。AIシステム部では、様々なAI案件でビジネスメンバーと一緒にサービスをデザインして組み立てていくことが多く、機械学習に対する共通認識や社内文化の作り方など、参考になる観点が多かったように思います。

今回カバーしきれなかった内容を扱った第二回も検討されているそうなので、楽しみです!

続きを読む

2017/07/05 19:11

ICLR2017読み会を開催しました

@yu4u

Keywords: AI 勉強会

はじめに

こんにちは、AIシステム部の内田(@yu4u)です。 大分時間が経ってしまいましたが、先日、深層学習に関する論文が多数発表された国際学術会議、International Conference on Learning Representations (ICLR'17) の論文読み会をSakuraカフェにて開催したのでその報告です。 ICLRは、オープンレビューを採用しているので、リジェクトされたものも含め全ての論文およびレビューを読むことができるので、こういう読み会には丁度良いかもしれません。

ICLR'17ウェブサイト

オープンレビューサイト

読み会のConnpass

読み会のTogetter

当日の様子

懇親会の様子

背景

私自身はコンピュータビジョンが専門ですが、その中で利用するニューラルネットのモデルやその学習方法、モデル圧縮等に興味があり、ICLRの論文は良く読んでいました(ICLRの論文を読むというよりは、気になる論文を読んでいたらそれがICLRの論文であるケースがあるという方が正確)。

そんな折、同僚がICLRに参加するらしいということでふと調べてみると、ICLRに関しては過去国内で読み会が開催されていない (to the best of my knowledge) ことに気づき、使命感(?)から開催を企画する運びとなりました。 Twitterで発表者を募ったところ、Connpassでは発表者の募集ができないくらい多くの方に手を上げて頂けたので、当初15時くらいから開催しようかと思っていたのですが、半日フル開催というボリュームにすることができました。

感想とか

こういう勉強会の企画・運営は初めてだったのですが、会場はもとより、コーヒーブレークや懇親会まで会社的にフルバックアップしてもらえたので、スムーズに開催することができました。あとConnpassは良いサービスですね!

発表者の方々がその道のプロばっかりだったので、発表内容のクオリティが高かったのが凄かったです。当日はずっと司会だったのですが、内容がかなり学術的であることもあり、たまに質問が途切れると専門ではない内容でも質問をしなければという使命感から、学会の座長をしている気分でした。おかげで、実はコンピュータビジョンとか個別の分野よりも、こういうより抽象的なレイヤーの研究のほうが面白いのではないかと思い始めてきました。

機会があれば、またこういう勉強会は企画してみようと思います。あと、来年のICLR読み会も開催したいと思います。

当日の発表内容

以降の内容は当日の各発表の解説です。当日何となく理解したつもりになった発表も、厳密に分かっていないところもあるので、結局元の論文を読み返したりしてしまいました。専門ではない内容も多いため、間違いがあればご指摘ください!

ICLR2017紹介

[ICLR2017読み会 @ DeNA] ICLR2017紹介 from Takeru Miyato

最初の発表では、PFNの宮戸さんにICLR2017を俯瞰できるようなご講演をして頂きました。 実は大学の研究室の先輩であるPFNの @sla さんから、宮戸さんがICLRで発表されるということを聞き、ICLRという会議自体を俯瞰できるようなご講演をお願いしたところ、ご快諾頂きました。 現場の盛り上がりを感じられる内容で、ポスター会場の混み具合はもとより、夜は企業がパーティーみたいな場を設けているということで、もはやお祭りですね。 本会議の採録率は39%らしく(去年は28%)、間口を広げる方向にシフトしているのかもしれません。来年は是非発表者として参加してみたいですね。

医療データ解析界隈から見たICLR2017

医療データ解析界隈から見たICLR2017 from RIKEN, Medical Sciences Innovation Hub Program (MIH)

次に、理化学研究所の川上さんに、医療データ解析をされている立場からICLRという会議を振り返って頂きました。 川上さんは医師免許を持っておられるお医者さんでもあり、同僚の @pacocat がICLRの現地でお会いした際に読み会に興味を持って頂けたとのことで、なかなか聞けない切り口でご講演頂けるのではと思いお願いさせて頂きました。 弊社もヘルスケア事業にも力を入れており、医療領域における機械学習の活用は非常に興味があります。個人的にはパーソナライズドな医療に期待しています。 論文の実験の再現性が低いという話があり、再現しなかったからと言って直ちに間違っているということも言えないので、なかなか新しい手法が出てきて一気に変化が起こるような領域ではないのだろうと考えさせられました。 自分の分野だと、話題の手法はあっという間に再実装や追試がされていくので、対照的だと感じました。最近だと、例えばSELUs (scaled exponential linear units) という手法が話題になって、あっという間に追試された結果が色々Twitterに流れてきたのは印象的でした。

Data Noising as Smoothing in Neural Network Language Models

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena from Takanori Nakai

@Quasi_quant2010 さんのご発表。 これまでn-gramを用いた言語モデル (language modeling) では、Kneser-Neyに代表されるスムージングが非常に重要な役割を果たしていた。他方、RNNによる言語モデルでは、単語(列)の頻度を明示的に扱っているわけではないので、そのようなスムージングを直接的に行うことはできなかった。 そこで、n-gramから導出される確率を利用して、RNN言語モデルを学習する訓練データに対し、単語を置き換えたりするノイズを加えることで、スムージングと同様の正則化を実現することを提案し、経験的にperplexityが低下することを示した。

レビューでも経験的と言われていますが、アイディアは面白いですね。画像でいうと、ちょっと賢いData Augmentationをしているようなイメージでしょうか。 ちなみにKneserの発音は「k N AI z uh r」らしいです。

http://d.hatena.ne.jp/tkng/20100426/1272266900

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

170614 iclr reading-public from Katsuhiko Ishiguro

石黒さん(みらい翻訳/NTTドコモ)のご発表。 DNNは多数のlocal minimumがあり、それらの局所解はどれもglobal minimumと遜色ないと言われている。この論文では、そのlocal minimumにはsharp minimumとflat minimumがあり、大きなバッチサイズを使うとsharp minimumに、小さなバッチサイズを使うとflat minimumに収束すると主張している。 Flat minimumは、局所解から多少パラメータを変動させても、ロスがあまり増加しないような局所解であり、訓練データとテストデータの分布の違いによりロス関数がずれたとしても、あまり精度が変わらない汎化された理想的な局所解と定義される。

大きいバッチサイズと小さいバッチサイズそれぞれで得られたパラメータを結ぶ直線上にあるパラメータを内挿・外挿により求め、ロスを算出することで、sharp minimumとflat minimumを可視化しているのが面白く、説得力があります。 ちなみにその後、バッチサイズの大小ではなく、SGDのパラメータ更新回数こそが重要であるという主張の論文が出ています。

論文:https://arxiv.org/abs/1705.0874

解説:https://www.slideshare.net/JiroNishitoba/20170629

Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

Q prop from Reiji Hatsugai

@Reiji_Hatsu さんのご発表。 強化学習において最適な方策を見つける手法は、直接方策をモデル化する方策ベースの手法と、状態の価値をモデル化する価値ベースの手法に大別できる。 方策ベースの手法は、現在推定している方策と学習に利用しているサンプルが同じである方策オン型であり、安定した学習が可能である一方、方策がアップデートされるとこれまでの学習サンプルが利用できないためサンプル効率が悪い。 価値ベースの手法(Q学習)は、常に価値が最大となる方策を選択するため、サンプルの方策とは異なる方策に基づく方策オフ型である。このため、任意の方策でサンプリングされたデータで学習できる一方、学習が安定しない、複数ステップ法への拡張が難しいという問題がある。 この論文では、これらの手法のいいとこ取りをするというのがポイントである。具体的には、方策勾配の関数に、criticのTaylor展開したものを加えて数式コネコネすると、actor-criticの手法に似たアップデートの式が出てきて、criticが方策オフ型で学習できるようになる。

何となく雰囲気は分かるが、導出がトリッキーなので、時間があるときにAppendix Aの数式を追ってみたいです。上記のいいとこ取りという観点では、同じくICLR'17に下記のような論文もあります。 PGQ: Combining Policy Gradient And Q-learning

論文:https://arxiv.org/abs/1611.01626

解説:https://www.slideshare.net/sotetsukoyamada/pgq-combining-policy-gradient-and-qlearning

Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- from Takahiro Kubo

@icoxfog417 さんのご発表。 機械学習である単語を表現する場合には、その単語のIDに該当する次元が1でそれ以外が0となるone-hotなベクトルが利用される。学習時のロスもこのone-hotなベクトルをベースに計算されるので、推論結果が、正解の単語とほぼ同じような単語であろうと全く違う単語であろうと同じロスが発生する。 本論文では、これに対し、単語間の類似度に基づき、正解をone-hotではなく広がりのある分布として表現し、その分布を用いてロスを計算することを提案している。 具体的には、元々のone-hotのベクトルと、単語の埋め込みベクトル間の内積により算出される類似度をsoftmax通すことで作られるベクトルの重み付き和により、この広がりのある分布を定義している。 また、one-hotのベクトルをdenseなベクトルにする埋め込み行列Lについても、出力時の射影Wと本質的に対応しているべきであり、それらを個別に学習しないような手法を提案している。具体的には、LがWの転置であるという制約を導入している。

読み会では、LとWの対応について逆行列で求めているのかという質問がありましたが、フルランクではないのでどのようにしているのかと思いましたが、論文を読むと上記のように転置であるという制約を入れているようです。

Stochastic Neural Networks for Hierarchical Reinforcement Learning

ICLR読み会 奥村純 20170617 from Jun Okumura

奥村さん(DeNA)のご発表。 迷路を解くような問題では、報酬がゴールにたどり着いた時にしか発生しない(報酬がsparse)。このようなケースでは、探索時にゴールに全く辿り着かずに学習が進まないという問題がある。これに対し、中間的なタスクを設定し、そこで汎用的なスキルを身に付けさせることで、報酬がsparseである問題を解決しつつ、身につけた汎用的なスキルを他の問題にも適用できるようにできれば嬉しいよねという問題提起。 本論文では、迷路を解く問題に対し、取り敢えず移動するというタスク(蛇のような関節モデルを想定しており、移動すらランダムだと難しい)を設定し、更に様々な方向に移動する多様性もあるように学習させるために、確率的ニューラルネットの利用と、色々な動きをした際に報酬にボーナスを与える相互情報量ボーナスを導入している。

やっていることは理解できるのですが、背景でなるべく中間タスクはhandcraftedにならないようにと言っている割に、えらくタスクに依存する手法となっているのがちょっとモヤモヤします。

Optimization as a Model for Few-Shot Learning

Optimization as a Model for Few-Shot Learning - ICLR 2017 reading seminar from Hokuto Kagaya

@_hokkun_さんのご発表。 Deep learningは大量の訓練データが存在する場合には威力を発揮するが、例えば鳥というクラスの中で細かい鳥の種類を分類するようなfine-grainedなタスクなどにおいて、各クラスに十分な訓練データが準備できないケース(few-shot learning)がある。そのようなケースでも高精度な認識をするための手法。 SGDの更新式ってLSTMのセルの更新式に似ているよねという発想から、SGDのパラメータの更新の方法をLSTMで学習するというメタ学習を提案している。

枠組みとしては通常の学習でも活用できそうな気がしますが、自動的にドメイン特化した更新式を獲得する枠組みがポイントなので、ドメインが決まっている通常の学習では単に学習率とかを色々単純に試したほうが良いかもしれません。 つまり、問題設定として、メタ学習データでメタ学習を行い、メタテストデータで先ほど獲得した学習方法を利用して学習を行う(ややこしいがメタテストデータに学習データとテストデータがさらに存在する)という前提があり、そもそも学習データで学習率を調整できない(ドメインが変わるので意味がない)のでこのようなアプローチが重要になるのだと思います。

Autoencoding Variational Inference for Topic Models

@nzw0301 さんのご発表。 Latent Dirichlet Allocation (LDA) をNeural Variational Inference (NVI) で行う(明示的にDirichlet分布は利用していないのでLDAと言うのは語弊がある?)。VAEではガウス分布のパラメータをニューラルネットが出力し、そのガウス分布からサンプルを生成する。この際、backpropができるような計算グラフを構築するreparameterization trickを利用する。LDAでは、ディリクレ分布のパラメータを生成し、多項分布(トピック分布)を生成したいが、そのままでは上記のtrickは利用できない。そこで、事後分布をガウス分布で近似するLaplace近似を利用し、ガウス分布からのサンプルにsoftmax(σ())を適用することで、多項分布をサンプルすることを可能とする。 上記のトピック分布θとトピック毎の単語生成確率行列σ(β)との積によって、最終的な文書の単語分布が得られる。ここで、σ(β)は、トピック毎の多項分布であり、最終的な単語分布はそれらのθによる重み付き和となる。このようなケースでは、生成される単語分布は、トピック毎の単語分布よりシャープにならず、幾つかのトピックにおいて主観品質の悪い結果をもたらすことがある。これに対し、本論文では、得られる単語分布をσ(βθ)とするProdLDAを提案している。この場合、βは多項分布であるような正規化がされていないため、上記の問題を解決できるとしている。また、学習方法もBNとDropoutを利用するなど工夫しているらしい。

とても勉強になりました。σ(βθ)としてしまうのは乱暴なようだけど、この定式化でもσ(β)はちゃんとトピック毎の単語性生成行列になるのですね。下記の論文のように、reparameterization trickにもいろいろな種類があって面白いです。

https://arxiv.org/abs/1611.00712

Variational Lossy AutoEncoder

@crcrpar さんのご発表。 VAEでは、潜在変数の事前分布p(z)を正規分布に、事後分布p(z|x)をガウス分布とすることが多い。このような単純な分布は表現能力が低く、真の事後分布にうまくfitしない問題が発生する。この問題に対し、Normalizing Flow、Inverse Autoregressive Flow (IAF) といった、より複雑な事後分布を生成できる手法が提案されている。これらの手法では、単純な分布を徐々に複雑な分布にする可逆変換を利用している。本論文では、IAFで事後分布を複雑な分布にするのではなく、Autoregressive Flow (AF) を用いて事前分布を複雑な分布にすることを提案し、AF事前確率とIAF事後確率のエンコーダ処理は同一であることを示した。

AFを事前確率に入れるほうがIAFを事後確率に入れるより表現能力が高いという主張が良く分かりませんでした。事前知識が足りず、normalizing flow辺りの論文から理解しないといけないですね。

Semi-Supervised Classification with Graph Convolutional Networks

Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会 from 英爾 関谷

関谷さん(DeNA)のご発表。 隣接行列で表現される重み付き無向グラフが与えられ、各ノードには特徴信号が紐付いている。一部ノードにはクラスラベルも付いており、残りのノードにはクラスラベルは付いていない。このような前提で、クラスラベルの付いていないノードのクラス分類を行う、graph-based semi-supervised learningの問題をグラフ畳み込みネットワークで解く手法。 グラフに対する畳み込みは、各ノードの特徴信号を並べたベクトルに対し、グラフラプラシアンの固有ベクトル行列を利用してグラフフーリエ変換を行うことでフーリエドメインに変換し、そこで畳み込みカーネルとの要素積を行い、最後に逆フーリエ変換する処理として定義される。 上記の処理は行列演算と固有値分解の計算量が大きいため、畳み込みカーネルをグラフラプラシアンの固有値の関数と定義し、1次までのチェビシェフ近似を用いることでノード数に線形なグラフ畳み込みを行うことを提案している。

チェビシェフ近似の辺りから、何でそれで良いのか理解が難しいです。ちなみに特徴ベクトルは独立に周波数ドメインに変換されて畳み込みが行われるようですが、次元間の関係をうまく捉えるような拡張とかできないかな、と思いました。

続きを読む

2017/02/27 15:22

DeNA TechCon 2017 開催レポート【2】

@progrhyme

Keywords: AI レポート

こんにちは。ゲーム事業本部開発基盤部の池田です。

去る2月10日、DeNAは技術カンファレンス「DeNA TechCon2017」を開催しました。

公開可能な資料については、公式サイトのスケジュール画面からリンクしておりますので、まだチェックしていないという方は是非ご覧ください。

追って、各セッションの動画もアップ予定です。

本記事は、この「DeNA TechCon2017」振り返り記事の第2弾となります。

今回は特に、DeNAの新たなチャレンジ領域である AI 分野について、Aステージで筆者が聴講した以下の3講演について取り上げます:

· 基調講演:「実世界の人工知能」株式会社Preferred Networks岡野原大輔様

o スライド資料

· 「強化学習を利用した自律型GameAIの取り組み〜高速自動プレイによるステージ設計支援〜」MASHIKO RYOSUKE, SEKIYA EIJI

o スライド資料

· 「DeNA AIシステム部におけるクラウドを活用した機械学習基盤の構築」SEO NAOTOSHI

o スライド資料

基調講演―実世界の人工知能

基調講演では、株式会社Preferred Networks岡野原大輔氏が登壇しました。

講演の前半では、畳み込みニューラルネットワークが近年の研究でどのように複雑に進化し、ディープラーニング(深層学習)と呼ばれるようになったかを解説しました。

深層学習で使われる畳み込みニューラルネットワークでは、ネットワークの層数やニューロン数が、それまでのものより桁違いに多くなっています。

この深層ニューラルネットワークが、現在、様々な分野で応用されつつあります。

講演では、応用分野として「自動車」「ロボット」「異常検知」「バイオ・ヘルスケア」「コミュニケーション」「クリエーター」といった分野における取り組みについて取り上げられました。

特に、「クリエーター」分野においては、線画にいい感じに着色する PaintsChainer が最近インターネットなどで話題になったことは、記憶に新しいのではないでしょうか。

結びとしては、深層学習・教科学習の進化は著しく、研究段階から実用化・ビジネス化チームが付き添うことが大事と締め括られました。

強化学習を利用した自律型GameAIの取り組み〜高速自動プレイによるステージ設計支援〜

こちらのセッションは前半・後半の2部構成でした。

前半では、強化学習そのものについてAIシステム部SEKIYA EIJIが発表しました。

まず、強化学習の仕組みについて簡単な解説をした後、2014年に登場した新手法であるDeep Q-Networksの概要を示しました。

次に、強化学習に関する最新の動向として、NIPS 2016で発表されたDeepMind LabやOpenAI Universeなどについて取り上げました。

後半では、強化学習の利用例として、FINAL FANTASY Record Keeperにおける自律型GameAIの活用事例について、同じくAIシステム部のMASHIKO RYOSUKEが発表しました。

FINAL FANTASY Record Keeperでは、ボスのパラメータ調整を行うため、バトルを自動プレイするAIに対するニーズがありました。

このバトルAIの行動決定アルゴリズムとして、探索的アプローチであるMonte Carlo Tree Searchと、ニューラルネットを用いたアプローチであるNEAT, Q-learningを適用した結果が比較解説されました。

結果として、ニューラルネットを用いた方法において、学習時間が掛かるなど課題はあるものの、人がプレイする場合と遜色ないレベルでの勝率を達成することができました。

講演の最後では、ゲームへのAI活用のポイントとして、ゲームシステムの設計段階でどこまでAIを利用するか考慮し、シミュレータやデータ形式を用意しておくことの重要性が挙げられました。

DeNA AIシステム部におけるクラウドを活用した機械学習基盤の構築

AIシステム部のSEO NAOTOSHIは、DeNAにおけるクラウドを活用した機械学習システム基盤の構築について発表しました。

DeNAの機械学習システムのインフラ面においては、「潤沢なGPU」「隔離された環境」「素早い構築」「運用が楽」「自由度を高く」「ミスが起きにくい」という6つの要素が求められていました。

本発表では、これらの要素一つひとつを達成するために、AWSやGCPを活用したインフラ環境の構築方法について示しました。

例えば、「素早い構築」については、TerraformやItamaeといったツールを活用し、AWS, GCPの両方に対応した環境構築をコード化していることが語られました。

発表の後半には、GPU学習環境をオンデマンドでスケールさせるために整備したツールや、APIサービス環境の構成が取り上げられました。

GPU環境をスケールさせるための内製ツール「ec2-scale-run」の中ではDockerが活用されています。このツールでは、使われなくなったインスタンスを再利用し、また不要になったら確実にシャットダウンする仕組みがあることが説明されました。

結びに

本記事を通して、DeNAがAI分野においてどのようなチャレンジ・取り組みをしているか、少しでも伝われば幸いに思います。

余談ですが、Aステージの講演では社員によるグラフィックレコーディングがリアルタイムに行われ、完成したものは展示スペースに貼り出されました。

下の写真は、基調講演のグラフィックレコードとなります。

次回の記事でも引き続き、発表されたセッションの模様を紹介していく予定です。

お楽しみに!

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

· CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

· Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

· Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1. Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2. Bbox Branch: bounding box regression is carried out for cropped ROIs.

3. Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1. 2D heatmap estimation using stacked hourglass network

2. ResNet encodes the heatmap and the image features into latent feature vectors

3. 3D mesh inference from the latent feature vectors by Graph CNN

4. 3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

· heat-map loss: keypoint estimation loss on the 2D images

· 3D pose loss: L2 loss of 3D keypoint estimation

· mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

· heat-map loss: the same as the one on the synthetic data.

· depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

· pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.

続きを読む

Introduction

Hi, I am Hiroto Honda, an AI R&D engineer at DeNA Co., Ltd. Japan. The research engineers in my computer vision (CV) team survey and discuss the latest CV papers every day. This time, we would like to share a part of our survey results on cutting-edge computer vision papers. Authors: Plot Hong, Toshihiro Hayashi and Hiroto Honda.

Contents

· Quick Summary

· Scope of the survey

· What is Human Recognition?

· Papers

o CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

o Deep High-Resolution Representation Learning for Human Pose Estimation

o Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

o Parsing R-CNN for Instance-Level Human Analysis

o 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

· Conclusion

Quick Summary

· Five arXiv papers regarding human and hand pose estimation, markerless motion capture, and body part segmentation are surveyed

· Using a multi-person pose estimation method on a region of interest is effective for crowded scenes.

· Keypoint localization accuracy can be improved by taking advantage of high resolution features.

· 3D human pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation methods, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Scope of the survey

The survey covers CV papers that were submitted to arXiv in November 2018 or later. We have picked the papers which we thought important and researched the details. In this report we introduce cutting-edge papers on human recognition, such as pose estimation.

What is Human Recognition?

In this report we introduce human recognition methods which aim at estimating human pose, human parts area or motion capture information using RGB images as input. The human recognition methods are grouped into two categories: top-down and bottom-up approaches. The top-down methods first detect the human instance regions and investigate each instance afterwards. The bottom-up ones first detect the body parts or joints in the whole image and group them afterwards. The methods we introduce this time are categorized as top-down approaches and single-person recognition. The following tasks are included in human recognition:

· Pose Estimation: a task to find and localize the human body parts such as eyes, shoulders and knees.

· Dense Human Pose Estimation: a task to localize dense body part points corresponding to the 3D model of human bodies.

· Markerless Motion Capture: a task to obtain motion capture output without using markers.

· Human Parsing: a segmentation task for body parts such as hair, face and arms.

The popular datasets used for human recognition are:

· MS-COCO is the de-facto dataset which includes annotations for object detection, segmentation, and keypoint detection.

· MPII, PoseTrack are the datasets for 2D keypoint detection.

· DensePose is the dataset for dense human pose estimation and includes body point annotation corresponding to the human 3D model.

· Human3.6M is the 3D human pose dataset.

· MHP is the dataset for human body part parsing.

· STB is the dataset for 3D hand pose estimation.

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

· CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

· Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

· Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1. Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2. Bbox Branch: bounding box regression is carried out for cropped ROIs.

3. Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1. 2D heatmap estimation using stacked hourglass network

2. ResNet encodes the heatmap and the image features into latent feature vectors

3. 3D mesh inference from the latent feature vectors by Graph CNN

4. 3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

· heat-map loss: keypoint estimation loss on the 2D images

· 3D pose loss: L2 loss of 3D keypoint estimation

· mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

· heat-map loss: the same as the one on the synthetic data.

· depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

· pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.

IT人材育成 oxford大学AI教授GUOLONG主讲online授课

授课对象 职业高中,高中,大学,研究生。。。社会人士 要学习先进技术的人

最短的课程是半年 一年 二年 三年

就业保障 推荐全球就业,阿里腾讯科大讯飞华为 百度等名企就业

AI授课的证书有。。。方便就业的,如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书,如果会日语的可以参加日本人工智能协会的资格考试 取得后全球通用

如果想来日本工作的话 协助推荐单位。。语言学院。。。签证事宜

同时可以协助办理留学 日本 英国 美国 推荐语言学院。住宿等业务

JDLA认证:日本深度学习协会认证课程(如果参加,则可以取得E资格)全球通用

开班时间

· Java10月31日立即报名

· UID10月31日立即报名

· WEB10月31日立即报名

· PHP10月31日立即报名

· 网络营销10月31日立即报名

· 软件测试10月31日立即报名

· 会计10月31日立即报名

· Linux10月31日立即报名

· C/C++10月31日立即报名

· VR/AR10月31日立即报名

· UED10月31日立即报名

· 嵌入式10月31日立即报名

· Android10月31日立即报名

· iOS10月31日立即报名

· .net10月31日立即报名

· 大数据10月31日立即报名

· 产品经理10月31日立即报名

· 高级电商10月31日立即报名

如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书

基盤技術開発

下記のようなスキルが必要となります。

・人工知能の基礎となる数学、統計学、論理学、情報理論、ソフトウェア工学、クラス分類・回帰・予測などの広範な知識

・Python、OpenCV、scikit-Learn、TensorFlowなどの高度なプログラミングスキル

・ソフトウェア開発業務の経験

「コネクテッドやカーシェアリングを支える人工知能の基盤技術開発」

他製品やサービスへの応用を見越した人工知能の共通基盤技術の確立に携わります。

KEYWORD#教師なし学習 #生成モデル #ドメイン適合 #深層強化学習 #説明可能性

応用技術開発

下記のようなスキルが必要となります。

・文字認識、画像認識、物体検知、時系列データ処理などの応用技術に関する知識

・C++、Python、OpenCVなどのプログラミングスキル

・バージョン管理、プロジェクト管理のスキル

・グループでのソフトウェア開発業務の経験

「スマート工場実現に向けた人工知能の応用技術開発」

スマート工場で求められる外観・異音検査、異常検知・予知、最適制御向けの人工知能ソフトウェアの開発に携わります。

KEYWORD#ゼロエミッション #工法開発

「自動運転実現に向けた技術開発」

AIを用いた物体認識技術・画像認識技術等の開発と評価・分析を実施することで人工知能技術の概要を理解してもらいます。

KEYWORD#物体認識 #画像認識 #量子コンピューター #アルゴリズム

合作伙伴

中国人工智能 5G×AI 等人才育成

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 中科院,清华大学等主讲

人工智能基础

講座一覧

講義名

受講に必要となる前提知識

受講者像

修了時の目標

プログラミング

数学

データ

サイエンティスト

育成講座

☆☆

大学における初歩的な統計・線形代数の知識を持ち、プログラミングの経験があるもの。

統計的解析・機械学習・ビッグデータ解析など、データ分析に関する一通りの技術を身につけ、データサイエンティストとして各種の実問題を解決できる。

Deep Learning

基礎講座

☆☆☆

☆☆☆☆

工学系大学レベルの線形代数・微積分・確率・統計に関する知識を有し、Pythonでの数値解析の経験を有する者。

理論的な構造を理解し、利用するだけでなく、新しいモデルを作ることができる。Deep Learning系の論文を元に自分でモデルを構築・開発することができる。

Deep Learning

応用講座 – 生成モデル

☆☆

☆☆☆☆

Pythonでのプログラミング経験および線形代数・微積分・確率・統計の知識を有する者。Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における生成モデルの技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

応用講座 – 強化学習

☆☆

☆☆

Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における強化学習の技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

応用講座 – NLP

☆☆

☆☆☆

Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における自然言語処理の技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

実践開発講座

(DL4US)

☆☆

Pythonでのプログラミング経験があり、大学における初歩的な統計・線形代数の知識を有するもの。

画像認識、NLP、生成モデル、強化学習など、Deep Learningの重要技術をアプリケーションに適用できる。

Web工学と

ビジネスモデル

プログラミングの経験があるもの。

Web技術を武器として、世界に対して働きかけることができる。また、Web分野における重要なビジネス戦略を理解し、実践できる。

最新の計算機技術によってディープラーニング研究を促進するためのHPCチームがあります。私たちは、研究において良質なインフラが非常に重要な役割を担うと考えており、日々学生や研究者に最先端の技術を提供しています。

ディープラーニングのためのGPU

GPUアクセラレータは、今やディープラーニングアプリケーションにおいて非常に重要な要素です。これを用いることで、数日かかっていたニューラルネットワークの学習時間を数時間にまで短縮できることができます。NVIDIA Pascalのような最新のGPUであれば、この時間をさらに数分にまで短縮することができます。

学生が利用できる設備

松尾研究室の学生や研究者は、専用のNVIDIA GPUを備えた個人用のPCを利用できます。

サーバー環境

HPCチームは、ディープラーニング研究のために、GPUをHPCサーバーを管理しています。そのうち5つは4つの TITAN X GPUを備えており、機械学習・ディープラーニング研究を強力にサポートします。また、最新のXeon Phiを搭載したサーバを2台導入しています。

GPU Type

Amount

TITAN X

17 (+2)

TITAN X (Pascal)

8 (+4)

TESLA K40

4

GEFORCE 980GTX

3

TITAN BLACK

2

Xeon Phi

2

仮想サーバー

ほぼすべてのサーバーは高度に仮想化されており、合わせて213の仮想サーバーが存在します(2016/05/13現在)。これらのサーバーはGPUやファイルシステムなどのリソースを共有することにより、メンバーが仮想サーバーを素早く構築して利用することを可能にしています。

高負荷の下での複数ユーザーによる利用を常に可能にするために、すべてのサーバーに最大で16の物理コアを持つIntel Xeon CPUを使用しています。

計算機(サーバー)は、ディープラーニング研究だけでなく、Web解析やデータサイエンスのような膨大な量の計算リソースを必要とする様々な研究にも利用されています。

Data Science Online Course

第3期は終了しました。

第3期以降、社会人向けオンラインコース開催の予定はありません。

東大のデータサイエンティスト/未来のCMO育成講座の社会人向けオンラインコースです

本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。

第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。

本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。

本公開講座は国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務の一環として実施しています。

●コースの概要

  • 大量のデータを自由自在に解析・分析し、隠れた関係性を発見する。そんなスキルを身につけた「データサイエンティスト」に対する需要は、工学分野だけならず、医療・経済・経営・ライフサイエンスなど非常に多くの分野で高まる一方です。

  • 本コースでは、あらゆる分野で武器になるデータの解析・分析スキルのコアとなる機械学習およびビッグデータを扱う技術、分析結果を効果的に可視化する技術の基盤を網羅的に身につけ、一人前のデータサイエンティストとして活躍する入り口に立つことを目指します。

●受講対象者

  • こんな人にオススメ

    • 高度なデータ解析でインパクトを出したいビジネス/マーケティング分野の専門家

    • 機械学習技術を身に着けたいソフトウェアエンジニア

    • データを扱うスキルの基礎を網羅的に学びたい非情報系の研究者

    • ディープラーニングを学ぶための前提スキルを一気に身につけたい方

  • 受講に必要なスキル

    • Pythonで基礎的なコーディングができる

    • 大学の初等数学を理解している

●特徴

  • Practice > Theory

    • 本コースは、一般的な教科書とは異なるアプローチを取り、理論よりも実際の問題への応用に主眼を置き、手を動かしながら実装力をつけることを目指した設計となっています

    • 修了レベルにある人が1chapter4時間程度で完了できるボリュームとなっており、学習者のレベルにより習得にかかる時間が変動する設計となっています

  • End-to-end

    • 全14Chapterを通し、データのセットアップから解析、可視化やモデルのアウトプットまで、一気通貫でできることを目指します

    • 全体を通じて、分析の「流れ」を掴むことを意識しています

  • iLect

    • 本コースは、「Practice makes perfect」の考えに基き、演習を通じての技術習得を目指します。演習では、ブラウザ上からアクセス可能なフルスタックのLinux+Python開発環境を利用し、本題のみに集中して学習できるように講義を設計しています(ilectの詳細はこちら)。

●受講の仕組み

  • 期間

    • 本コースはオンラインコースですが、定められた期間にて課題をクリアし修了を目指すコースとなります

    • 全13週間、毎週1Chapterずつ順次公開し、1Chapter-1週間を目安に学習を進めていきます

      • 欠席を4回以上(全13回のうち、4回分以上システム利用がなかった場合)したアカウントは停止となります

  • 修了証

    • 全Chapterでの課題と最終課題をクリアされた方には講座修了証を発行します

  • 修了者へのベネフィット

    • 修了者にクローズドなコミュニティを作り、様々な機会をご案内していきます

    • データサイエンス関連のイベント・勉強会や研究プロジェクトへの参加

●カリキュラム

Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎

  1. Numpy、Scipy、Pandas、Matplotlibの基礎

  2. 総合問題

Chapter2 : 記述統計学と単回帰分析

  1. 記述統計学と単回帰分析

  2. 総合問題

Chapter3 : 確率と統計の基礎

  1. 確率・統計の基礎

  2. 総合問題

Chapter4 : Pythonによる科学計算の基礎(NumpyとScipy)

  1. 概要

  2. Numpy

  3. Scipy

  4. 総合問題

Chapter5 : Pandasを使ったデータ加工処理

  1. Pandas

  2. 欠損データと異常値の取り扱いの基礎

  3. 総合問題

Chapter6 : Matplotlibを使ったデータ可視化

  1. データの可視化

  2. 分析結果の見せ方を考えよう

  3. 総合問題

Chapter7 : データベースとSQLの基礎

  1. この章の概要

  2. SQLの基礎

  3. ビュー

  4. 総合問題

Chapter8 : データベースの応用(高度なSQL処理と高速化)

  1. この章の概要

  2. 高度なSQLの基礎

  3. ストアドプロシージャとストアドファンクション

  4. インデクシングとSQLの高速化

  5. その他

  6. 総合問題

Chapter9 : ドキュメント型DB(MongoDB)

  1. NoSQLとRDBMS

  2. MongoDBの基礎知識

  3. MongoDBの基本操作

  4. MongoDBのパフォーマンス向上

Chapter10 : 機械学習の基礎(教師あり学習)

  1. 機械学習の全体像

  2. 重回帰分析

  3. ロジスティック回帰分析

  4. 正則化、ラッソ回帰、リッジ回帰

  5. 決定木

  6. k-NN

  7. サポートベクターマシン

  8. 総合問題

Chapter11 : 機械学習の基礎(教師なし学習)

  1. クラスタリング(クラスター分析)

  2. 次元圧縮(主成分分析)

  3. バスケット分析とアソシエーションルール

  4. 総合問題

Chapter12 : モデルの検証方法とチューニング方法

  1. この章で学ぶこと

  2. 過学習の対処法とモデルチューニング方法

  3. 混同行列とROC曲線

  4. シミュレーションと計算統計学の基礎

  5. アンサンブル学習

  6. 総合問題

Chapter13 : データサイエンスティスト中級者への道

  1. この章の概要

  2. 深層学習を学ぶための準備

  3. Pythonの高速化

  4. Spark入門

  5. その他の数学的手法とエンジニアリングツール

  6. 総合問題

Chapter14 : 総合演習問題(最終課題)

更多>>

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 中科院,清华大学等主讲

全新撰写课程的配套讲义,紧密结合人工智能算法案例

基于Python 3主讲,微信群及时答疑

全网独家中文课程,理论与实际案例结合

理论结合实践,中科院于红红博士主讲

课程内容严谨系统,理论配合编程实践

10大常用算法,Python与Matlab双语言实践

计算机视觉

直播

计算机视觉必备基础,系统化地讲解

全网独家课程,立体视觉关键技术,核心算法逐行代码实现

讨论式教学方式,小班授课

机器人

定位与自主导航(SLAM)

独家中文课程,实践项目为主线

系统讲解理论基础,精心设计作业和项目

量产机器人技术负责人主讲,概述激光SLAM现状及未来方向

课程设置由浅入深,涵盖ROS机械臂开发中的诸多细节

系统讲述ROS主要功能,微信群实时答疑

主讲发展概况,介绍关键技术

可以参照的实例

授课对象 职业高中,高中,大学,研究生。。。社会人士 要学习先进技术的人

最短的课程是半年 一年 二年 三年

推荐全球就业,阿里腾讯科大讯飞华为 百度等名企就业

AI授课的证书有。。。方便就业的,如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书,如果会日语的可以参加日本人工智能协会的资格考试 取得后全球通用

如果想来日本工作的话 协助推荐单位。。语言学院。。。签证事宜

同时可以协助办理留学 日本 英国 美国 推荐语言学院。住宿等业务

JDLA认证:日本深度学习协会认证课程(如果参加,则可以取得E资格)全球通用

技能水平分析表

为了确定未来AI不好的领域,它会分析了解的内容和不了解的内容,并自动生成适合您水平的最佳学习课程。

Q1。在哈牛桥智能科技学习的东西

Python编程Web开发机器学习数据分析和Kaggle抓取SQL深度学习

Q2。请告诉我您的编程经验。

我从未学过编程。编程经验1-3个月编程经验3-6个月编程经验6个月以上

Q3。检查您学习了一个多月的以下编程语言。 (可以选择多个)

Java PHP Ruby Swift R Python C C ++其他

Q4。请告诉我您的数学经验。

我来自文科,根本没有经验。我不擅长数学。我学习了高中数学(数学III和C)。我在大学学习线性代数。我对数学充满信心。目前独自学习。

Q5。请告诉我们您的统计经验。

我从未学过包括自学在内的统计学知识。通过自学学习统计的水平。我在学校和大学学习过统计学。我对统计数据充满信心。目前独自学习。

Q6。请告诉我您的英语阅读能力。 /请告诉我您的阅读英语技能。

英语等级考试的4至3级英语阅读能力不及初中毕业生。 英语等级考试 3级和2级有些句子由于语法结构等而无法理解。英语等级考试准1级至1级只要检查单词就可以理解句子的含义语法结构没有问题英语报纸和论文阅读没有问题。目前独自学习。

Q7。请告诉我们您的英语听力技巧。 /请告诉我您的聆听英语技能。

可以理解已被模式化的日常对话,例如自我介绍。可以理解未被模式化的日常对话和聊天以及当天发生的对话。您可以掌握大纲包括详细的说明和技术术语时,您将无法理解。即使包括了详细的说明和技术术语,您也可以毫无困难地理解。当前正在通过自学学习。

Q8。请描述您在人工智能和机器学习方面的经验。

我知道人工智能和机器学习这两个词,但我从未学过,我也不知道该怎么办。我自己阅读了至少一本有关人工智能和机器学习的入门书。我已经通过书籍,在线视频服务和研讨会学习了机器学习。我正在实践中进行机器学习,但我想听听专家的更多详细信息。目前独自学习。

Q9。请描述您要学习的有关Python和AI的目标。 (如果您尚未决定,请声明尚未决定)

Q10。您将来是否想找份工作或更改为AI工程师?

我要我不想(我现在没有考虑。)正在考虑中(将来我有可能想以AI工程师的身份工作或换工作。)

分析!

日本人工智能 5G×AI 等人才育成

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 東京大学,大阪大学、京都大学等主讲

コースコード

コース名

価格(税込)

人工知能基礎

BSC0028G

人工知能の基礎 ~人工知能の歴史、基礎技術、AIの活用例を学ぶ~

71,500 円

MAC0001R

AIダイジェスト ~AIを知る最初の一歩~

77,000 円

機械学習

DBC0099G

マシンラーニングオーバービュー ~AIを支える技術・理論・利用方法を学ぶ~

71,500 円

DBC0096R

機械学習による問題解決実践 ~データサイエンティスト入門研修~

220,000 円

DBC0115R

ディープラーニング ハンズオン Chainerコース -キカガク主催-

220,000 円

DBC0116R

ディープラーニング ハンズオン Chainerコース E資格受験プラン -キカガク主催-

330,000 円

DBC0117R

ディープラーニング ハンズオン Kerasコース -キカガク主催-

220,000 円

DBC0118R

ディープラーニング ハンズオン Kerasコース E資格受験プラン -キカガク主催-

330,000 円

GGC0011R

Google Cloud Platform Fundamentals :BigData & ML -CloudAce主催-

110,000 円

DBC0107R

データサイエンス徹底演習 ~実務で活かせるデータサイエンス入門~

220,000 円

ビジネス利用

BSC0038G

AIプランナー基礎編

132,000 円

BSC0034G

AIを活用したビジネスモデルの構築と提案 ~ 導入事例・最新動向を学び自社ビジネスにAIを導入する~

143,000 円

BSC0030G

AI・IoTビジネス創造 ~AI・IoT活用による新規事業のつくり方~

143,000 円

BSC0031G

AI・IoTビジネス戦略 ~戦略から計画を立案するスキルを習得する~

143,000 円

BSC0032G

AI・IoTビジネス法務入門 ~AI・IoTを取り巻く法規制を学び、法務戦略を検討するスキルを習得する~

71,500 円

MAC0001R

AIダイジェスト ~AIを知る最初の一歩~

77,000 円

MAC0002R

アセスメント人材育成コース ~AI活用「成功」の方程式~

165,000 円

MAC0003R

AIダイジェスト ~AIを知る最初の一歩~

88,000 円

MAC0004R

アセスメント人材育成コース ~AI活用「成功」の方程式~

176,000 円

【 前提条件 】

・人工知能(AI)の概要(一般論や用途、歴史等)

・高校レベルの数学(線形代数、確率・統計、微分・積分等)の基礎知識

・Pythonプログラミング基礎レベル

・機械学習の基礎知識(アルゴリズムを組む経験があると尚可)

・英語レベル:TOEIC 700以上(目安)

【 対象者 】

・AIの原理原則からAIの設計・導入に必要な知識、ノウハウを体系的に学びたい方

・AIエンジニアを目指している方

スキル・レベル分析フォーム

AIが今後の苦手分野を特定するために、何を理解して何を理解していないのか分析し、あなたのレベルに合った最適な学習コースを自動生成します。

フォームの始まり

Q1. 学びたいこと

PythonプログラミングWeb開発機械学習データ分析やKaggleスクレイピングSQLDeep Learning

Q2. プログラミング経験を教えてください。

プログラミングは一切学んだことはない。プログラミング経験は1〜3ヶ月プログラミング経験は3〜6ヶ月プログラミング経験は6ヶ月以上

Q3. 以下のプログラミング言語の中で1ヶ月以上学習したことのある言語にチェック入れてください。(複数選択可)

JavaPHP RubySwiftRPythonCC++その他

Q4. 数学の経験を教えてください。

文系出身であり全くの未経験。数学に苦手意識を持っている。高校数学(数学III・C)は学んだ。大学で線形代数は学んだ。数学には自信がある。現在独学で勉強中。

Q5. 統計学に関する経験を教えてください。

統計学に関して独学も含め一切学んだことはない。独学で統計学を勉強した程度のレベル。統計学は学校や大学で学んだ。統計学には自信がある。現在独学で勉強中。

Q6. 英語のリーディングに関するスキル経験を教えてください。/ Please tell me your READING English skill.

英検4~3級レベル 英語の読解力は中学生卒業レベルで苦手意識がある。英検3〜2級レベル 文法構造などで意味のわからない文章もある英検準1~1級レベル 単語さえ調べれば文章の意味がわかるレベル 文法構造などについては問題はない英語のニュースペーパーや論文を問題なく読める。現在独学で勉強中。

Q7. 英語のリスニングについてのスキル経験を教えてください。/ Please tell me your LISTENING English skill.

自己紹介などのあるパターン化された日常会話は理解できるパターン化されていない日常会話・雑談や、その日に起きた話題などの会話を理解することができる込み入った話でも相手の話していることの大枠が掴める 詳細な説明や専門用語などが含まれると理解できなくなる詳細な説明や専門用語などが含まれても支障なく理解することができる現在独学で勉強中。

Q8. 人工知能や機械学習に関する経験をご記入ください。

人工知能や機械学習という言葉は知っているが全く学習したことがなく、何ができるかもわからない。人工知能や機械学習に関する入門書は1冊でも独学で読んだことがある。過去に書籍やオンライン動画サービスやセミナーなどを通して機械学習に関することを学んだことがある。実務で機械学習をやっているが、専門家からより詳しい内容を聞きたい。現在独学で勉強中。

Q9. PythonやAIを学んでやりたい目標などをご記入ください。(決まっていない方は決まっていないと記入してください)

Q10. 将来、AIエンジニアとして就職・転職したいですか?

したい。したくない。(今は考えていない。)検討中(今後AIエンジニアとして就職・転職を希望する可能性がある。)

分析する!

· AIの組み込み(設計・製造・試験)

· Google社等のAPIを使ったプロダクトの開発

· 動画解析による顔認識システムの開発

· スマートフォン向けARアプリの開発

· Python等の学習

· 深層学習フレームワークの利⽤経験

· 深層学習のモデル実装経験

· ⾼い論理的思考⼒

· 数学的な深い知識(線形代数・統計/確率・微積分

AIエンジニアとは?

深層学習(Deep Learning)を中心とした人工知能(AI)技術を活用したプロダクトの開発がおこなえる技術者です。

ディープラーニング Ⅰ~Ⅱ

ディープラーニング(深層学習)とは、人間が自然に行うタスクをコンピュータに学習させる機械学習の手法のひとつです。

ディープラーニングに関する知識を習得し、事業活用する人材(ジェネラリスト)になりうる学習をおこないます。

AIプログラミング Ⅰ~Ⅱ

AIプログラミング応用 Ⅰ~Ⅱ

機械学習やDeep LearningなどのAI(人工知能)分野のプログラミングで、現在最もよく使われる言語がPython(パイソン)です!

Pythonで実装された様々なAI関係のライブラリを使うことで、手軽にAIに触れることができます。

そのPythonプログラミングを学習します。

直結する資格試験

· ディープラーニング検定 for GENERAL

· Python3 エンジニア認定基礎試験

カリキュラム

1年

Computer

Technology

Date Analysis

Business

前期

コンピュータ入門

AIプログラミングⅠ

ビックデータ分析Ⅰ

AIライブラリー活用Ⅰ

ネットワークⅠ

ディープラーニング

経営学Ⅰ

Linux Ⅰ

AIプロダクト開発技法Ⅰ

英会話Ⅰ

データベースオラクルⅠ

プログラミングⅠ

アルゴリズムⅠ

後期

ネットワークⅡ

AIプログラミングⅡ

ビックデータ分析Ⅱ

AIライブラリー活用Ⅱ

Linux Ⅱ

ディープラーニングⅡ

経営学Ⅱ

データベースⅡ

AIプロダクト開発技法Ⅱ

英会話Ⅱ

プログラミングⅡ

アルゴリズムⅡ

2年

Computer

Technology

Date Analysis

Business

前期

ネットワークⅢ

AIプログラミング応用Ⅰ

AIライブラリー活用Ⅲ

Linux Ⅲ

AIプロダクト開発技法Ⅲ

就職教養Ⅰ

データベースオラクルⅢ

セキュリティⅠ

後期

ネットワークⅣ

AIプログラミング応用Ⅱ

AIライブラリー活用Ⅳ

Linux Ⅳ

AIプロダクト開発技法Ⅳ

就職教養Ⅱ

データベースオラクルⅣ

セキュリティⅡ

実習時間比率

時間割例(1年後期)

9:20~10:50

AIプログラミング

経営学

プログラミングⅡ

ネットワークⅡ

11:05~12:35

ビックデータ分析Ⅱ

アルゴリズムⅡ

AIライブラリー活用Ⅱ

プログラミングⅡ

ネットワークⅡ

13:25~14:55

AIプロダクト開発技法Ⅱ

データベースオラクルⅡ

ディープラーニングⅡ

Linux Ⅱ

15:10~16:40

プログラミングⅡ

英会話Ⅱ

AIプログラミング

AIの開発で利用するプログラミング言語Python(パイソン)を学びます。

AIプロダクト開発技法

AIで利用する画像・音声認識の開発を学びます。

AIライブラリ活用

プログラミング言語で様々なAI機能を利用するための便利なライブラリ(プログラミング言語用部品集)の使い方を学びます。

ディープラーニング

ニューラルネットワークの構造を理解して、実際にトレーニングデータを収集し、学習させて判断させる方法を学んでいきます。


資格取得について

SEプログラマ科 取得目標資格

ディープラーニング検定

for GENERAL

ディープラーニングに関する知識を有し、事業に活かすための人材(ジェネラリスト)の育成を目指した新たな資格試験

基本情報技術者

情報工学に関連するエンジニアの実務においてベースとなり、プログラマを対象とした情報処理技術者試験制度。(国家試験)

Javaプログラミング能力認定試験

プログラム言語であるJavaのプログラミング能力試験です。対象は初級から上級のプログラマやシステムエンジニアであり、幅広いスキルが測定できる。

オラクル認定Java資格

プログラミング言語「Java」の基本的な技術から実践的な開発・設計など「Java」の幅広い知識を問われる能力を認定する資格。

Python 3 エンジニア

認定基礎試験

一般社団法人Pythonエンジニア育成推進協会が実施している、Pythonの文法や基礎知識を問う資格試験

オラクルマスター

世界シェア1位を誇るデータベースソフトウェアベンダーのオラクルが、オラクル製品に関する技術者を認定する制度。

Linux技術者認定試験

Linux技術者としての技術力を認定するIT資格です。公正なLinuxスキルの判断基準として国際的に認められており、180か国以上の技術者が受験しています。

情報検定(J検)

業界業種に関係なく、コンピュータを扱う基本的なスキルを身に付けていることを証明する資格。

専門科目

プログラム基礎、プログラム応用、AI概論、AI実習、API実装、画像認識、音声認識、機械学習、深層学習、データ分析、ディープラーニング、AI開発、AI企業プロジェクト、IT基礎、数学、統計学、プレゼンテーション など

興味があるコース必須

WebアプリケーションコースPHP/LaravelコースフロントエンドコースWordPressコースiPhoneアプリコースAndroidアプリコースUnityコースはじめてのプログラミングコースWebデザインコースUI/UXデザインコースWebディレクションコースWebマーケティングコースJavaコースExcel2013 コースPythonコースAIコースブロックチェーンコースScratchコース動画編集コースGoogle Apps Scriptコースデータサイエンスコースエンジニア転職保証コース

Python

機械学習でよく使われる言語

機械学習

AIを構築する際の根幹となる技術の1つ

Pandas

データの集計・分析を行うライブラリ

scikit-learn

回帰分析やクラスタリングなどを行うライブラリ

Keras

画像やテキストなどの分析を行うライブラリ

AIコース

データサイエンスコース

プログラミング

Python

機械学習

教師あり学習scikit-learn

ディープラーニング

KerasTensorflow

評判分析

クラスタリング

数学・統計学

確率・推定・検定

モデルの構築

統計モデルの構築モデルの最適化

TensorFlow

画像認識や音声認識技術を行うライブラリ

機械学習とデータ分析入門

ディープラーニング入門

Numpy 入門

Pandas 入門

Matplotlib 入門

線形代数 入門

統計入門(前編)

統計入門(後編)

線形回帰 入門

機械学習に必要な数学の基礎

機械学習ライブラリの基礎

ニューラルネットワークの基礎

Deep Learningフレームワークの基礎

MRI画像のセグメンテーション

血液の顕微鏡画像からの細胞検出

ディープラーニングを使った配列解析

ディープラーニングを使ったモニタリン グデータの時系列解析

はじめてのAI

はじめての働き方改革

はじめてのデジタルマーケティング

What is AI

AI problem solving

Real world AI

Machine learning

Nueral networks

Implications

Intro to Fairness in Machine Learning module

Introduction to Machine Learning Problem Framing

Data Preparation and Feature Engineering in ML

Machine Learning Crash Course with TensorFlow APIs

Serverless Machine Learning with Tensorflow on Google Cloud Platform

Deep Learning Nanodegree Foundation

Data Engineering on Google Cloud Platform Specialization

機械学習

aws/インフラ技術

数学

Python基礎から応用

PHP応用

G検定

数学

ディープラーニング

JAVA基礎~応用

R言語+統計学

主なカリキュラム(4年次)

E資格

Ruby

ブロックチェーン

IoT

プログラム実習

IT基礎

ITに関する基礎知識を学び、インターネット環境の概要を理解する。

主な学習内容

· ハードウェア

· ソフトウェアとマルチメディア

· システム構成

· ネットワーク

· セキュリティ

· データベース

· アルゴリズムとプログラミング

· マネジメント

· 企業活動と法務

· 経営戦略とシステム戦略

カリキュラム例

AI概論

AIの概念と実際にコードを書き、プログラムを作成する授業です。

主な学習内容

· AzureMLでできること

· クレジットカード審査のAIを作ろう

· 花の画像認識AIを作ろう

· クラス分類の機械学習

· 回帰の機械学習

· 異常検知の機械学習

· Pythonについて学ぼう

· リストとNumpy

· AIの活用事例・体験できるAI

· データ前処理

· ニューラルネットワークで回帰分析

· ハイパーパラメータの調整

カリキュラム例

Python

様々な分野でスタンダードなプログラム言語「Python」を学ぶ。

主な学習内容

· Python概論/環境構築/Hello World/変数/定数

· モジュール分割/パッケージ分割/例外処理

· Web制作

· データ型/演算子/スコープ/関数/配列

· Web開発概論/Django環境構築/DjangoのHelloWorld

· リスト型・タプル型/スライス/集合型/辞書型

· MySQLの導入・利用

カリキュラム例

プログラミング

開発・サーバー・DB・WEBなどで使われる基礎的なプログラム言語を学ぶ。

主な学習内容

· Linuxプログラミング

· PHPプログラミング

· Webプログラミング(HTML/CSS)

· Webプログラミング(JavaScript)

· DBプログラミング(SQL)

· DBプログラミング(データベース設計)

· Webアプリケーション開発概論

· ネットワーク基礎、Webサーバ構築

カリキュラム例

ロボティクス

プログラミングを通して、ロボット制御を学ぶ。

主な学習内容

· プログラミング概論

· 論理的思考力の形成

· Pythonを活用したロボティクス開発

· Pythonプログラムと条件分岐

· Pythonプログラムと関数

· Pythonプログラム演習

· C++プログラムと概要・環境構築

· C++プログラムと変数・四足演算

· C++プログラムと関数

· C++プログラム演習

目指せる資格・検定

  • CompTIA A+

  • AWS Academy Cloud Foundations

  • AWS Academy Cloud Architecting

  • マルチメディアソフト制作者能力検定

  • 基本情報技術者試験など

  • ITパスポート

目指せる仕事

  • AIエンジニア、

· AIコンサルタント、

· AIエバンジェリスト、

· ソフトウェアプログラマー、

· システムインテグレーター、

· システムエンジニア、

· データアナリスト、

· データサイエンティストなど

· 事前学習

プログラムを始める前の確固たる基礎

o 数学

o -線形代数

o -微分積分



o データサイエンスツール

o -Jupyter Notebook

o -Pandas

o -Numpy

o -Matplotlib(Seaborn)

o -Kaggle EDA

o -機械学習概要

o -前処理

o -オープンデータセット演習

o -Sklearn

JDLA認定:日本ディープラーニング協会の認定講座(受講すればE資格を受験できる

AIプラス AI教育サービスコース概要

コース

対象者

AIビジネス概論コース

ビジネスにAIを適用しようとしている方

AI技術概論コース

AI技術を活用した情報システムの開発を行いたい方

ディープラーニング実践コース

業務でディープラーニングのモデルを作成し、画像分析を行いたい方

1.AIビジネス概論コース

コース概要

AIを活用して業務効率の向上のために必要な、AIに関する全般的知識の習得をめざします

到達目標

· AIの技術動向を理解できる

· 業務へのAIの適用方法を理解できる

· AI案件の推進プロセスを理解できる(計画、構築、保守各フェーズ)

対象者

ビジネスにAIを適用しようとしている方

前提知識

ビジネスにIT活用をした経験がある方

教育内容

1. オリエンテーション

2. 最近のAIの話題

3. AIとは

4. AIを取り巻く状況

5. ディープラーニングとは

6. AI案件のすすめ方

7. 必要なハードウェア、ソフトウェア

8. AI案件で注意すべきこと

9. 当社のAIへの取り組み

2.AI技術概論コース

コース概要

座学およびPCを使用した演習により、AI技術を活用した情報システム開発の取りまとめに必要な知識を学習します

到達目標

· AIの概要や使用方法などを理解し、適切な技術を選択できる

· PoCを計画し、結果を評価して投資判断ができる

· AI技術を活用した情報システムの開発を、リーダーとして推進できる

対象者

AI技術を活用した情報システムの開発を行いたい方

前提知識

情報システム開発経験がある方または同等の知識をお持ちの方

教育内容

1. オリエンテーション

2. AI/ディープラーニング概要

3. ディープラーニングの使い方

4. ディープラーニング体験演習

5. ディープラーニングの仕組み

6. ディープラーニングの実用

7. AI適用における評価方法

8. 商用サービス紹介

9. AI適用における可否判断およびあい路

10. AIシステム構築の進め方(契約の注意点)

11. 当社のAIへの取り組み

3.ディープラーニング実践コース

コース概要

Keras*を使った実践的なディープラーニングの開発手法の習得をめざします

*機械学習用ライブラリ

到達目標

· 画像分類のモデルが作成できる

· 物体検出のモデルが作成できる

対象者

業務でディープラーニングのモデルを作成し、画像分析を実施したい方

前提知識

· AI技術概論コース習得済みの方、または同等の知識をお持ちの方

· 情報システムの開発プログラミング経験がある方

教育内容

【1日目】

1. オリエンテーション

2. ディープラーニング概要

3. ディープラーニング体験演習

4. 精度の評価方法

5. Pythonの基本文法の説明

6. 多層パーセプトロン

7. 精度を上げるためのテクニック(1)

【2日目】

1. オリエンテーション

2. 畳み込みニューラルネットワーク

3. 精度を上げるためのテクニック(2)

4. ネットワーク構造

5. オリジナルデータを使う

6. 転移学習

7. 判断根拠の可視化

【3日目】

1. オリエンテーション

2. 物体検知

3. テキスト分類

4. しきい値の調整

5. ディープラーニングの応用例

6. 数値データの回帰

7. コンペティション形式演習

协助企业

CSAJ(コンピュータソフトウェア協会)、IT連盟(日本IT団体連盟)、JASPA(全国ソフトウェア協同組合連合会)、TCA(電気通信事業者協会)、JISA(情報サービス産業協会)、JEITA(電子情報技術産業協会)、JIPDEC(日本情報経済社会推進協会)、CIAJ(情報通信ネットワーク産業協会)、AMD(デジタルメディア協会)、テレサ協(テレコムサービス協会)、DiTT(デジタル教科書教材協議会)、安心協(安心ネットづくり促進協議会)、FMMC(マルチメディア振興センター)、DCAJ(デジタルコンテンツ協会)、APPLIC(全国地域情報化推進協会)、DSK(情報通信振興会)、全携協(全国携帯電話販売代理店協会)、日本動画協会、CESA(コンピュータエンターテイメント協会)、JOGA(日本オンラインゲーム協会)、IAjapan(インターネット協会)、音制連(日本音楽制作者連盟)、音事協(日本音楽事業者協会)、経団連、新経連、日本商工会議所、日本生産性本部。

渠道合作

(一)院校合作

1、师资交流:公司与学院提供相互师资交流机会,学院可以随时派教师到公司学习最新课程与项目实训,公司派遣工程师到学院学习交流新的授课方法及教学经验。

2、技术支持:与学院建立项目实践小组共同建立科研课题为学院提供技术支持,帮助学院承接的社会商业项目提供技术支持。

3、教材研发:共同开发教材,公司提供案例实践,学院提供系统理论依据共同开发教材为学生提供优秀教学教材。

4、教学支持:公司根据学校教学安排为学生安排工程师进行项目实训。增加学生的就业实践能力。

5、创新创业活动:公司提供创新创业基金,扶持学院的创新创业活动并对优秀学员提供资金扶持政策,帮助学生成立科技公司等活动。

6、大赛技术扶持:协助学院参加国内、国际大赛提供技术支持。

7、实验室建设:合作计划开展工作顺利后公司根据实际情况为学院建立实验室,增加学生的实际操作能力。

8、顶岗实习:公司安排相应岗位允许部分学生到公司参加实习工作。

9、就业实训:公司安排实训课程,基础课程学院完成,实践课程公司完成,参加实训的学生全部由公司安排工作,签订就业协议。

10、互设办事机构:公司在学院设立人才培养基地,学院在公司设立创新创业基地,并进行相互挂牌实行学分置换,为学生的就业、创新、创业提供全方位支持。同时公司对没有参加实训活动的学生提供免费的就业素质教育和就业服务。并对来全国工作的或到其他地方有公司办事机构的同学提供免费服务。

(二)品牌合作

1、地方教育机构合作:选择全国各地有实力、信誉好的地方机构公司,实现强强联合,共同成立联合企业。优势互补、资源互补。造福地方学生和企业。

2、商业项目合作:地方企业或机构利用自己的优势资源承接商业项目,哈牛桥智能科技提供强大的科研团队。实现共同发展。

(三)代理招生

1、机构代理:选择口碑好的企业或机构联合招生,促进地方的高端就业。

2、个人代理:与在地方具有影响力,品质好的,愿意为当地学生服务、奉献的人事合作招生,提高当地学生的就业质量,造福一方学生。

联系人:国经理 15371129229 微信 yuhonghong7035哈牛桥智能科技 IT人才育成 招聘

现因业务需要,诚聘以下岗位人才,欢迎投递简历。


一、电话销售经理

岗位职责:

1、负责线上整体信息量的转化及团队的管理、对整体业绩负责;

2、负责腾讯课堂、直播课、在线平台信息量转化,转化方式主要为网络咨询及电话咨询;

3、负责信息量线下的流转及后续跟进;

4、逐渐完善线上销售工作流程、制度、培训方案的制定;

5、在线营销端数据梳理及统计、并根据数据进行持续改进。

任职资格:

1.3年以上电话销售或销售工作经验,有教育类在线咨询经理优先;

2.大专及以上学历,专业不限;

3.通过电话与客户进行有效沟通,保证完成销售业绩,有电话销售或销售工作经验者优先;

4.热爱教育行业、有良好的职业素养。


二、线上教务主管(班主任) 2人

岗位职责:

1、负责线上学员的日常管理工作;

2、与学员沟通平台使用、课程完成情况,记录学员在学习过程中的意见与建议并反馈;

3、进行学员回访及满意度调查,完成课程匹配及转班等管理;

4、协调组织 学员参加各种直播课 并参与主持工作;

5、帮助学员制定学习计划;

6、领导交办的其他工作。

任职资格:

1、形象好、声音甜美、普通话标准,优秀的语言表达能力;

2、性格温和、具有亲和力、善于沟通,反应机敏,思路清晰;

3、有身为人师的责任感,能耐心积极的帮助学员解决学习过程中的问题;

4、热爱教育事业,对工作保持高度热情;

5、熟练使用办公软件;

6、有在线导学教务工作经验者优先。


三、线上运营主管 2人

岗位职责:

1、公司产品知识的销售化整理;

2、 分析销售数据,并根据分析结果找到问题,并制定相应的解决方案;

3、培训和管理团队,指导其完成市场销售任务,推动业务管理的规范化、专业化;

4、 负责校区招生的流程监督,解决销售中遇到的各类问题,并及时提出解决方案;

5、 负责活动的制定与实施。

任职资格:

1、大专及以上学历,1年以上销售管理经验;

2、熟练掌握销售技能,拥有较强的学习能力,沟通能力和文案撰写功能;

3、有身为人师的责任感,能耐心积极的帮助学员解决学习过程中的问题;

4、有较强的学习能力,熟悉使用办公软件。


四、运营支持总监 2人

岗位职责:

1、支持区域,落实集团各项工作;

2、所支持区域的数据分析(如:业务数据(转化率),人员数据(人员梯队情况,司龄等),找到问题协助区域完成;

3、负责问题区域的中层带教;

4、完成所支持的区域或问题中心的提升;

5、完成集团薄弱项目的梳理工作。

任职资格:

1、统招大专学历;

2、有校区销售管理/运营管理经验;

3、精通一线校区的业务管控流程。


五、口碑总监 2人

工作职责

1、 负责全国口碑顾问岗位的选拔、培养、工作的督导和人才发展规划;

2、 负责全国口碑顾问转化环节业务能力提升,为业绩目标达成和转化率负责;

3、 负责口碑顾问业务数据的收集整理和分析;

4、 领导交办的其它工作。

任职资格

1、 统招本科及以上学历;

2、 3年以上销售团队管理经验,具备教育行业相关工作经验;

3、具有较强的学习能力,具备一定数据分析能力,熟悉使用办公软件;

4、具备较强的目标感,娴熟的沟通能力和团队管理能力;

5、能够适应出差。


六、运营督导经理 1人

【工作职责】

1、支持区域,落实集团各项工作;

2、所支持区域的数据分析(如:业务数据(转化率),人员数据(人员梯队情况,司龄等),找到问题协助区域完成;

3、负责问题区域的中层带教;

4、完成所支持的区域或问题中心的提升;

5、完成集团薄弱项目的梳理工作。

【任职资格】

1、统招大专学历;

2、3年以上校区销售管理/运营管理经验;

3、精通一线校区的业务管控流程;

4、具有较强的综合管理能力、工作协调能力、市场拓展能力。


七、呼叫中心总监 1人

岗位职责:

1、带领团队完成公司下达电销中心业务目标,分解团队目标至团队、成员,分解至周、日,并考核;

2、熟悉电销流程的整体环节,包括电销体系搭建及优化,人员招聘,培训,激励,考核等,辅导下属团队成员成长;

3、善于挖据客户需求,具备较强的从客户弱需求转化为有效销售需求的能力,了解团队成员日常工作情况,帮助团队成员挖掘和维护优质客户资源;

4、监督并辅导团队成员工作,完善工作流程,提出绩效改进方案,制定有效的激励规则;并根据公司整体业务目标进行不断的总结和优化;

5、结合业务规划,组织开发电销培训体系,包括但不仅限于新人培训、转正培训、衔接培训、晋阶培训、技能培训等;

6、激发团队士气,塑造良好的团队文化,培养具有凝聚力、战斗力的销售队伍。

任职资格

1、大专以上学历,电销业务3年以上工作经验;

2、从一线销售成长为的电销管理者,在不同成长阶段有较多Top sales的记录;

3、具有上10人电销团队管理经验,具有教育行业电销业务背景者优先;

4、具有优秀的团队管理能力,充满激情及饱满的工作热情,有人格魅力,能够有效激励团队士气。


八、市场推广经理 1人

岗位职责:

1、负责执行公司指定的APP市场推广和Android各主流市场的合作策略;

2、负责在线及会计网校的平台推广策略和执行;

3、负责在线及会计网校的课程推广策略与执行;

4、负责了解和分析市场动态;

5、负责联系各类型合作伙伴,确保运作模式顺利进行,及合作合同的签署等相关流程的执行。

任职资格:

1、有一年及以上互联网或教育行业市场推广经验,熟悉各种推广方式、广告平台,有渠道推广资源的优先;

2、具有较强的文案策划、数据分析和沟通谈判能力;

3、具有敏感的商业和业务推动能力;

4、大专及以上学历,专业不限。


分校校长 若干

工作职责

1、主持单/多校区的全面管理工作,组织实施公司下达的各项决议;

2、组织制定年度经营计划,并致力于达成业务目标;

3、对各部门管理岗位工作布置、指导、检查监督、评价和考核管理工作;

4、签署日常行政、业务文件,并对签署文件负责;

5、监控执行集团下达的各项管理规章制度,拟定区域内具体规章制度;

6、监督管理各中心日常管理及建设,包括任务分配、招聘、激励,处理本中心内重大突发事件;

7、对项目成本进行把控、对利润负责。

任职资格

1.3年以上校区管理、运营经验;教育培训行业工作经验优先;

2.具有企业营销管理知识、熟悉职业培训业务流程及运作模式;

3.具有较强的综合管理能力、工作协调能力、市场拓展能力;

4.擅长组织、带领班子成员团结、努力工作,优秀的执行力、领导力;

工作地点:全国各大城市均有校区,根据候选人情况就近安排。

人力资源部联系电话:国校长 15358411774

简历投递邮箱:1500467240@qq.com