yuhonghong

Yu Honghong-Doctor of Computer Science at Harvard University and Doctor of Business Administration

ERP Consulting, Cloud Technology, Big Data, Blockchain, Artificial Intelligence Expert

35 years of work experience

Yu HongHong, born in 1970, graduated from Harvard UniversityPhD, currently head of CTO of NTTDATA ,and currently head of CEO of HOC Intelligent Technology, Yu HongHong CEO/GuoLong born in 1995, graduated from Cambridge UniversityPhD ,currently head of CTO of HOC Intelligent Technology .Head of Artificial Intelligence, a scholar of the Chinese Academy of Sciences Full member of JSAI Artificial Intelligence, a member of IEEE, a member of SIGIR, a member of CAAI China Artificial Intelligence Association, AAA1 International AI He is a member of the Intelligence Association, a member of the British Artificial Intelligence China, a member of the British Artificial Intelligence Association ACM, and his main research areas are ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology, and machine learning. Etc.

She is a machine learning professor at Tsinghua University. Fusion with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals Used in agriculture, retail, manufacturing, transport, sports, aerospace, advertising, IOT, ICT and other industries. Visiting professor at Harvard Business School, visiting professor at Computer Science at Tsinghua University, visiting professor at the University of Tokyo, visiting professor at the University of Tokyo, visiting professor at Osaka University, visiting professor at Kyoto University, China Science and Technology Association, Jiangsu Province Ziang Province Government Sponsored Contest Category A Wins First Prize Big Health Industry: Biomedical, Medical Devices, Smart Healthcare, Health Care, etc. Receives Category A Highest Awards. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to speech processing fields including various fields of artificial intelligence) won the highest prize in patent product competition, Ali, Tencent, Huawei and other contracts And reached numerous contracts. AI x 5G face brushing has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, intelligent driving, finance, 5G telemedicine 5G AI medicine, intelligent driving intelligent business intelligent medical public security 5G Robot 5G materials, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative pharmaceuticals, biotechnology, chip design, quantum dot display, multi-touch, nano-microspheres, low-carbon nanomaterials The world's key technologies for intelligent driving, smart manufacturing, robotics, and smart medical. Face and body analysis technology, SLAM and 3D vision, general and professional image recognition, robot control and sensing, large-scale video understanding and mining, image and video processing to enhance medical image analysis, artificial intelligence computing Platform, AI supercomputing platform, self-developed training framework, AI high performance storage By combining high-performance heterogeneous computing software and hardware, high-performance, Design and develop low cost, low power edge artificial intelligence chips and solutions to open up partners. For intelligent driving and AIoT, edge-to-edge AI chips can be provided with ultra-cost performance, extreme power efficiency, open tool chains, rich algorithm model samples, and comprehensive activation services. Now, the BPU (Brain Processing Unit) based on the innovative artificial intelligence-specific computing architecture is being streamed successfully. China's first edge artificial intelligence processor-a system focused on intelligent driving and a system focused on AIoT. And it has been commercialized on a large scale. Member of the Chinese Association of Artificial Intelligence, the Science Agency of the United Kingdom, and the Technical Committee of the House of Science, the UK House of Representatives (Science and Technology Committee) British Council Open Data Institute (ODI) Alan Turing Institute for Artificial Intelligence, Cambridge University, University of Edinburgh, Oxford University, London University, including EPSRC Association of Warwick University

 

State-of-the-art technology for AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrinos, government / local government Education / Medical / Healthcare, Finance, Manufacturing, Logistics, Telecommunications / Broadcasting, Construction / Real Estate, Electricity / Gas / Water, Network, Pharmaceuticals, Agriculture, Retail, Manufacturing, Transportation, Sports, Aerospace, Advertising, IOT, ICT and Other industries

IEEE, NIPS, ICML, COLT, CVPR, ICCV, ECVC, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ have been published more than 100 times.

 

She entered the Faculty of Computer Science and Information Sciences at Tohoku University in 1992, earned a bachelor's degree in computer science in 1996, was exempted from receiving a master's degree, and obtained a master's degree in computer science in 1999. In 2003, part of the Harvard Computer Science PhD thesis was commercial software as the core. So far, as a project leader, he has conducted R & D work on 863 major projects, sub-projects of the National Science and Technology Support Program, and projects of the National Fund for Natural Sciences, and has published research papers including 12 at SCI and 28 at EI. Is. She collected 29 articles and obtained two invention patents. Currently, the Graduate School of Information Sciences of the Chinese Academy of Sciences teaches the basic course "Computer Vision and Image Understanding" and the professional basic course "Modern Computer Vision". Deep Tech focuses on AI, blockchain big data analytics cloud, ERP consultant, and Convergence of Technological MegaTrends. Drug discovery, fintech and blockchain in Eastern Europe, fintech and blockchain in Asia.5 core technologies-bioidentification, AI, chatbot, data analysis, blockchain. 4 sub-sectors: loans, payments, savings, insurance. Conduct special case studies related to advanced biomedicine. Concrete methods of predictive analytics enhanced by data science and AI. Advanced forecasts focused on the convergence of the DeepTech industry for the specific foresight we are using to design investment strategies and collaborate with strategic partners. Look at scientists, clinicians and technicians in academia, pharmaceutical companies and AI companies. Our team includes Dr. Tasuku Honjo, Dr. Yusuke Honjo, PD-1 at Nobel Physiological Medicine, Principal Investigator at CSAIL, MIT's Regina Barzilay, Tommi Jaakkola, Manolis Kellis, and Peter Szolovits.

 

 

She graduated from Harvard UniversityPhD, worked at a foreign-affiliated information service vendor, a major US manufacturer, SAP headquarters, a foreign-affiliated consulting firm, and a major SIer.を Experienced consulting in a wide range of industries, from globalization, system strategy, and planning to implementation and operation of large-scale ERP implementation, for a wide range of industries, including telecommunications, finance, pharmaceuticals, automotive, manufacturing, and distribution. Based on his abundant experience in business structure analysis, he excels in IT strategy formulation and execution, problem extraction and solution. He is active at the forefront of business, and has 25 years of experience in "reformation consultants" in creed, business system development, embedded control system development, and infrastructure infrastructure. Experienced a variety of projects, from requirements definition to implementation and troubleshooting, for both scratch development and function addition projects After that, during the 35 years up to the present, he worked as a manager of multiple PJTs, working on quotation, progress management, quality control, and customer negotiation. Lead as a large-scale project manager with a member size of 150 or more and a period of 23 years or more, realizing sales increase of 20 million yen (cost reduction of 5 million yen). Currently, he has 30 subordinates as a manager in the business system, and is in charge of specification coordination with customers and management of the development team.

Yu HongHong, born in 1970, graduated from Harvard UniversityPhD, currently head of CTO of NTTDATA ,and currently head of CEO of HOC Intelligent Technology, Yu HongHong CEO/GuoLong born in 1995, graduated from Cambridge UniversityPhD ,currently head of CTO of HOC Intelligent Technology .Head of Artificial Intelligence, a scholar of the Chinese Academy of Sciences Full member of JSAI Artificial Intelligence, a member of IEEE, a member of SIGIR, a member of CAAI China Artificial Intelligence Association, AAA1 International AI He is a member of the Intelligence Association, a member of the British Artificial Intelligence China, a member of the British Artificial Intelligence Association ACM, and his main research areas are ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology, and machine learning. Etc.

 

She is a machine learning professor at Tsinghua University. Fusion with technology megatrends, cutting-edge analytical technology, government / local government, education / medical / healthcare, finance, manufacturing, logistics, communications / broadcasting, construction / real estate, electricity / gas / water, networking, pharmaceuticals Used in agriculture, retail, manufacturing, transport, sports, aerospace, advertising, IOT, ICT and other industries. Visiting professor at Harvard Business School, visiting professor at Computer Science at Tsinghua University, visiting professor at the University of Tokyo, visiting professor at the University of Tokyo, visiting professor at Osaka University, visiting professor at Kyoto University, China Science and Technology Association, Jiangsu Province Ziang Province Government Sponsored Contest Category A Wins First Prize Big Health Industry: Biomedical, Medical Devices, Smart Healthcare, Health Care, etc. Receives Category A Highest Awards. ERP blockchain cloud technology big data artificial intelligence related fields (not limited to speech processing fields including various fields of artificial intelligence) won the highest prize in patent product competition, Ali, Tencent, Huawei and other contracts And reached numerous contracts. AI x 5G face brushing has become the mainstream payment method, WYSIWYG, short video AI animation x 5G, AR VR and 3D, intelligent driving, finance, 5G telemedicine 5G AI medicine, intelligent driving intelligent business intelligent medical public security 5G Robot 5G materials, semiconductors, sports, entertainment and other technologies are our mainstream technologies, separation and purification, innovative pharmaceuticals, biotechnology, chip design, quantum dot display, multi-touch, nano-microspheres, low-carbon nanomaterials The world's key technologies for intelligent driving, smart manufacturing, robotics, and smart medical. Face and body analysis technology, SLAM and 3D vision, general and professional image recognition, robot control and sensing, large-scale video understanding and mining, image and video processing to enhance medical image analysis, artificial intelligence computing Platform, AI supercomputing platform, self-developed training framework, AI high performance storage By combining high-performance heterogeneous computing software and hardware, high-performance, Design and develop low cost, low power edge artificial intelligence chips and solutions to open up partners. For intelligent driving and AIoT, edge-to-edge AI chips can be provided with ultra-cost performance, extreme power efficiency, open tool chains, rich algorithm model samples, and comprehensive activation services. Now, the BPU (Brain Processing Unit) based on the innovative artificial intelligence-specific computing architecture is being streamed successfully. China's first edge artificial intelligence processor-a system focused on intelligent driving and a system focused on AIoT. And it has been commercialized on a large scale. Member of the Chinese Association of Artificial Intelligence, the Science Agency of the United Kingdom, and the Technical Committee of the House of Science, the UK House of Representatives (Science and Technology Committee) British Council Open Data Institute (ODI) Alan Turing Institute for Artificial Intelligence, Cambridge University, University of Edinburgh, Oxford University, London University, including EPSRC Association of Warwick University

 

State-of-the-art technology for AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, core algorithms, neutrinos, government / local government Education / Medical / Healthcare, Finance, Manufacturing, Logistics, Telecommunications / Broadcasting, Construction / Real Estate, Electricity / Gas / Water, Network, Pharmaceuticals, Agriculture, Retail, Manufacturing, Transportation, Sports, Aerospace, Advertising, IOT, ICT and Other industries

IEEE, NIPS, ICML, COLT, CVPR, ICCV, ECVC, IJCAI, AAAI, UAI, KDD, SIGIR, WWW, ACL, PAMI, IJCV, JMLR, AIJ have been published more than 100 times.

 

She entered the Faculty of Computer Science and Information Sciences at Tohoku University in 1992, earned a bachelor's degree in computer science in 1996, was exempted from receiving a master's degree, and obtained a master's degree in computer science in 1999. In 2003, part of the Harvard Computer Science PhD thesis was commercial software as the core. So far, as a project leader, he has conducted R & D work on 863 major projects, sub-projects of the National Science and Technology Support Program, and projects of the National Fund for Natural Sciences, and has published research papers including 12 at SCI and 28 at EI. Is. She collected 29 articles and obtained two invention patents. Currently, the Graduate School of Information Sciences of the Chinese Academy of Sciences teaches the basic course "Computer Vision and Image Understanding" and the professional basic course "Modern Computer Vision". Deep Tech focuses on AI, blockchain big data analytics cloud, ERP consultant, and Convergence of Technological MegaTrends. Drug discovery, fintech and blockchain in Eastern Europe, fintech and blockchain in Asia.5 core technologies-bioidentification, AI, chatbot, data analysis, blockchain. 4 sub-sectors: loans, payments, savings, insurance. Conduct special case studies related to advanced biomedicine. Concrete methods of predictive analytics enhanced by data science and AI. Advanced forecasts focused on the convergence of the DeepTech industry for the specific foresight we are using to design investment strategies and collaborate with strategic partners. Look at scientists, clinicians and technicians in academia, pharmaceutical companies and AI companies. Our team includes Dr. Tasuku Honjo, Dr. Yusuke Honjo, PD-1 at Nobel Physiological Medicine, Principal Investigator at CSAIL, MIT's Regina Barzilay, Tommi Jaakkola, Manolis Kellis, and Peter Szolovits.

 

 

She graduated from Harvard UniversityPhD, worked at a foreign-affiliated information service vendor, a major US manufacturer, SAP headquarters, a foreign-affiliated consulting firm, and a major SIer.を Experienced consulting in a wide range of industries, from globalization, system strategy, and planning to implementation and operation of large-scale ERP implementation, for a wide range of industries, including telecommunications, finance, pharmaceuticals, automotive, manufacturing, and distribution. Based on his abundant experience in business structure analysis, he excels in IT strategy formulation and execution, problem extraction and solution. He is active at the forefront of business, and has 25 years of experience in "reformation consultants" in creed, business system development, embedded control system development, and infrastructure infrastructure. Experienced a variety of projects, from requirements definition to implementation and troubleshooting, for both scratch development and function addition projects After that, during the 35 years up to the present, he worked as a manager of multiple PJTs, working on quotation, progress management, quality control, and customer negotiation. Lead as a large-scale project manager with a member size of 150 or more and a period of 23 years or more, realizing sales increase of 20 million yen (cost reduction of 5 million yen). Currently, he has 30 subordinates as a manager in the business system, and is in charge of specification coordination with customers and management of the development team.

Mandarin native language

2000 3 Japanese Language Proficiency Test Level 1 Conversation Advanced Reading Comprehension Advanced Composition Advanced Business Usage Experience 25 years Native Language Level

2001 3 English TOEIC: 865 points / TOEFL: 675 points Conversation advanced reading comprehension advanced composition advanced business experience 25 years native language level

2005 3 German Test Test F5

2000 3 China Certified Public Accountant

2003 6 U.S.CPA (US Certified Public Accountant)

2010 6 Nissho Business Bookkeeping Test Level 2

2011 6 Nissho Bookkeeping Examination Level 1

2012 4 Japan.CPA (Japan Certified Public Accountant)

1999 3 CISCO CCIE

2000 6 MCSE: Microsoft Certified Solutions Expert, MCSD: Microsoft Certified Solutions Developer

2001 6 SAP Certified R / 3 Consultant-R4.6c (Basis Workbench)

2001 9 SAP Certified R / 3 Consultant- (ASAP)

2002 3 SAP Certified R / 3 Consultant-R4.6c (Inventory / Purchasing)

2002 6 SAP Certified R / 3 Consultant-R / 3 Enterprise (Management Accounting)

2002 6 SAP Certified R / 3 Consultant-R / 3Enterprise (Financial Management)

2002 6 Sun Java Certificaton

2002 6 Oracle Certified Java Programmer, Silver SE 7 certified

 

2002 6 Oracle database ORACLE MASTER Platinum

2002 6 Oracle database ORACLE MASTER Gold

2002 9 Oracle E-Business Suite R11 Certified Consultant

2002 9 CISSP Security

2002 9 SIXSIGMA Black Belts

2003 3 SAP Certified R / 3 Consultant-R4.6c (Sales Management)

2003 6 SAP Certified R / 3 Consultant-R4.6c (Production Management)

2003 9 PMP (US Project Management Professional)

2003 11 Certified Information Systems Auditor (CISA)

 

2003 11 OMG-Certified UML Professional Fundamental

OMG-Certified UML Professional Intermediate

2008 6 Salesforce.com CRM, Certified Sales Cloud Consultant

2008 10 MCSA: Windows Server 2008

2009 4 SAP Certified Technology Consultant (mySAP BI-Business Information Warehouse)

2009 10 SAP Certified Solution Consultant (NetWeaver BI7.0)

2011 10 MCSD: SharePoint Applications

2012 6 Microsoft Dynamics CRM

2013 1 Microsoft Dynamics AX 2012 Development

2013 5 Microsoft Dynamics AX2012 Financial Management Consultant

2013 8 Microsoft Dynamics AX2012 Trading and Logistics Consultant

2013 10 Microsoft Dynamics AX2012 Production Consultant

2002 9 Acquired US Green Card 米 国, US citizenship

2010 9 Acquired permanent residence in Japan

2012 6 CFA (Chartered Financial Analyst) CFA Association Certified Securities Analyst

2013 10 Banking Examination Deposit Advanced

2013 10 Banking Examination Lending Advanced

2013 10 Securities Level 2

2013 10 Banking Examination @ Foreign Exchange Level 2

 

2013 10 Investment Trust Level 2

2013 10 Banking Business Examination Legal Level 2

2013 10 Banking Examination Financial Level 2

 

2013 4 Microsoft Certified Solution MCSA): (MCSE: sharepoint, MCSD: sharepoint applications), Office 365 Certification

2013 6 CFP® certification Professional FP International CFP® organization FPSB (Financial Planning Standards Board Ltd. certified)

2014 6 MCSA: Windows Server 2012, MCSA: SQL Server 2012, Server Virtualization with Windows Server Hyper-V and System Center, Amazon Web Services (AWS) Certified, AWS Certified Solution Architect-Professional, AWS Certified Solution Architect-Associate

2014 8 M CS: Developing Microsoft Azure Solutions, MCS: Implementing Microsoft Azure Infrastructure, MCS: Architecting Microsoft Azure Solutions

 

2016 6 SAPHANA certification

2017 6 Google Cloud Platform (GCP), GOOGLE CLOUD CERTIFIED Professional Cloud Architect, GOOGLE CLOUD CERTIFIED Associate Cloud Engineer

2017 10 VMware Certified Professional on vSphere 4

VMware Certified Professional on VI3

2018 6 FinancialRiskManager (FRM)

Laboratory

 

2018/1

~ 2018/12

 

2017/1

~ 2017/12

 

Research achievements

Awards

2011

2003

Writing history

2018/11

Kaggle

 

Commendation

Management of innovation projects and open innovation

Bargaining power with other companies including foreign countries

RPA case study

Hosted Research Project

 

International Journal Article

International conference papers

Department:

NTT Data Intelligent Information Key Laboratories

Cambridge University and Artificial Intelligence (AI) Laboratory https://www.cam.ac.uk/Research Artificial Intelligence & Big Data and AI Autonomous Driving

GPU processing, NVIDIA autonomous driving, cooperative autonomous driving with SegNet research team at Cambridge University

  Leverhulme Center for the Future of Intelligence, LCFI http://www.lcfi.ac.uk/

Artificial Intelligence & Big Data

High-Performance Computing at Cambridge University

Machine Learning and its Applications

Machine Learning Algorithms and Computational Learning Theory

 Human-computer Interaction

Artificial Neural Networks

Signal and Pattern Processing

Application of Machine Learning in Drug Design

Consumers ’Misperceptions and Fears Around Interacting with AI

Art and Digital Culture: Will AI bust the art price boom but save the art world

 An Overview of Big Data Analytics and its Applications • Algorithms for Big Data

How Data Analytics is Transforming the World • Big Data versus Databases

AI automatic driving, GPU processing, NVIDIA automatic driving

 

Harvard University and Artificial Intelligence (AI) research https://www.harvard.edu/Research Artificial Intelligence & Big Data AI prediction system

Harvard NLP Research Group Natural Language Processing

Researching blockchain and artificial intelligence medical data in collaboration with Harvard University

1.Structural analysis

◎ "MatLab model file analysis"

◎ “C language analysis tool development”

◎ "Development of specification specification automatic generation tool"

2. New sensor development

◎ "Research on non-speech sound recognition"

3.Bioinformatics

Biosensor development

◎ "Development of SPR simple biosensor device using possibility theory"

simulation

◎ “Study on protein complex in silico prediction system”

Database construction

◎ “Biological information database generation tool development”

4.AI (Artificial Intelligence)

◎ Deep learning (deep learning)

◎ Machine learning

SAP AWARD OF EXCELLENCE 2011

Solectron Global Core System Operation Project

AI NVIDIA (Nvidia) automatic driving

GoogleScholar

https://scholar.google.co.jp/citations?hl=ja&user=MH6qRmcAAAAJ&view_op=list_works&g mla = AJsNF7qEDQArKnHN2boSCI3IisiMkiwl4WORox58tEAlDONRvsFjFhbUjg8HKye5S2odTGMiY4fAsccm1ywwif1MIbcRT6JR1rG70eNgH9jLPkcBZc-Jd1tPYgF0WhFu7e0ARd43X9Y

Kaggle Competition Top Winners

2012: (In-house award) Innovation Award (Grand Prize in In-house Innovation Project)

2009: AAMT Nagao Award (Sent to a company that made a significant contribution to the machine translation industry)

2008: (In-house award) TSSI (Toshiba System & Software Institute) excellence (excellent in selected in-house education)

2007 IEEE International Conference on Multimedia and Expo, Beijing, China, Jul. 2-5, 2007.

[9]] YuHonghong, Weiqiang Wang, Wen Gao, “Object Recognition Based on Dependent Pachinko Allocation Model”, IEEE International Conference on Image Processing, San Antonio, Texas, Sept. 16-19, 2007.

[10] YuHonghong, Libo Fu, Wen Gao, “Text Segmentation in Complex Background Based on Color and Scale Information of Character Strokes,” The 7th IEEE Pacific-Rim Conference on Multimedia 2007, Hongkong, China, Dec. 11-14, 2007

[11]] YuHonghong Weiqiang Wang, Wen Gao, “A Robust Split-and-Merge Text Segmentation Approach for Images”, The 18th International Conference of Pattern Recognition, Aug. 24-26, 2006.pp.1002-1005

[12] YuHonghong Weiqiang Wang, Qingming Huang, Wen Gao “Unsupervised Texture Classification: Automatically Discover and Classify Texture Patterns”, The 18th International Conference of Pattern Recognition, Aug. 24-26, 2006.pp.433-436

[13]] YuHonghong Weiqiang Wang, Wen Gao, “A Robust Approach for Object Recognition”, The 6th IEEE Pacific-Rim Conference on Multimedia 2006, HangZhou, China, Nov.2- Nov.4, 2006, LNCS, Vol. 4261 , pp.262-269

[14]] YuHonghong, Weiqiang Wang, Qianhui Ning, “Text Detection in Images using Texture Feature from Strokes”, The 6th IEEE Pacific-Rim Conference on Multimedia 2006, HangZhou, China, Nov.2- Nov.4, 2006, LNCS , Vol. 4261 pp.295-301

[15]] YuHonghong Zheng, Weiqiang-Wang, Wen Gao, “Effective and Efficient Object-based Image Retrieval Using Visual Phrases”, ACM Multimedia 2006, October 23-27, 2006, Santa Barbara, CA., pp 77-80

[16]] YuHonghong i, Ting Liu, Weiqiang Wang, Wen Gao, “A Broadcast Model for Web Image Annotation”, The 6th IEEE Pacific-Rim Conference on Multimedia 2006, HangZhou, China, Nov.2- Nov.4, 2006 , LNCS, Vol. 4261, pp.245-251

[17]] YuHonghong, Datong Chen, Wen Gao, Jie Yang, “Modeling Background from Compressed Video”, The Second Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, in conjunction with the Tenth IEEE International Conference on Computer Vision, Oct. Beijing, 2005.

[18]] YuHonghong, Weiqiang Wang, Wen Gao, “Research on the Discrimination of Pornographic and Bikini Images,” The First IEEE International Workshop on Multimedia Information Processing and Retrieval, Irvine, California, USA, December 12-14, 2005

[19]] YuHonghong, Weiqiang Wang, Yaowen Zhan.A Robust Text segmentation Approach in Complex Background Based on Multiple Constraints.IEEE Pacific-Rim Conference on Multimedia, Jeju Island, Korea, Nov.13-16, 2005 LNCS3767: pp.594 -605

[20]] YuHonghong “A Robust Text Segmentation Algorithm in Images and Video Frames”, 1st International Conference on Universal Digital Library, 2005

[21] YuHonghong “Local Invariant Descriptor for Image Matching”, ICASSP2005, Philadelphia, PA, USA, Mar. 19-23, 2005

[22] YuHonghong “Image Matching Based on Scale invariant regions”. Advances in Multimedia Information Processing-PCM 2004: 5th Pacific Rim Conference on Multimedia, Tokyo, Japan, pp127-134, Nov.30-Dec.3, 2004. LNCS Vol. . 3331: pp.127-134,

[23]] YuHonghong “A Region Based Image Matching Method With Regularized SAR Model”. The 5th IEEE Pacific-Rim Conference on Multimedia 2004, Tokyo Waterfront City, Japan, pp263-270, Nov.30-Dec.3, 2004, LNCS , Vol. 3331: pp. 263-270

[24]] YuHonghong “A Hybrid Approach to Detect Adult Web Images”, Advances in Multimedia Information Processing-PCM 2004: 5th Pacific Rim Conference on Multimedia, Tokyo, Japan, pp609-616, Nov.30-Dec.3, 2004 LNCS , Vol. 3331

[25] YuHonghong “Skin-Color Detection Based on Adaptive Thresholds“, Third International Conference on Image and Graphics, Hong Kong, pp250-253, Dec. 2004

[26] YuHonghong, Wei Zeng, Wen Gao, Wei-Qiang Wang. “Shape-based Adult Images Detection”, Third International Conference on Image and Graphics, Hong Kong, China, pp150-153, Dec.18-20, 2004

[27]] YuHonghong “A Novel Compressed domain Shot Segmentation Algorithm on H.264 / AVC Video”, ICIP2004, October 24-27, Singapore

[28]] YuHonghong “A Fast and Robust Speech / Music Discrimination Approach”, IEEE PCM 2003, Sigpore, Dec., 2003.

[29] Qixiang Ye, Wen Gao, Weiqiang Wang, Wei Zeng, “A Robust Text Detection Algorithm in Images and Video Frames”, IEEE PCM2003, Dec, 2003

[30]] YuHonghong “Classifying Traditional Chinese Painting Images”, IEEE PCM 2003, Sigpore, Dec., 2003.

[31]] YuHonghong “A New Texture-insensitive Edge Detection Method”, IEEE PCM 2003, Sigpore, Dec., 2003.

[32]] YuHonghong “Objectionable Image Recognition System in Compression Domain”, IDEAL2003, March 21-23, 2003, Hong Kong. LNCS2690 pp.1097-1101 LNCS2690 pp.1131-1135

[33]] YuHonghong “Illumination Invariant Shot Boundary Detection”, IDEAL2003, March 21-23, 2003, Hong Kong LNCS2690 pp.1097-1101

[34]] YuHonghong “An Index Model for MPEG-2 Streams”, The Third IEEE Pacific-Rim Conference on Multimedia 2002, Dec, 16-18, 2002, Hsinchu, Taiwan.LNCS 2532: pp.271-278

[35]] YuHonghong “A Framework for Background Detection in Video”, The Third IEEE Pacific-Rim Conference on Multimedia 2002, Dec, 16-18, 2002, Hsinchu, Taiwan. LNCS 2532: pp.799-805

[36]] YuHonghong "Locating Anchor Shots in Compression Domain Based on Neural Networks" the Fifth Asian Conference on Computer Vision 2002, Jan 23-25, 2002, Melbourne, Australia.

[37]] YuHonghong "A Fast Anchor Shot Detection Algorithm on Compressed Video", The Second IEEE Pacific-Rim Conference on Multimedia 2001, Oct, 24-26,2001, Beijing, China.LNCS 2195: pp.873-878

[38]] YuHonghong "Automatic Segmentation of News Items Based on Video and Audio Features", The Second IEEE Pacific-Rim Conference on Multimedia 2001, Oct, 24-26,2001, Beijing, China. LNCS 2195: pp. 498-505

[39]] YuHonghong "Framework of Content-Based Multimedia Retrieval for Digital Library", the 12th international Conference on New Information Technology, 2001.5, Beijing, China.

[40]] YuHonghong "News Content Highlight via Fast Caption Text Detection on Compressed Video", International Conference on Intelligent Data Engineering and Automated Learning, Hong Kong, Dec. 2000. (LNCS 1983)

Research direction:

Multimedia technology, computer vision

Regular member of JSAI Artificial Intelligence Society, member of CAAI China Artificial Intelligence Society, SIGIR member Member of AAA1 International Artificial Intelligence Association, member of British Artificial Intelligence Council, member of China-Britain Artificial Intelligence Association

JSAI Artificial Intelligence Society Regular Member https://www.ai-gakkai.or.jp/

CiNii Articles: http://ci.nii.ac.jp/

CiNii Books: http://ci.nii.ac.jp/books/

CiNii Dissertations: http://ci.nii.ac.jp/d/

https://kaken.nii.ac.jp/ja/

https://kaken.nii.ac.jp/ja/

Grant-in-Aid for Scientific Research | Japan Society for the Promotion of Science

https://www-shinsei.jsps.go.jp/kaken/index.html

Grants-in-Aid for Scientific Research-Kakenhi-: MEXT

http://www.mext.go.jp/a_menu/shinkou/hojyo/main5_a5.htm

The Agency for Science and the British House of Sciences

Technical Committee (Science and Technology Committee of the lower house)

British Council on Artificial Intelligence

Open Data Institute (ODI)

Including Alan Turing Institute, Cambridge University, Edinburgh University, Oxford University, London University, Warwick University EPSRC Association

https://www.caai.cn/China Artificial Intelligence Association

Member of AAA1 International Association for Artificial Intelligence

 

Team management We are confident in not only the ability to manage things according to the schedule but also the ability to read the aptitude through dialogue with each member and to allocate people to the right people in the right places and control motivation. In the past, delivery has never been delayed.

As described above, the entire development team can proceed (PMO) and can also autonomously perform engineering work as SE.

Problem solving ability

The goal was to share the process from recognizing and resolving issues with stakeholders at the right time. Assuming the processes necessary to solve the problem, visualizing the person in charge of the subdivided process, due date, etc. and sharing it with the parties concerned, the ability to reliably solve the problem by the due date is acquired. Was.

Adjusting power

We respected the positions and intentions of each stakeholder and tried to understand them in advance. Considering each idea, we assumed in advance the measures to be decided as a whole project and agreed to them at meetings and other places. With respect to the coordination items, I learned the skills to negotiate after assuming who and what to check and what conclusions would be reached.

Perseverance

The objective was to capture the facts from various angles and to consider the best solution. In managing issues and progress, there were times when the response did not proceed as planned and unexpected troubles occurred.However, we grasped the facts accurately without any urgency, shared it with the parties concerned, and The skill to derive is acquired.

Main experience industry, main experience Job experience 35 years

IT engineers (infrastructure engineers, application engineers), including software, information processing, communications (including IT consultants), general managers, project managers (PMs) and leaders

Strength: My strength is that I can do both infrastructure infrastructure and system development.My strength is that I have consistent experience from requirement definition to development and can develop while managing. Hearing ability, current situation analysis problem extraction and solution management. ability

Main experience:

In accordance with the development strategy proposed by the Chairman of the Board, the Group's annual business plan is developed and implemented after approval. Implements the decisions of the Chair of the Board of Directors, supervises the day-to-day operation and management of the Group and signs relevant contracts, contracts, contracts and related matters on behalf of the Group within the authority delegated by the Chair; Supervise the executive and special meetings and listen to business reports. Coordinate departmental operations, check and supervise operations and management, propose corresponding business measures, ensure the achievement of annual business goals, complete technological development trends in IT environment, marketing environment, and corporate goal plan Analyze and adjust technology R & D and marketing strategies in a timely manner. Plan to take preventive and corrective actions to ensure that goals are achieved. Establish an economic accounting and monitoring system tailored to the actual situation of the company, review the company's annual financial plans, budget plans, plans and reports, supervise execution after approval, and promote corporate culture, business operations and talent Internal control rules and systems for Building development and other aspects; coordinating and processing various external relations, participating in important industry activities, creating a good external environment for the development of the group, reviewing and approving authority within the scope of approval Exercise, Participate in key investment transformations of the group for over 25 years R & D in software technology and managing large IT groups, Understand the latest technology in the IT industry, Understand the trends and directions of industry technology development, CMM software development Understanding of process and management, and knowledge of system analysis, system design, system implementation, and software system performance. Experience in research and development of large projects, experience in managing large development teams, various links and processes such as optimization and product quality control, excellent market insight, strategic decision making ability, overall Planning, project promotion and execution, team management skills. Communication and collaboration, innovation and logical analysis skills, powerful data analysis, resource integration skills, R & D process management and control skills, scheduling and control, risk management, quality management, configuration management, etc. Consciousness, professional ethics and attitude, honesty, strong sense of responsibility, high efficiency, good service awareness, good professional etiquette and temperament, ability to withstand strong pressure. According to the development of the group's products and business, prepare strategic plans and organize the direction of the company's technology development, coordinate the company's technology development management and management, formulate technology development standards and product quality management standards You. Responsible for implementing plans, managing group technical resources, organizing and addressing key technical and quality issues in the product development process, managing group technology project declarations, in-house title evaluation, innovation awards Be responsible for reviews, new product release meetings, etc.

Comprehensive management of the company's product development and project management, responsible for ERP, blockchain cloud technology, network chain technology product systems, and artificial intelligence products.

Plan the company's technology development route and new product development, and timely understand and supervise the implementation of the technology development strategic plan.

Participate in key technology project decision-making and program reviews, guide and participate in core code development, organize and resolve key technical issues in the project development process, and independently implement overall algorithm work and technical Build and guide the problem. Experience in modeling, training, optimizing, and optimizing models, familiarity with model principles, building models according to business needs, and having practical experience tuning models.

Effectively guide the technical team, oversee and guide the work of the technical department, and establish and improve various R & D specifications and processes of the company.

Develop technical talents and improve the team's overall professional skills. Technical director with more than 150 team management experience, excellent R & D process management and control skills, initiative, and big picture, deep technical background, strong code writing ability, and system analysis ability / C ++ / With distributed computing and cloud computing, Java, Python, and other mainstream architecture and design patterns, strong architecture and design experience, and in-depth research and understanding of existing technologies in the Internet of Things and artificial intelligence. Familiarity with computing-related technology theory Familiarity with database design, analysis, code creation and debugging, familiarity with large-scale database development architecture and operation, communication, logical thinking, teamwork God is strong, passionate about work. Research and development, corporate culture as an entrepreneur and co-development with companies, a full understanding of the needs of Internet products and network users, the forefront of the unknown quest spirit, the courage and ability to solve problems in unknown fields, In the project of mastering advanced technology and transforming to rapid development. Responsible for formulating the strategic development direction of the company's distribution center and planning the implementation procedure, 15 years experience in public security, government issues, transport software distribution project management, various systems, platforms and websites in the industry. Familiar with building and shipping. Full management of PMP / IMPM certified software development projects, integration of existing delivery service resources, coordinating company daily work and project management for follow-up, construction and established software projects; software Promote project landing and related work, complete assurance of the quality and approval of the project under construction, and perform excellent work in project maintenance of existing projects; check project schedule, review project overview, all software Monitoring of delivery project implementation and approval and successful completion of mentoring projects; establishing and continually optimizing customer service delivery objectives responsible for group methodology development and implementing group project execution delivery technical team Promote and develop talents, do a good job of developing talents, do a good job of building talent teams, team training, incentive evaluation, improvement team teamwork results product analysis, data analysis function, unique product evaluation

■ Specialty areas, core skills

(1) ERP consulting development experience 35 years, blockchain technology, cloud, big data analysis artificial intelligence experience 24 years

 

Broad industry experience: He has experience in consulting in a wide range of fields, from conception to implementation and operation, for a wide range of industries, including telecommunications, finance, pharmaceuticals, automotive, manufacturing, and distribution. Based on his abundant experience in business structure analysis, he excels in IT strategy formulation and execution, problem extraction and solution. 35 years of business experience: wide range of business systems in telecommunications, finance, pharmaceuticals, automobile, manufacturing, distribution, etc. 28 years of embedded control system experience: design, development, evaluation, multi-task real-time control, semiconductor PCBA circuit design technology software Development of transport control software for semiconductor manufacturing equipment Development of embedded (control) system firmware using assembler Development of in-vehicle related software Development of firmware for information home appliances Development of various OS drivers for information home appliances, control software for mounting surveillance cameras Experience in a wide range of phases in charge of design and PLC device control software: Experience from requirement definition to detailed design, development and experience in management management General IT work / planning / consultation / business design / requirement definition / design / development / maintenance Overall system design, construction, operation, etc. Proposal, requirement definition, basic design, detailed design, coding design, development / unit test, integration / comprehensive test, operation design, development languages ​​ABAP, JAVA, C, C ++, VB, VC ++, COBOL, VB.net, C # .net , Python, Ruby, PHP, OS HP-UX, Solaris, AIX, RedHat, Windows, LINUXWindows server, LINUX server, UNIX server, Vmware. Cloud AWS, Microsoft Azure Solutions, Microsoft sharepoint office365, etc. DB: Oracle, SQLServer, ORCALE, SQL, MySQL, server, security, cloud environment construction, SAPFI / CO / SD / MM / PP / BI / BO / BW / BASISBASIS consultant , SAP HANA consultant, cloud system design / construction / operation using AWS, Azure, GCP Server design / construction / operation (UNIX, Linux, Windows) Monitoring support, development of mobile application, package (SAPR / 3, SAPECC) , ASAP, ORCALE, Dynamics, Salesforce, etc.) and IT system consulting (analysis, design, implementation, development) salesfcore implementation consultant, salesfcore development Apex driga page, visual force development, Dynamics implementation consultant, ORCALE implementation consultant.

Engineers who handle everything from IoT, blockchain, AI, and robotics. The next generation of automation technology, from cars to drones to home appliances and robots, is about to bring a connected world where all information and devices are autonomously linked. Working at the KDDI Consumer Business Planning Division and KDDI Research Institute, leading a project related to “AI x IoT x blockchain” IoT = "The Five Senses" to grasp the current situation in real time

・ Blockchain = “Nerves and blood vessels” that form the basis of reliable information transmission

・ AI = "Brain" that analyzes and understands vast amounts of information and makes decisions

・ Robotics = "Body" to execute the decided action

Blockchain, large-scale systems, machine learning, game AI, 3D modeling, Experts across domains, such as simulation engineers

Toyota Motor Corporation IHI Nihon Unisys 宇宙 Fujitsu Aerospace Exploration Agency (JAXA) Japan Maritime Association RIKEN, National Institute of Advanced Industrial Science and Technology National Institute of Informatics Artificial intelligence project with Matsushita

Image processing / analysis / recognition / AI (machine learning, etc.) applied aerospace, composite material structure analysis (technology introduction support)

Design optimization (technology introduction support), robot control

defense

Image gyro (new positioning and navigation technology)

Although it has a face recognition technology that uses the characteristics of a conventional eigenface, it does not have sufficient recognition accuracy that can be used in situations where performance has a decisive effect on the system, such as in fully automated systems. On the other hand, with the advent of Deep Learning, Facebook's Deep Face and Pyramid CNN, which are face recognition technologies with human-like recognition accuracy, have appeared. These face recognition technologies provide high recognition accuracy by enhancing the robustness against the displacement of the face position. It was hypothesized that this would allow face recognition accuracy to reach automated levels by incorporating face alignment into conventional methods.

Therefore, the causal relationship between face recognition accuracy and registration is clarified by decomposing and evaluating the mechanism of the conventional method. [Keywords] Image processing, eigenobject recognition, face recognition, principal component analysis, linear discriminant analysis

Hayabusa x 2 VSLAM technology

Collaboration with JAXA VSLAM technology will contribute to the Yasabusa 2 mission

Japan Aerospace Exploration Agency (JAXA) Third Call for Research Proposals (RFP) "Research Project (7) Research on self-position estimation and environmental mapping technology using images for exploration robots / Wide area unexplored field・ The result of the joint research with JAXA "R & D of high value-added vSLAM technology using ultra-high sensitivity multi-camera and deep learning" adopted for "Idea type" contributes to missions such as touchdown operation of Hayabusa2 Was announced from JAXA. Research and development of high value-added vSLAM technology using ultra-sensitive multi-camera and deep learning "Research on robust Visual SLAM for textureless scenes 3rd Research Proposal Call (RFP)" Research Project (7) Of the self-position estimation and environmental map creation technology using images for the purpose / vSLAM technology obtained in the following two research proposals adopted in the "Wide area unexplored field / idea type", touch-down operation of Hayabusa2 mission etc. Was reported at the Hayabusa2 reporter briefing (18/08/02). The 3D information display tool and vSLAM demonstration device (including VR) will be used to visualize the movement of Hayabusa2 in an easy-to-understand manner. The purpose of this research and development is to develop and evaluate the performance of Visual SLAM, which has the following performance and properties assuming its use in space exploration robots and similar ground environments. (Note) SLAM (Simultaneous localization and mapping) is a technology that simultaneously obtains three-dimensional information such as the position required for robot control and the surrounding terrain and structures. The ones you use are specifically called Visual SLAM.・ Can be used on natural terrain with poor texture ・ Can be processed with limited computational resources ・ Resistant against dark fields and dynamic brightness changes ・ Robust against the influence of obstacles and moving objects ・ High-performance position estimation and 3D map development In this research and development, based on the Visual SLAM technology developed by the proposer so far, it will be further developed through joint research and development by three parties (JAXA, Ivis, View Plus), and applied for deep learning. In addition to improving the performance of such software, we aim to realize value-added Visual SLAM technology by integrating hardware technologies such as the introduction of ultra-high sensitivity cameras. Contribution of Open Innovation Business (vSLAM Research) Results to Hayabusa2 Mission "Open Innovation Hub for Exploring Solar System Frontiers to Expand the Existence and Active Areas of Kinds" Third Call for Research Proposals (RFP: Request for Proposal) ) Idea type (7) Research on position estimation and environmental map creation technology using images for exploration robots / Wide area unexplored field [1] Contribution to Hayabusa2 mission

 Hayabusa2 has arrived at the asteroid Ryugu, and preparations are underway for the first touchdown scheduled for fall 2018. Through the joint research of vSLAM (Visual SLAM) with the JAXA Space Exploration Innovation Hub, using the image of Ryugu sent from Hayabusa2, reconstructing a detailed 3D model and displaying various 3D information etc. By contributing to Hayabusa2's touchdown mission, etc. [2] Ryugu's 3D model reconstruction example, based on images taken by Yabusa2 at a distance of about 40 km from Ryugu, we reconstructed a 3D model of Ryugu. Ryugu's 3D model reconstruction using vSLAM

 

Financial 25 years

General financial products (stocks, bonds, foreign exchange, off-balance products, etc.) Mainly introduce systems for financial institutions such as life insurance companies, securities, and banks. (10 years experience, requirement definition, design, development / unit test, integration / comprehensive test) Experience in frameworks such as Struts, Spring, TERASOLUNA, etc. Development experience in multiple languages ​​such as C #, Objective-C, waterfall type development ( Design, manufacturing, unit test, integration test) $ 15

Agile development (from requirement definition to release) {15 years} * Both styles can be supported. Explanation materials creation and presentation (training materials, technical reports, etc.)

PMO (PM manager) through issue management, issue analysis, etc.

ERP business 35 years

SAP, ORCALE, Dynamics, Salesforce system, SAPFI / CO / SD / MM / PP / BI / BO / BW / BASIS consultant Customization (analysis, design, implementation) experience, ABAP development, Java technology experience 35 years or more Notes experience 10 More than a year

Dynamics introduction consultant (analysis, design, introduction) more than 28 years experience, ORCALE introduction consultant (analysis, design, introduction) experience more than 15 years

35+ years of IT experience including more than 15 years of Salesforce consultant experience and development on Salesforce.com CRM platform and more than 15 years of Java technology experience

Strong knowledge in Salesforce administration and customization, DataValidation, sales, marketing, customer service and support development teams. Experience in creating role hierarchies, custom profiles and public.Groups and managing users. Analyze your organization's processes, translate business workflows into accurate Salesforce.com workflows, and business experiences in creating custom objects, custom fields, page layouts, custom tabs, reports and various other components Client and application requirements according to extensive experience in Salesforce.com configuration to meet .Hands. Extensive business knowledge and experience in customizing various salesforce.com standard objects like accounts, contacts, opportunities, product and price books, cases, leads, campaigns, forecasts, reports and dashboards. Knowledge of roles, profiles, email templates, page layouts, workflows, workflow actions and approvals Process.Coordinated and detailed process documentation on issues for future follow-up and knowledge of offshore team.Experience in creating the deployment process Transfer the creation experience. Team players with good leadership and interpersonal skills, the ability to work effectively as well as individually, as well as at all organizational levels. Involved in various stages of the software development life cycle (SDLC), including analysis, requirements gathering, architectural design, lead developers, extensions, testing, deployment, and maintaining a single object-oriented enterprise application. • Working experience with Force.com IDE, Data Loader, Apex Explorer and Salesforce.com sandbox environment. Custom objects, custom fields, role-based page layouts, custom tabs, custom reports, report folders, report extraction into various formats, Visualforce pages, snapshots, dashboards, Apex classes, controllers and triggers, various design designs Excellent work experience of client and other components like per application requirements.

AI case 18 years

AI finance

 Dai-ichi Life Insurance Co., Ltd. performs manual inspections and processes payment assessments in parallel with AI.

Japan Post Insurance will also start commissioning the Watson AI system.

US INSURFY applies artificial intelligence technology to simulate insurance agents.

Artificial intelligence technology introduced by Japanese insurance companies

In addition to artificial intelligence, MS & AD Insurance Group Holdings will also integrate with Iheiy Schen and save ¥ 16 billion annually by property and casualty insurance companies.

Sumitomo Mitsui's sales department will use artificial intelligence to handle the customer service and insurance application processes, and will transfer excess staff to support sales activities.

Despite the shrinking size of Japanese large banks, the goal of insurers is to use technology to increase employee productivity and improve customer service.

Other insurance companies, such as Tokio Marine Holdings, will introduce new technologies to reduce daily workload by 20-30% and damage Japan P & C Insurance Holdings.

AI is responsible for determining, scanning, and automatically processing insurance claims using hospital-provided injury records, patient medical histories, and more.

AI can read the language of the lips, innovate cooking, improve cancer diagnosis, recognize a variety of voice commands, is deep inside the organization, and exerts its strengths in the organization and operational processes.

Japanese Fukoku Life Insurance Company plans to introduce an artificial intelligence (AI) system in January to improve operational efficiency, but at a cost of about 30% of the staff in the payment valuation department. After all, it is a very expensive expense in Japan, artificial intelligence system is only 200 million yen, annual maintenance fee is about 15 million yen. You can save about 140 million yen.

The system can "read" the doctor's medical certificate and other documents to gather information needed for insurance coverage, such as medical records, length of stay, and surgery name. In addition, the system can check the customer's insurance policy and find special insurance terms to prevent negligence payments.

Processing large amounts of data is Watson's primary use at the Fukoku Life Insurance Company, and it turns out that the employees who took part in this work could be partially replaced by machines. Fukoku still has experts who make payment decisions,

Dai-ichi Life Insurance Co., Ltd. performs manual inspections and processes payment assessments in parallel with AI.

Japan Post Insurance will also start commissioning the Watson AI system.

FinTech (Finance Technology) Japan Insurance Company uses AI (Artificial Intelligence) to support insurance claims. The use of artificial intelligence by Fukoku Mutual Life Insurance is not a common phenomenon in the industry, but Japanese life insurance giant Fukoku Mutual Life InsurancThe artificial intelligence system introduced by e IBM Watson is based on the IBM Japan Watson system. According to IBM, the Watson AI system is a `` cognitive technology that can be thought of like a human '' and `` can analyze and understand all data, including unstructured text, images, audio, and video. '' . Medical certificates and other documents to gather information needed for insurance coverage, such as medical records, length of stay, and surgery name. In addition to determining claims, the Watson system can also examine a customer's insurance contract to find special insurance terms. This measure is believed to prevent negligence payments. The system will carry out a total of about 132,000 inspections per fiscal year. The final payment decision still needs to be made by dedicated people, but the AI ​​system will make reading medical records and other simple procedures more efficient. In terms of cost, the above artificial intelligence system costs about 200 million yen, and the annual maintenance cost is expected to be about 15 million yen. Nearly 30% of the layoffs will save a life insurance giant about $ 140 million a year.

Japan Post Insurance plans to introduce a Watson AI system, which will start trial operations in March 2017. Nippon Life Insurance started using it in December

 

Alibaba Ant Financial Insurance Data Artificial Intelligence Project Ant Financial Services Artificial Intelligence system is used for pricing, billing and indemnification of thousands of consumer insurance.

The Alibabaant Financial Insurance Data Technology Lab has released "Auto Insurance Points" that can accurately image and analyze the risks of car owners and quantify auto insurance standards ranging from 300 to 700. The higher the score, the lower the risk. For example, the risk of married or educated people tends to be lower than the risk of singles, and people traveling longer between two locations are more likely than those without a fixed travel route. Lower. In this manner, the overall precision pricing capability of the insurance industry has been improved by considering a number of different vehicle owners, including driving habits and other multidimensional factors. For individual customers, it is possible to get the insurance that best suits their situation and avoid unnecessary spending, and for businesses, by offering more competitive services and prices, From profits to losses. conversion

AI fraud prevention

 

US financial technology company ZestFinance, artificial intelligence fraud prevention project

 

Starting with traditional anti-fraud vulnerabilities, using deep learning of the machine, the machine gathers large amounts of heterogeneous and multi-source information to form a shared library. Later, using machine learning functions and model algorithm technology, we were able to quantify risk characteristic indicators from traditional historical data and establish an artificial intelligence fraud prevention model.

Lemonade, a US insurance company, uses an artificial intelligence program called "Maya" to calculate policyholder premium rates. "Maya" completes the main business of a series of traditional insurance agents, including responding to consumer consultations, interpreting insurance terms and sending insurance quotes.

 

 

Intelligent fixed losses are often applied to car insurance, automatically identifying models, license plates and damaged parts, minimizing human effort, obscure and replacement vehicles, and even P maps You can find the billing process. The risk of fraud is to achieve intellectual loss, save owner time, reduce staff workload, and improve service efficiency. The artificial intelligence technology used is image recognition technology + deep learning + NLP.

Image recognition can handle unstructured data such as handwriting conversion, document scanning / photography, and video and live photo classification. After image processing, the displayed text information can be processed faster using NLP.

Currently, artificial intelligence is mostly in the insurance industry, such as customer service, underwriting, nuclear compensation, fixed losses and other after-sales areas, and there are not many uses in the pre-sales area.

Artificial intelligence application during the billing process

AI can be applied to improve the billing process. The improved "non-contact" claims do not require manual intervention. The whole process will use artificial intelligence and other technologies to report claims, take photographic damage, review the system, and communicate with customers. This possibility is enormous, as the customer can file a claim throughout this process without having to pass the red tape.

Companies that automate billing processes have significantly reduced processing time and improved processing quality. AI claims can also help insurers better handle fraudulent claims. Each year, fraudulent claims cost the insurance industry more than $ 40 billion. In the past, to identify fraudulently, reports were manually groomed to identify incorrect charges, but AI algorithms identify data patterns from fraudulent patterns and possible fraudulent locations. Was.

Chat robot

Chatbots need natural language processing and sentiment analysis. Effective chatbots can handle customer input and verb requests and provide personalized services. In the insurance industry, chatbots can be used to answer basic questions, process claims, sell products, process transactions, or ensure that customers get the right insurance.

Sales and underwriting

AI can extract customer data and create complete customer documents that include customer preferences and corresponding insurance products.

The underwriting phase is often time consuming and expensive, such as annoying issues and premium investigations, and artificial intelligence can automate the entire process. Robots capture relevant data by scanning potential customers' social files to find trends and patterns. For example, people with a healthy lifestyle and a stable job may be classified as safe driving groups. In other words, insurance premiums can be reduced. AI can analyze data better than humans and predict each customer's risk more accurately, so they can provide insurance coverage to customers and avoid customers that are dangerous to the company.

data

Insurance relies on data that can affect a company's revenue and customer satisfaction. One of the biggest benefits is that you can better use your data to improve how your customers are audited. Information processing and wireless data transmission will be fast growing areas of the insurance industry. Many insurance companies offer discounts to customers who are willing to share driving data. In addition, by identifying GPS data patterns, estimating road and traffic conditions, and predicting and avoiding accidents, you can reduce the number of bills and attract more secure and satisfying customers.

Differentiated prices are gradually becoming a possible option

Artificial intelligence in the insurance industry "from the people" itself, using big data analytics, different pricing, or precision marketing for different policyholders.

2. AI fraud prevention feature overrides traditional manual identification

Artificial intelligence has also added a lot to the Chinese insurance industry's fraud prevention applications. Insurers estimate that the cost of insurance fraud in China currently accounts for 15% to 20% of the costs incurred by insurance companies.

3, AI with a shared economic model to establish a claim resource cloud platform

4, the virtual agent shouted to remove the complex body can not afford to end

Introducing AI virtual insurance agents to replace weak institutions can greatly improve the past.

Of course, the role of AI is not only a substitute, but also a new level of professional skills. Artificial intelligence can quickly become an insurance professional through data entry and training. It can also be a customized insurance product that is not possible with professional human agents.

AI + insurance mode

1. Insurance industry characteristics limit data collection speed: Using AI to improve decision making is the perfect solution for the insurance industry to solve future problems. Unlike the banking industry, the insurance industry uses a decentralized storage mechanism.

2. Under asymmetric information, it is difficult to guarantee user security.

After AI is applied, the product scene is better presented because it can calculate the most rational solution for different situations.

MIT MIT scientists are building a physiological basis. An artificial intelligence system that distinguishes human emotions from messages and voice conversations by collecting large amounts of physiological and audio data through wearable devices to improve the accuracy of recognizing human emotions.

3, abstract attention, but figurative indifference to technology:

Baker & Hostetler in the United States is responsible for assisting with issues related to corporate bankruptcy. Ross, a law firm AI robot, reads existing laws and literature, draws conclusions from it, answers questions in specific cases, and provides guidance to those who use natural language questions. I can. With machine learning, you can continuously improve your ability to answer questions from past lawsuits and human interactions.

Embedded control 28 years

Development of semiconductor PCBA circuit design technology software

Development communication of transport control software for semiconductor manufacturing equipment

Embedded (control) firmware development using assembler

Development of automotive related software

PLC device control software

Information appliance firmware development

Development of various OS drivers for information appliances

Responsible for designing control software for mounting surveillance cameras

Main technology

Mainly Bank of Japan, Bank of Mitsubishi UFJ, Sumitomo Mitsui Banking Corporation, Nomura Securities, SBI SECURITIES, AIG Life Insurance, Mizuho Bank, and other business-related projects, AWS, Azure, GCP, and other cloud services, AI / RPA, IoT system projects (NVIDIA) Toyota and SoftBank have developed self-driving technology Nvidia has manufactured expensive semiconductors used for image processing of personal computers such as GPUs. Toyota has a taxi dispatch system with AI and operation data collection for AI. SoftBank (SoftBank) SoftBank's AI and machine learning IBM Watson, MAGELLAN BLOCKS.TOYOTA (Toyota Motor), domestic company AI, self-driving car Toyota and SoftBank's large partnership New company "MONET softbank Artificial Intelligence, Big Data, IoT, Robotics, etc. Technology Artificial Neural Network etc.) Experience, integration and control System development project)

Programming Language: C C ++ C # Clojure Cobol D Erlang F # Fortran Go Haskell HTML / CSS JavaJavascript

Julia Lisp Lua Objective-C OCamlPascal Perl PHP Python2 Python3 R RubyRust

Scala Scheme SQL Swift TypeScriptVisual Basic Kotlin

Development environment: Linux UNIX Mac OS Windows Windows Server Apache Nginx IIS Amazon Web Service Microsoft Azure Google Cloud Platform VimEmacs Eclipse Visual Studio Visual Studio CodeHadoop Redis memcached Elasticsearch ChefPuppet Ansible Terraform

Git CVS MercurialSubversion

Framework: Struts JSF Spring Play Framework CakePHPSymfony Laravel Zend Framework CodeIgniterFuelPHP Ruby on Rails

 Django Node.js jQueryAngularJS React Bootstrap Echo iris GinGoji Revel Unity Unreal Engine cocos2d.NET Framework

DirectX OpenGL iOS SDKAndroidSDK

 

Field of experience: Web development (server side) Web development (front end) iPhone application development Android application development Feature phone application development R & D

Consumer game development Desktop application development OS / middleware development control embedded system development General-purpose system development, data analysis ... BigData, BI

State-of-the-art specialists such as AI and IoT that collect, integrate, analyze, and reuse large amounts of accumulated data

Development environment Azure, AWS, GCP, Middle / Hadoop * Knowledge of big data, management, Tagetik, etc.

Platform / Tableau development style / Agile development, Python, Tableau, Hive / Hadoop / R language / bigdate / management, etc. For example, decision tree, neural network, regression analysis, principal component analysis (PCA) to extract features and patterns, Cluster analysis, genetic algorithm, reinforcement learning, etc.

The world's best in the industry, new technologies such as AI, machine learning, big data, IoT, BI, RPA, etc. have been used in industries such as finance, web, pharmaceutical, agriculture, retail, manufacturing, sports, etc.

AI x medical research

Medical software developed using MR (Mixed Reality) and VR (Virtual Reality) devices. Medical care in the world will certainly achieve "automation" and "unmanned".

Riding the wave of the coming medical revolution, we will make medical treatments fun and enjoyable. We create a world with a lifetime of 100 years or more with advanced technology and content capabilities, creating medical care

With the motto of "Make medical treatment fun!" And "Medical care x IT = Entertainment", we will make the revolutionary and fun change of medical care anyway, especially VR, and make use of animation and game contents to make patients happy. Giving is our mission. In order to sublimate medical care, to unmanned medical care, and to entertain medical care (entertainment), we want to make medical care interesting! The latest technology and know-how in the world's highest environment such as New York University and Harvard University. Learn. Through his experience, "Introducing the world's advanced medical technology more into Japan Dental Group We have built an environment in which dentists can learn the world's advanced medical technology and a platform for transmitting advanced medical technology in Japan.

Education business for dental professionals,

Promote home healthcare in response to an aging society,

Overseas base global expansion ...

Through the challenge of creating new business models and value creation, we opened up the potential of medical care, realized high-quality medical care, revitalized the medical industry, and contributed to society.

 

AI x transportation system

Research and development of technologies related to autonomous driving and connected cars. Conducts joint research with Toyota.

AI x manufacturing

Application to robotics and machine tools. Research and development of object recognition / control / abnormality detection / optimization technology. Joint research with FANUC and Hitachi.

AI x Biohealthcare

Analysis of medical images, research and development of early cancer diagnosis technology using blood. Joint research with the National Cancer Center and others from December 2017.

AI x manufacturing (robotics, optimization)

AI x traffic

AI x Biohealthcare

AI x communication

AI x machine learning

AI x simulation

AI x edge device

AI x Network

AI x high performance computing

AI x product development (general)

AI x product development (visual inspection solution)

AI x human computer / robot interaction (HCI, HRI)

AI x project case

AI x medical research

Japan's Takeda Pharmaceutical, Fujifilm, Yanyay Pharmaceutical and Others Promote New Drug Development Project with Artificial Intelligence (AI)

Medical DNA cell IPS artificial intelligence project-major hospitals in the United States, including Osaka Hospital

IBM Watson Artificial Intelligence Project

By engaging in the development of artificial intelligence, smart sensors, telescopes, detectors, and medical equipment, artificial intelligence makes our language the window of mental health and advanced image sensors enable humans to create supervision . All medical testing systems are integrated on a single computer chip, and smart sensors detect environmental pollution at the speed of light.

Based on the optimistic view of healthcare, IBM will focus on smart healthcare and achieve three key goals in the coming years. 1. Chips for diagnosing potentially fatal diseases faster than state-of-the-art laboratories. The camera observes the pill to see if its molecular structure matches the properties of the usual drug; 3. helps the system determine if the subject is suffering from mental illness.

Famous case (AI)

AI x Intel Artificial Intelligence Project

Intel facilitates open source efforts through optimized machine learning frameworks and libraries, and works with machine learning experts on Nervana systems.

Google Artificial Intelligence Project

Artificial intelligence development for language translation, visual processing, and ranking and prediction functions

AI Case Salesforce Artificial Intelligence Project Team

Salesforce uses artificial intelligence to help employees perform tasks more efficiently and streamline and accelerate productivity.

AI case Amazon Amazon ALexa artificial intelligence project and init artificial intelligence project

Developed by Amazon's artificial intelligence service robot Alexa and participating in in-depth learning of the basic AWS cloud platform The Amazon Sagemaker framework has been applied to financial software US INTUIT

 

Ant project artificial intelligence chip software development

Nippon Aeon Group AI Project

Financial credit loan AI prevents fraud, repayment reminder AI system

Nomura Securities Industry Consumer Finance Score Artificial Intelligence Project

He is familiar with JVM in product architecture design and has experience in JVM tuning and performance optimization.

Supermarket anti-theft AI detection system

Face recognition AI of Japanese police station arrests prisoner system

Japan's AI transportation system

Sports training AI system

VR / AR system

HCI, HRI system

Manufacturing IOT system

Visual inspection solution

3D game AI product, Preferred Networks R & D, PaintsChainer project

Omron Artificial Intelligence Cooperation

Development, operation, and improvement of new functions of the company-wide core business system (Salesforce)

・ Recommendation and search function optimization using artificial intelligence / machine learning technology (Tensorflow, etc.)

・ Development, operation, and improvement of new functions of the company-wide CRM system

・ Draft a transition strategy to the business flow that should be and promote the transition

We have developed a job recruitment automatic recommendation function using AI (machine learning) and a job seeker's intention degree automatic judgment function.・ I gained experience in consulting work, including not only a series of upstream and downstream processes of in-house system development, but also proposals for business flow improvement in the business divisions.

3D design concept art production / design

3D CG design of character modeling and texture creation, bone setup

3D CG design for background modeling and texture creation

Various motion designs using 3D CG

Composite work using AfterEffects

Character model

Background model / rigging

3D graphic design and asset production such as motion

Effect design including special effects and environmental effects

Create various interfaces such as GUI, font and logo

Technical artists such as technical development for efficient development procedures

Work experience of 3D CG using Maya or 3dsMAX

 Motion production and practical experience using any of Maya, 3dsMAX or MotionBuilder

Development experience as a technical designer

Tool development experience using scripts of each software

Interface work experience in game production

 Graphic design through DTP, WEB, etc.

Hand-drawn effect (2D) creation skills

Expert knowledge and technology such as programming languages ​​for shaders in general

Project case

It was also possible to analyze using “BigQuery” tool of “App development”, “Infrastructure operation and maintenance”, “Data analysis”, “SRE” GCP.

Realizing Big Data Use of OMRON Healthcare with GCP

Omron Healthcare is a leading company in healthcare equipment and services. As the amount of data handled in the medical industry is increasing due to the development of IoT, the use of GCP is proposed to enable more accurate data analysis and utilization. Supporting the provision of services that lead to the improvement of people's health through support for introduction and selection of optimal resources

* In addition to GCP tools, tools such as Swagger, Postman, Terraform, Ansible were used

* For development experience, languages ​​that can be used in GCP such as Java, Python, NodeJS, Ruby, Go, .NET, PHP. For experience of GCP infrastructure engineer, experience in server operation and monitoring

AI / IoT technology from the viewpoint of privacy and security

Privacy, security issues and impacts related to AI and IoT About various guidelines about AI / IoT

 Privacy and security measures to make good use of AI and IoT

Women's professional baseball organization: Women's professional baseball navigator (in charge of API and application)

https://itunes.apple.com/jp/app/id1094112441?mt=8

(2) Deep learning R & D experience of machine learning and artificial intelligence technology 24 years

Experience in developing artificial intelligence and intelligence development environment Experience in big data acquisition and analysis Use of empirical analysis algorithms in artificial intelligence algorithm development languages ​​such as Python and TensorFlow Regression: logistic regression, SVM tree: decision tree, random forest Bayes: simple Bayes (Naive Bayes Ensemble Learning: Boostin Time Series: AR, MA, (S) ARIMA Model etc. Product Analysis: Association Analysis, ABC Analysis, Basket Analysis Business Analysis Customer Analysis: Decyl Analysis, R Natural Language Analysis: Text Analysis, Shared Kinematic network, analysis, Word 2 Vect clustering: k-nearest neighbor (KNN), hierarchical clustering, non-hierarchical clustering (K-Means), topic model / abnormality detection (outlier detection) Neural network: CNN, RNN, LSTM, Development related to Deep Learning / AI such as self-organizing map (SOM) [Artificial Intelligence (AI) / Mechanics Learning / Deep Learning] More than 10 years of experience Image authentication / face recognition (intelligent monitoring system) Python, Tensorflow (software library), C ++, Node.JS YOLO (real-time object recognition), Darknet (neural network environment) Raspberry Pi, GPU (Computing device), Arduino (AVR microcomputer) OpenCV (Image processing library), Docker (Virtualization) ROS (Robot Operationg System), Anaconda (Package for data science) R, Jupyter (Data analysis tool) MobileNet (MobileNeural network for mobile applications) Speech recognition (Functional research of Android applications) Python, htk (HMM learning tool for voice), Julius (Speech recognition engine) sequitur g2p (Cryptographic phoneme conversion) Artificial intelligence, Machine learning, Natural language processing In-depth knowledge of information retrieval game AI Experience in C / C ++ work Experience in game development on any of PlayStation3, PlayStation4, Xbox 360, Xbox One Experience in game AI system Knowledge on pathfinding / navigation mesh Knowledge of behavior tree Experience of tool development on Windows AI / IOT Artificial intelligence I am engaged in the introduction of cutting-edge technologies such as AI and RPA RPA: WinActor Hadoop, Python, NoSQL Database, Apache Spark, SQL server, Oracle Experience BI, machine learning, Data Lake hardware for data analysis and data collection terminals using machine learning such as deep learning , Production / model creation, AI platform construction, data streaming processing, front-end development [data analysis platform] Python / R / HHVM (PHP) R, Django, Ruby macro (VBA) creation, works with Raspberry Pi, Use python to create programs Use MATLAB to create programs Use SQL (PostgreSQL) (big data, AI, IoT, BI construction, analysis, etc., Hadoop, Python, NoSQL Database, Apache Spark, SQL server, Oracle, AI, IoT, security Development of AI to be installed in home appliances and drones, development experience of full-stack Web services, knowledge of Python (WSGI, numpy, async), AWS, javascript framework, etc., agile, test driven development experience, leader experience, Knowledge of digital marketing ecosystem and technology, basic knowledge of machine learning and statistics, creative software design skills using the latest technology, R, Diango, Ruby Experience in program construction / analysis, machine learning framework, statistical knowledge, development and operation of infrastructure for analyzing large-scale data, development and operation of services linked with the system Linkage of machine learning systems with data scientists Experience in development and operation, development of infrastructure supporting large-scale data such as ad networks, experience in building and operating DMP, experience in prototype development of new products System development on Linux / UNIX, handling large data sets Experience, development and operation experience of service infrastructure using cloud such as AWS and GCP, experience using distributed computing such as Hadoop / Hive System development on Linux / UNIX, experience dealing with large data sets, Experience in development and operation of service infrastructure using cloud such as AWS and GCP, distributed computing such as Hadoop / Hive Experience using, IoT, AI, autonomous driving, blockchain, GNSS… Natural language processing engineer / Data engineer / Machine learning engineer Linear regression with variable / linear algebra review Linear regression with multiple variables / Octave ・ Matlab tutorial Logistic regression / normal Neural Network: Representation Neural Network: Advice for Applying Learning Machine Learning / Machine Learning System Design Support Vector Machine (SVM) Unsupervised Learning / Dimension Reduction Anomaly Detection / Recommender System Large-scale Machine Learning Application Data Platform Area Development and operation of data platform [Data platform engineer] In charge of development and operation of platform applications that support the data use process [DevOps engineer] Operate middleware such as Hadoop, Kafka, Storm, Cassandra, Presto, MySQL, Oracle, Teradata, and improve the operation process [Middleware development engineer] In charge of OSS middleware development such as Hadoop, Kafka, Storm, Cassandra, Presto, etc. System construction, modeling, and data analysis to promote the utilization of multi-big data (hereinafter, data) in the science area [Data utilization system construction] Responsible for building a system to deliver optimal content to users based on data [Machine learning] Build a model that performs optimal distribution from huge log data by machine learning [Information search] Yahoo ! Shopping, Yahoo auctions, advertising distribution, etc. OSS-based search engine used in OSS [Natural language processing, voice processing, image processing] The latest technology for natural language processing, voice processing, image processing is turned into a tool and applied to services [large-scale data processing] Hadoop, Spark, etc. Build a large-scale data processing system that processes logs and other data using the system. In charge of creating systems and mechanisms to promote the utilization of multi-big data (hereinafter, data) with a data service area [Data Engineer] company-wide Responsible for the development and operation of data collection, cleansing, conversion, and storage for utilization [Front-end engineer] Responsible for the front-end development of a system that visualizes, analyzes, and manages data [Data warehouse engineer] Combines various data To create an environment that allows users to analyze their behavior with free ideas [Data Architect Responsible for designing data management to handle data effectively and safely [Data business] In charge of creating a system to promote the utilization of data and to spread it not only in the company but also throughout Japan As a corporate R & D domain R & D You will be in charge of technical development and on-site deployment in line with service needs. AI system development, AWS, Azure, cloud platform design / construction / operation using GCP, embedded / control system development (C / C ++ etc.), cloud service / AI / RPA system.

Experience in analysis / research using multivariate analysis, data mining, and machine learning

Experience in analysis using statistical analysis tools such as R, SPSS, SAS, etc.

Experience programming with machine learning libraries such as Python and R

 

Experience in Bayesian statistical modeling [Artificial Intelligence (AI) / Machine Learning / Deep Learning] Over 24 years experience

For about 13 years at NTT Data Research and Development Center and Hitachi, worked as a development center member of machine translation software "The Translation", and developed major functional parts using development languages ​​such as C and C ++. Recognized for his contribution to the industry, he received the 2009 AAAMT (Asia-Pacific Association for Machine Translation) Nagao Award.

Cooperation with other companies (Microsoft, Adobe, etc.), joint research with venture companies based in Spain, Japan Translation Federation, Technical Communicator Association, University Actively expanded outside through lectures at The company has been conducting activities not only to develop general-purpose products, but also to revitalize the entire industry.

Management in R & D of artificial intelligence technologies (text mining and data mining technologies) New business strategies and planning for R & D of power and social systems, promotion of IoT and AI

Research and development Research and development of computer vision, multimedia technology, natural language processing technology

For about 13 years from 2006 to the present, as a group leader in text and data mining, he has led 53 subordinates and has been promoting projects to improve productivity and lead time using artificial intelligence technology. In the first half of 2017, he will be in charge of a research and development budget of about 100 million yen and management of a total of 160 people (area leader). Recent projects include:

Increased yield at Yokkaichi Plant, a central base in the TOSHIBA memory business with sales of approximately ¥ 750 billion in FY2016. The world's largest Yokkaichi factory, with hundreds of processes and thousands of units, has enormous big data due to mass production. Real issues are grasped by going into the field and proceeding with discussions. By analyzing big data in cooperation with on-site staff, the company has monitored the occurrence of defects and analyzed the causes to improve the yield. We improved the efficiency of failure analysis by 50%. 2016 business award for contribution to business results.

Increased production efficiency and shortened lead time at the Keihin Plant, a production base in the thermal, hydro and nuclear businesses with sales of about 1 trillion yen in FY16. At the Keihin Plant, nonconformities caused by design at the manufacturing and product stages are accumulated. These have been effectively utilized by text mining technology to reduce nonconformity at the design stage, thereby reducing expenses. In particular, attending a design review meeting and observing behavior to understand issues at the site. In the second half of 2016, a new support function based on this was developed and integrated into the Keihin Works overall system.

Participated in the nuclear PLCM (Plant Life Cycle Management) project. Considering the use of machine learning techniques to shorten the period of periodic inspections, which has a large contribution to improving the profits of electric power companies over their lifetime. Engaged in benchmarking competitors and developing strategies that leverage their strengths.

Improve added value by analyzing TV viewing data. We analyze data per second obtained from TV and propose an analysis method for viewing patterns that were not recognized until now. He has worked on customer co-creation activities aimed at improving and optimizing the value of program production, commercials, and other promotional activities at web advertising companies and TV companies.

Analyze using “BigQuery” tool of “App development”, “Infrastructure operation and maintenance”, “Data analysis”, “SRE” GCP.

★ Realize big data utilization of OMRON Healthcare with GCP

Omron Healthcare is a leading company in healthcare equipment and services. As the amount of data handled in the medical industry is increasing due to the development of IoT, the use of GCP is proposed to enable more accurate data analysis and utilization. Through the introduction support and selection of optimal resources, we support the provision of services that lead to the improvement of people's health.

* In addition to GCP tools, use tools such as Swagger, Postman, Terraform, and Ansible.

* For development experience, languages ​​that can be used in GCP such as Java, Python, NodeJS, Ruby, Go, .NET, PHP. For experience of GCP infrastructure engineer, experience in server operation and monitoring

Thinking about AI / IoT technology from the viewpoint of privacy and security プ ラ イ バ シ ー Privacy and security issues and impacts related to AI and IoT About various guidelines on AI and IoT Privacy and security measures to use AI and IoT effectively

 

AI x project:

Mazda Motor Corporation Autonomous Driving Technology / R & D

 EY Advisory and Consulting

Global SAP leonardo × Blockchain consultant / PM

Mazda Motor Corporation Autonomous Driving Technology / R & D

Capillaries x IoT Capillary vessels with IT technology

As a result of joint research with Osaka University Graduate School of Medicine, we succeeded in developing a core algorithm for digitizing capillary images. Capillary blood vessels with the know-how of the most advanced image diagnostic technology × IoT Visualization of blood capillaries by IT technology Capillary blood flow observation device “Vessel beauty” that can easily observe the blood flow of capillaries without blood sampling (patented) Was developed by my father. This “Beauty of Blood Vessels” allows you to see the state of the capillaries at a glance simply by applying oil to your fingers and placing your finger on the device without collecting blood. You can check your health by watching the minute changes in your own body, and you can get a sense of your lifestyle. It is mainly used as a counseling tool at pharmacies, etc. Also used for evaluation

Panasonic artificial intelligence

This is mainly due to the evolution of algorithms, improved computational capabilities, and a dramatic increase in the amount of data that can be handled, by combining the main business areas of home appliances and homes, automobiles, and B2B solutions with artificial intelligence technology. Yes, by combining technological achievements such as machine learning and natural language processing in the field of artificial intelligence with AV processing technology and various sensors and actuators that have been cultivated so far, assisting living and business activities.

Japan AI parking automatic system and ETC automatic billing system ETC discount billing system

Integrated Control System Development Field>

◎ Electronics basic technology / Development and design

Vehicle electric system development & architecture design,

In-vehicle ECU hardware development (function / manufacturing requirements design)

◎ Infotainment / UI area / Advanced / Product development

In-vehicle infotainment system development (new generation car connectivity system domain), etc.

◎ ADAS, vehicle area / precedence-product development

Vehicle safety control development, in-vehicle control ECU hardware, software development, etc.

◎ MBD support / operation system / development

Simulation that supports model-based development of vehicles (including HEVs and EVs)

And operation system design and development

◎ Autonomous driving technology / R & D

Image analysis, machine learning (DL / reinforcement learning), image & distance sensor signal processing, new map development, etc.

◎ Human-Centered Research Area / Advanced Technology Development

Hypothesis construction for human characteristics, verification experiment plan, measurement method construction work, etc.

<Powertrain development field>

◎ EV / PHEV inverter / control development

Hydraulic control design / experimental research, etc. for next-generation automatic transmission

◎ Driving and environmental performance / development

Driving force control development and driving experiment / measurement work, etc.

◎ Engine / xEV / Control development

Engine electronic control system and control model design or software / hardware development design

 

Using smart retail, cloud computing, big data, the Internet of Things, and other state-of-the-art technologies to digitize retail elements such as goods, users, and payments, and intelligentize procurement, sales, and service processes. Do with higher efficiency and better experience. Users provide goods and services. Logistic drones, unmanned heavy trucks, unmanned express vehicles

At the offline level, it offers unmanned shops and facial recognition technology and intelligent shopping guide robots. You can also recommend stores smartly and get to know your smart recommendation system and passenger count system better. At the online level, it is represented by AR with realistic visual effects and intelligent customer service that provides features such as mood monitoring and merchandising. In addition, there are logistics technologies such as unmanned vehicles and unmanned reconnaissance aircraft, and smart terminal products such as speakers and PPTV TVs. Voice recognition, interactive technology, Internet of things technology. Audio with Master Station platform speech recognition, interactive technology, and Internet of Things technology, serves as the entry point for smart home devices for the entire user. About 500 meters away from consumers such as office buildings and large interiors, Suning has placed unmanned shelves, smart shelves and parade robots, and about 3 km from consumers, unmanned shops, select shops, and directly managed stores there is. Squares, cloud shops, studios, and more, 3 km away, highlight the scene and experience and include all black technology applications, so consumers can play all day. The core competitiveness of retailers lies in the supply chain, and product selection, pricing, forecasting, replenishment, and the scientific investment in building a smart supply chain can greatly increase efficiency. In the field of logistics, there are logistics robots, automated warehouses, drones, and unmanned vehicles. Blockchain technology is also used in the financial sector, with wind control and financial services assistants also being used on a large scale, indicating that it is widely used in business support from an AI intelligence perspective. Layout of core technology features such as cloud computing, big data, artificial intelligence

In the Japanese distribution industry, there is an urgent need for “prescriptions” that can cope with the shortage of staff. Depending on the scale of sales and regions, the shortage of staff is increasing the tendency to close stores. Introducing artificial intelligence is a good strategy

 

I work with companies such as Google, Amazon, Aveja of Japan, Fujitsu and other retail, manufacturing, tourism, artificial intelligence projects in the food and beverage sector, etc., to `` automobile '', `` manufacturing '', `` communication and distribution '' , Study "finance" deeply.

 

AI x goods retail

Natural language processing (NLP or Natural Language Processing) for analyzing and understanding the user's natural language input and dialogue control are mainly used, and machine learning and other technologies are used to support these. In the next phase, the AI ​​learns the procedure for recommending products, as found in the education manual for over-the-counter salespeople, so that the chatbot can talk like a real salesperson and recommend devices and plans to users. Make suggestions. In the second phase, while the AI ​​assists the customer in making a decision, such as selecting a device, the customer is offered more strategic sales and offers a service that is more entertaining. Or to take on the needs of users that cannot be identified by computer.

And, assuming that many AIs will be used in the future, multiple AIs will work together to meet the needs of humans. Development and consideration are underway. In the future, as AI develops more and more, Rakuten will make full use of computers for parts such as simple tasks that are good at computers, while parts that require creativity that can only be done by humans can make the most of human know-how. Such development is underway.

Store analysis service utilizing artificial intelligence

Point 1

From entry to purchase

Visualize customer behavior

Point 2

Automatically measures

Measure the effect

Point 3

Smart store

To realization

Point 1

From entry to purchase

Visualize customer behavior

Utilizing deep learning technology, based on videos from cameras installed in stores

Number of visitors, age and gender of customers, status of in-store migration, etc.

You can visualize consumer behavior that could not be obtained conventionally.

Visitor count

The number of visitors can be counted from the camera installed on the ceiling.

Age and gender estimation

By acquiring face images of customers and using image analysis technology utilizing deep learning, the age and gender of customers can be measured.

Drop-in analysis

You can measure drop-in rates and stay times in specific areas.

Repeat estimation

By acquiring face images of customers, it is possible to measure the repeater ratio and the number of re-visits.

* The period during which repeat estimation is possible is limited to within 6 months.

Flow analysis

It continuously understands customer behavior from entry to purchase and clarifies the migration status of customers.

See service details

Point 2

Automatically measures

Measure the effect

In the app,

Build a database of store policies.

Just register the measures for each store,

We will automatically verify the effect based on POS and store data.

 Point 3

To realize a smart store

Leave the troublesome work to artificial intelligence, and do things that only humans can do.

In order to realize such a store, first, artificial intelligence needs data to understand the store. Do you not accumulate store data now for the realization of a smart store?

Case

Automated visual inspection using image data

• Detection of device abnormalities using sensor data

• Autopilot simulation

Participated in the Amazon Artificial Intelligence project (Amazon Go)

An experimental grocery store in Seattle has succeeded in enabling shoppers to gather on shelves, exit checkout counters, or stop in self-checkout kiosks. The computer visually recognizes those entering the store and then associates them with the product removed from the shelf. When the customer leaves, the system deducts the cost of the shopping bag from their Amazon account and sends an email receipt.

German e-commerce company Otto uses a detailed learning model to analyze billions of transactions, predict what is most likely to be purchased before placing orders, reduce surplus inventory by 20%, Over 2 million annually. The product accuracy predicted by this system over the next 30 days is 90%.

Carrefour Artificial Intelligence Project, a global retailer in France, and Tajit Artificial Intelligence, a U.S. project

Insights-based sales, such as personalized promotions, taxonomy optimizations, and custom rendering, can increase by 1% to 5%. Online, combining this personalization with dynamic pricing can increase sales by 30%. Electronic beacons are placed in stores to gather data about customer behavior and purchase patterns, and use machine learning algorithms to determine personalized promotions to send when customers shop. Carrefour reported that only 28 apps within the app increased sales by 600% after using electronic beacons. Personalization that enables artificial intelligence can go far beyond the scope of targeted promotions. Inside the store, a virtual assistant can identify repeat customers using facial recognition, analyze shopping histories, make suggestions, and engage in conversations with natural language processing and conversation.

Product-based choices to chat with shoppers with machine learning and language recognition.

JR East Japan Railway Company Artificial Intelligence Project, an unmanned convenience store that Suica can pay within a limited time.

Fujitsu Artificial Intelligence Project Fingerprint Authentication Consumer System and Collaboration with Japanese Supermarkets and Department Stores

Lotte Artificial Intelligence Service Automatic Question Answering Project in Japan

For AI capabilities based on deep learning and machine learning frameworks, efficient and intelligent R & D capabilities can support the development needs of online retail, smart store, smart logistics, and smart supply chains.

Participation in Nomura Securities uses AI to collect and analyze various information.

Japan's Ministry of Land, Infrastructure, Transport and Tourism uses AI systems for analysis to mitigate traffic jams due to tourism

The successful development of the AI ​​Customer Service System for the 2020 Tokyo Olympics will allow visitors from around the world to be accepted through multilingual services.

• Participate in the Yoshinoya AI Robot Project using face recognition technology that can sense age and emotions, and actively communicate with each other's emotions to easily communicate with the robot.

AI customer service system information analysis of a large amount of data The AI ​​customer service system can handle "customer demand confirmation", "comparison of customer demand statistics and proposal of the best product for customer", "order business", etc. Business systems such as hot selling product proposal, "confirmation in library", "confirmation of arrival". The information is automatically analyzed and the results are given to the merchant to help the merchant do business more effectively.

We also participated in the Aeon Group's Lawson Artificial Intelligence Project and sold unmanned tickets using smartphones, but there is no convenience store. How. The three areas with the greatest opportunities are promotion, classification, andIt is replenishment. Apply AI, machine learning, and robotics. Most importantly, AI technology can significantly reduce manual work in areas such as promotion, classification, and supply chains. AI for predicting trends, optimizing warehouse and logistics, setting prices, and developing personalized promotions. It also aims to confirm purchases, that is, predict the order of a traveling customer without waiting for shipment. Using machine learning algorithms, you can predict the sale of fruits and vegetables, and increase your pre-tax profit by 1-2 percentage points. Based on this prediction, the company will automatically order more products to maximize sales and minimize waste. When choosing a new concept store, apply machine learning to understand the profitability factors. Warehousing and store operations offer many opportunities for artificial intelligence applications. For some non-digital retailers, especially supermarkets, automated operations can make a big difference. Increased the average profit margin many times. AE has introduced AI-equipped dialogue systems at nine stores, including Matsumoto and Kumamoto, to automatically identify customers and provide guidance. This AI with a dialogue system can support three languages: Japanese, English and Chinese. On August 7, 2018, Aeon introduced a self-propelled robot called Pepper at the Makuhari New Winshin Shopping Center in Chiba City, and is supporting the Aeon Card enrollment procedure at the front desk.

Through the digital signage on the AI, Pepper can automatically identify the age and gender of the customer standing in front, and then the customer can follow the prompts to complete the membership card.

"Pepper" can handle up to three customers at the same time, automatically recognize customers and automatically approach customers within a safe range. It has strong cognitive ability and can guide customers effectively by offering products that meet the age and interests of customers in English as well as Japanese.

After closing the store, it will automatically tour the stores, read the electronic data of each store, automatically check the number of products in the store, and give feedback on merchant related content.

Autonomous robots can work with people to increase productivity and reduce damage. Inventory time has been reduced by 30% as warehouses have begun using automatic activation mechanisms. Trams were developed and their physical work was reduced in warehouses after purchasers. At stores, machine learning can increase classification efficiency by 50% and help optimize sales plans. Retailers increase sales by 4-6 percentage points by using geospatial modeling to analyze micromarket attractiveness and using statistical modeling to predict and minimize potential out of stock can do. These efficiencies can be achieved in real time by machine learning, and the accuracy increases as more new data is learned. An online supermarket that applies AI to core business. In supermarket warehouses, machine learning algorithms manage thousands of items on maze conveyor belts and deliver them to people in time to fill their shopping baskets. Another robot sends the parcel to the train, and the driver selects the best route according to the weather and traffic conditions, as directed by the AI ​​application.

He also participated in a successful case of the AI ​​project at Kobe Daimaru Department Store, but Kobe Daimaru was the first in Japan to introduce an AI customer service system. Daimaru Department Store in Kobe Motomachi, Japan, adopted two interactive AI MOTOMAQIs in June of this year to provide special services such as Nakahara and New Year holidays dedicated to gifts to relatives and friends during the Japanese festival. Provided to.

Faced with the need for customers to buy gifts, MOTOMAQI asks about the gift's gender, favorite color, etc., then analyzes, answers, and suggests the gift to the customer.

It can meet any gift or shopping need, as well as polite shopping demands, thus meeting multi-style requirements that were not met before.

I also participated in supermarkets and started using “Miss AI Sakura” at some beauty shops in cosmetic shops. She didn't just answer the customer's question in time, but also confirmed her age, muscle, skin color, and individual questions. And from the database attached to the same customer group to find the demand for goods, this proposal is suitable for various feminine cosmetics.

In addition, the system provides complete service from the time the order is placed until the last payment, and no settlement information (personal information) is left below, restoring the merchant and the paying individual. In addition, providing four languages ​​(Japanese, English, Chinese, and Korean) will make it easier for foreign visitors who like Japanese cosmetics.

 

We will talk about the taste of coffee under the leadership of the waiter robot "Pepper", which has developed a Shinjuku unmanned coffee shop to welcome customers. After the guest is appointed, the robot contacts the kitchen chefs "DuAro" and "Parisuta".

 

While flower shops use smart agents to understand shopper needs, Digital Gift Concierge has an algorithm that allows you to review images displayed by customers on Pinterest and understand their style.

 

AI x construction

Japanese construction company Shimizu Construction Artificial Intelligence Project

My Patented Intelligent Construction (NASA) Project in Extreme Environments

Komatsu Multipurpose drone and bulldozer automation system

HRP-5P robot development project developed by National Institute of Advanced Industrial Science and Technology

Development of transport robot in unmanned warehouse in Jingdong

Based on the development of the disaster rescue robot, a remote controlled disaster exploration and rescue construction robot development project was created.

Kawasaki Heavy Industries Robot

Development of arc welding robot ARCMANTM-GS manufactured by Kobe Steel

We must make some contribution to construction robots in the country, centered on green buildings and industrialization of buildings. From underground to deep buildings, skyscrapers, underground nuclear power plants, and underground superconducting energy storage, the future must be underwater and space applications. Construction workers, intelligent construction equipment, intelligent testing, advanced technology and technology, need to add construction technology, need to add building standards, we are equipment, construction robot industrial development, including building boards for robots, Installation equipment, application of 3D printing technology in building construction, rescue robots, etc.

AI x earthquake

Amsterdam hotels have adopted artificial intelligence technology projects to allow robots to manage the entire hotel.

Japan Post-Earthquake Rescue Robot Project: After Fukushima Nuclear Accident, They Help Humans Stop Nuclear Leaks

Omron robot project

Toyota Human Assistance Robot (HSR) Project

Sharp's Robohon project (over 20 cm) introduces the history of the ancient capital Kyoto in English, Japanese and Chinese.

Japan Aerospace Exploration Agency researches small building robotics project to help build habitat on Moon and Mars

Kajima Corporation joins team

Transport robot project in Jingdong unmanned warehouse.

Cooperation with researchers at MIT Media Lab of Mie Heavy Industries Project in China, USA

AI x architectural design

Japan's aging population is terrible and the workforce is very inadequate. Buildings that are not easy make it difficult for young people to get involved. No one passes, and skilled craftsmen need to "transfer" their skills to the robot. Construction works are dangerous land works. Second, up to 70% of architectural design and engineering product rework experience is due to design-related rework; labor productivity is low; building flow issues can affect labor productivity by more than 50%. Inaccurate data and communication errors, 52% of rework is due to inaccurate project data and poor communication, and 30.9% of construction industry experts are slow to respond to questions / requests, mainly There is. Early robot construction experiments used industrial logic for manual assembly automation. While using traditional building components, the role of the robot is only to increase accuracy and speed. In this age of artificial intelligence, you say that if you have light, you can have light. Robots in charge of construction, AI drawing architectural drawings, the first artificial intelligence architect

Shimizu Corporation, a Japanese construction company, has opened an experimental facility to house a number of "on-site" construction robots, including "ceiling mounts", "welders" and "porters". Work efficiency is 4 times of work. If you work 24 hours a day, the robot can build a house in two days. It can read and understand the drawings and accurately calculate the location of the clear water construction of each brick building Japanese construction company through 3D scanning technology that is much more accurate than construction workers can do. With the use of navigation in autonomous vehicles, Intelligent Buildings (NASA) in extreme environments are increasingly valued as representing Japan. . For a robot to be fully functional on a construction site, it must be mobile, capable of “perceiving” the surrounding environment, and capable of processing received data and information. Not only that, robots must be able to handle bulky or heavy loads such as beams and prefabricated panels (which weigh a few tons), and they also break like tiles, fittings or glass It should be able to handle easy materials. Construction robots were initially surveying robots, wall manufacturing robots, prefabricated robots, construction robots, steel beam welding robots, concrete jet robots, construction protection robots, ground-laying robots, decoration robots, and cleaning robots. Robots, tunnel excavation robots and demolition robots. Large family 3D printed construction robots, such as robots and inspection robots, Komatsu multipurpose drones, and bulldozer automation system man-machines fly around the construction site to monitor deliveries, inventory and overall progress. In addition, drones can create a 3D map of the construction site and transfer it to an unmanned bulldozer-this information can be directed directly to the bulldozer without the need for a driver. Intelligent decoration robots can realize the functions of painting, paving, wall grinding and wall quality inspection. AI building industry builds on digital building platform 3D building robot using AR building, VR experience, connection to cloud and big data, and connection to Internet of Things

National Institute of Advanced Industrial Science and Technology Intelligent Systems Research Institute

Artificial intelligence system

Degree of freedom

The degree of freedom (Degrees of freedom) is the number of variables that can be freely changed, and in the case of a robot, means the number of directions in which the robot can freely move, that is, the number of joint axes.

Convolutional neural network

A type of neural network structure widely used in image recognition, etc., composed of many layers called "convolutional layers" and "pooling layers"

A high-precision AR marker, an AR marker, and two variable moiré patterns that enable highly accurate attitude estimation even when facing directly.

Industrial robots: welding robots, painting robots, palletizing robots, handling robots, assembly robots, Cartesian robots, other industrial robots, etc.

Service robots: Homework robots, recreational robots, assistive robots for the disabled, home security and surveillance robots, etc.

Special robots: field robots, commercial cleaning robots, Medical robots, logistics robots, inspection and maintenance robots, construction robots, underwater robots, defense rescue robots, etc.

Core components: controllers, reducers, servo motors, test equipment, welding and cutting equipment, spray equipment, handling equipment, special wires and cables, sensors, related software, etc.

Machine vision: black and white, color smart camera, image compression / decompression board, color capture card, industrial lens, industrial camera, light source system, image processing system, machine vision integrated system, image processing software, accessories and accessories, etc.

System integrated applications: robot integrated application solutions, robot workstations, intelligent production lines, etc.

Last year, a prototype of a remotely controlled disaster detection and rescue building robot was created based on the disaster rescue robot developed by my development team. The robot's two arms can be rotated 360 degrees around its center, providing multitasking capabilities. The team has also developed a "hand robot" with four fingers to help the robot master heavy construction tasks.

 

The prototype robot has two hydraulic arms that can swing 360 degrees around the central axis to solve the problem of remote control and mobility of existing large-scale disaster relief construction equipment. Reportedly, this setting gives the robot "high stability" while at the same time allowing movement flexibility. The team has developed a dual-function four-finger attachment for the construction robot that can be used as a gripper to grab debris or as an excavator to remove debris.

 

Like previously developed robots, speed sensors provide haptic vibrations to the operator. And give them the feeling of touching the target. In addition, the operator can use the drone above the robot to view a plan view of any location in real time and evaluate the environment around the robot. The robot prototype was jointly developed by researchers from Osaka University, University of Tokyo, Tohoku University, University of Tokyo, Tokyo Institute of Technology and others.

Kawasaki Heavy Industries Robot

Development and sales of arc welding robot ARCMANTM-GS manufactured by Kobe Steel

Huis Ten Bosch Hotel Japan has adopted an artificial intelligence technology project to allow robots to manage the entire hotel.

Japan Post-Earthquake Rescue Robot Project: After Fukushima Nuclear Accident, They Help Humans Stop Nuclear Leaks

OMRON robot

Toyota Human Assistance Robot (HSR)

Shabo's Robohon over 20 feet-tells visitors about the history of ancient Imperial Kyoto in English, Japanese or Chinese.

Japan Aerospace Exploration Agency is working on a small construction robot to help build habitat on the Moon and Mars.

Kajima Corporation participated in the project

Building Information Modeling (BIM) is a 3D model-based process that provides architectural, engineering, and construction (AEC) professionals with effective planning, design, construction, and management of buildings and infrastructure. Autodesk Revit is BIM software (or 4D BIM). With it, you can design buildings and interior components in 3D, and associate relevant information with a time or schedule and associate it with each component of the 3D model. Improving data and helping owners, architects and contractors communicate effectively BIM design is mainly built into parameterized shape detection and curtain wall design based on BIM technology . In the BIM software, the final plan model is sliced ​​according to the floor height, the outline of the building on each floor is generated, and the generated outline of the building is converted into a parameterized curtain wall. By changing the size of the curtain wall plate by setting and adjusting parameters and integrating the unit body into the building skin, it is ultimately possible that the hyperspace surface is fitted by a spatially stacked unit plate Is determined. Taiwan changes.

AI multi-element marking construction site

The application of AI in construction on site reflects the ability to automatically mark photos and videos on construction sites by organizing and retrieving data using machine learning, voice and image recognition. For example, AI analyzes images and sounds in deep learning mode to automatically mark construction data and proactively provide customers with security recommendations. AI helps you design, build, and operate maintenance. This is also in line with the building life cycle (design, construction, management).

Today, you can see intelligent robots everywhere in your work or life, there are robots in different fields, such as robot arms, security robots, 3D printing machines, hotel and hotel robot waiters, and home cleaning robots. Years of research and development of wall-mounted robots, construction robots, construction construction protection robots, welding robots, intelligent building management service robots and many other extraordinary robots make simple, boring and dangerous in the small field of construction engineering Has begun. It takes a lot of physical work.

AI x use case, bank, healthcare, insurance, fintech, manufacturing, retail, marketing, sports analytics

AI x mental illness and cognitive problems

It consists of an AI artificial intelligence evaluation system and a biological collection device, and is being developed independently. The solution for assessing mental illness and cognitive problems is to have the patient perform a specific task using techniques such as VR to collect the user's physiological data and use a system with specific artificial intelligence algorithms. Make data analysis and decisions. As quantitative evidence of ancillary diagnostic situations, artificial intelligence assessment systems and biometric acquisition devices are not limited to a single disease category, but support only certain types of mental illness or psychological problems, and provide a scalable algorithm platform. Build Based on this platform, we can develop algorithms for a variety of mental illnesses and cognitive problems, and further form a variety of products. Based on the platform, a drug addiction evaluation system was developed, and the evaluation of depression support diagnosis was extended using the same AI algorithm platform. Depression support diagnostic assessments, including research and product development for issues such as autism, schizophrenia, senile dementia, violent trends, and suicide crisis, have achieved 99% accuracy.

AI x beauty

AI advises on hairstyles and clothes "Beauty JOYON Diagnosis System" project. Just by taking a picture of the whole body with the camera, AI will compare the data of about 1,000 people and classify the balance and skeleton of the face and advise on the optimal hairstyle and clothes. The company developed a beauty salon in Okayama city. At the venue, hairdressers gave advice based on the diagnostic results. This event will take place on the 9th.

Store analysis AI tool for retailers

Use starts at 16,000 yen / visualizes visitor numbers and conductor data. Realize retail management without relying on experience and intuition using AI

Development to acquire and utilize tableau qualified associate data scientists and cutting-edge AI technologies

Total service from end-users (distribution and retailers, mainly manufacturers) to service proposals, system operation design, program specification design, and usage support. Behavior data). Specifically, increase the real store sales in the retail and service industries (marketing data analysis, residence time heat map with attribute filter), and improve the quality and productivity by real-time process analysis (quality inspection using AI) that does not cause defects in the manufacturing industry , Real behavior data analysis service that converts human behavior into data in all industries, etc.

Sports AI projects

・ Building infrastructure for government agencies ・ Developing in-vehicle systems for major companies Design for certain games ・ Building infrastructure for e-sports business, etc.

Sports AI projects such as the world of AI / VR / big data, Toshiba, Hitachi, Panasonic, NEC (NEC)

AI for Fujifilm's advanced technology and sports, including battle analysis and new games using AR, use of AI for VAR Tokyo 2020 ● Transport smoothing / project management Eliminate traffic congestion from TOKYO AI Transport information / PM, desk construction AI “ticket price” AI analysis project for efficient defense / running from data of the variable system SB Hawks

The relationship between watching NEC sports and IT involves watching live games at the stadium and watching AI projects via TV, etc.

NTT data training system AI project using VR head mounted display

Utilization other than “victory” in the U.S. professional sports business NBA where big data and AI play an active part: Venue scheduling project NTT DOCOMO is an interactive AI service platform

The reason for the Yokohama DeNA Baystars breakthrough was the thorough use of data in AI projects

The importance of data-driven measures utilizing AI technologies such as predictive models using machine learning and advanced video analysis is increasing. In the analysis of game video data, there are various analysis targets such as pitching form, batting form, defense, and base run. A smart stadium that makes full use of IT services. For example, at the sports arena in Mannheim, Germany, IT investments are being made to enhance the quality of live watching, such as installing high-density Wi-Fi antennas and creating fan apps that shorten the distance between fans and players. .

Panasonic projects

Panasonic is using IT so that spectators can enjoy watching games as part of the stadium equipment solution. Specifically, we provide digital signage and real-time distribution of multi-angle camera images to provide solutions that can be enjoyed without problems even if you are away from the stadium or miss a dramatic scene.

Osaka] Next-generation AI sports media development! Fujitsu Limited AI machine learning engineer, a machine learning engineer who can collect sports win / loss prediction data together. Fujitsu launches AI project with Yokohama / Keio University, actively using IoT / AI for sports

`` Sports Data Mirai Design Lab '' which will be implemented in the sports field of `` I ・ TOP Yokohama '' launched in 2017 by the city of Yokohama to promote industrial utilization and new business creation utilizing IoT, big data and AI ”Will create concrete ideas for the use of sports data generated by students and citizens' sports experiences in Yokohama through seminars and dialogues with companies and organizations in Yokohama related to sports. With a better understanding of the players, patrons, visitors, fans and customers you will demonstrate, you can win on the field, on the screen and on the world stage. Leverage SAP software to streamline operations and “visualize” customer data and analytics to improve player and team performance, operate venues more simply, and maximize revenue. Development of smartphone applications and games Development of websites of major companies ・ Development of AI and VR systems AI baseball AI automatically identifies the faces of professional baseball players. Processing 3,000 photos per game in minutes-Microsoft's AI implemented in Fujifilm's IMAGE WORKS, advanced technology and sports also use AI to analyze battle situation, new AR competition, and how to use AI for VAR Let's consider if there is any.

VAR is a system in which an assistant referee who performs video surveillance in a separate room for important judgments in a game "helps" judgments. The basis is a system that uses technology to prevent misjudgment. The specific method is that when a delicate decision is made, the referee pauses the game once with a gesture representing a square monitor with both hands. If the referee and assistant referee need to communicate over the air, the referee will also check the video to determine if there was no false referee and the decision was valid. This sequence is called a "review."

This is an AI soccer simulation equipped with the world's first soccer game situation prediction AI (artificial intelligence). Challenge to reproduce the soccer game using AI developed independently. Predict game results such as J-League based on simulation. The AI ​​actually plays the card that the team and each player are planning to play 100 times, and the game predicts the match result, including the fighting rate and score. Winning or losing, of course, counter attack. For example, side attack, entry into the vital area, build-up with a variable system, etc., the situation where the score is easy to determine in each game is not only A but also toto prediction such as compatibility of match cards, weather, home & away, recent performance of each player Equipped with necessary dashboard function. AI predicts not only the win / loss prediction but also the turbulence index such as the probability of giant killing. We will continue to research and develop dashboards necessary for toto prediction using various football big data. Toshiba and Toshiba have developed a system to automatically classify key plays required for rugby tactics analysis while acquiring the positions of players and balls using image processing and deep learning for rugby match videos shot with one camera. Developed jointly. While detecting and tracking players and balls in the video using deep learning, it associates the camera's field of view with the ground and obtains the coordinates of the players and balls on the field. Then, based on their positional relationships and movements, automatic classification of play such as passes, scrums and kicks is performed. This allows the team's analysts to focus on more advanced tactical analysis after the match, using automatically categorized statistics. The judgment support system is considered to be a “robot referee” that makes judgments and scores based on objective observations and data analysis. However, at present, we are only in a position to support judgments. You. Technically, there are some competitions that can be automated, but the decision to leave the decision completely to the machine is something that neither the judge nor the viewer can accept. The same is true of tactical analysis.In the previous rugby case, the current situation is to provide statistical data to analysts quickly, and then detailed tactical analysis and specific strategic planning are performed by expert analysts. Work. If data of many games is accumulated, it will be technically possible to realize AI that even proposes new tactics. This may come when a team with smarter AI technology always wins. Personally, I think that a collaborative relationship, in which humans perform more creative intellectual activities using the various analytical data provided by AI, is ideal. The rugby match against Waseda is very close every year, and is very exciting. I go to watching games every year, but even if the times change and people change, I feel that the traditional play style of Keio and Waseda rugby continues to be inherited. There is no doubt that something that has nothing to do with AI is working, while using the data effectively as data while enhancing the players who ultimately play. In any case, technological innovations often occur through big events such as the Olympics and World Cup. What kind of new technologies will be used in the Tokyo Olympics? Evolving athlete, coach, and referee technology ICT × Sports base is data conversion / visualization of exercise state Regardless of the use of AI, the base of ICT use in the sports field is `` Data conversion of player movements and overall team play / Visualization ”. The widespread use of this data has made it possible to accumulate a large amount of various data. By analyzing these data from various aspects, activities such as improving the accuracy of play and strengthening tactics have been in full swing.

Supporting player skill improvement with ICT First of all, there is support for player skill improvement. If the movements of the players can be visualized by sensors and image processing, the movements can be accurately and intuitively grasped, so that correction points can be easily found.

A typical example is a form check for golf swing operations. You can objectively catch bad habits by taking a picture of the golf swing with a camera.However, by attaching a sensor or processing and displaying the captured image, the movement of the body can be more accurately determined. Analyze and help seniors and coaches point out points to fix.

見 え る Also, visualization is useful when you check your form again after repeating the practice of correcting the indicated part.

Attempts have also begun to acquire skills to win matches by digitizing and visualizing not only forms but also the entire game itself. For example, in the summer of 2017, the Japan Windsurfing Association conducted an IoT demonstration experiment with Fujitsu and Lapis Semiconductor to improve the sailing skills of windsurfers.

In this demonstration experiment, a device that can simultaneously record GPS information and sensor information developed by Lapis Semiconductor was installed on a windsurfing sail, and the collected data was analyzed using Fujitsu's cloud service, and the movement of the sale was displayed in 3D models and graphs. Visualization is realized.

で き る Because the sale operation can be grasped as data, athletes can check the difference between the sale operation of the top players and their own sale operation with 3D models and numerical values, and verify the improvement of their own sailing.

Opponent tactics analysis

In competitive professional sports, it is used as basic data to analyze tactics of opponents. In competitive sports such as tennis, volleyball, and soccer, as much as improving one's own skills, identifying the tactics of the opponent and assembling one's own tactics is an important factor in winning the opponent.

It is common practice in amateur sports to analyze match data of opponents before the match and prepare play and tactics that contain the characteristics of the players.

One of the most advanced attempts is to collect real-time play data during a match, analyze the game situation from the collected data, find more effective tactics, and convey them to the players in the match.

For example, the WTA (Women's Tennis Association), a women's professional tennis competition organization, has introduced a system called “on-court coaching” that allows coaches to enter the court and instruct players during a game or set during a game. .

The coach can explain to the players why they are outstretched by showing the data during the game using the terminal and instruct the players to correct their tactics.

双方 It is said that the game itself became more interesting as both opponents modified their tactics in a flexible manner, increasing the number of competitive games.

Player condition management

In the field of team-matched professional sports, activities to help manage the conditions of players are expanding. In team-matched professional sports, the performance of high-priced athletes greatly affects the team's performance, so protecting the players from injuries and shortening the period of retirement due to injuries is a paramount proposition.

 

For example, Leicester City FC, a British Premier League professional soccer team, has provided players with GPS device wear that incorporates various sensors, such as GPS and accelerometers, in order to accurately understand how players load during a game. Have to wear.

If you wear it and play a game, you can collect exercise data such as total mileage, distance traveled at top speed, acceleration and deceleration for each player, and compare these data with the situation of injury. Thus, the correlation between the load situation and the type of exercise and the injury can be found for each player in detail.

分析 This analysis shows that each player is likely to be injured, so it is possible to reduce the frequency of injuries by managing the physical condition of each player in detail and resting tired players.

In fact, Leicester City FC had the fewest injuries of any Premier League team in the 2015-2016 season, when it won the English Premier League.

AI replaces human judgments Automatic machine learning: Providing the strength to win in competitions Professional sports are a highly competitive industry both inside and outside the arena. A negligible competitive advantage can have a significant effect, and can even lead to a difference between winning and qualifying. Today's sports franchise teams need to leverage AI to automate and speed up all aspects of the competition to compete in the best conditions. This allows you to: Maximize your players' performance.What if the pitcher knows whether he is going to throw a change-up, a slider, or a 3-point shot when the point guard moves to the left or going down the ring? . This is the power of automatic machine learning and predictive modeling. Every player has a tendency, which can be collected and analyzed as historical data points to help predict the future. Knowing what your opponents do is the best way to maximize a player's performance, and this can be a win or loss. Predicting and Preventing Injuries Predicting Growth of Promising Athletes Integrating Valuable Data Increasing Potential Profits Improving Operational Efficiency Automatic Machine Learning: Providing the Strength to Win in Competition Professional sports are an industry that is competitive both inside and outside the arena is. A negligible competitive advantage can have a significant effect, and can even lead to a difference between winning and qualifying. Today's sports franchise teams need to leverage AI to automate and speed up all aspects of the competition to compete in the best conditions. This allows you to: Maximize player performancePitchers are about to throw a change-up, throw a slider, hit a 3-point shot when the point guard moves to the left, or go down the ring What if you know? This is the power of automatic machine learning and predictive modeling. Every player has a tendency, which can be collected and analyzed as historical data points to help predict the future. Knowing what your opponents do is the best way to maximize a player's performance, and this can be a win or loss. Predicting and Preventing Injuries Growth Predicting Promising Athletes Integrating Valuable Data Increasing Potential Profits Improving Operational Efficiency Introducing technology into sports in Japan, where large sporting events such as the Tokyo Olympic and Paralympic Games Rugby World Cup and the Tokyo Olympics continue Expectations for the use of AI are increasing. Analyzing the possibilities of sports x AI, which goes beyond player training and team tactics. VAR, Video Judgment) Evolve AI-based sports data technology to create sports entertainment loved around the world.

 Tokyo 2020 ● Traffic facilitation / Project management Eliminate congestion from TOKYO AI! Visitors will enjoy Tokyo 2020 by realizing the smart use of a complex transportation network to transport players safely and smoothly.

For example, the Tokyo International Forum, which is the stage for weightlifting, is within walking distance of six stations including Yurakucho and Tokyo by train.

Choosing the best route from your current location to the venue will be difficult for anyone living in Tokyo. Even more so if you are visiting from overseas ... Our mission is to make it easier for visitors to enjoy activities by enhancing the convenient route search application and information on each venue. "Transportation in Tokyo was convenient and comfortable"

Utilizing big data on transportation information / PM, desk construction, market conditions, weather, personal preferences, etc., artificial intelligence (AI) calculates the appropriate price. The aim is to increase the number of spectators, but theWhile there are opinions that it is effective as a countermeasure, there are also many issues such as the price of popular cards becoming higher than necessary and advance tickets may be higher than the day tickets. Yokohama FM announces "ticket price fluctuation system" by AI for all seat types

NTT DoCoMo has developed a function on the "Natural Dialogue Platform", a platform for interactive AI services, that enables dialogue to adapt to changing game situations. The function includes two technologies. One is a technology that collectively manages the game situation that changes in real time and reflects it in dialogue. Information on the progress of the game, such as the score status, the number of shots per player, and the number of clears, can be obtained in real time and used for dialogue with the user.

Python, Tensorflow (software library), C ++

Node.js (asynchronous event driven JavaScript environment)

wxPython (GUI creation tool), YOLO (Real-time object recognition)

Darknet (neural network environment), Keras (neural network library)

OpenCV (image processing library), Docker (virtualization), R

pytorch (deep learning framework), Jupyter (data analysis tool)

ROS (Robot Operationg System)

Anaconda (package for data science)

MobileNet (neural network for mobile applications)

Gazebo (simulator), mapviz (2D data visualization)

GAN (hostile generation network), htk (HMM learning tool for voice)

Julius (speech recognition engine), sequitur g2p (scribed phoneme conversion)

Picogw (home gateway app)

echonet-lite (communication protocol to realize smart house)

MoekadenRoom (virtual smart house)

GitHub (development platform), ONNX (open format)

Annotations, CNTK (Microsoft Deep Learning Library)

Raspberry Pi, Orange Pi Zero Plus, GPU (arithmetic unit)

Arduino (AVR microcomputer), FPGA (semiconductor IC)

Movidius (Development tool for DeepLearning)

The relationship between watching NEC sports and IT is to watch live sports at the stadium and watch live TV.

Training system using NTT Data's VR head mounted display

Utilization other than victory in the US professional sports business NBA where big data and AI are active: venue scheduling

The driving force behind the Yokohama DeNA Baystars was the thorough use of data. The importance of data-driven measures that utilize AI technology such as machine learning-based prediction models and advanced video analysis is increasing.

In the analysis of game video data, there are various analysis targets such as pitching form, batting form, defense, and base run.

A smart stadium that makes full use of IT services. For example, at the sports arena in Mannheim, Germany, IT investments are being made to enhance the quality of live watching, such as installing high-density Wi-Fi antennas and creating fan apps that shorten the distance between fans and players. .

In Japan, Panasonic is also using IT to make spectators enjoy watching games as part of stadium equipment solutions. Specifically, we provide digital signage and real-time distribution of multi-angle camera images to provide solutions that can be enjoyed without problems even if you are away from the stadium or miss a dramatic scene.

Osaka next-generation AI sports media development! A machine learning engineer that can aggregate sports win / loss data

Fujitsu, Fujitsu to actively use IoT / AI for sports, start project with Keio University, Yokohama

`` Sports Data Mirai Design '', a practice in the sports field of the `` I.TOP Yokohama '' initiative launched by Yokohama City in 2017 to promote industrial utilization and new business creation by utilizing IoT, big data and AI In the `` Lab, '' we will create concrete ideas for utilization of sports data generated by students and citizens' sports experiences in Yokohama through seminars and dialogues with sports companies and organizations related to sports. To demonstrate.

The aim is to use sports data effectively to prevent injuries, build training methods, improve sports watching opportunities, and create new businesses through collaboration between companies and organizations.

In recent years, various sensors have become more sophisticated and smaller, so that not only top athletes but also anyone can collect sports data on conditioning and performance in sports.

However, the skills and knowledge to properly collect such sports data according to the purpose are limited, and the environment for easy and secure storage and analysis has not yet been established.

The “Sports Data Mirai Design Lab” aims to revitalize the industry and create new businesses through sports in Yokohama by March 2021, through providing these environments and providing a place to think about future plans for utilizing sports data. I have.

The image of sports data utilization is as follows.

Examples of use in team sports: By using AI-based video analysis and positioning data linking, we will provide an environment where team sports movements can be easily checked, and activate strategic team communication. Examples of use by individuals: By continuously acquiring and accumulating data on exercises, games, daily light exercises, etc., the status and changes of teams and players can be grasped, and training methods tailored to individuals and sports can be constructed. Enable practitioners to gain insights from data

AI analysis of efficient defense / running base from SB Hawks data

IT technology is now having a huge impact in every field, from government to retail. And that's happening in the sports world as well. IT infrastructures such as AI, VR, big data, and Wi-Fi are now becoming increasingly involved in the sports world, from improving player performance to watching fans.

Japan Women's Valley, who lags behind in the world, became a `` IT strong man '' by recording the play, and when AI analysis became commonplace, it became a new sport in itself It will also create charm. Mr. Furube said, `` Reviewing the play video edited with AI, you can process it into an image that can be instantly shared and share it on SNS.If such a way of enjoying is established, even if you do not originally like futsal and soccer, you can play ball once I want to kick you. " "I hope that this initiative will allow you to look back at your playing videos on courts across Japan. Leaders can use them to improve their team and share it with grandparents who can't come to watch their grandchildren's games. By responding to the needs of the users, it is possible to increase the competition population, improve the level, and establish a soccer culture, so that Japanese football may be said to be “the most advanced in the world”. I felt that it was a secret technology. "When I heard" analysis with AI, "it had a complicated and difficult image, but DOCOMO has made it a technology that anyone can use easily. The Top Gun Project will continue to work until I am so excited that Japan has changed soccer with AI. He says he expects the automatic image recognition function of AI and VR AI. Using tracking technology to auto-populate a player's play would allow analysts to spend more time on analysis.

サ ッ カ ー As a similar system, soccer and rugby actually use tracking systems. However, such applications as volleyball and basketball are not yet applied to sports where height information is important. Expectations for AI are great.

What I expect from VR is the success of image training. Heights and speeds that cannot be experienced in everyday practice can only be experienced through limited production opportunities such as games. If you can see the movement of the opponent team from the viewpoint of the player on the court by using VR and free viewpoint video, you can imagine the movement of the opponent player and the rotation of the serve anywhere.

For example, in professional baseball, in 2016, NTT DATA developed a training system using a VR head-mounted display. A virtual experience of the pitcher's throwing ball from the batter's point of view. Tohoku Rakuten Golden Eagles has been using it since 2017.

Utilization other than “victory” that progresses in the US professional sports business NBA where big data and AI are active: watching the venue scheduling monitor is expected to have a real-life experience with VR Watching sports using TV, PC and smartphone That is VR technology. By utilizing VR, 360-degree panoramic images can be spread out in front of you, and you can watch sports with a sense of realism as if you are participating in sports. Already at the 2016 Rio de Janeiro Olympics, NBC, one of the three largest networks in the United States, is streaming VR video with the cooperation of Samsung

In the United States, there are four major professional sports called MLB, NFL (American football), NHL (ice hockey) and NBA (basketball). The NBA also analyzes various data as big data in order to win against the opponent and converts it into tactics, as in the example of the above `` money ball '', but in the NBA, as an organization that operates a business, Big data is used for scheduling the match venues for teams.

In the NBA, 30 teams compete in the six-month season to win or lose, with a total of 1,230 games. In addition, the venue of each team used for the game is used not only for this NBA game but also for various sports competitions, concerts and events. With different schedules every year, securing a match venue is a very difficult task. Naturally, the weather conditions change every moment and the transportation method changes accordingly, so the NBA side needs to update information and arrange changes in a timely manner. At present, it is becoming very difficult to schedule venues using only the power of people.

In addition, thorough scheduling of match venues utilizing big data is also important for competing teams to play in a fair environment. Whether in matchmaking, scheduling, deciding or arranging match venues, the team will maximize performance under fair conditions, delighting the audience and ultimately generating long-term box office revenue.

The United States is vast, the distance traveled by the teams is long, and the time difference is up to 3 hours on the east and west coasts even in remote areas such as Hawaii, so the conditions for both teams to compete due to fatigue due to movement and differences in climate etc. Doing so would have been particularly difficult until now. But the power of data is bringing new “fairness” to the sports business. Professional sports where huge money moves, and above all, scheduling based on data analysis is progressing in the NBA so that players can perform at their best so that the audience can enjoy most.

Big data and AI to expand the field of utilization

The factor behind the Yokohama DeNA Baystars breakthrough was thorough data utilization

Data analysis is becoming more complex every year as the types and amounts of data, such as detailed data on match results, sensor data such as trackman (high-performance ballistics measuring instruments), and match video data, are rapidly increasing. The importance of data-driven measures that utilize AI technology, such as predictive models based on machine learning and advanced video analysis, is increasing from data analysis based on temporary verification until now.

In the analysis of game video data, there are various analysis targets such as pitching form, batting form, defense, and base run. In recent years, the use of attitude estimation technology has attracted attentionHowever, it is not possible to obtain practically accurate accuracy. Computer vision AI R & D engineers are working on video analysis R & D that meets individual video analysis requirements. In addition, data scientists analyze the relationship between huge amounts of input data, such as analyzed video data and trackman data, and the results, condition, and fatigue (possibility of injury) of players, and build machine learning models. You. It is very difficult to verify and explain the validity of a prediction model that supports a large number of variables in limited game results.

The most important thing in promoting the use of AI is to create outputs that solve on-site issues. At Yokohama DeNA Baystars, there is a dedicated team of analysts who promote data analysis to help strengthen the team, and they perform analysis work every day. DeNA's AI System Department works closely with analysts at Yokohama DeNA Baystars to design, analyze, report, and verify data analysis issues in close collaboration, turning the PDCA cycle over and over again for practical use. Output.

In addition to Yokohama DeNA Baystars, DeNA operates many sports businesses such as Yokohama DeNA Running Club and Kawasaki Brave Sanders. We are also actively considering e-sports business in the future. In the AI ​​system, by developing AI technology to support strong sports teams, and accumulating and deploying practical operational know-how, we hope to greatly revitalize DeNA's entire sports business.

• TOYODA automatic driving technology

Autonomous driving technology means Toyota has the highest brand value in terms of quality, reliability and safety.Everyone, including the elderly and the physically challenged, is safe, smooth and free to move. Aim for a society where you can do it. Safety Efficiency Freedom ROADMAP

Toyota has been engaged in R & D on autonomous driving technology since 1990 to contribute to "zero traffic casualties" and to provide a means for everyone to move freely. Autonomous driving technology initiatives 2015 Toyota Safety Sense is introduced to support safe driving. 2017 Introduced advanced driving support technology `` Lexus CoDrive '' 2020 Realized automatic driving `` Highway Teammate '' on dedicated roads Realized automatic driving `` Urban Teammate '' on general roads in the early 2020s

New mobility for better life Mobility Teammate Concept

The Mobility Teammate Concept combines the fun of driving a car with automatic driving,

People and cars aim for the same purpose, sometimes watching, sometimes helping each other,

This is Toyota's unique concept of self-driving, which builds relationships with fellow employees. Technology

The driving intelligence Driving Intelligence sensor "recognizes" the information that the car "judges", and the driver and the car themselves move to "action" based on the "judgement". Connected Intelligence

The information obtained and provided by the vehicle by communicating with other vehicles and roads is used for automatic driving. At the main event, Toyota's unique car race data analysis that competes for fuel efficiency based on driving data analysis using machine learning and strategy planning that makes full use of simulations. Big data on driving and fuel efficiency of the Prius is provided to each team in advance. For the tournament, based on a simulation analysis that uses machine learning and other data to analyze data using machine learning, etc., based on a strategy that sets the accelerator operation with fuel efficiency, optimal course position selection, regenerative braking timing, etc. in advance of the simulation race Challenge to race 10 cars at the same time. During the race, how to drive fuel-efficiently, while analyzing the driving data in real time, reviewing the strategy one by one, and aiming for the victory The biggest goal is to realize safe and free automated driving, congestion mitigation and traffic systems We also aim to improve fuel efficiency. In addition to the conventional mobility framework, we are also working on the development and research of material technologies utilizing robots that support human life, and also our knowledge of artificial intelligence and machine learning. All of them to enrich society. TRI will continue to take on the challenge of creating mobility in the future while working with a variety of people. Autonomous driving technology is expected to be widely used in the near future. Various types of vehicles, from personal partially self-driving vehicles to fully self-driving long-haul trucks, share the road. Innovative UI (user interface) and U / X (user experience) technologies enable realistic and intuitive interaction regardless of vehicle type and automation level. Using the patent analysis tool "Biz Cruncher" for the "artificial intelligence related technology for vehicles" published by the Japan Patent Office by July 7, the survey results of the participating companies were compiled in a patent / technology search report. The ranking is based on the `` patent score '' that scores the degree of attention of individual patents, with the aim of investigating various artificial intelligence technologies related to vehicles using machine learning and neural networks, etc. Evaluation was made comprehensively based on the amount. As a result, in the overall power ranking, Toyota Motor (Toyota) ranked first, Denso ranked second, and Honda Motor Co., Ltd. (Honda) ranked third. No. 1 Toyota's high-profile patents include "Technology that performs appropriate power control to prevent vehicle collisions" and "Integrated control of multiple actuators to execute multiple types of motion control Technology relating to a device that performs the operation ”. 2nd place Denso said, "Even if the vehicle power supply is momentarily interrupted, it can safely return to the normal control state with a simple configuration", "Technology related to the device that controls the injection amount of the internal combustion engine" However, it is a high-profile patent. Third-ranked Honda's high-profile patents include `` vehicle warning devices that can effectively and properly alert the driver '' and `` according to driver behavior such as dozing and sudden changes in health condition '' Technology to control vehicle systems using the In addition, 4th place Nissan Motor focuses on "technology for improving air-fuel ratio control accuracy", etc.5th place Mitsubishi Electric focuses on "technology for diagnosing characteristic deterioration due to changes in electronic components mounted on vehicles" Listed as a high degree patent

Highway Teammate

Autonomous driving on motorways

Toyota Research Institute Advanced Development Co., Ltd. (TRI-AD) has adopted self-driving technology such as "Highway Teammate" to improve safety in the latest. Highway Teammate enables automatic driving from the entrance to the exit of the expressway, merges with the main expressway, maintains a safe inter-vehicle distance, changes lanes, branches to the exit, etc. I am aiming for

function

The design of the Highway Teammate is based on TRI-AD's autonomous driving philosophy, and at the heart of the relationship is a car-like relationship with a carer who watches over each other and always helps each other.

Usually, when entering the highway, the driver switches to autonomous driving mode. Highway Teammate knows the position of your vehicle by comparing it with high-precision map information, automatically selects the appropriate route and lane, and safely operates the steering wheel, accelerator and brake. In the meantime, in-vehicle sensors continuously send collected data, based on which Highway Teammate recognizes nearby vehicles and obstacles and responds to the situation safely. Smooth switching at the right time allows the driver to concentrate enough and continue driving again.

 

Toyota Guardian ™

High level of security

TRI-AD's Guardian technology enables high-level, safe and reliable driving. Guardian keeps the driver informed of the road conditions and the driver's reaction throughout the journey. Guardian's goal is to keep drivers and passengers safe and to unite the driver and the car.

Guardian operates by detecting small differences, improving driver's situational awareness and improving driving skills. Each time you drive, the driver and the car are in harmony, and the driver will be able to return home with confidence and loved ones.

function

Guardian's algorithms leverage the power of Toyota's unique global sensor data network and are enhanced and updated based on endless driving scenarios, either simulated or real-world. By constantly combining memory with the advanced sensors found in Toyota vehicles, Guardian can quickly recognize the situation and match it with various optimal driving parameters. It also keeps you prepared for emergencies and monitors your driver's drowsiness to keep you prepared for unforeseen situations. While driving, Guardian's intuitive interface keeps the driver informed, stays focused, and enhances driving skills and cognition.

In addition, it will broaden the driver's field of vision by clearly indicating obstacles where the driver is traveling. In the picture to the right, it is expected that pedestrian movement will cross the direction of travel of the vehicle. Guardian alerts drivers with clear visual and audio alerts and calculates the safest way to avoid accidents. Awareness is another way to increase the partnership between Guardian and drivers.

Chauffeur

Fully automatic operation

Chauffeur is a fully automatic driving system under development by TRI-AD. It combines the world-renowned reliability and technical capabilities of Toyota with the exciting possibilities of autonomous driving. From this time on, it will be the bridge to the ultimate future of 100% safe self-driving cars.

Chauffeur handles all driving, so you can relax and use your new time at will. Work on the go, chat with family and lovers, and play your favorite games. Everything is completely safe, and by the time you arrive at your destination, your driver will be refreshed and ready.

function

Chauffeur's design uses a reliable, modern software engineering approach, augmented by advanced machine learning algorithms and data collected on millions of miles of roads around the world. The result is a self-driving system that combines the autopilot capabilities of passenger aircraft with the same level of precision and experience and wisdom that has been gained through the driving of every Toyota car. This ultimate chauffeur knows exactly how to deal with the various situations that will occur in the upcoming journey and can ride with confidence.

Toyota Design System (TDS)

Future user experience

For the autonomous driving revolution, the concept of U / X (user experience) needs to be drastically changed. It is not enough to have a few buttons and screens in the age of autonomous driving. The new powerful and diverse UI (user interface) and U / X are suitable for the occupants in order to respond to the future of partially autonomous vehicles and fully autonomous vehicles.

Toyota Design System is a global, unified approach to creating various U / Xs in a common design language. Imagine that possibility. With a rally car equipped with Guardian, the data on the road, the race and the vehicle can be delivered accurately and quickly from the racing interface without disturbing the driver's concentration. ChauffeIn a mobile office enabled by ur, a personalized UI enables a smooth workflow, maximizing productivity and efficiency. Long-distance taxis equipped with Chauffeur can provide a wrap-around screen-type thrilling entertainment system, the latest games and, conversely, a quiet and calm environment that suits passengers' preferences. Underlying all of this is a common design language that everyone knows and likes.

function

The driving interface of Toyota Design System expands the interior space from both physical means and UI (user interface). The unique intuitive approach allows you to quickly get to the solution you need. Not surprisingly, the interface is tailored to each vehicle type and function, such as the functionality and practicality of a light truck and the ergonomic and elegant design of a luxury sedan, to personalize every experience possible. All your favorite settings are saved in the smartphone app, and customization is completed instantly from the moment you ride. Guardians are developed with the idea of ​​increasing, rather than replacing, human abilities

Harmonious control with both human and machine inputs, inspired by fighter control technology

Reproduce the experimental car accident that actually occurred on the California highway with video and 3D animation

This is also the philosophy that Toyota / Lexus pioneered about three years ago, about the spread of safety technology. Three years ago, Toyota / Lexus started standardizing almost all models in the United States with automatic crash mitigation brakes, and has now completed them.

CEO Pratt finally said: "The most important benefit of autonomous driving is not to automate the operation of the car, but to support human safety and free mobility."

He also develops selection of technical issues for other areas of research and development of TRI in robotics and autonomous driving, such as recognition technology, machine learning, and simulation. Autonomous driving on motorways

Toyota Research Institute Advanced Development Co., Ltd. (TRI-AD) has adopted self-driving technology such as "Highway Teammate" to improve safety in the latest. Highway Teammate enables automatic driving from the entrance to the exit of the expressway, merges with the main expressway, maintains a safe inter-vehicle distance, changes lanes, branches to the exit, etc. I am aiming for

function

The design of the Highway Teammate is based on TRI-AD's autonomous driving philosophy, and at the heart of the relationship is a car-like relationship with a carer who watches over each other and always helps each other.

Usually, when entering the highway, the driver switches to autonomous driving mode. Highway Teammate knows the position of your vehicle by comparing it with high-precision map information, automatically selects the appropriate route and lane, and safely operates the steering wheel, accelerator and brake. In the meantime, in-vehicle sensors continuously send collected data, based on which Highway Teammate recognizes nearby vehicles and obstacles and responds to the situation safely. Smooth switching at the right time allows the driver to concentrate enough and continue driving again.

High level of security

TRI-AD's Guardian technology enables high-level, safe and reliable driving. Guardian keeps the driver informed of the road conditions and the driver's reaction throughout the journey. Guardian's goal is to keep drivers and passengers safe and to unite the driver and the car.

Guardian operates by detecting small differences, improving driver's situational awareness and improving driving skills. Each time you drive, the driver and the car are in harmony, and the driver will be able to return home with confidence and loved ones.

function

Guardian's algorithms leverage the power of Toyota's unique global sensor data network and are enhanced and updated based on endless driving scenarios, either simulated or real-world. By constantly combining memory with the advanced sensors found in Toyota vehicles, Guardian can quickly recognize the situation and match it with various optimal driving parameters. It also keeps you prepared for emergencies and monitors your driver's drowsiness to keep you prepared for unforeseen situations. While driving, Guardian's intuitive interface keeps the driver informed, stays focused, and enhances driving skills and cognition.

In addition, it will broaden the driver's field of vision by clearly indicating obstacles where the driver is traveling. In the picture to the right, it is expected that pedestrian movement will cross the direction of travel of the vehicle. Guardian alerts drivers with clear visual and audio alerts and calculates the safest way to avoid accidents. Awareness is another way to increase the partnership between Guardian and drivers.

Chauffeur

Fully automatic operation

Chauffeur is a fully automatic driving system under development by TRI-AD. It combines the world-renowned reliability and technical capabilities of Toyota with the exciting possibilities of autonomous driving. From this time on, it will be the bridge to the ultimate future of 100% safe self-driving cars.

Chauffeur handles all driving, so you can relax and use your new time at will. Work on the go, chat with family and lovers, and play your favorite games. Everything is completely safe, and by the time you arrive at your destination, your driver will be refreshed and ready.

function

Chauffeur's design uses a reliable, modern software engineering approach, augmented by advanced machine learning algorithms and data collected on millions of miles of roads around the world. The result is a self-driving system that combines the autopilot capabilities of passenger aircraft with the same level of precision and experience and wisdom that has been gained through the driving of every Toyota car. This ultimate chauffeur knows exactly how to deal with the various situations that will occur in the upcoming journey and can ride with confidence.

Toyota Design System (TDS)

Future user experience

For the autonomous driving revolution, the concept of U / X (user experience) needs to be drastically changed. It is not enough to have a few buttons and screens in the age of autonomous driving. The new powerful and diverse UI (user interface) and U / X are suitable for the occupants in order to respond to the future of partially autonomous vehicles and fully autonomous vehicles.

Toyota Design System is a global, unified approach to creating various U / Xs in a common design language. Imagine that possibility. With a rally car equipped with Guardian, the data on the road, the race and the vehicle can be delivered accurately and quickly from the racing interface without disturbing the driver's concentration. In a mobile office enabled by Chauffeur, a personalized UI enables a smooth workflow, maximizing productivity and efficiency. Long-distance taxis equipped with Chauffeur can provide a wrap-around screen-type thrilling entertainment system, the latest games and, conversely, a quiet and calm environment that suits passengers' preferences. Underlying all of this is a common design language that everyone knows and likes.

function

The driving interface of Toyota Design System expands the interior space from both physical means and UI (user interface). The unique intuitive approach allows you to quickly get to the solution you need. Not surprisingly, the interface is tailored to each vehicle type and function, such as the functionality and practicality of a light truck and the ergonomic and elegant design of a luxury sedan, to personalize every experience possible. All your favorite settings are saved in the smartphone app, and customization is completed instantly from the moment you ride. Elemental technology development for intelligent driving / advanced safety systems, advancement / product development for automated driving / advanced safety systems / software Human sensing technology development utilizing artificial intelligence

Artificial evolution

It is thought that organisms have adapted to environmental changes by repeating the reorganization of the genome during a long evolutionary process. We are working on "artificial evolution" in which genome rearrangement is induced by enzymatic cleavage and recombination. We aim to contribute to a future society where humans and the environment are in harmony by artificial evolution technology.

STRATEGIC INNOVATIVE / FRONTIER RESEARCH

Graphene quantum dot optical sensor

We realized a transparent and wearable broadband graphene quantum dot optical sensor. It is expected to be applied to sensors with curved shapes, broadband imaging systems, and biological information sensing.

Nano sensing

By developing NEMS technology, we have realized a nanoscale antenna that transmits and receives radio waves by mechanical vibration. We aim to construct a nanoscale sensor system that incorporates new physics beyond the limits of electromagnetics.

(NEMS: Nano Electro Mechanical System)

SOCIAL SYSTEMS

Finding Signs of Future Innovation Technology Based on General Literature Information Analysis

We captured the moment when new publications began to be rapidly cited and devised new ways to predict the signs of future innovation. This allows us to capture technologies that are likely to make a major break at the embryonic stage. We aim to contribute to technology strategy management to gain a competitive advantage.

Analysis technology for urban movement behavior

We have devised a method to statistically generate human behavior in cities by fusing multiple macro data. In the future, it is expected to be used for various data analysis such as mobility service planning. ELECTRIFICATION

High reliability technology for power devices

Among the impurities in silicon single crystals of power devices for hybrid vehicles, we have clarified that trace amounts of carbon greatly affect the characteristics of power devices, and clarified the appropriate range. Contributes to uniform power device characteristics for hybrid vehicles.

Ultra high quality SiC single crystal

A new crystal growth method that uses the relationship between the crystal growth direction and the defect structure has been constructed, enabling a significant reduction in defect density in SiC single crystals. In the future, applications for higher performance of power devices are expected.

* This technology is based on the English science journal “Nature” (Nature, Vol. 430, Iss. 7003, pp. 1009-1012 (2004)

CO2 at the time of MASS MANAGEMENT is required more than ever. We are safe, comfortable, low cost and ultra lightweight-rubber metal

Combines superelastic properties (elastic deformation capacity 2.5%) and superplastic properties (cold workability of 99.9% or more), which overturns the conventional wisdom of conventional metal materials. (Tensile strength 2000MPa) We have developed a new titanium alloy. Various applications are expected in a wide range of fields, including eyeglass frames and orthodontic wires that have already been commercialized.

* This technology was published in the American science journal "Science" (Science, Vol. 300, Iss. 5618, pp. 464-467 (2003)).

High impact bio-resin alloy

TreeBy controlling the phase structure of fats at the nano level, we have created a new co-continuous phase salami structure and succeeded in achieving both world-class impact resistance and rigidity. It is expected to be applied to parts that require impact resistance.

National project energy and zero CO2

ENERGY MANAGEMENT / CO2 ZERO EMISSION

Exhaust purification catalyst that suppresses noble metal agglomeration

We have established a technology that suppresses the degradation of precious metals, which has been an issue for three-way catalysts, and achieves both reduction of precious metal usage and high purification performance. By providing a strong interaction (anchor effect) between the precious metal and the surface of the catalyst support, it suppresses precious metal aggregation, which is the main cause of catalyst deterioration. Developed jointly with Automobile Corporation.

Multi-functional structure modeling by 3D-AM

One of the features of 3D-AM technology is that it can model a body directly from CAD data. When considering zero CO2 and energy reduction, there is a need for a more efficient and cleaner manufacturing process. "Metal AM technology", "Laser technology", and "Metal powder technology" combine and evolve these three technologies to achieve high quality and multifunctional structure.

POWERTRAIN

Gasoline engine combustion modeling

We built a LES * combustion model that can predict the variation of each cycle of a gasoline engine. Detailed analysis of complex flame shapes and temperature distributions that cannot be captured by conventional calculation methods contributes to the development of highly efficient engines.

Technology for improving the efficiency of continuously variable transmission (CVT) belts

Complex slips and stresses occur inside a CVT belt that moves at high speed. We have built our own analysis technology that can evaluate these. Utilizing this technology, we are contributing to the development of CVT belts that achieve both high efficiency and improved strength.

From BATTERY / FUEL CELL, we contribute to the realization of a sustainable society through a wide range of approaches.

Polymer electrolyte fuel cell

With the aim of realizing a high-output, high-durability, low-cost fuel cell as a clean and highly efficient next-generation on-board power source, evaluation and analysis based on basics and principles centering on electrodes, electrolytes, and electrode / electrolyte assemblies, We are developing materials.

Long life, high output lithium ion secondary battery

In order to satisfy the performance elements required for secondary batteries, we are conducting various analyzes and simulations, mainly in materials research. These research results have contributed to the practical application of power supplies for hybrid vehicles.

IOT project

Trusco Nakayama Corporation TRUSCO NAKAYAMA Robot IOT Automatic Logistics and Sahana * SAPRA Import

For medical products to detect the swallowing ability of the tongue to avoid the risk of food jams in people such as the elderly, and for the use of fiber optic cables to detect the rate of road aging using fiber optic cables Nagano Keiki's IOT project of Nagano Keiki Co., Ltd. The intensity of vibration generated by a truck traveling across a road estimates the aging of traffic roads and the strength of bridges.

MonotaROMonotaRO Co. Artificial Intelligence Project AI Customer Service System and Products

AI Analysis System Towards the Development and Spread of Surgery Training Simulators Using “e-Rubber” in the Medical Field November 08, 2017 In the medical field, the importance of ensuring safety with the advancement of surgery has increased In order to improve the skills of young doctors in particular, there is a need for surgical training simulators that more accurately reproduce the tactile sensations and movements of human organs.

The combination of e-Rubber technology under development utilizing know-how as a specialized manufacturer of macromolecules and the knowledge of the development of surgical training simulators has led to a wide variety of e-Rubber to realize more realistic simulators. In order to utilize the potential of various applications in the medical field, we will cooperate with BM in all areas, such as product development and marketing, and contribute to the evolution of medical technology. He is engaged in simulation development and training system construction in Japan and overseas, mainly in the field of cardiac surgery. The main product, the coronary artery bypass surgery training simulators "BEAT" and "YOUCAN", has been introduced by about 70% of cardiovascular surgery facilities in Japan. The company has sales results in the US, Europe and Asian countries. Aiming at international standardization of surgical practical training centering on the company's surgical training center "FIST" (Fukushima City, Fukushima Prefecture) established in front of Fukushima Station, a close cooperation system with doctors from both hardware and software And development is underway. Toyoda Gosei is developing the “e-Rubber” using the results of the commissioned work of the “Next Generation Artificial Intelligence and Robot Core Technology” of the New Energy and Industrial Technology Development Organization (NEDO). You. Based on the knowledge gained through NEDO development, we will accelerate development toward commercialization as a new device supporting next-generation various robots, industrial equipment, automobiles, IoT, etc. that supports the declining birthrate and aging society You.

Country projects

1. ACT-C (JST) Strategic Creation Research Promotion Project Leading Material Conversion Area (ACT-C)

Creation of advanced material conversion technologies for sustainable manufacturing with low energy and low environmental impact

Research on "Development of photocatalytic reaction system for recycling carbon dioxide with sunlight and water"

2. KAKENHI New Academic Area

Material Conversion of Solar Energy by Artificial Photosynthesis: Fusion of Different Fields for Practical Use

A04 project "Artificial photosynthesis system with photocatalytic activity for carbon dioxide reduction"

The next-generation manufacturing industry will focus on 3D printers and robot factories based on artificial intelligence (AI) as a core technology, and a small-lot, multi-product production system centered on creative design development and marketing. TOYOTA produces AI robots and AI apps, and SONY is a digital revolution that produces self-driving cars Real data obtained from sensors that jointly develop the AI ​​technology that will be the foundation of next-generation AI apps and products, Development of an AI that learns autonomously from the experience of actions based on it and becomes smarter

3. The main research fields are "eukaryotic cell vesicle transport mechanism", construction of innovation platform, discovery of antitumor drug development, biological artificial intelligence, new antitumor drug research, advancement of tumor molecular biology and metastasis mechanism And tumor immunity. In the field of tumor immunology research, it has injected technology into the development of our biomedical industry cluster.

Shinji Yamamoto Physiology / Medical Award Director and Professor, iPS Cell Research Institute, Kyoto University

He was awarded to James P. Allison and Taskou Honjo for their discovery of a new cancer treatment in a study that inhibited immunomodulatory mechanisms.

James P. Allison is MD Anderson Immunology Director, whose main contribution is to propose the concept of an immune checkpoint and CLA-4 antibodies to enhance the concept of immunosuppressive tumors. Artificial Intelligence Department is my responsibility

Humans have a mechanism called the immune function. There, immune cells attack and eliminate harmful substances such as pathogens.

However, immune cells have brakes that prevent them from attacking or removing healthy cells, and these brakes are called PD-1 molecules.

Dr. Tasuku Honjo Yusuke Honjo PD-1 Nobel Physiological Medicine

Humans have an immune function, a mechanism by which immune cells attack and eliminate harmful substances such as pathogenic bacteria.

However, immune cells are braked so that they do not attack and eliminate healthy cells, and the brakes are called "PD-1 molecules".

Cancer cells are also harmful "foreign substances", so they can be attacked, of course, but cancer cells operate the immune cell's brake "PD-1 molecule" which tries to attack themselves, and regulate the activity of immune cells. It seems to stop. In 2005, Ono Pharmaceutical and a U.S. company made their name under the aspiration of Dr. Yu Honjo. Nine years after working on the research, it was sold as "Opdivo" in 2014. It was first marketed as a skin cancer drug, but is now being applied to lung cancer. It is expected to be used for various cancers such as kidney and stomach, and clinical trials are progressing around the world.

Harvard Medical School Institute for Clinical Cytogenetics Joint Research and Development

Ligen Chuanjin (Graduated from Kyoto University), a professor at the Massachusetts Institute of Technology in the United States, works with artificial intelligence to analyze organisms infected with certain special proteins.These special proteins are called antibodies. The "germline" theory believes that the genes making antibodies are derived from part of the genetic code, while the "somatic mutation" theory believes that the antibody genes themselves rearrange their codes to produce new antibodies. Genes can create many variants. Ligen Chuanjin has proved the theory of "somatic mutation" by demonstrating mutations and the recombination or rearrangement of DNA molecules. This process produces up to 10 billion antibodies separated by seemingly inactive or non-encoded DNA bands called introns. He also found that the internal regions of these genes contained genetic control elements called "enhancing factors." Ligen Chuanjin's work in antibody genetics has played a significant role in the pathogenesis of cancer, especially leukemia, lymphoma, and other hematological cancers. Brain science research, mental illness, depression

Artificial intelligence DNA cell chips are used to treat leukemia and depression

(2) New business strategy / planning, research strategy / planning ability

Research & Development Center @ Research Planning Dept.

策 定 Formulated an IT strategy for the healthcare business. U.S./Europe research while discussing with Gartner analysts to launch a new preventive medicine business based on genetic information, medical chart digitization, and health monitoring handled by the Japanese Genome Analysis Project (Japonica Array) being promoted with Tohoku University Activities and research planning.

策 定 Formulated a new platform strategy for autonomous driving. The situation in the United States and Asia, where the market is expected to develop in the future, to strengthen Visconti, an image recognition processor for advanced driver assistance systems (ADAS) required for autonomous driving (sales of about ¥ 75 billion in FY2016) Research. Through benchmarks with competitors such as MobileEye and emerging powers such as Nvidia and Qualcom, they planned and drafted a platform strategy that incorporates artificial intelligence technology.

At Power System Company, Power and Social System Development Center:

最適 In the nuclear power business, optimization is required for EPC and decommissioning. In a decommissioning furnace, the depth of burial in the ground depends on the radioactivity level, and the deeper the waste, the higher the cost. Therefore, it is necessary to pack the processing container as efficiently as possible. On the other hand, in the field of logistics, there is a technique of palletizing (loading), and there is also a technique of optimally packing a delivery in a predetermined transport basket. Therefore, the two parties worked together to formulate a plan for optimal storage technology for radioactive waste.

 We also proposed the application of text mining technology and BIM (Building Information Modeling), which had been separately developed at the research institute to optimize nuclear power plant design / construction plans and decommissioning plans. Collaboration between laboratories was advanced. In particular, text mining technology will continue as a take-out project when returning to the R & D center.

参 Participated in TEPCO Shinagawa Thermal Power Plant Data Analysis (Gas Turbine Abnormal Sign Detection) PJ. In cooperation with XX Software India engineers for data analysis inside the power plant. Promoted IoT business for power plants.

Current:

策 定 Developed a knowledge base construction and utilization framework plan for TOYODA's artificial intelligence platform. Promote the business development of knowledge bases that are indispensable for intelligent processing such as voice dialogue.

推進 Promote commercialization through presentations to the JPO and other companies

AIxFintech

Hitachi, AI / IoT technology projects

Hitachi is developing AI that supports corporate business decisions. ManagementWhen you type in a theme, it collects and analyzes 10 million pieces of information about the theme from the Internet, and responds in just 80 seconds.

As soon as you put a management theme into AI, it starts collecting about 10 million items of information such as newspaper articles, survey reports, and white papers on the Internet. After about 80 seconds, the conclusion was reached. "We should enter the Southeast Asian market for three reasons: one ..."

From the screen, the reply will be stated in the synthesized female voice. This is a demonstration of a management decision-making AI developed by Hitachi. It logically explains the reasons for concluding a "yes" based on the information gathered, as well as the pros and cons.

Non-life insurance projects

Insurers such as Sompo Japan Nipponkoa Insurance and Mitsui Sumitomo Insurance Co., Ltd. are actively promoting the use of artificial intelligence (AI) in call center operations.

By using AI (Artificial Intelligence), the contents of the call are converted to text, and based on the data, AI (Artificial Intelligence) searches the database for the best possible answer to the inquiry and immediately sends it to the personal computer used by the staff. Display.

This shortens the response time and achieves high-quality support that does not depend on skill. The staff learns AI (Artificial Intelligence) by providing feedback on the correctness of the answer candidate derived by AI (Artificial Intelligence) after responding to the customer, which leads to the improvement of the accuracy of the display of answer candidates.

Each insurer analyzes the large volume of "customer voices" gathering at call centers to streamline operations and improve customer service.

Nippon Life Insurance has announced the introduction of artificial intelligence (AI) to automate the underwriting and payment assessment functions (underwriting) that have been implemented and judged by employees. The policy is to develop a mechanism that allows AI (Artificial Intelligence) to process the collected data, such as by starting an experiment to extract 20 to 30 specific items out of approximately 600 patterns of diagnostic result data that customers have visited at the medical checkup.

For the time being, it seems that AI (Artificial Intelligence) will be used to support the decision of the person in charge, but eventually we will consider full automation using AI (Artificial Intelligence). AI (Artificial Intelligence) analysis aims to improve customer service, such as allowing people who have not taken out insurance until now, such as "I can undertake under these conditions even if you are sick." And

In October 2018, IRIC Corporation, an insurance sales business, used an AI (Artificial Intelligence) to write OCR (text on printed materials, light, etc.) A service to automatically extract necessary items such as billing amount and billing date.

Until now, it was difficult to convert a form into an undefined format, and had to rely on a large number of people. This service enables efficient conversion of paper forms in various formats, and has the potential to greatly contribute to the efficiency and cost reduction of data entry operations.

Insurance policy

In June 2018, Mie Bank Co., Ltd. introduced a system in which AI (Artificial Intelligence) automatically reads and analyzes life insurance policies taken with cameras such as smartphones and tablets.

This system automatically creates an analysis sheet that makes the insurance details visual and easy to understand. The content of insurance products is complicated, and it is difficult to understand the details even if we read the insurance policy. It seems that not only amateurs like us but also those who are familiar with insurance seem to be an exception, and it requires extremely high skills and experience to understand all of the insurance products of various insurance companies.

The new system, which uses AI (artificial intelligence), can reduce customer waiting time by up to 90% or more. In other words, if it took 60 minutes to analyze one life insurance policy, it would take about 5 minutes to complete! You can standardize the skills of those who are not used to analysis.

A benefit, which is the money paid by a life insurance company. Daido Life Insurance conducted a demonstration experiment in which AI (artificial intelligence) was responsible for assessing the payment of benefits that employees had been responsible for.

Not surprisingly, the accuracy rate of the judgment result is 90%! ! We have decided to introduce AI (Artificial Intelligence) into the assessment work. This assessment is to check the causal relationship between the current injuries and illnesses and past hospitalizations, so it seems likely to achieve significant operational efficiency.

So far, we have picked up and introduced examples of the use of artificial intelligence (AI) in the insurance industry. A major insurance company is now using AI (artificial intelligence) and InsurTech (InsurTech, Instech) to solve issues in the industry and improve business efficiency.

In June 2018, Tokio Marine Holdings will use AI (artificial intelligence) to analyze customer's assets, health status, life planning such as marriage, etc., and develop different insurance products for each person in 3-5 years. Has been announced. Based on diversifying consumer needs, our policy is to combine life insurance and non-life insurance in accordance with individual family structures and life events to propose optimal products.

By 2020, it is said that tens of thousands of vehicles will have their driving operations automated at specific locations, such as highways. The advancement of self-driving technology with artificial intelligence (AI) will pose a major threat to car insurance.

The use of technologies such as artificial intelligence (AI), called InsurTech (InsurTech), has led to a move to create innovative insurance services by making insurance services more efficient and sophisticated.

Using AI (Artificial Intelligence) to shorten response time at call centers and standardize high-quality support

Some of the insurance underwriting and payment assessment functions are automated by artificial intelligence (AI)

We have succeeded in automatically converting only necessary information from paper forms in various formats taken by cameras

Automated life insurance policy analysis system using artificial intelligence (AI) reduces waiting time by up to 90% or more

Based on the causal relationship between current illness and past hospitalization, the introduction of artificial intelligence (AI), which processes the payment assessment of benefits with 90% accuracy, has begun.

US startup Lapetus deal

 

U.S. startup Lapetus is developing technology that allows AI (Artificial Intelligence) to examine individual physical characteristics from self-shot images and determine life span, health status, aging speed, BMI, etc. . If this technology were fully commercialized, it would definitely pose a serious threat to the insurance industry.

By adding the results of this image analysis to the information provided and answered by the customer, for example, the life expectancy of the customer can be calculated more accurately than with the conventional calculation method. Moreover, this process takes several minutes. The future is quickly approaching, not only eliminating the need for insurance specialists, but also the ability for customers to themselves determine whether they need insurance.

Online loan project

Rutoa

(Orix Group) February 2017

(The service was launched in December of the same year.) Utilizing Yayoi's accounting big data, AI determines credit. Online loan service for small and medium-sized businesses

J.Score

(Joint investment by Mizuho Bank and SoftBank) September 2017 Features “AI Score” that scores future potential with big data and AI technology

Partners loan

(Recruit Finance Partners) November 2017 Utilizing Recruit Group's commercial transaction data

Emerada May 2018 Online Financing Service for SMEs

Money Forward Fine July 2018 Money forward subsidiary. Started system development for operation start around spring 2019

Mitsubishi UFJ / freee August 2018 Mitsubishi UFJ Bank invests in freee. Movement to use accounting data for loans to SMEs

● J.Score (Mizuho Bank / Softbank)

J.Score scores individuals' credit and future potential with big data and AI to provide faster and more precise financing. Habits of good behavior within the official online app will increase your AI score and make it easier to get a loan. It also has a function to encourage users to take good actions.

● Partners Loan (Recruit Finance Partners)

Partners loans utilize transaction data and AI, such as Recruit Group's “Hot Pepper Gourmet” and “Hot Pepper Beauty”. It is a service that builds its own screening model and enables appropriate and prompt funding. As with Altoa, it is possible to get the shortest loan on the day of application.

● Money Forward Fine (Money Forward)

Money Forward Fine is characterized by a slightly different color from other services. The company will take the form of directly financing itself, accumulating data and improving the accuracy of the credit model, while providing other companies with data that will support financing that will take less time and effort in the future. It creates financing opportunities and is actively promoting cooperation with financial institutions.

 

● Emerada Bank (Emerada)

Emerada Bank is a service that allows small and medium-sized enterprises to complete their borrowing from 5 million yen to 50 million yen online. In addition to the written approval, it also supports credit evaluations using bank account deposit and withdrawal data and flexible repayment plans. However, an interview is required when lending.

Altoa realizes model construction, financing, and cooperation with financial institutions

With the increase in domestic players mentioned above, Altoi, which was established jointly by Yayoi and ORIX in February 2017, has been focusing on online financing from an early stage and establishing a unique position.

One of the major features of Altoa's service is that small and medium-sized businesses that want to provide funding can raise funds without a guarantor or collateral by uploading Yayoi's accounting data and identification documents.

Altoa analyzes the accounting big data of Yayoi with AI and builds a credit model called "ALT model". It also reflects the accumulation of experience gained through actual financing and provides a flexible credit model tailored to that. Unlike the conventional method, it is possible to closely examine the transaction information of a company on a case-by-case basis without depending on the financial statement data. It also checks the integrity and validity of the transaction, preventing fraud.

Differences between traditional credit methods and Altoa ALT models based on data. The company's transaction information is scrutinized in chronological order on a case-by-case basis without relying on decision data, and AI can be used for immediate automatic screening.

The loan amount of Altoa is 500,000-3,000,000 yen, interest rate is 2.8% -14.8%, and repayment period is up to 12 months. All procedures are completed online. Specifically, it is as easy as three steps: account registration, loan application, and contract / payment.

Altoa My Page screen. Registering an account will generate a "My Page". At the top right of the page, the shortest payment date for the current application is displayed.

"The data entry is designed to be correct, and the application is completed in about 5 to 10 minutes. It's just like shopping online."

The most important point of the website UI is that you can easily find the date of payment. It is said that the loan is executed in a minimum of two to three days at the first time, and that the second and subsequent loans can be made as soon as possible.

Altoa offers services for corporate users of Yayoi Accounting. He has expressed his intention to support other companies' accounting software in the future. He is also actively working with financial institutions.

Altoa is also actively working with financial institutions. Already affiliated with four regional banks. Going forward, it will provide engines to financial institutions and aim to further expand the online lending market.

We will build a screening model and not only provide financing based on it, but also provide an engine to financial institutions. These can be realized all at once.

"The Chiba Bank, Fukuoka Bank, Yamaguchi FG, Yokohama GinWe are also seeking to open up new markets in partnership with four regional banks such as banks. However, financial institutions are cautious, and there are circumstances that make it difficult to complete. First, we will demonstrate the service and push the back of financial institutions

The company will finance not only corporations but also sole proprietors within 2018

 The online lending market in Japan is also beginning to be established, and if financial institutions enter the business, the market expansion is likely to accelerate at a stretch.

The influence of TV dramas and movies,

• When a small business requests a loan from a bank

• When an individual borrows money from consumer finance

In such a case, people have a strong image that humans face each other in the office.

Even in the popular drama "Naoki Hanzawa", there are very few scenes using the Internet, probably because of the setting of the times.

But in the 2010s

•             big data

• AI (Artificial Intelligence)

A loan service using the Internet that combines the two

"Online Lending"

Is attracting attention as a new financing method1).

What is online lending

• Using the Internet or smartphone

• Loan service

It has a very broad meaning.

There are many types of loan services using the Internet.

A kind of online lending

• AI score lending

• Social lending

The mechanism is completely different even if these two are compared.

Therefore, if you do not understand the online lending separately for each type, you may make mistakes in using the service

1. AI score lending

AI score lending scores (quantifies) the ability to repay loans of individuals and companies, that is, creditworthiness, and based on that score,

•             interest rate

• Loan limit

It is a service that changes.

We use a variety of data when scoring credit.

For example

• Profile information such as age, school age, annual income, and address

• Information about assets, such as housing status and investment history

• Remarks / actions on SNS and connections with friends

• Product purchase status on EC site

Although there are differences in the data used by different companies, we analyze a vast amount of data and accurately quantify the creditworthiness of individuals and corporations.

The credit score does not change once it is decided, but it is possible to increase the score with your own efforts2).

So if you keep trying hard

"High creditworthiness (high future repayment capacity)"

One of the characteristics is that you can get a loan on good terms.

Representative Services-J.Score (J-Score) AI Score Lending J.Score (J-Score) is famous for having started AI score lending using artificial intelligence for the first time in Japan. Compared with conventional consumer loans, the rate is overwhelmingly low, so the interest rate alone has significant benefits. Operating company J.Score Co., Ltd. is a company established by major companies (Mizuho Bank and Softbank). Comprehensively check your creditworthiness by the number of AI score Interesting low interest rate (0.8%-12.0% per year) First time AI score lending because there are many advantages to using such as security of major companies I highly recommend it.

J.Score (J-Score) representative service – LINE Pocket Money (LINE POCKET INE will launch “LINE Pocket Money”, a loan service for individuals using credit score “LINE Score”, November 2018. A service that analyzes creditworthiness using data that can be collected from LINE as a platform (under consent) and provides financing based on the results.Of course, everything from application to financing is completed on the application J.Score (J-Score) and Mizuho Bank are allied with each other, so they have high credit know-how and can use it with peace of mind.The service is scheduled to start in the spring of 2019.LINE Pocket Money (LINE POCKET MONEY) Credit system using credit score Loan service “LINE Pocket Money (line) using credit score“ LINE Score ” Shinsei Bank will provide a score lending service called smart money lending in partnership with the credit score service "docomo scoring" provided by NTT Docomo, a major mobile phone carrier. 3). However, only those who have a NTT DOCOMO mobile phone contract can use it. DoCoMo's usage data is used to analyze credit scores. That means that if there is a problem with the usage status of DoCoMo's mobile phone, specifically the payment status of the monthly usage fee, there may be disadvantages such as worse financing conditions

How docomo's credit score "docomo scoring" works NTT DOCOMO, Inc. will launch its credit score business "docomo scoring".

Shinsei Bank's `` smart money lending '' mechanism using credit score Shinsei Bank has partnered with telecom carrier NTT Docomo's credit score service `` docomo scoring '' to provide loan service for individuals using credit score `` smart money lending '' Ding ". It is scheduled to officially start in March 2019

Kind 2. Transaction Lending Transaction lending is a service that measures and credits credit based on actual transaction status data within a specific platform. Examples of this "specific platform" include Rakuten Mall Amazon Marketplace. If you open a store on these services and sell products, the daily trading data will be shared with Rakuten and Amazon, which provides a sales and settlement platform. The platform side analyzes the data such as the change in the number of PV of the site of the loan applicant's daily site PV, the change in the number of payments, the change in the customer unit price, etc., and can measure the real-time repayment ability of the store immediately and correctly is. Even if you borrow money, the platform can check all data that does not take a long time to review, so there is an advantage that there is no need to create materials.

Description of transaction lending mechanism / benefits and service comparison Transaction lending is attracting attention as a new form of loan. Internet venture companies are mainly involved, so I think it will be helpful for those who are interested in new forms of finance. Representative service # 1 – Rakuten Super Business Loan “Rakuten Super Business Loan” is a business loan for stores that are opening on the EC platform “Rakuten”. Since the terms of the loan are determined based on the data in the Rakuten store, there is no need for the store to create any materials. Near real-time data reviewers can check the data, so it is possible to obtain loans for securing stock in the event that sales suddenly increase and inventory becomes insufficient.

Representative Service # 2 – Emerada Bank Emerada is one of the few companies in Japan to enter the crowdfunding market. Emerada has released Emerada Bank, an online lending. Emerada Bank analyzes not only financial statements, but also bank deposit and withdrawal data when making a loan decision, and quickly executes the loan. Interest rates are quite low at 2% to 15%, so it is likely to be very useful for companies that have refused loans from banks. Emerada Bank https://emerada-bank.com/

MF Cloud Finance is a loan service operated by Money Forward Co., Ltd., famous for cloud accounting software and household account book applications. It is not money forward but partner banks that lend money to banks that use money managed by money forward for credit. MF Cloud Accounting If you use services such as MF Cloud Tax Return, we recommend that you consider financing with "MF Cloud Finance" if you need to raise funds. In addition, Money Forward plans to start a business in which it finances MF Cloud Series users through its subsidiary Money Forward Fine. Money lender registration for this was completed in November 2018, and the service will start around the spring of 2019. How MF Cloud Finance works We will explain the structure of the money forward loan service "MF Cloud Finance".

Type 4. P2P Loan (Social Lending for Individuals) P2P loan is an online loan provided within a financial platform4) that connects individuals who want to borrow money and who want to increase their interest with interest. P2P loan is an abbreviation of Peer to Peer in English, meaning it is a loan between individuals, not a professional money lender. P2P financing is also called social lending for individuals 5) marketplace lending, but it is still the same as individuals lending and borrowing money by matching within the platform. There is a problem of how to judge the creditworthiness of an individual by a platform company that operates a personal site that wants to lend money. Honestly, it is not widely used in Japan. Overseas, there is a service that diagnoses creditworthiness by analyzing data such as SNS tweets and the number and quality of friends. Representative Services-Lending Club P2P financing is not widespread in Japan. Formerly known for its social lending, maneo has entered private financing, but has withdrawn immediately. Since then, there have been no companies to enter, and P2P financing in Japan has been extremely difficult. There are famous services such as Lending Club prosper (prosper) overseas, but neither provides services in Japan. Type 5. Platform-independent online financing Platform-independent online financing is an online financing in which a credit screening provider works in cooperation with an EC site cloud accounting software payment service online bank, etc., and uses the partner data for screening. . Because they are not dependent on a particular platform, lenders can expect to get applications from many business owners. It is possible for a loan recipient to receive a loan if any one of the affiliated services is used, so it is possible to consider a loan from a non-bank. Representative Services-Lendy Lendy is an online loan service for businesses operated by Credit Engine Co., Ltd. Lendy has partnered with POS cash register services, such as the leading cloud accounting software EC platform restaurant evaluation site in Japan, and evaluated by customers (customers) on the congestion evaluation site of partner's payment data and withdrawal data (store) reservation And credit using data such as

• Individual

•             Sole proprietorship

•             Corporation

More services will be provided for scoring (digitizing) the creditworthiness of any of these to determine loan implementation and terms.

And to get a loan on better terms, you need detailed data on transactions and deposits and withdrawals.

If the borrower does not consciously endeavor to leave high-quality data, the financing conditions will worsen, and I think the era of financial loss is approaching.

In other words, the time will come when data will replace money.

So online lending

"Data Lending"

May be more appropriate.

"Data is new oil"

Is not an exaggerated expression. Sale to B2C and B2B major retail clientsYou will be involved in e-commerce solution design, implementation, implementation, and improvement projects as a PM of the development team centered on sforce Commerce Cloud.

 

The assumed projects are as follows.

• Transform / redesign multi-national e-commerce platforms

• Complex customer experience / customer journey design (e-commerce, m-commerce, call center, etc.)

• Introduction of omni-channel management (click and collect, web-to-store, Store2Web, PIM, Unique Customer ID, Payments)

• Digital business optimization for clients

Role

• Responsible for functional / non-functional requirements, budget management and schedule management for project success

• Engage in the pre-sales phase and create proposals

• Project management for contracted projects with a defined budget

• Understand client requirements to propose the best solution in the industry

• Responsible for processes and management tools for efficient project management

• Management of Capgemini teams in Japan and overseas

• Share progress with clients (setting progress, difficulty, importance, etc.)

• Deepen client relationships and develop business

• Project budget management

• Want to support clients in a global environment with a level of strategy comparable to a pure digital domain company

• Want to work with experts who have insights on the web, mobile, physical stores, call centers, and SNS

• 5+ years of contracted project management experience

• Experience in e-commerce projects and understand the key points

• At least 3 years of development experience using e-commerce solutions

• Understand project management tools (Jira, Mantis, etc.)

• Understanding CI tools (Jenkins, etc.)

Fluency in Japanese and English Matching people who want to borrow money and those who want to lend money

The topic that has been the hottest topic in the financial industry in recent years is still FinTech. There are various fields such as financial management, settlement, asset management, and crowdfunding, and social lending in the area of ​​lending is growing rapidly.

Social lending considers an online platform as a “market” for lending, and establishes lending by matching “borrowers” ​​who need funds with “lenders” who provide funds. Loans on an individual-to-individual basis are called P2P (Peer to Peer) lending.

Companies that provide this P2P lending platform and have established a new market called the personal loan market

Prosper Marketplace.

Prosper Marketplace

The Prosper Marketplace allows you to borrow a personal loan and also allows individual investors to fund the loan between $ 2,000 and $ 35,000. Investors evaluate borrowers based on information such as the credit score of the borrower, the history of borrowing and repayment, the purpose of the loan, as well as information from friends and the community to which the borrower belongs. The investment is made using the interest rate based on the credit rating as the return of the investment.

 

Credit rating left to machine learning

The biggest feature of Prosper Marketplace is that the credit rating of the borrower is optimally determined by a unique algorithm using machine learning. Prosper Marketplace, which has provided a number of lending services since its inception, has the data and knowledge to allow credit ratings to be determined by machine learning. This determines the rating, and investing in a lower-rated borrower is riskier and returns more.

 

The credit rating is determined by two factors: "credit score obtained from a public credit bureau" and "credit score calculated by Prosper's own algorithm", and AA, A, B, C in descending order. , D, E, and HR. The rating is used to determine the interest rate, which determines the investor's return. The highest rank AA returns about 4.15%, and the lowest rank HR returns about 11.66%.

The Prosper Marketplace itself is operated by a "commission model" that earns revenue by earning some of this return as a brokerage fee.

For details on the method of performing optimal evaluation using machine learning, see the Assessment Engine.

 

Why social lending is going to investors

In social lending, as I mentioned earlier, those with lower credit ratings have higher interest rates and therefore higher returns to investors, but at the same time, have a higher risk of default. On the other hand, choosing a borrower with a high credit rating to avoid that risk will have a low ROI and will be unattractive as an investment.

In general, investors with multiple investments in the Prosper Marketplace seem to be investing in borrowers with low credit ratings and high returns. The idea is that people who can get help from others will invest in people with low credit ratings.

It is strange to think of it as a new investment market, and investors need to change their strategies according to borrower changes and economic changes in this market to obtain their own investment profits. There is. In fact, the non-borrower's information, such as family information and affiliation, also contributes to the rating in the Prosper Marketplace.

Combining social lending with fintech to connect individuals with credit, and creating a new market for investment, this service will be more accessible to investors and prospective lenders in the future, and demand will increase. Will be higher. Basic company information

Company Name: Prosper Marketplace

URL: https://www.prosper.com/

Headquarters: San Francisco, United States

Unlike financial services such as banks and credit card companies, these services do not lend with their own funds or funds raised in-house. In other words, it is not strictly included in the money lending business, but merely as an intermediary providing a platform that connects lenders and borrowers. In addition, lenders can no longer directly approach borrowers.

However, since the investment component is a relatively strong service, the securities industry

Regarding screening, loan conditions are automatically determined using AI (Artificial Intelligence)

Outline of online lending "Lendy" and data used for screening An overview of online lending "Lendy" and data used for loan screening are explained. In some cases, they were advised to register as a securities business, considering online data as a data lending era, and were forced to respond. In this way, the relationship between business registration and the like became a bottleneck, making it difficult to deploy services. However, services similar to Japan, such as maneo and SBI social lending, are being launched one after another and growing.

Services that successfully combine machine learning and other technologies with the fintech space will continue to accelerate. At present, the AI ​​system, which consists of about 25 servers, uses a computer screen to input business management themes. The key points of this AI are two functions: a “value system dictionary” developed by Hitachi and a “correlation database (DB)”. Simply put, the value system dictionary is a function that analyzes a large amount of sentences collected and determines whether to agree or disagree. The above-mentioned sentence search on the management theme of "should we enter the Southeast Asian market?" Finds out whether or not there is information that can be used to judge the pros and cons. After that, we use a correlation DB to interpret the context from the connection between words and use it as a material for pros and cons. In about 80 seconds, AI collects a great deal of information and provides information for making judgments, and can express opinions with objectivity and neutrality that humans can never reach. Currently, the conversation will be in English, but Japanese will be completed by September this year. He said he would like to continue making improvements, such as allowing him to give opinions, taking into account the company's management environment and financial conditions, as well as information specific to each company and management issues, and aim for commercialization in the next few years.

To start demonstration experiment of AI for management with multiple companies Since the AI ​​has been introduced to more than 10 customers so far, it is planned to start demonstration experiment with multiple companies. The Hitachi Group plans to use the test on a trial basis. "Many executives and executives are worried that they want to analyze a large amount of data and find opportunities to find their competitive advantage." The senior researcher at Hitachi, who is developing the AI, believes that the demand for AI to support such business decisions is extremely large. Of course, there is no AI yet that has the advanced ability to make business decisions. However, "If it continues to evolve, AI will be able to replace many of the functions of corporate executives." Devin Fiddler, a researcher at the US Institute for the Future (IFTF), predicts: He is currently developing software called iCEO, which can automate business management tasks, and is a researcher on AI and management.会議 When making a decision, if there is no strong decisive factor, the meeting will take a long time, and many Japanese companies will continue to postpone. However, in the near future, the “AI chief of staff” as developed by Hitachi may give an objective opinion and spread the use of pushing the back of a lost manager without being able to make a decision. If so, would it be less likely that on-site employees would be swayed by “indeterminate management”?

NEC AI and IoT technology projects

The Seven-Eleven Mita Kokusai Building 20F store, opened in December 2018, utilizes NEC's AI / IoT technology to provide walk-through entry and self-checkout using face authentication technology, order support using AI, and store management using image analysis. This enables the creation of stores that are friendly to customers and store employees. This is an effort of Seven-Eleven Japan, which leaves everything that can be done with machines to employees and focuses on tasks that only one person can do, thereby creating a store that will please our customers.

Construction AI / IoT technology projects

Measuring services: We use sensors and measuring systems to obtain information necessary for building construction structures, such as displacement, inclination, and strain, and information related to construction safety. Construction consulting services: Perform 2D and 3D FEM analysis, etc., and perform work related to a new concept called CIM, which expresses 3D geological structures and structures to significantly improve the quality and productivity of construction structures. doing. Looking for innovative architects, engineers, planners and project managers, great careers and a wide range of projects in both Japan and abroad.

Digital design

Activity design, workplace design

Presentation (Perth, CG, animation, DTP, graphic, etc.) Air conditioning and sanitary equipment design, environmental planning Electrical equipment design, information equipment design Structural design, optimization design Supervision and construction supervision Urban planning, urban development

Urban design, landscape design

KDDI's AI technology project KDDI's AI technology (speech recognition, speech synthesis, natural language analysis, image analysis) You can gain experience in promoting commercialization while checking the reaction of products and services that combine.

・ You can develop your own products and services in the tens of millions of mobile markets by using your large marketing capabilities and sales channels.

Technical knowledge and work experience on AI / IoT

・ Communication and negotiation skills to build partnerships with external partner companies (technology development partners, business (collaboration) partners)

・ Practical experience in planning or developing new services

・ Experience in hardware related product development management

・ Communication skills in English RPA projects such as AI technology, IoT technology, and 5G technology

There are 1 million call center operators in the world. It is a harsh working environment where people keep calling on the same script from morning to night, and their turnover is very high. SV's work is always in the process of accepting and hiring newcomers. I do not spend my time on productive activities to increase sales. In the call center industry, more and more companies are trying to increase productivity by improving operational efficiency and reducing costs with RPA. Can this be said that the "negative" of the industry has been eliminated? Is it not possible to provide value only by recruiting in this industry? Is it possible to use the potential of the people who work there to contribute to sales expansion? I thought. That's why we focused on the negative of communication. As everyone communicates with people, you may have felt that there are "people who are not good" and "people who are hard to talk to". Even if you seem to be difficult to speak at first glance, you can often solve the problem by using a communication method that matches the type of person. Based on the communication theory (social style), the voice of the customer's conversation is analyzed using voice technology and artificial intelligence, and the customer's CS is improved by feeding back the operator's optimal communication method to the operator (≒ increase in sales) It is a service that makes full use of such technology. By being able to communicate optimally with customers, the burden on the operators themselves is reduced, which leads to improved ES for the operators. This service is not limited to call centers, and can be used in any situation where communication between people occurs. In Japan, the call center market is worth 1 trillion yen, but overseas there is a market for 10 trillion yen. This service uses speech recognition technology not for "semantic information" of words but for "formal information" of speech such as intonation, voice tone, and speed. Is also possible. Currently, we are in the middle of developing technology, but some companies already want to consider introducing it, and we believe that it is a service that has the potential to make a significant impact on the world. This is the phase where you can start a business together with a startup.

Language etc.

HTML5 (ApplicationCache, WebStorage)

JavaScript (+ jQuery), CSS3

PHP, SQL (MySQL)

CentOS, sh, Apache, AWS

WEB framework

Laravel source code management

GitHub, GitLab communication

Slack platform: Salesforce

Languages: JavaScript, CSS, HTML, Apex

Frameworks: Lightning Component Framework, React, Vue.js

CSS Framework: Salesforce Lightning Design System

Repository: Github

Chat: Slack

Document management: Quip

Issue management: Pivotal Tracker, Github IssueSwift / iOS / Java / Android * The development environment on the PC side is Linux / PHP, which is often used mainly by developers to support the production of advertising videos, and the main target and installed clients are also major ads Become a company. As a Web application engineer, we will work with PO to develop specifications necessary for streamlining video production and functions required as a communication tool for production, and to independently carry out from design to implementation, testing, and effect analysis with team members. You.

 

Since information such as new products is also included as information handled as a system, decision making and development will be carried out while balancing SoR and SoE while considering security requirements.

<Development environment>

・ Language etc .: Ruby on Rails, AWS, ES2015

Communication tools: Slack, JIRA Software, Qiita: Team, GitHub issue

・ Workflow: GitHub Flow, Scrum (flexible according to team)

・ Not included as test coverage, but test code is required to fix bugs and add new features

・ Aggressive use of external SaaS for non-core domains such as Circle CI, Code Climate, SendGrid, Pusher, Datadog, New Relic

Languages ​​and frameworks do not matter, but we are actively utilizing external SaaS such as CircleCI, Code Climate, SendGrid, Pusher, Datadog, New Relic, etc. Professionals who understand development methods and architecture and can implement more maintainable applications

web PHP, JavaScript

Smartphone apps Swift, Android Java, Objective-C

DB

 MySQL, PostgreSQL

Framework

 Movable Type, ECCube, CodeIgniter, Lumen, Laravel, CakePHP, Symfony, Ruby on Rails

• AWS

• git

• Docker

• Kotlin

• C #

•             Such

• 3 years of practical experience in web design using Illustrator / photoshop

• Experience in producing paper media such as posters and slides

• Can create screen composition based on requirements

• iOS / Android app design work experience

• Working experience in coding using HTML5 and CSS

• Experience working with Adobe XD and Sketch

• Those who are good at illustrations

•             Such

Tools used

• Task runner used: Gulp / webpack

• CSS Extended Meta Language: Sass

• Template engine: Ejs / Pug

• CSS design: Our original

• Version control: Git (AWS CodeCommit repository)

•             Such

• More than 3 years of working experience in HTML coding using HTML5 / CSS3

• CSS preprocessor knowledge and experience

• Experience using development tools such as task runners

• Knowledge of JavaScript that does not rely on jQuery

• Highly maintainable CSS design

• Knowledge and experience regarding SEO internal measures

• Git and other team development experience

• Experience building websites using CMS such as MovableType, WordPress, etc.

・ Development experience in LAMP environment

・ Understand template languages ​​(such as Blade) and CSS meta-languages ​​such as Sass

・ Experience building a web front-end development environment such as testing and build

・ Development experience using HTML5, CSS3 and JavaScript

・ Experience developing JavaScript performance and security

・ Team development experience using Git

・ Experience using management tools such as Trello, Redmine, Jira

・ Development experience using frameworks such as AngularJS, React, Vue.js

・ Those who have deep technical knowledge about ECMAScript

・ Development experience in an environment with a type system

・ Those who have deep technical knowledge on microservices and loosely coupled design

・ We can design and stick to UI / UX

・ Experience starting a new business (experienced in service development)

Web application development on Salesforce

Web application development (back-end development skills of front-end such as React are important regardless of language)

Salesforce development / use / management experience

Negotiation experience with customers

Have developed and released SaaS / Apps on their own

Web / UI design skills

Something else you like or like about service development (front-end development, mobile app development, design, infrastructure, machine learning, etc.)

Entrepreneurship or freelance experience

English skills

Front-end technologies such as GAE / Python, GAE / Java, PHP, androidJava, Kotlin, Swift, HTML, LESS, SCSS, React.js

・ Android, iphone : Cordova, Ionic

・ Web front: Angular6, TypeScript, Nest.js

・ Server side: Nest.js

・ Server: GCP (GAE, Cloud SQL, Cloud CDN, Cloud Storage)

・ Basic knowledge of GAE / AWS

・ KVS DB design and operation experience

・ Basic knowledge of machine learning

Web service design and development team management experience

・ Experience in Web engineering in general (8 years or more, no design skills required, only a slice of Photoshop, etc.)

・ HTML5, CSS3

・ Php, CakePHP

・ JavaScript, jQuery

・ Basic knowledge and experience around Linux server

・ Live streaming of videos using WebRTC, RTMP, etc.

・ Node.js

・ Application development using Electron

-Server operation on AWS (Infrastructure engineer) PHP

Python3SwiftJavaScriptHTML5 + CSS3

 

CakePHPFuelPHPLaravelAndroid SDKiOS SDKQueryNode.jsIn-house framework

 

Linux, Mac OS X, Windows, Cent OS, Apache, nginx, Amazon Web Service, Google Cloud Platform, WordPress

MySQL, PostgreSQL, SQLite

JIRA, Git, GitHub

Development, operation, and improvement of new functions of the company-wide core business system (Salesforce)

・ Recommendation and search function optimization using artificial intelligence / machine learning technology (Tensorflow, etc.)

・ Development, operation, and improvement of new functions of the company-wide CRM system

・ Draft a transition strategy to the business flow that should be and promote the transition

We have developed a job recruitment automatic recommendation function using AI (machine learning) and a job seeker's intention degree automatic judgment function.・ I gained experience in consulting work, including not only a series of upstream and downstream processes of in-house system development, but also proposals for business flow improvement in the business divisions.

3D design concept art production / design

3D CG design of character modeling and texture creation, bone setup

3D CG design for background modeling and texture creation

Various motion designs using 3D CG

Composite work using AfterEffects

Character model

Background model / rigging

3D graphic design and asset production such as motion

Effect design including special effects and environmental effects

GUI, create various interfaces such as fonts and logos

Technical artists such as technical development for efficient development procedures

Work experience of 3D CG using Maya or 3dsMAX

 Motion production and practical experience using any of Maya, 3dsMAX or MotionBuilder

 Development experience as a technical designer

 Tool development experience using scripts of each software

 Interface work experience in game production

Graphic design experience at DTP, WEB, etc.

Hand-drawn effect (2D) creation skills

Expert knowledge and technology such as programming languages ​​for shaders in general

SAP ERP6.0 development experience

経 験 Experience applying the latest ICT such as RPA, AI, IoT

◇ Basic information engineer

◇ Applied information engineer

If you do not have the data necessary for {IT strategy} analysis, you will also be responsible for designing the logs and intermediate tables required for aggregation, and requesting the development side to independently prepare the environment so that analysis can be performed. In addition, we will establish a regular monitoring environment using BI tools such as Tableau and DOMO / Looker so that business units and product developers can check numerical values ​​every day.

In addition to standard languages ​​and technologies such as Ruby on Rails, Swift, Kotlin, etc., on the server side, etc., as a startup providing BtoB services, we have started using the Go language at an early stage, AWS Lambda, Flowtype etc. , Verifying the latest technology at that time and incorporating it into actual products.

We are also actively working on improving the productivity of each engineer, and we are implementing various measures such as devising projects that span multiple repositories on Docker, and automatic PullRequest review in CI environment. We are. These are invented and executed by engineers themselves.

Experience of using Amazon EC2, S3, RDS Linux server construction and operation experience Basic knowledge of network Basic knowledge of kubernetes Understanding and operation experience of RDBMS such as MySQL, Redis, KVS

Understanding and operation experience of Infrastructure as Code Construction and operation experience of large-scale Web service

Understanding and operating experience with redundancy and load balancing using AWS Expert knowledge on security Understanding and operating experience with distributed systems such as Hbase Operating experience with kubernetes

Publish your program on GitHub or blog

Experience in new business planning using AI technology (speech recognition, speech synthesis, natural language analysis, image analysis, etc.)

・ Communication and negotiation skills to build partnerships with external partner companies (technology development partners, business (collaboration) partners)

・ Experience in hardware related product development management

・ Communication skills in English Build an AB test optimization platform using machine learning

・ Developed an in-house general-purpose AB test platform using machine learning (bandit algorithm). Combined with API of company-wide DB and external AB test tool, slack notification and automatic report, efficient AB test is realized.

-Currently, the number of companies that can use the software is expanding, along with the enhancement of algorithms and applicable locations.

Practical experience with common machine learning processes (data loading, pre-processing, tuning, and deployment).

・ Experience using machine learning in practice (excluding cloud ML systems)

・ Practical experience in building and operating services (apps or APIs) using machine learning. Experience in pre-sales engineering in the field of machine learning and data utilization.

・ Experience in project management We have a development environment to maximize performance, such as using an external display. Selection for each project, object-oriented, agile, scrum, test-driven development, prototyping in-house products / services, B2C, B2B, WEB site, CMS, EC, smartphone app, smartphone site, feature phone site, research, analysis, machine Learning, AI, database design, tuning, network design, GUI design development

AI to prevent crime and accidents

 

With the strength of video behavior analysis AI (https://vaak.co/tech), we have developed `` VAAKEYE, '' which prevents crime and accidents, and `` VAAKPAY, '' an unmanned cash register that eliminates labor shortages. Aiming for a solution.

■ MEDIA

It has been widely published in major domestic and international media such as Bloomberg and Forbes, and has been contacted from all over the world.

https://bloom.bg/2GWEM45CI: Structured, analyzed, automated, predictive AI helps arrest suspects

 

-A relaxed society without crime and accidents-

Recognize the world with artificial intelligence and prevent crime and accidents. By enriching the world with the eyes of artificial intelligence and eliminating the causes of crime, we aim for a "slow society without crime and accidents" using these two approaches.

 

-Solving social issues with the eyes of artificial intelligence-

VAAK is short for "Visualize, Analyze, Automate, prediKt", and contains the message of digitizing every phenomenon and creating new value. Through this “VAAK”, we will create new solutions to social issues and quickly implement them in ecosystems around the world with the power of business.

Office with open feeling (FA area)

Club activities with global members

The anti-shoplifting AI “VAAKEYE” uses the “Eyes of the Machine” for crime prevention, and I think that it is an initiative that has widespread business and has high social significance. "

<Main business contents>

・ Optimize the processing of AI crime detection system by security camera analysis

Operation of services that meet high non-functional requirements (response performance, capacity, reliability, security)

・ Maintenance / operation / improvement to enhance development productivity

・ More than one year of work experience as an infrastructure engineer

・ Construction operation of virtual server environment

・ Server-side application development

・ RDBMS performance tuning

・ Knowledge of monitoring tools and load test tools

・ Experience with OSS

・ Network knowledge

・ Experience building infrastructure for large-scale services

Construction Tech (construction xIT), a topic in the industry with the vision of "making the construction world as endlessly smart"

Currently, we are developing and operating a photo cloud service "Photoruction" that improves productivity in the construction industry, and a cloud cloud "aoz cloud" specialized in industry.

■ Photoruction

http://www.photoruction.com/

■ aoz cloud

http://aoz.cloud/

Although the date has not been long since the service release, this service is rapidly growing as it has already been introduced company-wide by major construction companies in the First Section of the Tokyo Stock Exchange and supports construction sites for projects representing cities.

In addition, it has attracted attention not only from the construction industry but also from the technology industry, such as exposure in many media and winning various awards.

■ Main media publication

Tech Crunch

The BRIDGE

TECH IN ASIA

Nikkan Construction Industry Newspaper

Construction Newspaper

Nikkei Construction

Renovation industry newspaper

God of construction

■ Awards

EY Innovative Startup 2018 Construction field award

Tec hCrunch StartupBattle Finalists

IVS Launch Pad Prize

Global Geek Audition Grand Prize

He has worked in a major construction industry, supervising construction sites, planning and developing IT tools, setting up new departments, and performing various tasks.

There were too many non-essential tasks such as data organization and document creation for building a building, and I faced the problem that working technicians were not able to demonstrate their original performance.

In order to solve them, we released the first service `` Photoruction '' in 2017, and further developed an industry-specific AI `` AozCloud '' with universities and multiple business companies for effective use of data .

The construction industry tends to have significantly lower productivity and profit margins than the manufacturing industry, and we believe that improving this in the future will lead to a smarter industry.

For this reason, we have set a business mission of “Creating an infrastructure that enables the construction industry to create new value” and are challenging to optimize the value chain of construction production with the power of technology.

Revolution in the construction industry with artificial intelligence! !

Development of Ao's Cloud, a cloud-based AI engine that dramatically improves productivity

CONCORE`S develops a cloud-based AI engine "aoz cloud" for the construction industry

Aoz cloud uses artificial intelligence that can analyze drawings, so to speak, the role of the `` eye '' in the construction industry

The technology is being developed in collaboration with universities and operating companies, and has attracted attention in the industry.

The construction industry is an old industry, but the architecture itself is made of crystals of various technologies.

We have a technology called artificial intelligence

▼ Business contents

Please develop a cloud-based AI engine "Aoz Cloud".

You will be in charge of all development processes from requirement definition to design, development and testing, and will stand at the front desk as needed and conduct customer exchanges and hearings.

If you wish, you can also be involved in a wide range of topics, such as basic technology development, paper presentation, and team management.

・ Python development experience (regardless of work experience)

・ Experience using libraries required for CV such as Tensol Flow and OpenCV (regardless of work experience)

・ Basic knowledge of deep learning

・ Motivation to learn about artificial intelligence and other technologies

・ Development experience using Flask, Python framework

・ Advanced math skills

・ Development experience using AWS

・ English reading skills (level that does not bother reading English on a daily basis)

・ I like technology and challenge difficult tasks

・ I like to write code than three meals

・ You can work on your own ownership

▼ Development environment

・ Python

・ Flask

・ Tensol Flow

・ Open CV

・ AWS

・ Docker

・ Github

☆ WEB, iOS, Android Engineer

[About the development environment of freee].

▶ Development blog

http://developers.freee.co.jp/

▶ freee's past technical presentation materials

https://developers.freee.co.jp/presentations

[Freee development system]

We believe that we can provide an attractive environment for engineers in terms of technology and development system.

We have a great deal of discretion for each team, and we have introduced our own new initiatives and challenges on a team-wide and company-wide basis.

For example, we are working on unique and various initiatives such as Open Source Friday (https://developers.freee.co.jp/entry/introducing-godate) and the 10% rule for improving 10% of business.

 

[Examples of past initiatives]

Master system: A system in which one engineer selected by voting gives a period of overwhelming output for one month

* Http: //type.jp/et/feature/1468

Fever system: A system where students can freely work on issues they care about every three months for one week.

http: // www.freee.co.jp

Second foundation stage] Change the industry with Big Data x HR x Tech ★

With a corporate slogan of "Making the world flat." We have been developing a number of products and will be reborn as a tech company to realize our corporate slogan.

First, we are developing a service to change the shape of job hunting in Japan.

Connect the analog and digital worlds of human resources with the power of technology. Aiming to improve the business of both companies and users, based on the obtained big data, we aim to create "indispensable infrastructure in society" that can become a center pin of wonderful services coming out in the future,

Service development

● Specific duties

You will be in charge of developing web and application services utilizing AI, including deep learning, in the HR field.

You will be responsible for everything from devising new services to applying them to existing services.

We are looking for those who want to implement a wide range of new HR systems and existing services by utilizing image recognition, natural language processing, speech analysis, etc.

If you are interested in creating a mechanism that utilizes Python, deep learning, and big data analysis, please submit an entry.

・ Continuously learning technology

・ I want to surprise the world with my own

・ We can talk about service hotly

・ Person who can work with enthusiasm again

・ Python

・ Experience using deep learning frameworks such as Keras / PyTorch

・ Data analysis with pandas, PowerBI, etc.

● Technology stack used in-house

・ Language / algorithm: Python

・ Infrastructure: AWS

・ Repository: backlog

・ Document: Google Docs

・ Design: SKetch, Adobe

・ Communication: Slack

・ PC / Macbook Pro provided

AI x first-class architecture

 

He has a unique career that has advanced from the Department of Forestry to the Department of Architecture. Aiming for environmental architecture utilizing knowledge of forests and trees, while specializing in simple modern designs that make use of space.

Personal comment: Through architectural design work, I want to do a job that can help people and make people happy. I think the amount of work is passion x time. Time is limited, so it's important to be passionate. I want to keep my staff highly motivated, including myself, about the work and what we should do to continue.

Design a variety of buildings such as private houses, apartment houses, clinics, nurseries, office buildings, shops

Established in 2002, it is a first-class architect office responsible for architectural design supervision and interior design. He has won numerous awards for his abundant experience, wisdom and design skills that have fulfilled many dreams and thoughts at major construction companies and personal design offices. There are many introductions from the owner and the connection so far, and we have a track record of trust and solid technical skills.

Physically we make the walls and floors, but what we really make is the "space", and we want to help and be happy through that "space".

In addition, we are contributing to human resource development as a contribution to the local community, such as by cooperating with university laboratories and volunteering in construction classes at elementary schools.

The architectural design of various buildings such as individual houses, apartment houses, clinics, nursery schools, office buildings, stores, and so on First-class architect office responsible for supervision and interior design.

In addition to a number of awards, there are many introductions from the owner and the connections so far, and we have a track record of trust and solid technical skills. Physically we make the walls and floors, but what we really make is the "space", and we want to help and be happy through that "space".

Based on my own experience, I have a strong desire to feel rewarded by entrusting as much as possible from the rough plan stage rather than from the top-down stage, and I am also promoting participation in external study sessions. In addition, we are contributing to human resource development as a contribution to the local community, such as by cooperating with university laboratories and volunteering in construction classes at elementary schools.

Smart devices such as speakers can be planned and developed. ・ KDDI can access a huge number of big data and customer-facing data of one of the largest call centers in Japan, and use automation utilizing AI technology. Gain unparalleled experience in efficiency.

• KDDI provides smartphones and other mobile devices and apps, as well as smart home devices and services that can be used at home. Our department is in charge of planning and development of products and services for realizing this smart home.

 

In order to provide customers with products and services that utilize AI and IoT technologies that are rapidly evolving, we will formulate a medium- to long-term strategy, communicate with partners including inside and outside the company based on that strategy, and create new You will be planning to put value into specific products and services. Smart homes have been researched and commercialized for decades, but there have been few successful cases in Japan.

On the other hand, in the last 1-2 years, products such as AI speakers and smart displays have been developed, and their use has been spreading on a reasonable scale in Japan.

To lead this trend, which is expected to accelerate further in the future, KDDI intends to consider planning and developing a number of smart devices such as speakers using AI technology. Software Engineers (Machine Learning / AI) will be responsible for service development / use promotion activities that use machine learning / AI to analyze and structure data and derive suggestions necessary to take appropriate actions.

You will be responsible for service development using machine learning that creates value inside and outside the company, and marketing activities inside and outside the company to promote use.

 

【In particular】

■ Service development using machine learning and AI

・ Plan / design / construct new services with high ROI using machine learning

・ Validation of service / application value / hypothesis

 

■ Marketing activities to promote usage

・ Internal and external marketing activities to increase service introduction / ROI

Study and refine to ensure stability that can withstand increase in users

 

■ Catch up with the latest technology for service development

・ Catch up on the latest technology through domestic and overseas conferences, IFTTT, arxiv, etc.

 

・ You can engage in all aspects of internal and external services from simulating services using machine learning with high ROI / value to design, construction, value verification, full-scale introduction, and monitoring.

・ Participate not only in service development but also in activities to promote the use of services developed by the user

・ Because there are no restrictions on the people involved in developing the service and the technologies used, the degree of freedom of work is very high

・ Catch up on the latest technologies and trends through the creation of a system for collecting information and business trips in Japan and overseas

 

[Specific business content]

[Programming / software development experience]

・ A software development and operation experience using any one of the programming languages ​​and Linux server environment. 4 original patents “Asilla Behavior Recognition (ABR)”

• Open innovation with Fujitsu introduced on TV

■ Business Overview

・ The fourth AI venture whose main business is planning, development and operation of AI services

・ Aim to solve social issues by developing “gentle AI” that supports people

■ Major technology / DeepLearning

・ Generative Adversarial Network

・ Convolution Neural Network

・ Recurrent Neural Network

・ Long Short-Term Memory

■ Means

・ Provision of AI-OCR "Jijira"

・ Product development using behavior recognition technology

・ Providing inappropriate content filter AI

・ Provision of technology utilizing open innovation of large companies

■ Main business partners

・ Honda R & D Co., Ltd.

・ Nippon Signal Co., Ltd.

・ NTT DATA CORPORATION

·Nissan Motor Co., Ltd 

・ Fujitsu Limited

・ Kyocera Communication System Co., Ltd.

 

• Demonstration experiment of “AI elderly watching service” jointly developed with Fujitsu Four patents pending Fall prediction / detection system using “action recognition technology”

In order to respond to the demands of the era of labor saving and labor saving, we will develop "gentle AI" that supports people and snuggles up to people and provides it to more people.

• Globally elite Hanoi R & D bases including Master of Technology in Milan and Master of Technology in Hanoi

• The Tokyo side is mainly responsible for business planning, consulting sales, public relations, data creation and collection

The business team that is familiar with Tokyo technology and the research and development team of Hanoi, who studied machine learning in Europe, the United States and Asia, are promoting the development and operation of high-performance, high-quality AI services.

◆ To create “human-friendly AI”

Azilla's concept is "creating human-friendly AI."

Artificial intelligence is often talked about in a negative image as `` taking away work '', but in the modern age of declining birthrate and aging, and finally entering the age of population decline, AI is trying to make up for labor shortage, I think that it is a social contribution and a way to protect people's lives

◆ Development project manager focusing on image recognition

We are looking for a project manager who can be active in the front end of AI development. The main business is

・ Specify customer needs

・ Technology selection advice

・ Realization of recognition model to realize needs

Formulation of learning data creation policy

・ Change of policy according to the situation in running the learning process

・ Communication with customers associated with the above

・ Infrastructure selection and budget adjustment

・ Subject of teacher data

※ We do not require any work experience of AI development itself, we will support conversion of system development PM to AI development PM.

◆ The passion for AI development is paramount

Above all, I want people who have an interest and passion for AI development to come. If you have your own research and development results, please take a look.

◆ Experience in global management

醍 The most exciting thing about management at Azira is communication with Hanoi, an R & D base.

In Vietnam, advancing development work toward the same goals as top-level engineers will lead to technical growth, and the skills of global management will be inevitable.

ア ジ In addition, several times a year, Asilah travels to Hanoi for Japanese members. In Vietnam, which achieves high economic growth of around 7% a year and promotes free trade, we can experience the "high economic growth" that our generation could not experience, and express our great hope for the future. We always feel that what we get from our members who we believe and doubt is big.

・ Basic knowledge about AI / Deep Learning

・ Engineers with development experience such as Web, smartphone application, AI development experience

・ Agile development experience with more than one development leader

・ Communication is mostly Slack / Appear

• Unique technology “Asilla Behavior Recognition (ABR)” with four patents pending

• Open innovation with Fujitsu introduced on TV

■ Business Overview

・ The fourth AI venture whose main business is planning, development and operation of AI services

・ Aim to solve social issues by developing “gentle AI” that supports people■ Major technology / DeepLearning

・ Generative Adversarial Network

・ Convolution Neural Network

・ Recurrent Neural Network

・ Long Short-Term Memory

■ Means

・ Provision of AI-OCR "Jijira"

・ Product development using behavior recognition technology

・ Providing inappropriate content filter AI

・ Provision of technology utilizing open innovation of large companies

■ Main business partners

・ Honda R & D Co., Ltd.

・ Nippon Signal Co., Ltd.

・ NTT DATA CORPORATION

·Nissan Motor Co., Ltd 

・ Fujitsu Limited

・ Kyocera Communication System Co., Ltd.

• Demonstration experiment of "AI elderly watching service" jointly developed with Fujitsu

• Four patent pending “fall recognition and detection systems” using “Behavior recognition technology”

In order to respond to the demands of the era of labor saving and labor saving, we will develop "gentle AI" that supports people and snuggles up to people and provides it to more people.

The business team that is familiar with Tokyo technology and the research and development team of Hanoi, who studied machine learning in Europe, the United States and Asia, are promoting the development and operation of high-performance, high-quality AI services.

◆ To create “human-friendly AI”

Azilla's concept is "creating human-friendly AI." !

◆ Development project manager focusing on image recognition

We are looking for a project manager who can be active in the front end of AI development. The main business is

・ Specify customer needs

・ Technology selection advice

・ Realization of recognition model to realize needs

Formulation of learning data creation policy

・ Change of policy according to the situation in running the learning process

・ Communication with customers associated with the above

・ Infrastructure selection and budget adjustment

・ Subject of teacher data

※ We do not require any work experience of AI development itself, we will support conversion of system development PM to AI development PM.

◆ The passion for AI development is paramount

Above all, I want people who have an interest and passion for AI development to come. If you have your own research and development results, please take a look.

◆ Experience in global management

基礎 Basic knowledge about AI / deep learning

・ Engineers with development experience such as Web, smartphone application, AI development experience

・ Agile development experience with more than one development leader

・ Communication is mostly Slack / Appear

In 2007, after graduating from Ritsumeikan University's Faculty of Science and Technology, he joined a financial user SI company. After working as an SE in the construction of IT infrastructure in the mission-critical financial field, he moved to a patent office in 2010. As a patent engineer, he worked on domestic and foreign patent applications in the fields of optics, information, and machinery in the fields of optics, information, and machinery, and assisted in intermediate processing. Started creating search engines. In 2015, he joined IP Nexus, a startup to commercialize intellectual property rights, and became CTO of the company in November 2015. In April 2017, launched and commercialized patent search and analysis web service https://patentfield.com.

We are creating a patent search and analysis Web platform "Patentfield" to spread patent and invention information more generally and widely.

https://www.patentfield.com/

Currently, more than 20 million patent information in Japan, the United States and Europe are registered, and anyone can start advanced patent analysis such as semantic search using machine learning, data visualization, patent score, patent ranking, citation analysis, etc. I can.

Why do

A patent right is a right to obtain an exclusive exclusive right at the expense of the disclosure of an invention, and the purpose is to promote the development of industry through the widespread utilization and application of technology by the disclosure of an invention. However, in Japan, patent information is not widely recognized and used by general users.

How are you doing

Utilizing data visualization and AI / machine learning to reduce the cost of patents and technical research and reduce the level of difficulty, we aim to improve opportunities for effective use of patent information and intellectual property information and promote innovation. You.

I will do this

You will help develop and operate patentfield.com patent search and analysis web platform and other related projects.

You will be involved in the following tasks depending on your ability, adequacy and interest.

・ Web application development

Required knowledge: Ruby / Ruby on Rails / JavaScript / Vue.js / HTML / CSS / PHP / WordPress etc.

・ UI / design / front-end development

Required Knowledge: Design / HTML / CSS / JavaScript etc.

・ Data analysis infrastructure development

Necessary knowledge: Natural language processing / Machine learning / Statistical analysis / Search technology / Database / C / C ++ / Ruby / Python / MySQL / Groonga etc.

Salseforce development experience is unquestionable. If you are interested in medical business, let's talk once!

◆ Business contents

Widely responsible for in-house system introduction-design-development-operation

-You can also expand the scope of your work while utilizing your experience!

Cooperate with the business manager and leave everything from requirement definition to release

・ You can get the feeling of contributing to service growth!

◆ Example of development target

・ Core business system (Salesforce)

・ AI function development

・ CRM system (questionnaire / email delivery / delivery system, etc.)

* Depending on your skill, you may also be in charge of the following system.

・ Web application operated by our company (Ruby / Kotlin)

◆ Example of usage technology

・ AWS (EC2 / RDS / Lamda, etc.)

・ PHP / Python / Ruby

・ PostgreSQL

・ Docker

・ Slack

◆ Development environment

・ Windows (text editor and IDE are free)

・ Language: Apex (Java-like Salesforce development language)

・ Development tool: Git (GitLab)

・ Project management: JIRA

★ Point

・ Udemy and AWS usage fee assistance, 4K display loan!

・ Book purchase system (You can purchase books within the specified amount at the company's expense!)

・ Average overtime hours on average about 20 hours per month

Sumutasu Co., Ltd. is a company that operates "Sumutasu Purchasing," which allows real estate to be sold in two days without any intermediaries. Established in 2018, we have developed a business model that simplifies buying and selling with the latest technology.

◆ [There are purchases and sales results immediately after launch! ]

Purchasing https://sumutasu.jp/

Real estate trading service with no intermediary. AI technology has reduced the time it takes to buy and sell a series of properties. Real estate sales are completed in as little as 2 days. It has been less than a year since the service started, but we have already acquired and sold many products.

◆ [Start new service for real estate agency! ]

As the B2C service “Sumuta purchase” is growing steadily, a new BtoB service “Sumata purchase agent” was launched in March 2019 for real estate intermediaries and others. This is a SaaS that uses the core technology of "Sumbutsu" and realizes speedy real estate sales from assessment to purchase. It is a service that satisfies the needs of customers who rush to sell for various reasons as well as intermediary companies for free provision.

"Click here for details" 

https://jp.techcrunch.com/2019/03/25/sumutasu-agent/

* Featured in multiple media.

《Web media》 Nikkei Shimbun, CNET, ITmedia, TechCrunch, THE BRIDGE

《Paper》 Nikkei Sangyo Shimbun ・ Nikkei MJ

◆ 【Billion units of fund procurement completed! In-house media will also be launched]

In the year since its establishment, it has successfully raised several financings. We have received a total of 100 million units of backup from multiple companies such as SMBC venture capital, and we are planning new development. Specifically, the company plans to release its own sales media this summer to strengthen sales services. By providing high-quality second-hand condominiums at a lower price than the market price, we will contribute to revitalizing second-hand distribution.

◆ [Add value to "living"]

New homes are being built one after another, but many second-hand homes are still sleeping. Existing real estate industry practices have become less adaptable to today's declining population. We want to renovate existing homes and provide new value to homes. With the company name "Sumatas", which gives the value of "Living" with the meaning of "Sum", we will cultivate the used market in the future.

◆ [To help those who make big decisions in life]

Buying and selling real estate is a big decision in life. As an intermediary who witnesses the situation, the mission is to `` protect and create happiness for everyone involved in real estate sales' 'and `` change the landscape of Japan' 'by increasing the number of homes with buyers' interests Listed in

◆ [Smooth assessment using technology]

To eliminate the negative image of buying and selling real estate, such as "complicated procedures" and "high commissions", we have been working on development using technology. The "study purchase" system is built on AI technology and is an innovative service that shows the purchase price of a property in a minimum of one hour.

◆ [Transform into a legacy industry with a new business model! ] The main service, "Summer Purchase," makes extensive use of machine learning technology, and a new business is about to start! As a machine learning engineer, we are looking for a fellow to drive growth! It is an environment where you can deepen your real estate knowledge because you also have technical advisors with extensive industry experience.

《Sumutasu engineer image / Recommended for such people》

▶ ︎Engineers who want to master the business side in addition to engineering!

Everyone is working on the idea that "30% of work time is spent on skill improvement and challenges." Therefore, it is possible to accumulate a wide range of careers regardless of job type! In fact, some engineers are also working on industry market research and designing new business media.

▶ ︎A pure engineer who thinks about technology even if he wakes up while sleeping!

On the other hand, if you want to “love technology!” Or “want to pursue technology thoroughly,” it is a unique environment where you can aim for higher levels in 30% of the time!

[Required skills / experience]

・ 2 years of work experience

・ Web development experience using PHP or Ruby MVC framework

[Welcome skills / experience]

・ Experience using git

・ Knowledge of object-oriented programming

・ I make and publish some web services myself

・ External information transmission using Blog, GitHub, SlideShare, etc.

・ Development experience using HTML, CSS and Javascript

【Development environment】 

Language: Ruby

Framework: Ruby on Rails

Database: MySQL

Infrastructure: AWS

• Currently, we are developing Recipio, a menu recommendation iOS application (in charge of machine learning and server side). His main task is developing a menu recommendation engine and chatbot.

When I was a member of the Faculty of Economics, I developed a horse race prediction model when I was a member of the Faculty of Economics, read the papers, realized the fun of generating profits by implementing and operating applications.

Based on that experience, I belong to the Graduate School of Informatics from graduate school and study machine learning methods and their application areas.

As an engineerThe skill sets are as follows.

## Python

-ridge (your own machine learning library)

-Server side

• We plan, develop, and operate a service called “Rekipio” that uses AI to suggest the best recipes from existing ingredients.

A very large number of housewives are worried about what to make today.

There is a rut, family preferences, effective use of ingredients, etc.

There is a lot to think about.

In particular, it is a burden for most housewives, even if it is done by a skilled housewife from the ingredients.

We use a "food-to-recipe" approach and machine learning to optimize and solve this problem for housewives.

URL: https://recipio.jp

[Posting results]

“Requipio,” which proposes the best recipes from existing ingredients using AI, has raised a total of 52 million funds. Renewal release also. (PR TIMES)

https://prtimes.jp/main/html/rd/p/000000003.000033440.html

Operating the menu proposal application “Recipio”, raising 42 million yen in seed round—from CAC, UB Ventures, and several individual investors (THE BRIDGE)

https://thebridge.jp/2019/01/recipio-seed-extension-round-funding

Proposal for recipes that can be made with ingredients in the refrigerator now, funding of AI cooking app `` Requipio '' (TechCrunch Japan) https://jp.techcrunch.com/2019/01/30/recipio-fundrasing-2/

Why do

Company homepage

Our vision is to become the world's leading company as a Japanese company.

In recent years, technology has evolved rapidly, and many fast-growing companies have emerged worldwide.

As a result, Facebook, Amazon, Apple, Google and others are now leading the world as leading companies. It is very wonderful.

However, there are no Japanese companies in this. There is no company created by Japanese. We pride ourselves as Japanese and are working daily to create a world-leading company alongside these giant companies.

By becoming the world's leading company as a Japanese company, we will change the world from Japan by setting up a mechanism to maximize the goodness of Japan to the world.

URL (http://about.recipio.jp/)

【Development environment】 

Swift, Rails, Python, AWS, Docker

GLM Co., Ltd.

GLM is a group that continues to strive to create a free and vibrant world, starting with the development of the sports EV "Tommy Kyra ZZ" and launching a platform that enables a variety of EV developments.

[Completed vehicle business]

In 2014, the company launched the sports EV "Tommy Kyra ZZ" in 2014 to create an EV that offers exciting driving experience to passengers. We have started production and delivery under a medium-scale production system. Through development, we have built a GLM ecosystem consisting of more than 100 direct business partners and obtained certification from the Ministry of Land, Infrastructure, Transport and Tourism. We are pioneering new ways of manufacturing automobiles. The development of the next EV has already started, and we will continue to develop a wide variety of products and expand sales channels worldwide. We will also conduct research and development on new types of vehicles and vehicles that are not limited to EVs, vehicles and vehicles.

[Platform business]

The platform business is used to package chassis, power systems, and control and control units (VCUs), for which we have accumulated know-how in the completed vehicle business, and provide it to third parties widely. By utilizing our technology platform, it is possible for non-automakers to develop original EVs in a short time. We also have a lot of know-how in packaging technology that links the chassis and power system as intended and realizes a variety of driving. The concept is to establish a joint development system and back up the entry of new players into the automotive industry. We have already provided solutions to major companies such as Asahi Kasei, Teijin, and Kyocera.

We, GLM, are a group of engineers who share the desire to create only pure and exciting cars and are challenging to create new cars.

 

■ Established in April 2010 as a venture from Kyoto University. The sports car "Tommy Kaira ZZ" (http://tommykairazz.com/) born in Kyoto has been revived as an EV. Leaders from major automakers, auto parts makers, small-lot manufacturers, and racing car teams are working to develop the world's highest-quality EVs. In addition, we have established alliances with world-famous electronics manufacturers, mainly in Kyoto, and major auto parts manufacturers in Japan to build our own ecosystem.

■ In April 2013, the mass-production design of Tommy Kaira ZZ was made publicly available and pre-orders started. Car delivery began in August 2014, and is being rolled out in Europe and Asia, mainly in Japan.

In May 2015, we received capital from Saudi Arabia government fund and Taiwan government fund. It is unusual for domestic ventures to receive investment from foreign sovereign wealth funds. This is a testament to GLM's core automotive development technologies, the engineering teams that support them, and the innovative business models that have been highly valued overseas.

■ October 2015 ■ Established mass production system with Kosaka Metal Industry Co., Ltd. in Maizuru City, Kyoto Prefecture. The company will start mass production in December 2015.

■ 2017-

Providing a wide range of products and services by providing the third-party with the technical know-how accumulated in our own-brand completed vehicle business. We have a track record of providing solutions to major companies such as Asahi Kasei, Teijin, and Kyocera.

I will do this

◇ Background

GLM Co., Ltd. will accelerate the development of EV sports cars based on the newly raised funds from domestic and foreign investors.

エ ン ジ ニ ア We are looking for an engineer with such a passion to send a super EV with new value from Japan and send it out to the world.

◇ Main roles and business content

Position overview

・ Design and development of ECU software for each vehicle in the completed vehicle business (own brand vehicle development) and platform business (contract development / contract engineering)

Position details

[Vehicle ECU software development]

・ Functional safety development of vehicle control system

Powertrain ECU software development

・ Software development of various ECUs (body control module, cluster, air conditioning, electric power steering, etc.)

Designing various ECU self-diagnosis functions

[Control logic design]

・ ECU control software design with MATLAB / Simulink

・ Control software design by simulation (SIL, MIL, HIL)

[Diagnostic logic design]

検 討 ・ Evaluation of various ECU self-diagnosis logic specifications

【Test】

・ ECU unit test

・ ECU network test

・ Vehicle test

・ ECU calibration

・ Prevention and countermeasures (FMEA / FTA / DRBFM, etc.)

[Other]

・ Technical explanation to domestic and overseas investors

・ Communication with clients (deciding specifications, organizing requirements, meeting, etc.)

GLM is proud of a flat and open corporate culture.

In addition to moving according to the instructions of a charismatic leader, while sharing only a large direction, you will demonstrate your own strengths and work together while working on site. For this reason, many engineers have gathered, exchanged opinions, and promoted independent development across corporate walls.

Only engineers who have something that cannot be yielded are working while enjoying such places. It is a unique feature of our company that you can share the feeling that a car that you have made yourself through trial and error is completed.

MUST

・ You must have a Japanese level of business level or higher (Japanese language proficiency test level 1).

・ Software design experience for in-vehicle devices

・ Knowledge of electric / electronic / control systems and experience in system development

・ Control software development experience

・ Control modeling development experience (MATLAB / Simulink, etc.)

・ Experience designing and developing embedded microcomputers using C and C ++

・ Has knowledge of CAN and experience in CAN data analysis

WANT

・ English ability at daily conversation level or above

・ Experience in contract development

・ Experience developing small-scale production and prototype vehicles and research vehicles

・ Technical sales experience

・ Work experience in a team

・ Negotiation and joint development experience with suppliers (experience is possible with automakers as suppliers)

・ Project leader experience

・ Model-based design / development experience

・ Software development for embedded Linux

・ Experience of ECU calibration in vehicle development

・ Experience in designing CAN protocol for diagnostics (ISO14229, ISO15031)

・ Autosar compliant software development experience

・ Knowledge of functional safety standards (ISO26262)

Values

GlobalWalkers was founded in 2016 with the goal of delivering innovative services utilizing AI to the world.

In addition to developing our own products and services, we provide AI-based system construction and business proposals to our customers based on the following three major pillars.

■ AI × Research & Development

It's various even if it says at a glance with artificial intelligence.

し Using various technologies and methods, especially using images

We are promoting our own research and development.

自 社 In-house original framework cultivated through such research

We conduct R & D based on.

■ AI × Integration

Focusing on AI systems that utilize image processing and moving image processing,

ソ リ ュ ー シ ョ ン We provide total solutions.

■ AI × Outsourcing

に は To improve the performance of machine learning and deep learning

Tens of thousands of learning data is important, but create this data

The challenge is that it requires enormous costs to perform.

We provide security and efficiency data for companies

By providing creation work, we will provide services that utilize AI in the future.

We will support development.

【Teacher data creation service AnnotationOne】

Http://annotation1.com/

Examples of R & D themes other than character recognition

Have you heard that AI takes jobs?

According to a paper published by Professor Osborne of Oxford University in 2013, about 50% will be replaced by AI within 10 to 20 years.

Is this really pessimistic?

Global Walkers aims to automate unnecessary tasks by using image recognition technology utilizing AI.

However, we don't want to take work away from humans.

We aim to create a world that can be used for creative work that only humans can spend most of their working hours.

How are you doing

A small company, founded in 2016, but a small team. The company has experts in cutting-edge technologies such as computer vision and machine learning, coding experts, and management, sales, and production experts.

エ ン ジ ニ ア Engineers who want to be involved in sports video analysis

You will be involved in the research and development of sports video analysis systems that utilize computer vision and artificial intelligence technologies (machine learning, deep learning).

◆ Specifically

・ Computer vision / machine learning (tracking technology, image recognition technology, R & D of algorithms for deep learning, 3D measurement, etc.)

You can get in touch with cutting-edge technologies such as computer vision and machine learning.

In addition, I will go to sports games to conduct experiments and operate the system. You have a chance to experience something you can't usually do!

[Web engineer] Develop SaaS type service for metal processing industry

Deep Learning transforms the sports industry with blockchain

With the introduction of machine learning frameworks such as Chainer, TensorFlow and Keras, and high-quality datasets such as WordNet, ImageNet and Wikipedia, sports will revolutionize the field of physical movement.

(1) CONDITIONING

⇒ Every day, each player inputs their physical condition with a smartphone. The coaches and trainers will check the physical condition of all players to prevent injuries and malfunctions.

(2) INJURY

⇒ A tool that can automatically create a trouble report when an injury occurs. Injury tendency analysis can be performed from the injury history.

(3) TRAINING

⇒It is a tool that thoroughly manages the "strength (physical and physical strength enhancement) important for athletes" and fitness improvement.

(4) PRACTICE

⇒ By managing the daily practice intensity of athletes, grasp the risk of injury.

(5) NUTRITION

⇒We understand athlete's daily nutritional status and give advice from staff such as a registered dietitian.

(6) TREATMENT

⇒It is a tool to grasp the history of various cares such as massage and analyze what contributes to the improvement of the athlete's condition.

We offer you one coach in sports, music and fitness.

Rather than one-way instruction for solution matching, it recognizes your tasks and actions as if you are a coach, and gives guidance on correct correction and training methods.

Specifically, we combine attitude estimation technology and various other technologies to provide guidance that top coaches provide feedback.

This allows you to maximize your growth and enjoy what you want to do without injury. Extend your potential to the fullest.

In the area of ​​physical movement, innovation makes it difficult for innovation to occur.

In particular, 

・ Difficulty in automating guidance by linking

・ Difficulty in understanding know-how inherent in individuals such as tips and tricks

It is still difficult to find the level of leadership and training methods that suit you. Even if you find a solution, it's difficult to tell if it's leading to performance.

The teams are all groups with experience in sports, music and robot development!

We think that we can innovate the fastest in the world because it is an area where innovation is difficult, and we are all working hard!

・ Development of system using DeepLearing technology

・ Comprehensive basic knowledge of machine learning ・ Deep Learning

・ Development experience using frameworks such as Tensorflow / Pytorch

・ Basic knowledge about GPU and cloud

・ Experience developing and operating DeepLearning / machine learning system in production environment

・ Expertise in the field of computer vision / image recognition

・ Expertise related to computer science

Contribution to international conferences and journals related to machine learning

・ I have an interest in cutting-edge technology.

・ I like learning new skills.

・ I am interested in utilizing Deep Learning in the sports field.

I have been playing soccer and table tennis for about 10 years. What I felt was self-satisfaction guidance that relied on the coach's experience. A culture where the right person is the right person is right in the sports world. Members with the same goals have different personal positions and play styles, as well as different weights, heights, attitudes and mental states. But why is uniform guidance possible? I have to question.

Of course, we may teach individually, but instructors often do not know their individual player data, not to mention the knowledge they can teach individually and the lack of time.

Players will potentially want to maximize their performance. However, what is my task is difficult to see in sports training.

For example, let's say that there is a player A who has a problem in baseball that he cannot hit in a game. A gives coaches a sense of what they can't hit, how they hit, how they strength, and so on. The real challenge is, even if it's mental strength.

A, who wants to be able to hit, suffers from non-essential tasks such as how to hit and muscle strength, falls into a negative spiral and ends his competitive life.

AI wants to help you out of a regrettable competitive life.

For this reason, we will first introduce technology into sports and build a system that can easily collect personal data. Athletes will propose AI where their tasks are located and what kind of practice should be done to clear the tasks.

Create a society where individual athletes and coaches can practice based on a wide range of practice menus and scientific knowledge.

What kind of functions are included in AI apps?

"Expand coaching abilities"

The app is responsible for the coach's actions and decisions. Just by shooting with your smartphone, you can accurately recognize sports forms and instantly identify issues and correction points.

Even beginners can acquire the ability as a coach just by shooting. Such features are currently under development. (Please come and ask for details ..!)

"Access to appropriate knowledge, form and practice"

You can not only show the correction points, but also compare them with good behavior and proper forms. If you want to know more, you can ask questions directly.

"It will be possible to get data from every movement"

It's a difficult question, but I think it will be possible to get various data from every movement within a few years. What we are trying to do at the moment is to capture a variety of data just by shooting, but it is still limited.

"Changes in teaching style"

I think that I will be able to get all kinds of data, and I as well as myself will be able to accurately grasp the issues.

Therefore, the instructor will be instructing based on the data, and I think that an environment that can provide more accurate instruction according to the athlete's task will be in place.

As the development progresses and the various data are gathered, the coaches will soon be able to dedicate time to more important roles in managing the players' minds.

When I was a member of the Faculty of Economics, I developed a horse race prediction model when I was a member of the Faculty of Economics, read the papers, realized the fun of generating profits by implementing and operating applications.

After a period of research on technology and social trends related to cryptocurrencies / blockchains, he has now joined Metaps and is engaged in business development related to cryptocurrencies / blockchains.

"Changing Money and Economy with Technology"

Mankind has been able to exchange value efficiently by inventing money (currency). Today, the spread of the Internet has made it possible to recognize invisible values ​​such as time, space, and skills as data. By using technology to discover and utilize the value buried all over the world, we will realize a new economic structure that does not depend on money.

When money is no longer an essential item in economic activity, there may come a time when humans are released from various emotions such as anxiety, fear, impatience, and so on. Most of all, removing the money filter and re-thinking your life should give you an opportunity to face the essential theme of why you were born and what you really want to do.

Just as the invention of electricity once brought human life one step further, and as advances in medicine have saved many from plagues and liberation from the status has given many potentials to the life of an individual, We believe that "economy" is still evolving and humanity can aim for a more wonderful existence.

We plan to develop many blockchain-related businesses globally through our own product development.

Blockchain business:

Although blockchain technology is still in its infancy, use cases are limited at present, but use cases are gradually being created mainly in the game domain, and games are preceded and games are growing. Expected. Touching the development of technology in such an area is one of the attractions of this product.

・ You can gain experience in blockchain development through actual product development.

・ Experience product development while sharing know-how with overseas group companies.

・ Web application design, development and operation

・ General design / development / operation of server side

・ Continuous improvement of infrastructure construction and performance tuning

 

・ Web application development experience

・ Coding experience using HTML5 / CSS3 / JavaScript

・ Ability to catch up on the latest trends in Web technology

・ The ability to implement the UI by taking the intent of the UI design

・ Implementation of interaction considering UX

・ Interest in blockchain technology

・ Basic knowledge about cryptocurrencies and blockchains

・ Experience developing Ethereum smart contracts

・ Experience working on cryptocurrencies and blockchains

・ Understand the technical specifications of Bitcoin and Ethereum

・ Large-scale service development experience

・ Business experience with overseas

·English skills

It is challenging and challenging to launch a data platform based on blockchain technology.

The idea to revolutionize data distribution on the Blockchain data platform.

Until now, data platforms could not handle really important data due to security and transaction cost issues. It solves the problems of existing data platforms with blockchain technology, and enables all types of data transactions in all industries.

▼ Official site

 

With the trend of big data and AI, the world has an image of data overflowing, but we focused on the fact that really important data is not being shared and is being stolen.

I think that the world will be better if such closed data is securely shared by the blockchain and a society will be useful for all industries, and if the data is connected in a new way.

We want to be a service that will start a new era in blockchain 3.0.

The current blockchain technology has many applications in the cryptocurrency and Fintech fields, and its application in other fields has not advanced. If blockchain 1.0 is for virtual currency, 2.0 is for fintech, and 3.0 is for other fintech, the blockchain 3.0 domain is still unknown and will be a killer app when viewed globally. No term service has appeared.

Connecting data from all over the world has such an impact, and I would like to create advanced cases for applications other than Fintech.

Developing Japan's first ad fraud solution and realizing data transactions on the blockchain by the KDDI Group, thereby retaining transaction logs in a form that can be verified by a third partyYou will be able to. We also believe that it provides transparency to data owners and allows them to return legitimate rewards.

There are still many challenges to implementing complex applications on the blockchain, such as transaction delays and cost issues, but we have a unique approach to digital marketing, and we are leading the way with the power of engineering. I want to promote social implementation.

Using blockchain technology that has not yet been applied to services, we will continue to develop services with a large range of influence while collaborating with large companies. You can develop services that are intended to be used by many users.

◆ A team with a wealth of startup experience

・ Design, development and operation of server side of blockchain data platform

・ Technology selection and verification of middleware, framework, etc.

・ Architecture design of the entire back-end system

・ Research and development of blockchain, especially Ethereum-related technology

・ Experience designing and developing web applications using languages ​​and frameworks such as Golang and Django

・ Three years or more experience of JAVA, C / C ++, Rust, Scala, Python

・ Experience developing and operating large-scale applications

・ Experience designing, building and operating infrastructure in cloud environments such as AWS and GCP

・ Experience designing and developing systems that use data stores other than RDBMS (such as NoSQL databases such as Amazon DynamoDB and search engines such as Elasticsearch) that match the characteristics of each data

・ Undergraduate degree in computer science (CPU, memory, algorithm, data structure, etc.)

・ Experience building and operating Docker container clusters such as ECS and Kubernetes

・ Experience in performance tuning of DBs such as MySQL and PostgreSQL

・ PaaS / SaaS product development experience

・ PJ experience with R & D such as Blockchain / AI / IoT / AR / VR

・ Interest and knowledge about blockchain technology

<Development environment>

【development language】 

・ Golang

[Services expected to be used in Datachain]

・ Construction and operation of kubernetes cluster environment using kops

・ Aurora

・ Kinesis

・ KMS

[Services you may use]

・ ElastiCache

・ CloudHMS

・ System Manager

・ AWS WAF, Shield

・ Amazon Inspector

[Blockchain related technology]

・ Operation of blockchain clients such as bitcoind, Geth, Parity

・ Smart contract development using solidity, truffle

Development of ICT technology for construction and mining equipment Development of OS and embedded software for electronic components (LCD monitor and vehicle management system) mounted on vehicles and development of image processing technology

(Ⅰ) Development experience using C and C ++

(Ⅱ) Development experience using embedded Windows, Linux, and RTOS

(Ⅲ) Experience in software development for information communication using wireless LAN, CAN / LIN, etc.

(Ⅳ) AI development experience using Python, MATLAB, etc.

(Ⅴ) Experience in developing embedded software for devices using GNSS and IMU and control software for the entire system (ⅵ) Experience in developing image processing (V-SLAM technology and camera / sensor technology required for its realization) Those who have experience in development of ECU (in-vehicle control controller, in-vehicle monitor, in-vehicle communication device, etc.) and who fall under any of the following.

(Ii) Experience in hardware system design

(Ⅱ) Those who can read the circuit diagram and perform quantitative operation analysis

(Ii) Those who understand data sheets of electronic components and can select appropriate components and quantitatively design circuits

(Ⅳ) Designed with noise in mind, playing a central role in solving noise-related issues

• Secure computing image

• Promote safe use of corporate data assets with technology that can be used with encryption.

With the vision of `` creating an Internet space where companies can use AI and data services with peace of mind, '' a secure cloud that enables companies to safely share and integrate data assets and operate AI models beyond the boundaries of companies and organizations Research and development to build.

The mainstream encryption technology used today around us needs to break the encryption when processing data. That's the point of being vulnerable to malicious attacks. Therefore, we are conducting research and development and providing a SecureAI engine based on cryptographic technology that is said to be able to execute AI while encrypting data and to be resistant to the next generation computer called quantum computer. You.

We are also engaged in research and development of high-precision AI models, not limited to natural language, image, and numerical analysis.

Creating a secure cloud for companies to create an Internet space where companies can use AI and data services with peace of mind. Companies can safely share data and operate competitive AI models safely. It is a platform with (1) advanced analysis for encrypted data, (2) secure licensing of data, and (3) encryption function resistant to quantum computer.

EAGLYS's vision is to create an Internet space where companies can use AI and data services with peace of mind.

Our mission is to build a secure cloud for businesses to securely share data and safely operate competitive AI models.

[What you want to achieve]

■ Build a platform that has a distribution function as a data trading company in the age of AI and big data, not just an app.

■ Build a platform that enables companies and individuals around the world to select the most suitable AI for TPO, provide their own data with peace of mind, and immediately utilize AI.

■ In the DT (Data Technology) era, create a company that supports the business of many small and medium-sized businesses and startups in the world, such as AIibaba, Amazon, and Google in the IT era.

■ Pioneering a new field called “Secure Computing”.

■ Create a home where people can feel safe in the Internet space, just as people can live safely at home.

The team enjoys research and development on secure computing and AI / machine learning every day.

The balance ball in the company is always used by someone, and as soon as someone notices something, a meeting begins in front of the whiteboard.

Under the president, also called the AI ​​monster, there are members with doctoral degrees, and there are also some outstanding interns, and we plan to move to a bigger office this fall.

[Secure Computing Products]

We are researching and developing technology for analyzing encrypted data while it is still encrypted, and we are working on social implementation of cutting-edge technologies faster than anywhere else in the world. Although it is an advanced research theme that cannot be easily created with the feeling of solving difficult puzzles, it is a technology that you can enjoy while knowing the depth of the depth if you start doing it.

[AI product research and development]

■ Development of in-house AI products

A personalized recommendation engine, a price prediction engine, a demand prediction engine, an anomaly detection engine, a failure prediction engine, and a sports video in close partnership with an AI and big data company in Los Angeles, USA, with high originality and precision. Research and development of various AI products such as analysis engines.

■ Project-based AI development

I use my brain every day to build highly accurate AI for various customers, mainly listed companies. Since we are developing AI that supports the fundamentals of a company's management level, we cannot make incomplete products. Every day, the experience, knowledge and skills of AI are improving to develop AI that will lead customers to success. Very exciting development!

There are also discussions held in English, so you can have R & D and discussions while feeling the atmosphere of California, USA!

[Media publication results]

■ Newspapers and magazines

・ Nikkei newspaper, morning newspaper (July 26, 2017)

・ Interview with Nikkei BP: Special Issue on Nikkei Business Associe (September 8, 2017)

■ Radio program

・ J-WAVE INNOVATION WORLD (June 2, 2017)

・ MBC Radio Music Express (October 3, 2017)

・ TBS radio "THE FROGMAN SHOW A.I. coexistence radio curiosity family" (December 1, 2017)

■ Articles / Blogs

・ Ministry of Education, Culture, Sports, Science and Technology Global Entrepreneur Development Promotion Project (EDGE Program) Waseda EDGE

・ "THE FROGMAN SHOW A.I. Coexisting Radio Curious Family" Blog

・ Nikkei Newspaper Morning News Web Article

・ Startup Times

■ Event

<Pitch>

・ Slush Tokyo 2018 Pitch Contest Semifinals (March 29, 2018)

・ Beyond 2020 Night Supervised (May 17, 2018)

<Panel discussion>

・ Artificial Intelligence Summit 2018-Three reasons why AI companies in their 20s are chosen as partners instead of large companies-(May 29, 2018)

<Symposium>

・ Cybersecurity in Society 5.0 era and its importance in startups

Together with representative Imabayashi, who is called an "AI monster," you will be able to work on research, development, and experiments on a "secure AI engine" that operates safely while encrypting data.

We also provide AI services.

Knowledge and skills are important, but emphasis is placed on humanity, independence, a sense of responsibility, and the ability to understand and consider the whole.

There is also a base in LA, and we are actively interacting in the United States and Japan due to the close relationship. Please come to the office 1 minute walk from Yoyogi Station.

◇ Work stance

・ Learn new technologies and move hands

・ Responsible from design to development

◇ Required AI skills (applicable to any one)

・ DeepLearning, (LSTM, CNN, etc.)

・ Statistical machine learning (Bayesian statistics, linear / nonlinear regression models, Markov)

・ Natural language processing (morphological analysis, etc.)

・ BigData processing platform design and development (GoogleCloudPlatform)

Komatsu Corporation (registered company name: Komatsu Ltd.)

Predictive analysis is possible with AI

The AI ​​module provides business intelligence functions, such as analyzing customer behavior and predicting potential customers based on the analysis. For example, you can see in real time what kind of action you are taking, such as reading or unreading delivered content, opening a file or clicking a URL in a message.

Specifically, AI can perform machine learning to analyze prospective customers by converting customer behavior such as click rate and number of accesses into data and correlating it with data such as past closing rates.

This makes it possible to perform various analyzes with high accuracy, such as visualizing the possibility of purchase and who to approach when

AI driverless case automatic driving

 

Participating AI driverless automatic driving case introduction

Toyota motor driverless case

Driverless case for Honda car

Cisco unattended case GM unattended case

Tesla and the unmanned case of the alphabet (personal contract)

Microsoft unmanned technology research Toyota cooperation

Started cooperation with DeNA to conduct unmanned taxi test in Yokohama

Volkswagen is driving a carPromote car case

Google driverless car case

Ford Unmanned Vehicle Case Daimler Unmanned Vehicle Case

Amazon Test Unmanned Express Parcel Service Case

Alibaba artificial intelligence laboratory and white car case

Nvidia, Bosch, Daimler, Ford unmanned case

Baidu unmanned driving

Intel, Nissan, Volkswagen, BMW unmanned

Mercedes unmanned case

Delphi Case Study: Providing Unattended Packaging Solutions

Nissan and NASA unmanned cases

GM driverless case

Bmw card loan case

Bosch driverless case

Komatsu Group: Unmanned mine dump truck

The mine has large machinery and few people, but the working environment of the mine truck is relatively simple, the mileage is short and it is repetitive, making it very suitable for unmanned driving applications. Since 2008, Rio Tinto has been working with the Komatsu Group to test self-developed automated transport systems (AHS) in Chile and the Pilbara region of Australia. Komatsu exhibited an unmanned mining dump truck on September 16 and canceled the driver's cab directly.

This unmanned mine dump truck is 15 meters long, 8.5 meters high, has a loading capacity of 230 tons, a maximum output of 2,700 horsepower, and a maximum speed of 64 km / h, and is the same shape as a conventional mine dump truck. There is no significant difference in appearance. However, the truck canceled the driver's seat and used wireless networks and obstacle detection technology to achieve driverless driving.

1. Foreign countries have developed into an automatic mining stage with unmanned trucks as leaders. Automatically controlled drilling rig-drilling work, unmanned mining trucks, GPS track scheduling system, real-time monitoring of slope displacement, etc. are applied. The more famous companies are: Caterpillar, Komatsu, Hitachi, etc.

Commonly used algorithms in the field of graph computing are PageRank, BFS, MIS, SpMV, WCC, ALS, SGD, etc. ... Pregel, which includes a synchronous computing model and its open-source implementation, Piccolo [18], supporting both synchronous and asynchronous systems PowerGraph [19], GraphLab [20] and GraphX ​​[21]. ... PowerLyra and PowerSwitch have improved PowerGraph from both graph segmentation and asynchronous models.

 

2, Familiar with the development of C / C ++ / Python and other programming languages, with strong engineering practice ability.

3. Familiar with Linux and ROS, familiar with the design and development of robot systems on ROS.

4. Familiar with PID / MPC control algorithm, familiar with automatic control theory and implementation of various control systems.

5. Solid mathematical foundation, good mathematical modeling skills and English reading comprehension skills;

Experience in designing vehicle control systems for unmanned vehicles.

7. It is desirable to have experience as a director or project leader.

Published academic papers related to international conferences and magazines for automatic control.

Baidu unmanned logistics field case Tucson future unmanned driving

Horizon unattended case

Momenta, Pony.ai unmanned case

Uber and Google drones

Volvo unmanned case

Caterpillar driverless case

Abbott's unmanned case

 

AI retail application project

 

beauty

 

1. Sephora's Virtual Artist App

A key feature of Sephora's Virtual Artist app is that it allows beauty buyers to try on products via augmented reality, but the brand has recently introduced a color matching tool with AI. This tool will determine the specific shade of the product on the photo and suggest similar products available on Sephora so that consumers can try it on and buy it.

 

2. Olay Skin Advisor

If there's an area where AI has caused a lot of problems so far, it's beauty. Olay's Skin Advisor is an online consultation platform that can tell you the true age of your skin from a selfie. Using AI to assess and determine problem areas and the overall condition of the skin also provides personalized skin care routines and reports.

 

My beauty is personalized

With over 170 retail partners and over 300,000 products, My Beauty Matches claims to be the world's first personalized beauty product recommendation and price comparison site, improving conversion rates and increasing basket size for other brands. We are working on expansion. Specifically, it uses AI to help partners such as Harrods, Harvey Nichols, and Bobbi Brown conduct hyper-targeted campaigns for those who want a personalized beauty offer.

 

4. L'Oreal's 3D Hair Color App

As some of the beauty-driven examples on this list show, the fusion of AI with other technologies, such as augmented reality, means that it is entering a new territory. L'Oreal's newly announced AR Hair Color app has been co-created with Modiface, allowing users to try new hair colors in real time. With the AR component, customers can digitally experiment with different styles, but they can take in the user's hair one by one and introduce AI to provide the most accurate look.

 

5. Features of beauty personalized products

Functional Beauty is a beauty startup that allows customers to create custom shampoos and conditioners based on their personal hair type and hair goals. After creating individual hair profiles and collecting data from quizzes to determine what future goals and end products want to look and smell, brands can use AI from 12 billion different ingredient combinations possible. Produce the final product.

 

6. Proven by fake reviews

Proven is a newly launched beauty brand that uses AI to deliver the most personalized products possible. Instead of searching for products, search for reviews on those products and provide individual skin care routines. To date, the brand's tool reports that it has analyzed eight million skincare product reviews to eliminate fake reviews, save consumers time, and actually provide important personalized recommendations It has been.

 Marketing and communication

 

7. Marketing with Ometria AI

With the belief that generic marketing makes brands forget, Ometria is committed to creating a memorable marketing experience. It works by combining AI-driven customer data with retail-specific marketing data to create an effective strategy for your brand. According to the company, Ometria was able to "take back" 107% of furniture retailer LuxDeco's customers, adding 60% to revenues from fashion company Seraphine's email channel.

 

8. Cosabella and Albert

In 2017, lingerie brand Cosabella announced that it would use Albert, an AI technology, to help brands implement new strategies as a new digital agency. In addition to identifying new user behavior in various channels to provide important insights, Albert earned 336% in advertising costs, 155% in direct revenue, and 37% in overall web sessions Achieved.

 

9. Rebuilding Theland's AI

Last month, it was announced that Zalando, an e-commerce giant with more than 14,000 employees, has replaced 250 marketing jobs with AI. As part of the company's broader restructuring, especially with respect to marketing, it emphasizes the company's technology. "Marketing will become an increasingly database in the future," said Rubin Ritter, Zalando's governing board. "Therefore, more developers and data analysts are needed."

 

10. IKEA AI research

Although IKEA is famous for its quest for technology, the brand has decided to explore AI in a global survey to inform the future. Created at Space10, IKEA's innovation lab, questions were asked about whether AI is "protective or compliant," and what gender AI assistants should be. The findings are said to be used to inform IKEA's future AI products.

 

11. Persado's AI-generated language

Described as the "Marketing Language Cloud", Persado is an AI solution that discovers and generates languages ​​for specific audiences at retailers, hoping to promote short-term sales and long-term relationships . Marketers who are currently focused on email and social media channels can use this tool to predict response rates, increase marketing momentum, and adjust the tone of brand voice.

 

 

 

12. Aldo's 360 Vision

As part of its collaboration with Salesforce, ALDO leverages AI to better understand and engage with its customer base by predicting customer needs and expectations and enabling them to interact in the most appropriate channels . According to a statement from the Salesforce website, "Salesforce allows ALDO to have a 360-degree vision for its customers. In the future, the company will use information from Salesforce to It will create a synergy between digital and digital channels, enabling you to interact with customers anywhere in the world in a fluid and personalized way. "

 

Zeta Marketing Platform

Zeta is an AI-driven marketing platform that wants to help brands acquire, maintain and grow customer relationships. It does so by connecting experiences across channels, building customer knowledge through data, and creating discussions within a specific user community. Using this tool, Zeta claims that the brand sees twice as many page views, four times as many email subscriptions, and a 154% increase in email revenue.

 

14. Room & Board

Within the first year, furniture brand Room & Board introduced Salesforce's Predictive Intelligence into their products, and the brand achieved a significant return on investment of 2,900%. Using data collected from customers since 2009, the company can make informed recommendations on its website and in personalized email campaigns. "Customers who work on Room & Board recommendations place web orders that are 40% higher on average than those who don't. When customers review these recommendations before coming to the store, 60% soaring, "read the statement on the Salesforce website.

 

15. Satisfi Labs

Through the use of AI, Satisfi Labs offers retailers new ways to engage with customers through branded chat. Designed specifically to interact with many data sources on a variety of online platforms, the company promoted 2 million AI conversations in 2017.

 Search and inspiration

 

16. Neiman Marcus's Snap.Find.Shop App

Upscale department store Neiman Marcus used AI to develop Snap. find. An app that lets you search for Neiman Marcus products through shopping, photos taken by shoppers while on the go. So, for example, if a user finds a shoe that suits their taste, they can take a picture using a dedicated app. In that case, similar shoes available at the Neiman Marcus store are recommended.

 

17. Partnership with Target's Pinterest

Towards the end of last year, Target announced a partnership with Pinterest to add social media channel visual search tools to its apps and websites. As a result, users can take a picture of any product before it becomes a similarly available recommended product on the target. It follows the announcement of Pinterest Lens on Pinterest, which wants to expedite discovery by providing suggestions from objects that users point their cameras at.

 

18. West Elm's Pinterest Style Finder

Last year, furniture retailer West Elm announced its Pinterest Style Finder. Using AI, the tool scans a user's personal Pinterest board and curates a list of personalized products for that person. The starting point for inspiration is said to be an extension of the in-store service where staff ask visitors for photos. And unlike some of the other AI-based recommendation tools on this list, it's done by the Pinterest board instead of browsing the history, so it can really get used to personal preferences .

 

19. Knorr Instagram Integration

A few months ago, food and drink brand Knorr launched an AI tool that scans Instagram feeds to recommend personalized meals. "We look forward to becoming the first recipe solution inspired by Instagram." Philippa Atkinson, Senior Brand Manager at Knorr UK and Ireland, said:

 

20. GoFind.ai Shopping Candidate Search

GoFind, with its mission to allow you to shop everything you see, is a visual search engine for shopping. By using advanced AI search capabilities in combination with one of the largest e-commerce catalogs, users can take pictures of real-world products and recommend brand-name recommendations. In addition, the company offers insights and direct monetization opportunities for brand user behavior.

 logistics

 

21. Wheely movable market

The combination of AI and convenience-oriented thinking has made Wheelys' Moby Store highly regarded as a future grocery store. Acting as a store on wheels, the space is open 24 hours, without staff, no checkouts, and drives itself into the warehouse to restock again. It even uses AI to create digital holograms that greet visitors upon entry.

 

22. Otto Group Inventory Management

The e-commerce giant Otto Group is using Blue Yonder, a cloud-based predictive machine learning application, to increase revenue, increase margins, and respond to market changes. The result is a reduction in out-of-stock rates of up to 80%, a 10x increase in product availability, as well as optimization of the entire supply chain and no end-of-season waste.

 

23. Okado fraud detection

Just a few months ago, Ocado revealed what is said to be the world's first AI-based fraud detection system for online grocery shopping. It was introduced as part of the brand's Ocado Smart Platform. This is a solution developed by the brand for use by other retailers.

 

24. Walmart Supply Chain Optimization

Walmart is focusing on AI to optimize various processes, from commerce without checkout to Pick Up Towers in stores, but recently launched a distribution program to overcome the last mile problem . Described as a Uber-like system, it uses data to determine who should deliver what and streamlines inventory management.

 

25. Call AI investment

Cole has long been known as a retailer using AI to better support consumers, but brands have recently announced that it is targeting AI as a significant future initiative . In particular, in the process of strategically migrating systems from dedicated data centers to cloud computing, AI wants to streamline operations, reduce costs, support customers and open up new investment opportunities. thinking about.

 

26. JD.com Predictive Push

In an interview with the AI ​​business last September, Hui Cheng, director of JD.com's JD-X Robotics Research Center, said that JD.com is putting AI into practical use in every aspect of business, from supply chain to logistics. Said. For consumer goods and marketing. While it is clear that both Cheng and JD are making a big bet on AI's future, integrating the brand into the AI ​​supply chain is particularly interesting. With the introduction of this technology, the brand can deliver over 92% of orders with the same overnight delivery, effectively forecasting future demand and bringing fully autonomous warehouses online.

 

27. Infor Retail Reform

Infor places AI and analytics at the top of its strategic foundation, helping brands in all areas to implement network analytics and AI-driven experiences. When it comes to retail, in particular, the company helps retailers with demand management, corporate asset management, and personnel management, to name just a few.

 Chatbot

 

28. Individual shoppers on eBay

Described as your own personal shopper, ShopBot is an eBay chatbot. Bots that are currently in beta testing can help you find the best deals from eBay's overwhelming list. "By combining AI with eBay's broad inventory and unique choices, we can create a much better and more personal shopping experience for virtually everyone who owns a mobile phone," said eBay. Read the statement.

 

29. Shop Direct Whatsapp integration

In 2016, Shop Direct became the first UK-based retailer to provide effective customer service through a WhatsApp-style interactive user interface. The service, entitled Very Assistant, was developed with IBM Watson to help customers find answers to their questions from multiple options in a natural chat environment.

 

30. North Face Product Recommendations

North Face is another brand that uses AI to help consumers find the right product for them. As an initial experience testing the power of IBM Watson on mobile, the app asks a variety of questions about location, temperature, and gender, and prompts voice conversations to determine what the user needs.

 

31. Taco Bell Tachbot Chatbot

With the launch of Tacobot, Taco Bell became the first brand to allow users to order directly through Slack, a business messaging service. By using AI to facilitate natural language orders, chatbots spoke in a witty tone.

The brand is well known and allows users to customize products and group orders. According to Taco Bell, the bot is currently in beta testing at various companies.

 32. Levi's Virtual Stylist

Levi's Virtual Stylist, co-developed with Mode.ai on Facebook's messenger app, aims to do just that, bringing together the knowledge of in-store employees of all brands in one place. In addition to providing fashion advice, it is based on True Fit's personalized fit data and is designed to respond to people with the tone of conversation like in-store advice.

 

33. Soul Machines

Soul Machines' mission is to humanize computing by combining the expertise of AI researchers, neuroscientists, psychologists, artists, and innovative thinkers. One result from the company is AVA, or Autodesk Virtual Agent. It works like a chatbot and offers aggressive customer service, but its success lies in the fact that it allows consumers to interact with what looks like a human.

 

34. GWYN Experience

In line with Mother's Day 2016, 1-800-FLOWERS.COM has released GWYN (Gifts When You Need) as an AI-led gift concierge. The system will learn and refine recommendations over time, as well as guide customers through their shopping experience. Keith Mercier, retail leader at IBM Watson, said: "Using Watson, GWYN's cognitive capabilities allow 1-800-FLOWERS.COM to provide a more personalized and intuitive online shopping experience. 1-800 worked on the project.

 

35. Nike On Demand

In 2017, Nike launched Nike On Demand, an AI-powered assistant to help people exercise more and achieve their performance goals. The tool itself used data collected from ongoing activities to send personalized motivational messages so that users felt as if they were receiving one-on-one training. In a six-week campaign, 22,000 messages were exchanged for Nike On Demand users, demonstrating the potential of making AI right.

 fashion

 

36. Fighting Entrupy counterfeiting

Entrupy is an authentication system for luxury fashion products that uses AI to determine if a product is genuine or counterfeit from millions of images. According to the brand, the success rate is 98.5%. Burberry, one of the most forged luxury brands in the world, is reportedly using Entrupy to take a stand against counterfeiters.

 

37. Range of StitchFix AI-designed clothing

When you think about AI, fashion design may not come to mind. That said, AI design is on the rise. Subscription-based fashion company StitchFix recently announced Hybrid Designs, a collection of clothing created from consumer data. By identifying which design features are always functioning properly and identifying gaps in the company's inventory, brands respond to consumer input to design clothingAnd can be created.

 

38. Bespoke Goody Boxes from ThredUp

Last December, online retailer ThredUp launched Goody Boxes. This is an old-fashioned box where consumers save what they like and return what they didn't. Although the initiative itself is a non-subscribed, non-committed offer, the introduction of AI will allow future boxes to be more closely tailored to the customer's personal preferences as the brand remembers what the customer has chosen to return. Means you can do it.

 

39. FINDMINE looks complete

With automated "Complete The Look" technology, FINDMINE combines styling knowledge and technology to create the perfect look for a product for sale. The company reports that using this system will increase dealer efficiency by a factor of 100.

  

40. Tommy Hilfiger Design Inspiration

Tommy Hilfiger is another company exploring the potential of AI design. Earlier this year, the fashion brand collaborated with IBM and The Fashion Institute of Technology (FIT) on a project called Reimagine Retail. With the aim of exploring how AI can enhance design inspiration and improve manufacturing and marketing, Tommy Hilfiger's library of images and patterns provides data on key patterns and design characteristics for students to create original designs. Provided.

 

41. Amazon's AI Fashion

And, of course, Amazon wants that action. According to the report, the brand's researchers are working on AI systems that track current design trends and then react to them. So far, Amazon's Lab126 team has developed an algorithm that creates clothing based on data collected from vast amounts of fashion images.

 

42. Alibaba's FashionAI Platform

By recognizing both the details that distinguish different clothing and the myriad of consumer shopping habits, FashionAI is a new tool from online giant Alibaba that acts as a personal stylist for shoppers in-store. The tool itself provides personalized recommendations to customers based on the item they are trying from the item tag

 

43. Vue.AI Model Generator

Last month, Vue.AI announced that it had announced the world's first AI-based human model generator. By analyzing clothing and automatically generating human models based on it, innovation provides users with the opportunity to personalize the appearance of the model and helps retailers reduce the cost of photographing and modifying products. You.

 

44.Adidas Localized Design

When adidas announced Speedfactory, the innovation of significantly reducing the time it took to build sneakers and the number needed to make it valuable was a major change for the manufacturing industry. However, you can also create location-specific designs by integrating data-driven innovation. By using athlete data from consumers in different cities, the brand has manufactured footwear tailored for cities such as London, Los Angeles and Tokyo.

 Real store

 

45. Bodega's AI-driven necessities

By using both computer vision systems and AI, Bodega is an autonomous store that brings the essentials related to where people need them. Thus, gyms may sell protein bars and college campuses may sell stationery. It works through a dedicated app that allows users to open a ministore with a 3-digit passcode and bring the necessary items before they are automatically charged to their account. As the camera tracks all movements, inventory demand and replenishment are optimized over time.

 

46. ​​Spruce Bot AI Organizer

Sprucebot is a bot that wants to revolutionize the way physical stores operate. Use AI to grow and adapt SMEs in every way, from automating administrative tasks such as job shifts and booking appointments to gathering actionable feedback from consumers.

 

47. Future Store Formats for DeepMagic

DeepMagic with AI has developed a fully automated store format that allows sellers to operate staffless stores, reduce costs and eliminate shrinkage without losing the essence of experience. did.

 

48. Conversica Sales

Described by the brand as an automated sales assistant, Conversica uses AI to identify potential opportunities to drive sales, as well as follow up on all leads coming from online sources I guarantee that. And because the messages sent are conversational in nature, the brand states that, on average, 35% of all leads respond. In addition, assistants can schedule appointments, follow up with older prospects, and gather customer feedback.

 

49. Macy's on Call App

In 2016, Macy's partnered with IBM Watson to launch an AI-based shopping assistant for shoppers in stores. An app titled Macy's On Call enables customers to answer questions about queries tailored to their store. For example, you can find a specific product in a store or check if a product is in stock. or not. According to Macy's Vice President of Digital Media Strategy, the overall goal was to increase sales and free up employee time so that we could focus on more complex consumer demands.

 

50. Amazon Go

Without the mention of Amazon Go, the current list of AI retail innovations is not complete. The Internet has been thriving since major brands launched checkout-free walkout stores. AI has been activated by automated checkout and product tracking elements, which is noteworthy.

How many of these poorly understood technologies are affecting the retail industry? Want insider insight into the latest retail trends? Book one of our New York retail safaris and get in touch to find out how to boost your business. Get your free copy a day

We use cookies to confirm we are giv

 

 

 (3) Application development (C, C ++, Java, Javascript, R, Python, etc.) skills

Develop new functions that are the main functions and main functions of selling

Most of the development of new features in The Translation series is almost alone.

 

(4) Comprehensive consulting skills

To advance in long-term and diverse projects related to machine learning, artificial intelligence, data analysis, etc., joint research with domestic and overseas companies and research institutes, and promotion of commercialization and commercialization within NTT DATA He has acquired and acquired consulting skills such as necessary proposal / communication / logical thinking / analysis of problems / issues and presentation of solutions / adjustment.

In addition to the above, in the process of acquiring a Master of Technology Management (MOT), he has studied business administration, business models, innovation processes, organization theory, etc., and has improved problem discovery, concept creation, logic construction, and solution skills. . These are being implemented in current team management and problem solving in each business unit.

 

■ Sharing of project name and project case

2011.03-Current Japan Toyota Smart Car Autopilot Technology and Japan Softbank Artificial Intelligence Technology Implementation Project (Japan)

Description of the project: AI machine learning, especially the practice of artificial intelligence, autonomous driving technology and artificial intelligence skills in the automotive industry and machine learning, artificial intelligence, data mining, information retrieval, natural language processing, speech recognition, other facilitating images Implementation of related technologies and algorithm skills in fields such as industrial processing

Project Responsibilities

1. Take full responsibility for running and managing artificial intelligence / smart business segments

2. Develop a company's artificial intelligence / smart strategic goals and implement according to the company's strategic plans and goals

3. Establish a platform teaming system, business system, and staffing that is responsible for managing and building the platform team.

4. Develop performance targets and business development plans for this business segment in accordance with company target requirements, and achieve the group's business management objectives.

5. Combine company and market resources to develop specific operational plans, development strategies, organizational structures and business models, resource integration strategies, growth and expansion strategies, pricing strategies and more.

6. Identify business models and technology research implementation and technology applications of intelligent IoT platform, continuously optimize and integrate internal and external resources.

7. Responsible for the business development and implementation of the business segments, the use of funds and communication with the profit and loss situation

8. Fill out the weekly work report weekly and submit leader approval in time.

9. Make monthly work plan and submit leadership approval at designated time

 

He makes breakthrough contributions in the fields of computer vision, natural language understanding, knowledge reasoning, intelligent hardware, and robotics. Technology has helped many industries, such as security, finance, transportation and healthcare. Intelligent security technology mainly consists of artificial intelligence algorithms, high-performance computing, distributed computing and storage, and large-scale operation and maintenance. Among them, the visual intelligence algorithms mainly include face recognition, vehicle model recognition, text recognition, target tracking, image feature search and other technologies.

Combine state-of-the-art U.S. academic concepts with solid industry experience, and apply deep learning, statistical modeling techniques, innovative solutions, and advanced artificial intelligence algorithms that include application challenges to produce large samples Can be treated effectively. A small number of training samples and a small number of training samples with a wealth of technical experience in difficult scenarios, including very large-scale identification (billion-level comparison), ultra-low false positive rate (part-per-billion false positives) Machine learning problems related to multi-type terminal recognition (still images, dynamic video, low-resolution image quality, net noise), multi-ethnic cross-age recognition, and other complex application scenarios.

At the core of computer vision through video surveillance equipment such as Safe City, Intelligent Transportation and Smart Finance is the "eye" of city and industry-specific intelligent security systems. Tens of thousands of "small eyes" produce accurate vision in nature, and large image and vehicle platforms are built and flashed through the eyes of the city, based on world-class machine vision algorithms and platform solutions. The same accurate recognition provides a reliable platform for security applications in industries such as Safe City, Intelligent Transportation, and Smart Finance.

Large-scale portrait platform is a face uniquely developed by MapsWe use recognition technology. It can perform static face matching based on photos, and dynamic portrait recognition and comparison based on video and picture streams. The system supports a wide range of x86 and GPU architectures, provides a complete and customizable user system, authentication mechanisms, authorization systems and monitoring capabilities, supports inter-cluster collaboration, and integrates with different application scenarios Provide machines, portable tools, etc. Product form; widely used in Japanese local governments' public safety systems, achieving fruitful results.

Criminal Investigation, Counter-Terrorism Intelligence, Security, Prevention and Management, Access Control, Cloud Computing Architecture, Big Data Applications

A full-person dynamic portrait system that supports the industry's mainstream video streaming standards, integrates face tracking capture and recognition, real-time control, and past passer-by tracking queries. The system is widely used in residential, commercial, train and subway stations, high-speed transit stations, airports, customs, shopping malls, and other congested locations. By placing an alert function, the blacklist can be alerted first to the monitored area. Object tracking statics to support 1: 1, 1: N, n: N comparisons of a large billion-dollar portrait library widely used in public security, finance, etc. You can inquire about portrait comparison. Populations and key populations are constructed, and the identity of the queried person can be quickly and accurately confirmed by portrait comparison. Follow the route, check the irregularities of the object and its accompanying companions, provide convenience to the police

The dynamic portrait system supports the industry's mainstream video streaming standards and integrates face tracking capture and recognition, real-time control, and track queries by past passers-by. The system is widely used in residential, commercial, train and subway stations, high-speed transit stations, airports, customs, shopping malls, and other congested locations. By placing an alert function, the blacklist can be alerted first to the monitored area. Object tracking statics to support 1: 1, 1: N, n: N comparisons of a large billion-dollar portrait library widely used in public security, finance, etc. You can inquire about portrait comparison. Populations and key populations are constructed, and the identity of the queried person can be quickly and accurately confirmed by portrait comparison. Follow the route, check the irregularities of the object and its accompanying mates, and provide the police with effective clues to resolve the case.

The system is a highly sophisticated and intelligent vehicle identification system, and the Ministry of Public Security's Science and Technology Outcome Recommendation Catalog has received the 2015 Ministry of Public Security Science and Technology Progress Award for nearly 100 scientific and technical evaluations. Unique technical capabilities such as "find a car". Relying on many proprietary core AI technologies, the vehicle large-scale platform technology comparison hard index is ahead of other similar companies.

Large platform features for vehicles

1. Vehicle identification compatible with both image and video streams.

Supports front and rear vehicle brand / sub-brand identification.

Efficient and accurate fake deck library analysis.

4. In a large video video, "Search for a car on the map."

5. Broad support for x86, GPU architecture.

6. It is the world's leading algorithm, and the structure recognition speed is more than 200 images per second.

7. Accurately identify sun visor, seat belt, and mobile phone driving.

8. Support GIS system.

Public Security Applications: Identity Screening, Comprehensive Pursuit, Investigation and Case Resolution, Helping People's Lives

According to the diagram, large-scale platform technology is widely used in public security system background checks, comprehensive tracking, investigation and resolution, and services for people's lives. Through the system public security can quickly determine the consistency of objectives and transport documents, and can effectively identify unidentified objectives, breaking the limits of the traditional pursuit of relocating bleaching identity personnel can do. It provides real-time monitoring and management of critical personnel, helps lost seniors find family, provides nuclear services to the Internet + police, and allows the public to do things online.

Customs Port: Border Checkpoint

With an accurate and efficient dynamic face recognition system, copper walls are being built in customs throats. Keep your country safe and detect fraud.

The annual value of parallel imports from water passengers to ports amounts to hundreds of millions of yuan, causing significant tariff losses in the country. According to the figure, dynamic facial recognition technology accurately locks out waterborne passengers and suspicious individuals in the crowd, prompts customs officials to perform verification and verification, shocks criminals, and reduces national economic Loss can be reduced.

Financial Industry Applications: Real Name Authentication

Financial institutions have traditionally performed real name authentication using a combination of real-time visual judgment, SMS verification, and bank cards. These traditional methods suffer from inaccuracies, poor customer experiences, and high costs, which are significant issues for the development of financial companies.

Real-name authentication based on face recognition has high accuracy (two out of the same 100 million people), good customer experience (fast authentication, few customer operations), and low cost (compared to traditional authentication methods) It has been adopted by many major financial companies.

Etu Technology offers a complete real name authentication solution. Utilizing mature face matching and live detection technology, we provide omni-channel solutions for financial companies (counter, mobile, self-service machines, etc.).

Business Application: Customer Crowd and VIP Identification

In the logistics business, drainage and precision marketing of target customers are significant spending on commercial costs, traditional passive shopping mall logos, manual pushes and shopping guides reduce efficiency, and precision marketing with artificial intelligence as a core business And a new growth point.

Working with Wanda Plaza, this solution not only automatically identifies VIP customers for customized services, but also identifies and guides facial features to identify customers' gender, age and mood as business needs. Make the most of machine vision to match. Function for target customer group diversion and precision marketing, target real-time push of content of interest to customers, while observing and learning content of interest of different people, gradually improve matching of target cloud push content

Top experts in artificial intelligence, experts in the big data cloud computing industry, and senior medical experts gathered to bring together the world's leading AI technology and the deep medical industry. We also provide hospitals. Leading universities have formed in-depth scientific research collaborations and have jointly applied for 13 key issues and the National Natural Science Foundation project. Artificial intelligence is used to empower medical and health businesses to jointly promote medical progress.

Deep learning, computer vision, natural language processing, and the medical industry to provide clinical intelligent diagnosis and management for interdisciplinary departments through specialized scientific data analysis for cutting-edge interdisciplinary research and applied transformation Provide advanced technical support in the field of deep accumulation in

Medical intelligent full-stack product solutions have been deployed in more than three of the top 100 hospitals nationwide, successfully integrated into clinical workflows, and deepened in various aspects such as disease prevention, testing, diagnosis, treatment, and scientific research. Was.

Combining advanced NLP technology and machine vision algorithm with detailed analysis of multi-modal data such as self-made Chinese clinical clinical knowledge maps, medical texts, images, pathology, etc., accurately realize full-scale information extraction, scientific research Meet, clinical, education, management and more. Multi-scenario data requirements support clinical support, disease research, product incubation, and more.

Understand clinical

ICD-10 disease code; see SNOMED CT etc .; homemade Japanese clinical glossary library

reliability

No data is released, continuous quality control and data gaps are closed.

Scalable

Rich data storage, extensive clinical use scenarios, and high scalability.

Intelligent

Every month tens of thousands of medical records, speed, medical records, inspection, imaging, other multimodal, integration of medical data governance, NLP natural language processing technology.

Case Code Processing Workflow-Reference ICD Code Versions, ICD Coding Rules, Disease Scores, and DRG Grouping Methods in Each State and City to Build Discharge Records, Inpatient Medical Record Code Models for Reduction of Disease Records-Pathology Detailed analysis of modules such as reports, surgical records, and consultations, intelligently infers ICD codes for in-patient medical records, does not choose the correct primary diagnosis, and never miss a secondary diagnosis. Support for ICD-based performance management and Medicare payments.

Understand the drug

Extensive experience in the healthcare industry and accumulation of clinical glossaries, accurate understanding of medical concepts and their hierarchical relationships, accurate identification of medical terms in search terms and medical records.

know

Based on semantic analysis technology, under clinical situations such as disease search, symptom search, and disease progression feature search, medical concepts and the true intention of the user are accurately understood, which greatly enhances the efficiency of medical record search. Improve.

Multiple data

It supports cross-platform integration and centralized optimized display of multiple types of data, such as medical records, medical records, tests, and images.

Outstanding performance

Depending on the performance of the industry-leading search engine, it supports various search functions such as specified field search, multiple entry search, and search term specified logical combination.

Lung cancer imaging intelligent diagnosis system

New generation Faster R-CNN algorithm combined with multiple optimization techniques, intelligent analysis of chest CT images, lesion detection, multidimensional description and differential diagnosis of lesion features, and clinical guidelines to automatically generate structured reports Physicians have greatly improved the efficiency and quality of reading films so that patients can receive fast and quality medical services.

First generation-see picture

Multidimensional trait description: size, volume, density, anatomical location; secondary nodule detection.

Second generation-imaging diagnostics

Evidence-based differential diagnosis, image feature extraction, benign and malignant determination, follow-up, and progress evaluation.

Third generation-diagnosis and treatment of MDT

Intelligent treatment advice: treatment opinions, recommendations for similar cases, big data analysis, research platforms.

Self-developed and optimized artificial intelligence model, intelligent interpretation based on TW3 standard for tablets of children ages, accurate scoring results in seconds, automatic generation of structured images, comprehensive growth support and physiological Development evaluations combined with indicators Customizable growth and development reports bring great convenience to clinical diagnostics, education and research.

High stability

Bone age discrepancies were reported to others; interpretation under the large sample test set was always stable.

High precision

Exactly a month, diagnostic adoption rates exceeded 99%; results did not differ statistically from their own experts.

High efficiency

Accurate translation time is reduced to less than 5 seconds, greatly improving work efficiency.

Understand clinical

From bone age to assessment of child growth and development, from imaging to clinical, educational and researchUltimately, up to full link coverage.

Machine vision and deep convolution neural network technology automatically provides mammary gland typing, lesion detection, symptom recognition, and BI-RADS classification. Multi-projection comprehensive analysis and CMR registration algorithms are used to pinpoint lesions accurately and generate structured reports and follow-up recommendations according to medical guidelines. One-stop, high-efficiency AI solution for mammography diagnosis for doctors.

Professional medical accumulation

Internationally authoritative guides, massive quality data, senior medical teams.

Incorporate clinical algorithm innovation

Read stem block images, detect FPN lesions, classify 3D signs.

Comprehensive product features

Gland typing, suspicious lesion detection, sign recognition, BI-RADS classification, structured reports.

Simple and convenient docking solution

No need to worry about system docking, view and approve films,

Based on image 3D reconstruction and volume registration algorithm, use deep convolution neural network technology to intelligently detect and classify glands, detect and characterize lesions, and intelligently lesion according to BI-RADS criteria Classify and diagnose. Create structured reports to greatly improve the efficiency and quality of diagnostics for ultrasound physicians and reduce the risk of missed or misdiagnosed breast ultrasounds.

Efficient image identification

Secondary detection of nodules and masses into organs from image input is achieved for many types of ultrasound images, greatly improving physician efficiency.

Detection of small lesions

Explain the dimensions of structural abnormalities and vascular abundance to help physicians determine the diagnosis.

Low diagnostic failure rate

Automatic detection of small nodules and lumps is effective. This reduces the rate of diagnostic errors due to fatigue.

Accurate grading diagnostics

The differential diagnosis of nodules and masses and the output of BI-RADS / TI-RADS grading reports allow physicians to develop clinical solutions.

Based on machine vision and deep learning technology, intelligently detect acute ischemic lesions on CT / DWI-MR multimodal images, quantify their location, features, lesions, find responsible vessels and combine with clinical information Make clinical decisions. At the second level, professionally required long-term image evaluations are automatically completed, helping physicians accurately determine quality risks and ensuring patient optimization for the first time based on machine vision and deep learning techniques. You can get the best treatment. It is classified as diffuse or localized, cystic or solid, single or multiple, and intelligently grades the lesion, and ultimately produces a structured report, which translates into a physician's reading efficiency And greatly improve the quality. program

Based on natural language processing technology, we will establish scene models such as medical record structure, disease consultation, disease prediction, and serious disease identification, and create a series of auxiliary tools such as AI consultation, AI pre-diagnosis, and AI follow-up. AI solutions for full link after diagnosis and treatment optimize outpatient treatment routes and serve patients, physicians, and hospitals.

Patient questions and answers using diagnostic and treatment logic

Increase awareness of illness, reduce ineffective treatment, and reduce waste of time.

Doctors-high-precision medical advice

Establish hospital brand, improve patient satisfaction, standardize the path of diagnosis and treatment

Hospital-Intelligent Matching of Doctoral Language Systems

Avoid misdiagnosis and missed diagnoses, reduce inefficient work, and recruit quality patients.

イ ン テ リ ジ ェ ン ト Lung cancer multidisciplinary intelligent diagnostic system

Based on deep learning and natural language processing technology, disease risk prediction models are built based on genetic factors, lifestyle and environmental risks, and integrated and structured results of clinical tests, multimodal imaging, tumor markers and genetic tests Have been. Comprehensive patient diagnosis is combined with medically reliable guidelines to provide effective and effective support for physician diagnosis.

Nodule screening and above

Completely cover the signs associated with lung cancer.

More than a simple model

The diagnosis follows a multidisciplinary medical guide and is located near the doctor's head.

More than image interpretation

Comprehensive diagnosis based on multimodal full cycle clinical information.

More than serving top hospitals

Help improve the quality of healthcare resources to reduce and improve primary healthcare services.

Intelligent multi-modal image quality control system

Dramatically improve hospitals based on deep convolutional neural networks and multiple optimization techniques, intelligent quality assessment of multimodal images, second-level output image quality assessment scores, instant call support, automatic management, and statistical analysis of quality control results To do. The efficiency of operation and management of the radiology department realizes networking, automation, and standardization of medical image quality management.

Automatic patient identification

Automatic identification of patient IDs and verification of patient information integrity by checking with RIS system.

Screening of data statistics and quality control indicators

Statistics of number of shots, statistics of uncertified scores, distribution of ratings.

Automatic scoring of image data quality

Whether the image sequence and scan range are perfect, the location of the examination and the position of the camera are correct, the image contrast is clear and the level is clear, and there are artifacts and device artifacts.

Reading and managing images

Loading, viewing, zooming, panning, window width adjustment windows for DICOM images, labeling and re-uploading of uncertified film, classifying and collecting images, uploading and retrieving manual evaluations.

With a profound technical background and world-leading algorithms, it is one of the earliest companies in China to research and commercialize deep learning algorithms.

Etu, as a leading financial services AI service provider, specializes in integrating real business scenario requirements with existing mature products, completing custom development to meet the needs of financial industry customers, Resolve points and leave the technical service business. Innovation, advancement of business feedback technology.

The company's proprietary financial industry solutions cover a variety of financial areas, including banking, internet finance, securities, funds, insurance, and auto finance. According to the map, each segment offers a complete smart financial solution, combined with user scenarios.

According to the photos, it has undergone a disruptive innovation in the financial field, and has conducted "painting and withdrawal" research and development at many banks, such as China Merchants Bank and Agricultural Bank, and has put it into widespread practical use. According to the photos, top-notch facial recognition technology, combined with a variety of financial business scenarios, offers innovative solutions to address the urgent needs of the financial industry for services and security.

Brush surface recovery solution

The company's proprietary binocular in-vivo detection facial recognition system has been applied to ATMs at many banks, including China Merchants Bank and Agricultural Bank, to provide users with cardless withdrawal services with identity verification and self-service. Useful for monitoring device status. Under the safety function of pulling out the brush surface.

The overall process is short, with good experience and security. The biometric detection software provided by the map can be adapted to any environment and users of different heights. Using in vivo detection software, the system can detect if it is a living organism in a different environment. For users who intentionally face the face, intentionally block the face, wear sunglasses, or wear a mask, the system uses face forgery, bypassing face recognition systems, and face recognition. Give hints to avoid using other means such as full warranty. Pictures of the system were collected from real faces.

Several common attack methods are known, such as electronic screen attacks, photo print attacks, and mask attacks. According to the graph algorithm, when the passing rate of the real person reaches 96%, the abnormal situation exclusion rate reaches 99% to 99.99%, which is very high. Detection accuracy ensures the system's anti-attack capability.

Intelligent network solution

Intelligent Network Point System can realize video surveillance and intelligent analysis of passenger data under offline network scene, based on front-end capture camera and background public cloud.

Video surveillance: Supports real-time store monitoring through multiple platforms in different network environments, allowing you to check the status of your store at any time.

Identification: Based on face recognition, the registered members of the store can realize frequent customer information based on data mining algorithm to realize automatic reminding function and accurate marketing, and to promote sales promotion You.

Large data: Automatically and accurately counts passenger flow information based on facial recognition functions, assists merchants in easily grasping passenger flow trends and changing rules, and marketing strategies accordingly. Adjust and adjust.

Store management: For multiple stores, the headquarters automatically aggregates data for each store, supports data aggregation for all stores, performs fully automatic management and analysis, says goodbye to manual entry, and manages data management. Increase efficiency and accuracy.

Remote nucleus solution

The mobile phone face verification SDK provides live detection, face 1v1 comparison, and verification of three functions of ID card OCR.

(5) In-vivo detection function: A series of designated operations are performed by the applicant to detect the identity of the subject. This algorithm can effectively prevent static photo attacks, 3D mask attacks, dynamic screen attacks, and mixed human attacks, and it runs smoothly. The user experience is good.

Face 1v1 comparison function: Uploads portrait photos taken on the SDK side of the mobile phone to the cloud platform, compares the captured photos with the registered photos, and finally returns the comparison result to the user side. This algorithm is suitable for handling complex scenes such as dimly lit places and accessories, and maintains a high pass rate with a low false alarm rate.

 ID card OCR function: Used to identify all information on the ID card surface. Supports positive / reverse duplex recognition. Efficient and accurate identification of all fields on the ID card, including name, ID number, date of birth, address, ethnicity, gender, issuing authority, and effective date.

Road network condition modeling is the basis for solving traffic problems, vehicle behavior modeling is the key to mastering overall traffic conditions, and macroscopic traffic models are high-fidelity reconstructions of microscopic traffic data. Obtained by

Efficient and accurate road situation simulation prediction algorithms are the key to solving traffic problems, and fast prediction algorithms allow real-time traffic changes to quickly deduct each measure and evaluate the effectiveness of the measures .

Using a fast prediction algorithm, the traffic management strategy of the target area was efficiently iterated, and the optimal strategy was derived based on the evaluation index system of specific target-specific problems.

Consistency strategies, effectiveness assessments, continuous iterations, and optimization adjustments are evaluated.

Medical DNA cell IPS artificial intelligence project-major hospitals in the United States, including Osaka Hospital

Financial credit loan AI prevents fraud, repayment reminder AI system

Supermarket anti-theft AI detection system

Face recognition AI of Japanese police station arrests prisoner system

Researcher (wet experiment)

Planning of wet experiment, launch of experimental system, research involving wet experiment

Wet labStartup experience

Operating experience of wet lab

R & D experience using next-generation sequencers

Bio machine learning related knowledge

Researchers (Drug Discovery / Materials)

Research on methods for material search and drug discovery and development of materials and drugs using them

• Development of methods for searching synthetic routes and reaction routes

• Analysis of compound data

• Data analysis technology using machine learning and statistical tools (NumPy, pandas, scikit-learn, etc.) Deep knowledge and R & D experience mainly in Python chemistry and related areas.

• Computational chemistry experience. In particular, deep knowledge, implementation experience, and usage experience in quantum chemical calculations and molecular dynamics simulations.

• Any computational chemistry software such as GAUSSIAN, VASP, GROMACS.

• Computational chemistry auxiliary tools such as RDKit and Open Babel.

• R & D and dissertation experience in Chemon Informatics and Materials Informatics

• Knowledge and implementation experience related to machine learning and deep learning Knowledge, implementation and usage experience in mathematical optimization, search, numerical calculation, simulation, etc.

• Experience in programming competitions, game AI contests, data analysis contests (such as Kaggle)

• Active discussions with engineers in different fields and companies

• Ability to track and implement the latest dissertation trends

• Have in-depth knowledge and experience in your area of ​​expertise

• Willingness to constantly learn new domain knowledge

 

Machine learning researchers

Research on machine learning (including implementation and experiments) and presentation of the results

• Mentoring and collaborative research on internships at home and abroad

Experience / Skills / Minimum Qualifications

• Knowledge of basic algorithms and frameworks in machine learning

• Software development experience (C / C ++, Python, R, MATLAB, Julia, etc.)

• In-depth knowledge of machine learning and related fields (one strong field such as deep learning, reinforcement learning, statistics, and mathematical optimization)

• First writing of a paper accepted at an international Top-tier conference or journal

• R & D experience in machine learning

• Computer science, mathematics, physics, engineering degrees, achievements or similar.

• Implementation and experimental ability to quickly and accurately perform the experiments required for R & D

• Collaborative research, interest in and application of developed methods

• Active learning and willingness to challenge unresolved issues

Researcher (autonomous driving / planner system)

Researcher (autonomous driving / planner system) Study of planner for self-driving vehicles

R & D experience of robotics (including self-driving cars) using machine learning

• Communicative skills in English or Japanese Excellent publications in related technical fields.

• Experience applying relevant technical fields to real-world problems Programming experience in either C ++ or python

Sports analysis Research and development on sports analysis using machine learning and computer vision

• Experience in R & D or product implementation using machine learning or computer vision

• Have a master's degree in Information Science, Mathematics, Physics, or Engineering or a comparable background and achievements

• Programming ability in Python or C / C ++

• Communication skills in Japanese or English

• Those who can propose new research ideas by flexible ideas

• Be humble and respect the opinions of team members

• Be collaborative and maximize team performance

• Communication skills that can explain the technology in an easy-to-understand manner

Research and development of industrial network infrastructure that realizes real-time communication, high reliability, low delay, low jitter, and low data loss suitable for data communication network researcher manufacturing, factory automation, equipment control systems, vehicle-to-vehicle / road-to-vehicle communication, etc. Research and development of advanced, scalable and resilient computer networks to realize edge heavy computing

Research on communication platform that enables people and things to exchange information autonomously, realizing autonomous distributed operation of machine learning technology and agents

• System programming

• Voluntary research and engineering experience to find and solve problems on their own Basic knowledge of Internet technology

• Voluntary research experience to discover and solve problems by themselves Knowledge and implementation experience of Time Sensitive Networking (TSN) and field networks (EtherCAT etc.) Experience of implementation and operation of wireless communication networks and sensor networking Expert knowledge of operation technology Software Defined Networking (SDN) / Implementation and operation experience related to Software Defined Infrastructure (SDI) and network virtualization

• Programmable network expertise and implementation capabilities Expertise in service quality optimization technologies (congestion control, traffic engineering, etc.) and implementation capabilities Cross-disciplinary knowledge in natural language processing, multimodal communication, sensor actuation technologies, etc. Cutting-edge research achievements (including top conferences) / International technical activities (such as international standardization and other international technical activities (such as international standardization)) Researchers (speech, signals, dialogue, multimodal processing) Design and implement applied technologies for natural communication

Solve real problems in multimodal or physical environment, especially for voice

• Research and development on speech signal processing / speech recognition / speech understanding / spoken dialogue / multimodal processing and related fields

• Excellent paper presentation on speech signal processing, speech recognition, speech understanding, spoken dialogue, natural language processing, and multimodal processing

• Flexibility to use various programming languages ​​and development environments

• Knowledge of peripheral technical fields such as speech synthesis and computer vision

• Experience in applying relevant technical fields to real-world issues

• Achieve the best job as a team

• Actively study various fields such as images and natural language processing as well as audio

Computer vision (robot)

• Develop algorithms for image / video processing engine in computer (robot) vision

• Build a platform that recognizes various environments and obtains spatial information for the robot to operate

• Familiarity with one or more general-purpose programming languages ​​(Python, C ++, etc.)

• Knowledge of basic computer (robot) vision

• Demonstration of strong expertise in one or more of the areas listed under Want. Or a proven track record of good coding skills

• Image and video processing algorithms using deep learning

• Expertise and experience in technology for connecting virtual space and real space, such as positioning technology

• Expertise in optics and practical experience using that knowledge

• Visual SLAM, Visual Odometry, 3D Reconstruction

• Experience and expertise in using industrial cameras, 3D scanners, and various sensor devices

• Simple device prototyping and prototyping

• Persons who can solve problems with flexibility and who can proceed firmly with problem analysis, implementation and evaluation

• Development of Chainer / ChainerMN

• Research on large-scale distributed deep learning

• Deep knowledge of parallel and distributed processing

• Experience in developing programs that perform parallel and distributed processing Experience in software development (C / C ++ language or Python)

• Deep knowledge of deep learning Experience using supercomputers

• Experience in R & D and writing papers in the field of machine learning or parallel distributed processing

• Those who have a desire to conduct the world's first large-scale experiment and aim to be the world's first or the best in the world

• Analysis of biological and medical data (NGS, microarray chips, medical images, etc.)

• Development of biological and medical data analysis software

• Knowledge of biology, about university / graduate degree completion

• Data analysis technology using machine learning / statistical tools (NumPy, pandas, scikit-learn, dplyr, etc.) (Existing members mainly use Python tools, but it is not essential to be proficient in them.)

• Deep learning related knowledge and implementation experience

• R & D and writing papers in the field of bioinformatics

Chainer / Optuna Deep learning framework to be developed) As a member of the development team, perform the following tasks.

• Propose and implement new features-Optimize runtime performance of Chainer / Optuna

• Improved user interface to make Chainer / Optuna easier to use

• Research on the above related fields

• Documentation improvements

• Support for user questions and bug reports

• Experience in software development with Python

• Experience in software development with C ++ 11/14 (for Chainer development)

• Experience developing with a version control system (Git / GitHub is better)

• Degrees in related fields, such as mathematics, computer science, and engineering

• Minimum English skills (offline discussions use Japanese as needed, but source code, documentation, and discussions on GitHub all use English)

• Experience in software development using CUDA

• A deep understanding of the mathematical domain used in deep learning (linear algebra, calculus, probability theory, etc.)

• Experience with development using existing deep learning frameworks

• Experience in contributing to open source projects

• Knowledge of machine learning and deep learning

• Experience in optimizing runtime performance, memory usage, etc.

• Experience in developing or optimizing compilers or tool chains

• Master or PhD in mathematics, computer science, machine learning, or related fields

• Competitive programming and Kaggle experience

• Become the world's fastest and fastest machine learning model generator and accelerate PFN R & D and business

Environment-aware robotics

Python, Tensorflow (software library), C ++

Node.js (asynchronous event driven JavaScript environment)

wxPython (GUI creation tool), YOLO (Real-time object recognition)

Darknet (neural network environment), Keras (neural network library)

OpenCV (image processing library), Docker (virtualization), R

pytorch (deep learning framework), Jupyter (data analysis tool)

ROS (Robot Operationg System)

Anaconda (package for data science)

MobileNet (neural network for mobile applications)

Gazebo (simulator), mapviz (2D data visualization)

GAN (hostile generation network), htk (HMM learning tool for voice)

Julius (speech recognition engine), sequitur g2p (scribed phoneme conversion)

Picogw (home gateway app)

echonet-lite (communication protocol to realize smart house)

MoekadenRoom (virtual smart house)

GitHub (development platform), ONNX (open format)

Annotations, CNTK (Microsoft Deep Learning Library)

Raspberry Pi, Orange Pi Zero Plus, GPU (arithmetic unit)

Arduino (AVR microcomputer), FPGA (semiconductor IC)

Movidius (Developed for DeepLearningtool)

• Research and development of robot recognition software

• Design, prototype, build, and test recognition systems using multiple sensors, such as lidar and RGB-D cameras

• Research and development of automatic robot environment modeling algorithm considering human safety

• Create ROS recognition module

• Assess the quality and reliability of the recognition system

• Create end-user documentation

• Research and development of robot recognition software

• Design, prototype, build, and test recognition systems using multiple sensors, such as lidar and RGB-D cameras

• Research and development of automatic robot environment modeling algorithm considering human safety

• Create ROS recognition module

• Assess the quality and reliability of the recognition system

• Create end-user documentation

• Experience with Ensenso camera system

• Experience deploying end-user products

• Experience developing applications related to human safety

• Agile / Scrum experience

• Knowledge of deep learning for computer vision

• Designing environment visualization tools for end users

Factory automation

Development and implementation of a method to efficiently solve factory automation problems using an approach based on machine learning and data analysis

• Familiarity with one or more programming languages

• Basic knowledge of machine learning

• Basic computer science knowledge

• Experience in development and implementation in the field of factory automation

• Experience and ability to identify and define issues from real-world settings

• Experience applying relevant technology areas to real-world issues

• Computer vision knowledge and development experience

• System development experience for industrial robots

• Deep learning algorithm development and implementation experience / high coding skills

• Technical communication skills

• Those who can properly set issues from the understanding of potential needs

• Active attitude to learn domain knowledge

HPC Application Developer

• Development of compilers and compiler optimization technology for accelerators employing proprietary architecture

• High-performance and distributed parallel implementation of deep learning and other scientific computing applications on the accelerator

• Familiarity with one or more general-purpose programming languages

• Basic knowledge of computer architecture

• Compiler (especially optimization backend) development experience

• Experience in optimizing some scientific computing applications at the assembly level.

• Experience of distributed parallel implementation using MPI etc.

• Experience with large-scale (100 parallel ~) calculations using a supercomputer

• In order to be involved in future processor development as well as optimization for existing processors, someone who has the flexibility to understand the processor development process and provide appropriate feedback to processor development is needed.

Infrastructure (software)

As an administrator of the in-house engineering environment, operation and R & D of the in-house environment including the largest GPU cluster in Japan Operation and R & D of the GPU cluster and task scheduler

• Operation and maintenance of development environment for internal members

• Identity management on GPU cluster

• Operation, research and development of log and metrics collection and analysis platform

• Operation and improvement of Web system

• Experience using Ansible, Chef, etc.

• Linux server account management experience

• Multi-person software development experience

• Experience operating many servers in an on-premises environment, or experience operating systems on public clouds such as AWS, GCP, and Azure.

• Experience in operational development as an SRE

• Experience operating large systems

• Deep understanding of Docker and Kubernetes

• Knowledge of distributed systems

• Outstanding security technology knowledge

• Ongoing contributions to OSS

• Conference experience

• Deep understanding of machine learning and deep learning

• Business level English conversation skills

Research and development of efficient job scheduler and algorithm for ML cluster middleware / machine learning

• Research and development of systems and tools useful for researchers

• Operation of the above system

• Experience deploying and automating operations

• Cloud service operation experience

• Experience in developing and operating microservices

• 3 years or equivalent software development experience (Go, Scala, Python, etc.)

• Development and operation experience and knowledge of Kubernetes and Kubeflow

• Hadoop cluster operation experience and knowledge

• Contribution experience to OSS

• Sensitive to the latest technology and related industry trends

• Investigate and respond to problems while collaborating with others

• Continuous improvement and redundant work can be automated

• Active contribution to OSS

Personal robot / vision

• Development of image and video processing engine for personal robots

• Build an efficient teacher data collection platform

• Familiarity with one or more general-purpose programming languages ​​(Python, C ++, etc.)

• Basic computer science knowledge

• Demonstration of high expertise in one or more of the areas listed under Desired Experiences / Skills. Or a proven track record of good coding skills

Strong expertise and practical experience in the following areas:

• Image and video processing algorithms using deep learning

• Large-scale data collection and management for machine learning

• Game engines such as Unity and Unreal Engine

• VR / AR / MR application

• 3D computer graphics

• Visual SLAM, Visual Odometry, 3D Reconstruction

• Experience and expertise in measuring instruments such as industrial cameras, 3D scanners, and motion capture

• Simple device prototyping and prototyping

• Positive for team development

• I like learning new technologies

• Have the ideas and implementation skills to apply cutting-edge technologies, such as deep learning, to real-world problems

• Interested in creating datasets on their own, and sometimes able to get rid of dirty jobs

Robotics Engineer Research and development of robots using machine learning, or research and development of robot motion control / Experience in R & D on robots

• Programming ability using Python and C ++ Experience in developing and implementing machine learning algorithms, or experience in developing and implementing robot motion control / experience in developing and implementing algorithms for deep learning. Applying related technical fields to real-world problems. Have sufficient development experience in related technical fields

• ROS experience

Robot products

• Development of safety related hardware / software for industrial robot applications

• Design and conduct quality / safety / reliability tests

• Deployment, service and support of robot applications on the consumer side

• Creation of guidelines for installation / operation

• Related to robot safety standards

• Experience in servicing and supporting robot applications

• Practical knowledge of product liability

• Quality control system experience

• Experience writing end-user documentation

• Experience of ISO10218-1, ISO10218-2

• Product life cycle management

• Experience in manufacturing, retail, logistics, purchasing and e-commerce.

• Product certification

Robot system UI / UX designer

• Development of GUI and control panel for robot system

• Research and development of HCI hardware and software

• Create end-user documentation

• 3 years experience in GUI design / programming

• Familiarity with C ++ and Python

• Computer vision tools such as OpenCV, PCL, Open3D, numpy

• Robot system experience

• ROS experience

Vision system

• Requirements, optimization, standardization and deployment of computer vision systems

• Research and development of new hardware / software for computer vision systems

• Create a ROS-compatible module for computer vision

• Evaluation of the quality / reliability of computer vision systems

• Computer vision system lighting system design, prototyping and construction

• Create end-user documentation

• Work experience in RGB-D camera technology

• Familiarity with C ++ and Python

• Basic knowledge of ROS

• Computer vision tools such as OpenCV, PCL, Open3D, numpy

• Experience with Ensenso camera system

• Experience deploying end-user products

• Agile / Scrum experience 3D CAD,

• 3D printing, prototyping TensorRT / ONNX

• Knowledge of deep learning for computer vision

• Design and construction of lighting systems for computer vision

• Electrical engineering

VR / AR engineer

Research and development of interface between human and computer / robot using VR / AR

Other VR / AR application R & D

Practical experience with developing VR / AR apps

• Practical experience with designing UI and UX using VR / AR

• Outstanding results in related technical fields (SIGGRAPH, CHI, UIST, etc.)

• Experience in application to real-world problems in related technical fields Experience in developing applications using devices such as cameras, depth sensors, and microphones Experience in development using Unreal Engine Experience in development teams using 3D APIs such as OpenGL or DirectX The latest technology that can come up with many ideas that can quickly create a positive mockup for development, the willingness to actively learn technologies other than VR / AR related technologies that are catching up on topics

• Medical image analysis

• Development and commercialization of medical image diagnosis support software utilizing machine learning and deep learning

• Development of technology for integrated analysis of image information, clinical information, and omics data

• Basic knowledge of computer vision

• Experience in application research and development using machine learning and deep learning

• Programming skills (eg, Python, C / C ++)

• Knowledge of life sciences (medicine / pharmacy / biology / bioinformatics, etc.) at university / graduate school level

• Image / video research and development experience

• Writing experience in life science / mathematics / information engineering

• Experience using deep learning frameworks (eg Chainer, TensorFlow, Keras, PyTorch, MXNet)

• Work properly with physicians and other non-engineers

Engineer (visual inspection solution)

PFN develops visual inspection solutions using deep learning.

In product development work, in addition to incorporating the machine learning engine created with the research and development team into the product, it is necessary to generate stable code as a product including testing. You also need to consider everything from the design phase to packaging, system integration, operation, and support.

Main business activities of product development:

• Commercialization of R & D products (unification of I / F, quality improvement by refactoring, rebuilding according to the situation)

• Planning and implementation of libraries useful for customer issues

• Product / service operation support

• Product introduction support

 

Visual inspection solutions have the following skills: Recruited engineers.

• As a software engineer, develop products for visual inspection solutions

• Implement and review code to ensure product quality through continuous integration

• Write product documentation

• Automate product release management processes, such as creating on-premises packages and deploying to the cloud

• Solve customer and partner issues through negotiations with sales and technology partners

• Perform PoC using actual data and feed back requirements to products

• Involve customers / partners in product specifications and delivery dates, determine product specifications and delivery dates, and carry out development

• Quickly implement and evaluate product prototypes using the latest image recognition algorithms

• Knowledge of project management

• Familiarity with general-purpose programming languages ​​(C ++, Ruby, Python, JavaScript, etc.)

• Docker experience

• Experience using configuration management tools such as Ansible, Chef, and Puppet.

• Continuous integration / delivery experience

• Agile development experience (scrum master / product manager, etc.)

• Masters and PhDs in Computer Science

• Good programming knowledge of C, C ++, Ruby, Python, Go, Java, Scala, Lua, CUDA, or JavaScript (knowledge of other programming languages ​​is also welcome)

• Software development capabilities in UNIX / Linux or Windows environments

• Software development experience in Visual Studio (C ++, C #)

• Experience with front-end development using various UI Toolkits (UWP, Win32, Electron, GTK, Qt, Android, iPhone)

• Experience using machine learning / deep learning tools or libraries

• Experience using data analysis tools and data visualization tools

• Troubleshooting and debugging experience

• Development of software using image processing technology such as OpenCV

• Being able to go beyond the role to the market and have close dialogue with customers / partners

• Move your hands to do a lot of prototyping using the latest technology

Development and operation of physical infrastructure / computation infrastructure for large-scale distributed deep learning

• Development and operation of our own high-speed computing platform and high-speed storage platform using advanced technology

• Have curiosity in various fields and have extensive implementation capabilities.

• Flexibility in various infrastructure technologies and application technologies.

• Ability to show any of the following development experience and knowledge.

– Development, construction and operation experience of large-scale high-speed computing platform using GPU etc.

– Experience in developing, building and operating Software Defined Storage or High Speed ​​Storage

– Software Defined Network development, construction and operation experience

– Experience building and operating data center facilities

– Experience in designing and operating large-scale systems, especially in monitoring design

– Other experience in planning and operating large-scale special clusters

• Deep knowledge and experience in specific fields

• First person knowledge and action skills from planning to development and operation

• Ability to coordinate between multiple projects

• Development experience using machine learning

• Cloud or hosting service operation experience

Machine learning practical application / optimization / data science Development of a method to efficiently solve problems in various industries and fields using machine learning and data analysis approaches

• Research and development on hyperparameter optimization, architecture search, feature engineering, etc. for automation of machine learning pipeline

• Investigate R & D trends and implement and follow-up on the latest methods

Industry example: semiconductor industry, energy industry, automobile industry, production equipment, retail etc.

Keywords: time series prediction, abnormality detection, optimization, control, physical simulation, data assimilation, etc.

• Familiarity with programming languages

• Basic knowledge of machine learning and computer science

• Have deep knowledge and experience in your field of expertise, or have high coding skills Basic knowledge of Linux (Bash, Shell command, etc.)

• Basic knowledge of version control tools (git etc.)

• Familiarity with Python programming

• Not limited to deep learning Deep knowledge of machine learning in general Not limited to Chainer, implementation experience using deep learning framework

• Expertise and implementation experience in algorithms other than machine learning

• Knowledge and experience in mathematical optimization, OR, search, numerical calculation, simulation, etc.

• Experience of using machine learning to solve various practical problems.

• Achievements and experience in programming competitions and data analysis contests (such as Kaggle)

• Able to use real-world problems by using various techniques in various fields.

• Actively discuss with engineers from other industries or companies who have domain knowledge in various fields or have the ability to learn.

• Ability to track and implement the latest papers

 

2009.01-2011.03 Mitsui & Co., Ltd.

Position: Technical Director / Vice President / Project Manager / Accounting & BI Consultant, ERP Consulting, IFRS Compliance Consultant, etc.

Report target: Manager

Number of subordinates: 30

Responsibilities:

Mitsui's basic system SAP ERP project SAP SAP consultant FI / CO and SAP-BW, SAP-BI / BO module charge, Global International Accounting Standards, IFRS (International Financial Reporting Standards) consultant charge

Level of achievement:

1. In charge of building a project team, form a united and efficient team and stimulate the enthusiasm of subordinates (from 10 to 50 people)

Responsible for project schedule, quality and cost range management and management, technical guidance and training

2. Recognized by customers and companies (Excellent Project Team and Excellent Project Manager Individual Award)

Project name

Sharing project examples

2009.04-2015.3 Mitsui & Co. Infrastructure System SAP ECC 7.0 Project in Japan (Japan)

Project Description: Mitsui's project implements FSCM, FI / CO, SD, WF MM, BW modules and more than 20 branches. SAP SAP / CO project manager / advisor, IFRS compliant project manager / advisor, SAP BI / BW project manager / advisor

Project Responsibilities

1. Communicate with customers and effectively understand their needs

2. Deeply understand and optimize customer workflow, improve editing workflow, and explain people

3. Complete the blueprint and customer requirements and configure the system (FICO section)

4.Complete system configuration ECC6.0 system test and complete test script

5. Data conversion

6. Provide training to customers in connection with FI / CO

 -FICO module consultant in the first phase of the project, combining business personnel and business processes of finance department, planning business blueprint, configuring FICO module function of system according to business blueprint, and responding Responsible for performing secondary development. This system provides module and integration testing, as well as development, training and support for business end users.

Participate in the online implementation process of the FICO module system, create reports and forms, develop dynamic and static data, import programs, and maintain the system after going online. Project Implementation As a project manager, organizing and implementing FICO modules throughout the project includes: General Ledger, Accounts Receivable, Accounts Payable, Down Payment, Down Payment, Fixed Assets, Special Purpose Ledger, Cost Center Accounting, Overhead, Manufacturing Cost Planning Standard Cost Estimation, Material Account Accounting, Manufacturing Order Accounting, Consolidation Report, Report Painter, Report Writer , Drilldown report, ABAP, and integration with SD, PP, MM modules. Person responsible for SAP FICO part (General Ledger \ Accounts Receivable \ Payables \ Advance \ Fixed Asset Accounting \ Profit Center Accounting \ Production Cost Accounting \ Standard Cost Estimation \ Order Accounting \ Material Account Accounting \ Cost Center Accounting \ Consolidated Report, etc.) \ PP \ MM module integration and ABAP development project work and daily operation and maintenance. Responsible for business optimization, internal training, monthly support, and SAP FICO module related projects.

-IFRS-compliant project manager / advisor

Financial accounting functions, international accounting standards, various aspects of Japanese accounting standards and implementation of accounting standards. IFRS, which corresponds to International Financial Reporting Standards (IFRS), is a joint report GAAP to establish an IFRS Resource Center.

 -Project 2 Consultant SAP-BW / WM / Basis

In a global environment, we work with SAP Sales, Standards Development and other departments to provide solutions, technical support and project implementation to customers in different regions (APJ, EMEA, USA) You. Supports standard development for applications such as MD, MOM, and HCM. Includes standard development, maintenance, and BI report development for SAP Data Warehouse. Responsible for tracking customer system upgrades, coordinating with other working groups to resolve upgrade issues, and redevelopment. You are responsible for analyzing customer needs and providing support to the sales department. 43 Customer Solution Supports have been sent. Provides support for bringing customer systems online. Complete 15 online projects independently. Familiarity with using BW development tools to create comprehensive reports for the enterprise. Authorization management of system personnel and maintenance of basic systems. Responsible for preprocessing data, importing data, designing analysis methods and analyzing results. Create company reports using ABAP. Use BW to create enterprise reports. Human rights management and basic management are imported into SAP NETWEAVER platform, use BW to extract and analyze R3 and other system data and generate reports Integrate business processes using SAP PI7.1 And exchange data between different systems. EJB development and deployment for BPM, PI secondary development

 

AI x blockchain project

AI-based hybrid fraud detection solution (HFDS)

Consumer-based software security

 Bitcoin GMO coin

Crypto Garage develops application development support product "SETTLENET" for blockchain financial operators

[About Liquid Network] https://blockstream.com/liquid/

Network Liquid Network is a payment network that connects cryptocurrency exchanges, market makers, brokers and financial companies around the world. Liquid enables fast, sensitive and secure transfer of Bitcoin and various digital assets between network participants

[About Crypto Garage] https://cryptogarage.co.jp/

活 Activities of blockchain in the automotive industryfor

Special Feature Evolution of Mobility Services CONTENTS

Automotive x blockchain area projects

It is practically impossible to falsify information once recorded using a blockchain. Another feature is that it allows Peer-to-Peer (P2P) transactions because of the decentralized management method. Taking advantage of this feature, it is used for "virtual currency / payment" and "recording / referencing information".

1. In recent years, usage in the automotive industry has been active, and in addition to "virtual currency / payment" and "recording / referencing of information", usage in "service platforms" has been seen. Specific examples of these are expected to be thorough recall guidance, the creation of a healthy used car market, improvement of the convenience of charging services, and lowering of ride-sharing services, and the effects of individual companies or consortiums. It is being worked on.

2. One of the issues facing the introduction of blockchain in the automotive field is the failure of discussions due to lack of understanding of the business domains of both related businesses and blockchain businesses.

3. To solve the problem, it is desirable that the automotive industry side secures human resources and establishes a window that can discuss even proposals at the stage before the prototype can be made, and that the blockchain industry side should be able to make proposals showing the business effects . However, at present it is difficult to realize, so it is necessary to build a relationship that allows for regular communication first by utilizing the support of third parties.

4. SHARE

5. Vegtech and Mitsubishi Research Institute, Inc.

Agriculture and food production / processing / distribution business Food platform business utilizing blockchain technology

KPMG Japan

FinTech blockchain utilization project

In collaboration with K4Digital Corporation (K4D), Fujitsu Limited (Fujitsu), and Repohappi, Inc., we have improved the convenience of the “hae point” service * 2 utilizing blockchain technology * 1 and a point distribution system. Demonstration to reduce costs related to building and operating K4D and centralized management of point distribution data, such as point addition histories and customer point balances, using a system * 3 constructed in collaboration with Fujitsu In addition, in the scheme of adding points (“ぴ e coin” * 4) exclusively for this test to customers who visit the target store, we investigated the convenience of the target store and customers, and the point system Confirm the cost advantage of building and operating the system, and utilize blockchain technology for “e-e-point” service. We would like to verify the effectiveness and acceptability. Target (monitor) * 5 stores (restaurants): Approximately 20 customers using approximately 20 stores and earning "hae coin"

Comprehensive energy business that delivers not only electricity but also gas

* 1: Generally referred to as a distributed ledger, a technology that distributes transaction data and manages it among participants.

* 2: Points are collected according to monthly electricity and gas charges and the use of online shopping, etc., and the points can be used for payment of electricity and gas charges and exchange for points and items of other companies. Is a service for customers who use eMiruden.

* 3: A system that distributes points dedicated to the main test using blockchain technology.

Dentsu International Information Service (ISID Vegetables x Blockchain = Demonstration of Safety and Security / Experiment: Ayamachi, Tokyo) has been conducted since October 2016. Aya-machi established the first ordinance in 1988 nationwide to ban the use of chemical fertilizers and pesticides. We continue agriculture in consideration of natural ecosystem and strictly control production throughout the town. The quality of seeds, soil, water, vegetables, etc. has been left as data.

ISID thinks that Aya-cho's approach to organic farming is compatible with "blockchain"

The block chain manages a certain amount of data on the net as "blocks" and connects them in chronological order like "chains". Transaction history remains in the virtual currency, and this mechanism is used for vegetable production management.

ト レ ー It is possible to build traceability (management of production history) that records exactly where and how vegetables are produced and transported. The record-managed "blockchain vegetables" can be promoted as vegetables that have not been disguised as a production area and have been endorsed as safe and secure.

Blockchain, the core technology of virtual currency. Although the financial world is drawing attention as a mechanism for creating low-cost payment systems, agriculture has begun to be used. Taking advantage of the blockchain feature that it is difficult to falsify recorded data, it is used to certify the quality of vegetables. It is an attempt to create a new measure called "ethical" and add new value to vegetables.

綾 Aya Town, Miyazaki Prefecture. A new experiment has begun in a small town known for its organic produce.

When you read the QR code attached to the vegetables with your smartphone, the screen will show the harvest date, the soil inspection result of the grown field, the fertilizer used, the seed purchaser, the producer name, the location of the farm, etc. as a picture diary with photos Displayed on

Developed an electronic voting application "BCvote" using blockchain technology By building a system using blockchain technology, voters can participate in electronic voting without the intervention of third parties such as voting counters and election officials The voting process can be safely executed and the voting content can be recorded without risk of tampering by a third party. By being able to implement electronic voting safely while reducing the cost, it is possible to promote participation in voting activities more than before.

 

Insurance is a very important tool in transforming risk. Create some auxiliary forms between groups that are originally different. By paying a fixed amount, people translate that risk to insurers for what they can't do and what they don't want to happen. Risk is translated into insurance.

Blockchain is a distributed ledger technology. Because everyone has access and cannot be tampered with or counterfeited, it has the potential to help mankind move toward the concept of "the Internet has value." Blockchain is a fundamental technology that is simple, perfect in design, and can be used everywhere in order for us to move to the next phase of development. Blockchain technology and insurance can be a great complement, given the many aspects of compatibility. Blockchain insurance is a rapidly developing new insurance model and will be an important part of the development of this industry, a revolution in traditional industries.

In recent years, the interplay between the new technology and the insurance industry has begun to restructure the insurance industry based on blockchain and AI technology and build a new insurance ecosystem. We use blockchain to provide technical solutions to all insurance companies and upload insurance business data on the blockchain. You can use the credibility and non-tamperity of the information on the blockchain to solve the problem of authentication. Digital certificates made on the blockchain cannot be changed, deleted, edited or tampered with. Such digital IDs may extend beyond humans to cars, airplanes, and other physical objects.

Next-generation Internet bank GMO Aozora Net Bank

Official site: https://gmo-aozora.com/

GMO Internet and Aozora Bank have jointly launched GMO Aozora Net Bank.

The bank aims to respond to the needs of various customers and will use not only blockchain and AI but also IoT.

By using AI, you can expect significant cost reductions and time savings from tasks that have been done manually.

By using blockchain technology, you can be assured of security.

The highlight of GMO Aozora Bank is that it is possible to trade from a smartphone 24 hours a day, 365 days a year, and that it is possible to use multiple accounts depending on the purpose.

Recommended for those who are dissatisfied with bank fees and short hours of use.

EARNET Solves Affiliate Advertising Issues

Official site: https://earnet.io/

Everything that affects the performance of affiliate advertising today is done by hand.

From confirmation of results to optimization, it is not possible to ensure transparency because of manual work.

EARNET uses blockchain technology to record from the type of result to the date and time of the result so that it cannot be altered.

By using AI technology, it is now possible to accurately determine the effectiveness of affiliate advertising.

Furthermore, by reading and utilizing the used devices and environment in detail, effects that cannot be produced by the conventional mechanism will appear.

EARNET is trying to create a decentralized mechanism, synonymous with blockchain technology, for advertising. The development is being pursued with the aim of creating a platform that directly connects advertisers and users by eliminating intermediate managers.

Utilization of blockchain and AI in medical care

DeepMind, a Google company, has partnered with the UK's National Health Service to launch a new service.

Shortages of doctors and human errors are also a problem in Japan.

DeepMind is researching and developing innovative technologies that solve these two problems.

By letting AI learn the patient's medical records and scans, the disease can be identified without the help of a doctor.

It is expected that the cost of medical treatment will be significantly reduced.

However, it was widely criticized by the public that the UK National Health Service provided DeepMind with large amounts of patient data.

Most people were worried about security.

To address this, DeepMind will use blockchain technology to store patient data usage history

. By maintaining not only the integrity but also the users and methods of use, we succeeded in ensuring transparency.

DateCoin is a service related to everyday life.

DateCoin, which uses blockchain and AI, is related to the dating industry, and accurate identification can create a more active relationship.

I think that there will be more things like DateCoin that improve tastes and hobbies in everyday life in the future.

Isn't the day when blockchain and AI become familiar with our lives?

Blockchain's natural enemy: quantum computers

A blockchain that is famous for being used in cryptocurrencies. Ledger management and transaction authentication are achieved by users who are distributed and recorded and approved by users rather than by specific administrators or servers, which means that security is maintained.

But scientists say that a rapidly growing quantum computer may gain the ability to break that mechanic in the near future, alarming that the security of the blockchain will be threatened.

Any computer that uses public key cryptography can be a quantum computer, but the one that is particularly dangerous is the blockchain.

For example, in a bank, there are human tellers, cash cards, ATMs, etc., but the blockchain is completely anonymous, and only public key cryptography protects it. You need to be a human to use a bank, but you don't have to be a human to use a blockchain.

Conventional computers can multiply huge prime numbers in an instant, but it takes time to factor those huge numbers without correct information. To put it simply, digital signatures that use public key cryptography make use of it to create "ciphers that are easy to create on a computer but difficult to decipher."

However, quantum computers can not only create AI and model chemical interactions, but also can perform factorization at a speed that is incomparable with conventional computers. Proactive, with a big picture, deep technical background, strong coding and system analysis skills, familiar with C / C ++ / JAVA, Python, and other mainstream architectures and designs Patterns; Database theory, analysis and code creation familiar with distributed computing and cloud computing related technical theory, strong architecture and design experience, deep research and understanding of existing Internet of Things and artificial intelligence technologies Familiar with debugging and debugging, large database development architecture and operation; excellent communication skills, logical thinking ability, teamwork spirit; passion for work, able to work independently, constant R & D work that can undertake the strength, culture and development of company start-ups, the Internet With a full understanding of the needs of products and network users, he has the spirit of cutting-edge unknown exploration and the courage and ability to solve problems in unknown fields. In the project. Develop strategic development directions for your company's distribution center and plan implementation steps. With over 15 years of management experience in public security, government operations, and transportation software distribution projects, is familiar with building and distributing various systems, platforms, and websites in the industry, and has excellent project management capabilities . Get PMP / IMPM certified, integrate existing delivery service resources with software development project management capabilities, coordinate company daily work arrangements and project management, follow up, under construction, already built, software Arrange landing and related work to facilitate project follow-up, complete confirmation of project quality and acceptance during construction, maintain customer relationships for existing projects, extend project efforts, review project schedule, project overview Confirmation, monitoring and guiding the implementation and acceptance of all software distribution projects, successful completion of the project; targeting customer service, responsible for building group methodology, continually optimizing and implementing group project execution Promote and manage the delivery technology team And, do a good job of overall growth of talent, to establish a distribution purpose to build a hierarchy of talent, team training, motivation of the evaluation, performance improvement teams work of the team. Evaluate products independently with product analysis and data analysis functions

Chief Technology Officer CTO

Reported on: President | Subordinates: 1500 | Region: Japan | Department: IT IOT

Duties and Performance: Cloud Computing Big Data Blockchain Artificial Intelligence Global Leader

2011.03-Present NTT DATA Corporation

Position: CTO / CIO / CIO Minister Level

Report target: President

Number of subordinates: 1300

Responsibilities:

35 years of experience in ERP consulting, cloud technology, big data, blockchain, AI machine learning, especially deep learning

Performance:

1. Take full responsibility for building the project team, establish a unified and efficient team and stimulate the work enthusiasm (10-150 people).

Responsible for managing and managing project progress, quality and cost range, technical guidance and training

2. Received commendations from customers of Toyota and NTTDATA (Excellent Project Team and Excellent Project Manager Individual Award)

3. Technical cooperation with MIT, Harvard University, University of Tokyo and other universities, technical cooperation with Mitsubishi, NTTDATA Financial Research Institute, financial institutions and government agencies in Japan, deep artificial intelligence theory for artificial intelligence core technology team Team responsible for establishing a strategic foundation

 

2011.05-2012.06 Returnees returned and settled in Nanjing Zishan, the excellent returnees promoted Internet of Things cloud technology for over a year and then returned to Japan.

Research direction:

Multimedia technology, computer vision, natural language learning, etc.

Department:

NTTDATA Key Laboratory for Intelligent Information

 

project:

Sharing project cases

2011.03-Current Toyota Intelligent Vehicle Autonomous Driving Technology in Japan and Softbank Artificial Intelligence Technology Implementation Project in Japan (Japan) Toyota Motor SAP Implementation Project in Japan

Project introduction: AI machine learning, especially in the field of deep learning and other artificial intelligence In the automotive industry, autonomous driving technology and artificial intelligence skills are being promoted in other industries Machine learning, artificial intelligence, data mining, information retrieval, natural language Realization of relevant technical and algorithmic skills in processing, speech recognition, image processing and other fields. SAP Import Project SAP Consultant / PM

Cooperate with NVIDIA's artificial intelligence (AI) chip autonomous driving team and cooperate with IBMAI technology team to import Mitsubishi, Honda, Suzuki, etc.

Working with Cambridge University in the UK

Mazda Autonomous Driving Technology / R & D Project

EY Consulting and Consulting SAP leonardo × Blockchain project

Global SAP Leonardo Consultant x Blockchain / PM

Mazda Motor Corporation Autonomous driving technology / R & D / PM

Development of Integrated Control System>

◎ Electronic platform technology / development / design

Vehicle electrical system development and architecture design,

Hardware development for automotive ECUs (function / manufacturing requirements design)

◎ Infotainment • UI area / early stage-product development

Development of automotive infotainment systems (new-generation automotive connection systems)

◎ ADAS, vehicle field / early stage-product development

Vehicle safety control development, vehicle control ECU hardware, software development, etc.

◎ MBD support / Operating system / Development

Simulation supports model-based vehicle development (including HEV and EV)

Operating system design and development

◎ Autonomous driving technology / R & D

Image analysis, machine learning (DL / reinforcement learning), image and distance sensor signal processing, new map development etc.

◎ Research fields centered on humans / Development of existing technologies

Build hypotheses about human characteristics, verify experimental designs, build measurement methods, etc.

<Powertrain development area>

◎ Inverter development / EV / PHEV control

Hydraulic control design / experimental study of next-generation automatic transmission

◎ Driving / Environmental Performance / Development

Development of driving force control and driving experiment / measurement

◎ Engine xEV / Control development

CEO 1. Full responsibility for building project team, establishing a unified and efficient team, responsible for project progress, quality and cost range management and management, technical guidance and training (10 ~ 350 Stimulate the enthusiasm of the person).

2. Received Excellence Awards from TOYODA customers and NTTDATA (Excellent Project Team and Individual Project Manager Individual Award).

3. Team responsible for technical cooperation with MIT, Harvard University, University of Tokyo and other universities, technical cooperation with Mitsubishi, NTTDATA Financial Research Institute, financial institutions and governments of the Bank of Japan, and establishing a deep foundation of artificial intelligence theory foundation

4. Research direction: multimedia technology, computer vision, natural language learning, etc.

Significant project experience

Driverless

1.2012 / 08- Current Japanese Toyota Smart Car Autonomous Driving Technology and Japanese Softbank Artificial Intelligence Technology Implementation Project

2. Collaborate with NVIDIA's artificial intelligence (AI) chip autonomous driving team

3. Cooperation with Cambridge University Research Institute

4.Mazda Autonomous Driving Technology / R & D Project

5. Participate in the development of unmanned projects such as Baidu, Momenta, Tucson

6. Tianjin FAW introduced intelligent project

7. Cooperate with IBM AI technology team to import Mitsubishi, Honda, Suzuki, etc. at the same time

8. Development of integrated control system

◎ Electronic platform technology / development / design: vehicle electrical system development and architecture design, vehicle ECU hardware development (function / manufacturing requirement design)

◎ Infotainment / UI area / Initial product development: Development of in-vehicle infotainment system (new generation car connection system)

◎ ADAS, vehicle field / initial product development: vehicle safety control development, on-board control ECU hardware, software development, etc.

◎ MBD Support / Operating System / Development: Simulation supports model-based vehicle development (including HEV and EV), operating system design and development, etc.

◎ Autonomous driving technology / R & D: image analysis, machine learning (DL / reinforcement learning), image and distance sensor signal processing, new map development

◎ Human-oriented research field / existing technology development: hypothesis construction of human characteristics, verification experiment plan, measurement method construction work, etc.

9. Transmission system development field

◎ EV / PHEV inverter / control development: hydraulic control design / experimental research on next-generation automatic transmissions

◎ Driving / environmental performance / development: Development of driving force control and driving experiment / measurement work

◎ Engine / xEV / Control development: Design of electronic control system and control model of engine or development / design of software / hardware

10.Autonomous driving technology

◎ Familiar with vehicle-level embedded architecture and familiar with artificial intelligence technologies such as pattern recognition, machine vision, deep learning, and path search.

Linux or QNX development environment familiar with C / C ++, Python language, Matlab, Qt, ROS and other development tools have experience in developing autonomous driving system products as a leading person.

◎ Familiar with high precision map element types and accuracy requirements of autonomous driving, master laser point cloud filtering, map feature extraction, map construction, and other algorithms. Familiar with languages ​​such as C / C ++ and development tools such as OpenCL, PCL, Linux or QNX development environment. Basic principles such as satellite navigation, differential positioning, inertial navigation, proficiency in mainstream integrated navigation systems, and mastering algorithms related to trajectory estimation of moving objects

◎ Familiar with development tools such as C / C ++, Matlab, Qt, ROS, and languages ​​such as Linux or QNX development.

◎ Responsible for selecting, deploying, calibrating and testing integrated navigation systems in cars and base stations, and responsible for integrated navigation systems

 

2019.07-HOC Intelligent Technology-Alibaba Group CEO

Company Nature: Domestic Investment | Company Size: Over 300 | Company Industry: Computer Software Government Supports High Tech Companies

Company profile: cutting-edge technology company

AlibabaGroup

HOC Intelligent Technology Nanjing Co., Ltd. is a full member of JSAI Artificial Intelligence Association in Gangbuk New District Software Park, an IEEE member, a SIGIR member, a member of CAAI China Artificial Intelligence Association, and a member of AAA1 International Artificial Intelligence Association. Members of the ACM Commissioner in the UK for Artificial Intelligence: Key areas of research include ERP consulting, cloud technology, big data, blockchain, artificial intelligence experts, computer vision, multimedia technology and machine learning. 1500467240@qq.com

 

AI, IoT, RPA, OCR-AI, ERP, cloud, big data, blockchain, ICT, 5G, 3D, AR, VR, iCLIP, core industrial software, smart chip, smart driving, core algorithm, neutrino, quantum artificial intelligence And other cutting-edge technologies. Government / Local Government, Education / Medical / Healthcare, Finance, Manufacturing, Logistics, Telecommunications / Broadcasting, Construction / Real Estate, Electricity / Gas / Water, Network, Pharmaceuticals, Agriculture, Retail, Manufacturing, Transport, Sports, Aerospace, Advertising , IOT, ICT and other industries. AI Reporter Sports IntelligenceAfter the information reform, a team of about 1,000 people was formed, including application system development, architecture and operations. Maintenance and other features. With the transition from home developers to service providers supporting cities, diversified business strategies have raised higher requirements for business-to-business integration, customer resource connectivity, and building information systems. Digitization improves the operational efficiency of existing core businesses and enhances the customer experience. Meanwhile, he looks forward to establishing a strong foundational platform for multi-format development through digitization and helping urban embryo service providers realize their strategic vision. In this connection, a "fertile soil program" was created to facilitate Vanke's digital transformation. Phased development achieved through two years of development with the help of group management, experts in various functional divisions, leading business backbones, excellent partners and technology elites of technology companies Was. In the future, we will use new technologies such as big data, cloud computing, AI, and the Internet of Things to boost and manage technology, creating a `` user-centric technology-enabled business and creating true value. '' We will continue to follow the principles. Lubricants help maintain an industry-leading position.

The R & D team, founded by the SAIC Foundation, comprises top AI application technology experts in China, the United States, the United Kingdom and Japan. He has successfully developed and built deep learning training platforms, distributed data storage, global supercomputing centers, and edge computing products. We have gathered more than 30,000 AI developers and enthusiasts from the technology community and other projects, as well as major universities and businesses around the world. Initiated the internationalization process, irradiating the United States and other European countries, with the U.S. subsidiary at the core, and leveraging the regional advantages of U.K. and Singapore subsidiaries and Hong Kong subsidiaries to provide Southeast Asia such as Taiwan, Malaysia, Indonesia and Thailand Promote market development. Globalization. Qualified as "National Planning Layout Major Software Company", AAA Level Credit Company in China, A Level Company with Tax Credit, Top 10 Innovative Software Companies in China-Professional Products, Perfect Service, Scientific Guanglian has earned the trust of the media and society, earning management qualifications and titles, being highly acclaimed by customers and the industry, and continuing to fulfill its social responsibilities.

 

A distributed AI model training platform based on a supercomputing network. Provide AI developers with unlimited expansion of GPU computing resources for deep learning model training. Supports TensorFlow, Keras, Pytorch, MXNnet and other frameworks and can be used directly. Supercomputing Network is a faster and more secure distributed data storage service based on a point-to-point distributed file storage protocol. 10G storage provides a one-stop solution for storage and management development needs. A multifunctional supercomputing server based on a supercomputing network. Compatible with the Super Computing Cluster SDK, equipped with a deep learning ring development kit and environment, it can provide high-strength parallel computing functions.

It is noteworthy that the SAIC Foundation is a technology-based foundation for global AI developers and enthusiasts, a Microsoft Silver Partner, and a Silver Member of the Linux Foundation. (This article only shows the Chain De App.) In the future of the blockchain era of AI, IOT, 5G, and digital architecture, computing power is a fundamental energy. Computing-powered commercial platforms with distributed capabilities and edge computing logic have significant commercial value. At the same time, a distributed computing power tool platform that is accurate and perpendicular to AI application development scenarios has huge space for small holes, making it easier to realize large-scale commercial system services and seize the first chance .

 

HOC Intelligent Technology's main business is to provide independent third-party intelligent decision risk control services to financial institutions based on artificial intelligence technology, developing credit assessment algorithms for small and small businesses By doing so, we promise fast and accurate assistance from banks and other financial institutions. Local services for high-quality small and small businesses with urgent capital needs. Dr. Honghong Yu has extensive experience in credit assessment of SMEs and individuals based on artificial intelligence technology, and is the founder and leader of the ZestFinance model group, co-founder and chief risk officer of Turbo Financial Group, and at IDG Capital. did. Kabbage's Chief Scientist, a resident entrepreneur and investment consultant, focuses on R & D in small business credit valuation.

 

Anti-cancer 'magic drug' signed research collaboration with Enze Hospital in anti Jiangsu Randy Wayne Shekman, world-leading scientist, 2013 Nobel Prize in Physiology or Medicine, a famous American cell biologist Enze Hospital, National Academy of Sciences, Taizhou Pharmaceutical Company http://www.enzemed.com/jtjs/index.html

https://www.blog.google/products/pixel/new-features-pixel4/Huawei is now able to use Google technology, and Huawei and Kniuqiao have signed a contract.

Harbin Bridge is a team primarily based in the United States and United Kingdom, and Google technology is one of the team's core cores. https://www.nikkei.com/article/DGXMZO48438220Z00C19A8MM8000/

https://www.liverpoolfc.com/British Liverpool team signs smart sports

Japan's asteroid space exploration AI and Kyoto University medical AI big data analysis won the 2018 Nobel Prize and intelligent search engine translation. At the beginning of the Academy, the company was active in frontier fields such as artificial intelligence and blockchain, and established various module laboratories in Nanjing, Shanghai, Hangzhou, Suzhou and Taizhou. We adhere to the concept of technology, the products we use and rely on strong technical skills, but we connect and collaborate with universities and research institutes at home and abroad, continue to innovate, pursue excellence and lead the industry Output research results and actively accept the market. User experience for creating high quality commercial products.

 

Successful funding from Google, Amazon, Apple, and Arm has contributed £ 13 million to a stochastic modeling platform. Professor Steve Young of Cambridge University Development Team in Cambridge

Venture capital and evaluation

 

The hallmarks of HOC's intelligent technology team are that they have graduated from science and engineering, business elite, Silicon Valley, Harvard, Oxford, United Kingdom, Cambridge, USA and prestigious schools with a clear thinking background. It relies on the establishment of technological innovation, high management, high barriers to entry, network effects, brand effects, patented technology, and scale effects. There is competition for the losers. business. Determine the CAC / LTV ratio of HOC Intelligent Technology (ie, user acquisition cost / user lifetime value ratio of paid marketing) and continually increase this ratio. The core competitiveness of the HOC intelligent technology niche market has exploded, and the HOC intelligent technology team has been successfully working with an experienced team for over a decade and market-leading profit data is increasing.

 

 

The process that venture capitalists performed for HOC Intelligent Technology Nanjing Co., Ltd.

Perform a careful assessment of the technology, market potential and scale of the HOC Intelligent Technology Nanjing Company and the management team.This process includes contacting potential customers, consulting with technical experts, corporate, venture capital, etc. Home, which includes negotiations with key individuals on the management team, has concluded on the risks of HOC Intelligent Technology Nanjing Company. Venture capitalists consider the outlook to be good and negotiate the starting investment form and valuation. Venture capitalists strive to adapt their investment returns to the risks they envision. According to a pragmatic plan, venture capitalists analyze the investment value of the next three to five years, first calculate cash flow or revenue forecasts, and then develop technology, management, skills, experience, business plans, Assess based on intellectual property and work progress, size risk, select appropriate discount rate, and calculate what is considered a company's NPV. HOC Intelligent Technology Nanjing Co., Ltd. is about 20 billion yuan ...

 

For venture capital companies and venture investors, Chinese can be a shareholder, and for venture capital companies with more than 1 billion cumulative or one-time investments, HOC Intelligent Technology Nanjing Co. 5% of the profits of Nanjing Co., Ltd. will be used as dividends. Dividends to foreigners may not be shareholders. . . But special cases can be handled specially

 

 

HOC Intelligent Technology now acquires hundreds of millions of dollars in angel round, pre-A round, A round, A round, B round and PreC finance from Fengrui Capital, Yunqi Capital, Genesis Partner Capital, Youzu Network, Guohe Investment, etc. You are a source of funding. Sequoia Capital is negotiating

 

 

2007.01-2008.12 Zacatii Consulting (Capgemini)

Position: Project Manager / ERP Consultant Accounting / Audit Consultant

Report target: Minister

Number of subordinates: 30 PL and 10 consultants

Responsibilities:

1. ERP consultants (SAP, Oracle) are responsible for introducing and using the project.

International Accounting Standards, IFRS (International Financial Reporting Standards) Consultant Project

3. Head of the reform consulting project

4. SCM consulting project is in charge

5. CRM consulting project is in charge

6. Responsible for financial and accounting consulting projects

7. IT internal control consulting project

8. ERP consultant project

Tax accounting consultant

Level of achievement:

1. Management and management of the progress, quality and cost range of major projects, technical guidance andIn charge of training

   He is responsible for departmental team building, establishes a unified and efficient staff team, and stimulates employee enthusiasm.

Responsible for the overall cultural construction of the department. (10-150 people)

2. Recognized by customers and companies (excellent consultants and excellent project managers)

Project name

Sharing project examples

1. 2007.01-2008.01 Nissan's SAP SAP implementation project (Japan)

Project Description: The Nissan Motor project is being implemented by TR, PS, MM, SD, PP, FI / CO modules and eight subsidiaries.

Project Responsibilities

1. Business scenario analysis and future SAP system to help customers improve business processes.

2. Discussed and hired a blueprint with a customer.

3. Configure the FI module according to the applicable blueprint and other subsidiary requirements.

4. Write a functional specification or system interface on the financial report.

5. Lead the team to complete the unit test and system integration test tasks and solve the test procedure.

6. The data conversion process includes master data and business transaction data. Lead key user training.

 

2. 2006.01-2007.01 CapGemini Kaijie Co., Ltd. (Germany)

Project Description: Capgemini project implementation of FI / CO, MM, SD, HR, PS module.

Project Responsibilities

1. Communicate with customers and understand their needs effectively.

2. Edit customer workflow Deeply understand how to optimize workflow, explain and provide solutions.

3. The main user of the customer structure and cooperation to complete the organization structure and master data.

4. Configure the system according to the final design drawing and the special requirements of the customer (FICO part).

5. Responsible for all aspects of the implementation of the International Accounting Standard (IAS) CAS (China) and the implementation of the accounting standard SAP R / 3 module of financial accounting functions.

6. Help customers adopt knowledge and adopt new accounting standards.

7. Perform data conversion / transfer.

8. Enable users to understand the operation of the SAP FICO module and day-to-day operations and see the year-end financial checkout time of training and service customers.

 

3. 2008.01-2008.05 Germany Mercedes-Benz Automotive Group Finance Group (Japan)

Project Overview: Financial Advisory Service / Financial Audit and Internal Control Evaluation Audit

Project Responsibilities

1. Conduct regular headquarters economic responsibility audits.

2. Provide a realistic assessment of head office performance, provide a basis for evaluation, and prevent head office from using counterfeit corporate funds.

Conduct audits on the status of the internal control system.

4. Through internal audits, objectively assess the level of internal control, create audit recommendations and audit remediation notices for weak links, and track them.

5. Taking into account that there are many accounts receivable per unit and many unsolved problems, as a result of clearing methods and improvement measures, we basically wiped out old debts and reduced funds.

6. Conduct targeted audits to monitor violations of corporate systems and financial discipline.

7. Incorrect VAT invoices, off-balance sheet funds, and totals of fraud were found and revenue was forged and paid in accordance with audit recommendations.

Audit oversight of the performance of commercial contracts.

9. The contract execution audit revealed that the contract execution period was long and the compliance rate was not high. Therefore, we proposed improvement measures to shorten the delivery period and returned the company funds promptly.

Strengthen the construction of an internal audit system. As the auditing business developed, the internal auditing system was continuously improved, the business was standardized, and a systematic auditing system was established.

11. Strengthen audit file management.

12. At the end of the year, various audit reports were sorted and archived to ensure the integrity of the audit information.

 

4. 2008.06-2008.09 Sharp Corporation (Japan)

Project Overview: Financial Advisory Service / Financial Audit and Internal Control Evaluation Audit

Project Responsibilities

1. Conduct regular headquarters economic responsibility audits.

2. Provide a realistic assessment of head office performance, provide a basis for evaluation, and prevent head office from using counterfeit corporate funds.

Conduct audits on the status of the internal control system.

4. Through internal audits, objectively assess the level of internal control, create audit recommendations and audit remediation notices for weak links, and track them.

5. Taking into account that there are many accounts receivable per unit and many unsolved problems, as a result of clearing methods and improvement measures, we basically wiped out old debts and reduced funds.

6. Conduct targeted audits to monitor violations of corporate systems and financial discipline.

7. Incorrect VAT invoices, off-balance sheet funds, and totals of fraud were found and revenue was forged and paid in accordance with audit recommendations.

Audit oversight of the performance of commercial contracts. An audit of the contract execution revealed that the contract fulfillment period was long and the compliance rate was not high. Therefore, we proposed improvement measures to shorten the delivery period and returned the company funds promptly.

Strengthen the construction of an internal audit system.

With the development of audit work, the internal audit system was continuously improved, the work was standardized, and a systematic audit system was established.

11. Strengthen audit file management.

12. At the end of the year, various audit reports were sorted and archived to ensure the integrity of the audit information.

 

5. 2008.10-2009.01 Mitsubishi Fuso Motor (Germany)

Project Overview: Financial Advisory Service / Financial Audit and Internal Control Evaluation Audit

Project Responsibilities

1. Conduct regular headquarters economic responsibility audits.

2. Provide a realistic assessment of head office performance, provide a basis for evaluation, and prevent head office from using counterfeit corporate funds.

Conduct audits on the status of the internal control system.

4. Through internal audits, objectively assess the level of internal control, create audit recommendations and audit remediation notices for weak links, and track them.

5. Taking into account that there are many accounts receivable per unit and many unsolved problems, as a result of clearing methods and improvement measures, we basically wiped out old debts and reduced funds.

6. Conduct targeted audits to monitor violations of corporate systems and financial discipline.

7. Incorrect VAT invoices, off-balance sheet funds, and totals of fraud were found and revenue was forged and paid in accordance with audit recommendations.

Audit oversight of the performance of commercial contracts.

9. The contract execution audit revealed that the contract execution period was long and the compliance rate was not high. Therefore, we proposed improvement measures to shorten the delivery period and returned the company funds promptly.

Strengthen the construction of an internal audit system.

With the development of auditing work, the internal audit system is continuously improving. Strengthen audit file management.

13. At the end of the year, various audit reports were sorted and archived to ensure the integrity of the audit data.

 

AI x blockchain x IOT x RPA projects

Because it is a new technology, sufficient research and verification will be essential if it is to be introduced into the business, but are there other factors that hinder its introduction?

According to the PwC survey mentioned above, the biggest obstacles to blockchain adoption are "regulatory uncertainty", second place "lack of trust among users", and third place "ability to organize networks". Are listed.

The benefits of blockchain are maximized when participants from different industries come together to build a common platform. In this case, of course, the rule cannot be set only by the company. PwC points out that these difficulties in creating rules and lack of understanding of executives' skills have created distrust of the blockchain technology itself and are barriers to adoption.

 

Many countries and regions are in the process of considering the official introduction of blockchain and cryptocurrencies. In the survey, 28% of respondents in Japan said that "regulatory uncertainty" would be the biggest obstacle in the next three to five years. The smallest is 17% in China and the largest is 38% in Germany. With 27% overall, Japan is an average figure, but it seems that many countries believe that blockchain growth requires further legislation.

In Japan, the Ministry of Economy, Trade and Industry announced on April 28, 2016, “Domestic and Overseas Trend Survey on Services Using Blockchain Technology”. From April 1, 2017, the enactment of the "Revised Funds Settlement Act", commonly known as the "Cryptocurrency Law", has been a big topic. The regulatory environment will continue to improve.

First, let's get rid of the fixed image of “technology for virtual currency” and consider whether it is a technology that can be used in your business.

NEM partners with blockchain-based AI-based solution

IT giants such as IBM, Microsoft, Amazon and NTT Data are also blockchain products, Ethereum, NEO, EOS blockchain

DMM bitcoin

Smartphone application utilizing NEM blockchain linking map and pedometer

Everyone is a public chain of NEM

Educational support for children with NEM blockchain

Blockchain x Sports NEM New Economy Movement blockchain

In NEM, since functions related to blockchain are provided as a standard function by Web API, normally all functions that require programming can be called with API, so that products can be realized at lower cost and faster. As a concrete usage, the token issue and multi-sig functions provided as standard functions are `` public chain '' and `` private chain '' as features of block chains distributed free of charge, and are open to the general public Some of these are publicly available, while others are publicly available in limited forms, such as companies.

"Create a bond between athletes and fans with blockchain technology"

You can digitally donate and give to teams and players. This will create a community where fans and teams / players can be close at hand.

Regardless of whether you're a professional or amateur, if you get a little money, you'll have an environment where you can concentrate on sports, and it's easy to develop your career as a player.

Medical field

Suppose that medical institutions around the world shared data on the blockchain and recorded various medical activities, such as medication and surgery, from time to time. Looking at the resulting database, it is clear at a glance which drugs are more effective in this case and which surgery has a higher success rate. Any medical institution around the world can increase the likelihood of getting the right treatment.

election

Every time, even in Japan, where large taxes are used in the election, blockchain can greatly reduce costs. In addition, a highly transparent election should be realized without human errors such as incorrect counting of votes and fear of fraud. If you don't bother to go to the polls, online voting will definitely increase your turnout.

Food safety management

For example, blockchain is effective for traceability management of foods. If all information about where the food was made and what kind of distribution route it was recorded using blockchain technology, food safety would be enhanced and problems such as food spoofing would not occur.

Authentication technology and blockchain reveal the lie of "fake videos" created by AI

A video that proves what happened at the scene of an incident. However, the device where the video was saved was hacked and cleverly modified with deep fake technology using AIIf it is done, it will be a tool to upset human judgment. How do you make your videos trusted by everyone? One company is trying to solve this problem with authentication technology and blockchain.

 

Blockchain pattern book

Blockchain, the core technology of Bitcoin *, is attracting attention as a technology that can be applied not only in the financial field but also in various fields and industries.

The Hitachi Group is working to create new value that will transform society and the industry by digitally connecting various fields and industries, mainly Lumada. Blockchain is considered to be one of the key technologies for such innovations.

In this research, in order to explore the potential of blockchain in various fields, we applied the use cases of blockchain to 11 patterns based on the value enjoyed by users.

By utilizing this pattern, we will accelerate the creation of ideas for inter-industry collaboration service solutions in internal and external customer collaboration activities.

Videos captured by security cameras, police officer body cameras, and witness smartphones have become increasingly important tools for law enforcement agencies such as the police. However, because artificial intelligence (AI) has created a falsification technique called “deep fake” to generate fake videos, and because many devices connected to the Internet are suffering from security problems, videos can be trusted It's hard to tell if it's worth it.

The “fake video” evolving with AI and the fight for AI against it have begun (video available)

Some projects have found a solution to this problem in cryptographic authentication.

Hash videos when shooting to prevent forgery

The tool, called "Amber Authenticate", runs in the background when shooting videos on your device. Then, a "hash value" (encrypted data) is periodically generated at a frequency determined by the user, and recorded in the public blockchain in a form that cannot be erased.

When the same moving image is applied to the algorithm again, if a change is made to the audio or moving image data, a hash different from the previous one is generated. With this mechanism, Amber Authenticate will tell you secretly if the video has been tampered with.

Note that the user needs to set the generation frequency in consideration of the balance between the device system and the shooting content. For example, if the frequency of hash generation in a movie taken by a police officer's body camera is set to be long, such as every 30 seconds, tampering with short but slight but high impact may be performed. On the other hand, setting surveillance cameras for small businesses to generate at intervals of a few seconds would be overkill.

Amber Chief Executive Officer Shamir Alibi said:

"Police officer body cameras present a system risk for many manufacturers and model numbers. We are concerned about the use of deep fake technology in videos taken with such cameras. What happens if you can not only add and remove evidence but also manipulate it at will? Once it becomes evidence, it is very difficult to point out forged parts Yes, the forgery decision is always left behind, but with this approach everything can be publicly verified simply by checking if the hashes match. "

To make your video trusted

Tools like Amber have the power to appeal to those who are wary of possible cover-ups. For example, human rights activists, free speech promoters, and law enforcement watchers. Meanwhile, the U.S. government is also interested in tools that check video integrity.

Amber CEO Alibi presented Amber Authenticate to the Department of Defense (DoD) and the Department of Homeland Security (DHS) at the US Defense Advanced Research Projects Agency (DARPA) presentation in late February 2019. That. By the way, DHS is also interested in a similar solution from blockchain-based data authentication company Factom, which is also developing a video authentication tool.

Amber Authenticate is built on Ethereum, an open source blockchain platform.

You can visually see on the Amber web platform which part of the video has a hash that matches the original stored on the blockchain (or where the unmatched hash is). If a green frame appears around the video during playback, the hash matches, and if a red frame appears, it doesn't match.

Below the video player is also a detailed "audit trail" (a list of when files were first created, uploaded, hashes generated, and sent to the blockchain).

The idea of ​​Amber Authenticate is for manufacturers of security cameras (CCTV) and body cameras. Manufacturers can license Amber and run it on their devices.

Josh Mitchell, Amber's research consultant, discovered software vulnerabilities in five major body cameras in August 2018, but has shown that several of these cameras are compatible with Amber Authenticate Have been successful.

"The technology is being applied to body cameras because none of the cameras currently have an authentication mechanism. The fact that there is no way to protect the evidence taken by body cameras from attackers is alarming, Doesn't seem ambitious to tackle this problem, but with a prototype that can prove and demonstrate technology, there is a way for everyone in every position to confirm the content of the video and how to shoot it. You can prove it, "says Mitchell.

Alibi, which is funding the project, says it plans to make Amber Authenticate completely transparent and open to verification by external experts.

Verification of security of Amber itself is necessary for practical use

Jay Stanley, senior policy analyst at the American Liberal Human Rights Association, says that authentication tools for videos (especially those shot with a police officer's body camera), whether Amber Authenticate or not, are not immediately available Talk about it.

"Technologists will have to verify the security of Amber as well as the authentication technology, but I hope Amber and similar products will be the standard. Similarly, it helps to gain public confidence in the evidence of “what actually happened.” Even in the most troublesome and difficult cases, nobody said that the evidence presented was fair and trustworthy. Makes it seem confident. '' Blockchain on AWS Easily build scalable blockchain and ledger solutions

Introduction of case studies and technology trends

AWS provides the simplest way to build scalable blockchain networks and ledger applications for your business

Customer

Healthdirect Australia is an Australian Government-owned, non-profit organization that has been supporting the health and well-being of Australians for more than a decade.

"Healthdirect Australia operates in a highly regulated industry, so it's very important that your company's compliance data be accurate and auditable. With Amazon QLDB, We hope that a complete and verifiable history will be maintained, making it easier for us to audit when and how we got into the current state.For healthcare companies, regulatory compliance is a daily occurrence.Amazon With QLDB, we can easily track the management deployed and see how they have changed over time. "

Guardian Life Insurance Company is a financial services and insurance company that provides life insurance, disability insurance, employee benefits, dental health and more.

"We look at the benefits of decentralized and immutable tracking of the blockchain in light of its broad ecosystem of partners, anticipating its potential use in the insurance sector. While improving the transparency and efficiency of stakeholders in connected networks, while maintaining independent verifiability of transaction flows, while the blockchain framework requires operations It's complicated and challenging: With Amazon Managed Blockchain, we can easily create a Hyperledger Fabric blockchain network for testing and learning, with the underlying infrastructure, networks, You no longer have to worry about administrative tasks like software configuration. "

Guardian Life Insurance Company Innovation and CTO Daniel Johnson

Smaato, a world leader in online ad exchanges, receives more than 20 billion bid requests per day through its foundation.

"Participants in the online advertising and real-time bidding market segments are involved in the entire online advertising auction, from the initial auction to the winning bid, and ultimately to the final impression and the target where the ad was actually displayed. We have a strong interest in transparency.We are acting as a trusted central point in this value chain, so we are very excited about Amazon QLDB.This scalable, immutable and cryptographic Verifiable ledgers allow us to maintain a complete and auditable record of all our auctions, and work with the AWS and Amazon Quantum Ledger Database teams to help our ecosystem I'm looking forward to seeing something more transparent. "

Depository Trust & Clearing Corporation (DTCC) provides industry-leading solutions that help ensure the stability and certainty of global financial markets.

"As a critical infrastructure for the financial markets, the financial industry is required to provide innovative solutions that reduce risk, increase transparency and evolve market and regulatory needs. We see blockchain technology as a generational opportunity to rethink post-trade infrastructure, and we are leveraging Amazon Managed Blockchain to explore the potential of Hyperledger Fabric, Through Amazon Managed Blockchain, you can continue to take on the industry's commitment to blockchain development and adoption by automating the deployment of your blockchain infrastructure, providing high availability and durability in a fully managed package. And accelerate the adoption of distributed ledger technology. "

DTCC Managing Director, Chief Technology Architect Blockchain Pattern Book

Power interchange + blockchain

Press Releases Demonstration of Power Demand Adjustment Service Using Blockchain Technology

Sekisui House Co., Ltd. is a joint venture with Nissin Systems Co., Ltd., Murata Manufacturing Co., Ltd. and DELIAHas reached. "In the interview, Kim gave a lot of suggestions for cancer prevention and early detection methods that have a number of limitations. With the advancement of genetic analysis using AI, the era of conquering cancer can be reached sooner." (Article "Analytical Intelligence Analyzes Big Data in Gene Information to Predict Cancer Risk" on February 8, 2018, in Korean web media "Medigatenews").

In February 2018, Stanford University was spotlighted for developing AI that predicts the life expectancy of terminally ill patients. The aim of the AI ​​development is to encourage patients in dying life to prepare properly and to provide more medical services.

Medical professionals become "interpreters" for machines and patients

The application of artificial intelligence to medical care should accelerate further in the future. However, no matter how high the performance of artificial intelligence, it is unlikely that the field of medicine will be completely separated from human hands. One of the healthcare professionals who spoke to the AI ​​Lab pointed out:

"While artificial intelligence can make good decisions, the question of whether patients can trust it is another dimension. After decades, we believe in AI in medical terms A consensus may be formed that people can live healthier healthierly, but at this stage they will be able to properly communicate machine diagnostics to patients and provide an "interpreter" or mediator to reassure them. I think we need people, and doctors will play that role, but in any case, as AI develops, the skills and qualifications that doctors and healthcare professionals need to change will only change. Sure. "

IBM Bowser, mentioned earlier, emphasized the inaccuracies of modern medicine and the effectiveness of data medicine using AI, but pointed out that complete automation and mechanization in the field is far from imaginable. It is a position that artificial intelligence is only a tool to support human decision-making and enhance their abilities.

Looking at the debates taking place in the medical industry, it is clear that, as in other industries, the viewpoint of "whether human or artificial intelligence is more important" is regarded as important. But if humanity as a whole can enjoy better health and longevity, whether it's from AI or human hand should be a trivial matter. Desired for better medical care No. “Practitioner and AI” Endoscope and AI ”“ Internal medicine and AI ”“ Genomic medicine and AI ”“ Ophthalmology and AI ”

AI / Machine Learning Business Development Open Innovation Algorithm Medical Electronic Health Record Image Recognition

A huge number of images were scrutinized one by one to build a database, and research using deep learning (deep learning) was accumulated, and the classification accuracy finally exceeded the average of specialists. Improvements are still needed for use in clinical settings, but development is proceeding at a rapid pace.

• Japanese endoscopes not only account for 70% of the world's equipment market, but also have the best skills of specialists in the world. Contributing to the world of endoscopy by concentrating that wonderful wisdom

"Coexistence of AI and physicians" ── "Algorithm to minimize errors" is key

For healthcare insurers in Japan who pay about 42 trillion yen each year, develop a web application that can freely manipulate health big data for 10 million people with marketing functions and data analysis tools.Analysis of health big data / cloud type Data analysis, development and operation of marketing support tools / planning of marketing strategy, communication development Health big data analysis / cloud type data analysis, development and operation of marketing support tools / planning of marketing strategy, communication development

■ Web site and application service design, information design, usability / accessibility design

■ Creating wireframes and prototypes

■ Manual creation

■ UI design

■ Source code adjustment and test work

■ Planning and conducting service tests

【Development environment】

■ Backend: Python, Django, Flask

■ Front end: Vue.js, jQuery

■ Infrastructure: AWS, Terraform, Packer, Ansible

■ Other development tools: GitHub, CircleCI, Docker

Communication: Slack / Qiita Team / Workplacevehicle networking using Control Area Network (CAN) with Biormetrie security system Artificial intelligence, AI, machine learning, python

tensoflow, keras

go

Machine learning, deep learning, data science practice, python, machine learning, etc.

Portfolio patents and works

Data Science Course

Deep Learning A-Z ™: Hands-On Artificial Neural Networks

Skills / characteristics

Securities Foreign Affairs

Financial Planner Technician Level 2

Boot Strap

GoogleAnylitics

php

Learning JAVAscript

HTML / CSS /

GCP

Kanji Test Level 1

law

Jupyter Notebooks

 Python (basic grammar operation, function creation, use of numpy and pandas, creation of dummy features, data reading from the web, data visualization with matplotlib and seaborn)

Python Basic knowledge of HTML / CSS / JavaScript, a technology for constructing machine learning models using health big data such as receipts and health check results for 310 million people

■ Basic knowledge and development experience of Web application

■ Development experience using Git

■ Development experience using Python / AWS

■ Development experience using JavaScript framework such as Vue.js, React

■ Development experience using automatic test

The GPU (graphic board) developed by Nvidia has also been applied to embedded AI such as autonomous driving, and is used in many medical devices such as 3D reconstruction of CT and ultrasound equipment in the medical field.

か What is the mechanism of image recognition and machine learning used in such medical treatment?

For example, to find lung cancer, features are extracted from images of healthy or lung cancer and it is determined whether or not it matches the image of the subject. In the past, the feature for comparison was "fixed-cut", and it was difficult for humans to consider what features should be set. On the other hand, deep learning can not only automatically extract features from a large amount of data analysis, but also derive rules for what should be features.

In other words, feature extraction for discrimination is derived a posteriori, and discrimination can be performed based on that. The smaller the error, the better the discrimination can be made, and the smaller the set error, the better the algorithm.

Regarding the possibility of machine learning, "Discrimination is the result of a simple" optimization "algorithm, and it is a mechanism that derives the optimal classification pattern according to the data according to the task. There is a possibility that data analysis will be able to derive features that could not be written down. To do so, we need data in both mass and data, and we need the ability to analyze large amounts of data. "

These solutions based on image recognition and machine learning are expected to be applied to everything. As for the types, "CNN (Convolution Neural Network)" is used for image recognition, and "RNN (Recurrent Neural Network)" is used for time series, and all of them achieve accuracy of 90% or more by minimizing errors for the first time at random. Can be enhanced. As for the use of CNN, "general object detection" was introduced as to what is shown in the image. If it is applied, it can be used for traffic surveys and suspicious person detection, but in the medical field it can easily detect polyps, etc., and will be able to catch signs of sudden change.

Issues of AI utilization include "lack of human resources who can formulate an AI utilization strategy", "creation of systems and systems to ensure the quantity and quality of data", "judgment of prior investment in AI", etc.

Endoscope image diagnosis support AI (artificial intelligence)

This is a job to support application work for drug development.

◎ Application for clinical trials (CDISC electronic application support)

◎ Analysis of clinical trial data

◎ Report creation for new drug application

◎ Programming with SAS

Knowledge and experience about SAS

◎ Statistical knowledge

◎ Experience in the pharmaceutical and CRO industries

◎ English skills

(Because there are many English documents.

程度 Read and write using translation software)

SAP HANA Blockchain service

Connect your external blockchain network to SAP HANA, a powerful in-memory data platform. This service (coming soon) will be accessible from SAP's cloud platform blockchain application enablement and will provide state-of-the-art analytics and development capabilities for using blockchain data.

• Hybrid deployment

• Integrate enterprise and blockchain data

• Real-time monitoring and analysis of blockchain data

• Building apps on SAP HANA platform using blockchain data

• Integrate blockchain into SAP applications

SAP is actively integrating blockchain tools into its existing SAP product portfolio. These new features are now available as joint innovation pilots.

Tracking consignments

Track product and process status throughout the supply chain. Get real-time visibility into product location and status, monitor process milestones, and automatically trigger actions.

• Cloud deployment

• Improve product safety and respond quickly to recalls

• Detect imitations before shipping

• Reduce revenue loss and protect brand value

 

• SAP Global Track and Trace

Drug tracking

Comply with pharmaceutical serial number management and reporting requirements to combat counterfeiting and illegal trade. Incorporate serial number management into your process, manage supply chain security and enhance patient safety.

• Cloud deployment

• Compliance with U.S. DSCSA / HDA priority scenario 9

• Immediate check on the reliability of returns

• Provide a single, unchanging and accurate source of information for all stakeholders

• SAP Advanced Track and Trace for Pharmaceuticals

Transportation and logistics management

Extend fare, vehicle, and logistics management across your corporate network. Real-time visibility into domestic and international transportation, logistics optimization, new efficiencies, and improved customer service.

• On-premises or cloud deployment

• Get the most visibility into transportation with blockchain records

• Share vouchers with all stakeholders in real time

• Reduced customs clearance time and costs

Bureaucrats fighting on the blockchain

Autonomous Region of Bolzano, Italy, is embracing blockchain to replace inefficient legacy systems, reduce tedious office work, and comply with European data sharing regulations.

Identification of counterfeit drugs

Learn how Boehringer Ingelheim, a global pharmaceutical company and SAP co-innovator, uses blockchain-based systems to certify medicines and fight counterfeits.

The era of blockchain trading

With the proliferation of smart devices, the number of digital transactions and their payment sourcesTypes are growing at a rate that conventional transaction processing systems cannot keep up with. Why do so many analysts have blockchain ledgers?

• Read the Forbes report

Blockchain development with SAP

SAP is working with technology, industry and infrastructure players to explore blockchain and its opportunities.

Hyperledger Foundation

SAP is a key member of the Linux Foundation's Hyperledger project. This project is a cross-industry collaboration aimed at evolving open blockchain technology.

• Learn more about Hyperledger

Chinese Trusted Blockchain Alliance

As the Vice Chairman of the Trusted Blockchain Alliance in China, SAP promotes blockchain technology R & D, improves standards and governance, and supports cross-industry implementation.

• Read the press release

Alastria

SAP is a member of this Spanish consortium aiming to build a semi-government, semi-private, independent licensed neutral blockchain / DLT network.

• Learn more about Alastria

Start using blockchain and distributed ledger technology

Join the SAP blockchain consortium

Explore the benefits of distributed ledger technology for companies, review industry-specific examples, learn how distributed ledger technology solves real-world problems, Let's get ahead.

• Networking and networking with peers

• Stay on top of industry trends

• Listen to guest speakers and SAP experts

Joint innovation to combat smartphone theft

In a joint project, Deutsche Telekom, Camelot ITLab and SAP are building a blockchain network to protect mobile phones from theft.

New blockchain solutions to support oil and gas companies

IBM Services and SAP have developed a plan to develop a new blockchain solution to help oil and gas companies streamline accounting management in joint ventures.

Technology experts talk about the latest trends in blockchain

Gil Perez

SVP Products & Innovations, Digital Customer Initiative

SAP

Blockchain: Reality based research

A recent study of SAP's current use cases and future potential of blockchain shows that the time has come for blockchain to become a reality.

The Vault Ltd., a provider of blockchain solutions with artificial intelligence (AI) for secure payments and transactions, announces a partnership with Nem (NEM). The Vault Ltd. is developing a network and AI fraud detection system to protect cryptocurrency transactions from errors and theft. Consensus networks ensure that cryptocurrency transactions are monitored and guaranteed.

Case study

(1) Although it is a Porsche car, in March this year, we succeeded in testing the world's first vehicle with a blockchain. In this experiment, we were able to unlock and lock a car 6 times faster with an app using a blockchain.

(2) JD.Com, the largest retailer in China, has also announced the accelerator AI Catapult for building businesses and applications using AI and blockchain technology.

(3) The foundation of collaboration between DeepMind, a subsidiary of Google, the UK Health Service (NHS), and hospitals has begun, aiming to make DeepMind's software learn a large number of scan images and symptoms, and identify diseases only from scan data. You.

④Doc.ai has already launched a conversational platform for physicians to gain insights from the vast amount of globally collected medical data. We also provide services to individual users, and by using data analyzed by deep learning, it is possible to provide feedback on their health problems.

Blockchain and IoT

Next, what happens when blockchain and IoT are combined?

• Strengthening IoT security with blockchain

IoT is vulnerable to hacking and cyber attacks because it is composed of devices connected to the Internet. Therefore, if you use the characteristics of blockchain “record transactions”, “distributed information management” and “cannot be changed / deleted”, it will be a feasible solution against IoT attacks.

• Cost reduction by automating IoT processes

By using blockchain, IoT processes can be automated. The technology that enables such things is called smart contracts. Once created, it is managed, executed and maintained by the blockchain. This does not require any intermediaries by third parties, so there is no need to pay intermediaries and costs can be reduced.

Case study

(1) GMO Internet Co., Ltd., GMO Global Sign Co., Ltd. and Saison Information Systems Co., Ltd. conducted a demonstration test of a home delivery box using blockchain and IoT.

Until now, the relationship between home delivery boxes and users, which had been used on a one-to-one basis, is now being improved by placing multiple IoT devices in multiple home delivery boxes so that multiple users can use them. By combining these, a distributed delivery box can be used. In addition, the history of opening and closing the delivery box can be managed, preventing tampering. No one can open the door because it cannot be tampered with. Blockchain tampering prevention technology is useful.

(2) Nayuta is developing a power socket that uses a blockchain and can control usage rights.

The owner of the power socket can send a usage right token that specifies how many hours can be used between when and to the smartphone application by specifying the user. This means that you can control usage rights and eliminate unauthorized use by third parties (such as theft).

In addition, measurement of power consumption is included as a hardware function, and it has been developed so that it can be changed to a billing type power socket according to the power used in the future.

Muscle perspective

As mentioned above, linking blockchain with AI and IoT will enable a variety of things, and the impact in the world will be immeasurable.

However, as things get more and more convenient, I feel a little anxious.

That is to say that it will change the human society. Others say that linking with the blockchain has even more innovative potential while destroying human rights.

Also, in the industrial revolution that took place in the United Kingdom from the middle of the 18th century to the 19th century, workers who feared unemployment caused a `` Laddite movement '' that destroyed machines, but even today, `` If AI develops, it deprives human work There are concerns that it will be lost, and that mass unemployment will occur.

Nomura Research Institute conducted research on 601 occupations in Japan, and found that AI and robots could replace about 49% of Japan's working population. More recently, there has been talk of an artificial intelligence robot gaining citizenship in Saudi Arabia.

What's more, this artificial intelligence robot is surprising because it is the most advanced artificial intelligence that can think and communicate with humans without programming. There are even stories that AI was the first to develop blockchain technology.

When this happens, will human-robot wars like the terminator no longer occur in the not-so-distant future?

Nationwide Guarantee, ZBB, NARECOM, research on mortgage screening method utilizing AI and blockchain

"Blockchain / AI" performance-based advertising system

With the medical blockchain revolution, we can do so far

US health care companies begin exploring blockchain technologies

LEOWOLFERT / ISTOCKPHOTO

<Can information on doctors, hospitals and pharmacies be insufficiently shared to change the current situation of hacking? Benefits other than patient data storage>

"AI medical care" Artificial intelligence is attracting attention as a "trump card" that dramatically solves the problems associated with hospitals and medical care, such as long waiting times, misdiagnosis, and huge costs. Saves patients and reduces medical expenses. The future of medical care has come this far.

The healthcare industry has not been able to use patient data efficiently. The vast amount of data gathered by doctors, hospitals, clinics, pharmacies, insurance companies, etc., is kept in pieces on each computer-and possibly in files on the shelves.

Not all data is updated, even if the drug prescribed to the patient changes or a new x-ray is taken. Data is not shared between doctors, hospitals, and pharmacies.

For example, in Boston, the United States, medical institutions use more than 20 electronic medical record systems. If you use different systems, you cannot share information directly between medical institutions. What's more, these systems are in danger of being stolen, erased, or altered by hackers.

In the field of emergency medical care, there are many cases where doctors cannot grasp data related to a patient's life. There is also the danger that the safety of the patient will be threatened.

But new technologies could change that. It may be possible to build a system that keeps up-to-date, accurate data about patients secure, out of the reach of hackers, and allows healthcare professionals to share data.

Blockchain makes it possible. This technology is also used in virtual currencies such as bitcoin. Blockchain is a network of distributed databases. The encrypted messages of these databases are exchanged on the Internet to form a single network.

The data stored on the blockchain cannot be deleted, but can be updated by authorized users. Who made what updates is all documented.

Patient manages his data

If this technology is applied to the medical field, it will be possible to safely store a huge amount of patient data. If you make a mistake when entering data, you can easily find and correct it.

That is not all. Patients will also be able to read their medical data and update as needed. You can even record your own symptoms.

Blockchain may have other medical benefits. The US Centers for Disease Control and Control (CDC) is building on this technology to develop a system for sharing data on infectious diseases.

New drug clinical trial processes may also benefit from blockchain. At present, there are a number of adverse effects due to insufficient data sharing between the parties involved in clinical trials.

Europe is one step ahead in using blockchain for healthcare. In 2016, the EU will create a blockchain system for healthcare institutions and individual patients to share data across the EU(Nasdaq) announced on March 14 that it will launch the New York Interactive Advertising Exchange (NYIAX) during 2017

Story / Accelerate the Drug Discovery Process with Drug Discovery and Research Machine Learning

Machine learning algorithms analyze subtle patterns of facial features to identify even people who have never been tagged or even strangers.

This machine learning technology is also transforming the way Novartis researchers discover and develop drugs. Just as social networking sites use machine learning to classify people appearing on computer screens, Novartis researchers use this technology to classify digital images of cells treated with different drug candidate compounds. Machine learning algorithms instantly group compounds that show visually similar effects. Laboratory experiments and visual inspection by humans are time consuming and can take months to gain biological insights, but computer algorithms that automatically identify images can dramatically increase the speed. Will improve. It is hoped that machine learning could reduce drug discovery time, which could lead to faster delivery of new treatments to patients. Machine learning shows us new therapeutic possibilities more efficiently than ever. Unrivaled ability to tell you how the drug works

AI eyes predict cell changes

We specially evolved deep learning, a special machine learning technology, and pioneered technology that mimics the processing of visual images by the eyes and brain. The human eye senses different shades of light. Neural circuits that work closely with the eyes translate the sensed patterns into colors and shapes, such as familiar objects, faces, and other living things. The research team simulated the process, inspired by the innate functions of humans, and enabled computerized neural circuits to recognize subtle morphological changes in cells induced by drug candidate compounds. I learned.

The research team first advanced deep learning using the "supervised learning" approach (a method of learning input data to be analyzed along with the output data of the "correct answer" that is the analysis result). This involves learning specific effects, such as changes in cell morphology or changes in protein activity, caused by compound processing, until the system can recognize it. Images of cells treated with compounds known to exhibit specific effects were trained by showing them on a computer neural circuit to learn visual patterns related to the mechanism of action of various drugs. Next, we tried to verify using images of cells treated with more than 100 compounds without specifying the mechanism of action.

Computerized neural circuits accurately predicted how the compound would affect cells, even at different doses of the compound. "This means that with the system, we can quickly determine from a digital image what the drug will do biologically. The prediction accuracy was almost 100%," said NIBR Emeryville (USA). Said William Godinez, principal investigator for the Infectious Diseases Department of California. In July 2017, the research team published its approach and results in the journal Bioinformatics1.

Go beyond the pre-built concept

Godinez and colleagues have also made great strides in developing "unsupervised learning" systems that do not require training with "correct data." The "unsupervised" algorithm automatically selects and classifies compound-processed cell images.

The system also reveals biological changes that researchers have never thought of before. Some have shown potential for clinical application. "Unsupervised" machine learning systems have no such limitations. It simply categorizes the images and groups them into a common visual pattern, without being bound by previous assumptions, about how various compounds affect cells. "I don't know what the algorithm is looking at, but it doesn't matter; if the algorithm finds differences between cells, humans can make new hypotheses and test them. "Jean states.

Jenkins says the potential for using machine learning extends from the early stages of the drug discovery process to clinical trials. One of the time-consuming processes in drug discovery is compound testing using disease model cells. These tests usually require careful analysis of each cell sample to find compounds that produce biological activity and are worthy of further study. To accelerate this screening process, the research team trained machine learning algorithms using previously acquired experimental images to quickly determine if unvalidated compounds were worth further consideration. Trying to predict. We started with 3,000 compounds, but ultimately we aim to extend this machine learning screening to all of the 1.5 million Novartis-owned compounds. "We need to do smarter screening, not just big screening," Jenkins says.

Machine learning algorithms could be used to classify the various images obtained during a clinical trial and match the characteristics of the data derived to the patient's response to treatment. If so, it will be possible to predict how patients will respond to experimental treatments in the future, and to conduct clinical trials with a focus on those patients who can expect the highest efficacy. Information may be available.

Pharmaceutical research is complex and a consistent computer simulation drug discovery process is not immediately feasible, nor can it be achieved by a single company. "There is still much to learn about how machine learning can be applied, taking into account a variety of relevant factors, such as the characteristics of the disease, the properties of the compounds, and the experimental conditions," said Jean. On the other hand, "I think machine learning can accelerate a number of important processes and speed up many of our drug discovery projects," Jenkins hopes. Machine learning algorithms will recognize that there are subtle differences in how cells respond to different compounds. Top image: Vacuum is formed in the cytoplasm by the treatment of a certain compound. Endoscope x AI (artificial intelligence)

Image: Specialized in endoscope image diagnosis support AI (artificial intelligence) where multinucleated cells are formed by the processing of another compound. We specialize in the digestive system, ie, “esophagus, stomach-small intestine, large intestine”. We aim to realize a system that supports the diagnosis of specialists in endoscopy of “cancer-related lesions”. Our technology has the potential to be used in other medical fields, but we are committed to “endoscope diagnostic support” as our founding philosophy. We are committed to delivering what is truly usable in the responsible setting of health care and saving patients worldwide. Therefore, we are not satisfied with research on core technologies alone, and we do not do contract development. Proceed to the development of the final product and run a fast improvement cycle with feedback from on-site doctors and patients. In recent years, image recognition accuracy by deep learning (deep learning) has surpassed the human eye and has created new value in the world. In addition, you have the opportunity to use your skills, such as statistics, machine learning, and data analysis, to contribute to the advancement of healthcare. Development of AI for detecting lesions including cancer using the latest image recognition technology Management of the world's largest number of endoscope images and videos, and development of services CNN models for services General work related to the above, including embedding Experience in building CNN models using TensorFlow, Caffe, YOLO, etc. Experience in developing general object recognition using machine learning Experience in image processing using OpenCV, etc.

• Publication of papers December 13, 2018

Our research team's paper on "AI diagnosis using deep learning based on ultra-enlarged endoscopy of the esophagus" was published in Esophgus

* Esophgus is the official journal of the Japanese Esophageal Society

• Publications October 25, 2018

Our research team's paper on "Capturing small intestinal ulcer from capsule endoscopy images by deep learning" was published in GIE magazine

* GIE is the top journal in the field of endoscopy published by the American Gastroenterological Endoscopy Society.

• Publications October 24, 2018

Our research team's paper on "AI diagnosis support for ulcerative colitis, an intractable disease of the large intestine" was published in GIE

* GIE is the top journal in the field of endoscopy published by the American Gastroenterological Endoscopy Society.

• Awards received September 19, 2018

Winner of the `` Inception Award '' held at NVIDIA-sponsored GTC Japan 2018

• Publication 22 August 2018

Gastrointestinal Endoscopy (GIE) has published a paper on the world's first "pick up of esophageal cancer using artificial intelligence"

* This paper will cover the January 2019 cover

* GIE is the top journal in the field of endoscopy published by the American Gastroenterological Endoscopy Society.

• Press Release August 5, 2018

The endoscope AI which our company researches and develops was featured in the NHK program "Science ZERO"

• Awards received July 9, 2018

Five presentations (3 oral presentations and 2 posters) were accepted by the Group at UEGW (European Gastrointestinal Week). To be announced October 20-24 in Vienna, Austria * UEGW is the largest gastroenterological society in Europe

• Awards received June 26, 2018

Recognized as a partner company of NVIDIA Corporation's Inception Program, an AI startup support program

• Awards received June 22, 2018

Joint research with National Institute of Advanced Industrial Science and Technology (Japan's largest research institution with more than 2,000 researchers) has been adopted by Saitama Prefecture as a subsidy target

• Awards received June 1, 2018

The group selected 5 presentations (1 oral presentation and 4 posters) for DDW (US Gastroenterology Week) and presented them in Washington, DC, USA

* DDW is the world's largest digestive organ society

• Publication of the paper May 14, 2018

Our research team's article "AI automatic site classification of upper gastrointestinal endoscopy images" was published in Scientific Reports

* Scientific Reports is a sister journal of Nature, the world's most prestigious academic journal.

• Press Release April 6, 2018

The artificial intelligence diagnosis support system under development with CEO Tada was featured on NHK's "Living ☆ Commentary" and Kansai TV's "News Runner" broadcasted on April 6

• Press Release January 22, 2018

Helicobacter pylori gastritis / stomach cancer artificial intelligence diagnosis support system was introduced in Asahi Shimbun, Yomiuri Shimbun, Mainichi Shimbun, Sankei Shimbun

We are developing cross-sections of AI, IoT, AR / VR, Robotics, and Blockchain to eliminate cancers with endoscope AI. When compared to humans, IoT is the five senses that get information. Blockchain is blood and nerves that can be transmitted as reliable information. The brain that integrates and determines that information is AI. Robotics to be the body to output. And AR / VR that functions for various uses like agents. Combine all of these and connect the technology `` Connectome '' to make the space smartCougar's vision is to make it happen. Blockchain technology specialty

Blockchain is a technology that distributes data to computers scattered around the world to create a network that is difficult to destroy and falsify without centralization. It is suitable for realizing the transfer of rights among an unspecified number of participants who do not have mutual trust. This technology has already been used as a distributed ledger, which is the basic technology of cryptocurrencies such as bitcoin.

Amazon and Apple This is similar to the customer service that retailers value. There are various platforms with different specifications and user attributes, such as Twitter, Instagram, Facebook and TikTok. Recently, even in corporate recruiting activities, we have managed our own account using platforms like Linkedin and Wantedly, and we have launched and operated our own recruiting site. Australia's Yojee brings sharing to logistics industry, realizes 3 hour delivery with AI and blockchain

As symbolized by Yamato Transport's review of services and price increases, it is no longer possible to keep up with the surge in luggage in the traditional way. Under these circumstances, Australian logistics service company Yojee is expanding its business by offering services such as "3 hour delivery." What kind of mechanism is you trying to develop your business?

Checking from the collection request to receiving the package with a smartphone The service that is positioned as “Standard” is “Same Day Delivery”, that is, same-day delivery. Delivery by 10pm on the day of collection. However, "3 Hour Express Delivery" is also available as the shortest delivery service. Collecting at the time specified by the client, and delivering to the destination within 3 hours. The company has established a system that can deliver items within three hours, although extra charges are incurred depending on the weight of the package to be delivered and the distance from the collection point to the destination.

Users can request and confirm all requests for collection and receipt of packages using the smartphone application provided by Yojee (Figure 1). If it is a request for pickup, you can specify the time, place, method, etc. that you want to come to pickup from the application. After requesting, you can check in real time how many minutes the vehicle heading for pickup will arrive.

Screen example of a smartphone application provided by Yojee. In addition to real-time chat and delivery status confirmation, job management is provided to service providers such as drivers (Source: Australia's Yojee website)

The same applies when you receive your luggage. You can see the name of the driver of the vehicle heading for the delivery and how many kilometers to get there in minutes. It is also possible to contact the driver directly using the app, so it is easy to change the pickup time.

Yojee itself does not have a logistics function If this alone, it may seem that only a major listed logistics company is using the smartphone app. But in fact Yojee himself does not have any assets for delivery. By recruiting companies and individuals who cooperate with the delivery and linking them together, a virtual logistics network including routes and air routes is virtually formed. The company develops and operates software for linking logistics companies that cooperate. Yes, Yojee, like Uber Technologies and Airbnb, brought the concept of sharing into the logistics industry. In fact, I call my logistics business “Sharing” (Video 1). Today, Yojee's logistics network spans nine countries, with 592 logistics warehouses and 33,100 vehicles participating. Video 1: The concept of a virtual logistics network built by Yojee “Sharing” (2:19) It is a small business or a sole proprietor who is participating in Yojee's logistics network. They usually undertake delivery of packages that major logistics companies cannot handle. However, even during such delivery, it is common that there is empty space on the cargo bed. If you place a request from Yojee in the empty space, you will not only increase the efficiency of use of the vehicle but also receive a relatively high reward from Yojee. Recognizing that the rewards from the big players are low, Yojee is calling for collaborators, appealing that they can get a higher reward.

Companies and individuals who want to cooperate first register their information on Yojee's website. Specify the types of vehicles that can be provided, as well as the company's front and contact information, as well as the days of the week, times of day, regions where you can cooperate. Based on such registration information, Yojee will send a delivery request that meets the conditions. If you carry your luggage to the designated place as requested, you will be paid.

Yojee's screen prompting the registration of transport companies and individuals (source: Yojee's website)

Even if the cost of delivery is reduced by sharing that increases the reliability of the virtual logistics network with the blockchain, continuous business development can not be expected if the package does not arrive on time or is lost on the way . Blockchain technology is being used by Yojee to increase the “trust” of this delivery service.

Blockchain is a mechanism for recording transaction records (transactions) by distributed processing. It is virtually impossible to tamper with the data. Yojee's system records data on the blockchain at each point needed to capture the movement of the luggage, such as when the luggage arrives at the warehouse on the way from the collection of luggage, when the luggage is delivered to the next vehicle, etc. Is.

In order to keep track of the delivery status of such packages, major logistics companies have built a large-scale in-house database and display the delivery status to users from there. By using a blockchain here, instead of a large-scale database system, multiple small servers were assembled to achieve the same function. Yojee's system allows you to pinpoint the current location of your package and, if delivery is stopped somewhere, instruct your dealer to investigate immediately.

Calculate optimal driver and route To support service quality, Yojee also uses artificial intelligence (AI) and machine learning. For example, the optimal route to the destination, the allocation of vehicles and luggage, and the warehouse to go through are calculated using AI and machine learning. Analyzes the current position, usage status, warehouse usage status, etc. of the partner company's vehicles in real time and allocates them to maximize the profit per vehicle.

When calculating the route, we also select the appropriate driver for the route. The route and driver's current data and past delivery history data are evaluated and determined based on more than 30 criteria. These efforts have alleged that Yojee's program has found a way to complete the same amount of work with 23% fewer vehicles than vehicle dispatching programs that do not use AI or machine learning.

We also use AI to accept orders from customers. Apply AI to chatbots and automatically respond to requests and questions from customers (Video 2). Even with the chatbot's response, it is possible to respond to the delivery request sufficiently, the received content is sent to the system in charge of assignment such as vehicle allocation, and the subsequent procedures seem to be a mechanism to proceed automatically.

Video 2: An example of a pickup request using a smartphone app from Yojee Australia. Corresponds to chatbot (18 seconds)

Technology boosts the competitiveness of SMEs While being a logistics company, Yojee does not own the assets to carry the luggage and does not actually carry the luggage. To that end, we are working on data analysis and utilization to achieve higher delivery efficiency on the virtual distribution network by combining many small and medium-sized and individual logistics companies.

Technology will be used to create an environment where small and medium enterprises can compete in the same playing field as large logistics operators, while at the same time allowing small and medium enterprises to benefit from economies of scale. The mechanism developed by Yojee will be a great hint for the screaming Japanese logistics industry.

Blockchain Blockchain Machine learning Overseas case sharing Yojee Route optimization Virtual logistics network Small business

The wonder of Amazon, from front to backend

Logistics function that supports Nitori's continuous growth, aiming for "delivery that enables dialogue with customers" utilizing robots and IT. "Last one mile" problem of courier service, search for a place that can be delivered even when you are absent

A pioneer in `` specify storage location '' delivery, cosmetics FANCL is promoting logistics reform

We will work on the development of artificial intelligence technology that can cooperate with humans, such as cars that do not cause accidents, mobility that anyone can enjoy traveling, and robots that support the dignified retirement of the elderly. ”

International R & D Team

`` I'm excited about Toyota leading the way with blockchain technology to create an open platform that allows users to manage their driving data, '' said Naha Narulla, Digital Currency Initiative Director of the collaborating MIT Media Lab. Was.

Germany's BigchainDB helps create a decentralized ledger for Toyota, and Oaken Innovations of the United States and Commuterz of Israel will cooperate with TRI in creating blockchain apps such as P2P car sharing, vehicle access, payment, and P2P car pooling.

TRI also announced that it will work with U.S. semiconductor giant NVIDIA to develop AI-powered self-driving cars. (Yuichi Nagase Free Journalist, Former Major News Agency Reporter)

LINE Blockchain AI.

Blockchain technology is actually being used in various aspects of the sports industry, cryptocurrencies are also being used as a new means of financing club teams and athletes, and their cryptocurrencies (Cryptocurrency) are used by players and fans. It also serves as an important tool to promote interaction with Here are some of the changes that Blockchain technology will bring to the world of Sports.

• 1. A “place of communication” that directly connects players and fans

• 2. "Secure ticket management" to prevent duplication and forgery

• 3. “New financing” to attract more investors

• 4. "Ideal team management" that fans can participate directly

• 5. “Eliminate corruption” such as illegal trade and bribes

• 6. “Sports industry and business” changing dramatically with blockchain

• 2. Agriculture and blockchain

In the field of agriculture, blockchain technology is used for information management of produced agricultural products. In today's society, where words such as "pesticide-free" and "organic" are gaining attention, the demand for reliable agricultural products grown in a natural environment is increasing.

By managing and sharing agricultural information on the blockchain, we have an innovative way to identify reliable "good quality products."

3. Music industry and blockchain Projects that utilize blockchain in the music industry

Music industry and blockchain: Transparent industries such as distribution, sales and copyright management

The music industry uses blockchain technology for a wide range of purposes, including protecting the copyright of artists, managing data, and facilitating interaction within the community.

Efforts have also been made to make virtual currency available at live events and music festivals, and in some cases the event has actually introduced its own virtual currency. Features such as `` high transparency '' and `` transactions without intermediaries '' of blockchain technology not only solve problems such as `` illegal download '', but also enable direct transactions between artists and listeners Music data can be paid directly to the music producer. , As well as deepen the direct interaction between fans and artists.

On platforms that can publish and sell music on the blockchain, artists can publish their songs and publish them directly on the platform, and people who download those songs can find their favorite artists. In addition to paying direct fees, you will also be able to receive rewards such as virtual currency by posting reviews for those songs.

The blockchain platform, which allows music to be freely distributed and sold on the Internet, reduces costs by eliminating intermediaries, and also allows minor artists who are not affiliated with a label, etc. Gives you a chance to publish your music.

With the birth of the Internet, which has given the music industry more freedom and opportunity, people around the world have the opportunity to be active as "artists". It offers a new way to bring the right rewards to the world and is making a huge contribution to building an entirely new music industry.

4. Automotive industry and blockchain Companies that lead the automotive industry with blockchain

Toyota and MIT use blockchain for autonomous vehicle development

Toyota and Massachusetts Institute of Technology (MIT) begin a joint project to use blockchain technology to develop self-driving vehicles. Announced by Toyota Research Institute (TRI) and the MIT Media Lab, which are researching and developing AI.

In order to develop safe self-driving vehicles, we will research and develop the possibility of storing, sharing, and using big data related to driving on a blockchain, a distributed computer network.

The blockchain is a decentralized system that is monitored by everyone. The vehicle industry × Blockchain: New technology widely used for safety management and environmental protection In the automotive industry, many famous manufacturers have already provided services using blockchain and virtual currency. Announced.

In the case of systems that record the distribution process of parts and products related to vehicles on the blockchain, in addition to guaranteeing the quality of the car, if there is any problem, quickly grasp the problem, Since the distribution status of related products can be checked immediately, problems such as recalls, which were enormously expensive and time-consuming, can be greatly improved.

In services that incorporate blockchain technology into the car itself, by managing all information such as fuel efficiency information, maintenance status, repair history, owner information, etc., not only when purchasing a car, but also procedures at insurance companies, etc. It can also be used as a material to judge the condition of the vehicle when it is finally sold.

Other applications include reducing traffic congestion and protecting the global environment.

5. Construction and construction industry and blockchain. A company that introduces blockchain into construction and construction industry. Blockchain technology is also in construction industry. Managing sensitive data such as blueprints.

In the construction industry, blockchain technology is used to manage important confidential data handled on site.

This industry of building large buildings requires so many materials and processes that companies often work together on one site. Because of this environment, the number of stakeholders entering the site is extremely large, and how to safely manage "important confidential information" such as blueprints has become an important issue.

Blockchain technology is a very effective way to solve such problems. Digitizing drawings and other information not only reduces bulky luggage, but also allows data to be shared in a secure manner only to those who should pass it on.

Applications being developed today can also limit the amount of time that information can be used and the devices on which this data can be managed more securely. These innovative technologies are especially useful when building national buildings.

At the moment, there have been few reports of actual applications, but it can be said that the construction and construction industry is one of the industries where these technologies will surely spread.

• 6. Sports industry and blockchain

`` Sports industry and business '' changing dramatically with blockchain

"Sports industry" that actively adopts blockchain cryptocurrency x sports Summary: The industry and business that changes dramatically with blockchain

In the sports industry, top athletes with worldwide popularity, such as applications utilizing blockchain technology and services using virtual currency, are also active as advertising towers for virtual currency projects, etc. Has also appeared. In the sports world, game apps for smartphones are also popular, and several distributed applications (Dapps) that allow virtual currency to be used in games have been released.

Blockchain technology is widely used in various sports fields such as soccer, baseball, tennis, basketball, American football, and motorsport martial arts.

Virtual Currency x Sports Summary: The Industry and Business That Will Change Rapidly with the Blockchain

In the world of sports, innovative services and applications that utilize cryptocurrencies and blockchain technology are emerging one after another. State-of-the-art project virtual currency × soccer contracts offered by star players and organizations who are the “bearers of the future of the industry” that focused on encryption technology

• James Rodriguez

• Iniesta and Puyol

• Michael Owen

• Lionel Messi

• Luis Figo

• Ronaldinho

• Didier Drogba

•             Keisuke Honda

The baseball industry is working on developing decentralized applications (DApps) using blockchain technology. In the baseball industry, Major League Baseball (MLB) is working on the development of decentralized applications (DApps) using blockchain technology.

Other players have launched cryptocurrency hedge funds for athletes after retiring from the minor leagues. In Japan's baseball teams, Chiba Lotte Marines and others have signed sponsorship contracts with cryptocurrency exchanges and offer baseball players such as "autographed uniforms".

Click here for a summary of baseball-related virtual currency news

In the tennis industry, French star Gael Monfils has signed a sponsorship agreement with eToro, a cryptocurrency investment platform.

He has revealed that he has been investing in cryptocurrency since last year and has actually made a profit.

Gael Monfils, a tennis player investing in virtual currency, and eToro sign partnership

In the basketball industry, NBA basketball team Sacramento Kings is working on mining Ethereum (ETH).

Sacramento Kings has been actively adopting cutting-edge technology for some time now, and mines in the facilities of the Golden 1 Center, an owned arena. The arena uses solar energy to minimize electricity bills, and the profits from mining are used to support a charity called "MiningForGood".

Basketball-related cryptocurrencies

NBA basket team performing virtual currency mining | Sacramento Kings

In the American football industry, the U.S. Professional Football League Players Association (NFLPA) is investing in the blockchain startup SportsCastr.

SportsCastr (Sportscaster) provides a video distribution service using the virtual currency Fanchain (fan chain), and provides a high-definition live distribution service of a wide range of sports games such as football, soccer, baseball, etc. . The service also has a chat function, so users can enjoy sports games in a slightly different way.

Also, NFL players seem to have virtual currencies such as bitcoin, and insiders have revealed that in the locker room there may be excitement about topics such as bitcoin (BTC) price.

NFL star player 'bitcoin' in locker room

In the motorsports industry, the racing team CARGUY has signed a sponsorship agreement with Cardano (ADA). The new car, "CARGUY ADA NSX GT3", created by this sponsor, bears the ADA logo. F1 world champion Fernando Alonso will also be able to store and share his image and video content more securely and ensure that fans and photographers receive the right rewards. Preservation version incorporating blockchain technology

 

Blockchain Comprehensive Summary: Use Cases from Various Industries, Companies and World Countries

Blockchain technology is transforming every industry and industry. It has a very wide range of uses, and has been adopted in the entertainment world such as music and sports from important fields such as agriculture and production, and is actively used in architecture, beauty, politics, elections, and eventually space development. It has been. The following is an introduction of actual application examples of distributed ledger technology, which is said to "revolutionize the world", including its merits, in a way that is easier to understand.

7. Politics, Elections and Blockchain

Use cases of "blockchain" in politics and elections

Elections x blockchain: World politics changing drastically with fraud avoidance, commitment preservation and voting

Blockchain technology has also played an important role in politics and elections.

By adopting election voting using blockchain technology, it is possible to prevent the voting results from being falsified with a very high probability. Incorporating full-fledged decentralized management into elections can also dramatically increase public confidence in voting results.

In some parts of the United States, the technology has been tested to include a mechanism that allows military personnel working outside the region to participate in voting.

However, since much of this content will have a significant impact on future national policies, the actual start of operation has been carefully discussed, and many opinions have been opposed.

It is not clear at this time whether these technologies will be introduced in earnest in the political arena, but research and testing have already begun in leading countries such as the United States and Russia. In other regions, movements for full-scale introduction have begun.

8. Space development and blockchain

Use cases of blockchain in space business

Space Development x Blockchain: Advanced Technologies Supporting the Future of Humanity, Society and the Earth

Blockchain technology also plays a crucial role in making these efforts more efficient. The concept of "decentralization" enables everyone around the world to engage in space-related projects and to connect individuals from around the world who are immersed in the appeal of space.

Currently, there are several cryptocurrency projects that enable the general public to be involved, and projects have actually progressed. Is. NASA (European Space Agency) and ESA (European Space Agency), which have been conducting research at the forefront of space development, are also working to utilize blockchain technology for space development.

9. Beauty industry and blockchain

Beauty industry and blockchain

In the beauty industry, its use is expanding in a wide range of fields, such as "customer information management" using blockchain technology and "point system" using virtual currency.

In South Korea, beauty-related services have been particularly developed and the use of blockchain technology has been actively promoted. In the country, projects are being applied in the fields of cosmetic surgery and cosmetics, which are helping to restore trust and improve transparency in the beauty industry as a whole.

Major companies representing the Japanese beauty industry are also actively researching services that incorporate these technologies, and there are moves to add companies that are engaged in mining (mining) of cryptocurrencies in Japan. You.

Click here for examples of using blockchain in the beauty industry

Cryptocurrency mining

Mining is a way to get bitcoin (BTC). Bitcoin is paid as a reward (coin base) when one piece (block) of transaction information of bitcoin is created. Mining is also the name of the act of repeating mathematical operations to find answers that meet specific conditions.

The beauty industry utilizes “blockchain” to provide a safe and secure environment and services

“BeautyBloc” Blockchain to Solve “Cosmetic Surgery Problem” | Damage from Malicious Treatment Increased in Korea

The beauty industry news related to Blockchain technology and cryptocurrency (Cryptocurrency). Leading companies in Korea and Japan are working on projects to introduce these cutting-edge technologies, such as by making large-scale investments in beauty platforms and developing businesses that incorporate encryption technology. This article introduces some of the hottest cryptocurrency projects that are taking an aggressive approach to the whole world.

1. Trust the cosmetic surgery industry with blockchain | BeautyBloc

BeautyBloc, a blockchain company, is seen as a problem in the cosmetic surgery industry

・ False advertising

・ Hype

Malicious treatment by non-specialist

We are working on activities aimed at resolving such issues and restoring trust in the losing industry.

`` BeautyBloc, '' which is working on a large-scale project based in South Korea, records various information such as `` treatment details '', `` customer data '', `` information of doctor in charge '' on the blockchain, and hospitals and doctors , Insurance companies, patients, and other parties involved.

By recording and sharing treatment-related information in an irrevocable manner, it is expected that fraudulent treatment can be prevented, and that even if a fraudulent act is committed, its contents can be tracked. Is.

2. Connecting Cosmetic Manufacturers and Consumers with Blockchain | COSMOCHAIN

“COSMOCHAIN,” which provides beauty-related applications using blockchain technology, is a large-scale company that is more than 100 million yen from “kakao,” a particularly well-known IT company in the Asian region. Investment.

`` COSMOCHAIN ​​'' also provides an `` SNS platform '' for the purpose of connecting cosmetics users to cosmetics suppliers such as cosmetics companies, brands, manufacturers, distributors, etc. It incorporates a system for paying rewards with its own virtual currency "CosmoCoin / COSM".

The company has already released an application called "COSMEE", and has started a system that rewards users of the application with virtual currency and a service that allows them to purchase products with the received reward.

"COSMOCHAIN"

Large-scale investment in blockchain beauty platform "COSMOCHAIN" | Kakao Korea

3. Acquisition of blockchain company "MinerGarage" | RVH RVH and MinerGarage details

Beauty industry giant RVH acquires blockchain company | Also in mining business

RVH Co., Ltd., a leading company in the Japanese beauty industry, has acquired MinerGarage, a company engaged in cryptocurrency mining and blockchain-related businesses.

By making MinerGarage a subsidiary, RVH will leverage blockchain technology to unify and expand its point services for several well-known brands while working on mining-related businesses. Expand your business

10. Regional Revitalization and Blockchain

Click here for companies working on regional revitalization with blockchain

Blockchain and Regional Revitalization in Kumamoto | Case Studies and Possibilities

In the field of regional revitalization, blockchain technology and cryptocurrencies offer numerous advantages.

These technologies, which enable "distributed information management" and "region-specific economic spheres," allow even small towns and villages to adopt the latest technology at low cost2 And take a whole new approach that was never thought possible before.

By introducing virtual currency such as bitcoin, which is also called "money that can be used around the world", in local areas, it will lead to an increase in the number of foreign and overseas travelers, and deepen exchanges with people from around the world And from there

11. Cutting-edge company blockchain projects

11.1. IBM (IBM)

Blockchain related

・ IBM Blockchain Platform

・ IBM Food Trust

・ Hyperledger Fabric

12. Case studies of blockchain utilization around the world

12.1. United States of America

The United States, the country with the highest number of Bitcoin ATMs, is gaining momentum as several states are working to become leaders in blockchain technology research and development.

Numerous projects dealing with blockchain technology on a national scale, the Customs and Border Protection (CBP) are working on streamlining the verification of imported goods with blockchain, and the Naval Aviation Systems Command (NAVAIR) How to utilize blockchain technology to track aircraft parts.

12.2. Italy

Italy is a member of the European Blockchain Partnership, which conducts R & D on cutting-edge technologies, including blockchain technology. A total of 27 countries have participated in the agreement as of October 2018, and are gradually expanding.

The country, which is working with these countries to leverage blockchain technology, is also undertaking a number of large-scale projects, and Confimprese, an association of leading Italian retailers, In cooperation with blockchain company "qiibee", we are working on reward programs utilizing blockchain technology.

A number of Italian-based soccer clubs are also actively working on the use of blockchain and virtual currencies, and are attracting attention for initiatives such as issuing their own virtual currencies.

12.3. United Kingdom

United Kingdom is actively working on the research and development of these technologies while setting strict regulations in order to fully introduce blockchain and cryptocurrencies. Police in London, the capital of the country, are working on a training program to gain expertise such as "encryption technology" to tackle cryptocurrency-related crimes.

Imperial College London, a public research university in the UK, is also working on cryptocurrencies and blockchains. In a report released by the university in July 2018, it was concluded that `` cryptocurrency will become the mainstream payment method in the next 10 years '', and it will also explain in detail the multiple issues that need to be improved in the future Is.

In the political arena, the use of blockchain has also been seen, and British finance minister Philip Hammond has long been considered an important issue around the country. He states that there is a possibility that "border issues" can be solved with blockchain technology.

Britain has a positive attitude to use blockchain in many respects and is said to be the fourth “blockchain-friendly” country in Europe.

Australia

Australia was one of the first countries to embrace cryptocurrency and blockchain technology. The country, which is working to make cashless throughout the country, will also apply a law that violates the law of making payments of more than AUD 10,000 (about 800,000 yen) in cash from July 1, 2019 doing.

The country, which believes that cryptocurrency is not a bad thing to be used only for "criminal acts", will attract more tourists by introducing cryptocurrency settlement on a solid regulatory base It is thought that it is possible to properly track and manage various money transactions, and detailed rules are being developed for it.

Brisbane Airport, one of Australia's leading airports, has been accepting cryptocurrencies at several stores since January 2018.

South Korea

In South Korea, cryptocurrencies and blockchain technology are widely used. Especially among young people, it is especially popular and the number of stores that support virtual currency payments is increasing, and the trend toward cashless is also increasing.

Seoul, the capital of the country, is planning to issue its own virtual currency `` S Coin '', and Park Wong-soon, the mayor of the region, will actively engage in virtual currency and blockchain related initiatives Has announced that.

In South Korea, which is also very popular in the beauty field, activities are underway to develop blockchain-related services in those fields, and R & D to maximize the benefits of decentralized management is underway. Is underway.

Engate aims to build a long-term relationship with fans and sports teams and athletes, and to launch a service in September 2018 for a “draft community” that uses NEM blockchain technology. As the first step, we plan to develop services in cooperation with 20 teams from 8 competitions.

About tokens (points)

The "payment" issued by Engate on this service uses blockchain token technology. A token refers to a chunk of data generated on the blockchain, and expresses intangible feelings such as "feelings", "promises", "sympathies", and "thanks" as "values".

 

Tokens are used as "points" to express the fans' "feeling of cheering" on teams and players, and are used to indicate "thanks to fans" of teams and players as "rewards". Both are used on services provided by Engate. This token is issued using the NEM blockchain technology, which allows easy setting of attribute information. Also, ICO of tokens issued by this service is not planned

P2P communication using Ethereum blockchainIt is highly likely that a simple diagnosis will be accepted. If introduced and evaluated in developing countries, I think there is a possibility that it will expand in developed countries as needed. Also in Japan, the possibility of partial adoption, such as whether it falls under a disease with few cases such as intractable disease, is not zero. ''

Matsuo points out that “patient watching” using image recognition technology can be put to practical use even sooner.

Although humans obtain a lot of information from the eyes, the AI's image recognition ability has improved to the same level as humans or more, and it is said that abnormalities can be sensed from the patient's facial expression. If it is possible to suppress the need for nurse calls that are not necessary, nurses can concentrate on their primary tasks and lead to increased efficiency.

The technology is completed and can be put to practical use immediately. There are also startups in Silicon Valley. It can also be used for home health care and watching over elderly people living alone, and its application is likely to be wide.

Also in the case of the above-mentioned CT and cytology, it is a doctor's job to create criteria and determine whether the result is correct. In the medical practice, doctors make diagnoses based on a combination of various factors such as the patient's complexion, speed of response, medical history, and occupation, as well as test results. AI can judge a combination of multiple factors, but people always exceed it. It is not easy to create a frame for AI to learn because medical information such as “Recent illnesses” is constantly updated, and there are some elements that cannot be converted into data because treatment results cannot be obtained in a short period of time.

"Comprehensive judgment is absolutely higher in humans. It is a great added value for patients that people who are well versed in medical treatment can understand and treat their condition in the first place. Yes, it will not replace AI. "

Further, which one to choose from among a plurality of treatment methods comes from the dialogue between the patient and the doctor, and this cannot be replaced with AI. The choices vary depending on the environment and attributes, such as having children, being athletes, and living alone in the elderly. It is the part that will surely remain as a doctor's job.

Conversely, if it is decided to administer an anticancer drug, the AI ​​can select an appropriate anticancer drug. In other words, in one medical treatment, the part that the AI ​​plays and the part that the doctor plays are intertwined.

AI diagnoses the test results quickly and precisely, and the doctor checks it. Further, if the accuracy of diagnosis is improved by interviews, higher value-added medical care can be provided, which is beneficial for patients.

"Although AIs are good at remembering and calculating, humans are better at collective strength, creativity and communication skills. Doctors with those abilities will be even more appreciated."

Although there are barriers to practical application, the introduction of new innovations is expected to lead to improvements in the quality of medical care.

Deriving effective insights from vast amounts of unstructured data

Watson attracts great attention in the medical field. It is a "cognitive computing system" (cognitive computer) developed by IBM (Figure 1).

Watson reads and learns large amounts of unstructured data written in natural language. By learning a large amount of medical information, it can be expected that knowledge related to treatment and drug discovery will be derived, which may lead to an improvement in the quality of medical care and a reduction in medical expenses (Fig. 2).

One area that is already being used is drug discovery. Using Watson for Drug Discovery, a joint study between the IBM Almaden Laboratory in Silicon Valley and a pharmaceutical company has begun. It contains patent information on medicines and about 40 million medical papers as a corpus.

The expression status of genes in human cells, which is said to be as large as 37 trillion, and their changes with age are often unknown, and there are numerous published papers. Watson reads a vast amount of information, such as papers and patents, far beyond what humans can read, and attempts to derive new insights from them to gain inspiration for drug discovery. Success stories are emerging. ”Watson is also repositioning existing drugs. Finding other indications can extend the patent term, but the benefits of reducing the cost of existing drugs because they have already passed clinical trials. Japan was more cautious than the West, but several pharmaceutical companies have already begun to evaluate it.

"Researchers have their own areas of expertise, and it is difficult to fully understand all of the wide range of expertise, but Watson has a comprehensive view without bias. It's a hypothesis, not a hypothesis, so it needs to be tested, but I think the time and cost benefits of getting a hypothesis are great. ''

Administrative collaboration and physician evaluation to spread results in the field of cancer clinical research

In the clinical field, Watson-based research at the Mayo Clinic and MD Anderson in the United States is underway. In the field of genomic medicine, we have been conducting joint research with the New York Genome Center (Fig. 3).

In Japan, clinical research using Watson is being conducted at the Institute of Medical Science, The University of Tokyo. In particular, the case announced in August 2016 became a big topic. This is a case of a female patient with acute myeloid leukemia who has been treated with two types of anticancer drugs for half a year but has recovered slowly and also has sepsis.

The analysis using Watson provided information about the gene mutation as a new focus from the patient's genetic information, which helped researchers at the University of Tokyo Medical Research to determine that it was "secondary leukemia." The woman has since been recovering and is continuing to go to hospital. Man

In Watson, it takes about 10 to 20 minutes to interpret the gene mutation information of tumor cells, which takes time, and to search for an appropriate drug candidate.

"In this case, I feel that physicians have recognized the importance of effectively utilizing enormous genetic information, accumulated cancer research results, and medical information such as clinical trial information. I did. "

Regarding the future spread in Japan, "Similar to autonomous driving of cars, there are cases where technological development with a large impact will run first and lead to a review of the legal system. I think it's very important that they are evaluated for their credibility and then gain their administrative support. "

The speed of penetration is unknown, but Mr. Mizogami said, "First of all, I think it would be appropriate to introduce the technology to clinical research at a medical institution that has processes such as the Tumor Board and Cancer Board for performing cancer treatment in team medical care. "

The Tumor Board makes a comprehensive decision about treatment using a variety of test data and past clinical information, and one of the factors to consider is adding a Watson report. Utilization is likely to increase in university hospitals and cancer centers where such mechanisms are available.

Currently, there is a move to promote cancer research in the United States, Japan, and South Korea in cooperation with each other. However, "The United States has an ambitious initiative to achieve results in 10 years in cancer research in 5 years. I think it will affect Japan as well, and I hope that a system like Watson will help at that time. "

What will the role of doctors be when such systems become more widespread?

"Artificial intelligence will continue to attract attention from the perspective of its use in medical research and medical practice. The role of a physician will not change because humans make the final decision. We would like to do our best so that you can understand the benefits of technology. "Some say that it is necessary to educate and develop human resources, including how to deal with AI technology, including ethical aspects. However, IBM Research has commented on the invitation from the US White House to request material, and I would like many people to read it. "

The cloud service Azure has acquired the Cloud Security Gold Mark II, and it can also comply with the three ministry 4 guidelines II that medical institutions should follow when storing medical data in external equipment. In addition, in the medical field, in many cases, a connection using a VPN or a dedicated line is selected, so a completely closed environment can be constructed. "

Indeed, it is difficult for healthcare facilities to achieve the same level of security individually, and installing and maintaining facilities that can handle and manage vast amounts of data can be prohibitively expensive.

Microsoft Japan has three pillars in the cloud business in the medical field, and at the same time, it will also be a countermeasure for continuity of medical care plan (BCP) and eventually lead to regional medical cooperation

By bringing mobile environments to medical treatment, nursing, and nursing care sites to improve convenience and improve work efficiency, the quality of medical treatment and care can be expected to improve. As a support tool for home and telemedicine, it can be a clue to solve problems such as shortage of doctors and regional medical gap. The third is "big data analysis", which aims to improve the efficiency of analysis by AI and machine learning, and to use the analysis results (= model) for diagnostic assistance and medical judgment, and to monitor patients in combination with IoT. It can also be used for health management, remote guidance, and interventions to prevent aggravation (Figure 4).

According to Tamaru, "There is a basis for what humans can achieve with experience and feeling, and when data can be obtained from sensors, devices, etc., they are generally replaced by AI." If the burden of work can be reduced, doctors

This will give you time to do what you can only do, and may increase the quality of your medical care and your satisfaction with your work.

"We will understand the needs of the medical field and consider how existing technologies can solve the problems, while at the same time promoting compliance with regulations and laws." (Aihara)

Successful reduction of labor and cost of SDV II work in clinical trials by enabling remote reference of data has the potential to promote drug development. In addition, efforts to predict adverse events of biopharmaceuticals using machine learning are examples that can be applied to various studies that contribute to medical progress.

"The combination of the existing technologies of cloud, image recognition, textualization of information, and voice conversion will make it almost instantly recognizable that a blind man is awake in front of him (Figure 5). In addition, for example, children with autism who are not good at interpersonal communication may be able to talk with a robot, which has the potential to exceed the limits of medical care. "(Tamaru)

Aggressive adoption of AI and cloud in healthcare is likely to bring about innovations that could not be imagined in the past.

• * 1 Granted to businesses that comply with the ISO (International Organization for Standardization) standards and cloud security management standards based on the guidelines of the Ministry of Economy, Trade and Industry and whose safety is recognized by external audits

• Widespread information cooperation through advanced ICT infrastructure

Promote integration and utilization of health / medical / nursing data

Another use is PHR (Personal Health Record: a system in which each citizen manages and uses his / her own health, medical and nursing information, etc.), including personal data such as exercise amount, diet, vital data such as blood pressure and pulse. Includes information owned by. In addition, efforts are being made to digitize maternal and child health notebooks, medicine notebooks, disease management notebooks, and care prevention notebooks, and integrate medical checkup information and regular school checkup information.

"First of all, we need to" visualize "them and combine information to connect them to healthcare services according to their life stages and health status."

Specifically, `` We are able to provide services that are unprecedented, such as providing guidance for health guidance and dietary habits, responding to emergency transportation, and in maternal and child health, not only informing of vaccinations but also securing vaccines for applicants "(Figure 3).

In the PHR, various services are often used through the application of the mobile terminal. The Ministry of Internal Affairs and Communications is also developing a PHR application as a three-year project on the theme of maternal and child health, disease prevention, lifestyle-related disease prevention, and coordination of medical examination as a research project of AMED II.

Realization of diagnosis support and treatment selection support combining not only genetic information but also test information and living information

Realization of behavior prediction of surrounding vehicles mounted on self-driving vehicles AI utilization field

• Moving space

•             Productivityo Manufacturing

o Service industry

• Health / medical / nursing care

• Safe and secure

• Other

o Basic technology

o Infrastructure, etc.

An artificial intelligence (AI) doctor, developed by UK-based medical startup Babylon Health, has been shown to be able to provide medical advice as good as a human doctor. The AI ​​system, which can be used on patients' mobile phone apps via chat or on a website, is undergoing rigorous testing in collaboration with the Royal Medical Association and researchers at Stanford University and the Yale New Haven Health System. I was

One of them was a medical diagnostic test that a British resident took to practice independently as a general practitioner. Residents have averaged 72% over the past five years, while AI scores have reached 81%.

Another trial, which broadened the range of symptoms and illnesses and adapted to more realistic situations, competed with seven experienced physicians. Here, the AI ​​score was 80%, compared to 64 to 94% for human doctors. In general symptom-only trials, human physicians ranged widely from 52-99%, while AI reached 98%.

According to Babylon Health, the AI ​​can learn by interacting with humans and accumulate knowledge about the latest research. Therefore, the accuracy of diagnosis may be further improved in the future.

These results show the limitless potential of AI. It could reduce the burden on doctors, make quick and accurate diagnoses, save time and reduce costs.

"Even in the richest countries, outpatient clinics are becoming less available. Waiting times are longer and it's harder to get consultation

Parsers admit that AI has its limitations. For example, there is no substitute for the physical and human care provided by a human doctor.

"But at the infrastructure level, the cost savings of AI's healthcare services are huge," Parser says. "In addition, AI can play a major role in raising the level of health care, including disease prevention, by raising awareness and promoting health care."

Prevention of oversight of lesions with artificial intelligence, the fastest AI practical field in the medical field-

 

時代 The age of “AI medical diagnosis” is approaching, where artificial intelligence (AI) finds signs of illness that even an experienced doctor can overlook. According to a research company, Fuji Keizai (Chuo-ku, Tokyo), compiled in May of this year, "2018: The Future Outlook for Seamless and Cloudization of Medical IT and the Medical Big Data Business", "AI-based medical image diagnosis support system The market is expected to start around 20 years and is expected to reach 3 billion yen in 2013. At the Osaka Expo held in 2013, the theme was "Designing a shining future society", and "AI medical diagnostics", a leading field of medical care, will be a hot topic in the future.

 

● AI medical diagnosis is an invention equal to CT and MRI

 

"AI medical diagnosis" refers to the application of deep learning (deep learning), which is the mainstream technology of AI, based on images of a patient's body, and indicates the sites and malignancy that are likely to be ill. A technology that helps doctors make a final diagnosis. Currently, pathologists who perform pathological diagnosis and radiologists who perform image diagnosis are chronically short of labor, and it has been pointed out that this has led to oversight of lesions such as cancer, but with the introduction of AI medical diagnosis, If work efficiency is improved, it will lead to prevention of oversight, and the interest in medical practice is high. "Introduction of AI to diagnostic imaging will be on par with the invention of computed tomography (CT) and magnetic resonance imaging (MRI)" (healthcare professionals), the earliest in the medical field. Some believe that it will become an AI practical field.

 

● Provide big data to the diagnostic imaging field one year ahead of schedule

 

There is also a policy boost for AI medical diagnosis. The Ministry of Health, Labor and Welfare plans to start a full-scale operation of the healthcare data platform `` Health and medical data platform '' in FY 2008 by linking big data for health, medical care and nursing care, and making it available to medical institutions, insurers, researchers, and the private sector. The field of AI-based diagnostic imaging is set to move ahead. The data platform includes "Health and Medical Record Sharing", "Emergency Medical Information Sharing", "PHR (Personal Health Record) and Health Scoring", "Data Health Analysis", "Infant and School Child Health Information", "Scientific" There are eight areas: nursing care data provision, cancer genome, and artificial intelligence (AI). It is said that it will begin in the spring of 19 as early as the year. There is a view that this will further advance the technology development of image diagnosis using AI, and there is a possibility that 2019 will be the "first year of AI medical diagnosis".

 

● Cybernet receives approval for colonoscopy diagnosis support software

 

Currently, there are many devices that perform AI medical diagnosis at the stage of clinical trials by medical institutions, but there have been results such as an increase in the correct answer rate in image diagnosis to check for cancer.

 

Of particular interest is the EndoBRAIN, a colonoscopy diagnosis support software that was approved by the Cybernet System <4312> on December 6 under the Pharmaceuticals and Medical Devices Act. From the images taken by the Olympus <7733> ultra-magnifying endoscope, infer the neoplastic polyps that need to be removed and the non-neoplastic polyps that do not need to be, and show the doctor the possibility (percentage) of the tumor. The system will be launched in consultation with Olympus, the distributor, in the future.

 

It is also noteworthy that Olympus has been developing artificial intelligence (AI) software to support pathological diagnosis of gastric cancer in collaboration with Kure Medical Center and China Cancer Center.

 

● AI medical diagnosis in the ophthalmology field that is preparing for practical use

 

In an AI medical diagnosis using an endoscope, NEC <6701> collaborated with the National Cancer Center and other organizations to use colorectal cancer and precancerous lesions (AI) using AI technology that utilizes deep learning suitable for image analysis. Developed a system to detect colorectal neoplasms in real time during endoscopy. Fujifilm Holdings <4901> is also developing AI technology to support diagnosis using endoscopes, such as marking potential lesions in real time during observation using gastrointestinal endoscopes. We are driving this field together with Olympus.

 

On the other hand, in the field of ophthalmology, Cresco <4674> has developed a mechanism to support ophthalmic diagnosis using AI in cooperation with Nagoya City University. The OCT (optical coherence tomography) image of the patient's fundus is compared with past data to derive a highly probable disease name. It was launched in November 2017 for medical device manufacturer research. The technology is also of interest in the stock market, and its practical application will have a large impact on stock prices.

 

 Optim <3694> has partnered with Saga University, etc., and Okay Wave <3808> [NSE C] has partnered with Keio University, etc., to develop AI-based ophthalmic disease diagnosis technology using fundus photographs. Topcon <7732> has partnered with US startup IDx Technologies (Iowa) for a system that uses AI to diagnose signs of diabetic retinopathy, all of which are receiving attention.

 

● Attention to companies investing in AI medical diagnostic ventures

 

In addition, M3 <2413>, in collaboration with Optim, will be able to use AI in medical systems for medical image diagnosis and in-hospital systems such as PACS (medical image management system) in the world. Construct an open platform "Doc + AI" equipped with it. I would like to pay attention from the viewpoint of supporting AI medical diagnosis.

 

In addition, CYBERDYNE <7779> [TSE M] and Techmatrix <3762>, which will invest in El Pixel (Chiyoda-ku, Tokyo), an AI medical diagnostic venture from the University of Tokyo, along with Olympus and Fujifilm, are also related stocks. I would mention it.

Utilization of artificial intelligence (AI) at medical sites is "effective" for diagnosis support, telemedicine, and hospital management

Medical institutions that are introducing artificial intelligence (AI) related systems are increasing. Many healthcare professionals are recognizing the potential benefits of both patient care and work management.

Seven Bank, Ltd. (Blockchain)

SoftBank Corp. (Demonstration experiment of international fundraising platform)

Internet Initiative Japan Inc. (Blockchain / Technology Workshop)

Daiwa Institute of Research Co., Ltd. (Demonstration experiment on Myanmar capital market)

GMO Global Sign Co., Ltd. (personal identification system on blockchain) NEC Corporation (consulting) ITOCHU Techno-Solutions Co., Ltd. (in-house developed experimental system)

Major telecommunications company (Bitcoin related service)

Currency Port Co., Ltd. (tests, etc.)

Multiple startups (sales, exchanges, etc.)

In addition, many (in no particular order, title omitted)

Individual achievements

Nomura Research Institute, Inc., Nomura Securities (demonstration experiment in the securities field)

Mizuho Financial Group, Microsoft Japan, Dentsu International Information Services (ISID), Currency Port Co., Ltd. (Syndicated loan demonstration experiment)

Japan Exchange Group (JPX), Nomura Research Institute (NRI), Nomura Securities, SBI Securities, Mitsubishi UFJ Financial Group (MUFG), etc.

Certain maker (stamp-related demonstration experiment)

Construction and translation of Japanese sites for global bitcoin-related projects

In addition, many. (Titles omitted)

Medical IT | Machine Learning | Privacy

Artificial intelligence (AI) and machine learning are changing many areas of the healthcare industry. Its scope extends to patient care and services, general care, diagnosis and treatment.

There are many business opportunities for using AI applications in the medical field, such as identifying the vast amounts of data and patterns created by medical institutions and improving the capabilities of doctors, healthcare professionals, and staff. From the basics of mathematics necessary for machine learning to practical deep learning programming using the deep learning framework Chainer ™, explanations and source code are explained together. The table of contents is as follows.

1. The basics of mathematics necessary for machine learning

2. Basics of Machine Learning Library

3. Basics of Neural Network

4. Deep Learning Framework Basics

5. Practice: MRI Image Segmentation

6. Practice: Cell Detection from Microscopic Images of Blood

7. Practice: Sequence analysis using deep learning

8. Practice: Time series analysis of monitoring data using deep learning

 Lecture materials page: https://japan-medical-ai.github.io/medical-ai-course-materials/

• GitHub repository: https://github.com/japan-medical-ai/medical-ai-course-materials

• Japan Medical AI Society Certified Qualification (Medical AI specialized course): https://japan-medical-ai2019.org/qualification.html

 The leader of the Pathology Informatics Unit at RIKEN's Center for Integrative Intelligence is also involved in cancer medical research using AI. With the support of the Japan Agency for Medical Development (AMED), we will develop medical AI from Japan in 2016. Make multiple AIs learn data such as photographs (pathological images), clinical information and genes of sections of cancer tissues and cells, and analyze them by combining them. The aim is a system that measures the malignancy of cancer and selects the most appropriate treatment for each patient.

Image analysis has high affinity with AI. Some studies have achieved the same level of detection of lymph node metastases in breast cancer as pathologists. The use of AI in such pathological image analysis is generally easy to understand.

Currently, medical treatment has a high level of expertise in organs such as breast cancer and colorectal cancer. Yamamoto aims for medical AI based on this medical tradition. AThe data to be analyzed in I is necessary in quantity, but its quality is important. Correct learning cannot be performed for information not included in the data.

In pathological diagnosis of cancer cells, cells cut to a thickness of 3 micrometers are stained and viewed, but Japanese technology has gained a high reputation worldwide. In addition to genomic data, we have advanced analysis techniques and data on proteins, metabolites, and cells surrounding cancer cells. "If we take advantage of these strengths, medical AI can fully demonstrate Japan's presence," says Yamamoto.

However, diagnosis is a medical practice and can only be done by a doctor. All AI does is help doctors. Checking a large amount of images and picking up abnormalities, predicting the treatment effect with high accuracy from various medical data, etc., mainly support detailed work that takes too much time with human power and efficient processing of huge amount of information . As a result, doctors can concentrate on medical treatment and improve the quality of medical care in total. Sharing the “skills of the craftsman” with AI

There are also active moves to use AI to diagnose familiar diseases. Medical AI venture Iris, established by emergency physician Sho Okiyama in November 2017, aims to support AI-based influenza diagnosis.

Early diagnosis of influenza is difficult. Even if the patient feels painful by inserting a cotton swab into the back of the nose, the diagnostic accuracy is low unless the patient has been infected for 24 hours. Inspection accuracy is 60% even after 24 hours. Even in the case of a negative, 40% of the cases were actually influenza.

The research conducted by Iris was adopted by a project of the New Energy and Industrial Technology Development Organization (NEDO), and data collection will start in the winter season of 2018. The better the number of good data, the better. As a destination for collecting throat image data, collaborative research with multiple clinics and hospitals is performed. Since diagnosis is a medical practice, only doctors can do it. All AI does is help doctors. Checking a large amount of images and picking up abnormalities, predicting the treatment effect with high accuracy from various medical data, etc., mainly support detailed work that takes too much time with human power and efficient processing of huge amount of information . As a result, doctors can concentrate on medical treatment and improve the quality of medical care in total.

By finding influenza-specific swelling of the pharynx and influenza follicles, skilled physicians can identify influenza with nearly 99% accuracy.

The “craftsmanship” that can only be performed by specialists among experts who have been conducting throat consultations for decades. "It may take 30 to 40 years to reach this area," says Okiyama. AI is good at inspecting doctors and pattern recognition of visual information. Aside from the doctor, Okiyama, a researcher at the AIST at AIST, thought, "If you collect photos properly, you can reproduce the same thing."

The research conducted by Iris was adopted by a project of the New Energy and Industrial Technology Development Organization (NEDO), and data collection will start in the winter season of 2018. The better the number of good data, the better. The company plans to conduct joint research with multiple clinics and hospitals as a destination for collecting throat image data.

It will be done. Data is not just a collection of numbers. For good navigation, AI needs to learn high-quality techniques. To this end, we are collecting data in collaboration with the National Cancer Center and the Japan Society of Endoscopic Surgery, and preprocessing (cleansing) and tagging (annotating) data to select good data. He is working on an enormous amount of work to check the hundreds of surgeries stored at the cancer center.

Despite the difficulties, "The first thing we develop is navigation to support the surgeon, the same as autonomous driving." The research on endoscopic surgery and the application to medical devices equipped with AI in the future are also being considered. In addition to endoscopic surgery, MRI, CT image analysis, and perinatal medical care are also preparing to use AI. Hurry to make comprehensive rules

If these medical AIs penetrate, there is no need to perform treatments that are not suitable for patients, and the quality of medical care can be improved. In addition, waste of medical expenses can be suppressed thereby.

"Some parts have already reached the level of practical use due to improvements in AI, such as data storage and deep learning. Once commercialized, there will be no loss of technology over the long term by entering society," said RIKEN. Yamamoto expects. In the future, imaging of pathological specimens will speed up diagnosis and open the way for remote medical care. Furthermore, if AI and Japan's high-precision robot technology can be integrated, the inequality in surgery may be reduced without limit.

However, this requires the development of laws and systems. Even at Iris and MICIN, there are no precedents for AI medical devices / systems in Japan at present, and there are various unresolved issues such as the approval process, definition and intellectual property rights. For this reason, at the moment, not only the parties concerned, but also the stakeholders such as the government and companies have to work together while discussing each other, which takes time. "Comprehensive rules need to be created, or else we won't be able to compete overseas."

The Japan Society for Medical AI, which just launched in April this year, provides a place to solve these problems. Not only doctors and AI technicians, but also IT technicians such as cloud and cyber security, and lawyers such as personal information protection gather all sorts of human resources. Therefore, issues are raised, discussed, and solutions are proposed.

We must avoid premature discussions ignoring safety, but the healthcare field is a frontier that remains in the development of AI, which is said to be behind the US and China. Institutional design that could show Japan's presence in this field seems urgent.

AI useful for "recognition", "prediction" and "optimization"

上 After that, he explained the current state of artificial intelligence (AI). The background of AI's attention is that (1) the development of net and cloud technologies and the generation of large amounts of data (2) that computers have evolved with the increase in computational speed (3) robots, go, etc. , A catchy case has appeared.

Originally, there was an interactive program as the prototype of AI. In ELIZA (Eliza) made in 1966, simply returning words with a parrot return, attention was paid to the effect of improving depression. One such evolution is Apple's Siri. In addition, a mechanism called MYCIN (mycin), which is a flowchart for diagnosing disease, appeared in the 1970s. It presented a treatment strategy for infectious diseases, and did not enter the clinical setting at this time. Later, IBM's Watson appeared as an evolutionary form, and it has become possible to make more accurate diagnoses than general physicians, and deep learning (deep learning) is continuing to evolve.

Deep learning is a mechanism that statistically analyzes the correlation between the data and the answer so that the answer can be derived through learning. Instead of entering conditions to judge things, it is now possible to handle "abstract concepts" that are difficult to define. For example, now, when an image of a cat, a dog, or a bear is shown to learn which animal, any unusual face can be determined to be a cat if it is a cat.

沖 On the other hand, Mr. Okiyama points out that there is a possibility that the range of application may be expanded, but there are also concerns about abuse. As an example, he presented a video in which he learned the movements of his face when he spoke based on photographs of former US President Obama, and talked just like himself.

Mr. Okiyama cites “recognition”, “prediction” and “optimization” as the value brought by AI. It means recognizing sentences and voices, inferring past trends, and selecting the most appropriate means.

画像 As an area that advances in the medical field, image diagnostic technology is well known. The technology to find lesions from X-ray and CT images has been developed through deep learning. Jeffrey Hinton, who was a radiologist at the University of Toronto in Canada and later moved to Google and was the "father of deep learning," said, "We need to finish training radiologists. It's clear that this will be higher. " Also, Mayo Clinic neuroradiologist Bradley Ericsson said, `` AI will be able to create radiographic reports of chest and breast x-rays in 5 years, CT, MRI, and echo in 10 years. '' (Both in 2016), brought pros and cons.

Mr. Okiyama pointed out that as an example of the possibility of AI in medicine, it was possible to diagnose N: 1 with too many variables to be processed by humans.

技術 About 50 years since machine learning appeared, and about 5 years since deep learning appeared, the technological progress is rapid. In Japan, in addition to image diagnosis support, the use of AI is being considered in fields such as genomic medicine, diagnosis and treatment support, drug development, care and dementia measures, and surgery support.

Robotics enhances human capabilities

Next, we will explain robotics (robot engineering). He showed the surgical robot da Vinci as a typical example of robotics, and expressed the idea that it would "expand human abilities." Da Vinci enables things that people cannot do with three arms, a 3D endoscope, a zoom function, and a joint with a wide range of motion. For example, it is a function that suppresses tremor (a rhythmic fine vibration that occurs independently of intention). As the human moves his hand by 5cm, the robot arm actually moves by 1cm, realizing a motion scale (reducing the width of the moved hand to convey it).

Da Vinci's manufacturer, Intuitive Surgical of the United States, has also developed a robot that automatically sutures the intestinal tract. In 2016, a test in which pigs were cut and resewn the intestinal tract was said to have succeeded in reducing leakage after suturing compared to humans. Resync Robotics, Inc. of the United States has also developed a self-propelled robot, Baxter, that automatically solves issues. It can be used for many purposes without programming, which is changing the cost structure of the manufacturing industry. In addition, robotic kitchens that make dishes from ingredients are also on the market.

Mr. Okiyama cited the following as possible robot applications: (1) substitution of human resources; (2) commoditization of specialized technology (expansion of motor skills); "Do what people were doing instead", "Allow people to do what experts were doing in general," and "Increase information that can be obtained such as temperature and magnetic force."

In the medical field, ① can automate simple operations such as blood collection, infusion, and LASIK. In (2), the fingertips do not tremble, the sutures are uniform, and the endoscope does not hit the intestinal wall, and can reliably stop bleeding. In (3), the temperature, magnetic force, material texture and density of the surgical site become “visible” through integration with sensors, VR (virtual reality), and AR (augmented reality) technologies.

Furthermore, the differences between VR, AR, and MR (mixed reality) are explained. As the value brought by them, (1) operability of time, (2) operability of space, and (3) expansion of the five senses. We introduced a surgical training simulation using VR as an example of application in the medical field.

Finally, Mr. Okiyama emphasizes that the development of technology may accelerate rapidly in the future, while treating diseases using technology is a `` means, '' which will reduce the anxiety and worries of patients and make them feel convinced. He emphasized the point of "purpose".

Five application fields: medical image analysis, auxiliary diagnosis, drug R & D, health care, and disease prediction

Artificial Intelligence (AI) Medical White Paper

Investment in Enlitic, a U.S. developer of AI-based medical diagnostic imaging systems, and exclusive business alliance for business in the Japanese market

Marubeni Corporation

Marubeni Corporation ("Marubeni") has decided to undertake a third-party allotment of capital by Enlitic, Inc. ("Enlitic"), and has entered into an exclusive business alliance agreement (" , "The Alliance"). Through this alliance, we will develop and sell a medical image diagnostic system (hereinafter, “this system”) developed by Enlitic that uses artificial intelligence (AI) for the Japanese market.

This system, developed by Enlitic, applies AI-related technology, Deep-Learning (deep learning) to medical data, allowing doctors to diagnose diseases such as malignant tumors caused by image diagnosis (X-ray, CT scan, MRI, etc.). A support system for accurate and early discovery. Enlitic is prioritizing the development of chest x-ray images, which are most commonly used in diagnostic imaging in hospitals and are often overlooked. Enlitic has accumulated 10 million cases of image data, the world's highest data count, and high detection accuracy is expected. We are also developing diagnostic systems for CT scan images of the head and chest and mammography images.

In the medical environment, there is a shortage of radiologists who diagnose images taken at hospitals due to the advent of an aging society with a declining birthrate, and the burden on doctors is increasing. This system is expected to play a role in eliminating the shortage of doctors by improving the efficiency of diagnostic imaging, and enabling early detection and support for reducing misdiagnosis by improving diagnostic accuracy.

The digital health (*) field, including AI-based diagnostic imaging, is expected to reach a global market of more than $ 100 billion by 2020. By establishing a digital healthcare platform in Japan, it will be possible to provide comprehensive diagnosis support services using AI, accumulate and manage medical data in Japan, and provide image diagnosis services in remote and depopulated areas.

Marubeni will reorganize the `` IoT / Big Data Strategy Office '' newly established on April 1, 2017 with the `` Digital Innovation Department '' on April 1, 2018 to create a new business model by utilizing digital technology. I am promoting it. Toward the coming of digital healthcare society, we will cooperate with many medical AI technology partners and contribute to the development of digital healthcare field in Japan by building a preventive / diagnostic system using AI medical treatment in the future. .

(*) New healthcare products and services utilizing AI and other advanced technologies

Based on the various medical information obtained by utilizing the QA system incorporating AI, we pharmacists will provide medical care and drugs to each patient individually. '' Nishigaki of the research center said so.

 

The National Cancer Center is building a high-level medical information database by sharing it with facilities with specialized knowledge, and has begun to develop an AI Q & A system (AI chatbot) that provides interactive information. The partner is Kimura Information Technology, which has a reputation for developing chatbots using IBM Watson and is strong in the pharmaceutical industry.

 

On February 25, Kimura Information Technology held the latest trend in the use of artificial intelligence (AI) in the field of medical pharmacy (I). Kimura Information Technology, National Cancer Research Center, Hoshi Pharmaceutical University, Institute of Advanced Life Sciences, including how AI systems using IBM Watson are being used in pharmacist work, including future prospects , Okayama University Hospital came on stage as a guest, and talked about their efforts.

Fujifilm has introduced AI technology in areas such as diagnostics and imaging of social infrastructure using images. In order to develop these technologies and pursue further possibilities, in October 2018, we opened the FUJIFILM Creative AI Center “Brain (s)” in Marunouchi, Tokyo, in October 2018. did.

The goal of "Brain (s)" is to create a place where the brains of people symbolized by the "brain" fuse and evolve around artificial intelligence (-ai-). To that end, we will further strengthen cooperation with academia, such as RIKEN and the University of Tokyo Graduate School, and launch the “FUJIFILM AI Academy,” which aims to foster next-generation AI / ICT human resources. In addition, we will start implementing open innovation that creates collaboration with startup companies. In order to promote these three initiatives, Japan introduced the first deep learning supercomputer in Japan based on the NVIDIA DGX-2, which boasts the world's fastest (* as of November 21, 2018) computational processing capacity, and has been the first in Japan. We are building a top-level research environment. The world's leading AI technology development is about to begin with "Brain (s)".

What kind of new world is Fujifilm trying to achieve by advancing the development of AI technology? We asked the two developers of the company the prospects.

Fujifilm, which has been pursuing image processing technology for more than 70 years, has led the world in digitizing X-ray diagnostic imaging and bringing innovation to the medical field. In 2008, we released the 3D image analysis system "SYNAPSE VINCENT", which visualizes two-dimensional tomographic images of organs and blood vessels taken by CT and MRI as stereoscopic images. Rendering more precise three-dimensional images from two-dimensional medical images has been positioned as the core business of the IT business.

In 2017, we developed the “5th generation” of “SYNAPSE VINCENT”, which has improved analysis capacity for large volumes of data. At present, it is aiming to realize the AI ​​technology "REiLI" that supports doctors' image diagnosis more powerfully by combining the image recognition technology cultivated so far and deep learning (deep learning).

"REiLI" is a new brand of medical AI technology born under the vision of "creating new value by co-creation of human and AI technology". Fujifilm aims to brighten the future of medical treatment by utilizing AI technology in the area of ​​image recognition.

Fujifilm is able to take on these challenges because it has a long history of top-class technology and product share, with the early start of image analysis technology development. The company has access to a vast amount of image data and a network with medical sites, enabling the company to pursue new possibilities for AI technology.

Aim to improve diagnosis speed and efficiency with AI

 

What will happen to the medical field by realizing a new diagnostic imaging workflow with the AI ​​technology "REiLI"? Developers say there are three main developments.

1. Improvement of diagnosis speed

"Image analysis using AI technology will allow us to quickly identify which organs are in which locations. SYNAPSE VINCENT has been color-coding organs, blood vessels, bones and muscles. We have provided a system to assist physicians in diagnosis.We aim to be able to present more accurate information quickly in image analysis using AI technology in the future. "

There are many organs in the human body, some of which have large individual differences such as the pancreas, and some of which are very small and difficult to identify. Image recognition technology, which provides easy-to-understand indications of the possibility of illness in a limited time every day without oversight or mistakes, is a powerful diagnostic support tool for doctors.

2. Aiming to improve diagnosis and treatment

"If the introduction of AI technology makes it possible to display the state of the body and the progress of disease as objective figures, it is expected that the type and amount of medicine to be administered will be more appropriate. As a result, we hope that we will be able to elaborate a more effective drug administration method with less burden on the body and improve the treatment efficiency. ''

"Also, the improved accuracy of image recognition technology with AI technology will allow doctors to plan more detailed surgery. For example, when removing tumors, 3D images visualized from tomographic images We will be able to see the surrounding blood vessels and simulate to minimize bleeding, which will enable patients to recover faster and reduce the burden after surgery. "

In the case of endoscopic abdominal cavity surgery, which used to be able to ascertain the state of the body only within the range that can be captured by a camera, real-time video during surgery is combined with image analysis information using AI technology. It is expected that more effective treatments will be possible.

What AI technology can do and what only humans can do

 

3. Automated diagnosis report creation

The third is support for creating diagnostic reports using AI technology. If the name of the disease and the current state of the body can be transcribed and quantified, the work load on the medical site is greatly reduced. This allows doctors to spend more time on things that only humans can do: diagnosis, studying treatment, and communicating with patients. If AI technology contributes to improving the productivity of medical practice and assists physicians in their work, it can directly save patients' health and lives.

"No matter how advanced AI technology is, doctors always make the final diagnosis. AI technology helps to collect data to support the diagnosis, reducing the mental burden of doctors who make important decisions. There's the benefit of being connected. ''

In recent years, as the amount of data such as the number of images handled at medical sites continues to increase, expectations for AI technology, such as improving the way doctors work, reducing mental and physical burdens, and preventing medical decision mistakes, are It can be said that it is getting bigger and bigger.

Open innovation that connects the latest technology and medical practice

 

According to the developers, the actual operation of the REiLI AI technology will rapidly expand from 2019 to 2020 after obtaining regulatory approval. In order to directly reflect the results of accelerated AI technology R & D in actual systems, Fujifilm has established a partnership with a partner company that promotes cutting-edge R & D through Brain (s). Strengthen cooperation.

"No matter how confident a system can be developed, new products from emerging ventures are rarely introduced into healthcare settings. In order to adopt these latest technologies, networking with healthcare settings is important. On the other hand, since the age of analog X-ray film, FUJIFILM has a long track record of reflecting the voice of medical sites in technology, as well as X-ray equipment, endoscope systems, and ultrasound. We are also working on medical equipment such as diagnostic equipment, and the environment where we can demonstrate the effectiveness of the technology in-house and propose it to the medical field is a very blessing for researchers. "

Fujifilm, which can connect the developed technology to actual medical practice, will become a hub of open innovation, so that academic institutions and R & D ventures that pursue R & D on AI technology will create new value. Can be. By combining technologies and knowledge, we can accelerate technological innovation and create new value that is ahead of the world. That's why they founded Brain (s).

Unprecedented "unknown" developers

 

With the launch of the AI ​​technology "REiLI" and the establishment of the AI ​​technology development base "Brain (s)", the speed of Fujifilm's R & D will increase steadily in the future. So what kind of developers are there at the company?

"Fujifilm's developers are a group of professionals with strong strengths, and an environment where they can always access external new information because collaboration with academia and open innovation are born through" Brain (s) ". I believe that this open space will create flexible ideas and accelerate R & D on AI. ''

Some of Fujifilm's developers went to medical sites themselves to find out how the technologies they worked on helped them in the field, and based on the information they obtained, It is said that there are many members who develop the system.

"In software development at large companies, we often subdivide and outsource development work, but we are trying to create an unprecedented system, so what is the right answer, While checking if it ’s the bestIn addition, we are working on the entire system development, including coding, by hand. It is important to make improvements while repeating trial and error while checking each item one by one. There is still a lot to be analyzed and there is a lot to do. Still, for those who want to lead the world in medical innovation in unknown areas, I think it can provide a very exciting environment. ''

I look forward to the AI ​​revolution that will illuminate future medical care, which will be born from Fujifilm in the future.

Sawai Pharmaceutical, a generic drug, has introduced Chatbot on its product information site.

The company's website provides medical professionals with a wide range of information about their products, from basic information about the product, such as the efficacy and efficacy of the drug, its usage and dosage, to product photos and various test data.

However, the number of products was as diverse as over 700 items, making it difficult to quickly find the required information.

Therefore, based on the AI ​​chatbot “CAIWA” provided by Hitachi Systems, the company built a website guidance function using the official character “Gene-chan”.

"CAIWA" is designed to understand not only the words and sentences themselves, but also the meaning and intentions of the whole sentences, and to be able to provide appropriate answers, including "fluctuations" in expressions.

One of the issues when introducing a chatbot is that it is necessary to update the chat database when a new product is released. On the other hand, "CAIWA" has a database linkage function, so it is possible to automate the maintenance of chatbot scenarios.

 

(Sawai Pharmaceutical Co., Ltd. solves the biggest problem of medical institutions: chatbot type electronic medical record "Doctor Q"

The biggest issue for medical institutions is that they cannot perform treatment or interviews unless patients come to the hospital.

Again, chatbots can change healthcare.

In November 2017, medical AI startup NAM launched a chatbot-type electronic medical record "Doctor Q" (https://nam-inc.jp/).

In the past, medical institutions lacked follow-up for patients who visited the hospital once.

If the patient did not come to the hospital, treatment and medical interviews could not be performed, so even if the patient did not go, it was not possible to judge whether the patient did not come because the symptoms improved or did not come for another reason Is.

In particular, in the case of chronic illness with few subjective symptoms, treatment was often stopped by self-judgment, leading to serious symptoms.

In addition, there may be many people who have stopped going to hospital during treatment because they were "busy" or "it costs money".

Also, at present, patients cannot carry their own medical information.

You cannot browse the “medicine notebook” on your smartphone, and it is also difficult to browse medical institution charts.

Thus, information asymmetry is occurring in medical practice.

In telemedicine using video calling, it is now possible to carry out insurance medical treatment, but there is a hurdle that you must always consult the other person's face to make an inquiry.

"Doctor Q" is an app for both doctors and patients. By adding "Doctor Q" on LINE, patients can receive medical interviews from chatbots acting as doctors and browse their own medical records.

Doctors can also access the “Doctor Q” service website to monitor the patient's progress and contact the patient through the bot.

The bot will ask the patient about the progress through the LINE chat screen according to the format of the electronic medical record.

The "Doctor Q" system is provided free of charge to medical institutions.

It is expected to be monetized by advertising on LINE, referral services for doctors, and sales of health foods.

 

■ Replacing with AI in the medical field

Although there is concern about "techno unemployment," where AI takes human jobs with the development of IT technology, medical professionals such as "physicians" and "physiotherapists" are expected to survive the AI ​​era.

Although medical systems have hurdles such as reliability and personal information, as hospital receptions and payment windows were automated, among various occupations related to medical care, some will be replaced by AI. Let's go.

For this reason, it is important to carefully compare and introduce services that match your company when promoting the replacement with AI in the future.

 Based on images of the patient's body, deep learning (deep learning), which is the mainstream technology of artificial intelligence (AI), is applied to show the sites and malignancy that are likely to be sick, and ultimately Technology to help doctors make diagnoses. Currently, pathological specialists who perform pathological diagnosis and radiologists who perform image diagnosis are chronically understaffed, and it has been pointed out that this has led to oversight of lesions such as cancer, but introduction of AI medical diagnosis It is of great interest in medical practice that work efficiency can be improved to prevent oversight.

The Ministry of Health, Labor and Welfare held the 4th meeting of the “AI Consortium for Accelerating the Development of AI in Health and Medical Care” (Chair: Hiroaki Kitano, President and CEO of Sony Computer Science Laboratories) on January 16, where doctors used AI (Artificial Intelligence). AI is only a support tool that presents information with increased efficiency, such as support for the formation of diagnostic hypotheses and the development of treatment strategies in the medical treatment process, and recognizes that the main subject of judgment is the doctor. Confirmed (Source: Ministry of Health, Labor and Welfare website). The Ministry of Health, Labor and Welfare issued a meeting notification on December 19, 2018 to support diagnosis and treatment using AI ...

Although there are multiple development pipelines, the first step is to commercialize software for brain MRI images. In October, we obtained medical device software certification for the brain measurement function that supports the detection of white matter lesions. It has been decided to be introduced in clinics, etc., and will be sold in earnest from 2019. ''

"Next, we would like to commercialize diagnostic support software that claims the specific utility of AI, such as improving diagnostic accuracy and efficiency. Detecting aneurysms from brain MRI images using deep learning We are currently conducting clinical research to compare the results of physician readings. We will close this shortly and hope to apply for approval as a medical device within 18 years. "

-How do you sell the software after obtaining approval?

"It can be embedded in diagnostic imaging equipment and medical image management system (PACS), or it can be provided in the cloud. From a vendor-free standpoint (not limited by the manufacturers and specifications of diagnostic imaging equipment and PACS) We will provide products. ''

"We want to expand our business overseas, including in the United States and Europe. We will establish a base in the United States and aim to be a leading example in obtaining FDA (US Food and Drug Administration) approval."

――Are you considering an initial public offering (IPO)?

"Based on the funds obtained this time, we will build a business base for IPO. In the medical world, the AI ​​boom is surely coming, and we will support the integration of medical and AI. The use of AI in the pharmaceutical field is expected to begin in earnest, and is expected to be used in drug discovery and contract development, leading to customized personalized medicine.Elpixel, which develops artificial intelligence (AI) in such medical fields (Tokyo, Chiyoda) has raised approximately ¥ 3 billion from Olympus, Fujifilm, etc. Accelerate the development of magnetic resonance imaging equipment (MRI) and AI that assists doctors in diagnosing images taken with endoscopes. We asked President Yuki Shimabara about the purpose of large-scale procurement and our business plan.

Medical diagnosis support AI, Fujifilm aiming for initiative

Practical use of imaging system in FY19

3D image of lung. Aiming for development of organ region recognition function using AI technology

Fujifilm hastened the development of an artificial intelligence (AI) platform (base) to be installed in the medical image management system (PACS) in the hospital. By learning and analyzing radiographic images with supervised data as a base, it accurately recognizes organ regions, detects lesions and prevents oversight, and assists doctors in diagnosis. Further, semi-automatic creation of a report of the extraction result by the AI ​​will lead to shortening of the workflow. Apply for regulatory affairs in FY2018 and aim for commercialization in FY19.

 

The number of PACS introduced by Fujifilm is among the top in the world market. Providing an AI platform based on this and creating a “next generation PACS” will be the pillar of the strategy. In addition to proprietary technology, it also incorporates applications (application software) in cooperation with venture companies.

 

The foundation will consist of three AI technologies. The first is to grasp organs, a technique that creates detailed maps of the human body. Another technique is to find the diseased part. To realize these technologies, good teacher data is indispensable. For this reason, the company will work with base hospitals to teach organ position, size, and lesion data based on the vast amount of data accumulated in PACS, and develop highly accurate algorithms.

 

Furthermore, it will streamline the creation of the most time-consuming report in the work of doctors. For example, if a lesion is clicked, a report is automatically drafted if there is a similar disease in the past. The doctor will make corrections as necessary, and the doctor will make final decisions, including diagnostic support.

 

Development is based on algorithms using deep learning (deep learning), but learning is done at the company's development sites, not at medical sites. This is to prevent the performance from evolving and changing, and can be handled with the current guidelines. The idea is to "improve existing businesses" by incorporating AI into its own products, such as PACS and X-ray equipment (IT Business Toshiyuki Nabeta, Medical Systems Division).

 

Manufacturers such as Hitachi, Ltd. and Canon Medical Systems (Otawara, Tochigi Prefecture) are accelerating product development for AI diagnostic support. It is said that several companies will apply for pharmaceutical affairs by the end of FY2018, and the use of AI in the medical field will move to the stage of realization.

(Sentence = Koichiro Shimizu)

The use of AI / IoT in medical practice is greatly expected. AI / IoT technology that provides services that accumulate and utilize data and improve business efficiency. HOSPEX Japan will establish a zone for products and services that support medical sites while ensuring the safety and security of medical care.

Introducing the latest state-of-the-art AI technology "NEC the WISE" that maximizes creative activities ", and gave a lecture on the background of NEC's AI development and the specific results of medical support. Examples in the medical field include detection of signs of restlessness and aspiration pneumonia co-created with the medical corporation KNI, a real-time endoscopy diagnostic support system working with the National Cancer Center, odor data analysis, The simulation results prediction simulation was introduced.

At the exhibition held at the same time, in addition to AI technology and the delivery robot "Relay", which were introduced in the lectures, as well as automated input of electronic medical records using NEC Software's RPA "NEC Software Robot Solution", it was installed in an electronic medical record system. The functions of managing the read and unread of scheduled events were exhibited.

Delivery robot "Relay". Autonomous traveling avoiding people and obstacles is possible, and the conveyed goods are stored in the upper part of the main unit. Lock with RFID authentication to prevent theft.

Introduces the function to prevent unread of test results and reports. It will be installed in MegaOakHR and MegaOak / iS in the future.

 

`` Preventive medicine '' enabled by cutting-edge AI technology

Doubts in using AI technology

 

Looking at the current healthcare industry, medical expenses are increasing year by year due to the declining birthrate and aging population, and the current situation is that it is further accelerated especially by the aging of the baby boomers. On the other hand, the number of doctors has been adjusted by managing the capacity of the medical school. As a result, there is a problem that there are not enough doctors in some regions or medical departments. Is being applied to medical treatment. Let's take a look at cutting-edge AI technology that improves diagnostic accuracy and helps eliminate the shortage of doctors. AI technology dramatically changes cancer diagnosis and drug discoveryIn order to solve the problems in the medical industry and enjoy healthy longevity, the shift from “treatment” to “prevention” medicine is considered desirable. However, at present, there is a problem that medical professionals with specialized knowledge and advanced skills are placing a heavy burden, and as an effective breakthrough, AI technology using technologies such as image processing and machine learning has been developed. It is starting to be used.

◆ Medical-engineering collaboration with consensus

In the medical industry, research is being actively promoted in cooperation with “medical engineering” to improve the accuracy of diagnosis. For example, efforts are being made to develop integrated cancer medical systems using artificial intelligence, such as technology development to support cancer diagnosis using moving images of breast ultrasound.

Furthermore, by introducing mathematical statistical methods and high-speed algorithms, methods for identifying complex diseases by combining multiple factors of hereditary diseases are also being realized. In the future, collaboration with medical institutions will further advance the medical technology that is effective in diagnosis and treatment.

◆ Fusion of robot experiments and artificial intelligence

In addition, support for drug discovery that combines robotic experiments and artificial intelligence is also being focused on, and AI / robot-driven bioresearch is being promoted, and automated discovery of diagnostic markers and cost reductions in personalized medicine are nearing realization. This initiative is highly evaluated worldwide, and the multimeric prediction section of the 12th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP) held in 2016 was The Artificial Intelligence Research Center team has achieved the feat of being number one in the world.

◆ Dramatically accelerate patient treatment plans with AI

The accuracy of AI-based methods for testing and treating diseases such as cancer has begun to surpass human doctors' judgment. In 2016, AI discovered a special leukemia that doctors could not see at a famous Japanese university's affiliated hospital in just 10 minutes, and suggested a change in treatment, saving patients' lives. There were cases.

Currently, a representative AI developer with a large share of diagnostics (mainly imaging diagnostics) states, "44% of initially applied treatments are being changed halfway through existing cancer treatments. Data suggest that half of the decisions made in the clinical setting are without evidence. "

◆ AI that is good at processing big data

The ability of AI to make appropriate diagnoses from vast amounts of data will further evolve in the future, and tests that used to be based on physician's empirical rules and intuition will be improved with more efficient and accurate judgment. It is expected to go. In addition, it is no exaggeration to say that the power of AI can be used in planning complex treatment plans to save the lives of previously unsuccessful patients. AI medicine starts to predict the future of disease and health

 

AI medical care has begun to be introduced around the world

In 2016, a UK artificial intelligence company and the University of London announced plans to introduce AI into cancer treatment itself. For example, radiation therapy is commonly used to treat head and neck cancer, and the site, direction, amount, and frequency of radiation should be planned in advance so as not to damage healthy tissue of the patient. It takes about 4 hours to complete.

However, if artificial intelligence can be used successfully, the time required for treatment planning can be reduced to one hour. Needless to say, if these technologies become more and more practical in the future, it will be a huge benefit even for doctors who are currently burdened.

◆ “Future prediction” based on big data analysis

When thinking about AI and medical care, its use is not limited to diagnosis and treatment decisions. One of AI's strongest and unrivaled capabilities is the ability to make “future predictions” based on big data analytics and raise the bar for medical care. In 2017, research results on “AI for predicting disease” began to be published from around the world. In other words, could this be positioned as the birth of “AI predictive medicine”?

One breakthrough is an algorithm developed by a Canadian research team that uses AI and big data to predict dementia two years before onset. It is highly anticipated that this will be a countermeasure against dementia, which is currently increasing in an aging society.

◆ Prevention and early detection of cancer by genetic analysis using AI

On the other hand, a genetic information analysis company analyzes the correlation between genes and the incidence of cancer using AI and big data analysis, and genetic vulnerabilities account for about 33% to 88% of cancer incidences. The others have come to the conclusion that they depend on the environment and lifestyle.

The results of this research suggest that the development of genetic analysis using AI in the prevention and early detection of cancer, which has been extremely difficult, may bring the era of overcoming cancer earlier than expected. Is. However, it is still a physician to master medical AI, which can predict the future of illness and health. Collaboration between AI and medical staff is necessary. Use of AI in medical practice, advantages and disadvantages

 

Medical professionals are bridging AI with patients?

It is undeniable that in the healthcare industry, as in other industries, there is a debate over “Which is better for humans or artificial intelligence”? There may be concerns that healthcare professionals will become a "bridge" or "translator" between AI and patients in the future. However, in order to provide the best medical treatment, it is not effective to choose between AI and humans, but the cooperation between the two is effective.

◆ Advantages of using AI

The advantage of using AI is that highly accurate diagnosis can be performed in a short time. In the future, as AI medicine evolves more and more, some people are concerned that AI will only find the name of the disease and doctors will give medicines that match the symptoms, and that they will be able to take over the work someday. You may come. However, there are various expectations for patients to seek medical treatment, not only to cure their illness, but also to alleviate their symptoms and listen to talks to resolve their anxiety.

◆ Disadvantages of using AI

The disadvantages of using AI are that it is impossible to say at present that there is no 100% error in the judgment of AI, and there is no denying that there are concerns about machine-specific failures and malfunctions. In addition, no matter how much AI can make a good decision, there is also the question of whether the patient will trust it. After a few decades, there may be a consensus that believing in AI will provide a healthy life expectancy in the medical field. However, at present, it is necessary to have an intermediary to properly communicate the diagnosis results of AI to patients and reassure them, and doctors can play this role.

Medical care in the AI ​​era shares roles and collaborates

One of the most important tasks of a physician is to communicate deeply with the patient through interviews and find out what the patient really needs and the medical treatment that can be done for it. This is difficult to deal with with current AI, and it cannot be replaced unless an AI with the same intelligence as humans appears. In the medical era of the AI ​​era, it is thought that the division of roles will advance, with AI processing the data and image analysis, and doctors performing confirmation and diagnosis. As AI evolves, so must the skills and qualifications doctors and healthcare professionals need to have.

The third day of the Advent calendar!

I'm Oda from the Production Department.

For me, one step closer to the age of 50, health is a strong concern.

It would be nice if we could make medicine for immortality, but it is terrible that no one gets old.

On the Internet, I happened to see a special feature of Newsweek, "AI medical treatment has come this far," and I bought a weekly magazine.

Since it was a very interesting article, I will introduce comments.

Newsweek (News Week Japan Edition) November 20, 2018

Outpatient consultation

When you go to the hospital for an outpatient consultation, you will have to wait a long time in the waiting room.

I still know if it's a large hospital, but the same goes for a small hospital in my town, where I enter the hospital at 9:00 am on Saturday and wait one and a half hours for a consultation, sometimes five minutes for a consultation. Have you ever given a drip for treatment in the past? However, since the infusion took 1 hour and 30 minutes and it was outside the consultation time, I have been told, "Please come a little earlier."

Read the article and you'll find good news.

The role of AI medicine is consultation and prevention. Many people who come to the outpatient clinic have a minor illness, and when they ask the AI ​​for a consultation, they say, "OK, take a commercially available drug." As a result, the number of people who visit the outpatient consultation will decrease, and only those who need the AI ​​will be able to receive the consultation smoothly.

AI promotes disease prevention, which reduces the number of sick people. This translates to fewer outpatient consultations.

Predict the mortality within 3 to 12 months from the patient's previous year's medical record data by making AI learn by "deep learning". Knowing your life expectancy early seems to "improve the patient's life" and clarify your life plan.

I understand the idea, but it's tough unless you're mentally tough.

"Assuming a case in which the electronic medical record could not be used due to a power failure due to a human intellectual disaster, etc., a demonstration was conducted in which the findings data temporarily entered in Excel were automatically entered into the electronic medical record using RPA.

 

 

2005.01-2006.12 SAP AG Germany Headquarters

Position: Project Manager / SAP Consultant

Report object: GM

Number of subordinates: 30 subordinates PM consultant

Responsibilities:

1. Responsible for managing and managing progress, quality and cost range of major projects, technical guidance and training

   He is responsible for departmental team building, establishes a unified and efficient staff team, and stimulates employee enthusiasm.

Responsible for the overall cultural construction of the department. (10-150 people)

2. Recognized by customers and companies (excellent consultants and excellent project managers)

Project name

Sharing project examples

1. 2004.01-2004.10 Siemens Group (Germany)

Project description: Siemens project is an implementation, FI / CO, MM, SD, PP, BW module.

Project Responsibilities

1. Business scenario analysis and business processes to help customers improve SAP system efficiency.

2. The organizational structure of the work is defined as the customer's future state proposal.

3. Discussed with the client through a blueprint.

4. The FICO module has been set. Work with the testing team for unit testing and integration testing.

5. Support the data conversion process using LSMW and CATT.

6. Provide support and support online.

 

2. 2004.11-2005.04 Bayer Pharmaceuticals (Germany)

Project description: Bayer project is an implementation, FI / CO, MM, SD, PP, BW module.

Project Responsibilities

1. Communicate with customers and understand their needs effectively.

2. Deeply understand how to optimize editing workflows and customer workflow descriptions, improve business processes, and provide solutions.

3. The main user of the customer structure and cooperation to complete the organization structure and master data.

4. Configure the system according to the final design drawing and the special requirements of the customer (FICO part).

5. Discussed with clients through blueprints. Preconfigured FICO module

6. Work with the testing team for unit testing and integration testing.

7. Provide support and support online.

 

3. 2005.04-2005.10 IBMIGS Japan Co., Ltd. (Japan)

Project description: IBM project is an implementation, FI / CO, MM, SD, PP, BW module.

Project Responsibilities

1. Customers improve SAP system efficiencyBusiness scenario analysis and business processes to help you improve.

2. The organizational structure of the work is defined as the customer's future state proposal.

3. Discussed with the client through a blueprint.

4. The FICO module has been set.

5. Work with the testing team for unit testing and integration testing.

6. Use LSMW and CATT to support the data conversion process.

7. Provide support and support online.

 

4. 2005.10-2006.05 Kobe Steel (Japan)

Project Description: Kobe Steel Project is an implementation, FI / CO, MM, SD, PP, BW module.

Project Responsibilities

1. Go to Kobe Society, adjust business processes in the steel industry, communicate with customers and understand customer needs effectively.

2. Deeply understand how to optimize the interpretation of editing workflows and customer workflows, improve business processes and provide solutions based on ASAP implementation methodology.

3. The main user of the customer structure and cooperation to complete the organization structure and master data.

4. Configure the system according to the final design drawing and the special requirements of the customer (FICO part).

5. Discussed with clients through blueprints.

6. The FICO module has been set. Work with the testing team for unit testing and integration testing.

7. Provide support and support online.

8. Business processes that can help you analyze the global data warehouse architecture, analyze business scenarios, and improve the efficiency of your SAP system.

9. The organizational structure of the work is defined as the customer's future state proposal.

10. Discussed with clients through blueprints.

11. The FICO module has been set.

12. Work with the testing team for unit testing and integration testing.

Supports the data conversion process using LSMW and CATT.

Provide support and support online.

 

5. 2006.05-2007.01 Kawasaki Heavy Industries Group Association (Japan)

Project Description: Kawasaki Heavy Industries project is the implementation of FI / CO, MM, SD, PP, BW modules.

Project Responsibilities

1. Go to Kobe headquarters, investigate the business process of construction industry, communicate with customers and understand customer needs effectively.

2. Deeply understand how to optimize the interpretation of editing workflows and customer workflows, improve business processes and provide solutions based on ASAP implementation methodology.

3. The main user of the customer structure and cooperation to complete the organization structure and master data.

4. Configure the system according to the final blueprint and the specific requirements of the customer (FICO, BW / BO section).

5. Discussed with clients through blueprints.

6. The FICO module has been set.

7. Work with the testing team for unit testing and integration testing.

Provide support and support online. Global Data Warehouse, SAP NETWEAVER Platform, Data Modeling and Extraction for Financial Consolidation SAP-BCS, Global Financial Master Data Consolidation, KPI Reporting.

9. Serve as BW Senior Consultant responsible for business needs analysis, data warehouse model design and construction, testing, report development, user training, and knowledge transfer.

10. Establish the SEM data model in BW.

11. SEM is built on top of the BW module and is familiar with BW's query builder and BEx analyzer.

12. Establish a data model for data integration and analysis of finance, inventory, sales, production, procurement, etc. of Kawasaki Heavy Industries at SAP-BW, provide comprehensive reports to senior management, and conduct business with SAP-Portal. Present the data. SAP-BW implements the Kawasaki Heavy Industries Group's personnel data model, extracts personnel data from the SAP-R3 system, and makes it a personnel KPI indicator for the entire group.

13. SAP secondary development work from foreground screens to background ABAPs includes report development, program debugging and logic analysis, form development in SAP, and specific ABAPs for simple screen program development / There are four. , RFC interface development, data import, etc.

 

 

2001.01-2004.12 Solectron (Flextronic) Flextronics Technology Group

Position: R & D R & D Manager Technical Director, Finance Manager / Director.

Report object: GM

Number of subordinates: 30 PM subordinates and 100 engineers

Responsibilities:

1. Complete product production tasks according to business plan, improve production efficiency, reduce material consumption and production costs

2. Responsible for departmental production control, process control, inventory control and quality control, continually improve product quality and assure the quality and quantity of product tasks of the company.

3. Responsible for improving the management system and optimizing the management model.

4. Project management, planning, implementation, coordination, approval, and other process management (including schedule, cost, risk, quality control, etc.) Internal business process design (SAP ERP, Oracle ERP).

5. Solution development

6. System configuration

7. Start the project business process survey.

8. Optimize the system according to customer requirements.

9. A confirmation is reported.

10. Perform end-user training, unit testing, and integration testing.

11. Visit the site for support. Provides system solutions, system architecture, and day-to-day services to enhance system functions.

Responsible for overall team building, building a unified and efficient workforce and motivating employees to work.

Responsible for the overall construction of a sectoral culture.

14. Mainly grasp the technical work of group companies, improve financial management, do good job of increasing revenue, reducing expenditure and increasing revenue and reducing expenditure to ensure the protection and valuation of assets To

Level of achievement:

1. Responsible for managing and managing progress, quality and cost range of major projects, technical guidance and training

Responsible for building departmental R & D teams, establishing a unified and efficient workforce and motivating employees to work hard. (300-1,500)

Awards from customers and companies (excellent category award, R & D manager excellence award)

Significant project experience

1. 2004.10-2005.03 Dassin Industry Co., Ltd. (USA)

Project Description: The Dassin industry is a leading global collaboration between build-to-order lines and equipment. The project is a global part of SAP's US, Canadian and UK site implementations. The project is to implement FI / CO, MM, SD, PP module

Project Responsibilities

Business scenario analysis and business process flow to help customers improve the efficiency of future SAP system business processes. We talked with clients through blueprints. Set up the FI / CO module according to the requirements of other subsidiaries that apply at the same time as the blueprint. Write functional specifications or system interfaces in financial reports. Lead the team to solve unit and system integration testing issues and solve test procedures. The data conversion process includes master data and business transaction data. Lead key user training.

 

2. 2003.01-2004.10 Morgan Corporation LLC (USA)

Project Description: Morgan's project is to implement FI / CO, MM, PP, SD modules.

Project Responsibilities

At the start of the project, team members receive training. Business process survey Blueprint design and verification solution development system configuration whole system. A confirmation is reported. Conduct end-user training. Run unit and integration tests. Go to the site for support.

 

3. 2002.01-2003.01 Flextronics Co., Ltd. (USA)

Project Description: Flextronics is one of the world's leading providers of electronic manufacturing services (EMS), complete design, engineering and manufacturing services, computer, automotive industry, infrastructure, consumer digital, medical and other mobile phones Mobile services.

Project Responsibilities

Business process design Solution development system configuration project Start business process survey. Optimize the system according to customer requirements. A confirmation is reported. Go to the site for conducting end-user training, unit testing and integration testing support. Provides system solutions, system architecture, and day-to-day services to enhance system functions.

 

4. 2001.01-2002.01 SOLECTRON Guangzhou Plant Oracle ERP Implementation Project (China)

Project Description: Flextronics is one of the world's leading providers of electronic manufacturing services (EMS), complete design, engineering and manufacturing services, computer, automotive industry, infrastructure, consumer digital, medical and other mobile phones Mobile services.

Project Responsibilities

Online import of the Oracle ERP system, daily maintenance of the system, SQL-savvy form / report development, skilled use of Oracle Report Builder and Form Builder development tools familiar with the Oracle ERP table schema, participation in SOLECTRON's production instruction system 'Familiar with module development and daily Oracle Report customization, business system E accounting book follow-up, ENG, BOM, INV, WIP, COST, MRP, PO, and other module processes and formulations. Familiar with the manufacturing process. Maintenance of Oracle's ERP system (BOM, INV, WIP, COST, MRP, PO) and development of forms & reports participated in the implementation of Mitsubishi Heavy Industries lot management. Improvements such as work order routing processes, item categories, and resource improvements

 

5. 2004.02-2004.06 Training Project-Lecturer

Project description: The theoretical part includes:

1. Contents of FI, General Accounts Payable, Accounts Receivable, Fixed Assets and Other Financial Modules

2. Contents of CO part product cost control, internal orders, cost center accounting, cost element accounting, and other cost modules

3.SAP Rights Management

4. SAP implementation method

Actual battle 4. SAP implementation method

Practical exercises: SAP implementation project

a. Project preparation stage (project start meeting, overall project plan, two-week project module plan, project team formation and division of responsibilities)

b. Business blueprint phase (current process investigation, business process variance analysis, business process optimization definition)

c. System introduction phase (master data preparation, data migration, system setting, setting list writing)

d. Unit test stage (unit test plan, module unit test, unit test record)

e. Integration test phase (integration test plan, module integration test, integration test record)

f. Online and demonstration stages (replenishment of business documents, monthly settlement, demonstration of business processes, demonstration of business functions, projects, Has long experience in R & D on artificial intelligence related technologies such as computer vision, multimedia technology, natural language processing, etc., and also plans corporate research strategies and plans, and plans and manages in the system business area of the company. I have seen various business sites.

Such deep ERP consulting. Blockchain technology, cloud, big data analysis,

We believe that knowledge of artificial intelligence technology and extensive knowledge in each business area will be useful for consulting for new business launches and business acceleration.

I wanted to work in an area where I could make the most of my specialty.

 

IT人材育成

授课对象 职业高中,高中,大学,研究生。。。社会人士  要学习先进技术的人

最短的课程是半年  一年  二年 三年

就业保障 推荐全球就业,阿里腾讯科大讯飞华为 百度等名企就业

AI授课的证书有。。。方便就业的,如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书,如果会日语的可以参加日本人工智能协会的资格考试 取得后全球通用

如果想来日本工作的话 协助推荐单位。。语言学院。。。签证事宜

同时可以协助办理留学 日本 英国 美国  推荐语言学院。住宿等业务

JDLA认证:日本深度学习协会认证课程(如果参加,则可以取得E资格)全球通用

开班时间

·        Java10月31日立即报名

·        UID10月31日立即报名

·        WEB10月31日立即报名

·        PHP10月31日立即报名

·        网络营销10月31日立即报名

·        软件测试10月31日立即报名

·        会计10月31日立即报名

·        Linux10月31日立即报名

·        C/C++10月31日立即报名

·        VR/AR10月31日立即报名

·        UED10月31日立即报名

·        嵌入式10月31日立即报名

·        Android10月31日立即报名

·        iOS10月31日立即报名

·        .net10月31日立即报名

·        大数据10月31日立即报名

·        产品经理10月31日立即报名

·        高级电商10月31日立即报名

 

如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书

 

基盤技術開発

下記のようなスキルが必要となります。

・人工知能の基礎となる数学、統計学、論理学、情報理論、ソフトウェア工学、クラス分類・回帰・予測などの広範な知識

・Python、OpenCV、scikit-Learn、TensorFlowなどの高度なプログラミングスキル

・ソフトウェア開発業務の経験

「コネクテッドやカーシェアリングを支える人工知能の基盤技術開発」

他製品やサービスへの応用を見越した人工知能の共通基盤技術の確立に携わります。

KEYWORD#教師なし学習 #生成モデル #ドメイン適合 #深層強化学習 #説明可能性

応用技術開発

下記のようなスキルが必要となります。

・文字認識、画像認識、物体検知、時系列データ処理などの応用技術に関する知識

・C++、Python、OpenCVなどのプログラミングスキル

・バージョン管理、プロジェクト管理のスキル

・グループでのソフトウェア開発業務の経験

「スマート工場実現に向けた人工知能の応用技術開発」

スマート工場で求められる外観・異音検査、異常検知・予知、最適制御向けの人工知能ソフトウェアの開発に携わります。

KEYWORD#ゼロエミッション #工法開発

「自動運転実現に向けた技術開発」

AIを用いた物体認識技術・画像認識技術等の開発と評価・分析を実施することで人工知能技術の概要を理解してもらいます。

KEYWORD#物体認識 #画像認識 #量子コンピューター #アルゴリズム

合作伙伴

 

 

中国人工智能 5G×AI 等人才育成

 

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 中科院,清华大学等主讲

人工智能基础

講座一覧

講義名

受講に必要となる前提知識

受講者像

修了時の目標

プログラミング

数学

データ

サイエンティスト

育成講座

☆☆

大学における初歩的な統計・線形代数の知識を持ち、プログラミングの経験があるもの。

統計的解析・機械学習・ビッグデータ解析など、データ分析に関する一通りの技術を身につけ、データサイエンティストとして各種の実問題を解決できる。

Deep Learning

基礎講座

☆☆☆

☆☆☆☆

工学系大学レベルの線形代数・微積分・確率・統計に関する知識を有し、Pythonでの数値解析の経験を有する者。

理論的な構造を理解し、利用するだけでなく、新しいモデルを作ることができる。Deep Learning系の論文を元に自分でモデルを構築・開発することができる。

Deep Learning

応用講座 – 生成モデル

☆☆

☆☆☆☆

Pythonでのプログラミング経験および線形代数・微積分・確率・統計の知識を有する者。Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における生成モデルの技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

応用講座 – 強化学習

☆☆

☆☆

Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における強化学習の技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

応用講座 – NLP

☆☆

☆☆☆

Deep Learning基礎講座修了か同等以上の知識を持つ者。

Deep Learning分野における自然言語処理の技術に関して、基礎的なアルゴリズムを幅広く利用可能で、最先端の手法も理解し、実装することができる。

Deep Learning

実践開発講座

(DL4US)

☆☆

Pythonでのプログラミング経験があり、大学における初歩的な統計・線形代数の知識を有するもの。

画像認識、NLP、生成モデル、強化学習など、Deep Learningの重要技術をアプリケーションに適用できる。

Web工学と

ビジネスモデル

プログラミングの経験があるもの。

Web技術を武器として、世界に対して働きかけることができる。また、Web分野における重要なビジネス戦略を理解し、実践できる。

最新の計算機技術によってディープラーニング研究を促進するためのHPCチームがあります。私たちは、研究において良質なインフラが非常に重要な役割を担うと考えており、日々学生や研究者に最先端の技術を提供しています。

ディープラーニングのためのGPU

GPUアクセラレータは、今やディープラーニングアプリケーションにおいて非常に重要な要素です。これを用いることで、数日かかっていたニューラルネットワークの学習時間を数時間にまで短縮できることができます。NVIDIA Pascalのような最新のGPUであれば、この時間をさらに数分にまで短縮することができます。

学生が利用できる設備

松尾研究室の学生や研究者は、専用のNVIDIA GPUを備えた個人用のPCを利用できます。

サーバー環境

HPCチームは、ディープラーニング研究のために、GPUをHPCサーバーを管理しています。そのうち5つは4つの TITAN X GPUを備えており、機械学習・ディープラーニング研究を強力にサポートします。また、最新のXeon Phiを搭載したサーバを2台導入しています。

GPU Type

Amount

TITAN X

17 (+2)

TITAN X (Pascal)

8 (+4)

TESLA K40

4

GEFORCE 980GTX

3

TITAN BLACK

2

Xeon Phi

2

仮想サーバー

ほぼすべてのサーバーは高度に仮想化されており、合わせて213の仮想サーバーが存在します(2016/05/13現在)。これらのサーバーはGPUやファイルシステムなどのリソースを共有することにより、メンバーが仮想サーバーを素早く構築して利用することを可能にしています。

高負荷の下での複数ユーザーによる利用を常に可能にするために、すべてのサーバーに最大で16の物理コアを持つIntel Xeon CPUを使用しています。

計算機(サーバー)は、ディープラーニング研究だけでなく、Web解析やデータサイエンスのような膨大な量の計算リソースを必要とする様々な研究にも利用されています。

Data Science Online Course

第3期は終了しました。

第3期以降、社会人向けオンラインコース開催の予定はありません。

東大のデータサイエンティスト/未来のCMO育成講座の社会人向けオンラインコースです

 

本講座では、5年間で延べ約700名が受講し約160名の修了者を輩出した東京大学学生向けのデータサイエンス講座のエッセンスを凝縮し、完全自習可能なオンラインコースとして公開します。

第3期までの社会人向けコースでは募集人数をはるかに超える応募が殺到し、多大な反響をいただきました。

本コースは主に社会人技術者やマーケティング担当者、情報分野以外の研究者等を対象者と想定し設計されていますが、幅広い分野で役に立つ実践的なデータサイエンスを網羅的にカバーしているため、データサイエンスを身に付けたい幅広い層に活用いただけるものとなっています。

本公開講座は国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務の一環として実施しています。

 

 

●コースの概要

 

●受講対象者

 

●特徴

●受講の仕組み

 

●カリキュラム

Chapter1: Numpy、Scipy、Pandas、Matplotlibの基礎

Chapter2 : 記述統計学と単回帰分析

Chapter3 : 確率と統計の基礎

Chapter4 : Pythonによる科学計算の基礎(NumpyとScipy)

Chapter5 : Pandasを使ったデータ加工処理

Chapter6 : Matplotlibを使ったデータ可視化

Chapter7 : データベースとSQLの基礎

Chapter8 : データベースの応用(高度なSQL処理と高速化)

Chapter9 : ドキュメント型DB(MongoDB)

Chapter10 : 機械学習の基礎(教師あり学習)

Chapter11 : 機械学習の基礎(教師なし学習)

Chapter12 : モデルの検証方法とチューニング方法

Chapter13 : データサイエンスティスト中級者への道

Chapter14 : 総合演習問題(最終課題)

 

更多>>

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 中科院,清华大学等主讲

 

全新撰写课程的配套讲义,紧密结合人工智能算法案例

基于Python 3主讲,微信群及时答疑

全网独家中文课程,理论与实际案例结合

理论结合实践,中科院于红红博士主讲

课程内容严谨系统,理论配合编程实践

10大常用算法,Python与Matlab双语言实践

计算机视觉

直播

计算机视觉必备基础,系统化地讲解

全网独家课程,立体视觉关键技术,核心算法逐行代码实现

讨论式教学方式,小班授课

机器人

定位与自主导航(SLAM)

独家中文课程,实践项目为主线

系统讲解理论基础,精心设计作业和项目

量产机器人技术负责人主讲,概述激光SLAM现状及未来方向

课程设置由浅入深,涵盖ROS机械臂开发中的诸多细节

系统讲述ROS主要功能,微信群实时答疑

 

主讲发展概况,介绍关键技术

可以参照的实例

授课对象 职业高中,高中,大学,研究生。。。社会人士  要学习先进技术的人

最短的课程是半年  一年  二年 三年

推荐全球就业,阿里腾讯科大讯飞华为 百度等名企就业

AI授课的证书有。。。方便就业的,如果要学习高级班的有剑桥牛津大学,MIT的学业资格证书,如果会日语的可以参加日本人工智能协会的资格考试 取得后全球通用

如果想来日本工作的话 协助推荐单位。。语言学院。。。签证事宜

同时可以协助办理留学 日本 英国 美国  推荐语言学院。住宿等业务

JDLA认证:日本深度学习协会认证课程(如果参加,则可以取得E资格)全球通用

技能水平分析表

为了确定未来AI不好的领域,它会分析了解的内容和不了解的内容,并自动生成适合您水平的最佳学习课程。

Q1。在哈牛桥智能科技学习的东西

 Python编程Web开发机器学习数据分析和Kaggle抓取SQL深度学习

Q2。请告诉我您的编程经验。

 我从未学过编程。编程经验1-3个月编程经验3-6个月编程经验6个月以上

Q3。检查您学习了一个多月的以下编程语言。 (可以选择多个)

 Java PHP Ruby Swift R Python C C ++其他

Q4。请告诉我您的数学经验。

 我来自文科,根本没有经验。我不擅长数学。我学习了高中数学(数学III和C)。我在大学学习线性代数。我对数学充满信心。目前独自学习。

Q5。请告诉我们您的统计经验。

 我从未学过包括自学在内的统计学知识。通过自学学习统计的水平。我在学校和大学学习过统计学。我对统计数据充满信心。目前独自学习。

Q6。请告诉我您的英语阅读能力。 /请告诉我您的阅读英语技能。

英语等级考试的4至3级英语阅读能力不及初中毕业生。 英语等级考试 3级和2级有些句子由于语法结构等而无法理解。英语等级考试准1级至1级只要检查单词就可以理解句子的含义语法结构没有问题英语报纸和论文阅读没有问题。目前独自学习。

Q7。请告诉我们您的英语听力技巧。 /请告诉我您的聆听英语技能。

 可以理解已被模式化的日常对话,例如自我介绍。可以理解未被模式化的日常对话和聊天以及当天发生的对话。您可以掌握大纲包括详细的说明和技术术语时,您将无法理解。即使包括了详细的说明和技术术语,您也可以毫无困难地理解。当前正在通过自学学习。

Q8。请描述您在人工智能和机器学习方面的经验。

 我知道人工智能和机器学习这两个词,但我从未学过,我也不知道该怎么办。我自己阅读了至少一本有关人工智能和机器学习的入门书。我已经通过书籍,在线视频服务和研讨会学习了机器学习。我正在实践中进行机器学习,但我想听听专家的更多详细信息。目前独自学习。

Q9。请描述您要学习的有关Python和AI的目标。 (如果您尚未决定,请声明尚未决定)

 

Q10。您将来是否想找份工作或更改为AI工程师?

 我要我不想(我现在没有考虑。)正在考虑中(将来我有可能想以AI工程师的身份工作或换工作。)

分析!

 

日本人工智能 5G×AI 等人才育成

人工智能哈佛大学博士于红红主讲,MIT教授,牛津剑桥大学教授 東京大学,大阪大学、京都大学等主讲

 

コースコード

コース名

価格(税込)

人工知能基礎

BSC0028G

人工知能の基礎 ~人工知能の歴史、基礎技術、AIの活用例を学ぶ~

71,500 円

MAC0001R

AIダイジェスト ~AIを知る最初の一歩~

77,000 円

機械学習

DBC0099G

マシンラーニングオーバービュー ~AIを支える技術・理論・利用方法を学ぶ~

71,500 円

DBC0096R

機械学習による問題解決実践 ~データサイエンティスト入門研修~

220,000 円

DBC0115R

ディープラーニング ハンズオン Chainerコース -キカガク主催-

220,000 円

DBC0116R

ディープラーニング ハンズオン Chainerコース E資格受験プラン -キカガク主催-

330,000 円

DBC0117R

ディープラーニング ハンズオン Kerasコース -キカガク主催-

220,000 円

DBC0118R

ディープラーニング ハンズオン Kerasコース E資格受験プラン -キカガク主催-

330,000 円

GGC0011R

Google Cloud Platform Fundamentals :BigData & ML -CloudAce主催-

110,000 円

DBC0107R

データサイエンス徹底演習 ~実務で活かせるデータサイエンス入門~

220,000 円

ビジネス利用

BSC0038G

AIプランナー基礎編

132,000 円

BSC0034G

AIを活用したビジネスモデルの構築と提案 ~ 導入事例・最新動向を学び自社ビジネスにAIを導入する~

143,000 円

BSC0030G

AI・IoTビジネス創造 ~AI・IoT活用による新規事業のつくり方~

143,000 円

BSC0031G

AI・IoTビジネス戦略 ~戦略から計画を立案するスキルを習得する~

143,000 円

BSC0032G

AI・IoTビジネス法務入門 ~AI・IoTを取り巻く法規制を学び、法務戦略を検討するスキルを習得する~

71,500 円

MAC0001R

AIダイジェスト ~AIを知る最初の一歩~

77,000 円

MAC0002R

アセスメント人材育成コース ~AI活用「成功」の方程式~

165,000 円

MAC0003R

AIダイジェスト ~AIを知る最初の一歩~

88,000 円

MAC0004R

アセスメント人材育成コース ~AI活用「成功」の方程式~

176,000 円

 

 

【 前提条件 】

・人工知能(AI)の概要(一般論や用途、歴史等)

・高校レベルの数学(線形代数、確率・統計、微分・積分等)の基礎知識

・Pythonプログラミング基礎レベル

・機械学習の基礎知識(アルゴリズムを組む経験があると尚可)

・英語レベル:TOEIC 700以上(目安)

【 対象者 】

・AIの原理原則からAIの設計・導入に必要な知識、ノウハウを体系的に学びたい方

・AIエンジニアを目指している方

スキル・レベル分析フォーム

AIが今後の苦手分野を特定するために、何を理解して何を理解していないのか分析し、あなたのレベルに合った最適な学習コースを自動生成します。

フォームの始まり

Q1. 学びたいこと

PythonプログラミングWeb開発機械学習データ分析やKaggleスクレイピングSQLDeep Learning

Q2. プログラミング経験を教えてください。

プログラミングは一切学んだことはない。プログラミング経験は1〜3ヶ月プログラミング経験は3〜6ヶ月プログラミング経験は6ヶ月以上

Q3. 以下のプログラミング言語の中で1ヶ月以上学習したことのある言語にチェック入れてください。(複数選択可)

JavaPHP RubySwiftRPythonCC++その他

Q4. 数学の経験を教えてください。

文系出身であり全くの未経験。数学に苦手意識を持っている。高校数学(数学III・C)は学んだ。大学で線形代数は学んだ。数学には自信がある。現在独学で勉強中。

Q5. 統計学に関する経験を教えてください。

統計学に関して独学も含め一切学んだことはない。独学で統計学を勉強した程度のレベル。統計学は学校や大学で学んだ。統計学には自信がある。現在独学で勉強中。

Q6. 英語のリーディングに関するスキル経験を教えてください。/ Please tell me your READING English skill.

英検4~3級レベル 英語の読解力は中学生卒業レベルで苦手意識がある。英検3〜2級レベル 文法構造などで意味のわからない文章もある英検準1~1級レベル 単語さえ調べれば文章の意味がわかるレベル 文法構造などについては問題はない英語のニュースペーパーや論文を問題なく読める。現在独学で勉強中。

Q7. 英語のリスニングについてのスキル経験を教えてください。/ Please tell me your LISTENING English skill.

自己紹介などのあるパターン化された日常会話は理解できるパターン化されていない日常会話・雑談や、その日に起きた話題などの会話を理解することができる込み入った話でも相手の話していることの大枠が掴める 詳細な説明や専門用語などが含まれると理解できなくなる詳細な説明や専門用語などが含まれても支障なく理解することができる現在独学で勉強中。

Q8. 人工知能や機械学習に関する経験をご記入ください。

人工知能や機械学習という言葉は知っているが全く学習したことがなく、何ができるかもわからない。人工知能や機械学習に関する入門書は1冊でも独学で読んだことがある。過去に書籍やオンライン動画サービスやセミナーなどを通して機械学習に関することを学んだことがある。実務で機械学習をやっているが、専門家からより詳しい内容を聞きたい。現在独学で勉強中。

Q9. PythonやAIを学んでやりたい目標などをご記入ください。(決まっていない方は決まっていないと記入してください)

Q10. 将来、AIエンジニアとして就職・転職したいですか?

したい。したくない。(今は考えていない。)検討中(今後AIエンジニアとして就職・転職を希望する可能性がある。)

分析する!

·        AIの組み込み(設計・製造・試験)

·        Google社等のAPIを使ったプロダクトの開発

·        動画解析による顔認識システムの開発

·        スマートフォン向けARアプリの開発

·        Python等の学習

·        深層学習フレームワークの利⽤経験

·        深層学習のモデル実装経験

·        ⾼い論理的思考⼒

·        数学的な深い知識(線形代数・統計/確率・微積分

AIエンジニアとは?

深層学習(Deep Learning)を中心とした人工知能(AI)技術を活用したプロダクトの開発がおこなえる技術者です。

ディープラーニング Ⅰ~Ⅱ

ディープラーニング(深層学習)とは、人間が自然に行うタスクをコンピュータに学習させる機械学習の手法のひとつです。

ディープラーニングに関する知識を習得し、事業活用する人材(ジェネラリスト)になりうる学習をおこないます。

AIプログラミング Ⅰ~Ⅱ

AIプログラミング応用 Ⅰ~Ⅱ

機械学習やDeep LearningなどのAI(人工知能)分野のプログラミングで、現在最もよく使われる言語がPython(パイソン)です!

 Pythonで実装された様々なAI関係のライブラリを使うことで、手軽にAIに触れることができます。

そのPythonプログラミングを学習します。

直結する資格試験

·        ディープラーニング検定 for GENERAL

·        Python3 エンジニア認定基礎試験

カリキュラム

1年

 

Computer

Technology

Date Analysis

Business

前期

コンピュータ入門

AIプログラミングⅠ

ビックデータ分析Ⅰ

AIライブラリー活用Ⅰ

ネットワークⅠ

ディープラーニング

 

経営学Ⅰ

Linux Ⅰ

AIプロダクト開発技法Ⅰ

 

英会話Ⅰ

データベースオラクルⅠ

プログラミングⅠ

 

 

 

アルゴリズムⅠ

 

 

後期

ネットワークⅡ

AIプログラミングⅡ

ビックデータ分析Ⅱ

AIライブラリー活用Ⅱ

Linux Ⅱ

ディープラーニングⅡ

 

経営学Ⅱ

データベースⅡ

AIプロダクト開発技法Ⅱ

 

英会話Ⅱ

 

プログラミングⅡ

 

 

 

アルゴリズムⅡ

 

 

2年

 

Computer

Technology

Date Analysis

Business

前期

ネットワークⅢ

AIプログラミング応用Ⅰ

 

AIライブラリー活用Ⅲ

Linux Ⅲ

AIプロダクト開発技法Ⅲ

 

就職教養Ⅰ

データベースオラクルⅢ

 

 

 

セキュリティⅠ

 

 

 

後期

ネットワークⅣ

AIプログラミング応用Ⅱ

 

AIライブラリー活用Ⅳ

Linux Ⅳ

AIプロダクト開発技法Ⅳ

 

就職教養Ⅱ

データベースオラクルⅣ

 

 

 

セキュリティⅡ

 

 

 

実習時間比率

時間割例(1年後期)

 

9:20~10:50

AIプログラミング

 

経営学

プログラミングⅡ

ネットワークⅡ

11:05~12:35

ビックデータ分析Ⅱ

アルゴリズムⅡ

AIライブラリー活用Ⅱ

プログラミングⅡ

ネットワークⅡ

13:25~14:55

 

AIプロダクト開発技法Ⅱ

データベースオラクルⅡ

ディープラーニングⅡ

Linux Ⅱ

15:10~16:40

 

プログラミングⅡ

 

 

英会話Ⅱ

AIプログラミング

AIの開発で利用するプログラミング言語Python(パイソン)を学びます。

AIプロダクト開発技法

AIで利用する画像・音声認識の開発を学びます。

AIライブラリ活用

プログラミング言語で様々なAI機能を利用するための便利なライブラリ(プログラミング言語用部品集)の使い方を学びます。

ディープラーニング

ニューラルネットワークの構造を理解して、実際にトレーニングデータを収集し、学習させて判断させる方法を学んでいきます。


資格取得について

SEプログラマ科 取得目標資格

ディープラーニング検定

for GENERAL

ディープラーニングに関する知識を有し、事業に活かすための人材(ジェネラリスト)の育成を目指した新たな資格試験

基本情報技術者

情報工学に関連するエンジニアの実務においてベースとなり、プログラマを対象とした情報処理技術者試験制度。(国家試験)

Javaプログラミング能力認定試験

プログラム言語であるJavaのプログラミング能力試験です。対象は初級から上級のプログラマやシステムエンジニアであり、幅広いスキルが測定できる。

オラクル認定Java資格

プログラミング言語「Java」の基本的な技術から実践的な開発・設計など「Java」の幅広い知識を問われる能力を認定する資格。

Python 3 エンジニア

認定基礎試験

一般社団法人Pythonエンジニア育成推進協会が実施している、Pythonの文法や基礎知識を問う資格試験

オラクルマスター

世界シェア1位を誇るデータベースソフトウェアベンダーのオラクルが、オラクル製品に関する技術者を認定する制度。

Linux技術者認定試験

Linux技術者としての技術力を認定するIT資格です。公正なLinuxスキルの判断基準として国際的に認められており、180か国以上の技術者が受験しています。

情報検定(J検)

業界業種に関係なく、コンピュータを扱う基本的なスキルを身に付けていることを証明する資格。

 

 

専門科目

プログラム基礎、プログラム応用、AI概論、AI実習、API実装、画像認識、音声認識、機械学習、深層学習、データ分析、ディープラーニング、AI開発、AI企業プロジェクト、IT基礎、数学、統計学、プレゼンテーション など

 

興味があるコース必須

WebアプリケーションコースPHP/LaravelコースフロントエンドコースWordPressコースiPhoneアプリコースAndroidアプリコースUnityコースはじめてのプログラミングコースWebデザインコースUI/UXデザインコースWebディレクションコースWebマーケティングコースJavaコースExcel2013 コースPythonコースAIコースブロックチェーンコースScratchコース動画編集コースGoogle Apps Scriptコースデータサイエンスコースエンジニア転職保証コース

 

Python

機械学習でよく使われる言語

機械学習

AIを構築する際の根幹となる技術の1つ

Pandas

データの集計・分析を行うライブラリ

scikit-learn

回帰分析やクラスタリングなどを行うライブラリ

Keras

画像やテキストなどの分析を行うライブラリ

AIコース

データサイエンスコース

プログラミング

Python

機械学習

教師あり学習scikit-learn

ディープラーニング

KerasTensorflow

評判分析

クラスタリング

数学・統計学

確率・推定・検定

モデルの構築

統計モデルの構築モデルの最適化

 

TensorFlow

画像認識や音声認識技術を行うライブラリ

機械学習とデータ分析入門

ディープラーニング入門

Numpy 入門

Pandas 入門

Matplotlib 入門

線形代数 入門

統計入門(前編)

統計入門(後編)

線形回帰 入門

機械学習に必要な数学の基礎

機械学習ライブラリの基礎

ニューラルネットワークの基礎

Deep Learningフレームワークの基礎

MRI画像のセグメンテーション

血液の顕微鏡画像からの細胞検出

ディープラーニングを使った配列解析

ディープラーニングを使ったモニタリン グデータの時系列解析

はじめてのAI

はじめての働き方改革

はじめてのデジタルマーケティング

What is AI

AI problem solving

Real world AI

Machine learning

Nueral networks

Implications

Intro to Fairness in Machine Learning module

Introduction to Machine Learning Problem Framing

Data Preparation and Feature Engineering in ML

Machine Learning Crash Course with TensorFlow APIs

Serverless Machine Learning with Tensorflow on Google Cloud Platform

Deep Learning Nanodegree Foundation

Data Engineering on Google Cloud Platform Specialization

機械学習

aws/インフラ技術

数学

Python基礎から応用

PHP応用

G検定

数学

ディープラーニング

JAVA基礎~応用

R言語+統計学

主なカリキュラム(4年次)

E資格

Ruby

ブロックチェーン

IoT

プログラム実習

IT基礎

ITに関する基礎知識を学び、インターネット環境の概要を理解する。

主な学習内容

·        ハードウェア

·        ソフトウェアとマルチメディア

·        システム構成

·        ネットワーク

·        セキュリティ

·        データベース

·        アルゴリズムとプログラミング

·        マネジメント

·        企業活動と法務

·        経営戦略とシステム戦略

カリキュラム例

AI概論

AIの概念と実際にコードを書き、プログラムを作成する授業です。

主な学習内容

·        AzureMLでできること

·        クレジットカード審査のAIを作ろう

·        花の画像認識AIを作ろう

·        クラス分類の機械学習

·        回帰の機械学習

·        異常検知の機械学習

·        Pythonについて学ぼう

·        リストとNumpy

·        AIの活用事例・体験できるAI

·        データ前処理

·        ニューラルネットワークで回帰分析

·        ハイパーパラメータの調整

カリキュラム例

Python

様々な分野でスタンダードなプログラム言語「Python」を学ぶ。

主な学習内容

·        Python概論/環境構築/Hello World/変数/定数

·        モジュール分割/パッケージ分割/例外処理

·        Web制作

·        データ型/演算子/スコープ/関数/配列

·        Web開発概論/Django環境構築/DjangoのHelloWorld

·        リスト型・タプル型/スライス/集合型/辞書型

·        MySQLの導入・利用

カリキュラム例

プログラミング

開発・サーバー・DB・WEBなどで使われる基礎的なプログラム言語を学ぶ。

主な学習内容

·        Linuxプログラミング

·        PHPプログラミング

·        Webプログラミング(HTML/CSS)

·        Webプログラミング(JavaScript)

·        DBプログラミング(SQL)

·        DBプログラミング(データベース設計)

·        Webアプリケーション開発概論

·        ネットワーク基礎、Webサーバ構築

カリキュラム例

ロボティクス

プログラミングを通して、ロボット制御を学ぶ。

主な学習内容

·        プログラミング概論

·        論理的思考力の形成

·        Pythonを活用したロボティクス開発

·        Pythonプログラムと条件分岐

·        Pythonプログラムと関数

·        Pythonプログラム演習

·        C++プログラムと概要・環境構築

·        C++プログラムと変数・四足演算

·        C++プログラムと関数

·        C++プログラム演習

目指せる資格・検定

目指せる仕事

·         AIコンサルタント、

 

·        AIエバンジェリスト、

 

·        ソフトウェアプログラマー、

 

·        システムインテグレーター、

 

·        システムエンジニア、

 

·        データアナリスト、

 

·        データサイエンティストなど

·        事前学習

プログラムを始める前の確固たる基礎

o   数学

o   -線形代数

o   -微分積分



o   データサイエンスツール

o   -Jupyter Notebook

o   -Pandas

o   -Numpy

o   -Matplotlib(Seaborn)

o   -Kaggle EDA

o   -機械学習概要

o   -前処理

o   -オープンデータセット演習

o   -Sklearn

JDLA認定:日本ディープラーニング協会の認定講座(受講すればE資格を受験できる

AIプラス AI教育サービスコース概要

コース

対象者

AIビジネス概論コース

ビジネスにAIを適用しようとしている方

AI技術概論コース

AI技術を活用した情報システムの開発を行いたい方

ディープラーニング実践コース

業務でディープラーニングのモデルを作成し、画像分析を行いたい方

1.AIビジネス概論コース

コース概要

AIを活用して業務効率の向上のために必要な、AIに関する全般的知識の習得をめざします

到達目標

·        AIの技術動向を理解できる

·        業務へのAIの適用方法を理解できる

·        AI案件の推進プロセスを理解できる(計画、構築、保守各フェーズ)

対象者

ビジネスにAIを適用しようとしている方

前提知識

ビジネスにIT活用をした経験がある方

教育内容

1.    オリエンテーション

2.    最近のAIの話題

3.    AIとは

4.    AIを取り巻く状況

5.    ディープラーニングとは

6.    AI案件のすすめ方

7.    必要なハードウェア、ソフトウェア

8.    AI案件で注意すべきこと

9.    当社のAIへの取り組み

2.AI技術概論コース

コース概要

座学およびPCを使用した演習により、AI技術を活用した情報システム開発の取りまとめに必要な知識を学習します

到達目標

·        AIの概要や使用方法などを理解し、適切な技術を選択できる

·        PoCを計画し、結果を評価して投資判断ができる

·        AI技術を活用した情報システムの開発を、リーダーとして推進できる

対象者

AI技術を活用した情報システムの開発を行いたい方

前提知識

情報システム開発経験がある方または同等の知識をお持ちの方

教育内容

1.    オリエンテーション

2.    AI/ディープラーニング概要

3.    ディープラーニングの使い方

4.    ディープラーニング体験演習

5.    ディープラーニングの仕組み

6.    ディープラーニングの実用

7.    AI適用における評価方法

8.    商用サービス紹介

9.    AI適用における可否判断およびあい路

10. AIシステム構築の進め方(契約の注意点)

11. 当社のAIへの取り組み

3.ディープラーニング実践コース

コース概要

Keras*を使った実践的なディープラーニングの開発手法の習得をめざします

*機械学習用ライブラリ

到達目標

·        画像分類のモデルが作成できる

·        物体検出のモデルが作成できる

対象者

業務でディープラーニングのモデルを作成し、画像分析を実施したい方

前提知識

·        AI技術概論コース習得済みの方、または同等の知識をお持ちの方

·        情報システムの開発プログラミング経験がある方

教育内容

【1日目】

1.    オリエンテーション

2.    ディープラーニング概要

3.    ディープラーニング体験演習

4.    精度の評価方法

5.    Pythonの基本文法の説明

6.    多層パーセプトロン

7.    精度を上げるためのテクニック(1)

【2日目】

1.    オリエンテーション

2.    畳み込みニューラルネットワーク

3.    精度を上げるためのテクニック(2)

4.    ネットワーク構造

5.    オリジナルデータを使う

6.    転移学習

7.    判断根拠の可視化

【3日目】

1.    オリエンテーション

2.    物体検知

3.    テキスト分類

4.    しきい値の調整

5.    ディープラーニングの応用例

6.    数値データの回帰

7.    コンペティション形式演習

 

协助企业

 

CSAJ(コンピュータソフトウェア協会)、IT連盟(日本IT団体連盟)、JASPA(全国ソフトウェア協同組合連合会)、TCA(電気通信事業者協会)、JISA(情報サービス産業協会)、JEITA(電子情報技術産業協会)、JIPDEC(日本情報経済社会推進協会)、CIAJ(情報通信ネットワーク産業協会)、AMD(デジタルメディア協会)、テレサ協(テレコムサービス協会)、DiTT(デジタル教科書教材協議会)、安心協(安心ネットづくり促進協議会)、FMMC(マルチメディア振興センター)、DCAJ(デジタルコンテンツ協会)、APPLIC(全国地域情報化推進協会)、DSK(情報通信振興会)、全携協(全国携帯電話販売代理店協会)、日本動画協会、CESA(コンピュータエンターテイメント協会)、JOGA(日本オンラインゲーム協会)、IAjapan(インターネット協会)、音制連(日本音楽制作者連盟)、音事協(日本音楽事業者協会)、経団連、新経連、日本商工会議所、日本生産性本部。

 

渠道合作

(一)院校合作

1、师资交流:公司与学院提供相互师资交流机会,学院可以随时派教师到公司学习最新课程与项目实训,公司派遣工程师到学院学习交流新的授课方法及教学经验。

2、技术支持:与学院建立项目实践小组共同建立科研课题为学院提供技术支持,帮助学院承接的社会商业项目提供技术支持。

3、教材研发:共同开发教材,公司提供案例实践,学院提供系统理论依据共同开发教材为学生提供优秀教学教材。

4、教学支持:公司根据学校教学安排为学生安排工程师进行项目实训。增加学生的就业实践能力。

5、创新创业活动:公司提供创新创业基金,扶持学院的创新创业活动并对优秀学员提供资金扶持政策,帮助学生成立科技公司等活动。

6、大赛技术扶持:协助学院参加国内、国际大赛提供技术支持。

7、实验室建设:合作计划开展工作顺利后公司根据实际情况为学院建立实验室,增加学生的实际操作能力。

8、顶岗实习:公司安排相应岗位允许部分学生到公司参加实习工作。

9、就业实训:公司安排实训课程,基础课程学院完成,实践课程公司完成,参加实训的学生全部由公司安排工作,签订就业协议。

10、互设办事机构:公司在学院设立人才培养基地,学院在公司设立创新创业基地,并进行相互挂牌实行学分置换,为学生的就业、创新、创业提供全方位支持。同时公司对没有参加实训活动的学生提供免费的就业素质教育和就业服务。并对来全国工作的或到其他地方有公司办事机构的同学提供免费服务。

(二)品牌合作

1、地方教育机构合作:选择全国各地有实力、信誉好的地方机构公司,实现强强联合,共同成立联合企业。优势互补、资源互补。造福地方学生和企业。

2、商业项目合作:地方企业或机构利用自己的优势资源承接商业项目,哈牛桥智能科技提供强大的科研团队。实现共同发展。

(三)代理招生

1、机构代理:选择口碑好的企业或机构联合招生,促进地方的高端就业。

2、个人代理:与在地方具有影响力,品质好的,愿意为当地学生服务、奉献的人事合作招生,提高当地学生的就业质量,造福一方学生。

联系人:国经理 15371129229 微信 yuhonghong7035哈牛桥智能科技 IT人才育成 招聘

现因业务需要,诚聘以下岗位人才,欢迎投递简历。


一、电话销售经理

岗位职责:

1、负责线上整体信息量的转化及团队的管理、对整体业绩负责;

2、负责腾讯课堂、直播课、在线平台信息量转化,转化方式主要为网络咨询及电话咨询;

3、负责信息量线下的流转及后续跟进;

4、逐渐完善线上销售工作流程、制度、培训方案的制定;

5、在线营销端数据梳理及统计、并根据数据进行持续改进。

任职资格:

1.3年以上电话销售或销售工作经验,有教育类在线咨询经理优先;

2.大专及以上学历,专业不限;

3.通过电话与客户进行有效沟通,保证完成销售业绩,有电话销售或销售工作经验者优先;

4.热爱教育行业、有良好的职业素养。


二、线上教务主管(班主任) 2人

岗位职责:

1、负责线上学员的日常管理工作;

2、与学员沟通平台使用、课程完成情况,记录学员在学习过程中的意见与建议并反馈;

3、进行学员回访及满意度调查,完成课程匹配及转班等管理;

4、协调组织 学员参加各种直播课 并参与主持工作;

5、帮助学员制定学习计划;

6、领导交办的其他工作。

任职资格:

1、形象好、声音甜美、普通话标准,优秀的语言表达能力;

2、性格温和、具有亲和力、善于沟通,反应机敏,思路清晰;

3、有身为人师的责任感,能耐心积极的帮助学员解决学习过程中的问题;

4、热爱教育事业,对工作保持高度热情;

5、熟练使用办公软件;

6、有在线导学教务工作经验者优先。


三、线上运营主管 2人

岗位职责:

1、公司产品知识的销售化整理;

2、 分析销售数据,并根据分析结果找到问题,并制定相应的解决方案;

3、培训和管理团队,指导其完成市场销售任务,推动业务管理的规范化、专业化;

4、 负责校区招生的流程监督,解决销售中遇到的各类问题,并及时提出解决方案;

5、 负责活动的制定与实施。

任职资格:

1、大专及以上学历,1年以上销售管理经验;

2、熟练掌握销售技能,拥有较强的学习能力,沟通能力和文案撰写功能;

3、有身为人师的责任感,能耐心积极的帮助学员解决学习过程中的问题;

4、有较强的学习能力,熟悉使用办公软件。


四、运营支持总监 2人

岗位职责:

1、支持区域,落实集团各项工作;

2、所支持区域的数据分析(如:业务数据(转化率),人员数据(人员梯队情况,司龄等),找到问题协助区域完成;

3、负责问题区域的中层带教;

4、完成所支持的区域或问题中心的提升;

5、完成集团薄弱项目的梳理工作。

任职资格:

1、统招大专学历;

2、有校区销售管理/运营管理经验;

3、精通一线校区的业务管控流程。

 


五、口碑总监 2人

工作职责

1、 负责全国口碑顾问岗位的选拔、培养、工作的督导和人才发展规划;

2、 负责全国口碑顾问转化环节业务能力提升,为业绩目标达成和转化率负责;

3、 负责口碑顾问业务数据的收集整理和分析;

4、 领导交办的其它工作。

任职资格

1、 统招本科及以上学历;

2、 3年以上销售团队管理经验,具备教育行业相关工作经验;

3、具有较强的学习能力,具备一定数据分析能力,熟悉使用办公软件;

4、具备较强的目标感,娴熟的沟通能力和团队管理能力;

5、能够适应出差。


六、运营督导经理 1人

【工作职责】

1、支持区域,落实集团各项工作;

2、所支持区域的数据分析(如:业务数据(转化率),人员数据(人员梯队情况,司龄等),找到问题协助区域完成;

3、负责问题区域的中层带教;

4、完成所支持的区域或问题中心的提升;

5、完成集团薄弱项目的梳理工作。

【任职资格】

1、统招大专学历;

2、3年以上校区销售管理/运营管理经验;

3、精通一线校区的业务管控流程;

4、具有较强的综合管理能力、工作协调能力、市场拓展能力。


七、呼叫中心总监 1人

岗位职责:

1、带领团队完成公司下达电销中心业务目标,分解团队目标至团队、成员,分解至周、日,并考核;

2、熟悉电销流程的整体环节,包括电销体系搭建及优化,人员招聘,培训,激励,考核等,辅导下属团队成员成长;

3、善于挖据客户需求,具备较强的从客户弱需求转化为有效销售需求的能力,了解团队成员日常工作情况,帮助团队成员挖掘和维护优质客户资源;

4、监督并辅导团队成员工作,完善工作流程,提出绩效改进方案,制定有效的激励规则;并根据公司整体业务目标进行不断的总结和优化;

5、结合业务规划,组织开发电销培训体系,包括但不仅限于新人培训、转正培训、衔接培训、晋阶培训、技能培训等;

6、激发团队士气,塑造良好的团队文化,培养具有凝聚力、战斗力的销售队伍。

任职资格

1、大专以上学历,电销业务3年以上工作经验;

2、从一线销售成长为的电销管理者,在不同成长阶段有较多Top sales的记录;

3、具有上10人电销团队管理经验,具有教育行业电销业务背景者优先;

4、具有优秀的团队管理能力,充满激情及饱满的工作热情,有人格魅力,能够有效激励团队士气。


八、市场推广经理 1人

岗位职责:

1、负责执行公司指定的APP市场推广和Android各主流市场的合作策略;

2、负责在线及会计网校的平台推广策略和执行;

3、负责在线及会计网校的课程推广策略与执行;

4、负责了解和分析市场动态;

5、负责联系各类型合作伙伴,确保运作模式顺利进行,及合作合同的签署等相关流程的执行。

任职资格:

1、有一年及以上互联网或教育行业市场推广经验,熟悉各种推广方式、广告平台,有渠道推广资源的优先;

2、具有较强的文案策划、数据分析和沟通谈判能力;

3、具有敏感的商业和业务推动能力;

4、大专及以上学历,专业不限。


分校校长 若干

工作职责

1、主持单/多校区的全面管理工作,组织实施公司下达的各项决议;

2、组织制定年度经营计划,并致力于达成业务目标;

3、对各部门管理岗位工作布置、指导、检查监督、评价和考核管理工作;

4、签署日常行政、业务文件,并对签署文件负责;

5、监控执行集团下达的各项管理规章制度,拟定区域内具体规章制度;

6、监督管理各中心日常管理及建设,包括任务分配、招聘、激励,处理本中心内重大突发事件;

7、对项目成本进行把控、对利润负责。

任职资格

1.3年以上校区管理、运营经验;教育培训行业工作经验优先;

2.具有企业营销管理知识、熟悉职业培训业务流程及运作模式;

3.具有较强的综合管理能力、工作协调能力、市场拓展能力;

4.擅长组织、带领班子成员团结、努力工作,优秀的执行力、领导力;

工作地点:全国各大城市均有校区,根据候选人情况就近安排。

人力资源部联系电话:国经理 15358411774

简历投递邮箱:1500467240@qq.com

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている国龍、加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。前回の 2D Human Pose Estimation 編 に引き続き、今回は 3D Human Pose Estimation 編として加藤直樹 (@nk35jk) が調査を行いました。

本記事では 3D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、コンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された論文を中心に 3D Human Pose Estimation の最新の研究動向を紹介します。

過去の他タスク編については以下をご参照ください。

·      Human Recognition 編 (2019/04/26)

·      3D Vision 編 (2019/06/04)

·      キーポイント検出の手法を用いた物体検出編 (2019/07/08)

·      Object Tracking 編 (2019/07/17)

·      Segmentation 編 (2019/08/19)

·      Single Image Super-Resolution 前編 (2019/09/24)

·      動画認識編 (2019/10/09)

目次

·      前提知識

o   3D Human Pose Estimation

o   関連するデータセット

o   評価方法

o   タスクの課題

·      代表的な研究事例

o   Structured Prediction of 3D Human Pose with Deep Neural Networks (BMVC 2016)

o   Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)

o   A simple yet effective baseline for 3d human pose estimation (ICCV 2017)

o   Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach (ICCV 2017)

o   3D Human Pose Estimation = 2D Pose Estimation + Matching (CVPR 2017)

o   End-to-end Recovery of Human Shape and Pose (CVPR 2018)

·      近年の研究動向

o   Ordinal Depth Supervision for 3D Human Pose Estimation (CVPR 2018 Oral)

o   Integral Human Pose Regression (ECCV 2018)

o   C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion (ICCV 2019 Oral)

o   Occlusion-Aware Networks for 3D Human Pose Estimation in Video (ICCV 2019)

o   Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image (ICCV 2019)

o   Learnable Triangulation of Human Pose (ICCV 2019 Oral)

o   Learning Trajectory Dependencies for Human Motion Prediction (ICCV 2019 Oral)

·      おわりに

·      参考文献

前提知識

3D Human Pose Estimation

Human Pose Estimation / 人物姿勢推定 は人物の映った画像や動画から人物の姿勢に関する情報を特定するタスクであり、以下のサブタスクに大別されます。

·      2D Pose Estimation(前回の記事で紹介)

·      Pose Tracking

·      3D Pose Estimation(本記事のスコープ)

·      Shape Reconstruction

それぞれのサブタスクの位置付けについては前回の 2D Pose Estimation の紹介記事でまとめていますので、興味のある方はそちらをご覧ください。

上記の各サブタスクのうち、3D Pose Estimation は単一または複数視点の画像や動画から人物関節点の3次元座標を特定するタスクです。ここで言う3次元座標には関節点のワールド座標、カメラ座標、腰を原点とした相対座標などが含まれ、研究の目的によって推定対象は異なります。3D Pose Estimation の中でも特に盛んに研究されているのが単眼カメラ画像を入力とした3次元姿勢の推定です。単眼カメラを用いる場合カメラから人物への奥行き(デプス)およびスケールが不定となるため、基本的にはカメラ座標系において人物の腰を原点としたときの各関節点の相対座標を推定する問題設定となります。

3D Pose Estimation [1]

近年CV分野全体において3D認識についての研究が注目されている流れに逆らわず、Pose Estimation においても2Dから3Dへと研究の対象が移りつつある印象を受けます。私の集計した限りでは、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 では Pose Estimation に関する論文が計41本採録されており、その内4本が 2D Pose Estimation に関する論文、19本が 3D Pose Estimation に関する研究、18本が Shape Reconstruction に関する論文と、ほとんどが3D認識タスクに関する研究でした。

本記事では 3D Pose Estimation の中でも特に研究の盛んな単眼カメラ画像からの3次元姿勢推定に関する代表的な研究事例を紹介した後、ICCV 2019 に採録された論文を中心に 3D Pose Estimation の最新の研究事例をトピック毎に紹介します。近年注目されている関連タスクである Shape Reconstruction については別の記事で紹介を予定しています。

関連するデータセット

3D Pose Estimation の研究では主に以下のデータセットが用いられます。

Human3.6M [2]

Human3.6Mは4台のカメラで計11人の被験者を撮影した計約360万フレームの動画から成る、3D Pose Estimation の評価の際に最も標準的に用いられるデータセットです。実験室環境でモーションキャプチャシステムを用いて作成されたデータセットとなっており、マーカーを装着した被験者を複数台のモーションカメラで撮影することにより各関節点の3次元座標をアノテーションしています。

   

Human3.6Mデータセットのデータ例

HumanEva-I [3]

HumanEva-Iは比較的小規模なデータセットで、7台のカメラで計4人の被験者を撮影した計約4万フレームの動画から構成される実験室環境のデータセットです。Human3.6Mが主流となる前の研究では本データセットが主に利用されていました。

  

HumanEva-Iデータセットのデータ例

MPI-INF-3DHP [4]

MPI-INF-3DHPは複数カメラを用いたマーカーレスモーションキャプチャシステム [5] を用いて作成されたデータセットです。学習データは計11人物を14台のカメラで同時に撮影した計130万フレームを超える動画からなります。このとき、グリーンスクリーンの実験室環境で被験者を撮影することにより、背景、椅子、上半身、下半身のテクスチャのデータ拡張を行い、データに多様性を持たせています。テストデータはグリーンスクリーン有り/無しの実験室環境で撮影されたもの、野外で撮影されたものの3種類からなります。

学習されたモデルの汎化性能を検証するために、他の実験室環境データセット(主にHuman3.6M)などで学習されたモデルを本データセットの野外画像のテストデータを用いて評価する事例が存在します。

MPI-INF-3DHPデータセットのデータ例

上段:学習データ、下段:テストデータ

CMU Panoptic [6]

CMU Panoptic は複数台のカメラが内側に取り付けられた球状の実験室環境で作成されたデータセットで、実験室内の単一または複数の人物を480台のVGAカメラ、30台以上のHDカメラ、10台のRGB-Dセンサで同時に撮影することで得られた計約5.5時間の65動画および約150万の人物姿勢から構成されます。

実験室の構成

CMU Panoptic データセットのデータ例

評価方法

3D Pose Estimation では Mean Per Joint Position Error と 3D Percentage of Correct Keypoints という評価指標が主に用いられます。

Mean Per Joint Position Error

Mean Per Joint Position Error (MPJPE) は関節点の推定座標と正解座標の距離(単位は主にmm)を全ての関節点およびデータで平均することにより算出される評価指標です。単眼カメラを用いたアルゴリズムの場合、評価の前に推定姿勢と正解姿勢の腰などの基準となる関節点 (Root Joint) の座標を並進移動により位置合わせする場合や、さらに回転を加えた剛体変換による位置合わせ (Rigid Alignment) を行う場合があります。そのため研究間の評価値を比較するときは、それぞれの評価手順が異なっていないか注意が必要です。なお、Rigid Alignment 後のMPJPEは Reconstruction Error と呼ばれる場合があります。

Percentage of Correct 3D Keypoints

Percentage of Correct 3D Keypoints (3D PCK) は2次元姿勢推定において利用される評価指標であるPCKを3次元に拡張したもので、関節点の推定座標と正解座標の距離が設定した閾値よりも小さいときにその関節点の推定を正しいものとし、推定が正しく行われた割合をその評価値とします。

タスクの課題

3D Pose Estimation における主要な課題点として挙げられるのがデータセット構築のハードルの高さです。2次元関節点座標は人物画像さえあればアノテーションが可能であるのに対し、3次元関節点座標のアノテーションにはモーションキャプチャシステムが必要となるため、大規模なデータセット構築が困難です。現状最大規模のデータセットであるHuman3.6Mは動画のフレーム数こそ多いものの、被験者数がそれほど多くないという課題があります。また、特に実験室環境で構築されたデータセットは背景環境や人物の服装、姿勢などの外観の多様性が低く、学習されたモデルの汎化性能を損なう恐れがあります。さらに、モーションキャプチャ手法にもよりますがGround-truth自体が必ずしも正確ではないという問題があり、正確なアノテーションを付与することのできるモーションキャプチャ手法自体が研究対象にもなっています。

代表的な研究事例

単眼カメラ画像からの 3D Pose Estimation には多様なアプローチが存在しており、それらを体系的に系統付けるのは難しいですが、おおよそ以下のように大別されます。

·      関節点座標を直接回帰

·      3次元ヒートマップ推定

·      2次元姿勢を入力に3次元姿勢を推定

·      2次元姿勢推定 + デプス推定

·      2次元姿勢に対応する3次元姿勢をライブラリから検索

·      人体モデルのフィッティング

ここからは、上記それぞれのアプローチを用いた 3D Pose Estimation に関する研究の中から代表的と思われるものをピックアップし紹介します。なお、使用している図表は紹介論文から引用したものとなります。

Structured Prediction of 3D Human Pose with Deep Neural Networks (Tekin+, BMVC 2016) [7]

この研究はディープラーニングを3次元姿勢推定に応用した初期の手法であり、畳み込みニューラルネットワークに画像を入力して関節点の3次元座標を回帰により推定するというシンプルなアプローチを取っています。

モデルの出力は(推定すべき関節点数)× 3 次元のベクトルで、各関節点の座標は Root Joint を原点とした相対座標により表されます。同様のアプローチはLiらにより提案されていますが [8]、本研究ではモデルの学習時にオートーエンコーダーで獲得された潜在表現を活用することで人物姿勢の構造情報を考慮した推論を可能にし、モデル性能向上を図っています。

手法の枠組み

本手法では3段階の学習によりモデルを学習します。まず、ノイズを加えた人物の3次元姿勢を入力にそれを復元するオートエンコーダーを学習します(下図 (a))。次に画像を入力に、獲得されたオートエンコーダーの潜在表現を推定するモデルを学習します(下図 (b))。そして最後に、オートエンコーダーのデコーダーをモデルに付け加え、関節点の3次元座標を推定するようモデルをFine-tuningします(下図 (c))。モデルの学習は全ての段階において Mean Squared Error (MSE) をロス関数として行います。

モデルの学習

実験結果

Ablation Study では、関節点座標を回帰するモデルを一から学習したもの (下表CNN-Direct)、オートエンコーダーの層数およびFine-tuningの有無を変化させた提案手法 (下表OURS) の性能比較を行い、提案手法の有効性を示しました。

Human3.6Mデータセットでの Ablation Study 結果(MPJPE)

また、提案手法は既存の非ディープラーニング手法(下表LinKDE)およびディープラーニング手法(下表DconvMP-HML、StructNet)を上回る性能を達成しました。

Human3.6Mデータセットでの既存手法との性能比較(MPJPE)

Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (Pavlakos+, CVPR 2017) [9]

2次元姿勢推定においてヒートマップを用いたアプローチの有効性が確認されたのを受け、本研究では3次元ヒートマップを用いた3次元姿勢推定手法を提案しています。

3次元ヒートマップは推定する関節点の種類毎に用意され、人物周囲の空間をVoxelを用いて離散化して表現しています。具体的には、ヒートマップのx-y方向のグリッドは入力画像をx方向、y方向に均等に離散化したものに対応し、z方向のグリッドは人物の Root Joint を中心とする [-1, 1] メートルのデプスを均等に離散化したものに対応します。各Voxelの値は対応する空間内に関節点が存在する尤もらしさを表します。ヒートマップの正解ラベルは関節点座標を中心とする3次元のガウス分布に基づき生成され、MSEをロス関数としてこれを推定するモデルを学習します。

アプローチの概要

モデルには Stacked Hourglass Network [10] を採用し、各 Hourglass Module から3次元ヒートマップを推定し、それぞれにロスを与える Intermediate Supervision を適用します。モデルは全てのモジュールで同一解像度のヒートマップを推定するのではなく、下図のように層が深くなるにつれ推定が難しいヒートマップのデプス方向の解像度を徐々に大きくしていくことにより、学習の複雑さの低減を図っています。

Coarse-to-Fineなヒートマップ推定

推論時は3次元ヒートマップにおいて値が最大のVoxelに対応する座標を関節点の推定座標とします。

実験結果

スタック数1の Hourglass Network を用い、関節点座標を直接回帰するモデル(下表 Coordinate Regression)と3次元ヒートマップを推定するモデル(下表 Volume Regression)の性能比較を行い、ヒートマップを用いた3次元姿勢推定の有効性を示しました。

推定対象による性能比較(Human3.6MデータセットでのMPJPE

d はヒートマップのデプス方向の解像度を表す

また、Hourglass Network のスタック数を増やしていきつつ、各モジュールで推定されるヒートマップのデプス方向の解像度を一定とした場合、徐々に増やしていった場合の性能を比較し、Coarse-to-Fineなヒートマップ推定の有効性を確認しました。

ヒートマップの解像度による性能比較(Human3.6MデータセットでのMPJPE)

Li はi番目の Hourglass Module で推定されるヒートマップのデプス方向の解像度を表す

本手法はHuman3.6Mデータセットで既存手法を上回る 71.90 mm のMPJPEを達成しました。なお、本手法では Root Joint のデプスをデータセットの人物骨格サイズに基づき推定しており、評価の際に Root Joint をGround-truthと位置合わせしていないことに注意が必要です(他の研究のように位置合わせを行うことでより評価値が改善すると考えられます)。

A simple yet effective baseline for 3d human pose estimation (Martinez+, ICCV 2017) [11]

前述したように、3次元姿勢推定で利用されることの多い実験室環境で構築されたデータセットはデータの外観の多様性が低く、学習されたモデルの汎化性能を損なう恐れがあります。それを受け、本研究では3次元姿勢推定の際に画像の外観情報は直接利用せず、2次元姿勢推定器を用いて推定された2次元姿勢を入力として3次元姿勢を推定するアプローチを取っています。画像を入力としないため、非常に高速な推論が可能であるのもこのアプローチの利点の一つです。

モデルは下図のように、全結合層、ReLU、Batch Normalization、DropoutとSkip-connectionから成るブロックを2回繰り返した構造を持つ非常にシンプルなものとなっています。

入力である2次元姿勢は各関節点の画像座標であり、推定対象の3次元姿勢はカメラ座標系において Root Joint を原点とした各関節点の相対座標です。前処理として、入出力共に平均を0、分散を1にする標準化を行なっています。ロス関数にはMSEを用いてモデルを学習します。

実験結果

MPIIデータセットで学習された Hourglass Network を2次元姿勢推定器に用いて既存手法との性能比較を行い、本手法の優位性を示しました。また、入力にGround-truthの2次元関節点座標を用いたときのエラーの低さから、入力される2次元姿勢の正確さが精度に大きく寄与することが見て取れます。

 

Human3.6MデータセットでのMPJPEによる性能比較

左:Rigid Alignment 無し、右:Rigid Alignment 有り

外観の多様性に富むMPIIデータセットで学習された2次元姿勢推定器を利用していることが他手法と比較した本手法の性能の高さの一助となっているように思われます。

本手法のように、事前に推定された2次元姿勢を入力として3次元姿勢を回帰するアプローチが近年の研究でも広く用いられています。

Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach (Zhou+, ICCV 2017) [12]

この研究では3次元姿勢推定を2次元姿勢推定とデプス推定の2つのタスクに分割することにより、外観の多様性に富む2次元データセットと関節点の3次元座標のアノテーションを持つ3次元データセットを併用した学習が可能なモデルを提案し、野外画像に対する汎化性能の向上を図っています。

アプローチの概要

提案手法の枠組みは下図のようになっています。学習時のモデルの入力は2次元データセットと3次元データセットの画像を同一比率でサンプリングして作成したミニバッチです。2D pose estimation module は2次元ヒートマップを推定するモジュールで、ネットワークには Hourglass Network を採用しています。Depth regression module は 2D pose estimation module で推定されたヒートマップおよび特徴マップを入力に各関節点のデプスを推定するモジュールです。

手法の枠組み

入力画像が3次元データセットのサンプルである場合、ヒートマップに対するL2ロスとデプスに対するL2ロスの和をロス関数とします。一方で入力が2次元データセットのサンプルである場合はヒートマップに対するL2ロスと本研究で提案されている Geometric Loss の和をロス関数とします。Geometric Loss はデータセットにおける各ボーンの長さの平均と推定された各ボーンの長さの比率の分散をロスとすることで、人物の各ボーンの長さの比率が一定となるようモデルに制約を与えます。

モデルの学習は以下のように3段階に分けて行われます(最終的なモデルはEnd-to-endな学習が可能です)。

·      2次元データセットを用いた 2D pose estimation module の学習

·      2次元/3次元データセットを併用したモデル全体の学習(Geometric Loss は非使用)

·      2次元/3次元データセットを併用したモデル全体の学習(Geometric Loss を使用)

実験結果

Human3.6Mデータセットを用いた実験では2次元/3次元データセットの併用および Geometric Loss の有効性を確認すると共に、提案手法が既存手法の性能を上回ることを示しました。

Human3.6MデータセットでのMPJPE

また、Human3.6MデータセットとMPIIデータセットで学習されたモデルの性能をMPI-INF-3DHPデータセットで評価する実験を行っています。3次元データセットであるHuman3.6Mのみを用いた場合は野外画像(下表Outdoor)に対する性能が非常に低いですが、2次元データセットを併用することにより評価値が大きく改善していることが確認できます。

MPI-INF-3DHPデータセットでの性能比較

このように、本研究は外観の多様性に富む2次元データセットを活用したモデル学習の有効性を示しました。2次元/3次元データセットを併用したモデルの学習は近年でも注目されている研究トピックの1つです。

3D Human Pose Estimation = 2D Pose Estimation + Matching (Chen+, CVPR 2017) [13]

この研究では論文名からも分かる通り、2次元姿勢推定結果に対応する3次元姿勢をモーションキャプチャデータのライブラリから参照することにより3次元姿勢推定結果を得るという特徴的なアプローチを取っています。このアプローチの利点として、画像の外観情報を用いないため野外画像に対する汎化性能に優れること、また処理の高速性(20万の3次元姿勢を含むライブラリに対するマッチングは約39fpsで動作)が主張されています。

アプローチの概要

2次元姿勢推定器にはMPIIデータセットで学習された Convolutional Pose Machine (CPM) [14] を用いています。CPMにより推定された2次元姿勢とライブラリ中の3次元姿勢が対応する尤もらしさを、推定された2次元姿勢と適当なカメラパラメータを用いてライブラリの3次元姿勢を画像上に射影して得られる2次元姿勢のL2距離に基づき算出し、これが最も高い3次元姿勢を参照姿勢とします。

参照された3次元姿勢をそのまま推定結果とするのではなく、各関節点のデプスは参照姿勢のものを採用し、カメラ座標系におけるx, y座標は推定された2次元姿勢の画像座標を参照姿勢のデプスの平均値とカメラの焦点距離の比率を用いて定数倍することで求めており、実験的に後者の方が性能が高くなることを確認しています。下図は参照姿勢と本手法による最終的な推定結果例を示していますが、2次元姿勢推定結果と参照姿勢のデプスを組み合わせることで、より適切な推定結果が得られていることが分かります。

Ground-truthの2次元姿勢を入力したときの3次元姿勢推定結果例

左:ライブラリから参照された3次元姿勢、

右:2次元姿勢推定結果と参照姿勢のデプスを組み合わせて得られた推定結果

本手法は画像の外観情報を推定に利用しないため、2次元姿勢推定結果が適切であればデータのドメインに関わらずある程度精度よく推定ができる一方で、下図のように画像と明らかに対応しない推定を行ってしまう場合も存在します。

Ground-truthの2次元姿勢を入力したときの3次元姿勢推定結果の失敗例

End-to-end Recovery of Human Shape and Pose (Kanazawa+, CVPR 2018) [15]

最後に紹介するアプローチは、事前に用意された人体モデルのパラメータ推定を通して人物の3次元姿勢を推定するというものです。このアプローチでは3次元姿勢の推定と同時に人物形状の復元を行うことができるため、より幅広いアプリケーションへの適用が可能です。人物形状復元 (Human Shape Reconstruction) に関する研究については別の記事でより詳細に紹介する予定です。

人体モデル

人体モデルとして主に用いられるのは Skinned Multi-Person Linear model (SMPL) [16] と呼ばれるモデルです。SMPLは頂点数6890点のメッシュおよび23点の関節点により人物形状と姿勢を表現するモデルです。このモデルは形状ベクトル β と姿勢ベクトル θ をパラメータとして持ち、これらのパラメータを変化させることにより人物の形状と姿勢を操作することができます。各パラメータにおける人物形状および姿勢はモーションキャプチャシステムを用いて構築された人体メッシュデータセットを用いた学習により決定されます。

人体モデルSMPL [16]

提案内容

本研究ではSMPLモデルのパラメータを畳み込みニューラルネットワークにより推定する Human Mesh Recovery (HMR) と呼ばれる手法を提案しています。既存の人体モデルを用いた手法には推定された2次元姿勢などに基づき人体モデルのパラメータ最適化を行うもの [17] が存在しますが、最適化の計算コストが高いという課題がありました。それに対して本手法ではSMPLモデルのパラメータを直接推定するため高速な推論が可能です。

HMRの枠組みは下図のようになっています。モデルは単眼画像を入力にSMPLモデルのパラメータである形状ベクトル β と姿勢ベクトル θ および弱透視投影カメラモデルにおけるカメラパラメータから成る計85次元のベクトルを出力します。SMPLモデルのパラメータに加えカメラパラメータを推定しているため、人物の3次元復元結果を画像上に再投影することが可能です。

Human Mesh Recovery の枠組み

本モデルの学習は関節点の2次元座標アノテーションおよび入力画像と非対応なモーションキャプチャデータ (Unpaired Data) を用いて行うことが可能で、Reprojection Error と Adversarial Loss の2つのロスを使用してモデルを学習します。Reprojection Error は推定された人体モデルのパラメータから得られる3次元姿勢を画像上に射影して得られる2次元姿勢に対するL1ロスです。しかし、人体構造的に不自然な推定姿勢でもこのロスを小さくすることができてしまうという問題があります。それを防ぎ、自然な人物姿勢を推定するために Adversarial Loss を使用します。このとき、DiscriminatorはSMPLモデルのパラメータを入力し、それがモデルにより推定されたものであるかモーションキャプチャデータからのものであるかを識別します。敵対的学習の枠組みにはLSGANを用いてエンコーダーおよびDiscriminatorの学習を行います。

画像に対応付いた3次元的なアノテーションが利用可能な場合は、上記ロスに加え、推定された3次元姿勢に対するMSEとSMPLモデルのパラメータに対するMSEの和を用いてモデルを学習します。

実験結果

画像に対応付いた人体メッシュの正解データが存在しないため、Human3.6Mデータセットでの3次元姿勢の Reconstruction Error を用いてモデルの定量評価を行なっています。本手法は人体モデルを用いた既存手法の性能を上回るとともに、画像と対応付いた3次元アノテーションを用いずともそれなりの性能が出ることが確認されました。しかし、関節点座標を直接推定する手法には及ばない性能となりました。

Human3.6Mデータセットでの性能比較

定性評価では画像に対応付いた3次元アノテーションを使用した場合、使用しなかった場合の推定結果を比較し、画像と対応付いた3次元アノテーションを用いずとも同程度の推定が可能であることを確認しました。

画像に対応付いた3次元アノテーションを使用した場合(青)、

使用しなかった場合(赤)の推定結果

また、3次元アノテーションおよび敵対的学習を利用せずにモデルを学習した場合、画像へ射影された2次元姿勢は正確なものの、不自然な形状および3次元姿勢が推定されてしまうことが確認されました。

3次元アノテーションおよび敵対的学習を用いなかった場合の推定結果

近年の研究動向

近年の 3D Pose Estimation に関する研究には多様な提案をしているものが存在します。ここからは、それら研究の中でも特に注目度の高いと思われるものを ICCV 2019 採録論文を中心としてトピック毎に紹介します。以下で紹介する研究事例はそれぞれ次のトピックに対応しています。

·      関節点の前後関係のアノテーションの活用

·      ヒートマップ推定と回帰を統合したアプローチの提案

·      2次元アノテーションを用いたモデルの学習

·      時系列情報の活用

·      複数人物3次元姿勢推定

·      多視点画像からの3次元姿勢推定

·      Human Motion Prediction

Ordinal Depth Supervision for 3D Human Pose Estimation (Pavlakos+, CVPR 2018 Oral) [18]

3次元姿勢推定の課題として、関節点の3次元座標のアノテーションを行うためには専用の機材が必要であるため、大規模なデータセットの構築や、野外画像から成るデータセットの構築が困難であることを前述しました。この問題への対応策として、関節点の前後関係のアノテーションを活用するアプローチが存在します。正確な3次元座標とは異なり、関節点ペアの奥行きの前後関係は画像さえあれば人手でアノテーションすることが可能です。本研究ではこのような関節点の前後関係のアノテーションを用いてモデルを学習する方法を提案しており、正確な3次元座標のアノテーションを用いずともそれなりの性能が得られることを示しました。また、既存の2次元データセットに前後関係のアノテーションを付加して3次元データセットと共に利用することで、既存手法を上回る性能を達成しました。

アプローチの概要

提案内容

関節点の前後関係のアノテーション

関節点ペア (i, j) に対し、それらの前後関係のアノテーション r(i, j) は次のように与えられます。

·      1:ij より近くに存在するとき

·      -1:ij より遠くに存在するとき

·      0:ij がほぼ同じ奥行きに存在するとき

本研究では上記アノテーションを用いた学習が可能な2種類の3次元姿勢推定手法を提案し、実験でそれぞれの比較検証を行なっています。

座標を直接回帰する手法

この手法では関節点のデプスと2次元座標を直接回帰することにより3次元姿勢推定を行います。このとき、モデルの出力は (関節点数)× 3 次元のベクトルとなります。ロス関数には2次元座標の推定結果に対するL2ロスと推定されたデプスに対する Ranking Loss の重み和を用いてモデルを学習します。推定されたデプス値を z とするとき、Ranking Loss は下式で定義されます。

このロス関数は、関節点ペアの奥行きの相対的な関係に対し、遠くに存在する関節点のデプス値が大きく、近くに存在するもののデプス値が小さくなるよう教師信号を与えます。

ヒートマップを用いる手法

もう1つの提案手法であるヒートマップを用いる手法では、モデルの推定対象が Coarse-to-Fine. と同様の3次元ヒートマップとなります。推定されたヒートマップにSoftmax関数をかけ値を正規化した後で、デプス方向の和をとることで2次元ヒートマップを、空間方向の和をとることでデプスの尤度ベクトルを算出します。そして、2次元ヒートマップから関節点の2次元座標が、デプスの尤度ベクトルの重心座標を求めることによりデプスの推定値が得られます。

3次元ヒートマップからの2次元ヒートマップおよびデプスの尤度ベクトルの算出

モデルの学習は2次元ヒートマップに対するL2ロスとデプスに対する前述の Ranking Loss の重み和を用いて行われます。

Reconstruction Component

上記2つの手法で推定されるデプスは関節点の相対的な位置関係を表す値となっていますが、実空間における大きさの単位を持っていません。そのため、このデプス値をメートルを単位とする値に変換するためのモジュールとして Reconstruction Component が提案されています。このモジュールは関節点の2次元座標と相対的なデプス値を入力に真のデプス値を推定します。モジュールの学習はモーションキャプチャデータのみを用いて行うことが可能で、3次元姿勢を適当な画像上に射影したときの2次元姿勢およびノイズを加えたデプスを入力とし、L2ロスを使用してモジュールを学習します。

Reconstruction Component

Reconstruction Component は下図のように、上述したモデルと統合してEnd-to-endに学習することが可能です。

Reconstruction Component の統合

実験結果

第一の実験として、Human3.6MデータセットにおいてGround-truthの3次元座標アノテーションを用いてモデルを学習した場合、前後関係のアノテーションを用いた場合の性能比較を行なっています。下表において、Depth Prediction はデプスのみを回帰で推定し2次元座標にはGround-truthを用いたもの、Coordinate Regression は座標を直接回帰する手法、Volume Regression は3次元ヒートマップを用いる手法です。全ての手法において、モデルのバックボーンには Hourglass Network が使用されています。結果としては、前後関係のアノテーションを用いて学習されたモデルは全ての手法においてGround-truthの3次元座標アノテーションを用いた場合に近い性能が得られており、前後関係のアノテーションの有効性が確認されました。

Human3.6MデータセットにおいてGround-truthの3次元アノテーション、

前後関係のアノテーションを用いた場合の性能比較

また、2次元データセットであるLSPデータセットとMPIIデータセットに関節点の前後関係のアノテーションを付加し、Human3.6Mデータセットと併用してモデルの学習を行っています。Ablation Study により、両データセットの併用および Reconstruction Component の有効性を実証しました。

Human3.6Mデータセットでの Ablation Study

MPI-INF-3DHPデータセットでの Ablation Study では、Human3.6Mデータセットのみで学習されたモデル、前後関係のアノテーションが付加された2次元データセットを併用して学習されたモデルの性能を比較しています。Human3.6Mデータセットのみを用いた場合は非常に低い性能となっていますが、外観の多様性に富む持つ2次元データセットを併用することで大きく性能が改善することが確認されました。

MPI-INF-3DHPデータセットでの Ablation Study

また、両データセットを併用して学習されたモデルは既存手法を上回る性能を達成しました。

Human3.6Mデータセットでの既存手法との性能比較 (MPJPE)

Integral Human Pose Regression (Sun+, ECCV 2018) [19]

姿勢推定において主流となっているヒートマップを用いたアプローチは認識性能に優れる一方で、ヒートマップにおいて値が最大の位置を関節点の推定座標とする処理は微分不可能であるため、関節点座標の推定がEnd-to-endではありませんでした。また、ダウンサンプリングされたヒートマップから推定を行うため、推定座標に量子化誤差が発生するという問題点があります。一方で、回帰によるアプローチはEnd-to-endかつ連続的な出力をすることが可能ですが、学習が難しいという問題があります。本研究ではそれらを踏まえ、ヒートマップ推定と回帰を統合した2次元/3次元姿勢推定手法を提案し、2つのアプローチの利点の両立を図るとともに、2次元/3次元データセット双方に対する提案手法の有効性を実証しました。

提案手法

提案手法である Integral Regression では以下の流れで姿勢推定を行います。

1.    入力画像に対し、関節点毎の2次元または3次元のヒートマップを出力する

2.    ヒートマップに対してSoftmax関数をかけ値を正規化する

3.    正規化されたヒートマップの重心位置を求めることにより各関節点の推定座標を得る

ヒートマップ重心を求める処理であるSoft-argmax関数は微分可能であるため、関節点座標の推定までを含めたモデル全体をEnd-to-endに学習することができます。学習時はヒートマップに対するロス、推定された関節点座標に対するロスを組み合わせてモデルを学習することが可能で、実験でそれらの組み合わせによるモデルの性能を比較検証しています。

Integral Regression の概要 [20]

また、3次元姿勢推定の場合、3次元ヒートマップのデプス方向とx軸またはy軸方向の和をとることでy軸ないしx軸方向の1次元ヒートマップが得られます。これらヒートマップに対してSoft-argmax関数をかけることにより関節点の x, y座標それぞれの推定結果が得られます。これらヒートマップと関節点座標に対するロスは関節点の2次元座標アノテーションを用いて計算することができるため、本モデルは3次元データセットと外観の多様性に富む2次元データセットを併用して学習することが可能です。

実験結果

ヒートマップに対するロスと関節点座標に対するロスの組み合わせによる性能の違いを比較検証しています。その際、関節点座標に対するロスには全ての実験でL1ロスを使用しています。比較手法は以下になります。

·      R1:関節点座標を直接回帰するベースライン手法

·      H1:ヒートマップのみにロスを適用(ガウス分布に基づき正解ラベルを作成、L2ロスを使用)

·      H2:ヒートマップのみにロスを適用(One-hotな正解ラベル、Cross Entropy ロスを使用)

·      H3:ヒートマップのみにロスを適用(関節点座標を中心とする円内を1、それ以外を0とする2値のラベル、Binary Cross Entropy ロスを使用)

·      I*:関節点座標のみにロスを適用

·      I1, I2, I3:ヒートマップおよび関節点座標にロスを適用(数字はヒートマップに対するロスに対応)

MPIIデータセットに対する2次元姿勢推定での各手法の性能比較により、ヒートマップを用いた手法に対する Integral Regression の優位性を実証しました。その際、ヒートマップはガウス分布で生成しL2ロスをかける場合が最も高い性能となりました。

MPIIデータセットでの各手法の性能比較

COCOデータセットでは提案手法が既存の2次元姿勢手法の性能を上回ることを示しました。

COCO test-dev set での既存手法との性能比較

Human3.6Mデータセットに対する3次元姿勢推定の評価実験では、ヒートマップを用いた3次元姿勢推定手法である Coarse-to-Fine. 、それを再実装した Ours H1、さらに Integral Regression を加えた Ours I1 の性能を比較しました。ベースラインである Ours H1 が Coarse-to-Fine. の性能を既に上回っており、それに Integral Regression を加えることでさらに性能が向上することが確認されました。

Coarse-to-Fine. との性能比較(Human3.6Mデータセットに対するMPJPE)

また、2次元/3次元データセット併用の効果を検証する実験を行い、これらデータセットの併用によりモデルの性能が大きく向上することを実証するとともに、2次元姿勢推定の場合とは異なり3次元姿勢推定の場合は関節点座標のみにロスをかけたI*が最も高い性能となることを確認しました。

Human3.6Mデータセットに対する各手法のMPJPE

Strategy1:Human3.6Mデータセットのみを用いてモデルを学習

Strategy2:Human3.6MデータセットとMPIIデータセットを併用してモデルを学習

MPIIデータセットとHuman3.6Mデータセットを併用して学習されたモデルはHuman3.6Mデータセットにおいて既存手法を上回る MPJPE 49.6 mm を達成しました。

Human3.6Mデータセットでの既存手法との性能比較

本論文が発表されて以降、3次元ヒートマップに対するSoft-argmax関数適用による3次元姿勢推定手法が多く見られるようになりました。

C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion (Novotny+, ICCV 2019 Oral) [21]

これまでに紹介した研究には、2次元アノテーションと3次元アノテーションを併用することによりモデルの性能改善を行うものがいくつか見られました。一方で、近年では3次元アノテーションを使用せず、2次元アノテーションのみを用いてモデルを学習する手法がいくつか提案されています [22, 23]。しかし、これらの手法では人物姿勢のみを推定の対象としていました。

それに対し今回紹介する研究では、2次元キーポイントからの3次元復元を、2次元キーポイントの複数の観測結果から、カメラ視点、物体姿勢、基準となる形状を求める Non-Rigid Structure from Motion (NR-SFM) 問題として定式化することにより、任意の非剛体の物体クラスに対する3次元復元を可能としました。本手法では、学習時はある非剛体クラスに属する物体の複数の2次元キーポイントのアノテーションを用いてモデルの学習を行います。テスト時は2次元キーポイントの1つの観測結果から3次元復元を行うことが可能です。

提案手法

本手法は下図のような枠組みとなっています。Factorization Network は物体の2次元キーポイントを入力とし、物体の姿勢を表す Shape Coefficients、基準となる形状である Shape Basis、カメラ視点を表す Viewpoint Parameters の3つを推定します。

手法の枠組み

モデル学習時に第一のロスとして使用されるのは、上記推定結果を用いた物体の3次元復元結果を画像上に射影したときの2次元キーポイントの再投影ロスで、Pseudo-huber Loss を用います。

しかし、このロスだけを用いると、複数の物体姿勢とカメラ視点の組が同一の3次元復元結果となりうるため、推定結果に曖昧性が生じてしまうという問題があります。そこで、向きの正規化された物体姿勢を推定することでカメラ視点を一意に定めるために、Canonicalization Network Ψ を使用し、第二のロスを適用します。Canonicalization Network は物体の3次元姿勢を入力とし、その向きを正規化するネットワークです。このとき、Factorization Network を用いて復元された3次元姿勢に任意の回転を適用したものを Canonicalization Network に入力して得られる3次元姿勢が、入力前の3次元姿勢と近くよう Pseudo-huber Loss を適用します。これにより、Factorization Network による3次元復元結果の向きが下図のように正規化されたものとなります。

Canonicalization Network Ψ の効果

実験結果

実験では、本手法が既存の2次元キーポイントからの3次元姿勢推定手法の性能を上回ることを示しました。

Human3.6Mデータセットでの性能比較

また、本手法により、人物に限らない任意の非剛体の3次元復元ができることを示しました。

提案手法による3次元推定結果

Occlusion-Aware Networks for 3D Human Pose Estimation in Video (Cheng+, ICCV 2019) [24]

コンピュータビジョンの様々なタスクにおいて、動画データにおける時系列情報の活用による認識性能向上が確認されています。3次元姿勢推定において時系列情報の活用を図った研究事例としては、入力である2次元姿勢の時系列的なシーケンスに対して Dilated Convolution を用いたネットワークを適用する手法 [25]、Graph Convolutional Network を用いた手法 [26] などが提案されています。これらの手法では時系列情報を活用することで遮蔽などにより誤った推定結果を補正し、時系列的に一貫した3次元姿勢の推定を図っています。しかし、遮蔽は複数フレームに渡って連続的に発生する性質を持つため、遮蔽を明示的に取り扱わないこれら手法の効果は限定的であることを本論文の著者らは指摘しています。それを踏まえ、本研究では遮蔽を明示的に取り扱い、遮蔽された関節点を近傍フレームの情報を用いて補完する手法を提案し、既存手法を上回る性能を達成しました。

提案手法

本手法の枠組みは下図のようになっており、モデルは以下の3つのネットワークから構成されます。

·      First Network:入力動画の各フレームの2次元姿勢および各関節点の遮蔽を推定する

·      2D Dilated Temporal Convolutional Network (2D TCN):First Network による2次元姿勢をリファインする(遮蔽された関節点の補完は行わない)

·      3D TCN:2D TCN により推定された2次元姿勢を入力に、遮蔽された関節点が補完された3次元姿勢を推定する

手法の枠組み

First Network

このネットワークは動画を入力とし、各フレームに対するヒートマップ推定を通して人物の2次元姿勢および各関節点が遮蔽されているかどうかを推定します。ヒートマップの正解ラベルは遮蔽された関節点の場合は全て0、そうでない場合は関節点座標に単一のピークを持たせたあとガウシアンフィルタで平滑したものとし、MSEをロス関数として使用します。推定時はヒートマップのピーク位置を関節点 i の推定座標、ピークの値を推定の確信度 Ci とします。最終的な確信度は、推定座標に対して Optical Flow を適用して得られるフローベクトル di 、前後フレーム間の推定座標の移動量 oi の差が大きいほど低くなるよう、次式を用いて算出されます。

この確信度を閾値処理することにより、各関節点が遮蔽されているか否かを判定します。

2D TCN

このネットワークは First network で推定された2Dポーズのシーケンスを入力に、それらをリファインするために使用されます。このとき、遮蔽された関節点に対する推定は行いません。具体的には、First Network で遮蔽されていると判定された関節点の値は入力、Ground-truthともに0とし、MSEをロス関数に用いてモデルを学習します。

3D TCN

このネッワークは2次元姿勢のシーケンスを入力に3次元姿勢のシーケンスを出力します。その際、遮蔽された関節点の補完も同時に行います。ロス関数には、関節点の3次元のGround-truthが存在する場合は3次元姿勢に対するMSEを、存在しない場合には3次元姿勢を画像上に射影して得られる2次元姿勢に対するMSEを使用します。また、人物の左右の骨の長さが等しくなるようなロス (Symmetry Constraint)、推定される姿勢が自然なものとなることを目的とした Adversarial Loss も同時に使用します。

Cylinder Man Model

3D TCN を学習するためには遮蔽ラベル付きの2次元姿勢と3次元姿勢が対応付いたデータが必要ですが、既存の3次元データセットにはカメラ視点によりどの関節点が遮蔽されるかを表す遮蔽ラベルは存在しません。そこで、遮蔽ラベルを生成するための人体モデルとして下図の Cylinder Man Model を提案しています。このモデルは両底面の中心を関節点とする円柱の組により人物形状を表現するシンプルなものとなっています。このモデルを使用し、任意のカメラ配置をしたときに円柱により関節点が遮蔽されるか否かに基づき遮蔽ラベル付きの2次元姿勢と3次元姿勢が対応づいた学習データを取得します。

Cylinder Man Model

Pose Regularization

遮蔽により欠損した入力に対する3次元座標を推定する際、推定結果が一意に定まりにくいという問題があります。これに対処するため、入力において欠損した関節点に対する3次元推定結果が Cylinder Man Model において遮蔽されるような制約をかけます。

実験結果

提案手法において重要なハイパーパラメータである入力シーケンスのフレーム数 Seq、遮蔽判定の閾値 t による性能の変化を調査し、入力シーケンスのフレーム数が128、遮蔽判定の閾値が0.3のときに性能が最も高くなることを確認しました。

ハイパーパラメータによる性能検証

(Human3.6Mデータセットに対するMPJPE)

また、提案手法における各構成要素の性能への寄与を検証する Ablation Study を行い、それぞれの要素の有効性を示しました。

Human3.6Mデータセットでの Ablation Study

本手法はHuman3.6Mデータセットにおいて、既存の最先端手法の性能を大きく上回る MPJPE 42.9 mm を達成しました。

Human3.6Mデータセットでの既存手法との性能比較

Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image (Moon+, ICCV 2019) [27]

既存の多く3次元姿勢推定手法は単一人物を対象とした手法となっていました。それに対し、本研究では複数人物を対象とした3次元姿勢推定手法を提案しています。単一人物を対象とする手法では Root Joint を原点とした各関節点の相対座標を推定する場合が多いですが、複数人物を対象とする場合、各人物の絶対的な位置を特定する必要があります。本研究では Root Joint の絶対座標を推定するRootNetを用いることでこれを実現しています。

提案手法

提案手法は下図のようにDetectNet、RootNet、PoseNetの3つのモジュールから成り立っており、それぞれの役割は以下のようになっています。

·      DetectNet:入力画像から人物矩形を検出する

·      RootNet:入力画像からクロップされた人物画像を入力に Root Joint の絶対座標を推定する

·      PoseNet:RootNetと同様の人物画像を入力に各関節の Root Joint からの相対座標を推定する

DetectNet、PoseNetには既存の人物検出器および単一人物3次元姿勢推定手法を使用することができ、本研究ではDetectNetに Mask R-CNN を、PoseNetに Integral Regression を採用しています。

手法の枠組み

RootNetのアーキテクチャは下図のようになっています。モデルの推定対象は Root Joint の画像座標およびデプスで、これらを用いて Root Joint の絶対座標を算出します。

RootNetのアーキテクチャ

図中 k は実空間における人物の面積が一定であるという仮定をおいたときの Root Joint のデプス値で、次式で表されます。

ここで、 αxαy はカメラのx、y軸方向の焦点距離、ArealAimg はそれぞれ実空間における人物の面積、画像上の人物の面積を表します。αxαy にはデータセットの焦点距離を使用し、Areal を 2000 mm × 2000 mm と仮定し、Aimg をDetectNetで検出された人物矩形の面積とすることで、上式から Root Joint のデプス値が得られます。

しかし、上式では人物の姿勢による矩形サイズの変化(下図 (a))や、実空間での人物サイズの違い(下図 (b))を表現できず、これらが生じた場合にデプスを正確に求めることができないという問題があります。

この問題に対処するため、RootNetは画像の外観情報を用いて人物サイズに関する係数 γ を出力します。γ を用いて k 値を補正することにより、最終的なデプスの推定結果が得られます。

モデルの学習は Root Joint の画像座標およびデプスに対するL1ロスを用いて行われます。

実験結果

複数人物3次元姿勢推定データセットであるMuPoTS-3Dを用いてDetectNetとRootNetに関する Ablation Study を行い、RootNetによる人物サイズ補正の有効性を確認しました。

MuPoTS-3Dデータセットでの Ablation Study

また、本手法は既存の複数人物3次元推定手法を上回る性能を達成しました。

MuPoTS-3Dデータセットでの既存手法との性能比較

本手法の推定結果例は下図のようになっており、様々な外観の画像に対して適切に推定ができていることが分かります。

MuPoTS-3Dデータセット(上段)およびCOCOデータセット(下段)に対する推定結果例

Learnable Triangulation of Human Pose (Iskakov+, ICCV 2019 Oral) [28]

多視点画像からの3次元姿勢推定は、単眼カメラ手法のモデルを学習するためのGround-truth作成や、スポーツやコンピュータ支援生活などの複数カメラを用いたアプリケーションにおいて必要となる技術です。これら応用に際して、少数のカメラを使用した高精度なアルゴリズムが求められています。

しかし、単眼カメラ画像からの3次元姿勢推定の研究が盛んに行われる一方で、多視点画像を対象とした研究はそれほど行われてきませんでした。既存の多視点画像を用いたKadkhodamohammadiらの3次元姿勢推定手法 [29] では、各カメラ画像に対する2次元姿勢推定結果を結合してモデルに入力することで3次元姿勢を推定しますが、学習時と同様のカメラ配置でしか推論ができないという問題があります。また、彼らの手法は精度面で最先端の単眼カメラ手法に劣っています。

それらを踏まえ、本研究では任意のカメラ設定での推論が可能な多視点画像からの3次元姿勢推定手法を提案し、少数のカメラを用いても非常に高精度な推論ができることを示しました。

提案手法

本研究では多視点画像を用いた次の2種類の3次元姿勢推定手法を提案しています。

·      Algebraic Triangulation

·      Volumetric Triangulation

両手法ともに任意のカメラ台数、カメラパラメータでの推論が可能であるとともに、End-to-endな学習が可能です。

Algebraic Triangulation

この手法では各カメラ画像に対する2次元姿勢推定を行った後、三角測量により3次元姿勢を推定します。2次元姿勢推定は2次元ヒートマップに対してSoft-argmax関数をかけることで行われます。バックボーンはヒートマップと共に各関節点の確信度を出力しており、この確信度を三角測量における3次元姿勢の最小二乗解を求める際に利用することで、確信度の高いカメラからの推論結果を重視したノイズに頑健な推論を行うことが可能となります。

Algebraic Triangulation

ロス関数には、推定された3次元姿勢に対して、外れ値へのロスを緩和したMSEを適用します。中間的に推定される2次元ヒートマップに対する教師信号の適用は行いません。

Volumetric Triangulation

こちらの手法では各カメラ画像から抽出された画像特徴を統合することにより得られる3次元特徴マップを用いて3次元姿勢を推定します。3次元特徴マップの座標は人物周囲の空間に対応付いており、各カメラ画像から抽出された特徴マップはカメラパラメータを用いて3次元特徴マップ中に下図のように逆射影されます。このとき、複数カメラからの特徴マップの統合方法として以下3つの手法が比較検証されています。

·      Sum Aggregation:対応関係にあるVoxel同士の和をとる

·      Conf Aggregation:Algebraic Triangulation と同様の方法で推定された確信度を用いてVoxelの重み和をとる

·      Softmax Aggregation:対応関係にあるVoxelにSoftmax関数をかけ、この値を用いてVoxelを重み和する(最大値をとるのに近い処理)

得られた3次元特徴マップに対して 3D CNN を適用することにより3次元ヒートマップを求め、それに対してSoft-argmax関数をかけることで最終的な3次元姿勢の推定結果が得られます。

Volumetric Triangulation

推定された3次元姿勢に対するL1ロスに加え、3次元ヒートマップにおける関節点の正解座標の値が大きくなるよう制約を与えるロスを用いてモデルを学習します。

実験結果

Human3.6Mデータセットを用いて既存の単眼手法および多視点手法と提案手法の性能を比較する実験を行っています。提案手法は単眼カメラ画像を用いた推論も可能であり、最先端の単眼手法に匹敵する性能となっています。また、多視点画像を用いた場合、提案手法は既存手法を大きく上回る性能を達成しています。特に Volumetric Triangulation において Softmax Aggregation と Conf Aggregation を用いた場合が最も性能が高く、MPJPE 20.8を達成しています。

Human3.6Mデータセットでの性能比較

CMU Panoptic データセットにおいてカメラ台数とモデルの性能の関係を調査する実験を行い、提案手法は4台程度の少数のカメラでも十分に精度の高い推定が可能なことを示しました。

CMU Panoptic データセットにおけるカメラ台数とMPJPEの関係

Human3.6Mデータセットで学習されたモデルの CMU Panoptic データセットに対する推定結果は下図のようになっており、学習時と推論時のカメラ条件が異なっても適切な推定が可能であることを実証しています。

Human3.6Mデータセットで学習されたモデルの CMU Panoptic データセットに対する推定結果

以下のデモ動画を見ると、提案手法による推定結果はGround-truthよりも正確なものとなっているように見えます。著者らも本手法を用いることで、Ground-truth自体の改善が可能であることを主張しています。

 

Learning Trajectory Dependencies for Human Motion Prediction (Mao+, ICCV 2019 Oral) [30]

最後に紹介するのは、複数フレームの人物画像や人物姿勢が与えられたときに、近い将来における人物姿勢を推定する Human Motion Prediction に関する研究です。ICCV'19では本トピックに関する論文が5本採録されています。今回紹介する研究は、関節点の時系列的な表現として、各時刻での座標表現を用いるのではなく、離散フーリエ変換により得られる軌跡表現を用いる点、ネットワークに Graph Convolutional Network を使用し、その際に事前に定義したグラフを用いるのではなく、グラフの結合関係を適応的に学習する点が既存手法との差分となっています。

提案手法

本研究の目的は、1 から N フレームまでの人物姿勢を入力に、N + 1 から N + T フレームまでの人物姿勢を予測することです。

提案手法の枠組みは下図のようになっています。

手法の枠組み

本手法では、入力である人物姿勢のシーケンスに対して離散フーリエ変換 (DCT) を適用することにより、人物姿勢を各周波数の軌跡成分の重み和による軌跡を用いて表現します。その際、高周波成分を除外することにより、計算コストの削減および時系列的になめらかな人物姿勢の推定が可能になると主張されています。よって、モデルの入力は全ての関節点に対するDCTの各周波数成分の係数値となります。このとき、入力シーケンスにおける最終フレームの姿勢を推定フレーム数の分だけ複製(パディング)してからDCTを適用し、モデルに入力します(実験でこの効果を検証しています)。モデルの出力は 1 から N + T フレームまでの姿勢に対応するDCTの係数値となります。最終的な人物姿勢の予測結果は出力されたDCTの係数値に逆離散フーリエ変換 (IDCT) を適用することで得られます。

ネットワークには Graph Convolutional Network (GCN) を使用することで、人物関節点の結合関係を明示的に利用した推論を行います。その際、グラフの隣接行列および重みを学習可能なパラメータとした Graph Convolutional Layer を使用することで、関節点の結合関係を自動で学習できるような設計としています。ネットワークは2層の Graph Convolutional Layer および Residual Connection から成るブロックを12回繰り返した構造を持ち、入出力におけるDCTの係数値の残差を出力するよう学習されます。

人物姿勢の表現方法として、角度表現または座標表現のどちらかを使用することとなります。角度表現を用いる場合はIDCT後の角度に対するL1ロスを、座標表現を用いる場合はIDCT後の座標に対するMSEをロスとしてモデルの学習を行います。

実験結果

Human3.6M、CMU-Mocap、3DPWの3つのデータセットで既存手法との性能比較を行い、いずれの場合においても既存手法を上回る性能を達成しました。下表はHuman3.6Mデータセットでの既存手法との性能比較結果です。同一姿勢に対して複数の表現方法が生じうる角度表現よりも、表現が一意に定まる座標表現を用いた場合に最も性能が高くなっています。

Human3.6Mデータセットに対するMPJPE。3Dは座標表現を用いて推定を行なった場合、それ以外は角度表現を用いて推定を行なった場合

また、モデルの入力に対するDCT、入力シーケンスに対するパディング、ネットワーク中の Residual Connection の有効性を検証する Ablation Study を行い、それぞれの有効性を示しました。特に、入力シーケンスに対するパディングがモデルの性能に大きく影響していることが確認されました。

DCT、Padding Strategy、Residual Connection に関する Ablation Study

さらに、使用するネットワークによる性能比較を行い、Fully-connected Network に対するGCNの優位性および人物関節点の接続関係学習の有効性を示しました。

ネットワークによる性能比較

本手法による推定結果は下図のようになっており、座標表現を用いた提案手法の推定結果がGround-truthと最も近くなっています。

推定結果例。1段目はGround-truth、2, 3段目は既存手法による推定結果、

4, 5段目はそれぞれ角度表現、座標表現を用いた提案手法による推定結果

おわりに

今回は 3D Human Pose Estimation の代表的な手法および近年の研究動向をご紹介しました。単眼カメラからの3次元姿勢推定には様々なアプローチが存在し、それぞれに向き不向きが存在しました。ヒートマップを用いたアプローチが主流の2次元姿勢推定に対し、3次元姿勢推定ではそれ以外のアプローチも広く用いられる傾向にあります。また、近年の研究には多様な手法を用いてモデルの性能向上を図るものや、複数人物3次元姿勢推定、Human Motion Prediction などのより高度なタスクに取り組むものが存在しました。モデルの性能向上に関しては、外観の多様性に富む2次元データセットを併用した学習の有効性が多くの研究で示されていました。今後もこの分野の研究の発展に期待が高まります。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] I. Habibie, W. Xu, D. Mehta, G. Pons-Moll, C. Theobalt, "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations," In CVPR, 2019.

[2] C. Ionescu, D. Papava, V. Olaru, C. Sminchisescu, "Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments," In TPAMI, 2014.

[3] L. Sigal, A. O. Balan, M. J. Black, "HUMANEVA: Synchronized Video and Motion Capture Dataset and Baseline Algorithm for Evaluation of Articulated Human Motion," In IJCV, 2010.

[4] D. Mehta, H. Rhodin, D. Casas, P. Fua, O. Sotnychenko, W. Xu, C. Theobalt, "Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision," In 3DV, 2017.

[5] The Captury, http://www.thecaptury.com/, 2019.

[6] H. Joo, T. Simon, X. Li, H. Liu, L. Tan, L. Gui, S. Banerjee, T. Godisart, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, Y. Sheikh, "Panoptic Studio: A Massively Multiview System for Social Interaction Capture," In TPAMI, 2017.

[7] B. Tekin, I. Katircioglu, M. Salzmann, V. Lepetit, P. Fua, "Structured Prediction of 3D Human Pose with Deep Neural Networks," In BMVC, 2016.

[8] S. Li, A. B. Chan, "3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network," In ACCV, 2014.

[9] G. Pavlakos, X. Zhou, K. G. Derpanis, K. Daniilidis, "Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose," In CVPR, 2017.

[10] A. Newell, K. Yang, J. Deng, "Stacked Hourglass Networks for Human Pose Estimation," In ECCV 2016.

[11] J. Martinez, R. Hossain, J. Romero, J. J. Little, "A simple yet effective baseline for 3d human pose estimation," In ICCV, 2017.

[12] X. Zhou, Q. Huang, X. Sun, X. Xue, Y. Wei, "Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach," In ICCV, 2017.

[13] C.-H. Chen, D. Ramanan, "3D Human Pose Estimation = 2D Pose Estimation + Matching," In CVPR, 2017.

[14] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, "Convolutional Pose Machines," In CVPR 2016.

[15] A. Kanazawa, M. J. Black, D. W. Jacobs, J. Malik, "End-to-end Recovery of Human Shape and Pose," In CVPR, 2018.

[16] M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, M. J. Black, "SMPL: A Skinned Multi-Person Linear Model," In SIGGRAPH Asia, 2015.

[17] F. Bogo, A. Kanazawa, C. Lassner, P. Gehler, J. Romero, M. J. Black, "Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image," In ECCV, 2016.

[18] G. Pavlakos, X. Zhou, K. Daniilidis, "Ordinal Depth Supervision for 3D Human Pose Estimation", In CVPR, 2018.

[19] X. Sun, B. Xiao, F. Wei, S. Liang, Y. Wei, "Integral Human Pose Regression", In ECCV, 2018.

[20] Integral Human Pose Regression, https://jimmysuen.github.io/slides/xiaosunintegralhumanposeregression.pptx, 2019.

[21] D. Novotny, N. Ravi, B. Graham, N. Neverova, A. Vedaldi, "C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion", In ICCV, 2019.

[22] Y. Kudo, K. Ogaki, Y. Matsui, Y. Odagiri, "Unsupervised adversarial learning of 3D human pose from 2D joint locations," In arXiv preprint arXiv:1803.08244, 2018.

[23] C.-H. Chen, A. Tyagi, A. Agrawal, D. Drover, R. MV, S. Stojanov, J. M. Rehg, "Unsupervised 3D Pose Estimation with Geometric Self-Supervision," In CVPR, 2019.

[24] Y. Cheng, B. Yang, B. Wang, W. Yan, R. T. Tan, "Occlusion-Aware Networks for 3D Human Pose Estimation in Video", In ICCV, 2019.

[25] D. Pavllo, C. Feichtenhofer, D. Grangier, M. Auli, "3D human pose estimation in video with temporal convolutions and semi-supervised training", In CVPR, 2019.

[26] Y. Cai, L. Ge, J. Liu, J. Cai, T.-J. Cham, J. Yuan, N. M. Thalmann, "Exploiting Spatial-Temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks", In ICCV, 2019.

[27] G. Moon, J. Y. Chang, K. M. Lee, "Camera Distance-Aware Top-Down Approach for 3D Multi-Person Pose Estimation From a Single RGB Image", In ICCV, 2019.

[28] K. Iskakov, E. Burkov, V. Lempitsky, Y. Malkov, "Learnable Triangulation of Human Pose", In ICCV, 2019.

[29] A. Kadkhodamohammadi, N. Padoy, "A generalizable approach for multi-view 3D human pose regression," In 2018.

[30] W. Mao, M. Liu, M. Salzmann, H. Li, "Learning Trajectory Dependencies for Human Motion Prediction", In ICCV, 2019.

続きを読む

 

2019/11/25 10:00

コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編

Naoki Kato

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 (@nk35jk) が調査を行いました。

本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。

過去の他タスク編については以下をご参照ください。

·      Human Recognition 編 (2019/04/26)

·      3D Vision 編 (2019/06/04)

·      キーポイント検出の手法を用いた物体検出編 (2019/07/08)

·      Object Tracking 編 (2019/07/17)

·      Segmentation 編 (2019/08/19)

·      Single Image Super-Resolution 前編 (2019/09/24)

·      動画認識編 (2019/10/09)

目次

·      前提知識

o   Human Pose Estimation の位置付け

o   関連するデータセット

o   評価方法

·      代表的な研究事例

o   Top-down型アプローチ

§  DeepPose (CVPR 2014)

§  Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation (NIPS 2014)

§  Convolutional Pose Machines (CVPR 2016)

§  Stacked Hourglass Networks (ECCV 2016)

§  Cascaded Pyramid Network (CVPR 2018)

§  Simple Baselines for Human Pose Estimation and Tracking (ECCV 2018)

§  High-Resolution Network (CVPR 2019)

o   Bottom-up型アプローチ

§  DeepCut (CVPR 2016) / DeeperCut (ECCV 2016)

§  OpenPose (CVPR 2017, TPAMI 2019)

§  Associative Embedding (NIPS 2017)

§  PersonLab (ECCV 2018)

·      ICCV 2019 採録論文の紹介

o   TRB: A Novel Triplet Representation for Understanding 2D Human Body

o   Single-Network Whole-Body Pose Estimation

o   Single-Stage Multi-Person Pose Machines

o   Dynamic Kernel Distillation for Efficient Pose Estimation in Videos

·      おわりに

·      参考文献

前提知識

Human Pose Estimation の位置付け

Human Pose Estimation / 人物姿勢推定 は人物の映った画像や動画から人物の姿勢に関する情報を特定するタスクであり、以下のサブタスクに大別されます。

2D Pose Estimation

2D Pose Estimation は画像中の単一または複数人物の関節点の2次元座標を特定するタスクです。画像中の人物が単一である場合は推定すべき関節点の数が一定であるためそこまで難しい問題設定ではありません。しかし、推定対象が複数人物である場合、人物同士の重なり合いなどによる遮蔽が存在する環境下で不特定多数の人物の関節点座標を過不足なく推定する必要があるため、難度の高いタスクであると言えます。

2D Pose Estimation [7]

Pose Tracking

Pose Tracking は映像中の複数人物を追跡しつつ、それぞれの人物の2次元関節点座標を特定するタスクで、2D Pose Estimation よりもさらにチャレンジングなタスクとなっています。今回は Pose Tracking の研究の流れの詳細については触れませんので、ここで代表的と思われる研究事例をいくつかリストアップしておきます。興味のある方は論文を読んでみて下さい。

PoseTrack: Joint Multi-Person Pose Estimation and Tracking [Iqbal et al., CVPR'17]

PoseTrackデータセットを提案するとともに、Pose Tracking のベースライン手法を提案しています。ベースライン手法ではまず動画中の全ての人物の関節点の座標を推定した後、人物関節点のノード、それらを結ぶエッジからなる時空間的なグラフを構築し、整数線形計画問題に基づく最適化を行うことでグラフを分割し、各人物の姿勢情報を含んだ追跡結果を得るというBottom-up型のアプローチを取っています(本記事で紹介するDeepCut/DeeperCutと類似したアプローチです)。

Detect-and-Track: Efficient Pose Estimation in Videos [Girdhar et al., CVPR'18]

動画の数フレームを入力とし、入力された各フレームにおける複数人物の姿勢を人物を同定した上で推定する 3D Mask R-CNN を提案しています。推定された数フレーム分の人物追跡結果をハンガリアン法を用いて時系列的に割り当てていくことにより動画全体に対する人物追跡結果を得ます。ICCV 2017 PoseTrack challenge 首位手法です。

Efficient Online Multi-Person 2D Pose Tracking with Recurrent Spatio-Temporal Affinity Fields [Raaj et al., CVPR'19]

人物の関節点間の部位 (Limb) の存在を表す Part Affinity Fields、Limbの時系列的な動きをを表現する Temporal Affinity Fields を統合した Spatio-Temporal Affinity Fields を用いて人物の紐付けを行うBottom-up型のオンラインな Pose Tracking 手法を提案しました。本手法は約30fpsでの高速な推論が可能であるとともに、PoseTrackデータセットで最先端手法に匹敵する性能を達成しています。

Pose Tracking [23]

3D Pose Estimation

3D Pose Estimation は単一または複数視点の画像や動画から人物関節点の3次元座標を特定するタスクです。ここで言う3次元座標には関節点のワールド座標、カメラ座標、腰を原点とした相対座標などが含まれ、研究の目的によって推定対象は異なります。近年CV分野全体において3D認識についての研究が注目されている流れに逆らわず、Pose Estimation においても2Dから3Dへと研究の対象が移りつつある印象を受けます。3D Pose Estimation の中でも特に盛んに研究されているのが単眼カメラを用いた3次元姿勢推定です。単眼カメラを用いる場合カメラからの関節点の奥行きが不定となるため、基本的にはカメラ座標系において人物の腰を原点としたときの各関節点の相対座標を推定する問題設定となります。

3D Pose Estimation [24]

Shape Reconstruction

3D Pose Estimation が人物のスパースな関節点の座標を推定するタスクであるのに対して、Shape Reconstruction では人物表面の形状を密に推定・復元します。人物の形状は、人物モデルに基づき大まかな体系が推定される場合や、服装を含んだ詳細な形状まで推定される場合もあります。Shape Reconstruction は Pose Estimation の中でも最も新しく、かつチャレンジングなトピックであり、近年特に盛んに研究が行われています。

Shape Reconstruction [25]

本記事のスコープ

今回は上記の中でも最も基本的なタスクである 2D Pose Estimation に焦点を当てて論文を紹介します。まず、代表的な研究事例を時系列順に紹介した後、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Pose Estimation の最新論文を紹介します。近年注目されているトピックである 3D Pose Estimation、Shape Reconstruction については別の記事で紹介予定です。

関連するデータセット

2D Pose Estimation の論文では主に以下のデータセットが用いられます。この中でも近年はMPIIデータセットとCOCOデータセットを用いて評価が行われることが多い傾向にあります。AI Challenger データセットは他データセットでの評価の際に最終的なモデルの性能を引き上げるために用いられる場合や、その規模の大きさからコンペティションの際の外部データとして用いられる場合があります。

·      Leeds Sports Pose (LSP):2,000枚の単一人物画像から成るデータセット

·      MPII Human Pose:約4万人物の関節点座標がアノテーションされた約2万5千枚の複数人物画像から成るデータセット

·      MS COCO:約15万人物の関節点座標がアノテーションされた約6万枚の複数人物画像から成るデータセット

·      AI Challenger:約70万人物の関節点座標がアノテーションされた30万枚の複数人物画像から成るデータセット

データセット毎の関節点の定義およびアノテーション例は以下のようになっています。

LSP

MPII

MS COCO

AI Challenger

Right ankle

Right ankle

Nose

Right shoulder

Right knee

Right knee

Left eye

Right elbow

Right hip

Right hip

Right eye

Right wrist

Left hip

Left hip

Left ear

Left shoulder

Left knee

Left knee

Right ear

Left elbow

Left ankle

Left ankle

Left shoulder

Left wrist

Right wrist

Pelvis

Right shoulder

Right hip

Right elbow

Thorax

Left elbow

Right knee

Right shoulder

Upper neck

Right elbow

Right ankle

Left shoulder

Head top

Left wrist

Left hip

Left elbow

Right wrist

Right wrist

Left knee

Left wrist

Right elbow

Left hip

Left ankle

Neck

Right shoulder

Right hip

Top of the head

Head top

Left shoulder

Left knee

Neck

-

Left elbow

Right knee

-

-

Left wrist

Left ankle

-

-

-

Right ankle

-

各データセットの関節点の定義

各データセットのアノテーション例

評価方法

2D Pose Estimation では主に Percentage of Correct Keypoints と Average Precision という評価指標が用いられます。

Percentage of Correct Keypoints

Percentage of Correct Keypoints (PCK) は単一人物姿勢推定において利用される評価指標で、MPIIデータセットでの評価の際に主にこの指標が用いられます。PCKでは、関節点の推定座標と正解座標の距離が、ある閾値よりも小さいときにその関節点の推定を正しいものとし、推定が正しく行われた割合をその評価値とします。PCKの閾値は人物頭部のサイズ(頭部外接矩形の対角線の長さ)に基づき決定されることが多く、これはPCKhと呼称されます。例えばPCKh@0.5の場合、頭部サイズの0.5倍を閾値に設定して評価を行います。

Average Precision

Average Precision (AP) は複数人物姿勢推定の評価に利用される指標で、COCOデータセットと AI Challenger データセットはこの評価指標を採用しています。APは推定姿勢と正解姿勢の類似度を表す尺度である Object Keypoint Similarity (OKS) に基づき算出されます。OKSはアノテーションされている関節点についての推定座標と正解座標の類似度の平均を表す値となっており、次式で表されます。

ここで、diは関節点iの推定座標と正解座標の距離、sは人物のサイズ(COCOではアノテーションされている人物領域の面積を用いる)、kiは関節点の種類毎に設定される定数(推定が難しい関節点ほど大きい値を設定する)、viは関節点がアノテーションされているかどうかを表します。OKSは人物の推定姿勢と正解姿勢が完全に一致するとき1となる、物体検出のAPでの評価におけるIoUと同じ役割を持った指標であり、APはこのOKSが閾値を上回っているとき推定結果を正解であるとみなしたときに算出される平均適合率です。COCOの場合、最終的な評価値はOKSの閾値を0.50から0.95まで10段階に変化させたときのそれぞれのAPの値を平均することにより算出されます。

代表的な研究事例

ここでは 2D Human Pose Estimation の既存手法の中でも代表的と思われる手法をピックアップし、それらをTop-down型アプローチ、Bottom-up型アプローチに大別した上でそれぞれを論文が発表された順番に紹介します。今回紹介する手法は全てディープラーニングを用いた手法になっており、ディープラーニング台頭以前の手法については紹介しませんのでご注意ください。使用している図表は紹介論文から引用したものとなります。

Top-down型アプローチ

Top-down型のアプローチでは、まず画像中の各人物を人物検出器などで検出した後、各人物の関節点座標を単一人物用の姿勢推定器を用いて推定します。人物の検出およびそれぞれの人物の姿勢推定を独立して行うシンプルな枠組みとなっており、性能の高い人物検出器を採用することで性能向上が図りやすい点、(畳み込みニューラルネットワークを用いた手法の場合)個々の人物に対する Receptive Field を大きく取ることが容易な点が主な利点です。以下で紹介する研究事例には単一人物姿勢推定を題材としたものも含まれています。

DeepPose (CVPR 2014) [1]

DeepPoseは人物姿勢推定にディープラーニングを適用した初の手法です。この手法では、畳み込みニューラルネットワーク (AlexNet) に固定サイズの画像を入力し、各関節点の2次元座標を回帰により推定します。モデルの出力は(推定すべき関節点数)× 2 次元のベクトルです。このとき、画像の中心が (x, y) = (0, 0)、画像の最も左上の座標、右下の座標がそれぞれ (-0.5, -0.5)、(0.5, 0.5) となるよう正規化された座標を推定します。そして、Mean Squared Error (MSE) をロス関数に用いてモデルを学習します。

また、この論文ではモデルをカスケードさせることにより、前段ステージで推定された関節点座標をリファインする方法も同時に提案しています。前段ステージで推定された関節点座標を中心に画像をクロップし、前段ステージと同一構造かつパラメータは独立した後段ステージに入力します。後段ステージは前段ステージよりも関節点周辺の高解像度な画像を元に推定ができるため精度向上につながると論文では主張されています。各ステージの学習は第一ステージから順に独立して行います。

実験では最大3ステージを用いたDeepPoseの性能と既存手法の性能を比較し、カスケードの有効性を実証するとともに、既存の非ディープラーニング手法を上回る性能を達成しました。

LSPデータセットでの Percentage of Correct Parts (PCP)

ただ、既存手法と比べた性能の向上幅はそれほど大きくなく、シングルステージの場合は既存手法に劣る性能となってしまっています。この一因として、畳み込みニューラルネットーワークが基本的に画像の位置に不変な特徴抽出を行うものであるため、画像全体を入力としての関節点座標の直接の回帰は学習が難しいことが挙げられます。

Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation (NIPS 2014) [2]

DeepPoseが関節点座標を直接回帰により推定しているのに対し、こちらの研究ではヒートマップを用いた姿勢推定手法を提案しています。モデルの出力は推定すべき関節点数と同数のヒートマップで、各ヒートマップの正解ラベルは関節点座標を中心としたガウス分布により生成されます。ロス関数にはMSEを用いてモデルを学習します。推論時はヒートマップのピーク位置を関節点の推定座標とします。近年の多くの研究でもこの論文で提案されているのと同様のヒートマップの推定に基づく関節点座標推定の枠組みが用いられており、ディープラーニングによる人物姿勢推定の基盤を確立した研究であると言えます。

本論文ではそれ以外にも主要な主張として、グラフィカルモデルに基づき上記モデル (Part-Detector) の False Positive を削減するためのモデル (Spatial-Model) を提案し、両モデルを併用することによる性能向上を図っていますが、近年の研究ではこのような方法は用いられない傾向にあります。近年用いられるモデルは層数が増えたことにより広い Receptive Field を持ちコンテキストを捉えた推定が可能であるため、単一のモデルでも十分精度良くヒートマップを推定できることがその要因であると考えられます。

本手法はDeepPose(下図中 Pishchulin et al.)を含めた既存手法を大きく越える性能を達成し、ヒートマップに基づく姿勢推定手法の有効性を示しました。

LSPデータセットでの評価結果

本研究以降はヒートマップベースの姿勢推定手法が台頭し、ネットワークの構造の改良にフォーカスした研究が増えていきました。

Convolutional Pose Machines (CVPR 2016) [3]

Convolutional Pose Machines (CPM) では複数ステージからなるモデルの各ステージでヒートマップを段階的にリファインしていく、DeepPoseにおけるモデルのカスケードと似たような試みを行なっています。第一ステージは画像のみを入力に関節点毎のヒートマップを推定しますが、第二ステージ以降は特徴マップおよび前段ステージで推定されたヒートマップを入力にヒートマップを推定します。学習の際は、各ステージで推定されたヒートマップに対するMSEの合計をロスとし、全てのステージをend-to-endに学習します。このように、モデルの中間的な出力に対する教師信号の適用 (Intermediate Supervision) により、勾配消失を軽減させる効果があると論文では述べられています。また、カスケードさせた深いモデルを用いることによりモデルの Receptive Field を広げ、人物構造を暗に考慮した推定が可能になると主張されています。

Convolutional Pose Machines のアーキテクチャ

下図のように、左右の判別が難しい部位を後段ステージでは適切に推定できています。

各ステージでの右肘のヒートマップの推定結果

Stacked Hourglass Networks (ECCV 2016) [4]

Stacked Hourglass Network もCPMと同様にモデル構造の改良による性能改善を図っています。このネットワークはその名の通り砂時計型の構造を持ったモジュールである Hourglass Module を複数回連ねた構造となっており、複数スケールの特徴を考慮した特徴抽出が可能であることを特徴としています。

個々の Hourglass Module は下図のように、特徴抽出を行いつつ特徴マップのダウンサンプリングおよびアップサンプリングを行うEncoder-Decoder構造を持ち、アップサンプリングの際にはダウンサンプリング時の同一解像度の特徴マップを足し合わせるSkip-connectionを行います(参考までに、同じくEncoder-Decoder構造を持ったモデルであるU-Netでは特徴マップ同士の結合によるSkip-connectionを行います)。基本的な特徴抽出には Residual Module を利用し、ダウンサンプリングには Max Pooling、アップサンプリングにはニアレストネイバーを使用しています。

Hourglass Module の構造

また、各 Hourglass Module の出力特徴マップからヒートマップを推定し(下図青色の部分)、CPMと同様に全ての出力ヒートマップに対するMSEの和をロスとしてモデルを学習します。

Intermediate Supervision の適用

実験ではスタック数を変化させたレイヤー数およびパラメータ数が等しい複数のモデルの性能を比較し、スタック数を増やすことにより性能が向上することを示しました。

スタック数の異なるモデルの各ステージの性能

既存手法との性能比較では、Hourglass Network がCPMを含む既存手法を上回る性能を持つことを示しています。

MPIIデータセットでの実験結果 (PCKh@0.5)

Cascaded Pyramid Network (CVPR 2018) [5]

Cascaded Pyramid Network (CPN) はGlobalNet、RefineNetの2ステージのネットワークからなるモデルです。GlobalNetは Feature Pyramid Network [26] とほぼ同一のアーキテクチャを持ち、複数スケールの出力特徴マップそれぞれからヒートマップを推定します。一方RefineNetではGlobalNetから出力された各スケールの特徴マップを結合し、リファインされたヒートマップを推定します。ピラミッド構造のGlobalNetによるマルチスケールな特徴抽出、RefineNetにおけるそれらの統合が本モデルの肝であると言えます。

CPNはモデル構造だけでなくロスの与え方にも工夫を行なっており、GlobalNetの出力に対しては通常のL2ロスをかけますが、RefineNetの出力に対してはロスの大きい上位M個の関節点にのみL2ロスをかける Online Hard Keypoint Mining を行います。

GlobalNetとRefineNetに対するロスのかけ方を比較する実験を行い、RefineNetに対する Online Hard Keypoint Mining 適用の有効性を示しています。

各ネットワークに対するロスのかけ方の比較

(L2 loss* は Online Hard Keypoint Mining を用いたL2ロス)

アンサンブルされた最終的なモデルは COCO test-dev set で73.0のAPを達成しています。

因みに、ECCV 2018 のワークショップコンペティションとして開催された COCO Keypoint Detection Challenge 2018 では、CPNをベースに用いた手法が首位となりました。

Simple Baselines for Human Pose Estimation and Tracking (ECCV 2018) [6]

CPMや Hourglass Network、CPNはモデルの改良により性能改善を図っていましたが、モデル構造が複雑になっていくについて、それぞれのモデルの各構成要素の性能向上への寄与度やモデル同士の対等な比較がし難くなるという問題が生じてきました。それを踏まえ、この研究では「シンプルなモデルでどれほどの性能を出すことができるのか?」を問いにベースラインとなるモデルを提案し、既存手法を上回る性能を達成しました。

提案されたモデル(下図 )はバックボーンであるResNetの出力特徴マップに複数回のDeconvolutionを行うことで関節点のヒートマップを推定する構造となっており、Hourglass Network やCPNと比べ非常にシンプルな構造となっています。ヒートマップは既存手法と同様、ガウス分布により生成し、L2ロスを用いて学習します。テスト時はFaster R-CNNを用いて人物検出を行い、検出されたそれぞれの人物に対して提案モデルで姿勢推定を行います。

提案されたモデルのアーキテクチャ

実験ではバックボーンに用いるResNetの層数、入力画像サイズ、Deconvolutionの層数およびカーネルサイズによる性能比較を行う Ablation Study を実施しました。結果は下図のようになっており、特に入力画像の大きさが性能向上に大きく寄与することを確認しました。

COCO val2017 での Ablation Study 結果

また、入力画像サイズが同一の Hourglass Network、CPNと性能比較を行い、本手法の性能が上回っていることを示しました(下図)。既存手法の評価値はそれぞれの論文から参照したものであるため実装の良し悪しが性能に影響をもたらしている可能性があるものの、シンプルなモデルでも既存手法と同等またはそれ以上の性能を得ることができると著者らは結論付けています。

COCO val2017 での既存手法との比較

本手法が既存手法の性能を上回った理由については実装の良し悪しである可能性がある以外具体的には明記されていません。また、著者らはあくまでも本研究の目的をアルゴリズム的に優位な手法の提案ではなくベースライン手法の提案であるとしています。実装面が性能に与える影響の大きさ、また適切なベースライン設定の重要性を感じさせられる研究となっています。

High-Resolution Network (CVPR 2019) [7, 8]

High-Resolution Network (HRNet) は Simple Baseline と同一著者らにより発表され、Simple Baseline をベースにモデル構造を改良したものとなっています。

HRNetについては過去のブログ記事や CVPR 2019 の論文調査資料でも解説がありますので、よろしければそちらも併せてご覧ください。

·      コンピュータビジョンの最新論文調査 Human Recognition編

·      CVPR 2019 report

Hourglass Network やCPN、Simple Baseline などの従来のモデルは、一度特徴マップを縮小した後、Deconvolutionやアップサンプリングなどにより特徴マップを拡大することで入力画像のサイズに対して小さすぎない(1/8から1/4程度の)ヒートマップを出力する構造を取っていました。それに対してHRNetは高解像度な特徴マップを保持したまま平行して低解像度な特徴マップを生成していき、それぞれのブランチで特徴抽出を行います。そして、Exchange Unit でのそれぞれのブランチの特徴マップ間での相互な情報のやりとりを複数回に渡り行うことでよりリッチな特徴表現が獲得される構造となっています。

HRNetのアーキテクチャ

Exchange Unit では下図のように、出力特徴マップのスケールと同一スケールの特徴マップは恒等写像、低解像度な特徴マップはニアレストネイバーによるアップサンプリングを行なった後で 1x1 Convolution、高解像度な特徴マップは複数回のカーネルサイズ3の Strided Convolution を行なった後でそれぞれの特徴マップを足し合わせることで複数ブランチの情報を集約します。各ブランチでの特徴抽出とそれらの統合を複数回に渡り行なった後、最も高解像度な特徴マップを持つブランチからヒートマップを推定します。

Exchange Unit の構造

実験では Simple Baseline を含めた既存手法との性能比較を行い、下図のようにいずれの既存手法をも上回る性能を達成しました。AI Challenger データセットを外部データとして用いたときの COCO test-dev set に対するAPは77.0と、非常に高い性能となっています。大きく話題になったOpenPoseの評価値が61.8であることを見ても、その性能の高さが分かるかと思います。

COCO test-dev set での性能比較

HRNetは姿勢推定だけでなくクラス分類や領域分割、物体検出など様々なタスクのバックボーンとして有効であることが確認されている [8] と共に、既にHRNetを改良 [9]、または転用 [10] した多くの派生研究が存在しています。

Bottom-up型アプローチ

ここまではTop-down型アプローチの研究事例を紹介しましたが、ここからはもう1つの代表的なアプローチであるBottom-up型アプローチの研究事例について紹介します。

Bottom-up型手法では画像中の全ての人物の関節点座標を人物を区別せずに検出した後、それらを人物毎にグルーピングすることにより複数人物の姿勢を推定します。一度のモデルの順伝播で画像中の全ての人物の関節点を検出するため、Top-down型手法と比べ画像中の人物数が増加しても推論速度が落ちにくいという利点があります。Bottom-up型手法では検出した関節点のグルーピングをどのように行うかがアルゴリズムの肝となっており、その点に着眼した研究が数多く存在します。

DeepCut (CVPR 2016) [11] / DeeperCut (ECCV 2016) [12]

DeepCut/DeeperCutはディーブラーニングを用いたBottom-up型姿勢推定の先駆け的な手法です。これらの手法では画像中の人物関節点を人物を区別せずに検出した後、関節点をノードと見なし、それらを全結合するエッジを作成することによりグラフを構築します(下図左)。グラフの人物毎の部分グラフへの分割、関節点ノードの種類のラベリングを整数線計画問題に基づく最適化により行うことで、人物毎の姿勢推定結果を得ます(下図中央、右)。

DeeperCutはDeepCutに対し、主に以下の3点の改善を行っています。

·      バックボーンをVGGからResNetに変更することによる関節点検出モデルの改善

·      画像特徴を用いることによるコスト関数の改善

·      最適化を体の部位毎に段階的に行うことによる速度・精度改善

これらの手法では関節点候補の検出を畳み込みニューラルネットワークを用いて行なっていますが、最適化の際に用いるコスト関数は主に関節点ペアの距離や角度などの幾何的な関係に基づいたものであり、ディープラーニングにより得られる特徴を十分に活用しきれていないと言えます。また、最適化の計算コストが高く、Bottom-up型手法の利点である関節点検出の高速性を相殺してしまっているという欠点があります。

OpenPose (CVPR 2017, TPAMI 2019) [13, 14]

OpenPoseは高速かつ高精度な人物姿勢推定手法として一時期大きく話題となった手法で、ご存知の方も多いと思います。この手法の一番の特徴は関節候補点のグルーピングの手がかりとなる Part Affinity Fields (PAFs) を畳み込みニューラルネットワークで推定することで、これにより高性能な関節点のグルーピングが可能となる共に、処理コストの低い簡素なグルーピング方法の利用が可能となり、高速に動作するアルゴリズムとなっています。

モデルは下図のようにCPMと類似したステージ構造を持ち、各ステージからヒートマップおよびPAFsを推定します。ヒートマップの正解ラベルはTop-down型手法と同様に関節点を中心としたガウス分布により生成されます。PAFは対応関係にある関節点ペア間の部位 (Limb) の存在を表す2次元ベクトル場で、対応関係にある関節点ペア間の矩形内において一方の関節点からもう一方の関節点へと向かう単位ベクトル、それ以外の領域では零ベクトルとして生成されます。よって、モデルの推定対象は関節点と同数のヒートマップとLimbと同数のPAFとなります。学習時はヒートマップ、PAFsに対する全てのステージでのMSEの和をロスとしてモデルを学習します。

OpenPoseのモデル構造

推論時はまず、モデルにより推定されたヒートマップの極大点から関節候補点を検出します。次に、対応関係にある全ての関節点ペア間のPAF上で線積分値を求め、それらをそれぞれの関節点ペアを結びつける確信度と見なします。この確信度が大きい関節点ペアから順に結びつけていく工程を関節点ペアの種類毎に行なっていくことにより最終的な人物毎の姿勢推定結果が得られます。

実験ではTop-down型手法であるCPMと処理速度の比較を行い、CPM(下図中Top-down)では画像中の人物数に比例する形で処理時間が増加しているのに対し、OpenPose(下図中Bottom-up)は人物数が増加してもほぼ一定の処理速度(654 × 368 の画像に対して約9fps)で推論ができることを確認しました。

処理時間の比較

Associative Embedding (NIPS 2017) [15]

Associative Embedding は姿勢推定における関節点のグルーピングやインスタンスセグメンテーションにおけるピクセルのグルーピング問題を埋め込み表現を用いて解決しようと試みた研究です。本研究では姿勢推定とインスタンスセグメンテーションそれぞれに対する手法を提案していますが、ここでは姿勢推定手法についてのみ説明します。

本手法では Hourglass Network を用いて各関節点のヒートマップおよびEmbeddingマップを出力します。Embeddingマップは人物のアイデンティティ情報を持った1次元ベクトルのマップとなっており、同一人物の各関節点の位置に対応するEmbeddingマップの値同士が近くなり、画像中の異なる人物の関節点のEmbeddingマップの値同士が遠くなるようロスをかけます。これにより、Embeddingの値の近さが関節点ペアを結び付ける際の指標となります。

システム構成

推論時はOpenPoseと同様のグリーディな割り当てをEmbeddingの値の近さに基づき行うことで人物毎の姿勢推定結果を得ます。Embeddingを多次元にすることも可能ですが、性能に大きな違いは見られなかったことが論文で述べられています。

人物毎の各関節点のEmbeddingの値の推定結果は下図右のようになっており、(それぞれの点がどの人物のものであるのか図からは判別できないものの、)人物毎にEmbeddingの値が分離されるようモデルが学習されていることが分かります。

人物姿勢推定結果とそれに対応する人物の各関節点のEmbeddingの値

PersonLab (ECCV 2018) [16]

PersonLabは人物姿勢推定とインスタンスセグメンテーションを同時に行うことのできるBottom-up型手法で、各ピクセルからの関節点のオフセット推定(回帰)を特徴とした手法です。ここでは人物姿勢推定の部分についてのみ説明します。

手法の枠組みは下図のようになっており、姿勢推定に必要となるモデルの推定対象はヒートマップ、Short-range offsets、Mid-range offsets の3つです。ヒートマップは Keypoint Disk と呼ばれる関節点を中心とした半径一定の円内において1、それ以外の領域では0の値をとるバイナリのマップで、Binary Cross Entropy ロスを用いて学習します。Short-range offset は各関節点種の Keypoint Disk 内において、その関節点の座標を回帰する2次元ベクトル場で、L1ロスを用いて学習します。Mid-range offset は各関節点種の Keypoint Disk 内において、その関節点と対応関係にある関節点の座標を回帰する2次元ベクトル場で、Short-range offset と同様にL1ロスで学習します。

PersonLabの枠組み

推論時はまずヒートマップと Short-range offsets を用いたハフ投票により関節点毎のスコアマップを求め、スコアマップの極大点から関節候補点を検出します。次に、スコアマップの値が大きい関節候補点から順に Mid-range offset を用いてグリーディに関節点を割り当てていくことにより人物毎の姿勢推定結果を得ます。このとき、下図のように Short-range offset を足しこむことによりリファインされた Mid-range offset を用いることで割り当ての性能改善を図っています。

Mid-range offsets のリファイン

PersonLabは姿勢推定とインスタンスセグメンテーションのマルチタスク学習を行なっているため対等な比較ではないものの、OpenPoseや Associative Embedding を含む既存のBottom-up型手法を上回る性能を達成しています。

COCO test-dev split に対する性能比較

本手法は 801 × 529 の画像に対して約3fpsで姿勢推定およびインスタンスセグメンテーションを行うことが可能です。

ICCV 2019 採録論文の紹介

ここからは ICCV 2019 に採録された 2D Pose Estimation に関する論文を紹介します。私の集計した限りでは、当該トピックでの採録論文はここで紹介する4本のみとなっています。

TRB: A Novel Triplet Representation for Understanding 2D Human Body (Oral) [17]

要約

人物の姿勢および輪郭を表現する Triplet Representation for Body (TRB) を定義し、 TRB推定のためのベースライン手法を提案しました。また、TRBを生成モデルの条件に用いることで人物形状の操作ができることを示しました。

提案内容

Triplet Representation for Body

既存の人物姿勢の表現方法である Skeleton Keypoints は人物の姿勢情報を持っていますが、人物の形状情報に欠けるという欠点があります。一方で、Semantic Human Parsing Representation や DensePose Surface-based Representation は人物の形状情報を持つものの関節点座標の姿勢情報を欠いています。また、3次元人体モデルは人物の姿勢および形状双方を表現することができますが、アノテーションにモーションキャプチャシステムが必要であり、アノテーションコストが非常に高いという欠点があります。

上記を踏まえ、本研究では人物の姿勢および形状を表現可能かつアノテーションの容易な Triplet Representation for Body (TRB) を提案しています。TRBは下図のように従来の Skeleton Keypoints に加え、それらの近傍の人物と背景の境界点である2点の Contour Keypoints からなっており、人物の姿勢、形状両方の情報を持った表現方法となっています。

TRBのアノテーション例

TRB-Net

本研究ではTRB推定手法であるTRB-Netも同時に提案しています。TRB-NetはTop-down型のアプローチを用いており、下図のように人物領域をクロップした画像を入力とし、Skeleton Heatmap と Contour Heatmap を複数ステージからなるモデルで推定する構成となっています。論文には詳細が不明瞭な箇所も多いため、モデルの詳細については要点を絞って紹介します。

TRB-Netのアーキテクチャ

まず、それぞれのモジュールでは2つのブランチの Multi-scale Feature Extraction Block (MS Block) を用いて Skeleton Heatmap および Contour Heatmap を推定します。基本的には推定されたヒートマップに対してL2ロスをかけることによりモデルを学習します。Message Passing Block (MP Block) はそれぞれのブランチ間で相互に情報のやりとりをすることによりヒートマップをリファインするためのブロックで、以下の3つのモジュールを挿入可能です。

·      X-structured Message Passing Block

·      Directed Convolution Unit

·      Pairwise Mapping Unit

X-structured Message Passing Block (Xs MP Block) は下図のようなモジュールで、それぞれのヒートマップに 1x1 Convolution をかけた後特徴マップを結合し、リファインされたヒートマップを推定します。

X-structured Message Passing Block

Directed Convolution Unit (DC Unit) は Xs MP Block における Contour Heatmap 推定に Scattering Convolution を、Skeleton Heatmap 推定に Gathering Convolution を用いたモジュールとなっています。

Directed Convolution Unit

Scattering Convolution と Gathering Convolution は本論文で提案されている Directional Convolution と呼ばれるものの一種で、Skeleton Heatmap では関節点を中心に、Contour Heatmap では関節点の周囲に出るそれぞれのヒートマップの位置合わせを目的に使用しています。Directional Convolution では重みを共有した畳み込みを複数回行いますが、その際に特徴マップにおいて値が更新される位置を Scattering Convolution の場合は内側から外側、Gathering Convolution の場合は外側から内側の順となるよう固定します。

Directional Convolution

Directional Convolution は下図のようにヒートマップを異なるパターンのグリッドに分割した上で並列して適用し、それらを統合したものを最終的な出力とします。このとき、それぞれの畳み込み結果を結合させた特徴マップから各特徴マップの重みをシグモイド関数を適用することで出力し、その値を用いた各グリッドの特徴マップの重み和により出力が得られます。

Directional Convolution の並列的な適用

Pairwise Mapping Unit (PM Unit) は推定される Skeleton Keypoints と Contour Keypoints の一貫性を高めるためのモジュールで、下図のような構造となっています。このモジュールではそれぞれのブランチから変換関数の推定およびそれを用いたヒートマップの変換を行います(詳細は不明)。ヒートマップの変換はあるKeypointのヒートマップからその近傍のSkeleton/Contourヒートマップを推定するように行い、L2ロスをかけ両者を近づけるようモデルを学習します。

Pairwise Mapping Unit

推論時は変換されたヒートマップと変換対象のヒートマップを統合することにより、リファインされたヒートマップを推定します。下図は誤って推定された右手首のヒートマップがContourヒートマップを用いることで修正されている例になります。

Pairwise Mapping unit によるヒートマップのリファイン結果例

実験結果

本研究では実験に際してMPII、LSP、COCOの3つのデータセットに対してTRBをアノテーションすることによりTRBデータセットを構築しています。また、TRB推定の評価には元のデータセットと同一の評価指標を用いています。

まず、既存の姿勢推定手法をTRBを推定できるよう拡張した上で、TRB-Netとの性能比較を行なっています。Contour Keypoints は Skeleton Keypoints と比べ推定が難しいことを確認すると共に、TRB-Netが既存手法よりも優れた性能を持つことを確認しています。

MPII_trbデータセットでのTRB推定の性能比較

Directed Convolution に関する Ablation Study では、SkeletonヒートマップとContourヒートマップのマルチタスク学習の有効性、Xs MP Block の有効性、通常の畳み込みに対する Directional Convolution の優位性を確認しています。

Directed Convolution に関する Ablation Study 結果

Pairwise Mapping に関する Ablation Study では、ヒートマップの初期の推定結果を用いた場合(下表中stack1-c、stack2-c)と比べ、PM Unit によりリファインされたヒートマップを用いることにより性能が向上することを示しています(下表中stack1-f、stack2-f)。また、DC Unit と PM Unit を併用したときに最も性能が向上することを確認しました。

Pairwise Mapping に関する Ablation Study 結果

TRBの応用事例としてTRBを条件とした条件付き画像生成を挙げており、Variational U-Net を用いてTRBを変化させたときの生成画像を確認しています。下図のように、TRBを操作することにより人物形状を操作した画像生成が可能です。

Contour Keypoints を操作しての画像生成

Single-Network Whole-Body Pose Estimation [18]

要約

OpenPoseを拡張した単一のネットワークによる全身(Body, Face, Hand, Foot)のポーズ推定手法を提案し、既存手法と比べ高速かつ高精度な全身のポーズ推定を実現しました。

提案内容

モチベーション

本研究の目的は全身のポーズ推定を高速かつ高精度に行うことです。その際に問題となるのが全身のポーズに関するアノテーションを持ったデータセットが存在しないことであり、Body、Face、Hand、Footなど体の各部位に関するアノテーションを持ったデータセットを組み合わせてモデルを学習する必要があります。体の部位毎のモデルを独立して学習すれば全身のポーズ推定を達成することが可能ですが、計算コストが高くなるという問題があります。そのため、本研究では単一のモデルを用いた全身のポーズを推定に取り組んでいます。

提案システム

提案されたモデルは下図のようになっています。基本的なポーズ推定の枠組みはOpenPoseに基づいており、各キーポイントに対するヒートマップおよびLimbに対する Part Affinity Fields (PAFs) を推定するモデルを学習します。推定対象であるヒートマップおよびPAFsは全身のポーズを推定できるよう、体の各部位に関するものを結合させたものとなっています。その際、モデルの学習方法や構造に複数の変更を加えることにより性能改善を図っています。

モデル構造

学習データのサンプリング

前述したように全身のポーズのアノテーションを持ったデータセットは存在しないため、モデルを単一のデータセットで学習することができません。そのため、各部位に関するデータセットから一定の確率で学習データをサンプリングしてミニバッチを作成します。学習の際は学習サンプルのデータセットに関連する部位のみでロスを計算し、モデルを学習します。

データセットによるデータ拡張方法の変更

下図のようにデータセットによって各部位の写り方が異なっており、Bodyデータセットでは顔、手などの解像度が低く、Faceデータセットでは顔が大きく写るなどの傾向があります。そのためデータセット毎にデータ拡張時のスケールを調整することでそれぞれのデータセットからデータをサンプリングしたときの各部位のスケールが大きく乖離しないようにしています。

データセットによる人物数、遮蔽、人物のスケールなどの違い

(a) Handデータセット (b) Bodyデータセット (c) Faceデータセット

モデル構造の改善

OpenPoseのモデル構造に以下のような変更を加えています。

·      入力サイズを 368 × 368 から 480 × 480 に変更

·      PAFsを推定するブランチの畳み込み層を増やすことによる Receptive Filed の拡大、チャネル数の増加、ステージ数の削減による計算コスト調整

その他の改善

上記以外にも以下のように複数の改善を行なっています。

·      顔、手に関するヒートマップのガウシアンの広がりを小さくする

·      顔、手、足の False Positive の多さを解決するため、Bodyデータセットで人物が存在しない領域ではそれらの部位に対してロスを与える

·      人物が写っていない画像を学習に利用する

·      Face, Handデータセットではアノテーションされていない人物が存在するため、Mask R-CNN を用いてそれらをマスクする

実験結果

Body、Foot、Face、Handそれぞれのデータセットを用いて各部位の認識性能を既存手法と比較する実験を行っています。下表において、Shallowはアーキテクチャ改善前のモデル、Deepはアーキテクチャ改善後のモデルです。

Body、Footデータセットでの評価実験では、提案手法の性能はOpenPoseと同等程度の性能となりました。

COCO validation set での性能比較

Faceデータセットでの実験では、OpenPose、提案モデルどちらも実験室環境のデータセットであるFRGGとMulti-PIEに過学習しており、in-the-wildなデータセットであるi-bugに対する性能が低い傾向にあります。提案手法はよりチャレンジングなi-bugにおいてOpenPoseの性能を上回っています。

FRGC、Multi-PIE、i-bugデータセットでの性能比較

Handデータセットでの実験では、よりチャレンジングなMPIIにおいてOpenPoseを大きく上回る性能を達成しました。

Hand Dome、Hand MPII データセットでの性能比較

最後に、提案手法とOpenPoseの全身のポーズ推定の速度比較を行っています。OpenPoseは画像中の人物数が増えると顔や手の推定に時間がかかるため人物数に比例する形で処理時間が増加していますが、提案手法は人物数が増加してもほぼ一定の時間で推定ができるていることが分かります。

提案手法とOpenPoseの速度比較

Single-Stage Multi-Person Pose Machines [19]

要約

Root Joint の推定と Root Joint からその他Jointへのオフセット推定に基づくSingle-stage型の姿勢推定手法である Single-stage multi-person Pose Machine (SPM) を提案し、精度および速度の両面でBottom-up型の既存手法を凌駕しました。

提案内容

モチベーション

人物を検出してからそれぞれの人物の姿勢推定を行うTop-down型手法、関節候補点を検出してからそれらをグルーピングするBottom-up型手法はどちらも二段階の枠組みになっており、十分に効率的ではないと本論文では述べてられています(個人的にはBottom-up型手法における関節点のグルーピングはアルゴリズムによっては処理コストが非常に低くボトルネックにはならないと考えています)。それを踏まえ本研究では、画像中の全ての人物の姿勢を一段階の枠組みで推論するSingle-stage型の姿勢推定手法を提案しています。Single-stage型の既存手法であるCenterNet [20] との差分については後述します。

Structured Pose Representation

既存のアプローチでは、人物姿勢は人物毎の各関節点の座標により表現されていました。それに対して本研究では人物姿勢を人物毎の Root Joint と、Root Joint から各関節点への変位によって表現する Structured Pose Representation (SPR) を提案しています。さらに、SPRを Root Joint を起点とする階層的構造にした Hierarchical SPR を提案し、モデルに取り入れています。

人物姿勢の表現方法

Single-stage multi-person Pose Machine

提案手法である Single-stage multi-person Pose Machine (SPM) のパイプラインは下図のようになっています。このモデルではSPRに基づき、各人物の Root Joint、Root Joint から各関節への変位を推定します。Hierarchical SPR を用いる場合、この階層表現において隣接関係にある関節点ペアの変位をそれぞれ推定します。

提案手法のパイプライン

モデルの推定対象は Root Joint Confidence Map とDense Displacement Maps の2つです。Root Joint Confidence Map は Root Joint を中心としたガウス分布に従い生成されるヒートマップです。Dense Displacement Maps は SPR / Hierarchical SPR において隣接関係にある関節点ペアの一方の関節点を中心とする円内からもう一方の関節点の座標を回帰する2次元のマップです。学習時は Root Joint Confidence Map に対するL2ロスと Dense Displacement Maps に対する smooth L1 ロスを重み和してモデルを学習します。

モデルの推定対象

推論時は Root Joint Confidence Map から各人物の Root を検出した後、Dense Displacement Maps を用いて SPR / Hierarchical SPR において隣接関係にある関節点ペアを順番に結び付けていきます。

Single-stage型の既存手法であるCenterNetは人物矩形の中心点から各関節点を回帰する本手法と類似した手法ですが、本手法は以下の点でCenterNetと異なっています。

·      Hierarchical SPR を用いて階層的に関節点ペア間の変位を推定する

·      CenterNetが人物矩形の中心点のみにL1ロスをかけるのに対し、本手法では関節点を中心とする円内にL1ロスをかける

実験結果

MPIIデータセットで SPR / Hierarchical SPR の性能を比較する Ablation Study を行い、Hierarchical SPR がSPRと同一の処理速度で高い性能を持つことを確認しました。Hierarchical SPR は特に手首や足首など腰から離れた関節点においてSPMよりも優れた性能を示しており、階層的な関節点のオフセット推定の有効性を示す結果となりました。

MPII validation set での Ablation Study 結果

また、COCOデータセットでSPMとBottom-up型の既存手法の精度、速度を比較する実験を行い、SPMが両面において既存手法を上回ることを示しました。特に速度面では比較手法の中で最も高速な Associative Embedding よりも4倍以上高速な約17fpsでの推論が可能です。

COCO test-dev set での性能比較

本手法は3次元姿勢推定にも適用可能であり、CMU Panoptic データセットでの複数人物3次元姿勢推定において77.8%の3D-PCKを達成しました。推定結果例は下図のようになっています。

CMU Panoptic データセットに対する3次元姿勢推定結果例

Dynamic Kernel Distillation for Efficient Pose Estimation in Videos [21]

要約

動画ベースの単一人物姿勢推定において、毎フレームに対して規模の大きなモデルを用いるのは非効率的でした。それを踏まえ、前フレームのヒートマップからカーネルを算出し、現在フレームの特徴マップにそれを畳み込むことにより現在フレームのヒートマップを得る Dynamic Kernel Distillation (DKD) と呼ばれるモデルを提案し、軽量なバックボーンを用いても高精度な推定ができることを示しました。また、DKDの学習に Temorally Adversarial Training を導入することで、時系列的に一貫したカーネルの導出および姿勢推定を可能としました。

提案内容

モチベーション

既存の動画ベースの姿勢推定手法では下図 (b) のように動画の毎フレームに対して規模の大きなモデルを用いて推定を行い、RNNや Optical Flow などによる時系列情報を活用していましたが、このような枠組みは計算コストが高く非効率的でした。それを踏まえ、本研究では下図 (a) のように小規模なモデルを用いて入力フレームから特徴抽出を行い、Pose Kernel Distillator により得られたカーネルと次フレームのヒートマップのマッチング(= 畳み込み)を行うことにより次フレームのヒートマップを得ます。提案手法である Dynamic Kernel Distillation (DKD) は小規模なモデルを用いた特徴抽出、カーネルの畳み込みによる時系列情報の活用を行う効率的なアプローチとなっています。

Dynamic Kernel Distillation と既存のアプローチの比較

Pose Kernel Distillation

DKDのアーキテクチャは下図のようになっています。まず、動画の第1フレームに対しては比較的規模の大きなモデルである Pose Initializer を用いて各関節点のヒートマップを推定します。Pose Kernel Distillator は各フレームの特徴マップと推定されたヒートマップを入力に Pose Kernel を出力するモジュールです。Pose Kernel は人物の関節点の特徴をエンコードしたテンソルとなっており、第2フレーム以降は前フレームの Pose Kernel を現在フレームの特徴マップに対して畳み込むことによりヒートマップを取得します。Pose Kernel を利用することにより、各フレームの特徴抽出を行う Frame Encoder に小規模なモデルを採用することが可能となります。これらモデルの学習はヒートマップに対するMSEをロスに用いて行い、推論時はヒートマップのピーク位置を各関節点の推定座標とします。

Dynamic Kernel Distillation のシステム構成

Temporally Adversarial Training

時系列的に一貫した推定を行うことでDKDの性能をより引き上げるための方法として、姿勢推定に Adversarial Learing を適用したChouらの手法 [22] を時系列に発展させた Temporally Adversarial Training を提案しています。Temporally Adversarial Discriminator は連続した2フレームの画像およびそれらに対応した(Ground-truthまたは推定された)ヒートマップを入力とし、ヒートマップの変化を復元します。入力がReal(Ground-truthのヒートマップ)である場合は前後フレームのヒートマップの差分と等しくなるよう復元を行い、入力がFake(推定されたヒートマップ)である場合はヒートマップの差分から乖離した復元を行います。Temporally Adversarial Training を用いる場合、最終的なロス関数はヒートマップに対するMSEロスと Adversarial Loss の和となります。

モデル構造

それぞれのモデルのアーキテクチャは以下のようになっています。

·      Pose Initializer:ResNetをバックボーンとし数層のDeconvolution層を加えた Simple Baseline [6] と同一構造のモデルを使用

·      Frame Encoder:Pose Initializer と同様のモデルだが、より小規模なバックボーンを使用

·      Pose Kernel Distillator:下図のように3層の畳み込み層およびプーリング層からなる

·      Temporally Adversarial Discriminator:Frame Encoder と同一構造のモデルを使用

Pose Kernel Distillator のアーキテクチャ

実験結果

Frame Encoder のバックボーンの層数を変化させながらDKDの各構成要素の有効性を検証する Ablation Study を行なっています。下表においてBaselineは時系列情報を用いないモデル、DKD-w/o-TAT は Temporally Adversarial Training を用いないモデル、DKD-w/o-PKD は Pose Kernel Distillation を用いないモデルです。バックボーンに小規模なモデルを用いた DKD(ResNet50) および DKD(ResNet34) が Baseline(ResNet101) の性能を上回っており、最も小規模なモデルである DKD(ResNet18) は FLOPSを半分以下に削減しつつ、Baseline(ResNet101) と同等程度の性能を達成しており、DKDの有効性が示されています。また、いずれのバックボーンを用いたときにおいても Pose Kernel Distillation と Temporally Adversarial Training はモデルの性能向上に寄与しており、両者を併用した場合は平均5.5%Baselineから評価値が向上してします。

Penn Action データセットでの Ablation Study 結果

下図は DKD(ResNet34) と Baseline(ResNet34) のヒートマップの定性的な比較結果になっています。(b), (c) を見比べると、DKDは注目人物に対するヒートマップを適切に推定できていることが分かります。また (d), (e) からはDKDが時系列的に一貫したヒートマップを推定できるていることが見て取れます。(ただ、これらモデルは単一人物画像を前提に学習されているため、Baselineの出力が複数の人物に対して出てしまうのは無理もないと思います。個人的にはDKDを複数人物追跡の性能改善に応用できたら面白いと思います。)

ヒートマップの比較結果。(b), (d) は 提案手法である DKD(ResNet34) による推定された右肘、右腰のヒートマップ 。(c), (e) は 同関節点に対する Baseline(ResNet34) の推定結果

既存手法との性能比較では、Convolutional LSTM を用いた手法(下表中 Luo et al.)や Optical Flow を用いた手法(下表中 Song et al.)と比べ、DKDが精度面、速度面共に優れていることを示しました。

Penn Action データセットでの性能比較

おわりに

今回は 2D Human Pose Estimation に関する代表的な手法および最新論文をご紹介しました。Top-down型の姿勢推定手法では関節点のヒートマップ推定がデファクトスタンダードになっており、モデル構造の改善、とりわけいかに複数スケールの特徴を抽出するかに焦点を当てた研究が数多く存在しました。一方でBottom-up型の手法では関節点のグルーピング方法が肝であり、ベクトル場を用いた手法、埋め込み表現を用いた手法、関節点へのオフセット推定を用いた手法などが存在しました。今後は単に精度を追い求める研究ではなく、 ICCV 2019 に採録された論文にも見られたように、より詳細な人物姿勢の認識や、Single-stageアプローチなどによるモデルの精度と速度のトレードオフ改善などが中心的な研究トピックになっていくのではないかと思われます。Human Pose Estimation における研究トピックとしては 3D Pose Estimation や Shape Reconstruction が主流となりつつありますが、当該分野においても今後さらなるブレイクスルーが起きることに期待したいです。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] A. Toshev, C. Szegedy, "DeepPose: Human Pose Estimation via Deep Neural Networks," In CVPR 2014.

[2] J. Tompson, A. Jain, Y. LeCun, C. Bregler, "Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation" In NIPS 2014.

[3] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, "Convolutional Pose Machines," In CVPR 2016.

[4] A. Newell, K. Yang, J. Deng, "Stacked Hourglass Networks for Human Pose Estimation," In ECCV 2016.

[5] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, J. Sun, "Cascaded Pyramid Network for Multi-Person Pose Estimation," In CVPR, 2018.

[6] B. Xiao, H. Wu, Y. Wei, "Simple Baselines for Human Pose Estimation and Tracking," In ECCV 2018.

[7] K. Sun, B. Xiao, D. Liu, J. Wang, "Deep High-Resolution Representation Learning for Human Pose Estimation," In CVPR, 2019.

[8] J. Wang, K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, X. Wang, W. Liu, B. Xiao, "Deep High-Resolution Representation Learning for Visual Recognition," In arXiv preprint arXiv:1908.07919, 2019.

[9] K. Zhang, P. He, P. Yao, G. Chen, C. Yang, H. Li, L. Fu, T. Zheng, "DNANet: De-Normalized Attention Based Multi-Resolution Network for Human Pose Estimation," In arXiv preprint arXiv:1909.05090, 2019.

[10] B. Cheng, B. Xiao, J. Wang, H. Shi, T. S. Huang, L. Zhang, "Bottom-up Higher-Resolution Networks for Multi-Person Pose Estimation," In arXiv preprint arXiv:1908.10357, 2019.

[11] L Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, B. Schiele, "DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation," In CVPR, 2016.

[12] E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka, B. Schiele, "DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model," In ECCV, 2016.

[13] Z. Cao, T. Simon, S. Wei, Y. Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields," In CVPR, 2017.

[14] Z. Cao, G. Hidalgo, T. Simon, S. Wei, Y. Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields," In TPAMI, 2019.

[15] A. Newell, Z. Huang, J. Deng, "Associative Embedding: End-to-End Learning for Joint Detection and Grouping," In NIPS, 2017.

[16] G. Papandreou, T. Zhu, L. Chen, S. Gidaris, J. Tompson, K. Murphy, "PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model," In ECCV 2018.

[17] H. Duan, K. Lin, S. Jin, W. Liu, C. Qian, W. Ouyang, "TRB: A Novel Triplet Representation for Understanding 2D Human Body," In ICCV, 2019.

[18] G. Hidalgo, Y. Raaj, H. Idrees, D. Xiang, H. Joo, T. Simon, Y. Sheikh, "Single-Network Whole-Body Pose Estimation," In ICCV, 2019.

[19] X. Nie, J. Zhang, S. Yan, J. Feng, "Single-Stage Multi-Person Pose Machines," In ICCV, 2019.

[20] X. Zhou, D. Wang, P. Krähenbühl, "Objects as Points," In arXiv preprint arXiv:1904.07850, 2019.

[21] X. Nie, Y. Li, L. Luo, N. Zhang, J. Feng, "Dynamic Kernel Distillation for Efficient Pose Estimation in Videos," In ICCV, 2019.

[22] C.-J. Chou, J.-T. Chien, H.-T. Chen, "Self Adversarial Training for Human Pose Estimation," In CVPR Workshop, 2017.

[23] Y. Raaj, H. Idrees, G. Hidalgo, Y. Sheikh, "Efficient Online Multi-Person 2D Pose Tracking with Recurrent Spatio-Temporal Affinity Fields," In CVPR, 2019.

[24] I. Habibie, W. Xu, D. Mehta, G. Pons-Moll, C. Theobalt, "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations," In CVPR, 2019.

[25] A. Kanazawa, M. J. Black, D. W. Jacobs, J. Malik, "End-to-end Recovery of Human Shape and Pose," In CVPR, 2018.

[26] T.-Y. Lin, P. Dollár, R. Girshick, K. He, Bharath Hariharan, Serge Belongie, "Feature Pyramid Networks for Object Detection," In CVPR, 2017.

[27] Leeds Sports Pose Dataset, https://sam.johnson.io/research/lsp.html, 2019.

[28] J. Carreira, P. Agrawal, K. Fragkiadaki, J. Malik, "Human Pose Estimation with Iterative Error Feedback," In CVPR, 2016.

[29] COCO - Common Objects in Context, http://cocodataset.org/#keypoints-2019, 2019.

[30] AI Challenger, https://challenger.ai/dataset/keypoint, 2019.

続きを読む

 

2019/10/09 17:45

コンピュータビジョンの最新論文調査 動画認識編

Tomoyuki Suzuki

Keywords: AI

はじめに

こんにちは,AIシステム部でコンピュータビジョンの研究開発をしている鈴木智之です.我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い,部内で共有・議論しています.今回は動画認識編として鈴木 智之 (@tomoyukun) が調査を行い,CVPR 2019と今年10月末開催のICCV 2019に採択された動画認識に関する最新論文を紹介します.

過去の他タスク編については以下をご参照ください.

·      Human Recognition 編

·      3D Vision 編

·      キーポイント検出の手法を用いた物体検出編

·      Object Tracking 編

·      Segmentation 編

·      Single Image Super-Resolution 前編

前提知識

動画認識は,行動分類や行動検出などに代表される,動画情報を入力に定義されるタスク全般のことをさします.近年では,画像認識同様,様々な動画認識のタスクにおいてCNNを用いたアプローチがメジャーです.CNNを用いた動画認識モデルは,目的タスクに応じて多少の差異はあるものの,特徴抽出部分やそれを構成する基本的なモジュールはタスク横断で汎用的に用いられることも多いです.行動分類や行動検出は,そういった動画認識モデルの汎用的な性能を測る上で最も重要視されるタスクで,これらのタスクで高い性能を達成したモデルは,動画認識の他タスクのモデルにもbackboneとして広く使用される傾向にあります.今回も,主に行動分類や行動検出を通して動画認識モデルの汎用的な有効性を主張する研究を紹介します.

動画は画像に対して時間方向の次元が追加されたデータですが,主に時間情報と空間情報の特性の違いが起因して,画像認識で有効な手法の単純な拡張が動画認識において十分とは限りません.特に,時間方向の特徴抽出方法については,入力からend-to-endでタスクに適した特徴表現を獲得するとされるCNNが登場した後も,盛んに議論が続けられるトピックの一つであり,動画認識における性能向上の肝となっていると言えます.今回紹介するCVPR 2019・ICCV 2019の研究では特に,学習方法の観点,さらには動画認識モデルの基本的な計算モジュールの観点から時間特徴抽出の改良に取り組み,動画認識モデルの性能向上を達成しているものが多いです.

タスク

動画認識に属する代表的な2タスクの概要と,関連するデータセットについて紹介します.

行動分類

各動画に1つ割り当てられた行動クラスを推定するタスクです.動画認識モデルの性能を評価する上で,最も重要視されます.

評価指標は動画単位のaccuracy (video accuracy) を見ることが最も多いです. 基本的に動画単位のラベルは,動画から決められた時間長で複数のclipをサンプリングし,各clipをモデルに入力することで得られる推定値の平均とされます.サンプリングは,決められた数のclipを一様もしくはランダムに抽出する方法,sliding windowで抽出する方法 (動画の長さによってclipの数が可変) などが用いられます.

関連する主なデータセットは以下です.基本的に,各動画に対応する行動クラスが与えられます.

·      Kinetics:膨大なデータ量と高いアノテーションの質から,現在最も信頼できるデータセットの一つ.複数種類が存在.

o   Kinetics-400 (2017):400クラス,306245動画.

o   Kinetics-600 (2018):Kinetics-400の拡張版.600クラス (内368クラスはKinetics-400と共有), 495547動画.

o   MiniKinetics (2018):Kinetics-400のsubset.200クラス (全てKinetics-400のsubsetと共有), 85000動画.

o   Tiny-Kinetics (2019):Kinetics-400のsubset.150クラス (全てKinetics-400のsubsetと共有), 約100000動画.

·      UCF101 (2012):Kinetics登場以前に最も用いられていたデータセットの一つ.101クラス, 13320動画.

·      HMDB51 (2011):51クラス, 6766動画.

·      SomethingSomething v1 (2017):174クラス, 108499動画.

UCF101のサンプルフレーム [19].

行動検出

動画内の行動クラスとその時空間的位置を推定するタスク (空間的位置は行動している人物の位置を意味します) です.行動検出には時空間的位置を推定するものと,時間的位置のみ推定するものが存在しますが,今回は紹介する論文の中で取り組まれている時空間行動検出タスクについて説明します(以降,行動検出は全て時空間行動検出をさします). 具体的には,フレーム単位の人物矩形もしくはaction tubeletと,それらに対応する行動クラスのスコアづけを行います.action tubeletとは,同一人物,同一行動クラスに属すると推定される,時間的に連続な人物矩形集合をさします (下図). 動画認識モデルの汎用的な性能を測る上では,既存の行動検出手法の特徴抽出部分を,提案する動画認識モデルに変更して比較評価する方法が多く用いられます.

action tubeletの概要図 [1].

評価指標にはframe mean average precision (frame mAP), video mean average precision (video mAP) が用いられます. frame mAPは,フレーム単位で推定される人物矩形とground truthの人物矩形のIntersection over Union (IoU) が閾値以上となっているものを正解とした時のaverage precisionをクラスごとに算出し,全クラスで平均したスコアです. video mAPはフレーム単位の人物矩形に代わり,action tubeletのIoUを元にaverage precisionの算出し,クラス方向の平均をとったものです.

関連する主なデータセットは以下です.基本的に,各動画の一部 or 全部のフレームにおける人物矩形とそれらに対応する行動クラスが与えられます.

·      AVA (2018):15分 × 437動画から作成されたデータセットで,アノテーションは1秒間隔で付与.60クラス,268005動画.

·      UCF101-24 (2013):UCF101のsubset.24クラス,3207動画.

·      J-HMDB (2013):HMDB51のsubset.21クラス,928動画.

·      UCF-Sports (2008):10クラス,150動画.

従来のアプローチ

動画に含まれる時空間情報のうち,空間特徴抽出は画像認識でその有効性が確認されている2D CNNの考え方を用いることができます.そのため,動画認識モデルでは時間方向の特徴抽出方法が議論になることが多く,今回はそこに焦点を当て従来のアプローチを紹介していきます.

optical flowの活用

動画における時間方向の関係を表す情報形式の1つとして,optical flowがあります. フレーム間のピクセルの空間方向移動ベクトルであるoptical flowは,単一フレームのピクセル輝度値から得られる「見え (appearance)」情報に対して,「動き (motion)」情報として動画認識においてCNN登場以前から広く使用されてきました.CNNを用いた動画認識手法においてもoptical flowの活用は非常にメジャーです.

2014年に提案され,近年でも多くの手法の元になっているものとして,Two-Stream Convolutional Networks (Two-Stream CNN) [2]があります.Two-Stream CNNは,単一フレーム (RGB) 画像を入力とするCNN (RGB-Stream) と時間方向にstackされたoptical flowを入力とするCNN (Flow-Stream) を学習し,各Streamからの出力をfusionする (例えば,平均をとる) 手法です.実際に,RGB-StreamからTwo-Streamにすることで大幅に性能を向上することができ,RGB / Flow-Streamが相補的な特徴を捉えていることが示唆されています. 他にも,Two-Stream CNNの派生としてRGBとoptical flowのfusion方法の最適化を模索する研究が行われており [9, 10],今回紹介する中にもそういった研究含まれています,

性能も高く,直感的にもわかりやすいoptical flowベースの手法ですが,デメリットの1つとしてoptical flowの高い計算コストがあります.そこで,CNNを用いて低計算コストで高精度に推定可能なoptical flowを活用し,全体としての計算コストを削減する試みもあります [17].また,optical flowの動画認識における有効性は,輝度変化への頑健性や動体の形状情報によるものであると実験から考察し,「動き」としての寄与を疑問視する研究もあります [16].こういった観点から,optical flowの動画認識への最適化という方針でより有効な動画特徴を模索する取り組みも存在します [11, 12].今回紹介する論文にも,これらのモチベーションが含まれているものが複数あります.

Two-Stream CNNの概要図 [2].

3D CNN

3D CNNは,2D CNNの2D畳み込み処理を時間方向に拡張した3D畳み込み処理 (下図) で時間方向の情報を考慮するモデルです.3D CNNの先駆け的手法として,2015年に提案されたC3D [3]があります.optical flowと異なり,タスクに適した時空間特徴をend-to-endで学習可能とされる3D CNNですが,C3Dの段階では,行動分類タスクにおいてTwo-Stream CNNに性能が劣っています (on UCF101).この結果を受けて,指摘された問題点は,2D CNNに対して大きく増加した3D CNNのパラメータを最適化するのに動画認識データセットのデータ量が十分ではなかったという点です (2D CNNの成功に大きく貢献したImageNetのサンプル数が100万を超えるのに対し,当時最もメジャーなデータセットであるUCF101の動画数は約13000).

3D畳み込みの概要図 [3].

これに対して,パラメータ数の削減のアプローチをとったのがP3D (Pseudo 3D CNN) [4] や(2+1)D CNN [5] (下図) です. P3Dや(2+1)D CNNは3D (x,y,t) の畳み込み演算を2D (x,y) -> 1D (t) の畳み込みで擬似的に表現することで,パラメータ数を削減し,結果的に精度を向上させました.

3D畳み込み (a) と(2+1)D畳み込み (b) [5].

データ量に関しても,30万以上の動画を有するKinetics-400が提案され,同データセット上の評価では3D CNNはTwo-Stream CNNを超える精度を記録しています [6].3D畳み込みカーネルの空間方向の重みをImageNet学習済みモデルの2D畳み込みカーネルの重みで初期化するInflationも提案され [6],動画認識におけるデータ量のボトルネックがさらに解消されました.

Attention

比較的最近提案されたアプローチとしては,自然言語処理などで有効性が確認されているAttention機構の応用があります.代表的なものは,Non-local Neural Networks [7] です.Non-local Neural Networksは,通常の2D / 3D CNNに対して以下のNon-local operationを中間的に導入をしたものです.

ここで,xは入力特徴マップ,yは出力特徴マップ,添字は座標のindexを表しています.gは座標単位で埋め込みを計算する線形結合で,入力特徴マップが3Dの場合は1×1×1畳み込み (2Dの場合は1×1畳み込み) として並列計算が可能です.fは座標iから見た座標jのAttentionを入力特徴マップにおける座標i, jの値を元に計算する関数です.出力特徴マップの座標iの値は,このAttentionによって各座標におけるgからの出力の重み付け和をC(x)によって正規化したものになります. Attentionの算出方法は複数提案されていますが,シンプルかつ高い効果が確認されているDot product (下式) が広く用いられています.

ここで,θ,φは線型結合で,gと同様入力特徴マップが3Dの場合は1×1×1畳み込みとして計算されます. 実際にはNon-local operationの後段に畳み込み処理を施し,残差構造を持たせたNon-local block (下図) が使用されます.これは,後段の畳み込み処理の重みを0で初期化することで,任意の事前学習済みモデルに対して学習初期におけるその挙動を妨げることなくNon-local operationを導入するためです.

Non-local blockの概要図 [5].

Non-local operationは,座標単位の線型結合・同一の関数fによる任意の座標ペアからのAttention算出・Attentionを用いた重み付け和という時空間的な局所性に捉われない処理で構成されることから,より大域的な特徴抽出に優れていると主張されています.2D CNNに対して時空間的なNon-local blockを導入することで3D CNNを上回る (on Kinetics) 結果も記録されており,時間方向の特徴抽出方法としての有効性も実験的に示されています [5]. 局所性を考慮した特徴抽出として用いられる3D畳み込みや隣接フレームからピクセルの動きとして抽出されるoptical flowなどの時間情報の考慮方法とは独立な意味合いをもつ印象が強く,3D CNNやTwo-Stream CNNなどに追加で使用することで一貫して性能を向上させる傾向にあります.

3D CNN + optical flow

3D畳み込み処理とoptical flowの組み合わせが行われる場合もあります.特に,3D CNNをTwo-Streamにする実験は頻繁に行われており,2D CNNの場合と同様,Two-StreamにすることでRGB-Streamのみの場合から大幅に精度が向上します.さらに,データセットによっては (UCF101,HMDB51など),Flow-Streamの方が精度が高い場合もあります [6]. このような結果から,パラメータ数の観点でのモデル改良やデータ量のボトルネックの軽減が進められた後も,3D CNNはoptical flowが捉えているような動画認識に有効な特徴を抽出しきれていない可能性が示唆されます. 3D CNNが「動き」を捉えていることを疑問視する研究 [8] も存在し,CNNを用いた動画認識モデルの最適性に関してはいまだに議論の余地が多くあると言えます. 今回紹介する論文は,こういった3D CNNの課題感から新たな学習方法やアーキテクチャの提案をしている研究も複数含んでいます.

論文紹介

動画認識に関する最新論文を1つずつ紹介していきます. 特に断りがない限り,図は紹介論文から引用しています.

Representation Flow for Action Recognition (CVPR 2019)

AJ Piergiovanni and Michael S. Ryoo, "Representation Flow for Action Recognition", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper] [Project page] [Code]

要約

optical flowの計算方法から着想を得た,動き特徴を抽出するための新しい計算モジュール,Representation flow layerを提案しました.CNNに組み込んでend-to-endに学習が可能で,各行動分類データセットにおいて大幅に精度を改善しました.

提案内容

Representation flow layer

Representation flow layerはTV-L1 optical flowの計算方法を元に定義されます.TV-L1 optical flowは,「時間的に隣接した画像間の対応点の輝度値は等しい」というoptical flow拘束と,「optical flowは空間方向に滑らかに変化する」という制約を元に定義されたエネルギー関数を最小化することで得られます.エネルギー関数はiterativeな計算を用いて最小化できることが知られており[15],このiterativeな計算は微分可能なので,CNNに組み込むことができます.これを新たな動き特徴を抽出する層と捉えたものがRepresentation flow layerです. Representation flow layerの計算方法とその概念図を以下に示します.基本的にTV-L1 optical flowのiterativeな計算と同一の処理です.

(左) Representation flow layerの計算方法.(右) Representation flow layerの概要図.

上記計算のうち,空間方向の微分計算はSobel filerの畳み込みとして表されます.

また,ダイバージェンスは以下のように計算されます.

学習時に,TV-L1 optical flow最適化のハイパーパラメータである θ,λ,γ やSobel filerの重み,さらにはダイバージェンス計算の重みの勾配計算が可能で,学習パラメータとすることができます.これらを学習パラメータに含め,end-to-endに学習することで,目的タスクに最適化された動き特徴を抽出できると主張しています.

また,Representation flow layerはRGB画像に対してのみではなく,CNNの中間層に組み込むことで,特徴マップに対しても動き特徴を計算します.これは,optical flow拘束が特徴マップ上においても成立する,すなわち「時間的に隣接した特徴マップ間の対応点の値は等しい」という仮定から,意味のある動き特徴が抽出できるという考えです.

論文中では,RGB画像,もしくは特徴マップに対してRepresentation flow layerによって抽出される動き特徴をRepresentation flowと呼称しています.

Flow-of-Flow

Representation flow layerの時間的受容野は隣接フレーム間に限られます.時間的受容野を広げる方法の1つとして,Representation flow layerのcascadeがあげられます. しかし,一般にoptical flow mapにおいては (特に非線形な動きをしている場合),optical flow拘束,すなわち「時間的に隣接したoptical flow mapの対応点の値 (動き) は等しい」という仮定が成り立つとは限りません.したがって,optical flow mapに対してさらにoptical flowを計算しても,(動画認識において) 有用な意味を持たず,Represetation flowにおいてもこれは例外ではないと予想されます. そこで,Represetation flow layerの間に畳み込み層を挟み,end-to-endに学習する方法 (Flow-of-Flow) を取っています.こうすることで,畳み込み層が,次のRepresentation flow layerによって意味のある特徴が抽出されるような (例えば,optical flow拘束を満たすような) 変換を行い,上記の問題が解消され,より広い時間長の考慮が可能になると主張しています.

Flow-of-Flowの概要図.

実験結果

Representation flow layerをCNNのどこに組み込むか,また何を学習パラメータとすべきかを検証する意図で,Tiny-KineticsとHMDB51で実験を行なっています.

下に示す結果から,RGB入力の直後にRepresentation flow layerを入れる場合は,通常のoptical flowを入力するCNN (図中 Flow CNN) と近い精度となりますが,より深い層に組み込むことで精度が向上していることがわかります.Block4以降で精度が下がっていることに関しては,特徴マップの抽象度が高くなることで,隣接フレーム間で類似したものとなり,有用な動き特徴が抽出しにくいためと考察しています.

また,学習パラメータに関しては.θ,λ,γとダイバージェンスの重みを学習する場合が最も良い精度を記録しています.

(左) Representation flow layerの組み込み位置の検証結果.(左) Representation Flow Layerの学習パラメータ選択の検証結果.(評価指標はaccuracy,backboneは全て2D ResNet-34.)

次に,Representation flow layerとRGB情報のfusion方法について,以下の3種類について検証を行なっています. 結果から,著者らは,適切な深さでRepresentation flowを抽出すればRGB情報とのfusionの効果は薄いと主張し,以降の実験ではfusionを行わない方法を取っています.

(左) Representation flow layerとRGB情報のfusion方法.(a) fusionしない (None) (b) 最終的な出力の平均をとる (Late) (c) 中間特徴の要素和,要素積,結合 (Add / Multiply / Concat).(右) Representation flow layerとRGB情報のfusion方法の検証結果.(評価指標はaccuracy.backboneは全て2D ResNet-34.)

Flow-of-Flowの効果についての検証結果を以下に示します.畳み込み層を挟まずにRepresentation flow layerを2回重ねる (図中 Flow-of-Flow) と予想通り精度が低下するのに対して,畳み込み層を挟むと (図中 Flow-Conv-Flow) 大幅に向上しています.精度向上の要因の一つとして,時間的な受容野の拡大が挙げられています.一方で,3回以上重ねると精度が低下し,この原因を上述の特徴マップの抽象化と考察してます.

Flow-of-Flowの検証結果.(評価指標はaccuracy.backboneは全て2D ResNet-34.)

3D CNNや (2+1)D CNNに対して組み込んだ場合の結果を以下に示します.すでに時間方向の特徴を抽出しているこれらのCNNに適用した場合も,2D CNNの場合と同様にRepresentation flow layerの効果は大きく,Two-Streamにした場合よりも高い精度を記録しています.ここから,Representation flow layerは3D,(2+1)D畳み込み処理では捉えられないような動き特徴を抽出できていると考察しています.

3D CNNや (2+1)D CNNへのRepresentation flow layerの適用結果.(評価指標はaccuracy.backboneは全て2D ResNet-18.)

Kinetics-400,HMDB51における従来手法とのaccuracy,Run-timeの比較を以下に示します. 低い計算コストで,従来手法を上回る精度を記録しています.Representation flow layerはoptical flowと比較して,ダウンサンプリングされた特徴マップ上で計算されること,精度をあげるために行われるmulti scale warping処理がないこと,最適化のiterarion数が少ないことにより,計算コストを大幅に抑えることができています.

従来手法との比較結果.(Run-time計測のbackboneは全てResNet-34.評価指標はaccuracy.それぞれのbackboneは異なり,提案手法のbackboneはResNet-50.)

MARS: Motion-Augmented RGB Stream for Action Recognition (CVPR 2019)

Nieves Crasto, Philippe Weinzaepfel, Karteek Alahari and Cordelia Schmid, "MARS: Motion-Augmented RGB Stream for Action Recognition", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper]

要約

学習時にFlow-Streamを教師モデルとしてRGB-Streamに知識蒸留を行うことで,テスト時にはRGB入力のみでTwo-Streamに近い性能を達成しています.optical flowの計算が不要であるため,全体としての推論時間と精度のトレードオフを大幅に改善しました.

提案内容

メインとなるロスに加えて,Flow-Streamの中間出力を模倣する (知識蒸留) ようにRGB-Streamを学習することで,RGB入力のみからFlow-Streamによって獲得されているような動き特徴も抽出するよう促します.計算コストの高いoptical flow計算が必要なのは学習時のみであるため,推論時の処理はTwo-Streamと比較して高速となります.学習手順の異なる2つのパターン (MERS:Motion Emulating RGB Stream,MARS:Motion-Augmented RGB Stream) が提案されており.いずれの場合もまずFlow-Streamのみをメインとなるロス (行動分類の場合はCross Entropy) で学習し,その重みはRGB-Stream学習時は固定されます.

MERSは以下の2段階で学習されます.

·      Step1:RGB-Stream (MERS) とFlow-Streamそれぞれの最終層入力前の中間特徴のMean Squared Error (知識蒸留のロス) を最小化するように学習します.

·      Step2: MERSの最終層以外の重みを固定して,教師ラベルとのCross Entropyを最小化します.

MERS学習の概要図.

MARSは,知識蒸留とCross Entropyの最小化を段階的に行うMERSに対し,教師ラベルとの知識蒸留のロスとCross Entropyの重み付け和をend-to-endで最小化します.Flow-Streamへの模倣をしつつ,RGB入力からの推定に最適化された特徴抽出を行わせることを意図しています.

MARS学習の概要図.

実験結果

各行動分類データセットにおける,結果を下図に示します. MERSに注目すると,どのデータセットでもFlow-Streamと近い精度を記録しています.また,Flow-Streamとのアンサンブルと (MERS + Flow) 比較して,RGB-Streamとのアンサンブル (MERS + RGB) の方が精度向上が大きいことがわかります.これらから,MERSはRGB入力であるのにも関わらず,Flow-Streamの特徴抽出をうまく模倣できていることを主張しています.MARSについては,どのデータセットにおいてもRGB / Flow-Streamよりも高い精度を記録しており,Two-Streamに近い精度を達成しています.全体としてはMARSの方が高精度であり,Flow-Streamの特徴抽出の模倣とメインのロスの最小化を同時にend-to-endで行うことの有効性が確認できます.

行動分類の結果 (評価指標はaccuracy.backboneは全て3D ResNeXt-101.).

各手法のMiniKineticsにおける精度と推論時間を下図に示します. 提案手法であるMARS, MERSは推論時にoptical flowの計算が不要であるため,TV-L1 optical flowを用いたTwo-Streamに匹敵する精度を記録しつつ,推論時間は高速です.

各手法の精度と推論時間.(backboneは全て3D ResNeXt-101.)

Kinetics-400において,MARSによってRGB-Streamから精度向上 / 低下した上位3クラスとそれらに対する各Streamの精度を下図に示します.精度の向上が大きかったクラスはFlow-Streamで高い精度を記録していたクラスであり,クラスによってはFlow-Streamを上回っています.また,精度が低下したサンプルはFlow-Streamで精度が低かったクラスですが,Flow-Streamと比較するとMARSは高い精度を記録しています.これらから,MARSはRGB / Flow-Streamの中間的な特徴,もしくは双方を組み合わせることによる相乗効果で各Single-Stream以上に有効な特徴を抽出していると主張しています.

RGB-Streamに対してMARSによって精度向上した上位3クラス (Top3) と精度低下した上位3クラス (Bottom3).(backboneは全て3D ResNeXt-101.)

Kinetics-400,UCF101,HMDB51,SomethingSomething v1における従来手法との比較を下図に示します.Kinetics-400では,事前学習なしにも関わらず,既存手法に匹敵する精度を記録しました.UCF101,HMDB51,SomethingSomething v1においても,RGB入力,RGB + Flow入力いずれの条件でも最高精度を達成しました.

(右) Kinetics400における従来手法との比較結果,(左) UCF101,HMDB51,SomethingSomething v1における従来手法との比較結果.(評価指標はaccuracy.それぞれのbackboneは異なり,提案手法のbackboneは3D ResNeXt-101.)

Learning Spatio-Temporal Representation with Local and Global Diffusion (CVPR 2019)

Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Xinmei Tian and Tao Mei, "Learning Spatio-Temporal Representation with Local and Global Diffusion", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper]

要約

通常の2D / 3D 畳み込み処理による特徴抽出を行うLocal pathに加え,入力動画全体の特徴を集約するGlobal pathを含む,Local Global Diffusion (LGD) blockを提案.行動分類,行動検出タスクの様々なデータセットで,一貫した精度向上を記録しました.

提案内容

Local Global Diffusion (LGD) block

一般に,CNNで時空間的にlong-rangeな依存関係を考慮したい場合は,畳み込みやpoolingなどの局所的な処理を多層にして,受容野を広げます.これに対し,著者らは,受容野内でも時空間的に遠い領域の影響は相対的に小さくなると主張しています.提案するLGD blockに含まれるGlobal pathは入力動画全体の特徴を集約する役割をもち,効率的にlong-rangeな依存関係の考慮を行います.

下図にLGD blockの概要図を示します.LGD blockを構成するLocal pathとGlobal pathは,それぞれLocal representation (C × T × H × W),Global representation (C × 1 × 1 × 1) を出力します (Cはチャネル数,T, H, Wはそれぞれ特徴マップの時間方向,高さ方向,幅方向の次元数).また,これらは相互にpathを有しています.

LGD blockの概要図.

上図に対応させて各pathからの出力を式で表すと以下のようになります.

Upsamplingは,Global representationの値を各時空間座標にコピーして,Local representationと同じ次元に揃える処理です.Local Transformationは,通常の2D / 3D 畳み込み処理が用いられます.Weighted connectionsは,線形結合を表し,その重みは学習対象となります.また,Function of sumは,要素和を表します.最終的にはLGD blockを複数連結したモデルを構築します.最初のLGD blockに入力するLocal representationは入力clipにLocal Transformationを一度施したもの,Global representationはそれに対してGlobal Average Pooling (GAP) をしたものとします.

LGD-2DとLGD-3D

論文中では,Local Transformationに2D畳み込みを用いる場合はLGD-2D,3D畳み込みを用いる場合はLGD-3Dと呼称しています.LGD-2Dは,Local Transformationとして,weight-shareな2D畳み込みがフレームごとに行われます.また,long-termな情報を効率よく考慮するために,動画全体をT個のsegmentに分割し,各segmentから1フレームを選出することで,入力を作成しています.対して,LGD-3Dは連続した複数フレームを入力とし,Local Transformationとして3D畳み込みが行われます.実験では,計算コスト削減のためP3Dが用いられています.

LGD-2DとLGD-3Dの概要図.

実験結果

提案するLGD blockの最適性を検証するために,Kinetics-600においてLGD blockのvariantsと比較しています.

·      block_v1: 前blockのGlobal representationからのpathをなくした構造で,この場合のGlobal representationは以下のように表されます.

·      block_v2: Local representation計算時に要素和ではなく要素積をとる構造で,SE block [13] と近い処理となります.Local representationは以下のように表されます.

結果は以下になります.LGD blockのaccuracyが最も高いことから,LGD blockの有効性とその構造の最適性が主張されています.ベースラインとなる手法に対しても精度向上が確認できます.

LGD blockの最適性に関する検証結果.(評価指標はaccuracy.TSN baseline, P3D baselineはLGD-3D, LGD-2DそれぞれにおいてLGD-blockを導入する前のベースモデルでbackboneはResNet-50.)

次に,Kinetics-400,Kinetics-600における従来手法との比較結果を以下に示します.RGB,Flow,Two-streamのいずれの場合でも,LGD 3Dが最も高い精度を記録しています.Kinetics-600では,より深いbackbone (ResNet-152) を用いたモデルよりも高い精度を記録しています.

従来手法との比較結果.(左) Kinetics-400,(右) Kinetics-600.(評価指標はaccuracy.)

J-HMDBとUCF101-24における行動検出でもLGD blockの評価を行っています.人物候補領域はResNet-101ベースのFaster R-CNNによって検出し,それを用いてLGD-3DのLocal prepresentation上でRoI poolingされた特徴量から,各行動クラスのスコアを算出しています.結果は以下であり,従来手法を大きく上回る結果となりました.

J-HMDB,UCF101における従来手法との比較結果.(評価指標はvideo mAP.)

Dance with Flow: Two-in-One Stream Action Detection (CVPR 2019)

Jiaojiao Zhao and Cees G. M. Snoek, "Dance with Flow: Two-in-One Stream Action Detection", the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [Paper] [Code]

要約

optical flowを入力とするbranchからの出力を元に,RGB-Streamの複数の中間特徴をscale,shiftする,Two-in-one Stream CNNを提案.空間的なlocalizationに強く,特に行動検出タスクにおいて,精度向上を達成しました.

提案内容

Two-in-one Stream CNN (Two-in-one) の概要を下図に示します.RGB-Streamの決められた層の特徴マップに対して,optical flowを入力にMotion condition (MC) layerとMotion modulation (MM) layerを通じて計算されたβ,γを用いて,scaleとshiftを行います.MC layer,MM layerは下図に示すようにcascadeされており,MC layerはネットワーク全体で重みを共有,MM layerはRGB-Streamにおいて導入する位置によって異なる重みを持ちます.β,γは対応するRGB-Streamの特徴マップと同一次元であり,それぞれ特徴マップとの要素積,要素和が計算され,次のRGB-Streamの層に入力されます.

Two-in-oneは,Single-Streamに対して,2倍近くになるTwo-Streamと比較すると計算コストの増加は少なくすみます.また,RGB-StreamとFlow-Streamを別々に学習するTwo-Streamに対して,RGB画像とoptical flowを同一のネットワークに入力して,end-to-endに学習している点が異なります.実験の中ではTwo-in-oneに対して,さらにFlow-Streamを加えたTwo-in-one two streamも用いています.

Two-in-one Stream CNN (Two-in-one) の概要図.

実験結果

UCF101-24における行動検出,UCF101における行動分類の結果を下図に示します.行動検出においてはTwo-Streamに対して,低計算コストで高い精度を達成,行動分類においても各Single-Streamよりも高い精度を記録しており,Two-in-one two streamにするとTwo-Streamを超える精度となります.特に,行動検出において効果を発揮した要因としては,optical flowを元に特徴マップをscale,shiftするのは動体領域の情報をRGB-Streamに加える効果があり,空間的なlocalizationに強くなるためであると考察しています.

(左) UCF101-24における行動検出,(右) UCF101における行動分類の結果.(sec / frameにはoptical flowの計算時間は含まれていない.backboneはVGG-16.)

MM layerの位置による精度の変化を下図に示します.入力に近い層に単一のMM layerを入れる方法が最も良い結果となっています.MM layerは主に動体領域の抽出の役割をしているという観点から,特徴マップの空間方向の抽象化が進行する前の浅い層で効果を発揮しているのではないかと考えられます.

MM Layerの位置 (横軸) ごとのUCF101-24における行動検出精度 (縦軸) .(a) 単一のMM layerの場合 (b) 複数のMM layerの場合.(backboneはVGG-16.)

MC / MM layerの出力とshift,scaleされた特徴マップの可視化例を下図に示します.MC / MM layerからの出力は,RGBのみでは抽出できていなかった動体領域に大きく反応していることがわかります.

MC / MM layerの出力とshift,scale前後の特徴マップの可視化例.2行目以降は,各列が特徴マップにおける同一のチャネルに対応.

各行動検出データセットにおける従来手法との比較を下図に示します.特にIoU閾値が厳しい条件において,Two-in-one,Two-in-one two streamが高い精度を記録しており,MC / MM layerを導入することにより,空間的なlocalizationの性能が向上していることがわかります.

各行動検出データセットにおける従来手法との比較結果.(提案手法と同一のbackboneで,Two-Streamとなっている手法は,Single-frameでは表中のSinghらの手法,Multi-frameでは表中のKalogeitonらの手法.評価指標はvideo mAPで2行目は検出矩形のIoU閾値.提案手法のbackboneはVGG-16.)

SlowFast Networks for Video Recognition (ICCV 2019 Oral)

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik and Kaiming He, "SlowFast Networks for Video Recognition", the International Conference on Computer Vision (ICCV), 2019. [Paper (arXiv)]

要約

低い時間的解像度で空間的な意味特徴の抽出を担うSlow pathwayと,高い時間的解像度で動き特徴の抽出を担うFast pathwayからなるSlowFast Networksを提案.計算コストと精度のトレードオフを大幅に改善しました.

提案内容

動画認識で重要な特徴を,空間的な意味情報 (例えば,写っている物体クラスやそれらの大まかな配置,シーン情報など) とそれらの動き情報に分割できると考え,前者の時間的な変化は遅いが,後者を捉えるには高い時間的解像度が必要と仮定.そこで,各々の特徴抽出を異なる時間解像度入力のネットワーク (Slow pathway,Fast pathway) に担わせるSlowFast Networksを構築しました.

SlowFast Networksの概要図と,3D ResNetをベースにした場合の各pathwayの構造を以下に示します.Slow pathwayは入力の時間解像度は低く,res4,res5以外のblockは空間方向の2D畳み込みとなっています.これは,時間的な解像度が低いときフレーム間の物体の移動量が大きいため,空間方向の受容野が十分に拡大されない浅い層では時間方向の関係性を見ても効果は薄いと考えれるためです. Fast pathwayはSlow pathwayと比較して時間的解像度は高いですが,チャネル数や空間方向の情報が削減 (実験参照) されているため,計算コスト(FLOP数)はSlowFast Networks全体の15 ~ 20%に抑えられます.また,決められたblockの直後にpathway間の結合(lateral connection)を持たせており,この結合は実験通してFast pathwayからSlow pathwayのみの単一方向と決めています.具体的な結合方法についてはablation study(実験参照)を行なっています.

(左) SlowFast Networksの概要図と,(右) 3D ResNetをベースにした場合の各pathwayの構造.

実験結果

従来手法との比較を以下に示します.optical flowの使用や事前学習をせずに従来手法よりも高い精度を記録していること,Slow pathwayに対してFast pathwayを加えることで,計算コストと精度のトレードオフが大幅に改善していることがわかります.

(左) Kinetics-400における従来手法との比較結果 (評価指標はaccuracy.SlowFastの右に示される表記は順に,(Slow pathwayの入力フレーム数) × (Slow pathwayの時間方向のstride数), SlowFast Networksのbackbone.backboneはそれぞれ異なる.) (右) Kinetics-400における,計算コストと精度のトレードオフ.

Slow pathway,Fast pathway間のlateral connection方法に関して,以下の3種類を比較検証しています.

·      (i) Time-to-channel (TtoC):Fast pathwayの特徴マップを時間方向に分割,それらをchannel方向に結合する形でreshapeし,特徴マップのサイズをSlow pathwayの特徴マップに合わせる方法.最終的に,Slow pathwayの特徴マップとsum or concat.

·      (ii) Time-strided sampling (T-sample):Fast pathwayの特徴マップを時間方向にsamplingし,Slow pathwayの特徴マップと時間方向の次元数を合わせる方法.最終的に,Slow pathwayの特徴マップとconcat.

·      (iii) Time-strided convolution (T-conv):Fast pathwayの特徴マップにstrideありの3D畳み込みを行うことで,Slow pathwayの特徴マップと時間方向の次元数を合わせる方法.最終的に,Slow pathwayの特徴マップとconcat.

結果を以下の (a) に示します.単純な最終出力のconcatのみでは精度向上が0.9%に止まるのに対し,latetal connectionを入れると改善幅が大きくなります.特に,Time-strided convolutionを用いる場合が最も良い結果を記録しています.

Fast pathwayのchannel数に関する検証結果を以下 (b) に示します.βが1/8程度までの範囲では,channel数の増加による精度の向上が見られますが,それ以上は向上幅が小さい,もしくは精度が悪化する傾向にあります.Slow pathwayに対してFast pathwayのchannel数が相対的に少なくても十分であることが判断できます.

Slow pathwayの軽量化方法に関する検証結果を以下 (c) に示します.空間的解像度の削減,グレースケール化,時間差分画像,いずれの軽量化を施したFast pathwayを用いてもSlow pathwayのみのベースラインと比較して精度向上が確認できます.特にグレースケール化は,計算コストと精度の双方において最も良い結果となりました.

(a) lateral connection方法の検証結果.SlowFastの内,表記がないものは各pathwayの最終出力のconcat.(b) Fast pathwayのchannel数に関する検証結果.βはSlow pathwayに対するFast pathwayのchannel数の割合を示す.(c) Slow pathwayの軽量化方法に関する検証結果.(評価指標はaccuracy,backboneは全て3D ResNet-50.)

行動検出のbackboneとしてのSlowFast Networksの性能をAVA datasetにおいて検証しています.人物候補領域はDetectron [14] のFaster R-CNNをAVAでfine-tuningしたモデルによって検出,それを元にSlowFast Networksの特徴マップ上でRoI alignベースのpoolingを行い,各人物矩形の行動クラス推定を行なっています.結果は下図のようになり,optical flowを使用せずに従来手法を上回るmAPを記録しています.

AVA datasetにおける行動検出の従来手法との比較結果.(評価指標はframe mAP,提案手法のbackboneは3D ResNet-101.)

さらに,下図にSlow pathwayのみとSlowFast Networksの場合におけるAVAの各クラスの精度を示します.全体としてFast pathwayを使用することによる精度の向上は大きく,"hand clap","swin","run / jog"をはじめとする動き情報が大きな手がかりとなると予想されるクラスの改善が特に大きいことがわかりました.

AVA datasetにおける行動検出のクラスごとの精度.(評価指標はframe mAP,提案手法のbackboneは3D ResNet-101.).

おわりに

今回は動画認識分野におけるコンピュータビジョンの最新論文をご紹介しました.単一画像に対してよりリッチな情報である動画を用いてコンピュータビジョンのタスクを解く試みは,可能性に満ちており以前から注目され続けていますが,計算コストと精度の両面においてデファクトスタンダードとなる動画認識モデルの確立は長らくされていなかったように思います.一方で、今回紹介した論文の中には,動画情報の特性と先行研究の課題感から従来の動画認識モデルに大きな変更を加えて性能改善を行ったものもあり,こういった最近の研究の流れが動画認識分野を一気に前進させる可能性にも期待できます.DeNA CVチームでは引き続き調査を継続し,最新のコンピュータビジョン技術を価値あるサービスに繋げていきます.

参考文献

·      [1] Kalogeiton et. al, "Action tubelet detector for spatio-temporal action localization", ICCV 2017.

·      [2] Simonyan et. al, "Two-stream convolutional networks for action recognition in videos", NIPS 2014.

·      [3] Tran et. al, "Learning spatiotemporal features with 3D convolutional networks", ICCV 2015.

·      [4] Qiu et. al, "Learning spatio-temporal representation with pseudo-3d residual networks", ICCV 2017.

·      [5] Tran et al, "A closer look at spatiotemporal convolutions for action recognition", CVPR 2018.

·      [6] Carreira et. al, "Quo vadis, action recognition? a new model and the kinetics dataset", CVPR 2017.

·      [7] Wang et. al, "Non-local neural networks", CVPR 2018.

·      [8] Huang et. al, "What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets", CVPR 2018.

·      [9] Feichtenhofer et. al, "Convolutional two-stream network fusion for video action recognition", CVPR 2016

·      [10] Feichtenhofer et al, "Spatiotemporal residual networks for video action recognition" NIPS 2016

·      [11] Lee et. al, "Motion feature network: Fixed motion filter for action recognition", ECCV 2018.

·      [12] Y.-H. Ng et. al, "Actionflownet: Learning motion representation for action recognition", WACV 2018.

·      [13] Hu et. al, "Squeeze-and-excitation networks", CVPR 2018.

·      [14] Girshick et. al, Detectron. https://github.com/facebookresearch/detectron, 2018.

·      [15] Zach et. al, "A duality based approach for realtime tv-l1 optical flow", DAGM Conference on Pattern Recognition 2017.

·      [16] Sevilla-Lara et. al, "On the integration of optical flow and action recognition", GCPR 2018.

·      [17] Ilg et. al, "Flownet 2.0: Evolution of optical flow estimation with deep networks", CVPR 2017.

·      [18] Kay et. al, "The kinetics human action video dataset", arXiv 2017.

·      [19] Soomo et. al, "UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild", CRCV-TR-12-01 2012.

続きを読む

 

2019/09/24 14:27

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 前編

shunsuke.nakamura

Keywords: AI

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 前編

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている中村です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回はSingle Image Super-Resolutionの前編として中村遵介が調査を行いました。

Single Image Super-Resolutionとは、一枚の画像を入力として受け取り、対応する高画質の画像を推定するもので、日本語では単一画像超解像として知られています。

過去の他タスク編については以下をご参照ください。

·      Human Recognition 編

·      3D Vision 編

·      キーポイント検出の手法を用いた物体検出編

·      Object Tracking 編

·      Segmentation 編

目次

·      論文調査のスコープ

·      前提知識

o   Single Image Super-Resolution

o   評価方法 代表的なPSNRやSSIMといった指標について

o   関連データセット

§  学習用 一般的な超解像の訓練データセットについて

§  評価用 一般的な超解像の評価データセットについて

·      論文紹介

o   辞書ベース超解像 CNN以前の超解像手法概要

o   SRCNN: "Image Super-Resolution Using Deep Convolutional Networks"(TPAMI2015) 最初期のCNN超解像

o   ESPCN: "Real-Time Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolution Neural"(CVPR2016) SRCNNの高速化モデル

o   FSRCNN: "Accelerating the Super-Resolution Convolutional Neural Network"(ECCV2016) SRCNNの高速化モデル

o   VDSR: "Accurate Image Super-Resolution Using Very Deep Convolutional Networks"(CVPR2016) SRCNNの多層化モデル

o   DRCN: "Deeply-Recursive Convolutional Network for Image Super-Resolution"(CVPR2016, Oral) SRCNNの多層化&再帰モデル

o   SRResNet: "Photo-Realistic Single Image Super-Resolution using Generative Adversarial Network"(CVPR2017, Oral) ResNetベースの統合モデル

o   EDSR: "Enhanced Deep Residual Networks for Single Image Super-Resolution"(CVPRW2017) SRResNetの巨大化モデル

o   RCAN: "Image Super-Resolution Using Very Deep Residual Channel Attention Networks"(ECCV2018) SENetベースの統合モデル

·      Tips: PSNRの向上を目的とした超解像モデルの訓練方法 近年の傾向を踏まえた訓練Tips

o   訓練データセット

o   Augmentation

o   損失関数

o   初期値

o   入力正規化

o   評価

論文調査のスコープ

コンピュータビジョンの最新論文調査 Single Image Super-Resolution 編は前編と後編からなり、全体としては、Convolutional Neural Network(CNN)が初めてSingle Image Super-Resolution(SISR)に用いられたSRCNNを皮切りに、CVPR2019で発表された論文までで重要と思われるものをピックアップして調査を行っております。

今回の前編では、「スケールやパラメータを含め縮小方法が既知の画像から、なるべく元の画像に近づくよう高画質な画像を推定する」というタスクに取り組んだ論文を紹介します。

後編では、「縮小方法が完全に未知、もしくは一部未知の画像から、なるべく元の画像に近づくよう高画質な画像を推定する」というものや「元画像にとても近いとは言えなくとも見た目が綺麗になるよう推定する」というタスクに取り組んだ論文を主に紹介する予定です。

前提知識

Single Image Super-Resolution

Single Image Super-Resolution(SISR)は、日本語では単一画像超解像として知られ、一枚の画像を入力として受け取り、対応する高画質の画像を推定するタスクです。

ある低画質画像と対応する高画質画像は複数存在するため、このタスクは解が定まらない不良設定問題として知られています。下の画像は後編で紹介するPhoto-Realistic Single Image Super-Resolution Using a Generative Adversarial Networkより引用したものですが、一つの低画質画像に対応する高画質画像が複数あることを示しています。

不良設定問題の例

そのような中、大量のデータから拡大方法を学習するCNNモデルは、この5年ほどで大きな注目を集めています。大量の低画質画像-高画質画像のペアデータから拡大方法を学習することで、未知の画像であってもかなり綺麗に拡大することが可能になってきました。以下の図は一般的にSISRをCNNで解く際の訓練と推論のイメージ図です。訓練時は高画質画像を縮小して入力し、元の画像を復元するように学習します。前編で紹介する論文は、アンチエイリアスをかけた高画質画像をBicubic法によって1/2, 1/3, 1/4 もしくは 1/8に縮小したものを用いています。

評価方法

今回紹介する手法においては、正解画像と推定画像の「近さ」はPeak Signal-to-Noise Ratio(PSNR)とStructure Similarity Index(SSIM)で評価しています。PSNRは画像の二乗誤差に対数を用いた評価指標で、高ければ高いほどモデルの精度が良いことを示しています。しかしPSNRはあくまで二乗誤差なので、ノイズのようなものをうまく指標に反映できないという欠点があります。そこで、PNSR以外の指標として、注目領域の画素の平均や標準偏差と言った統計情報を使用したSSIMも重要となっています。SSIMは0-1の範囲の指標で、これも高ければ高いほど精度が良いことを示しています。

ただし、どちらも「値は高いが見た目としてはあまりよくない」という結果を生む可能性もあり、絶対的に信頼できる指標ではありません。現状では既存手法との比較のしやすさや他により良い選択肢がないということもあり、これらの指標が採用されています。

関連データセット

学習用

·      ImageNet: 1000万枚を超える超巨大データセットです。実際に学習する際は35万枚程度をサンプリングして使用します。画像サイズはまちまちですが、400x400程度のものが多いです。超解像の学習では192x192などにクロップされるため、おおよそ1枚の画像から4つほど完全に異なるデータを取得できます。

·      DIV2K: CVPR、ECCVのコンペで使用されるデータセット。800枚と枚数は少ないですが、非常に品質が高いことで知られています。また画像サイズも大きく、2040x1300-1500程度の画像により構成されています。おおよそ1枚の画像から60-70枚ほど完全に異なるデータを取得できます。

評価用

·      Set5: 5枚のデータセット。CNNモデル登場以前から頻繁に用いられていました。人の顔や蝶、鳥のような自然画像が入っています。

·      Set14: 14枚のデータセット。一部、Set5と被る画像もあります。白黒画像やイラスト調の画像が増えました。

·      BSD: 100枚、200枚など使用する枚数は異なりますが近年は100枚を使用するケースがほとんどです。動物や人物、飛行機のようなものから景色の画像まで、幅広い自然画像が入っています。

·      Urban100: 建物の画像を主に集めたデータセットです。画像内の自己相関性が高い事で知られています。

·      Manga109: 漫画のデータセットですが、主に表紙のカラー画像を評価対象に用いられます。

あるSISRモデルを複数の画像に対してそれぞれ適用した際のPSNRは一般的にばらつきがちです。そのため、数枚の画像で評価をすることが難しく、ほとんどの論文では複数の評価データセットについてそれぞれの平均PSNRを記載して既存手法との相対評価を行います。

論文紹介

SISRは辞書ベースのアプローチが行われていましたが、最近ではCNNを利用したアプローチが盛んになっています。まずはCNNモデルのベースとなった辞書ベースの手法についてその手法を大まかに説明します。

辞書ベース超解像

辞書ベースの手法の大まかな流れは以下のようになっています。

1.    事前に高画質画像の一部領域を切り出したパッチと、それを縮小した低画質パッチを大量に用意します。

2.    大量の低画質パッチ群をある基底行列(辞書)とそれぞれのスパースベクトルの積で近似表現します。これは、低画質パッチを、代表的な特徴群の中のいくつかの和で表現することで、より少ない情報で画像を表現しようとしています。

3.    低画質パッチを変換したベクトルと、高画質パッチの対応表を作成します。

4.    超解像の対象となる入力された低画質画像から小領域を切り出します

5.    切り出した小領域を 2. の方法でベクトル表現します。

6.    6. の対応表の中から最も近いベクトルを探し出し、対応する高画質パッチを、小領域に対応する高画質画像として使用します。

7.    4-6.を繰り返して高画質画像を生成します

2.において特徴表現を工夫したり6.の最近傍探索においてアルゴリズムを工夫することで、高速な超解像や正確な超解像を行なっていくもの(A+: Adjusted Anchored Neighborhood Regression for Fast Super-Resolution)や、事前に用意する画像群を外部データを利用せず、入力された画像だけから作成する手法などが存在します。最近だとCVPR2015で画像の自己相関を利用したSelfExSR: "Single Image Super-Resolution from Transformed Self-Exemplars"が発表されていたのが記憶に新しいです。

SRCNN: "Image Super-Resolution Using Deep Convolutional Networks"(TPAMI2015)

目的

従来の超解像のうち、辞書ベースに基づいた手法をCNNに置き換えることで高精度化を図りました。

要約

辞書ベースの手法が行なっていた操作を、CNNに置き換えた論文です。初めてSISRにCNNを用いましたが、既に従来手法を大きく上回る精度を達成しました。

提案内容

全体は3層のCNN構造になっています。

·      1層目が 9x9 の畳み込みで、「小領域を切り出す」という操作に該当

·      2層目が 1x1 の畳み込みで、「小領域を特徴ベクトルに埋め込む」という操作に該当

·      3層目が 5x5 の畳み込みで、「特徴ベクトルから対応する高画質画像を検索する」という操作に該当

損失は、生成結果と正解画像の平均二乗誤差です。CNN内部では拡大を行わず、Bicubic 法で事前に拡大処理したものをCNNで refine するという手法をとっています

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

4x4 PSNR

Bicubic

A+

SRCNN

Set5

28.42

30.28

30.49

Set14

26.00

27.32

27.50

BSD300

25.96

-

26.90

A+はCNN手法ではなく、辞書ベースのものですが当時の最高手法の1つです。SRCNNがPSNRにおいて高い精度を達成したことを示しています。

以下は論文から引用した3x3倍超解像の結果です。既存手法に比べて鮮明な結果となっています。

問題点

SRCNNはCNNのSISRへの適用ということで注目を浴びた論文でしたが、以下の2つの問題を抱えていました。

·      Bicubic法で事前に拡大された画像を処理するため計算コストが大きい

·      3層で構成されており、表現能力が乏しい

そこで、この2つに取り組んだ論文をそれぞれ紹介します。まずは1つ目の計算コストが大きい問題に取り組んだ論文を2つ紹介します。

ESPCN: "Real-Time Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolution Neural"(CVPR2016)

目的

SRCNNではBicubic法で拡大した画像をCNNで処理していたため計算コストが大きい問題がありました。この論文はその計算コストの縮小を図ったものです。

要約

実際の拡大をCNN入力前のBicubic法で行うのではなく、CNNの最終部分でsub-pixel convolutionを導入することで実現しています。これにより、CNN内部のほぼ全てのレイヤで小さなサイズの画像のまま計算を行うことを可能にしました。SRCNNのおよそ4-5倍の速度を出しています。

提案内容

SRCNNで前処理として行なっていたBicubic法を除外し、最終層の9x9の畳み込みをsub-pixel convolutionに置き換えることで最終層で拡大を行います。

sub-pixel convolutionは、width, height方向への拡大を行うのではなく、channel方向にr^2倍の拡大を行います。その後、reshapeとtransposeによってテンソルを変形させ、width, height方向にそれぞれr倍した結果を出力します。

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

x4 PSNR

Bicubic

SRCNN

ESPCN

Set5

28.42

30.49

30.90

Set14

26.00

27.50

27.73

BSD300

25.96

26.90

27.06

以下は論文から引用した3x3倍超解像の結果です。

FSRCNN: "Accelerating the Super-Resolution Convolutional Neural Network"(ECCV2016)

目的

SRCNNではBicubic法で拡大した画像をCNNで処理していたため計算コストが大きい問題がありました。この論文はその計算コストの縮小を図ったものです。

要約

SRCNNを提案したチームが、さらに高速化を行ったFast-SRCNN(FSRCNN)です。ESPCNはsub-pixel convolutionを採用していましたが、FSRCNNはtransposed convolutionを採用しています。どちらも表現能力は変わりません。元のSRCNNのおよそ10倍の速度を出しています。

結果

4x4倍に拡大した画像と実際の高画質画像から計算されたPSNRの各データセットにおける平均値です。

x4 PSNR

Bicubic

SRCNN

FSRCNN

Set5

28.42

30.49

30.71

Set14

26.00

27.50

27.59

BSD200

25.97

26.73

26.98

以下は論文から引用した3x3倍超解像の結果です。

以上のように、この後はCNNの最終層近くでtransposed convolutionか、sub-pixel convolutionで拡大を行うようになっていきます。

これにより、SRCNNの2つの問題点である、

·      Bicubic法で事前に拡大された画像を処理するため計算コストが大きい

·      3層で構成されており、表現能力が乏しい

の一つ目が解決されていきます。

二つ目の

·      3層で構成されており、表現能力が乏しい

に取り組んだ初期の重要な論文が以下の2つです。単純に層を増加させても学習が不安定になってしまうところを、Residual Learningという手法で防いでいます。

VDSR: "Accurate Image Super-Resolution Using Very Deep Convolutional Networks"(CVPR2016)

目的

SRCNNは3層で構成されており、表現能力が乏しい問題がありました。この論文は多層化させることで不安定になる学習を安定化させることを目指したものです。

要約

Bicubic法で拡大した画像からの差分だけをCNNに学習させるResidual Learningを提案し、深い層のモデルを用いても学習を安定化させた論文です。差分のみを学習できるようにglobal skip connectionを用いています。

提案内容

CNN自体は3x3の畳み込み層を20枚積んだモデルを提案しています。入力はBicubic法で拡大された画像ですが、モデルの出力にこの拡大された画像を足し合わせて最終出力とすることで、結果的にモデルが「正解画像とBicubic法による拡大画像との差分」のみを学習するように制限をかけています。

Bicubic法は単純なフィルタ処理ですが、それでもある程度補間は行えるため、残った僅かな差分だけを学習させることで、学習を容易にしています。この頃は20層のモデルでもvery deepという名前がついたことに少し感慨を覚えます。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

VDSR

Set5

28.42 / 0.810

30.49 / 0.863

31.35 / 0.884

Set14

26.00 / 0.702

27.50 / 0.751

28.01 / 0.767

BSD100

24.65 / 0.673

25.60 / 0.718

27.29 / 0.725

Urban100

23.14 / 0.658

24.52 / 0.722

25.18 / 0.752

以下は論文から引用した3x3倍超解像の結果です。

DRCN: "Deeply-Recursive Convolutional Network for Image Super-Resolution"(CVPR2016, Oral)

目的

SRCNNは3層で構成されており、表現能力が乏しい問題がありました。この論文は多層化させることで不安定になる学習を安定化させることと同時に、多層化によるパラメータ増加を抑えることを図ったものです。

要約

VDSRと同じ著者が同じ会議に提出した論文で、こちらは口頭発表になっています。

基本的にはVDSRと同じくResidual Learningを導入していますが、さらに中間層を再帰構造にさせることでパラメータ数の増加を防いでいます。

提案内容

Residual Learningを導入して Bicubic法と正解画像との差分のみを学習しますが、さらに中間層を再帰構造にしています。最大16回再帰させることで、16枚の超解像画像を生成し、最後にそれらをアンサンブルすることで最終出力を得ています。単純な加算平均ですが、PSNRのように二乗誤差を元にするような指標では、こういった加算平均は大きなズレを抑制し、精度が上昇することが知られています。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

DRCN

Set5

28.42 / 0.810

30.49 / 0.863

31.53 / 0.885

Set14

26.00 / 0.702

27.50 / 0.751

28.02 / 0.767

BSD100

24.65 / 0.673

25.60 / 0.718

27.23 / 0.723

Urban100

23.14 / 0.658

24.52 / 0.722

25.14 / 0.751

以下は論文から引用した4x4倍超解像の結果です。

以上が SRCNNの3層問題を解決した2つの論文でした。

ここまでで、

·      計算効率をあげるために最終層付近で畳み込みベースの拡大を行う

·      層を増やしたほうが精度が上がる。安定化のためにはskip connectionを用いたResidual Learningが良さそう

という 2点が明らかになりました。その結果、これ以降のデファクト・スタンダードとなるSRResNetが誕生することになりました。

SRResNet: "Photo-Realistic Single Image Super-Resolution using Generative Adversarial Network"(CVPR2017, Oral)

Using GAN と入っていることから明らかなようにこの論文ではGANを使用したモデル、SRGANを主軸に提案しています。それに加えて、Generatorとして一緒に提案されているSRResNetが当時のPSNR / SSIMを大きく向上させた手法だったので、今回はSRResNetに注目した解説を行います。

目的

ESPCNFSRCNNを経てCNNの後段で拡大することや、VDSRDRCNによって多層化の知見が得られたため、それらを組み合わせることで高精度な超解像を行います。

要約

Global skip connectionではなく、ResNetのように、モジュール内にskip connectionを組み込んだlocal skip connectionを使用したモデルを提案。最終層付近でsub-pixel convolutionを用いた拡大を行い、その後にもう一度畳み込みを行うことでさらなる補正を行っています。

提案手法

Residual blockと呼ばれる、local skip connectionを導入したモジュールを積み重ねることで、40層近い大規模なネットワークを構築しつつ安定した学習を可能にしたモデルです。

最終層の手前でsub-pixel convolutionによって拡大を行い、最後に9x9の畳み込みで補正をかけたものを最終出力としています。

Residual Learningは導入していませんが、最初の層の直後とsub-pixel convolutionの手前までのskip connectionを導入し、global skip connectionに近い効果を狙っています。

結果

x4 PSNR / SSIM

Bicubic

SRCNN

DRCN

SRResNet

Set5

28.42 / 0.810

30.49 / 0.863

31.53 / 0.885

32.05 / 0.902

Set14

26.00 / 0.702

27.50 / 0.751

28.02 / 0.767

28.49 / 0.818

BSD100

24.65 / 0.673

25.60 / 0.718

27.23 / 0.723

27.58 / 0.762

以下は論文から引用した4x4倍超解像の結果です。SRGAN という記載のものについては後編で解説いたします。

ここで再びブレイクスルーが発生しているのがわかるかと思います。

このあたりまで来ると、PSNRの上下変動に対して、生成結果の見た目の変動がパッと見では分からず、画像の一部を切り出したものを注視して比較する必要が出てきます。

一方で、層を増やした影響としてリアルタイム処理には不向きになっています。

EDSR: "Enhanced Deep Residual Networks for Single Image Super-Resolution"(CVPRW2017)

目的

SRResNetが大きく精度向上をさせられることがわかったため、更に発展させることを目指したものです。

要約

SRResNetから一部の無駄なモジュールを削除しつつ、モデル自体を深さ・広さ共に巨大化させることに成功しました。

提案手法

基本はSRResNetを踏襲しますが、SRResNetではモデル内の1つのモジュールが Conv + BN + ReLU + Conv + BN (+ skip connection) で構成されていたのに対し、Conv + ReLU + Conv (+ skip connection) のようにバッチ正規化を除外したモジュールを提案しています。論文内では、除外の理由はバッチ正規化は値の範囲を制限してしまう点で超解像に不向きであると主張されています。また、バッチ正規化を除外したことでGPUのメモリ消費量を40%近く抑えることができたとも主張しています。

また、SRResNetはモジュール数が16、それぞれの畳み込み層のチャンネル数が64だったのに対し、EDSRはモジュール数を32、チャンネル数を256に変更しています。モデルサイズはSRResNetのおよそ30倍にも及びます。モデルサイズを巨大化させて行く風潮を強く感じる論文です。

一方で、バッチ正規化を除外しモデルを巨大化させたため、中間特徴の値が次第に爆発してしまうことがわかりました。そこで、モジュールの最終部に0.1倍の定数スケーリング層を追加しています。これにより学習を安定化させることに成功しました。

結果

x4 PSNR / SSIM

Bicubic

SRResNet

EDSR

Set5

28.42 / 0.810

32.05 / 0.891

32.46 / 0.897

Set14

26.00 / 0.702

28.53 / 0.780

28.80 / 0.788

BSD100

24.65 / 0.673

27.57 / 0.735

27.71 / 0.742

以下は論文から引用した4x4倍超解像の結果です。+とついているのは後述するgeometric self-ensembleをおこなったもので見た目の変化はほとんどありませんがPSNRが上がるtest time augmentationです。

RCAN: "Image Super-Resolution Using Very Deep Residual Channel Attention Networks"(ECCV2018)

目的

ResNetベースのモデルが成功を収めたので、さらに広げてSENetをベースにすることでさらなる大規模化を図ったものです。

要約

さらにモデルを巨大化させます。といってもSRResNetを直接巨大化させるのはEDSRで達成されているので、この論文はresidual in residualモジュールとself-attentionを使用するアプローチを取っています。

結果として400層のネットワークを構成するのに成功しました。一方でforwardにかかる時間も増加しています。

提案手法

Local skip connectionを組み込んだブロックを複数繋げ、それらを一つのグループとみなし、それらを連結させることでモデルを構成しています。各グループにもlocal skip connectionが導入されているので、residual in residual構造と呼ばれています。

さらに各モジュールにはチャンネルベースのself-attention構造を取り入れています。論文内では畳み込みの受容野の小ささによるコンテキスト情報の欠損を防ぐために導入していると主張されています。

また、ablation studyも行われ、residual in residualが性能向上に大きく貢献していることがわかります。一方でattentionによる性能向上は僅かな値程度に留まり、パラメータ数の増加による性能向上との比較が難しいというのが個人的な見解です。

結果

x4 PSNR / SSIM

Bicubic

EDSR

RCAN

Set5

28.42 / 0.810

32.46 / 0.897

32.63 / 0.900

Set14

26.00 / 0.702

28.80 / 0.788

28.87 / 0.789

BSD100

24.65 / 0.673

27.71 / 0.742

27.77 / 0.744

ここまで結果の表の数字を真剣にご覧になっている方はお気づきかもしれませんが、精度の上がり幅がかなり小さくなってきています。

現時点で4x4倍の単一画像超解像はPSNRの精度において大幅な精度上昇は起きていません。

また、PSNRは1.0変化してようやく人の目にもそれがわかる程度なので、RCANの見栄えが劇的にEDSRに比べてよくなっているわけでもありません。

やはり毎年残っているごく僅かな精度向上を目指して数多くの論文が公開されているのですが、こういった現状を受けて最近は異なる問題設定のタイプの単一画像超解像が登場するようになりました。

次回のTech Blogでそういった論文を紹介していきます。

それでは今回の締めくくりとして、PSNRを高めることを目的とした超解像の訓練Tipsを載せておしまいにしたいと思います。

Tips: PSNRの向上を目的とした超解像モデルの訓練方法

訓練データセット

ImageNet, DIV2Kが使用されていますが、最近はDIV2Kのみが使用されることが多いです。もともと超解像のコンペ用に作成されただけあって、非常に質のいい画像が揃っています。

また、ImageNetで訓練する場合は、数十万枚を使用するケースが多いですが、DIV2Kは800枚の訓練画像でも十分な精度に至ります。そもそもImageNetでもそこまで枚数を必要としないのかもしれませんが、この枚数差は大きいです。

Augmentation

Augmentationにはcropとflipと90, 180, 270度のrotate が使用されます。

Cropのサイズはモデルによってまちまちですが、だいたいのケースでは入力 48x48 -> 出力 96x96, 144x144, 192x192のサイズ感が好まれています。もともとPSNRを高めるためならそこまで画像のコンテキストを厳密に考慮する必要がないので、このサイズ感で問題ないと考えられています。

そこからさらにflip、rotateによって最大8種類の画像を作成して訓練に使用します。

また、test time augmentationとして、flip, rotateで作成した8枚の入力画像をそれぞれ超解像し、その後で再びflipとrotateを適用して元の方向に戻してそれぞれの結果を加算平均する、という手法が存在します。8枚のどれかで一部間違った推論が行われたとしても、残りの7枚との平均計算によって誤差が小さくなり、PSNRが上昇することが期待されます。このtest time augmentationは、geometric enesembleとも呼ばれ、最近の手法でこれを導入していないものはほとんど見ません。

それくらい劇的にPSNRが上昇します(本ブログでの結果の表は全てtest time augmentationを行なっていない時の値です)。

大抵の超解像論文では「Ours, Ours+」のように + でgeometric ensembleの数値結果を表記するため、モデルの性能評価を行いたいときは geometric ensembleしているもの同士、していないもの同士で比較しなければならないことに十分注意してください。ほぼ間違いなく既存手法の精度を表記する際はgeometric ensembleしていない場合の値が表記されます。

損失関数

PSNRの向上を目的とする場合は現状、二乗誤差もしくは絶対誤差が使用されます。二乗誤差よりは絶対誤差の方が収束の速さから好まれる傾向にあります。ただし、現状のPSNR向上モデルの一つであるRCANは二乗誤差を採用しており、一概にどちらの方が精度が良い、という断言はできません(RCANの著者はGitHubのissueの中で、二乗誤差と絶対誤差の選択は大して精度に影響を与えないがより良い損失関数があるかもしれない、と記載しています)。

初期値

バッチ正規化を除外したままモデルを巨大化していくと特徴のスケールが発散する傾向にあるので、モデルの初期値はガウス分布ではなく、一様分布でスケールを調整したものを使用するのが良いです。

入力正規化

RGBの[0, 255]を単純な割り算で[0, 1], [-1, 1]に正規化する人もいれば、そのまま使用する人、データセットの平均RGBを引いて使用する人もいます。最近は訓練データの平均RGB値だけ引いて、特にスケールは変更しないまま使用するケースが多いです。

評価

PSNRの計算は式が単純なだけにさっと実装しておしまいにしてしまいがちですが、実はフレームワークによって算出される値が異なります。というのも、PSNRは輝度から計算されますが、RGBからYCrCbへの変換式が統一されていないからです。SelfExSRという画像の自己相関を利用した手法に関してGitHubで著者による実装が公開されていますが、その中でMATLABによる評価コードが書かれており、これを使用するか、独自で実装した場合は他のモデルの出力結果も自身のプログラムによって再計算するのが良いです。

参考レポジトリ

·      EDSR(著者によるPyTorch実装)

·      RCAN(著者によるPyTorch実装)

巨大化してきたモデルの構造を把握するのは実際にコードを見るのが早いという点でこれらの著者実装を眺めてみるのもいいと思います。ただし、どちらも訓練にはある程度のGPUを必要とします。

続きを読む

 

2019/09/13 15:00

音声の印象に基づくグラフィック生成: "fontgraphy" の裏側

shota.takayama

Keywords: AI

はじめに

こんにちは、AIシステム部の高山、橘です。声からオリジナルグラフィックを生成する「fontgraphy(フォントグラフィー)」を9月13日に公開しました。fontgraphyは、デザイン×AIの取り組みであり、一般公開されています。ぜひスマートフォンのブラウザで体験してみてください。https://fontgraphy.dena.com

本記事ではfontgraphyを構成する技術をご紹介します。

fontgraphyについて

fontgraphyは、声からオリジナルグラフィックを生成します。まず、声を入力すると、その声の印象を推論します。次に、フォントとイメージ画像を検索します。最後に、そのフォントに対してイメージ画像の画風を転写することでグラフィックを生成します。画風の転写にはスタイル変換という技術を用いています。

声の印象推定

印象語の選定

話者の声の特徴を直感的な言葉で制御できる音声合成技術 [1] を参考に、甘い、クール、落ち着いた、生き生きした、エレガント、渋い、ポリシーのある、優しい、の8つの印象語を選びました。

データセットの作成

印象語がつけられた公開されている音声データがないので、自前でデータを用意する必要があります。まず、音声データの収集にあたり、発話内容を検討しました。発話内容が異なっていると印象語を評価することが難しくなる、また予測も困難となることから、固定としました。発話内容は、印象スコアが予測できるほどの長さを確保する必要があります。そこで感情認識のデータセットSAVEE [2] を参考にしました。このデータセットでは長くとも4秒程であったため、同様の長さとなる発話内容(「私のロゴを作ってください。」)に設定しました。そして実際に社員800人の音声を録音しました。音声は個人データにあたるため、音声の利用に関する許諾確認書にサインしてもらう必要がありました。800人の席まで行き、許諾確認書にサインしてもらった上で、音声を録音するという大変な作業をデザイン本部が主導して進めました。

次に、録音した音声に対して、印象語をつけました。音声一つに印象は一つと定まらないことが多いため、各印象語へのスコア付けすることで評価することとしました。下図はスコア評価ツールを示しています。スコアは、0:感じない、1:かすかに感じる、2:少し感じる、3:感じるの4段階としました。主観評価になるため、各音声に対して最低3人で評価し、その平均を取りました。デザイン本部が作成したウェブページを使って評価データを集めました。

印象語推定手法

音声から声の印象語を予測するにあたり、感情認識の手法 [3] を参考にしました。感情認識では音声から特徴量を抽出し、抽出された特徴量を機械学習モデルに入力し、出力結果から感情を認識します。これを踏襲することとしました。まず余分な区間を削除するため、振幅値ベースの音声区間検出を行い、検出された音声区間から特徴量を抽出しました。そして、その特徴量を入力として、スコア付けした印象語を予測するモデルを学習しました。音声の特徴量は、感情認識で多く用いられているOpenSMILE [4] のopenSMILE/openEAR 'emobase' set [5]の988次元から、下記に示す音響特徴の統計量からなる731次元を選択しました。

用いた音響特徴

·      Intensity

·      loudness

·      声の高さ

·      ゼロクロス率

·      24次のメルケプストラム係数

·      13次のメル周波数ケプストラム係数とその一次微分

用いた統計量

·      最大値

·      最小値

·      平均

·      分散

·      歪度

·      kurtosis

·      1次関数近似の傾きと切片

·      3種のinterquartile range

·      3種のpercentile

また音声分析のために、WORLD [6] (D4C edition [7]) 、SPTK [8]を用いました。 抽出された731次元の特徴量から、印象語のスコアを予測する深層学習モデルを印象語それぞれに対して作成しました。深層学習モデルは隠れ層が128次元の4層からなるFeed-forwardモデルを採用しました。検証データにおいて、予測した各印象語のスコアと人手のスコアの相関係数は0.70となりました。また以下に散布図を示します。横軸が予測スコア、縦軸が人手でつけられたスコアの平均です。この結果からよく予測出来ているとと見てとれます。

感情ごとの相関係数は以下のようになりました。ここから、感情ごとに予測精度に違いあることが確認できます。

感情

相関係数

可愛い

0.61

クール

0.48

落ち着いた

0.65

生き生きした

0.57

エレガント

0.72

渋い

0.14

ポリシーのある

0.71

優しい

0.43

エレガントが高く、渋いが低い結果となりました。特定の印象語によった結果となっており、この要因を探るため、上記の散布図よりエレガント(下図1枚目)と渋いのみ(下図2枚目)を取り出しました。散布図からもエレガントは相関が強く、渋いは相関が弱いことが分かります。

次に人手でつけたスコア自体に偏りがなかったのかを調査しました。印象語ごとに人手でつけられた評価スコアの平均と分散を示します。この結果から印象語によったばらつきには、上記相関係数と同様の傾向は見られませんでした。印象語による予測精度の違いについては、今後調査が必要です。

感情

平均

標準偏差

可愛い

1.85

0.25

クール

1.58

0.39

落ち着いた

1.92

0.37

生き生きした

2.33

0.33

エレガント

1.19

0.48

渋い

1.88

0.26

ポリシーのある

1.39

0.59

優しい

1.65

0.20

フォントとイメージ画像の検索

データセットの作成

声の印象に近いフォントとイメージ画像を検索するには、フォントとイメージ画像にも8つの印象のスコアが必要になります。フォントは、Monotype株式会社(米国Monotype Imaging Inc.の日本法人)から提供されたものを利用しました。大量のフォントへのスコアづけは大変な作業となるため、各フォントについた31個のタグとその評価値を、印象語のスコアに変換することにしました。具体的には、word2vecを使ってフォントのタグと音声の印象語をベクトルとして表現し、コサイン類似度を計算します。1つの印象語に対して31個のタグとの類似度が得られるので、評価値での重み付き和をその印象語のスコアとして算出しました。イメージ画像の印象のスコアは、音声データと同様に、デザイン本部のメンバーが4段階評価でスコアをつけました。

印象の距離の計算

音声の印象、フォント、イメージ画像をそれぞれ8次元のベクトルで表現することができるようになったので、実際に音声の印象に近いものを検索します。fontgraphyではユークリッド距離の最も近いフォントとイメージ画像を検索しています。

スタイル変換

コンテンツ画像にスタイル画像の画風を反映させることをスタイル変換と言います。スタイル変換は、物体の形状はコンテンツ画像に近くなるように、色や風合いといった画風はスタイル画像に近くなるように変換します。リアルタイムで様々なスタイルに変換できるよう研究が進められています。いくつかのスタイル変換の手法を試した結果、fontgraphyに最も適したUniversal Style Transfer via Feature Transforms [9] を採用しました。スタイル変換の技術詳細に興味がある方は「2018年版 深層学習によるスタイル変換まとめ」をご覧ください。

Universal Style Transfer via Feature Transforms

論文:https://arxiv.org/abs/1705.08086

Universal Style Transferの説明に入る前にオートエンコーダについて説明します。オートエンコーダは、入力画像を復元するニューラルネットワークです。入力画像を表現する特徴を抽出するエンコーダと、抽出した特徴から入力画像を復元するデコーダから構成されます。

Universal Style Transferは、エンコーダとデコーダの間にWCTレイヤーを入れてスタイルを変換します。WCTレイヤーではwhiteningとcoloringという処理をかけます。2つの処理は物体の形状の特徴を変えることなく、色や風合いといったスタイルの特徴を変換します。具体的には以下のステップを踏みます。

1.    コンテンツ画像とスタイル画像をそれぞれエンコード

2.    コンテンツ画像の中間特徴を白色化:whitening

3.    スタイル画像の中間特徴の固有値固有ベクトルを使って白色化した特徴を変換:coloring

4.    変換した特徴をデコード

5.    1-4の処理を繰り返し

whitening

コンテンツ画像の中間特徴を白色化します。白色化により物体の構造情報を保ったまま画風の情報を削ぎ落とすことができます。以下の画像は白色化した特徴をデコードした結果です。

対角成分に固有値を並べた行列Dc、固有ベクトルを並べた行列Ec、平均ベクトルmcを使って、エンコードした特徴fcを白色化します。

coloring

白色化した特徴をスタイル画像のパラメータで変換します。この変換は、画風の情報を削ぎ落とす白色化と逆の変換になります。対角成分に固有値を並べた行列Ds、固有ベクトルを並べた行列Esを使って、白色化した特徴を変換します。

coloringした特徴とコンテンツ画像の中間特徴を混ぜ合わせてからデコードすることで、画風の度合いをコントロールすることができます。

下図のように、alphaが大きいほどスタイル画像の画風が強く反映されます。

生成結果

fontgraphyは、以下のようなグラフィックを生成します。フォントは919種類、イメージ画像は400枚使っています。画風の度合いをコントロールするalphaを0から0.6まで0.1ずつ変化させて7パターンの変換をしています。以下の図はalphaを0.6とした結果です。

おわりに

本記事では声からオリジナルグラフィックを生成するfontgraphyの要素技術についてご紹介しました。DeNAは引き続き技術を蓄積し、デザイン×AIの取り組みに挑戦していきます。

参考文献

[1] Surrey audio-visual expressed emotion (savee) database

[2] 話者の声の特徴を直感的な言葉で制御できる音声合成技術

[3] The INTERSPEECH 2009 Emotion Challenge

[4] openSMILE ‒ The Munich Versatile and Fast OpenSource Audio Feature Extractor

[5] OpenSMILE

[6] WORLD: a vocoder-based high-quality speech synthesis system for real-time applications

[7] D4C, a band-aperiodicity estimator for high-quality speech synthesis

[8] Speech Signal Processing Toolkit(SPTK)

[9] Universal Style Transfer via Feature Transforms

続きを読む

 

2019/08/19 15:40

コンピュータビジョンの最新論文調査 Segmentation 編

Takumi Karasawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている唐澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は Segmentation 編として唐澤 拓己(@Takarasawa_)、葛岡 宏祐(facebook)、宮澤 一之(@kzykmyzw)が調査を行いました。

過去の他タスク編については以下をご参照ください。

·      Human Recognition 編

·      3D Vision 編

·      キーポイント検出の手法を用いた物体検出編

·      Object Tracking 編

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主に Segmentation 技術に関する最新論文を取り上げます。

前提知識

Segmentation

segmentation とは領域分割という意味で、画像を入力としてピクセルレベルで領域を分割しラベルを付けていくタスクです.そのラベリングの意味合いから、画像上の全ピクセルをクラスに分類する Semantic Segmentation、物体ごとの領域を分割しかつ物体の種類を認識する Instance Segmentation、最後にそれらを組み合わせた Panoptic Segmentation というタスクに大別されます。特に、最後の Panoptic Segmentationは ECCV 2018で新しく導入されたタスクです。

Semantic Segmentation

塗り絵のように画像上全てのピクセルに対して、クラスカテゴリーをつけるタスクです。画像を入力とし、出力は入力の画像と同じサイズで、各ピクセルに対してカテゴリーラベルがついたものとなります。特徴として、空や道といった物体として数えられないクラスの領域分割も行える一方で、車や人のような数えられるクラスに対して、同クラス間で重なりがある場合、同クラスの領域として認識するため、物体ごとの認識・カウントができません。評価指標としては mIoU(mean intersection over union)が使われています。

このタスクのネットワークは、Fully Convolutional Network [1] が発表されて以来、FCN 構造が基本となっています。有名な手法(ネットワーク)として、高解像度特徴マップをエンコーダからデコーダに取り入れる U-Net(MICCAI 2015)[2]、upsampling の際にエンコーダでの max pooling の位置情報を使用する SegNet(arXiv 2015)[3]、複数のグリッドスケールでspatial pyramid pooling を行う PSPNet(CVPR 2017)[4]、atrous convolution を取り入れた DeepLab 系 ネットワーク(ICRL 2015~) [5, 6, 7, 8] などがあります。

Instance Segmentation

Object detection のような物体の認識をピクセルレベルで行うタスクです。画像を入力とし、出力は物体の存在する領域を、ピクセルレベルで検出したものとなります。Semantic Segmentationと異なり、重なりのある同一物体などを正しく別々に検出する一方、物体候補領域、すなわち RoI(region of interest)に対して segmentation を行うので、画像全てのピクセルに対してラベルを振ることは行いません。評価指標としては物体検出と同様に mAP(mean average precision) が使われています。

アプローチは、detection 手法を用いて instance 領域を取得後、それぞれの領域に対して mask を予測する detection ベースのアプローチ、まずそれぞれの pixel をラベリングした後ピクセル群をグルーピングする segmentation ベースのアプローチの二つに大別されます。高精度な手法は特に前者に見られる印象で、Mask R-CNN(ICCV2017)[9] は有名なネットワークです。他にも DeepMask(NIPS 2015) [10]、FCIS(ICCV2017)[11]、MaskLab(arXiv2017)[12] などがあります。後者のアプローチとしては境界検出を利用した Instancecut [13] や、watershed algorithm を使用した手法 [14] が存在します。

Panoptic Segmentation

Semantic Segmentation と Instance Segmentation を足し合わせたようなタスクです。入力は画像で、出力には Semantic Segmentation のように、全てのピクセルにラベルが振られ、かつ数えられる物体に関しては、個別で認識した結果が返されます。

数えられるクラス(車や人)を Thing クラスといい、数えられないクラス(空や道)を Stuff クラスといいます。Thing クラスに対して Instance Segmentation、Stuff クラスに対してSemantic Segmentation を行うタスクと考えればわかりやすいです。評価指標には、後述するPQ(panoptic quality)を使っています。こちらは比較的新しいタスクのため、提案されているネットワークの数が他の segmentation タスクと比べ少ないのですが、本記事では CVPR で発表されたものを数本紹介します。

関連データセット

·      Cityscapes:semantic segmentation、instance segmentation、panoptic segmentationを含む。

·      PASCAL VOC:semantic segmentation を含む。segmentation だけでなく detection 等も含む。

·      ADE20K:semantic segmentation を含む。

·      COCO:instance segmentation、panoptic segmentation を含む。segmentationだけでなく、detection等も含む。

論文紹介:Semantic Segmentation

Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.02985

要約

semantic segmentation のような、解像度に対して sensitive なタスクに対して有効性を発揮しなかった NAS(neural architecture search) においてセルの探索だけでなくネットワークレベルでの探索を行う階層的なアーキテクチャ探索を提案。

提案内容

·      従来の cell レベルの構造の探索に加え network レベルの構造の探索をすることを提案。これにより階層的な探索空間を形成。

·      Darts [15] により提案された continuous relaxation を network レベルにも拡張した、gradient-based なアーキテクチャ探索を提案。

アーキテクチャ探索空間:cell(小さい fully convolutional module)レベル

·      cell は、内部の B 個の block で構成され、それぞれの出力を順に結合し cell の出力とする。

o   block:2ブランチ構造。2つの入力から出力を行う。(I1, I2, O1, O2, C)で表現。

§  I1, I2:入力の組み合わせ。取りうる選択肢は一つ前のセルの出力、二つ前のセルの出力、一つ前のセル中のそれぞれのブロックの出力

§  O1, O2:それぞれI1, I2に対応して行われる処理。取りうる選択肢は、

§  3x3/5x5 depthwise-separable conv

§  3×3/5x5 atrous conv with rate 2

§  3x3 average/max pooling、skip connection、no connection(zero)

§  C:それぞれのブランチの出力を組み合わせ block としての出力を行う処理。論文中ではelement-wise な足し算のみ。

図1:cell レベルの探索空間の結合関係。H は各出力。H の右上の添字は cell の番号、H の右下の番号は block の番号。左上の添字 s は解像度を表し下記の network レベルの空間にて用いる。

アーキテクチャ探索空間:network レベル

·      多様なアーキテクチャに共通する二つのルールを元に探索空間を構築。

o   各層の次の層の解像度は二倍、半分、同じ、のいずれか。

o   最も低解像度までダウンサンプリングした部分で、1/32。

·      最初は1/4までダウンサンプリング(ここまでを stem と呼ぶ)し、その後は 1/4 から 1/32 の範囲内で探索。

図2:network レベルの探索空間。横軸がレイヤーのインデックス、縦軸がダウンサンプリングの倍率を表す。ASPP = Atrous Spatial Pyramid Pooling。

最適化方法

·      continuous relaxation により gradient ベースで最適化可能に。

·      学習データを二つに分け、ネットワークの重みとアーキテクチャの重みを交互に更新。

·      損失関数は cross-entropy。

Continuous Relaxation

·      cell architecture:O(H) は重み付け和で近似(continuous relaxation)。この重み alpha を gradient ベースで最適化する。重みは非負で総和1。softmax で実装。

·      network architecture:

o   network レベルの探索は、各レイヤが解像度により最大4つの隠れ状態を持つ。

o   各解像度の出力は cell レベルの出力を重み付け和で以下のように近似(continuous relaxation)。この重み beta を gradient ベースで最適化。重みは非負で総和1。同様にsoftmaxで実装。

·      beta は、もちろんレイヤー・解像度ごとに存在するが、alpha は全てのブロックで共通。

探索後のアーキテクチャのデコーディング

·      cell architecture:各入力に対するオペレーションは argmax で選択。入力の二つの選択は、各入力に対応する no connnection のオペレーションを除いた全オペレーションに対する alpha らの最大値が大きいものから二つ選択。

·      network architecture:beta は状態遷移確率とみなせるため、最適な状態系列(最適経路)をを求めるアルゴリズム、Viterbi アルゴリズムを用いる。

実験結果

 

Cityscapes データセットに対してアーキテクチャサーチを行い獲得したモデルを用いて、Cityscapes、PASCAL VOC 2012、ADE20K データセットを用いて評価を行った。

アーキテクチャサーチ実装詳細

·      12 layers、セル内のブロック数:B = 5 を使用。

·      フィルター数:feature tensor の幅高さが半分とするときフィルター数を倍にするという一般的な方法に従い、ブロック数をB、sを図2のダウンサンプリングの倍率、Fをフィルター数を制御するハイパラとして B x F x s/4。

·      downsample: stride 2 の convolution、upsample: 1x1 convolution + bilinear upsampling

·      局所最適を防ぐため、alpha, beta は 20 epoch 後から学習。

図4:Cityscapes に対する実験で実際に得られた探索結果。左図のグレーの破線矢印は各ノード間の重みが最大となる矢印を表す。atr: atrous convolution. sep: depthwise-separable convolution。

実装詳細

·      シンプルなエンコーダデコーダ構造を使用。

o   エンコーダ:上記のアーキテクチャサーチで獲得したモデル

§  "stem"部分は 3つの 3x3 convolutions (1つめと3つめはstride 2)

o   デコーダ:DeepLabv3+ [8] と同じものを使用。

モデルの多様性に関する ablation study。

·      フィルター数を制御するハイパラFを増やすと計算コストは大きくなるが良いパフォーマンスとなる。

図5:異なった多様性をもったモデルの validation に対する結果。フィルター数を制御するハイパラFを変化させたときの比較。ImageNet のカラムは ImageNet で pretrain したかを表す。

Cityscapes データセットを用いての他手法との比較。

·      pretraining なしで、ベストなモデル(Auto-DeepLab-L)はFRRN [16]、GridNet [17] を大きく上回る。

·      Cityscapes データセットの coarse annotation データについても使用することで、pretraining なしで PSPNet [4] 等を上回り、55%もの積和演算を削減できた上で DeepLabv3+ [8] 等に匹敵するパフォーマンスを出した。

·      また、PASCAL VOC 2012、ADE20K に対しても ImageNet での pretrain なしで他手法に匹敵するスコア。

図6:Cityscapes test set に対する実験結果。ImageNet のカラムは ImageNet で pretrain したかを表す。Coarse は coarse annotation を使用したかを表す。

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations(CVPR 2019 oral)

論文:https://arxiv.org/abs/1904.07934 、github:https://github.com/nv-tlabs/STEAL

要約

Semantic Segmentation に類似した課題である Semantic Edge Detection において、アノテーションのノイズにより検出エッジが厚みを持ってしまうことを指摘。この課題に対しエッジ細線化のための新たなレイヤを導入すると共に、アノテーションを自動的に補正して高精度化する手法も提案。

提案内容

Semantic Segmentation の双対問題である Semantic Edge Detection(画像からエッジを検出すると共に、各エッジがどの物体の境界なのかをラベル付けする)において、従来手法では検出されるエッジが厚みを持ってしまうという問題がある(図1右の中央列が従来手法による結果)。本論文では、これは学習データにおいて真値として与えられている物体境界が不正確であることが一因であると指摘(図1左)。

図1:アノテーション誤差(左)と、エッジ検出結果の従来手法との比較(右)

この問題に対し、提案手法ではまず、エッジを細線化するための Boundary Thinning Layer と呼ばれる新たなレイヤを提案している(図2中央の黄色領域)。このレイヤでは、CNN が出力したエッジマップにおいて、エッジ上の各点で法線方向にサンプリングを行い、SoftMax を適用することでエッジ以外の点で値が大きくなることを抑制している。これにより、従来手法よりも細く正確なエッジを得ることが可能となる(図1右端列)

図2:提案手法の概要

また、本論文では学習データにおける不正確なアノテーションを補正する手法も提案している。これを Active Alignment と呼び、具体的には動的輪郭モデルを用いて真の物体境界に近付くようにアノテーション境界を徐々に移動させていく(図2右の青色領域)。動的輪郭モデルとしてはレベルセット法を採用しており、学習時にエッジ検出のための CNN のパラメータ更新と、レベルセット法による輪郭の高精度化の2つを交互に繰り返すことで検出モデルと学習データの両面からの改善を実現している。

実験結果

SBD(semantic boundary dataset)と Cityscapes を用いて、従来手法としてよく知られている CASENet およびその改良手法(CASENet-S、SEAL)との比較を行なっている。実験結果を図3に示す。Semantic Edge Detection は検出問題であるため、物体検出などと同じように precision と recall での評価が可能であり、図3における MF(maximum F-measure)とは PR カーブの各点におけるF値の最大値である。MF、AP(average precision)のいずれにおいても、提案手法は従来手法よりも高い精度を達成している。図4はSBDにおける検出結果を定性的に比較したものであるが、提案手法で検出されたエッジは従来手法よりも大幅に細く正確であることがわかる。

図3:実験結果(上:SBD、下:Cistyscapes)

図4:SBDにおけるエッジ検出結果(左から順に、入力画像、CASENetによる結果、提案手法による結果、真値)

また、Active Alignment の効果を図5に示す。図5上段が初期値として与えた不正確なアノテーションであり、下段が Active Alignment により補正を実施した後の結果である。Active Alignment により物体境界が高精度化されていることがわかる。

図5:Active Alignmentの効果(上:補正前、下:補正後)

論文紹介:Instance Segmentation

Mask Scoring R-CNN(CVPR 2019 oral)

論文:https://arxiv.org/abs/1903.00241

要約

従来の instance segmentation 手法は、出力結果の信頼度を classification confidence として出力しているが mask の信頼度と一致していないことを指摘。mask の confidence を出力するブランチを Mask R-CNN [9] に加え適切な mask の信頼度を使用することを提案。

提案内容

·      従来の classification confidence を用いた信頼度の出力の不適切さを指摘。

o   object detection でも言及される問題点。参考:IoU-Net

図1:mask があまり良い結果でないにもかかわらず高い classification score を出力してしまっている例。(MS R-CNNは提案手法が出力するスコアで mask confidence も考慮された上で出力されている。)

·      IoU(Intersection over Union)を直接学習する MaskIoU Head と呼ばれるブランチを Mask R-CNN [9] に追加した、Mask Scoring R-CNN(MS R-CNN)を提案。

o   MaskIoU Head により出力される IoU の予測値を MaskIoU と呼ぶ

o   単に分岐するブランチではなく、RoI Aligin により抽出された特徴マップに加えて予測された mask も加えて入力する。

o   出力の次元数はクラス数。各クラスで IoU を予測する。

o   学習:予測されたマスクを閾値0.5で二値化したマスクと正解マスクの IoU を ground truth として L2損失で学習。

o   推論:MaskIoU を出力し、MaskioU と classification score を掛け合わせることによって各 instance への適切なscoreを出力する。

図2:Mask Scoring R-CNN 全体のアーキテクチャ。

実験結果

·      COCO 2017 に対して実験を行い、バックボーンの種類に依存せず、また FPN(feature pyramid network)や DCN(deformable convolution network)の使用の有無に依存せず安定してスコアを改善することを示した。(図3, 図4)

図3:複数のバックボーンに対する Mask Scoring R-CNN の実験結果の比較。APm は instance segmentation の結果。APb は object detection の結果。(COCO 2017 validation 結果)

図4:FPN、DCN の使用に対する Mask Scoring R-CNN の実験結果の比較。APm は instance segmentation の結果。APb は object detection の結果。(COCO 2017 validation 結果)

·      他手法との比較については図5のように掲載されている。論文中で優劣についての考察は言及されていない。

図5:他手法との instance segmentation 結果の比較。(COCO 2017 test-dev 結果)

論文紹介:Panoptic Segmentation

Panoptic Segmentation(CVPR 2019)

論文:https://arxiv.org/abs/1801.00868

要約

新しいタスクとして、Panoptic Segmentation を提案した論文。新たな評価指標として、Panoptic Quality(PQ)を提案し、既存のセグメンテーションネットワークに事後処理を加え、PQ を出し、人間との精度比較やベンチマークを構築した。

提案内容

Instance Segmentation と Semantic Segmentation を足し合わせた新しいタスク、Panoptic Segmentation を提案。数えられるクラス(人や車)を Thing クラス、数えられないクラス(空や道)を Stuff クラスと定義し、それぞれに対し Instance / Semantic Segmentation を行う。

Semantic Segmentation 同様、出力は、入力画像と同じサイズで、各 pixel にクラスのラベルが振られているもの。ただし Semantic Segmentation と異なり、Thing クラスに対しては、個々の物体を正しく pixel レベルで認識する。Instance Segmentation では、物体間での overlap は発生するが、Panoptic Segmentation では、1つの pixel が2つのクラスカテゴリーを持つことはない。

図1:異なる Segmentation の比較。右上から Semantic Segmentation 左下に Instance Segmentation、そして右下に、それらを統合した Panoptic Segmentation。

新しい評価指標として、Panoptic Quality(PQ)が提案された。PQとは数式では以下のように表される。Recognition Quality(RQ)は物体検出などで使われる、F1 スコアで、SQ は Semantic Segmentation で使われる、mIoU となっており、それらを掛け合わせたものが、PQ となっている。

図2:新タスクの評価指標として提案された、PQ。Instance Segmentation の精度を表現する RQ と Semantic Segmentation の精度を表現するSQから成る。

実験結果

既存の Instance Semgmentation と Semantic Semgmentation のネットワークを使用し、Cityscapes, ADE20k, Vistas データセットでの評価をし、ベンチマークを構築し、人間のアノテーション精度と比較を行った。

図3:Cityscapes データセットで、Semantic Segmentation に PSPNet [4]、Instance Segmentation に Mask R-CNN [9] を使い比較をした結果

図4:ADE20k データセットで、2017 Places Challenge の優勝者の手法を使い、精度の比較をした結果

図5:Vistas データセットで、LSUN 17 Segmentation Challenge の優勝者の手法を使い、精度を比較した結果

Panoptic Feature Pyramid Network(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.02446

要約

既存の Panoptic Segmentation ネットワークは backbone を統一していないネットワークが多いが、Mask R-CNN [9] に少し改良を加えることによって、Semantic Segmentation に応用できるということを主張し、結果的に backboneの統一を行い、end-to-end なPanoptic Segmentation ネットワークを作った。

提案内容

Mask R-CNN [9] に Semantic Segmentation Branch と言う新しいブランチを付けることによって、Instance Segmentation だけでなく、Semantic Segmentation にも対応できるようにした。

Semantic Segmentation Branch は FPN のサイズの異なる特徴マップを入力とし、それぞれに対して3x3 conv, GN, ReLU 最後に bilinear upsampling を行い、各サイズの特徴マップを入力画像比 1/4 のサイズに統一する。最後にサイズが同じの特徴マップに対して、1x1 conv, blinear upsampling、最後に softmax を行い、入力画像のサイズと同じにすることによって、pixel レベルでの classification を行う。

図1:Semantic Branchの構成図。FPN の出力(図左)に対して、3x3 conv などを行い、出力のサイズを入力画像比1/4に upsampling し、1x1 conv, bilinear upsampling などを行い入力画像と同じサイズにする(図右)。

Lossの定義は

·      Classification Loss: Instance Branch

·      Bounding Box Loss: Instance Branch

·      Mask Loss: Instance Branch

·      Cross Entropy: Semantic Branch

を適用していて、Instance BranchのLossとSemantic BranchのLossはパラメータλによってバランスが保たれている。

前半で紹介したPanoptic Segmentationの論文と同様に、結果がOverlapした場合には、以下のポリシーを用いて処理している。

1) Instance同士でのOverlapでは、NMS同様Confidence Scoreを元に片方を抑制する

2) ThingクラスとStuffクラスでOverlapが発生した場合は、Instanceの結果を優先する

実験結果

Mask R-CNN に Semantic Branch を付けた Semantic FPN と、既存 Semantic Segmentation モデルでの精度比較と、提案手法と既存 Panoptic Segmentation モデルでの精度比較を、COCO, Cityscapes のデータセットを用いて行なった。

Semantic FPN と既存手法での精度比較を Cityscapes で行った結果、下の図の様に、既存手法と同等の精度が出ることが確認された。既存手法の多くに dilated conv が使われている中、Semantic FPN は Semantic Segmentation 特有のオペレーションを使用していないため、比較的に少ないメモリー使用量で、backbone 選択の制約を低くした。

図2:Semantic Branch を Mask R-CNN に付け、既存の Semantic Segmentation のネットワークと mIoU を用いて性能比較をした結果。backbone 中にある「D」は dilated conv を指す。

最終的に COCO を用いて PQ で評価した結果、既存の single network を大幅に上回る精度が出た。特に Thing クラスでの精度向上が大きく、これはベースとなっている Mask R-CNN が Instance Segmentation のネットワークだからと著者は言っている。

図3:既存 single network と PQ を用いて性能評価をした結果。特に Thing クラスでの性能向上が大きく、統合された結果では 8.8pt 向上している。

最後に、定性的に評価した結果は以下の様になっている。

図4:COCO(図上)とCityscapes(図下)に対して Panoptic Segmentation を行なった結果。

UPSNet: A Unified Panoptic Segmentation Network(CVPR 2019 oral)

論文:https://arxiv.org/abs/1901.03784

要約

Mask R-CNN [9] に新しい Head を追加し、Semantic Segmentation に応用し、双方の結果をマージするために新しい Parameter-free Head、Panoptic Head を提案した。既存の single network と separated network と性能を比較したところ、同等、もしくは既存手法より高い精度を end-to-end のネットワークで出した。

提案内容

deformable conv を使った Segmentation Head を提案し、Instance Segmentation モデルの Mask R-CNN [9] を Semantic Segmentation に応用した。Semantic Head と Instance Head の出力は parameter を必要としない、Panoptic Head によってマージされ、それらの結果が最終的な出力となる。

図1:全体の構成図。Mask R-CNN に新たに Semantic Head を追加することによって、Semantic Segmentation を行い、それらの結果をマージする Panoptic Head を新たに提案し end-to-end なネットワークを作った。

Semantic Head の目的は、Stuff クラスを正しく認識し、かつ Thing クラスの精度向上にも貢献することである。構造は以下の様になっており、deformable conv をFPNの出力にまず行い、そして入力画像比 1/4 まで upsampling される。全ての特徴マップのサイズを揃えた後、チャンネル方向に concat、1x1 conv 最後に softmax を行い、pixel レベルの classification を行う。

図2:Semantic Head の詳細図。FPN の出力を入力とし、deformable conv を行い、upsampling をし 1/4 のサイズに揃える。これらの結果が Stuff クラスと Thing クラスの予測に使われる。

Instance Head は Mask R-CNN と同じで、それら両方の結果が Panptic Head によって統合される。Semantic Head の出力は、Thing クラスの予測と Stuff クラスの予測に分かれ、Xthing と Xstuff として下の図では表現されている。Xstuff はそのままPanoptic Logits にマッピングされ、Xthing は GT の bounding box 座標をもとに cropping され、Xmask として Thing クラスの予測に使われる。Xmask と Yi は同じサイズに揃えた後、element-wise に足し、その結果が Panoptic Logits の Thing クラスの予測にマッピングされる。

図3:Panoptic Head の詳細図。Xthing と Xstuff は Semantic Head の出力で、Yi は Instance Head の出力。それらの結果は統合され、最終的に Panoptic Logits として出力される。

実験結果

COCO データセットを用いた、既存 Panoptic Segmentation との性能を比較。

図4:COCO2018 test-dev での性能比較の結果。上の3つは leader board の上位3つのモデル。

Cityscapes データセットを用いた、既存 Panoptic Segmentation との性能を比較。図5:Cityscapes データセットでの 既存 Panoptic Segmentation との性能比較。COCO と書いてあるモデルは、COCO で pre-train 済みのモデルを使用。

おわりに

今回は Semantic Segmentation、Instance Segmentation、Panoptic Segmentation を含めた segmentation に関する最新論文をご紹介しました。segmentation タスクへの手法が発達してきたことで、Panoptic Segmentation といったより高難易度な新しいタスクへのアプローチの提案が行われてきており、興味深いです。 DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

[1] J. Long, et. al. Fully convolutional networks for semantic segmentation. CVPR 2015

[2] O. Ronneberger, et. al. U-net: Convolutional networks for biomedical image segmentation. MICCAI 2015

[3] V. Badrinarayanan, et. al. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv 2015

[4] H. Zhao, et. al. Pyramid scene parsing network. CVPR 2017

[5] L.-C. Chen, et. al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. ICLR 2015.

[6] L.-C. Chen, et. al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI 2017

[7] L.-C. Chen, et. al. Rethinking atrous convolution for semantic image segmentation. arXiv 2017

[8] L.-C. Chen, et. al. Encoder-decoder with atrous separable convolution for semantic image segmentation. ECCV 2018

[9] K. He, et. al. Mask rcnn. ICCV 2017

[10] P. O. Pinheiro, et. al. Learning to segment object candidates. NIPS 2015

[11] Y. Li, et. al. Fully convolutional instance-aware semantic segmentation. ICCV 2017

[12] L.-C. Chen, et. al. Masklab: Instance segmentation by refining object detection with semantic and direction features. arXiv 2017

[13] A. Kirillov, el. al. Instancecut: from edges to instances with multicut. CVPR 2017

[14] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. CVPR 2017

[15] H. Liu, et. al. Darts: Differentiable architecture search. ICLR 2019

[16] Z. Yu, et. al. CASENet: Deep Category-Aware Semantic Edge Detection. CVPR 2017

[17] T. Pohlen, et. al. Full-resolution residual networks for semantic segmentation in street scenes. CVPR 2017

[18] D. Fourure, et. al. Residual conv-deconv grid network for semantic segmentation. BMVC 2017

続きを読む

 

2019/07/17 18:56

コンピュータビジョンの最新論文調査 Object Tracking 編

Takumi Karasawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョン研究開発をしている唐澤(@Takarasawa_)です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回はObject Tracking編として唐澤 拓己が調査を行いました。

過去の他タスク編については以下をご参照ください。

·      Human Recognition 編

·      3D Vision 編

·      キーポイント検出の手法を用いた物体検出編

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主にObj ect Tracking技術に関する最新論文を取り上げます。

Object Tracking の位置付け

Object Tracking とは物体追跡という意味で、動画中で変化・移動していく物体を追跡するタスクです。動画中の物体を認識する上で基本的なタスクといえ、様々な応用面がありながらも、未だにチャレンジングなタスクとして存在しています。

Object tracking は、動画像中で指定されたひとつの物体を追跡する Single Object Tracking(SOT)、複数の物体を同時に追跡する Multiple Object Tracking(Multi-Object Tracking、MOT)に大別され、与えられる動画像の時間(フレーム数)が短いもの(Short-term)と長いもの(Long-term)でさらに異なるアプローチが取られることが多いように感じます。動画像の長さによりアプローチが異なるのは、時間が長い動画像においてある物体を見失った際(見失ったあとの全ての時間を失敗とみなされるため)低い評価を得てしまうことに起因して occlusion(物体が他のものに隠れてしまうこと)への対策等に重きが置かれるためだと思われます。

今回の論文紹介では最も中心的な、Short-term の SOT タスクに対して提案されている論文を紹介いたします。(以下、Object Tracking とはこのタスクのことを指して述べます。)

前提知識

Object Tracking

動画像と、その動画像の初期フレームにおける物体の位置が矩形(bounding box)として与えられ、次フレーム以降の同一物体の位置を bounding box として検出するタスクです。

このタスクの難しい点は、追跡する中で対象物体の外観が未知の状態へ変化していくこと(照明条件の変化や物体そのものの変形、見えない側面への視点の変化など)と、追跡中に生じる occlusion や他物体の交わりなどの外的影響に大別される印象です。また、物体検出との大きな違いとして基本的にクラスに依存しない物体全般へのタスクでありつつ、同クラスであっても異なる物体かの判断が必要な繊細な検出であることが挙げられるかと思います。

また、動画タスクの需要のひとつとして精度だけでなくリアルタイム性が重視されることが多く、速度と精度のバランスについてはよく議論される内容です。

アプローチ

Object Tracking に対して深層学習を用いた近年の主要なアプローチに、対象物体に対してオンライン学習を行うCorrelation Filter 系アプローチ、オフラインで汎用的な類似性マップを出力するための学習を行うSiamese Network 系アプローチがあり、今回紹介する論文に関わりが深いためそれぞれ概要を紹介いたします。他にもそれらを複合的に使用したものや物体検出タスクと併せてタスクを解くアプローチなど手法は多岐にわたります。

参考:https://github.com/foolwood/benchmark_results/

Correlation Filter 系アプローチ

Correlation Filter系アプローチは、基本的には与えられた目標画像(target template)に対してオンライン学習を行うことでターゲット特有の追跡モデルを獲得するアプローチのひとつで、得られた目標画像から正例と負例のサンプリング、それらのデータを用いて目標画像特有の識別器を学習、という流れであることが一般的です。オンライン学習により目標画像特有の識別器を学習するアプローチは比較的昔からある手法で、識別器に Boosting や SVM を用いる手法も存在します。その中で特にCorrelation Filter 系アプローチは、探索画像(search region)において物体に該当する場所をフィルタにより畳み込み演算を行った時に大きな値となるように学習を行います。

物体周辺からランダムサンプリングされていた従来手法に対して、このアプローチではまずピクセル単位でシフトさせることで密にサンプリングを行います。密にサンプリングされた画像群は巡回行列として扱うことができ、フィルタを用いた巡回行列に対する畳み込み演算(巡回畳込み)は、離散フーリエ変換を用いて簡単に計算できるという特性を用いて高速なオンライン学習を実現しています。(畳み込み演算と CNN などに用いられる畳み込み(convolution)は厳密には異なる計算です。)

現在は学習済み識別モデルにより得られた複数解像度の特徴マップに対してフィルタの学習を行うことが主流となっています。また、オフライン学習との複合的なアプローチも見られます。

Siamese Network 系アプローチ

Siamese Network 系アプローチは、Object Tracking の問題を、目標画像(target template)から抽出される特徴表現(feature representation)と探索画像(search region)から抽出される特徴表現間の、相互相関(cross-correlation)により得られる汎用的な類似性マップ(similarity map)を学習することで解決を図ります。

ネットワーク構造は以下の図のように2つのネットワークで構成されており、Siamese Networkとはこの特徴的な2つのネットワークで構成される構造を指し、Object Trackingタスクでなくても用いられる言葉です。一方のネットワークは目標画像から、他方のネットワークは探索画像から特徴マップを抽出し、目標画像から抽出された特徴マップを用いて探索画像から抽出された特徴マップを畳み込むことで類似性マップを獲得します。応答マップ(response map)と呼ばれることもあります。学習の際は類似性マップが正解となるように学習を行い、追跡の際は類似性マップを元に追跡を行います。

このアプローチの基本となる手法として、SiamFC(ECCV2016 workshop)[1] と SiamRPN (CVPR2018)[2] の2つの手法が存在します。SiamFC はより直感的な考え方で、類似性マップは正解の存在する場所のグリッドの値が大きくなるように学習されます。SiamFCはこのアプローチが類似性マップを計算する処理も畳み込み(convolution)で表現されるため全体の構造が fully convolutional(FC)であることに名前が由来しています。他方で SiamRPN は、物体検出手法の代表的な手法のひとつである Faster R-CNN 中で使用されている物体候補領域を予測する region proposal network(RPN)を参考に、各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは、各アンカーの物体らしさとアンカーの bounding box の正解への座標と幅と高さへの補正値を出力するように学習します。基本的には後者のほうが精度が良くなる傾向にあります。これらの2つの手法の提案された年代から、まだこれらの Object Tracking 手法の発達が浅いことがわかります。

SiamFC アーキテクチャ図。各特徴量を共通のネットワークφを用いて取得し、畳み込みを行うことで類似性マップを出力しています。( [1] より引用)

SiamRPN アーキテクチャ図。SiamFC と同様に Siamese Network を通したあと region proposal network のように物体らしさを出すブランチと bounding box の回帰を行うブランチにより結果が出力されます。( [2] より引用)

全体的な特徴として、Correlation Filter系アプローチと異なり基本的にはオフラインで学習を行い追跡時には重みを固定することが多いため(追跡時に学習を行わないため)、近年の高精度な手法らの中では追跡速度が速いことがあげられます(参考)。他方で欠点としてオンラインで目標画像の学習を行っていないため、目標物体と類似した物体のような紛らわしいものという意味のディストラクタ(distractor)に弱いことがよく述べられます。現在ではディストラクタなどの問題に対処するためオンライン学習をとりいれた手法や、特にディストラクタ認知モジュール(distractor-aware module)を備えた DaSiamRPN(ECCV2018)[3] などの手法も提案されており DaSiamRPN は今回紹介する CVPR2019 の論文中でも state-of-the-art として比較されることが多い手法となっています。

Siamese Network 系アプローチは Object Tracking のリアルタイム性の需要から、精度と速度のバランスの良さについて言及されることが多く、近年発達してきており今回紹介する論文も大半がこちらです。

参考文献

[1] Luca Bertinetto, Jack Valmadre, João F. Henriques, Andrea Vedaldi, Philip H.S. Torr. "Fully-Convolutional Siamese Networks for Object Tracking." ECCV workshop (2016)

[2] Bo Li, Wei Wu, Zheng Zhu, Junjie Yan. "High Performance Visual Tracking with Siamese Region Proposal Network." CVPR (2018 Spotlight)

[3] Zheng Zhu, Qiang Wang, Bo Li, Wu Wei, Junjie Yan, Weiming Hu."Distractor-aware Siamese Networks for Visual Object Tracking." ECCV (2018)

関連するデータセット

·      OTB(object tracking benchmark)2013, 2015:VOTと共にデファクトスダンダートとされるデータセット

·      VOT(visual object tracking)2013〜18:ICCV/ECCVで毎年開催されるコンペで公開されるデータセット。ICCV2019もコンペ開催中。

o   2014から bounding boxが回転したものを用いられるようになった。(通常は画像軸と平行な bounding box)

o   2018から long-termのデータセットも導入

·      LaSOT(large-scale single object tracking):最も新しく導入されたデータセット(ECCV2018)

·      他に TrackingNet(2018)、UAV123(2016)など。

動画の長さと動画数についての各データセットのプロット(LaSOTより引用)

評価指標

·      AUC(area under curve):正解とみなす overlap の threshold を変化させてできる precision の変化をプロットした際の曲線の下側の面積(area under curve)。いずれの threshold でも precisionが大きいほうが良いため大きいほうが良い。

·      Robustness:VOTで使用される評価指標。追従中に overlap が0になってしまったときを追従失敗とみなし、1つの動画シーケンスに対して何回追従失敗するか。

·      EAO(expected average overlap):VOTで使用される評価指標。accuracy と robustness を組み合わせた概念。複数動画長の各条件で追跡のoverlapの平均を算出し、それを全条件にて平均したスコア。ただしこの時追跡失敗後の overlapは全て0とみなされる。

論文紹介

【SiamMask】 "Fast Online Object Tracking and segmentation: A Unifying Approach"(CVPR 2019)

論文:https://arxiv.org/abs/1812.05050

要約

従来の SiamFC, SiamRPN に Mask を出力するブランチを追加し、object tracking と semi-supervised video object segmentation を同時に解く SiamMask を提案。また、併せて segmentation mask を用いて適切な bounding box を付与することで tracking のスコア自体も向上。

提案内容

·      従来の SiamFC, SiamRPN に Mask を出力するためのブランチを追加することで、object tracking と semi-supervised video object segmentation を同時に解く SiamMask を提案

·      Siamese network において Target template と Search region からそれぞれ抽出される feature map 間の畳込み演算は depth-wise convolution を採用し、multi-channel の response map を使用する。(従来は通常の畳込みを行い single-channel の response map が出力される。)

全体のArchitecture

(a)three-branch 構造. SiamRPN は元々2つのブランチが存在するためこちらに該当。 

(b)two-branch 構造. SiamFC は元々が1つのブランチしか存在しないためこちらに該当。

·      *d の部分が depth-wise convolution.

·      Mask ブランチにおける hφ は1x1 conv を2つ重ねた2 laye rの conv net。mask は各グリッドで直列化された状態で表現される。

(画像は本論文より引用)

Mask ブランチのアウトプットから Mask 画像への Upsampling

·      高解像度レベルの特徴マップを取り入れて refinment しつつ Upsampling を行う

(画像は本論文より引用)

Upsampling の際、高解像度を取り入れる部分の詳細 Architecture(図は U3 について)

(画像は本論文より引用)

Mask ブランチからアウトプットされるスコアマップ

·      各グリッドに該当グリッドを中心としたTarget画像サイズのMaskが格納される

(画像は本論文より引用)

Bounding box の付与方法。Box ブランチによる出力も行われるが、Maskを用いてより詳細な回転を含む適切な bounding boxの付与を付与する。

·      赤: Min-max 通常の画像軸に平行な外接矩形。

·      緑: minimum bounding rectangle(MBR)。segmentation mask を包含する bounding box の中で最小となる box の選択。

·      青: *従来研究で提案された optimization によりえられる bounding box。ただし計算コストが非常に大きい。

*M. Kristan, et al. The visual object tracking vot2016 challenge results. (ECCV  2016)

(画像は本論文より引用)

学習に使用する損失関数

·      g は depth-wise convolution。

·      h は Mask ブランチ. m はそれにより出力される mask。

·      yn は ±1。RoW(各グリッドのこと)が mask 部分に該当するかどうか。

·      yn がポジティブ(1+yn は yn がネガティブなときに0)な RoW に対してのみ全ピクセルについて binary logistic regression loss を算出して総和を取る。

·      2ブランチのときと3ブランチの時の全体の損失。mask 以外に関しては通常の SiamFC、SiamRPN のロスでsimはsimilarity mapのロス、score, box はRPNのそれぞれのロスを表す。λ は影響度の調整を行うハイパーパラメータ。

実験結果

VOT-2016, VOT-2018 を用いて visual object tracking の評価。

bounding box の付与の仕方の違い。(VOT-2016)

·      比較対象の oracle の表記は ground truth 情報を用いたもので、各手法のスコアの上限の評価に相当しているとのこと。

o   Fixed:アスペクト比を固定した場合の ground truth。SiamFC に対応。

o   Min-max:画像軸並行の制約条件。SiamRPN に対応。

o   MBR:SiamMask に対応。

·      従来の手法は ground truth が回転された bounding boxでありながら、画像軸に平行な bounding box を出力している。

·      binary mask を使用するだけで画像軸に平行な bounding box の出力に対して大幅な差をつけられる。

(表は本論文より引用)

他手法との比較

·      SiamMask:3ブランチ(SiamRPNの拡張)

·      SiamMask-2B:2ブランチ(SiamFCの拡張) 

·      従来手法に対して大きな差で上回る。

(表は本論文より引用)

Siam RPN++: Evolution of Siamese Visual Tracking with Very Deep Networks (CVPR 2019 oral)

論文:https://arxiv.org/abs/1812.11703

要約

Siamese network 系アプローチのバックボーンは従来 AlexNet 等モデルであり、ResNet 等のモデルでは精度が落ちることが知られている。それを学習時にターゲットが中心に偏らないサンプリング方法で対処し、multi-layer の類似度マップ、depth-wise な畳み込みを用いて深いモデルの良さをさらに発揮するモデルを提案。

提案内容

·      Siamese network 系アプローチのためのサンプリング方法の提案(spatial-aware sampling strategy)

o   Response map による追従では双方の特徴の不変性(translation invariance)が必要。

o   他方で深いネットワークは、ネットワークを深くするために padding が多く含まれており、これが translation invariance を崩している。

o   また通常、学習の際に response map の中央にターゲットが来るような学習がされており、そのため translation invariance が崩れているネットワークでは中心に response がでやすくなるバイアス(center bias)が学習されてしまっている。

o   これに対して学習のサンプリングの際にランダムに適切な大きさの shift を行う spatial-aware sampling strategy を提案。

·      深いモデルをさらに効果的に使用するため multi-layer の類似度マップを使用する multi-layer aggregation を提案。

o   tracking は粗い特徴から細かい特徴まで見るべきだが、従来はネットワークが浅かったため有効に利用できていなかった。

·      depth-wise cross correlation filter の使用。(SiamMaskと同一の提案)

o   Up-channel していた SiamRPN に比べ、パラメータの数が減り、パラメータの数のバランスがよくなるとのこと。

o   学習の収束が容易となる。

spatial-aware sampling strategy

·      学習時のサンプリングの際にランダムなshiftを加えて学習を行った結果。rand shift range はランダムな shiftの範囲の最大値。

·      データセットごとに適切なshift(VOTの場合、±64)が存在することを指摘。

(図は本論文より引用)

multi-layer aggregation

·      各層の特徴マップから得られる response mapは重みづけて総和。 

·      (画像は本論文より引用)

depth-wise cross correlation layer と従来の cross correlation layer との違い。

(a) SiamFCにおける cross correlation layer 

(b) SiamRPNにおける cross correlation layer 

(c) 提案された depth-wise cross correlation layer 

(画像は本論文より引用)

実験結果

OTB2015データセットを用いてバックボーンによる精度の比較。

·      横軸は ImageNetに対する分類精度を表す、top1 accuracy on ImageNet(論文中では top1 accuracyとあるが図は top1 errorとあり記述ミス。)

·      分類タスクと同じ傾向でバックボーンによる精度向上を行えるようになったことが示唆される。 

(グラフは本論文より引用)

multi-layer、depth-wise correlation に関する ablation study。

·      depth-wise cross correlationは全体的に精度向上に寄与。

·      multi-layerに関しては、

o   2種の組み合わせ:いずれの組み合わせでも精度向上してほしいが、conv4独立に勝ててるのはconv4, 5の組み合わせのみ。

o   3種の組み合わせ:最も良い精度となり multi-layer aggregationの有効性を示唆。

(表は本論文より引用)

depth-wise cross correlation による response mapの出力の図示

·      tracking はクラス依存しないタスクであるが、クラスごとに反応する response mapが異なる。

(画像は本論文より引用)

他手法との比較

·      精度に関しては上昇しているが、その反面robustnessは下がる。

(表は本論文より引用)

速度と精度との比較

·      mobile netにも適用

(グラフは本論文より引用)

他データセット、UAV123, LaSOT, TrackingNetへも実験を行っており、また、VOT2018 long-termへのtracking performanceについても論文中では実験され比較されている。

Deeper and Wider Siamese Networks for Real-Time Visual Tracking (CVPR 2019 Oral)

論文: https://arxiv.org/abs/1901.01660

要約

Siamese network系アプローチのバックボーンは従来 AlexNet 等モデルであり、ResNet 等のモデルでは精度が落ちることが知られている。その原因を詳細に解析し、Paddingの悪影響を対処する新モジュールの提案をメインとした、deep/wide なモデルを提案する。

提案内容

·      分析:Siamese network系アプローチの(ResNetやInceptionなどへの)バックボーンの単なる置換の際のパフォーマンスの低下に関する詳細な定量的分析、(特にpaddingに対する)定性的分析。

o   stride、最終層におけるreceptive field、出力するfeature mapのサイズに対する詳細な分析。それを踏まえたネットワーク構造へのガイドラインの提示。

o   特にPaddingでは、Siamese networkで response map を出力する際のpadding付近の他部分に対する一貫性のなさを定性的に指摘。

·      新しいResidual モジュールの提案:従来の residual unit や inception module からpadding の影響する部分をクロッピングした Cropping-Inside Residual (CIR) Units 等の提案。

o   Cropping-Inside Residual (CIR) Units

o   Downsampling CIR (CIR-D) Units

o   CIR-Inception Units

o   CIR-NeXt Units

·      ネットワークの提案: receptive field size、 strideの分析とともに、CIR Unitモジュールを含めたネットワークを提案

Cropping-Inside Residual (CIR) units、Downsampling CIR(CIR-D)units

(a)通常の residual unitの構造:3層の conv layer + skip connection。 

(a')CIR unitの構造:residual unit の出力後、padding の影響を受ける部分をクロッピングする。

(b)通常の down sampling residual unitの構造:skip connection部分についても conv の stride を2にして down sampling される。 

(b')CIR-D unitの構造:residual unit の内部では down sampling せず、出力後(a')と同様に padding の影響を受ける部分をクロッピングしたあと、maxpooling によって down sampling するようにする。

(画像は本論文より引用)

他モジュール図

·      Inceptionモジュール、ResNeXtについても同様にクロップするモジュールを提案。

(画像は本論文より引用)

response mapの可視化

·      左上がpaddingバイアスの小さいような物体が中心に位置している状況。

·      左上以外について従来のresnetアーキテクチャでは適切に検出できていない。

(画像は本論文より引用)

実験結果

OTB-2015、VOT-2016、VOT-2017を用いて評価。

ベースラインである AlexNet をバックボーンとした場合との比較。

·      いずれもベースラインの精度を提案手法が上回る。

(表は本論文より引用)

ベースラインである AlexNet のバックボーンを ResNet と単に置換した場合と提案手法との精度比較。

·      実際に単に置換した場合では、 AlexNet の場合より悪くなるが、提案手法では精度が向上している。

(画像は本論文より引用)

他手法との比較

(表は本論文より引用)

ATOM: Accurate Tracking by Overlap Maximization(CVPR 2019)

論文:https://arxiv.org/abs/1811.07628

要約

従来のオンラインで学習される target classifier では高次な知識を要する複雑なタスクには限界があることを指摘し、それに加え、高次な知識をオフラインで学習する target estimator を組み合わせることで正確な tracking を実現。

*IoU-Netの前提知識を多く用いるため、IoU-Netの論文についても後に紹介する。

提案内容

物体検出タスクで提案された、検出された bounding box と ground truth の IoU(Intersection over Union)を予測する IoU-Net、それにより予測されたIoUを目的関数とし、IoU が最大となるように refinementを行う手法を tracking に応用し、target estimator を構築する。

target estimator

·      IoU-Net はクラス依存なしで汎用的に行うことは難しく、現論文では class ごとにモデルの学習を行っている。

·      そのため、IoU-Netの入力に target image を特徴として加えることで target 特有の IoU-Net となるように学習を行う。

o   modulation based network を追加することで、target image の特徴は modulation vector として付加させる形で取り入れる。

target classifier

·      target 画像に対してオンラインで学習し、targetかどうかの分類を行う。出力は 2D グリッドマップ。

·      conv の2層構造で、オンライン学習のため Gauss-Newton法と、Conjugate Gradientを組み合わせて解く。

オフライン学習済み target estimator と target classifier のオンライン学習を組み合わせた Tracking の流れ

1.    target classifier の適用。粗く target の存在する場所を特定する。

2.    候補領域の生成。confidence が最大となる座標、ひとつまえの bounding box の幅と高さから最初の候補領域を生成する。このとき局所最適を避けるため一様分布のノイズを加えて10通りの候補領域を生成する。

3.    IoU-Net ベースのリファインメントを行なった後、IoU スコアが高い3つの bounding box を平均してtracking 結果とする。

4.    結果を用いてオンライン学習により target classifier を更新する。

テスト時の全体図

·      IoU predictor は reference image(target image)を modulation vector として取り入れる。

·      Classifier はターゲット画像に対してオンラインで学習がされている。

(画像は本論文より引用)

全体のアーキテクチャ詳細図

(画像は本論文より引用)

実験結果

他手法との定性的な実験結果の比較

·      DaSiamRPN は先にも紹介した Siamese network 系アプローチの最も良いとされる手法。UPDT はcorrelation filter に基づく手法。

·      UPDT は target state estimation コンポーネントがないためアスペクト比が異なるものを扱えない。

·      DaSiamRPN は bounding box regression を採用しているが変形や回転に弱い。

(画像は本論文より引用)

様々なデータセットによる比較。全てのデータセットで最も良い精度となっている。

·      NFS、UAV

(グラフは本論文より引用)

·      Tracking Net

·      LaSOT

·      VOT2018

(表は本論文より引用)

【IoU-Net】 "Acquisition of Localization Confidence for Accurate Object Detection"(ECCV 2018)

論文:https://arxiv.org/abs/1807.11590

*先に紹介した ATOM に与える影響が非常に大きいため紹介。

要約

通常のCNNベースの物体検出手法は classification confidence は出力されるが、localization の confidence については出力されず物体検出の confidence として乖離があることを指摘。検出された bounding box と ground truth の IoU を予測する IoU-Net を提案する。

提案内容

·      検出された bounding box と ground truth の IoU を予測する IoU-Net を提案

o   出力される IoU = localization confidence を得ることができる。

·      予測したIoUを利用したIoU-guided NMSを提案。

·      予測したIoUを目的関数とした、最適化ベースの bounding box refinement 手法を提案

o   この中で、refinement を行うための、出力に対して bbox の座標を用いて微分可能な Precise RoI Pooling を提案。

classification scoreとlocalization scoreの不一致についての具体例

(画像は本論文より引用)

IoU-Net アーキテクチャ 

·      RPNで検出される RoIに 小さい揺らぎを与え IoU を ground truth として IoU ブランチを学習。

(画像は本論文より引用)

IoU-guided NMS

·      classification score でなく、localization confidence の高いものから優先した NMS(non-maximum suppression)。

·      通常の NMS と同様に thresholdを超えて重複ボックスを消す際は、classification scoreは高い方を採用する。

·      要するに結果として、 NMS で bounding box をマージする際、localization confidence, classification confidence の良い方を互いに採用し、bounding box は loacalization confidence が高いものを採用するということ。

Optimization-based bounding box refinement

·      localizaton confidence score が最大となるように、勾配を用いて bounding box の座標の補正を行う。

·      そのため 出力に対して bbox の座標を用いて微分可能な Precise RoI Pooling を提案。

Precise RoI Pooling

·      bilinear でfeature map を補完して連続値の座標に対して特徴量の値を定義。その後連続座標に対して(average poolingの場合でいえば)積分して面積で割ることでpoolingを行う。

(画像は本論文より引用)

おわりに

今回は Object Tracking という分野におけるコンピュータビジョンに関する最新論文をご紹介しました。 冒頭でも述べましたが、Object Tracking はまだまだ発達途上な印象を受けます。今回紹介した Siamese network 系アプローチについても、ResNet 等のバックボーンの使用が Oral に取り上げられており、深いモデルによる特徴抽出の恩恵を享受することの難しさが分野の共通認識として存在していたことが感じ取られます。とはいえまだまだこれからも発達し様々な場面で利用されてくると考えられます。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

 

2019/07/09 15:00

CVPR 2019参加レポート

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。DeNA AIシステム部の李天琦(leetenki)です。 DeNAのAIシステム部では、物体検出、姿勢推定、アニメ生成等、様々なComputer Vision技術の研究開発に取り組んでいます。また、AIシステム部では世界の最新技術トレンドにキャッチアップするために、年一回国際会議に自由に参加できる機会が設けられています。 今回は、アメリカ ロングビーチで開かれたComputer Visionに関する世界トップの国際会議の一つである「CVPR 2019」に、AIシステム部コンピュータビジョンチームのメンバー7名 (加藤直樹、葛岡宏祐、洪嘉源、鈴木智之、中村遵介、林俊宏、李天琦)で参加してきましたので、その内容について紹介したいと思います。また、今回は聴講としてだけでなく、DeNAからコンペ入賞も一件あり、DSチームの加納龍一と矢野正基の2人が発表してきたので、その様子についても紹介したいと思います。

なお、今回のレポートは加納龍一、洪嘉源、林俊宏、矢野正基、李天琦の5名で協力し執筆しています。

CVPR2019とは

CVPRの正式名称は「Computer Vision and Pattern Recognition」で、ECCV、ICCVと並ぶComputer Vision分野における世界三大国際会議の一つです。ちなみにComputer Visionというのは人間の視覚をコンピュータを用いて表現することを目指した技術分野で、画像や映像認識技術全般を指しています。そのComputer Visionの分野において世界三大国際会議の一つがこのCVPRです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使うことが当たり前になってきているので、CVPRでもDeep Learningの手法を応用した論文が大半を占めるようになりました。

今年の開催期間は6/16〜6/20の5日間です。最初の2日は特定のテーマに絞ったTutorial & Workshopで、後半の3日間がMain Conferenceです。また、Main Conferenceの3日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界をリードするIT企業の最新の研究成果や製品などが展示されました。

開催場所

今年の開催場所はアメリカカリフォルニア州のロングビーチで、Long Beach Convention & Entertainment Centerという、北アメリカ最大級のイベント施設を貸し切って会議が開かれました。会場の立地も良く、ロングビーチの海が一望できる最高のリゾート地でした。

[ 会場のLong Beach Convention & Entertainment Center ]

参加統計

近年AI技術への注目の高まりを受けて、CVPR参加者は年々増加し、今年は参加者も採録論文数も過去最高となりました。統計によれば、今年の投稿論文数は5160本で、採録論文数は1294本でした。そして今回のCVPR参加人数は9227人と、CVPR 2018の時と比べて1.5倍以上にものぼっています。ここ数年の増加率があまりにも高すぎて、「このまま増え続ければ2028年には投稿論文数100億本になる」と主催者も冗談交じりに話していました。

[ 参加者の統計 ]

[ 参加者の国別統計 ]

[ 投稿論文数の統計 ]

セッションの様子

CVPRに採録された論文のうち、評価の高かったものはOralと呼ばれる口頭発表形式のセッションで発表されます。例年であれば、論文の内容に応じて発表時間が長いLong Oralと短いShort Oralに更に分割されますが、今年は論文数があまりにも増えすぎたために全て発表時間5分のShort Oralとなりました。また、Oralを含めた全採録論文はPosterセッションで展示され、そこでは著者と直接ディスカッションを行うことができます。

[ Oralセッションの様子 ]

ネットワーキングイベント

Main Conference期間中、初日の夜に立食形式の「Welcome Dinner」と、2日目の夜に「Reception Party」という2つの公式ネットワーキングイベントが開催されました。Reception Partyでは、会場付近のEntertainment Centerを貸し切ってのお祭りが行われ、世界各国の研究者達と親睦を深めることができました。

[ Reception Partyの様子 ]

キーワード分析

今年採録された論文のタイトルから、頻出キーワードを抽出してみたところ、以下の結果となりました。特に3Dや、Detection、Attentionなどを取り扱った論文が多いことがここから読み取れます。

[ 頻出キーワード統計 ]

これ以外にも、現地で実際によく目についたキーワードとして、unsupervised、 self-supervised、 weakly-supervised、few-shot、zero-shot、NAS(Neural Architecture Search) 、adversarial examples等が多い印象でした。 実際にCVPR2013〜CVPR2019の7年間で、各年の採録論文数全体に対するキーワードを含む論文数の比率をグラフ化してみました。確かに○○supervisedや○○shotといった、データやアノテーションが限定された問題設定の論文が全体的に増加傾向にあることがここから見てわかります。

[ キーワードの推移1 ]

同様に、ネットワーク構造を自動で探索するArchitecture search系の論文や、なんらかのモデルを騙すための攻撃 & 防御を扱ったadversarial examples等の論文も増加傾向にあることがわかります。その他にもいくつか増加傾向にあるキーワードを下図に示します。

[ キーワードの推移2 ]

受賞論文

今回CVPR2019で発表された論文の中で、受賞されたものをいくつか紹介します。

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

まず、CVPR2019 Best Paperに選ばれたのが、こちらの"A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction" (Shumian Xin et al.) です。

[ NLOS物体復元 ]

Non-Line-of-Sight(NLOS)物体というのは、カメラなどの視界に直接映らない(撮影できない)物体のことを指します。それらのNLOS物体に対して、周辺環境での反射などを利用して画像化や形状復元する技術をここでは扱います。例えば、曲がり角の向こうにある物体を見ることや、厚い分散媒質を通して物体を透視することなどがこれに当てはまります。NLOS技術は、自動運転、遠隔センシングや医用画像処理など様々なシーンで応用することができるため、コンピュータビジョン領域でも徐々に注目を集めています。今回のCVPR2019では、NLOS に関する論文はBest Paperを含めて6本も採録されています(Oral: 3, Poster: 3)。

[ 提案手法概要図 ]

この論文ではNLOS物体を測定するために、高速変調光源と時間分解センサー(time-resolved sensors)を使用しています。時間分解センサーは光子の数とカメラに到達する時間を測定することができ、トランジェントカメラ(transient camera)と呼ばれます。NLOS物体からの光子を直接トランジェントカメラで観測することはできませんが、付近の可視表面で反射した光子を受信することで、その不可視の物体を探知することが可能になります。この論文では、可視表面とNLOS物体の間の光のフェルマーパス(Fermat paths of light)に関する理論を提唱しています。著者のXinらは、フェルマーパスがトランジェント測定値の不連続点と対応することを証明しました。さらに、これらの不連続点が対応するフェルマーパスの長さの空間微分とNLOS物体表面の法線と関連する制約条件を導き出しています。これに基づいて、視線範囲外の物体の形を推測するアルゴリズムFermat Flowを提案し、初めて幾何的な制約条件だけを利用して精確にNLOS物体の3D表面を復元することに成功しています。

Learning the Depths of Moving People by Watching Frozen People

次はHonorable Mentionを受賞した2本の論文のうちの1つである"Learning the Depths of Moving People by Watching Frozen People" (Li, et al.) を紹介します。

[ 提案手法概要図 ]

こちらの論文ではRGB入力からの人の深度推定を扱っています。Kinectのようなデバイスは屋外では使えないということもあり、これまで様々な姿勢・シーン・年齢などをカバーした大規模データセットはありませんでした。この論文では、2016年後半からYouTubeで一大ブームになったマネキンチャレンジの動画に着目して、それら約2,000本の動画から大規模データセットを構築し、それを使ってモデルを学習しています。ちなみに、マネキンチャレンジというのは人が様々なポーズをした状態でマネキンのように静止し、そこをカメラが移動しながら撮影するというものです。マネキンチャレンジの動画では人を静止物として扱えるため、SfM (Structure from Motion), 及び MVS (Multi-View Stereo) の技術により人の深度を推定でき、それを教師としたデータセットを構築できます。最終的に学習されたモデルの性能も素晴らしいですが、それ以上にマネキンチャレンジ動画に目をつけてデータセットを作るというアイディアが光っており、とても興味深い論文です。

A Style-Based Generator Architecture for Generative Adversarial Networks

最後は、Honorable Mentionを受賞した2本の論文のうちのもう1つである "A Style-Based Generator Architecture for Generative Adversarial Networks" (Tero Karras, et al.) を紹介します。

[ StyleGANの概要図 ]

こちらの論文は1024×1024の高解像度な画像生成を扱ったものです。Style-Transfer等でよく使われるAdaINのアイデアを取り入れることで、より制御しやすく、狙った生成を可能にしています。本論文の著者であるTero Karrasさんは、先行研究として以前にICLR2018でPGGAN (Progressive Growing of GANs) を発表しています。そちらの論文では、GANの生成学習において、段階的にネットワーク層を増加させ、生成画像の解像度を徐々に上げていくことで、安定的に高解像度な生成を実現しています。本論文はその基礎の上で、更にGenerator部分に工夫を施し、潜在表現ベクトルzをGeneratorの最初ではなく、Mapping Networkを通じてAdaINのパラメータとしてネットワークの途中途中に埋め込んでいます。 解像度ごとに異なる潜在ベクトルzを埋め込むことで、coarse(姿勢、顔の形)、middle(髪型、目)、fine(髪質、肌色)といった、異なるレベルのstyleを分離して制御できるようになっています。また、上記AdaINとは別に、ランダムノイズを各特徴マップに足し合わせることで、生成画像の確率的な要素(髪の流れ方や肌のシワ等)の操作を可能にしています。

[ StyleGANの生成例 ]

このような高解像度な画像生成を、教師なし学習で、かつStyleを制御可能にできたことが本論文の最大のContributionです。

DeNAのPoster発表

今回、Tutorial & Workshopと並行して開催された、「iMet Collection 2019」という美術品の画像識別コンペにて、DeNAのDSチームから加納龍一と矢野正基の2人が参加し、金メダルを獲得することができたので、Poster発表を行いました。

[ iMet Collection 2019のPoster発表の様子 ]

こちらのコンペでは、ニューヨークのMetropolitan美術館でデジタル化されている約20万枚の美術品の画像を用いて、作品の内容や文化的背景などの観点からつけられたタグ付けを予測する多クラス分類問題の精度が競われます。今回金メダルを受賞したDeNAの加納龍一と矢野正基のチームでは、Pseudo labelingやBlendingといった従来のコンペで実績を残している手法に加え、CVPR2019に採録されたAttention Branch Networkという新しい技術を導入していくことで、金メダルを獲得することができました。

全体の感想

今回、DeNA AIシステム部から7名でCVPR2019に参加し、各自のスペシャリティを活かした効率的な情報収集を行いました。今回発表されたOralプレゼンテーションは全て、こちらのYouTubeチャンネルでも公開されていますが、実際に現地に行くことで論文の気になる点を作者に直に聞けたり、ネットワーキングもできる等のメリットがあります。自分は今年で3度目となるCVPR参加ですが、技術的な収穫はもちろん、ネットワークも広がって凄く良い刺激になりました。

また、今回のEngineer Blogとは別に、現地に参加したメンバーで、注目度の高い論文や有益性の高いと判断した論文30本を厳選し、解説資料 (Slide Share) にまとめて公開しましたので、興味ある方はそちらも合わせてお読みください。

DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

参考文献

·      Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan, Ioannis Gkioulekas. A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

·      Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman. Learning the Depths of Moving People by Watching Frozen People

·      Tero Karras, Samuli Laine, Timo Aila. A Style-Based Generator Architecture for Generative Adversarial Networks

続きを読む

 

2019/07/08 15:00

コンピュータビジョンの最新論文調査 キーポイントによる物体検出編

@hirotomusiker

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております本多です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回我々が読んだ最新の論文をこのブログで紹介したいと思います。

今回論文調査を行なったメンバーは、林 俊宏、本多 浩大です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回はキーポイント検出の手法を用いた物体検出に焦点を当て、最新論文を取り上げます。

Short Summary

·      CornerNet (ECCV18) の改良版と言える、キーポイント検出ベースの物体検出手法が続々と提案されている。

·      いずれも検出ターゲット矩形の端や中央を、ヒートマップを用いて検出する手法である

·      Single-shot型 (bottom-up) とTwo-stage型 (top-down) に分かれる

·      いずれもCornerNetと同等ないし高い精度を示している

·      Object as Points (CenterNet) の精度と速度のトレードオフ性能 (speed-accuracy trade-off) の高さが目立つものの、他手法とフェアな比較はできていない

図1は本稿で取り上げる各手法の検出点比較である。

図1: 各手法の検出点比較。(a) Faster R-CNNやYOLOなどアンカーを基準にboxを学習する手法 (b) CornerNet (c) Objects as Points (CenterNet) (d) CenterNet: Keypoint Triplets for Object Detection (e) Bottom-up Object Detection by Grouping Extreme and Center Points (f) Grid R-CNN

前提知識

物体検出

画像から物体の位置を矩形 (bounding box) として検出し、かつそれぞれの物体の種類(クラス)を分類するタスクです。

·      Faster R-CNN: 画像から特徴マップを抽出し、Region Proposal Networkで物体の存在する領域を検出、それぞれクロップしてHead Networkにて詳細な位置推定とクラス分類をおこなう。物体検出のデファクトスタンダード。

·      Feature Pyramid Network (FPN) : Faster R-CNNにおいて、複数のスケールでRegion ProposalおよびHead Networkの実行を行うことで、高精度に小さな物体を検出する。

·      RetinaNet : FPNにおけるRegion Proposal Network部において、bounding boxの位置検出とクラス分類を完結することで高速化をはかっている。Single-shot検出器と呼ばれ、YOLOと同種の検出器にあたる。

キーポイント検出を用いた物体検出

今回、キーポイント検出の手法を物体検出に用いている論文を取り上げます。これら論文の源流となるのはECCV2018で発表されたCornerNetです。

·      CornerNet : bounding boxの座標を回帰によって学習するのではなく、左上と右下隅をキーポイントと見立てたヒートマップを学習する。人物姿勢認識におけるキーポイント検出にヒントを得ている。推定されたキーポイントは、embedding vectorの照合によりグルーピングする。

·      Hourglass Network : ResNetなどのネットワークでスケールダウンしながら特徴抽出したのちに、アップサンプリング層によってスケールアップする、砂時計型のネットワーク。

関連するデータセット

MS-COCO 物体検出・セグメンテーション・人物姿勢等のラベルを含むデータセットで、recognition系のタスクではデファクトスタンダード。

参考:弊社エンジニアによるサマリー。本稿で取り上げる論文も紹介されている。

最近の物体検出

CVPR 2019 report

性能比較

今回紹介する4論文と、ベースラインとなるCornerNet及びRetinaNetとの性能比較を表1に示す。全ての論文をフェアに比較することは困難であるが、いずれも単一スケールでのテストに揃えて比較した。特に性能にインパクトがあると思われる実験条件をbackbone、他条件に記載した。

表1: COCO test-devによる各手法の性能比較。

論文紹介

Objects As Points

要約

bounding box中心のみをヒートマップで予測、大きさ・オフセット・クラスは各位置で回帰、速度と精度の良いトレードオフを実現する。

提案手法

クラスごとにbounding box中心をヒートマップとして学習する。Backboneは高速側から、ResNet18+upsampling, DLA34 [2], ResNet101, Hourglass104を用いている。upsamplingレイヤとしてbilinear inetrpolationとconvolutionを用いている。single-scale の高解像度特徴マップをヒートマップ出力に使う。

各グリッドではクラスごとの確率に加え, bounding boxサイズ及びグリッドからのオフセットを回帰学習する(図A1)。推論時は、各グリッドの近傍8グリッドと比較して最大または等しいconfidence値となる100のグリッドをピックアップする 。ピックアップされた複数のアンカーを用いるYOLOv3と異なり、アンカーが存在せず、bounding boxサイズを直接、クラス毎に出力する。

Lossの定義は

·      ヒートマップ:CornerNet と同様、 focal loss の亜種を用いる。

·      中心のオフセット:L1 loss

·      bounding boxサイズ:L1 loss

bounding boxのサイズ・オフセット推定チャンネルをタスクに応じて変更することで、3D bounding boxの推定や人姿勢推定にも適用できる(図A2)。

その他 Non-Maximum Suppression (NMS) を行っても精度が大きく変化しなかったため不使用。 ResNetとDLAでは、deformable convolutionレイヤをupsampling部に用いている。deformableレイヤはAP向上に寄与していると思われるが、本論文ではablation studyは行われていない。

結果

backbone 等の変更により精度-速度(レイテンシ)のトレードオフを測定、YOLOv3などの従来手法よりもトレードオフが改善した(図A3)。COCO test-devの評価では、高精度側でもCOCO AP=42.1 (single scale test) を示した(表A1)。

図A1:CenterNet手法の紹介。centerキーポイントの特徴としてbounding boxのサイズなどを学習させる([1]より引用)

図A2:CenterNetの様々なタスクへの応用。上段:物体検出 中段:3D物体検出 下段:キーポイント検出([1]より引用)

図A3:backboneネットワークやテスト条件を変化させたときの、推論時間とCOCO val APのトレードオフ。([1]より引用)

表A1:COCO test-devによるstate-of-the-art検出器との比較評価結果。上がtwo-stage、下がone-stage検出器。APが二種類記載されているものは、single-scale / multi-scale test を表す。([1]より引用)

リンク

[1] https://arxiv.org/abs/1904.07850

[2] DLAネットワーク:Deep Layer Aggregation

CenterNet: Keypoint Triplets for Object Detection

要約

CornerNet の改良版であり、コーナーだけでなく中心も予測することで正確性を向上する。

提案手法

CornerNetによって検出されたbounding boxには誤検出が多く、正解との重なり (IoU) が5%の条件においても32.7% がFalse Detectionとなっていた。一方2-stage detectorのようにROI poolingを用いると計算量が大きくなる。本論文では、図B1のように、CornerとCenterを照合することにより検出の正確性を向上する。また、CornerとCenterの3点のembedding情報のみをpoolingするため、ROI poolingのように計算量が大きくならない。

cascade corner pooling CornerNetで提案されているcorner pooling を、 bbox の端だけでなく内部も見るように cascade poolingとして改良する(図B2)。得られたembedding情報はcornerのグルーピング、およびオフセット推定に用いる。

center pooling CornerNetに対し、boxの中心を予測するheadネットワークを追加、corner pooling同様のcenter poolingによってembedding情報を得る(図B2)。このembedding情報は、cornerと異なりグルーピングには使用せず、中央点のオフセット推定にのみ用いる。

Loss lossは以下のように定義される。CornerNetにて提案されているlossに対し、中央点の項が追加されている。

Inference時 Cornerのペアから予想される領域にCenterがあるかどうかでTripletを組み合わせる。

結果

CornerNet と同条件 (Hourglass101, single scale) で比較すると、COCO APが40.5 -> 44.9と大きく改善している(表B1)。図B1 : CenterNetの全体構成図。上段がCornerブランチ、下段がCenterブランチ、最終的に統合する。([3]より引用)

図B2 : Center Pooling(左)、Corner Pooling(中央)、およびCascaded Corner Pooling(右)([3]より引用)

表B1 : COCO test-devによるベンチマーク結果。CenterNet511はsingle-scale testにおいて COCO AP = 44.9となっている([3]より引用)

リンク

[3] https://arxiv.org/abs/1904.08189

Bottom-up Object Detection by Grouping Extreme and Center Points

要約

画像中の複数オブジェクトの上下左右の端点及び中央をヒートマップで求め、上下左右点と中央点を照合することでボトムアップでboxをグルーピングする。

提案手法

·      Ground truthとして、bounding boxだけではなくinstance segmentation labelを用いる。boxとsegmentationマスクから、上下左右の端点と中央の正解座標を求める。

·      Hourglassネットワークで画像全体から上下左右点・中央点のヒートマップを学習する(図C1)。

·      推論時には、上下左右点の組み合わせごとに、該当する中央点があるかどうかを照合し、スコアが高い場合にグルーピングする(図C2)。

·      端点と中央点を照合するという発想は、上述のCenterNet: Keypoint Triplets for Object Detectionと類似している。

結果

COCO test-devの結果、single scale同士だとCornerNetと同等のAP=40.2であり、multi-scaleではCornerNetを上回るAP=43.7となった(表C1)。 推論時に、端点を利用した多角形表示をすることも可能である(図C3)。

図C1: 推定フレームワーク。([4]より引用)

図C2: 推定された上下左右・中央のヒートマップから、bounding boxを決定するまでの流れ。([4]より引用)

表C1: COCO test-devでの結果。SS=single scale test, MS=multi-scale test。SS同士ではCornerNetと同等のAPとなっている。([4]より引用)

図C3: 推論結果。([4]より引用)

リンク

[4] https://arxiv.org/abs/1901.08043

Grid R-CNN

要約

2ステージ物体検出において、box座標をRegressionするかわりに、Boxのグリッド点をヒートマップで学習する。

提案手法

図D1のように、入力画像に対してbackboneネットワークで特徴抽出、Region Proposal NetworkおよびROIAlignでROIクロップをおこなう。ここまではMask R-CNNと同じである。

grid prediction branch:クロップしたfeature map (14 × 14) に対し、8層のdilated convolution層、および2層のdeconvolution層を経て、56 x 56 x (N x N) のfeature mapを得る。N x N はグリッドの点数であり、標準は3 x 3である。Ground Truthは正解グリッド点を中心とする+型の5画素がpositiveとされており、推定されたヒートマップとのBinary Cross Entropy Lossにより学習される。

アップデート版として公開されたGrid R-CNN plus [6]では、56 x 56のうち、実際にグリッド点が存在する28 x 28のみに限定して用い、またdeconvolutionをdepth-wiseとすることで高速化をはかっている。

feature fusion module(図D2):隣接するgrid点には空間的相関がある。feature fusion moduleでは隣のgrid点を用いてgrid featureを修正する。Fiを注目するgrid点のfeatureとすると、近隣のFjに対しいくつかの5x5 convolution層を通し、Tj->i(Fj)を作る。Fiとそれらの和を最終的なgrid featureとする。

推定時は、得られた各グリッドヒートマップにおいて、最大値をとる座標がピックアップされて元画像にマッピングされる。

結果

ResNeXt-101 Feature Pyramid Networkを用いた場合、COCO test-dev APが43.2となった(表D1)。 Faster R-CNNと同条件で比較すると、特に高IoUのAP (IoU=0.8 and IoU=0.9)において10%程度の改善となった。

図D1 Grid R-CNNのパイプライン。([5]より引用)

図D2 Feature Fusion Moduleの説明図。([5]より引用)

表D1: COCO test-dev評価結果。([5]より引用)

リンク

[5] https://arxiv.org/abs/1811.12030

[6] Grid R-CNN plus: https://arxiv.org/abs/1906.05688

おわりに

今回はキーポイント検出の手法を用いた物体検出の最新論文をご紹介しました。ECCV2018で提案されたCornetNetを皮切りに、キーポイントベースの物体検出が洗練されてきました。「物体をboxで検出する」というタスクの本質に迫っており、興味深いアプローチです。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

 

2019/06/04 10:05

コンピュータビジョンの最新論文調査 3D Vision編

kazuyuki.miyazawa

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております宮澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。前回はHuman Recognition編ということで我々が読んだ最新の論文をご紹介しましたが、今回は3D Vision編をお届けします。今回論文調査を行なったメンバーは、奥田 浩人、宮澤 一之です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は3D Vision編として、主に2次元画像から3次元情報を復元する技術に関する最新論文を取り上げます。

前提知識

カメラで得られる2次元画像から3次元情報を復元するためには、複数の視点から撮影した画像が必要であり、単一のカメラ(単眼カメラ)を動かしながら撮影する方法、2つ(以上)のカメラを並べて撮影する方法などがあります。前者における最も有名な技術としてはSfM(Structure from Motion)、後者ではステレオビジョンなどが知られています。いずれもコンピュータビジョン分野では非常に古くから研究されてきた技術ですが、昨今ではディープラーニングを取り入れる動きが活発です。そこで今回は、最新論文を単眼カメラを用いる技術とステレオカメラを用いる技術とに分け、さらにそれらの中でディープラーニングを利用しているものをご紹介いたします。

今回ご紹介している論文でよく使われているデータセットは以下の通りです。

·      The KITTI Vision Benchmark Suite:車載カメラデータセットのデファクトスタンダート。ステレオカメラ、LiDAR、GPSなど豊富なセンサデータに対する様々なベンチマークを含む。今回紹介する論文に関係するベンチマークとしては、ステレオカメラの視差推定やシーンフロー(3次元オプティカルフロー)推定などがある。

·      Scene Flow Datasets:ステレオカメラのデータセット。CGで生成しているため、左右カメラの視差、オプティカルフロー、シーンフローの完全な真値が利用可能。

·      TUM RGB-D SLAM Dataset and Benchmark:RGB-Dカメラのデータセット。カメラによる自己位置推定などの精度評価に用いられる。

·      ETH3D Benchmark:多視点カメラのデータセット。屋内・屋外双方のデータが含まれる。画像からの3次元復元精度の評価のため、レーザスキャナにより計測した高精度な3次元データを含む。

目次

単眼カメラを用いる手法

·      SfMLearner++: Learning Monocular Depth & Ego-Motion using Meaningful Geometric Constraints (WACV2019 Oral)

·      Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving (CVPR2019 Poster)

·      Learning the Depths of Moving People by Watching Frozen People (CVPR2019 Oral)

·      Neural RGB→D Sensing: Depth and Uncertainty from a Video Camera (CVPR2019 Oral)

ステレオカメラを用いる手法

·      Group-wise Correlation Stereo Network (CVPR2019 Poster)

·      GA-Net: Guided Aggregation Net for End-to-end Stereo Matching (CVPR2019 Oral)

·      StereoDRNet: Dilated Residual Stereo Net (CVPR2019 Poster)

·      Deep Rigid Instance Scene Flow (CVPR2019 Poster)

単眼カメラを用いる手法

SfMLearner++: Learning Monocular Depth & Ego-Motion using Meaningful Geometric Constraints (WACV2019 Oral)

要約

教師なしのデプス学習手法であるSfMLearnerに対しエピポーラ拘束を導入することで精度を改善

提案手法

単眼映像から教師なしでデプス推定を学習可能なフレームワークとして、SfMLearnerがCVPR2017で提案された。これは、推定したデプスとカメラ運動からある時刻のフレームを他時刻のフレームにワープして重ね、両画像の差異をロスとしてCNNを学習するというものである。SfMLearnerでは、シーン中の移動物体やオクルージョン箇所を推定してロスへの寄与率を変えているが、提案手法ではこれを改善し、より幾何的に妥当な結果を得るためにエピポーラ拘束を導入している。具体的には、5点アルゴリズムにより基本行列Eを求めてエピポーラ方程式を得たうえでこれを満たさない点のロスへの寄与率を下げている。

結果

KITTIによるSfMLearnerとの比較を図A1に示す。左から順に、入力画像、真値、SfMLearner、提案手法である。SfMLearnerと比較して、提案手法の方が正確なデプスが得られていることがわかる。図A1:KITTIにおけるSfMLearnerとの比較。

また、他の従来手法との比較結果を図A2に示す。これを見ると、図A1と同様にSfMLearnerよりも提案手法の方が高精度であるが、GeoNetやDDVOといった最新手法(いずれもCVPR2018で発表された)には劣っている。しかし、これらの手法はネットワークのパラメータ数が多い、非線形最適化を必要とするなど提案手法に比べて計算量が大きいことが欠点として挙げられる。図A2:KITTIにおける評価結果。

リンク

論文:https://arxiv.org/abs/1812.08370

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving (CVPR2019 Poster)

要約

画像から得られたデプスマップを擬似的にLiDARから得られたデータのように変換し、既存の3次元物体認識手法を適用可能にすることで精度を改善。

提案手法

3次元物体認識においては、LiDARから得られる高精度な3次元データを用いる場合に比べて画像から推定したデプスマップを用いる場合は精度が大幅に低下する。一般には画像によるデプスの推定精度が低いことが原因とされがちだが、本論文ではデータの表現方法に問題があると指摘している。例えば、2次元のConvolutionでは、画像中で隣接する物体同士は異なる距離にあっても統一的に扱われてしまったり、物体の距離の違いによるスケール変化などが考慮されない。そこで本論文では、画像から得られたデプスマップをそのまま利用するのではなく、擬似的にLiDARから得られたようなデータに変換することでこの問題の解決を図っている。このようにすることで、これまでに提案されてきたLiDARデータを対象とした3次元物体認識技術をそのまま流用することが可能となる。この流れを図B1に示す。図B1:提案手法のパイプライン。

本論文の主眼はあくまでもデータの表現方法であり、デプス推定や3次元物体認識にはどのような手法を用いても構わないとしている。論文中ではデプス推定には一般的なステレオカメラの視差推定を利用し、3次元物体認識にはfrustum PointNetとAVOD(Aggregate View Object Detection)の2種類を用いている。

結果

KITTI2015を用いて従来手法との性能比較を実施。結果を図B2に示す。従来の画像ベースの手法と比較して提案手法では大幅に精度が改善していることがわかる。また、アプローチが異なる2種類の3次元物体認識手法のいずれにおいても大きな改善が得られており、提案手法が幅広い手法に適用可能であることが示唆されている。図B2:KITTI2015における評価結果。それぞれ3Dとbird’s-eye-viewに対するAverge Precisionをスラッシュで区切って示している。青が提案手法、グレーが実際にLiDARを用いた場合。

リンク

論文:https://arxiv.org/abs/1812.07179

Learning the Depths of Moving People by Watching Frozen People (CVPR2019 Oral)

要約

静止した人物を移動カメラで撮影したマネキンチャレンジの映像を学習に利用することで、従来は困難であった複雑な動きをする人物を含む映像のデプス推定を実現。

提案手法

人間など複雑な動きをする対象を移動するカメラで撮影した映像からSfM(Structure from Motion)やMVS(Multi-View Stereo)でデプスを推定することは非常に難しく、データドリブンな機械学習ベースの手法を用いるとしてもデプスの真値を持つ学習データを膨大に集めることは現実的でない。そこで本論文では、インターネット上に大量に存在する”マネキンチャレンジ”の映像を用いることを提案している。マネキンチャレンジとは、人々が様々な姿勢でマネキンのように静止し、そのシーン中をカメラで移動しながら撮影するというものである。こうした映像では人々が静止しているためMVSによるデプス推定が可能であり、これを真値として画像からデプスを推定するニューラルネットを学習させることができる(図C1)。図C1:提案手法における学習の流れ。マネキンチャレンジの映像からMVSでデプスを求め、これを真値として画像からデプスを推定するネットワークを教師あり学習する。

単一のフレームからデプスを推定するだけでは、多視点画像から取得可能なシーンの幾何的な情報が利用できないため、提案手法では人以外の背景領域について運動視差を求めてネットワークへの入力としている。ネットワークへの入力を図C2に示す。ネットワークには参照画像Ir、人領域を指定するマスク画像M、人以外の背景領域から運動視差により求めたデプスマップDpp、コンフィデンスマップC、またオプションとして人のキーポイントマップKが入力される。コンフィデンスマップとは、入力として与えるデプスマップの信頼度を表現したマップであり、視差の一貫性や大きさ、エピポーラ制約などを考慮して求める。ネットワークはこれらを入力として受け取り、MVSにより得られたデプスを真値として学習することで、マスクされた人領域のデプスを補間し、かつ、背景領域のデプスをリファインすることができるようになる。図C2:提案手法における入力データ(a)〜(d)と教師データ(e)。

結果

自ら構築したマネキンチャレンジデータセット、およびTUM RGBDデータセットにより従来手法との比較を行っている。TUM RGBDでの比較結果を図C3に示す。従来手法に比べ、提案手法では大幅に真値に近いデプスマップが得られていることがわかる。図C3:TUM RGBDにおける評価結果。右2列が提案手法により推定されたデプスマップ。

リンク

·      論文:https://arxiv.org/abs/1904.11111

·      プロジェクトウェブサイト:https://mannequin-depth.github.io/

Neural RGB→D Sensing: Depth and Uncertainty from a Video Camera (CVPR2019 Oral)

要約

カメラからのデプス推定において、デプスを単一の値としてではなく確率分布として求めることでベイジアンフィルタにより時間方向にデプスを集積して精度を改善。

提案手法

提案手法では、通常のRGBカメラからのデプス推定において、従来手法のように画素ごとに単一のデプス値を求めるのではなく、取りうるデプスの確率分布を求めている。このようにすることで、ベイジアンフィルタの枠組みを利用して時系列方向にデプスを集積し、デプスの不確定性を減らすと共に精度や安定性を向上させることに成功している。提案手法の概要を図D1に示す。図D1:提案手法の概要。入力としてある時間区間のフレーム群を受け取り、DPV(Depth Probability Volume)を出力する。

図D1に示すように提案手法は入力フレームからDPV(Depth Probability Volume)を生成するD-Net、DPVを時間方向に統合していくK-Net、DPVの空間解像度を向上させるR-Netの3つから成る。DPVはp(d; u, v)で表され、画素 (u, v) がデプスdを持つ確率である。D-NetではPSM-Netを利用して複数の入力フレームのそれぞれから特徴抽出を行い、取りうる視差に対するコストボリュームを求めてSoftmaxをかけることでDPVを生成する。この段階で、空間解像度は入力画像の1/4となる。K-Netは、ベイジアンフィルタの枠組みを利用してDPVを時間方向に統合し、デプスの不確定性を減少させる。R-Netは低解像度のDPVと入力画像から抽出した特徴マップを受け取り、DPVを入力画像と同じ解像度にまでアップサンプルする。最後に、DPVから参照フレームにおけるデプスマップおよびその信頼性を表すコンフィデンスマップが生成される。

結果

7-Scenes(屋内シーン)やKITTI(屋外シーン)などのデータセットで従来手法との比較を行なっている。結果を図D2、図D3に示す。7-Scenesにおいては従来手法のDeMoNやDORNを上回る精度となっているが、KITTIでは同等程度となっている。図D2:7-Scenesにおける評価結果。

図D3:KITTIにおける評価結果。

リンク

·      論文:https://arxiv.org/abs/1901.02571

·      ビデオ:https://www.youtube.com/watch?v=KZGDBtArbeo

ステレオカメラを用いる手法

Group-wise Correlation Stereo Network (CVPR2019 Poster)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームの計算のためのGroup-wise Correlationを提案。

提案手法

ステレオビジョンでは、取りうる視差に対して左右画像のマッチングコスト(SSDやSADなど)を計算することでコストボリュームを求め、そこからコスト最小となるような視差を選ぶことで視差推定を行う。近年では、CNNで左右画像から特徴量を抽出し、それらの相関計算あるいはConcatenationによりコストボリュームを求める手法が登場しているが、相関計算では単一チャネルの相関マップしか得られず、またConcatenationでは類似度情報が得られないという欠点がある。これらの欠点を解決するため、本論文では、抽出した特徴をグループに分け、グループごとに相関を求めるGroup-wise Correlationを提案している。また、求めたコストボリュームの局所的なコストを集約することでrefineする3D Aggregation Networkについても従来手法から精度と速度の改善を図っている。全体のパイプラインを図E1、3D Aggregation Networkのアーキテクチャを図E2に示す。図E1:提案するGroup-wise Correlation Networkのパイプライン。特徴抽出、コストボリューム生成、3D Aggregation Network、視差推定の4つのパートから成る。

図E2:3D Aggregation Networkのアーキテクチャ。先頭に3D Conv、それに続いて3つのHourglass型3D Convを配置。

結果

Scene FlowおよびKITTIを用いてAblation Studyと従来手法との性能比較を実施。KITTI2015における評価結果を図E3に示す。KITTI2015では、視差の外れ値の割合(D1)を背景画素(bg)、前景画素(fg)、全画素(all)のそれぞれについて評価しており、図3はそれらをまとめたものである。また、図3におけるAllとNocは、それぞれ全画素を評価対象とした場合と、オクルージョンのない画素のみを評価対象とした場合である。いずれの評価尺度においても、提案手法(GwcNet-g)は従来手法よりも高い精度を示している。図E3:KITTI2015における評価結果。

リンク

·      論文:https://arxiv.org/abs/1903.04025

·      Pytorch実装:https://github.com/xy-guo/GwcNet

GA-Net: Guided Aggregation Net for End-to-end Stereo Matching (CVPR2019 Oral)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームにおいて、マッチングコストの集約を行うための新たなレイヤを提案。

提案手法

ステレオビジョンでは、取りうる視差に対して左右画像のマッチングコスト(SSDやSADなど)を計算することでコストボリュームを求め、そこからコスト最小となるような視差を選ぶことで視差推定を行う。このとき、近傍での視差がなめらかとなることを拘束条件として利用するため、ローカルおよびグローバルなコストの集約が行われる。本論文では、ニューラルネットを使った視差推定において、このコスト集約を行うためのレイヤであるSemi-Global guided Aggregation(SGA)レイヤとLocal Guided Aggregation(LGA)レイヤを提案している。アーキテクチャ全体とSGAレイヤ、LGAレイヤの概要を図F1に示す。図F1:(a)アーキテクチャの全体像。ステレオカメラの左右画像からHourglass型CNNで特徴抽出を行ってコストボリュームを生成し、これがCost Aggregationブロックの入力となる。(b)SGAレイヤでは上下左右の4方向についてグローバルなコスト集約を行う。(c)LGAレイヤは視差推定の前にコストボリュームを局所的にリファインする。

結果

Scene FlowおよびKITTIを用いてAblation Studyと従来手法との性能比較を実施。KITTI2015における評価結果を図F2に示す。いずれの評価尺度においても、提案手法(GA-Net)は従来手法よりも高い精度を示している。図F2:KITTI2015における評価結果。

KITTI2015における視差推定の結果例を図F3に示す。1行目が入力画像、2行目と3行目が従来手法(それぞれGC-NetとPSMNet)による視差推定結果、3行目が提案手法による視差推定結果である。矢印で示されているように、特にテクスチャのない領域について提案手法は従来手法よりも優れた性能を示していることがわかる。

図F3:推定結果の従来手法との比較。1行目が入力画像、2行目がGC-Net、3行目がPSMNet、4行目が提案手法による視差推定結果。

リンク

論文:https://arxiv.org/abs/1904.06587

StereoDRNet: Dilated Residual Stereo Net (CVPR2019 Poster)

要約

ステレオカメラにおける視差推定で用いられるコストボリュームのフィルタリングに3D Dilated Convolutionを利用し、さらに新たなネットワークを導入して推定視差の高精度化を実現。

提案手法

図G1:StereoDRNetのアーキテクチャ。

本論文が提案するStereoDRNetのアーキテクチャを図G1に示す。提案手法は、大きく分けて特徴抽出、コストボリュームに対するフィルタリング、視差の高精度化から成る。提案手法における新規的な提案の1つがコストボリュームのフィルタリングに図G2に示すように3D Dilated Convolutionを用いている点であり、これにより従来手法と比較して計算量をほぼ半減している。また、ショートカット接続を持つ残差ブロックをスタックしており、各ブロックからそれぞれ視差マップを生成してロスを求めている(図G2では3ブロック)。

図G2:3D Dilated Convを用いたコストフィルタリング。

また、推定した視差を高精度化するためのブロック(図G3)を取り入れている点も本論文における新規提案である。ここでは、推定した視差を用いて右画像を左画像の視点にワープし、ワープした画像と左画像との残差マップを求める(図G3におけるEp)。さらに視差マップについても同様にして残差マップを求め(図G3におけるEg)、両マップをCNNに入力することで視差マップの精度改善を図っている。

図G3:視差高精度化のためのブロック。

結果

Scene Flow、KITTIおよびETH3Dを用いてAblation Studyと従来手法との性能比較を実施。KITTI2012とKITTI2015における評価結果を図G4と図G5に示す。KITTI2012ではいずれの従来手法よりも高い精度を示しており、またKITTI2015でも背景領域(bg)の視差推定では高い精度を達成している。また、Dilated Convolutionの利用により計算時間についても他手法よりも高速となっている。図G4:KITTI2012における評価結果。

図G5:KITTI2015における評価結果。

また、屋内シーンの3次元計測における結果を図G6に示す。同図下段は真値(左列)からの誤差を示しているが(赤い領域ほど誤差が大きい)、提案手法(中央列)は従来手法(右列)よりも誤差が小さいことがわかる。

図G6:屋内シーンの3次元計測結果。左から順に、構造光投影による結果(真値)、提案手法による結果、PSMNetによる結果。

リンク

論文:https://arxiv.org/abs/1904.02251

Deep Rigid Instance Scene Flow (CVPR2019 Poster)

要約

シーンフロー推定を各インスタンスに対するエネルギー関数の最小化問題として捉え、リカレントネットにより効率的にガウス・ニュートン法を実装することで精度と速度を改善。

提案手法

図H1:提案手法の概要。

自動運転向けに車載カメラで得たステレオ映像からシーンフロー(各点の3次元動きベクトル)を推定するため、背景の動き(エゴモーション)と各インスタンスの動きを個別に求める手法を提案。図H1に示すように、まずVisual Cueとして既存手法を用いてステレオ映像に対してインスタンスセグメンテーション、視差推定、オプティカルフロー推定を行う。そして、背景を含む各インスタンスについてPhotometric Error、Rigit Fitting、Flow Consistencyを評価するエネルギー関数を定義し、これを最小化することでシーンフローを求めている。各エネルギーの意味は以下の通りである。

·      Photometric Error:画像間で対応づけられた点同士は見た目が一致する

·      Rigid Fitting:推定されるシーンフローは視差およびオプティカルフローから得られる3次元運動と一致する

·      Flow Consistency:推定されるシーンフローを2次元画像に投影した結果はオプティカルフローと一致する

提案手法では上記エネルギー関数をガウス・ニュートン法で解くことでシーンフローを推定している。ガウス・ニュートン法はリカレントニューラルネットワークで実装することが可能であり、GPUの利用により従来手法よりも大幅な高速化を実現している。

結果

KITTI scene flowデータセットにより従来手法との比較を行い、処理時間と精度の両面で従来手法よりも高い性能を示すことを確認(図H2)。特に現時点で最も性能が高いISF(Instance Scene Flow)モデルとの比較では22%の誤差削減と800倍の高速化を実現している。

図H2:KITTI scene flowデータセットにおける評価結果。

リンク

論文:https://arxiv.org/abs/1904.08913

おわりに

Human Recognition編に続き、今回は3D Vision編ということでコンピュータビジョンに関する最新論文をご紹介しました。主に2次元画像からの3次元情報復元という非常に古くから研究されてきた分野について取り上げましたが、昨今ではディープラーニングの導入によって精度やロバスト性、汎用性の観点でさらに進展が見られています。また、単純に全てをディープラーニングに置き換えるのではなく、これまでに長く研究されてきた伝統的なアルゴリズムを踏襲しつつ、その一部にディープラーニングを組み込むことで性能を向上させるようなアプローチが増えてきているように感じます。

カメラからの3次元情報復元は、車載カメラでのシーン認識など幅広い応用が可能な重要技術であり、ディープラーニングによる性能向上のおかげでますます適用範囲が拡大していくと考えられます。今後もDeNA CVチームでは最新技術の調査を継続し、コンピュータビジョン技術を新たなサービスに繋げて世の中にデライトを届けるべく頑張っていきます。

続きを読む

 

2019/05/15 14:00

Survey of Cutting-edge Computer Vision Papers - Human Recognition

@hirotomusiker

Keywords: AI

Introduction

Hi, I am Hiroto Honda, an AI R&D engineer at DeNA Co., Ltd. Japan. The research engineers in my computer vision (CV) team survey and discuss the latest CV papers every day. This time, we would like to share a part of our survey results on cutting-edge computer vision papers. Authors: Plot Hong, Toshihiro Hayashi and Hiroto Honda.

Contents

·      Quick Summary

·      Scope of the survey

·      What is Human Recognition?

·      Papers

o   CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

o   Deep High-Resolution Representation Learning for Human Pose Estimation

o   Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

o   Parsing R-CNN for Instance-Level Human Analysis

o   3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

·      Conclusion

Quick Summary

·      Five arXiv papers regarding human and hand pose estimation, markerless motion capture, and body part segmentation are surveyed

·      Using a multi-person pose estimation method on a region of interest is effective for crowded scenes.

·      Keypoint localization accuracy can be improved by taking advantage of high resolution features.

·      3D human pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation methods, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Scope of the survey

The survey covers CV papers that were submitted to arXiv in November 2018 or later. We have picked the papers which we thought important and researched the details. In this report we introduce cutting-edge papers on human recognition, such as pose estimation.

What is Human Recognition?

In this report we introduce human recognition methods which aim at estimating human pose, human parts area or motion capture information using RGB images as input. The human recognition methods are grouped into two categories: top-down and bottom-up approaches. The top-down methods first detect the human instance regions and investigate each instance afterwards. The bottom-up ones first detect the body parts or joints in the whole image and group them afterwards. The methods we introduce this time are categorized as top-down approaches and single-person recognition. The following tasks are included in human recognition:

·      Pose Estimation: a task to find and localize the human body parts such as eyes, shoulders and knees.

·      Dense Human Pose Estimation: a task to localize dense body part points corresponding to the 3D model of human bodies.

·      Markerless Motion Capture: a task to obtain motion capture output without using markers.

·      Human Parsing: a segmentation task for body parts such as hair, face and arms.

The popular datasets used for human recognition are:

·      MS-COCO is the de-facto dataset which includes annotations for object detection, segmentation, and keypoint detection.

·      MPII, PoseTrack are the datasets for 2D keypoint detection.

·      DensePose is the dataset for dense human pose estimation and includes body point annotation corresponding to the human 3D model.

·      Human3.6M is the 3D human pose dataset.

·      MHP is the dataset for human body part parsing.

·      STB is the dataset for 3D hand pose estimation.

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o   YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o   AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o   The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o   All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

·      CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

·      Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

·      Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1.    Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2.    Bbox Branch: bounding box regression is carried out for cropped ROIs.

3.    Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1.    2D heatmap estimation using stacked hourglass network

2.    ResNet encodes the heatmap and the image features into latent feature vectors

3.    3D mesh inference from the latent feature vectors by Graph CNN

4.    3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

·      heat-map loss: keypoint estimation loss on the 2D images

·      3D pose loss: L2 loss of 3D keypoint estimation

·      mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

·      heat-map loss: the same as the one on the synthetic data.

·      depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

·      pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.

続きを読む

 

2019/04/26 13:40

コンピュータビジョンの最新論文調査 Human Recognition編

@hirotomusiker

Keywords: AI

はじめに

こんにちは、AIシステム部でコンピュータビジョンの研究開発をしております本多です。

我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回我々が読んだ最新の論文をこのブログで紹介したいと思います。

今回論文調査を行なったメンバーは、洪 嘉源、林 俊宏、本多 浩大です。

論文調査のスコープ

2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回はHuman Recognition編として、ポーズ推定をはじめとする人物の認識に関する最新論文を取り上げます。

前提知識

今回紹介するHuman Recognitionとは、RGB画像を入力として、人物の姿勢推定やセグメンテーション、モーションキャプチャ情報を推定するタスクです。複数人物の映った画像に対して上記のタスクを行う場合、各人物の領域を検出してから、各人物の器官点などの認識を行うTop-down手法と、画像中の全領域から器官点などを検出してから人物ごとにグループ分けするBottom-up手法に分類されます。今回紹介する論文の手法はTop-down手法または単一の対象に対する手法となります。

Human Recognitionには以下のようなタスクがあります。

·      Pose Estimation(姿勢推定):人物の器官点(目・肩・ひざなど)の位置を推定するタスク。

·      Dense Human Pose Estimation :人体3Dモデルとの対応点を密に推定するタスク。

·      Markerless Motion Capture:マーカーを使わず、画像のみからモーションキャプチャ情報を推定するタスク。

·      Human Parsing:人物の髪・顔・腕など、身体パーツでセグメンテーションするタスク。

関連する主なデータセットは以下です。

·      MS-COCO 物体検出・セグメンテーション・人物姿勢等のラベルを含むデータセットで、recognition系のタスクではデファクトスタンダード。

·      MPII, PoseTrack 人物2D姿勢データセット。

·      DensePose 人物3Dモデル対応点データセット。

·      Human3.6M 人物3D姿勢データセット。

·      MHP Human Parsingデータセット。

·      STB 手の3D姿勢推定データセット。

論文紹介

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

要約

人物が重なりあった混雑シーンに対応できるポーズ推定手法と、混雑度をコントロールしたCrowdPoseデータセットの提案

提案手法

ポーズ推定手法

1.    人領域 (bounding box) の検出器としてYOLOv3 (*1) を用い、それぞれのbox内のポーズ推定はsingle-person pose estimator(SPPE, 単一人物姿勢推定)で行い、高性能な従来手法であるAlphaPose (*2) を修正して使用。

2.    AlphaPoseでは、人検出器で画像の中に各人物の領域 (ROI) を検出した後、その人に属する関節点のみを正解関節点としてロスを計算する。本論文では、各人物の領域 (ROI) に対して、その人物に属するかどうかを問わず、ROI内に存在する全ての関節点を正解関節点として、Joint-candidate Lossを計算する。全ROIの関節点を入力画像にマッピング、距離が近い同種類の関節点をクルーピングし関節点ノードとする。これによって、2で重複して検出された関節点を一つのノードとしてまとめる。

3.    全ての関節点ノードをGlobal Associationステップで各人物のノードに割り当て、統合する。これにより、画像全体の視点から各人の関節点をより正確に割り当てることができる。

CrowdPoseデータセット

CrowdPoseという混雑シーンのポーズ推定用データセットを作成した。20000枚の画像からなり、80000の人物を含み、混雑度を示すCrowdIndexという指標に基づいて各画像の混雑度を測ることで、様々な混雑度の画像がバランスよく含まれるように構成した。

図A1:提案手法。それぞれのbox内に存在する全器官点を単一人物姿勢推定ネットワークで推定、Global Associationにて全boxの器官点を各人物に割り当てて最終出力とする。

結果

Crowd Indexに対する各デファクト手法の精度を見ると (図A2左)、Crowd Indexの大小でmAPが20ポイントも変化することがわかる。一方、各データセットにおけるCrowdIndexの分布 (図A2 中央・右)によると、新たに作成したCrowdPoseは様々な混雑度の画像をまんべんなく含んでいる。

図A2:Crowd Indexとランドマーク精度の関係(左)、MSCOCOとCrowdPoseデータセットにおけるCrowd Indexの分布 (中央、右)

CrowdPoseデータセットを用いた、提案モデルのベンチマーク結果は図A3のようになった。OpenPose、Mask R-CNN、AlphaPose、Xiaoらの手法 (*3) を上回っている。

図A3: CrowdPoseデータセットによるベンチマーク

MSCOCOデータセットを用いたベンチマークにおいても高い精度となった。やはりMask R-CNN、AlphaPose、Xiaoらの手法を上回っている。

図A4:MSCOCOデータセットによるベンチマーク

リンク

論文:https://arxiv.org/abs/1812.00324

*1 YOLOv3: 2018年に発表された、リアルタイム動作可能な物体検出モデル。

*2 AlphaPose: regional multi-person pose estimation (RMPE) という手法の別称。https://arxiv.org/abs/1612.00137

*3 Xiao et al., の手法は当時SOTAであったが、オープンソース化されていなかったため著者らが再現実装したと思われる。フェアに比較するため人物領域検出はYOLOv3を用いた。ちなみに2018年8月にPyTorch実装がオープンソース化されている。https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

要約

ポーズ推定ネットワークを強化、複数スケールのinteractionを密にしてフュージョンすることで精度を向上した

提案手法

single-person pose estimator (SPPE) としては、ダウンサンプリングネットワークとアップサンプリングネットワークからなるHourglass network(U-Netもその一種である)が主流であるが、 本論文で採用するHigh-Resolution Net (HRNet) では、図B1のように、1xの解像度 (HR) を持ったfeature mapが常に伝播し他のスケールと相互作用する設計となっている。これにより器官点のlocalization精度が向上する。

入力画像はstride=2の2層のconv層を経てHRNetに入力される。すなわちHRNet入力時のfeature mapは入力画像の1/4スケールとなっている。HRNetの1x, 2x, 4x, 8xの4スケールは入力画像に対してはそれぞれ4x, 8x, 16x, 32xのスケールに相当し、チャンネル幅はそれぞれ32, 64, 128, 256である(HRNet-W32ネットワーク)。異なるスケールのfeature mapはアップサンプリング (strided 3x3 convolution) またはダウンサンプリング (1x1 convolution + nearest neighbor) されて加算される。ネットワークの最終段は1x, 2x, 4x, 8xの4スケールが出力されるが、このうち最も精度の高い1xの出力のみが用いられる。損失関数はground truthのキーポイントヒートマップに対するmean square errorである。

図B1:提案手法HRNetのネットワーク図。縦軸が入力スケールを基準にしたfeature mapのスケール、横軸がCNNのdepthを表す。入力スケールは入力画像の1/4である。

結果

著者らの前作であるSimple Baselines for Human Pose Estimation and Tracking (ECCV Posetrack challenge 2018で優勝)を大きく上回り、Average Precision vs 演算量のトレードオフを改善した(図B2)。

図B3に、HRNet及び著者らの前作Simple Baseline(ResNet50 + upsampling)の演算量内訳を示す。トータルの演算量は7GFLOPs (HRNet) 、9GFLOPs(Simple Baseline) と低減されている。その主な原因はSimple Baselineにて演算量の6割を占めていたupsamplingレイヤがなくなり、HRNetに統合されたことによる。図B4はMPII及びCOCOデータセットによるテスト結果である。

図B5に、ポーズ検出手法のCOCO test-devにおける比較結果を示す。

OpenPose 61.8%、Mask R-CNN 63.1%、Cascaded Pyramid Network (CPN) 73.0%、Simple Baseline 73.7%、また上述CrowdPose 70.9%に対して、HRNetは75.5%とさらに高精度となっている。PoseTrackデータセットにおいても、精度面でSOTA手法となっている。

図B2:HRNetと、著者らの前作であるSimpleBaseline (ResNet50) のAP(ランドマーク精度) vs GFLOPs(演算量)トレードオフ比較。

図B3: HRNetと、著者らの前作であるSimpleBaseline (ResNet50) のネットワーク部位別計算量

図B4:MPII (上段)およびCOCO (下段)でのテスト結果

図B5: COCO test-devでの性能比較結果

リンク

論文:https://arxiv.org/abs/1902.09212

PyTorch実装: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

要約

単眼2D画像のみから顔、体、手を含む全身の3Dモーションを推定するMarkerless Motion Capture手法。

図C1:Monocular Total Captureの実行結果。単眼カメラ画像から3Dのモーションキャプチャ情報を推定する。

提案手法

図C2:提案手法の処理の流れ。CNN部、メッシュフィッティング部、メッシュ追跡部からなる 2次元画像シーケンスを入力して、各フレームの3D人体モデルのモーションキャプチャー情報を出力する。 身体モデルは著者らによる前作であるTotal Capture で提案された3D Deformation Modelを用いる。

提案手法は図C2に示すように、3ステージに分けられる。

·      CNN部:i フレーム目の画像をCNNに入力し、 器官点の位置 (Joint Confidence Maps) と、各器官点間の3Dベクトル (Part Orientation Fields) が得られる。

·      メッシュフィッティング部:可変人体モデルを上記出力S、Lで調整することで人体のモーション推定をする。このステージで一フレームの人物3Dメッシュ推定が可能となる。

·      メッシュ追跡部:i - 1フレーム目の画像とパラメータを入力することで、モデルのパラメータを調整、複数フレームでのtime consistencyを向上する。

Part Orientation Fields Lは図C3のように、器官点間の3Dベクトルをヒートマップとして推定する。OpenPoseに用いられるPart Affinity Fieldと類似している。

図C3:Part Orientation Fieldの説明図。器官点間の3Dベクトルがヒートマップとして推定される。 CMU Panoptic Studio を用いて 834K の身体画像と 111K の手画像を3D姿勢アノテーション付きで取得し、新データセットを構成した(未公開)。

結果

身体部位のモーション推定データセットHuman3.6M (in-the-wild) 、及び手姿勢データセットSTB datasetでSOTAとなった。

図C4:Human3.6Mでのベンチマーク結果。

図C5:STBデータセットでの手姿勢推定ベンチマーク結果。

リンク

論文:https://arxiv.org/abs/1812.01598

動画:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

要約

人物インスタンス認識に関するタスクであるHuman Parsing及びDensePose Estimation において高精度なR-CNN手法を提案する。

図D1:Parsing R-CNNのパイプライン全体図。Feature Pyramid Netwokをバックボーンとし、ROIAlignでクロップしたROIごとにBbox branchとParsing branchを適用する。

提案手法

1.    特徴抽出部: proposals separation sampling (PSS) という手法を提案する。Feature Pyramid Network (FPN) とほぼ同じ構造だが、Region Proposal Network (RPN) によって得られた注目領域に対し、最も解像度の高いP2スケールのfeature mapをクロップすることが特徴である。

2.    Bbox Branch : クロップした領域に対し、bounding boxの回帰を行う。

3.    Parsing branch:新提案のGeometric and Context Encoding (GCE) モジュールを適用、セグメンテーション(Human parsing)やdense pose推定を行う。GCEの前半はAtrous spatial pyramid pooling (ASPP) (*1) でマルチスケールの情報を獲得し、後半はNon-local Neural Network(*2) を適用、それぞれ精度向上に寄与している。GCEの前後にconv層を挿入する実験を行なったが、前に入れたときの効果が薄かったため、GCEの後に4層のconvを入れるアーキテクチャとした (図D1)。

図D2: Parsing branch(図D1右下部)を構成するGeometric and Context Encodingモジュール。

結果

CIHP (Crowd Instance-level Human Parsing) 、MHP v2.0 (MultiHuman Parsing) と DensePose-COCO データセットでSOTAとなった(図D3、D4)。

図D3:(a) 入力画像 (b) DensePoseタスクの推定結果 (c) 入力画像 (d) Human Parsing結果

図D4: (左)DensePose タスクの評価結果、(右)CIHPデータセット, MHPデータセットにおけるHuman Parsingタスクの評価結果

リンク

論文:https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid poolingはsemantic segmentationタスクにおいて有効なモジュールで、dilation rateの異なるdilated convolutionを並列に用いることでreceptive fieldを広げる効果がある。論文は https://arxiv.org/abs/1802.02611

*2 Non-local Neural Networkはfeature map上で空間的に離れた位置にある、類似したfeature を統合することでfeature mapの質を向上する手法である。論文はhttps://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

要約

RGB 画像から手の 3D 姿勢と 3D メッシュを同時推定する手法を提案、GPU で 50 FPS で動作する(図E1)。

提案手法

この論文では,Graph CNNと合成画像を活用し、RGB 画像から手の 3Dメッシュと3D姿勢を推定する手法を提案している。3Dメッシュデータは自然にグラフ構造を持つため, Graph CNNが有効である。 実画像に対し 3D メッシュのアノテーションをつけることは容易でないため合成画像を活用し学習する。具体的には、3D メッシュありの合成画像で教師あり学習をした後、RGBDの実画像データを用いて、弱教師ありのfine-tuningを行う。3D姿勢は3Dメッシュから線形なGraph CNNで回帰する(図E2)。

推定パイプライン(図E2, E3)

1.    stacked hourglass networkで2D heat map推定

2.    heat map と画像特徴を合わせたものをResNetで特徴ベクトルに変換

3.    変換した特徴ベクトルからGraph CNNでメッシュ推定

4.    メッシュからLinear Graph CNNで3Dキーポイント推定

テスト時はroot joint(手首) までのdepthと手のスケールは分かっている前提である。

合成画像での学習時のloss

·      heat-map loss: 2D 画像でのキーポイント推定のloss

·      3D pose loss: 3D キーポイント推定のL2 loss

·      mesh loss: これは更に分解されて、頂点、辺、法線、滑らかさに関する 4 つの loss からなる

実画像に対する fine-tune時のloss

·      heat-map loss: 合成画像の場合と同じ

·      depth map loss: メッシュを differentiable rendererで深度画像にレンダリングしたものと GT との smooth L1 loss

·      pseudo-ground truth loss: GT 画像、GT heat mapからpseudo-GTメッシュを作り、そこからエッジの長さ、滑らかさが離れ過ぎないように loss をかける。Depth map lossのみだと見えている部分以外がおかしくなるため

結果

RGB からの 3D メッシュの推定は既存手法には無いが素朴なベースラインを上回る性能。3D 姿勢の推定では既存データセットで SOTA (図E4)。STBデータセット(図中央)では、上述のMonocular Total Captureよりも高いAUCとなっている。GTX 1080 で 50 FPS動作する。

図E1: 提案手法による推論結果。2D/3Dのキーポイントだけでなく、3Dメッシュも生成している。(上) 合成画像データセットでの結果、(中) 実画像データセットでの結果、(下) STBデータセットでの結果。

図E2: 提案手法の学習方法の概要。(a) 合成画像データセットによる学習、(b) 実画像データセットによるfine-tuning。

図E3: 手の3Dメッシュを生成するGraph CNNのアーキテクチャ。

図E4: 既存手法との比較。(左)RHDデータセットでの結果、(中)STBデータセットでの結果、(右)STBデータセットで3D姿勢なしで深度画像を使って弱教師あり学習した場合の結果。

リンク

論文:https://arxiv.org/abs/1903.00812

おわりに

今回はHuman Recognitionと題して、RGB画像からの人物・手の姿勢推定やモーションキャプチャ情報の推定、セグメンテーションに関する論文を紹介しました。 人物のポーズ認識はさらに高精度化を遂げ、人物が重なり合っている画像でもそれぞれのキーポイントを検出することが可能となってきています。身体や手の3Dポーズ推定やメッシュ推定も、単眼のRGB画像からできるようになってきました。

人の認識技術は今後も重要分野として進展し、さまざまな新しい応用が生まれてくると考えられます。DeNA CVチームでは引き続き調査を継続し、最新のコンピュータビジョン技術を価値あるサービスに繋げていきます。

続きを読む

 

2019/03/06 15:01

DeNA TechCon 2019 ベストトークセッションをご紹介します

Daisuke Tamada

Keywords: AI iOS レポート

こんにちは!技術広報の玉田です。2019年2月6日に開催し、社内外から約1500名の方にご参加いただいた DeNA TechCon 2019 について、社内社外で実施したアンケートの満足度が高かったセッション Top5 をご紹介します。

社外アンケート 満足度 Top5 セッション

約400名の社外の皆様にアンケートにご回答いただき、参加したセッションの満足度を「満足、やや満足、どちらでもない、やや不満、満足」の5段階で評価いただきました。ご協力いただいた皆様どうもありがとうございました!! 評価いただいた中から満足度Top2(満足、やや満足)の割合が高かったセッション Top5 をご紹介します。

1位. AI によるアニメ生成の挑戦

·      満足度Top2:98%

·      登壇者:濱田 晃一、李 天琦

AIによるアニメ生成の挑戦 from Koichi Hamada

 

2位. 『モビリティ・インテリジェンス』の社会実装

·      満足度Top2:94.3%

·      登壇者:織田 拓磨、益子 遼介

『モビリティ・インテリジェンス』の社会実装 [DeNA TechCon 2019] from DeNA

 

3位. 10年目の『エブリスタ』を支える技術

·      満足度Top2:91.7%

·      登壇者:松尾 卓朗、井田 祐太

10年目の『エブリスタ』を支える技術 from DeNA

 

4位. 「マンガボックス」の価値を革新するエンジニアのチャレンジ

·      満足度Top2:89.4%

·      登壇者:神武 里奈

5位. スマホゲームのチート手法とその対策

·      満足度Top2:88.6%

·      登壇者:舟久保 貴彦

スマホゲームのチート手法とその対策 [DeNA TechCon 2019] from DeNA

 

DeNA社内アンケート ベストトークセッション5つ

実はDeNA社内メンバーにもアンケートに協力してもらい、「あなたが思うベストトークはどのセッションでしたか?」と聞き、回答してもらいました。その結果ベストトークとして推薦された推薦率が高かったセッション5つをご紹介します。

 

1位. AI によるアニメ生成の挑戦

·      登壇者:濱田 晃一、李 天琦

·      https://www.slideshare.net/hamadakoichi/anime-generation 

スライドは上記となりますが、こちらでは「AI によるアニメ中割生成結果」についてもご紹介します。

 

 

 

2位. ゲーム開発者からMaaS開発者へ

·      登壇者:惠良 和隆

ゲーム開発者からMaaS開発者へ ゲーム開発のノウハウを活かして 移動体情報配信システムを作ってみた [DeNA TechCon 2019] from DeNA

 

3位. 「マンガボックス」の価値を革新するエンジニアのチャレンジ

·      登壇者:神武 里奈

3位. スマホゲームのチート手法とその対策

·      登壇者:舟久保 貴彦

スマホゲームのチート手法とその対策 [DeNA TechCon 2019] from DeNA

 

5位. 車載カメラの画像を使用した3次元点群復元と物体認識技術における深層学習の活用

·      登壇者:葛岡 宏祐

Building HD maps with dashcams from Kousuke Kuzuoka

 

5位. DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜

·      登壇者:金子 俊一

DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019] from DeNA

おわりに

いかがでしたでしょうか。DeNA TechCon 2019 ではこの他にも様々なセッションを実施し、それらのセッションについても皆様に評価いただきました。ご来場の皆様、アンケートにご回答いただいた皆様、ご協力どうもありがとうございました。

その他のスライドや動画についても今後ご紹介していきますので、以下公式 Twitter アカウントをぜひフォローいただければと思います。それでは引き続きどうぞよろしくお願いします!

続きを読む

 

2018/09/28 23:00

ECCV 2018で発表してきました

TianqiLi

Keywords: AI レポート

はじめに

皆さんこんにちは。DeNA AIシステム部の李天琦(leetenki)です。DeNAのAIシステム部では、物体検出、姿勢推定、アニメ生成等、様々なComputer Vision技術の研究開発に取り組んでいます。また、AIシステム部では世界の最新技術トレンドをキャッチアップするために、年一回国際会議に自由に参加する機会が設けられています。今回は、ドイツ ミュンヘンで開かれたComputer Visionに関する世界トップの国際会議の一つである「ECCV 2018」について、AIシステム部のメンバー5名で参加してきましたので、その内容について紹介したいと思います。また、今回は聴講としてだけでなく、DeNAからもWorkshop論文が1件採録され、濱田晃一(下図右)と私(下図左)の2人で発表してきましたので、その様子についても紹介したいと思います。

ECCVとは

ECCVの正式名称は「European Conference on Computer Vision」で、CVPR、ICCVと並ぶComputer Vision分野における世界三大国際会議の一つです。ちなみにComputer Visionというのはロボット(コンピュータ)の視覚を指し、広義は画像認識、映像認識の技術分野全般を意味しています。そのComputer Visionの分野において世界三大国際会議の一つがこのECCVです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使う事が当たり前になってきているので、ECCVでもDeep Learningの手法を応用した論文が大半の割合を占めるようになりました。

今年の開催期間は9/8〜9/14の7日間です。最初の2日と最終日は特定のテーマに絞ったTutorial & Workshopで、あいだの4日間がMain Conferenceです。また、Main Conferenceの4日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界をリードするIT企業の最新の研究成果や製品などが展示されました。

開催場所

今年の開催場所はドイツのミュンヘンで、GASTEIG Cultural Centerという、劇場・図書館・大学が一体となった大型文化施設を貸し切って会議が開かれました。

[会場のGASTEIG Cultural Center]

近年AI技術への注目の高まりを受けて、ECCV参加者は年々増加し、今年は参加者も採録論文数も過去最高となりました。統計によれば、今年の投稿論文数は2439本で、採録論文数は776本でした。そして今回のECCV参加人数は3200人以上と、ECCV 2016の時と比べて倍以上にものぼっています。

[参加者の統計]

[投稿論文数の統計]

セッションの様子

ECCVに採録された論文のうち、評価の高かったものはOralと呼ばれる口頭発表形式のセッションで発表されます。その場でデモを行うものもあります。それ以外はPosterと呼ばれるセッションで発表され、著者と直接ディスカッションを行うことができます。

[Oralセッションの様子]

ネットワーキングイベント

Main conference期間中、初日の夜に「welcome reception」と、3日目の夜に「congress dinner 」という2つの公式ネットワーキングイベントが開催されました。今回は時間の都合でcongress dinnerには参加できませんでしたが、初日のwelcome reception partyでは立食パーティ形式で世界各国の研究者達と親睦を深める事ができました。

[Welcome receptionに参加してるDeNAメンバー]

また、会議公式のイベントとは別に、多くのスポンサー企業が会場近くのカフェやクラブを貸し切って、独自のネットワーキングイベントを開催していました。今回濱田と私が発表したFashion, Art and Design Workshopでも独自に懇親会を開催していたため、そちらにも参加し、世界各国のFashion, Art関連の研究者と仲良くなる事ができました。

受賞論文

今回ECCVで発表された論文の中で、受賞されたものをいくつか紹介します。

·      Implicit 3D Orientation Learning for 6D Object Detection from RGB Images まず、今年のECCV Best Paperに選ばれたのが、こちらのImplicit 3D Orientation Learning for 6D Object Detection from RGB Images (Martin Sundermeyer et al.) です。

[Martin Sundermeyerらの提案手法の全体の流れ]

この論文を一言で要約すると、6D物体検出(3次元空間座標だけでなく3方向の向き姿勢情報も含んだ検出問題)を高速に行う事ができ、かつ6Dのラベル付き教師データがなくても学習可能という画期的な手法です。ただし、6Dラベル付き教師データの代わりに、検出対象となる物体の3D CADデータが必要となる点に注意が必要です。 もう少し具体的に全体の処理の流れを説明すると、まず入力となるRGB画像に対してSSDを用いて対象物体のBounding Boxを推定し、その後、推定されたBounding Box領域から物体の姿勢情報を推定するという処理を行います。実は後半のBounding Box領域から物体の姿勢情報を推定する部分がこの論文の一番の重要なポイントで、ここで独自のAugmented AE(AutoEncoder)というものを提案しています。

[Augmented AEの構造]

このAugmented AEというのは、背景や遮蔽を含んだ物体画像を入力した時に、背景や遮蔽を取り除いて対象物体だけが映る画像を出力するように訓練されたCNNです。このネットワークを訓練するには、背景を含む物体画像とそうでない画像のペアの教師データが必要ですが、そこでCADデータを使い、ランダムに集められた背景画像と合成した人工的なデータセットで学習を行います。また、あらかじめ対象物体のあらゆる姿勢の画像をCADデータから生成し、Augmented AEで潜在表現を計算しておいて、データベースに蓄積しておきます。これによって、テスト時に検出されたBounding Box領域をAugmented AEのEncoderに入力して、得られた潜在表現とデータベースにある潜在表現の照合検索を行う事で、高速に姿勢情報を推定する事ができます。

·      Group Normalization 次はHonorable Mentionを受賞した2本の論文のうちの1つであるGroup Normalization (Yuxin Wu et al.) を紹介します。

[Group Normalizationを含む各種正規化手法比較]

こちらの論文はかの有名なKaiming He氏も共著に入っており、とてもシンプルでかつ有用なDeep Learningにおける正規化手法です。通常、Deep Learningの学習にはバッチ正規化 (Batch Normalization) という手法がよく使われますが、その性能はバッチサイズの大きさに依存し、バッチサイズが小さくなるにつれて不安定になるという問題があります。そこでこの論文では、バッチ単位ではなく、入力チャンネルをいくつかのグループに分け、各グループ単位で正規化するというアイデアを提案しています。これにより、バッチサイズが小さい場合でも有効な正規化を実現しています。

·      GANimation:Aanatomically-aware Facial Animation from a Single Image 最後に紹介する論文が、2本のHonorable Mention受賞Paperのうちのもう1本であるGANimation:Aanatomically-aware Facial Animation from a Single Image (Albert Pumarola et al.) です。

[Albert Pumarolaらの提案手法全体像]

こちらの論文では、最近AI分野で注目を集めている敵対的生成モデルのGAN (Generative Adversarial Network) を使った顔表情生成の手法を提案しています。キーとなるアイディアは、顔画像を生成する際に、入力画像に加えて「Action Units (AU)」と呼ばれる条件変数も一緒にGeneratorに入れることです。このAUというのはもともと心理学の分野におけるFacial Action Coding Systemで用いられる概念で、人間の顔のそれぞれの表情筋に対応する30種類のAUの組み合わせで7000以上の表情を表現できるとのことです。このAUを条件変数として一緒に使うことでよりリアルかつ自在な顔表情を生成できるようになります。既存手法のStarGANでは離散的な表情変化しかさせられなかったのに対し、連続的に表情を変化させられるところがポイントです。また、表情に関係しない部分を保持したまま表情のみを変えるためにAttentionを利用するという工夫もなされています。

[Attention maskを含むGenerator図]

DeNAのPoster発表

今回、会議最終日のFirst Workshop on Computer Vision for Fashion, Art and Design Workshopにて、DeNAからも1件の採録論文ががあり、First Authorの濱田と私の2人で発表を行いました。

[Fashion, Art and Design WorkshopでのPoster発表の様子]

[PSGANのPoster]

こちらが今回発表してきた『HD高解像度の全身アニメ生成』の論文 (Full-body high-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks) です。この論文では、各解像度で構造条件付けられたGeneratorとDiscriminator を進歩的に成長させるGANs (PSGAN) により、従来難しかった、構造一貫性を持った高解像度での生成を実現しています。また、DeNAではこれまでにMobageサービスで蓄積してきた10万点以上のアバターの3Dモデルデータを保有しており、それを活用してPose情報付きの独自のアバターデータセットも構築しています。

[PSGANの生成結果]

より詳細な内容はこちらのプロジェクトページで解説していますので、興味ある方はぜひこちらをご覧ください。

全体の感想

今回のECCV2018で、私としてもDeNAとしても、初めての大きな国際会議での論文発表を行いました。私は聴講として毎年CVPRにも参加していますが、一番大きな違いはネットワーキングのしやすさだと感じました。学会で新しく知り合った研究者と雑談する時、必ずと言っていいほど「今回のカンファレンスでどんな論文を発表するんだい?」のような質問を聞かれます。聴講での参加ですとそこで話題が途切れてしまいますが、発表者として参加するとそこから論文の話が広がり、より広く交流を深める事ができました。DeNAでは毎年国際学会に参加する機会が設けられていますので、次回行く時もできれば論文発表者として参加し、更に言えば本会議でのOral発表も目標に目指したいと思います。

参考文献

·      Martin Sundermeyer, Zoltan-Csaba Marton, Maximilian Durner, Manuel Brucker, Rudolph Triebel. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images.

·      Yuxin Wu, Kaiming He. Group Normalization. arXiv:1803.08494 [cs.CV]

·      Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer. GANimation: Anatomically-aware Facial Animation from a Single Image. arXiv:1807.09251 [cs.CV]

続きを読む

 

2018/03/22 15:00

Amazon SageMaker ハンズオンレポート

Ryosuke Mashiko

Keywords: AI レポート 勉強会

はじめに

AIシステム部・AI研究開発グループの益子です。 現在はオートモーティブ事業において、AI研究開発エンジニアとして働いています。

先月20日、DeNA社内において、アマゾン ウェブ サービス ジャパン(AWS)様より「Amazon SageMaker」ハンズオンを実施していただきましたので、その模様をレポートさせていただきます。

DeNAでは、すでに数多くのサービスでAWSを活用しています。私の所属するAIシステム部もその例外ではなく、機械学習のモデル開発に幅広く利用しています。

昨年のAWS re:Invent 2017において「Amazon SageMaker」が発表されましたが、発表の後さっそく社内でも利用したいという声が上がり、AWS様より社内エンジニア向けハンズオンを実施していただけることになりました。

Amazon SageMakerとは

Amazon SageMakerとは

·      AWSインスタンス上にJupyter Notebookを構築

·       Notebook上での機械学習モデル実装

·      AWSのインフラを利用した、分散学習

·      学習したモデルを組み込んだ予測APIの自動生成

まで一貫して行える、フルマネージドサービスです。 https://aws.amazon.com/jp/blogs/news/amazon-sagemaker/

Jupyter Notebookといえば、すでにデータ分析/機械学習アルゴリズム開発においてデファクトとなりつつあるツールですが、それがコンソールからポチポチするだけで、簡単に構築できるのはかなり大きなメリットとなります。

SageMakerの機能 (講義資料より)

また、これまで機械学習サービスを開発する場合には

1.    学習環境構築とデータ整備 (インフラエンジニア)

2.    機械学習モデル実装(機械学習エンジニア)

3.    学習済みモデルをサービス内にデプロイ(サービス開発エンジニア)

の手順が必要であり、案件によっては複数のエンジニアが関わる必要がありました。

SageMakerにより1.と3.の手順がほぼ自動化されるため、機械学習エンジニアはモデル実装に集中でき、また単独でサービス展開まで行うことも可能になります。

ハンズオンの流れ

当日は、AWSより志村誠さんを講師に迎え、主に機械学習アルゴリズムのサービス適用という話題を中心に講演していただきました。

前半はスライドを用いてSageMakerの概要の説明、後半は実際に弊社環境内にJupyter Notebookを立ち上げて、ハンズオンという形式になっています。

ハンズオン参加者の内訳

DeNAからはエンジニアを中心に50名超参加しました。

参加者の内訳

参加者の内訳を見ると、幅広い分野のエンジニアが参加しています。また今回エンジニア向けとして開催したのですが、ビジネスメンバーからも参加があり、機械学習への関心が非常に高いことが伺えます。

それでは、以下当日のハンズオンの流れに沿って、詳細をレポートしていきます。

前半: 講義

前半は講義形式をとり、SageMakerについて解説していただきました。

講義資料より

SageMakerを利用して機械学習を行う場合、主に3つの選択肢があります。

·      ① AWSが提供するアルゴリズムを利用

·      ② AWSがサポートするフレームワークを利用

·      ③ それ以外のアルゴリズム・フレームワークを利用

もっともお手軽なものが①で、すでにある程度の機械学習アルゴリズムはプリセットとして用意されています(後述)。

②は①に含まれないアルゴリズム、例えばディープラーニングモデルを独自に実装したい場合に利用することになります。対応しているフレームワークは限られていますが、分散学習もサポートされるので、柔軟性もありつつ、クラウドのメリットを享受できます。

もっとも柔軟性があるのは③の方法ですが、こちらは学習用のDockerコンテナを自前で用意する必要があり、一手間必要です。その代わり、①、②で提供されていないアルゴリズム・フレームワークが利用可能となります。 DeNAではchainerで開発しているチームも多く、その場合は③の方法になります。今後も①〜③の方法を適材適所で使い分けていくことになると思います。

①のAWS提供アルゴリズムですが、すでに一般的な回帰・分類問題などがカバーできるように用意されているようです。

講義資料より

今回のハンズオンでも、①Amazon提供のアルゴリズムを利用した線形回帰問題のケースを実装していきました。

後半: ハンズオン

当日の様子

ここからは、参加者全員分のJupyter Notebookインスタンスを立ち上げ、実際にSageMakerによる機械学習をいくつか試していきます。

Notebook インスタンスの作成

Notebookに利用するインスタンスタイプなどを設定するだけで、あっという間にJupyter Notebookが立ち上がりました。

AWS提供 アルゴリズムによる線形回帰 - 学習

サンプルとして、まずは AWS提供アルゴリズムの線形回帰モデルを試しました。

ハンズオンに使用したノートブック

データロードの部分は省きますが、AWS提供のアルゴリズムを利用した場合、上記コードだけでモデル学習を実行してくれます。学習用の関数であるlinear_estimator.fitを実行すると、Notebook インスタンスとは別に学習用のコンテナが立ち上がり、ジョブを実行してくれます。

講義資料より

内部の挙動としては、SageMakerがS3から事前に配置した学習データを読み込み、コンテナ上で学習、学習した結果のモデルを再度S3に書き戻しておいてくれる、という仕組みになります。

S3に出力される学習済みモデルファイルですが、AWS提供アルゴリズムの場合はSageMaker専用になっているためエンドポイント経由での推論が前提となります。一方でDLフレームワークで独自実装した場合や、学習用コンテナを用意して学習したモデル(手法②、③)に関しては、S3から直接モデルファイルを取得して推論アプリケーションに組み込むことができるそうです。

AWS提供 アルゴリズムによる線形回帰 - デプロイと推論

講義資料より

学習が終われば、上記のようにdeployを実行するだけで推論エンドポイントが作成されます。

講義資料より

作成したエンドポイントに対して、入力データを投げると、推論結果が返ってきます。ハンズオンではHTTPリクエストをする代わりに、ノートブック上から直接エンドポイントを実行する方法をとりました。

今回割愛させていただきますが、ハンズオンではその他、tensorflowによるirisデータセットの分類問題にも取り組みました。

DeepAR による時系列予測

講演の中では、DeepAR 使った時系列予測タスクも紹介されましたので、手元でも試してみました。

データセットとして予め波形データを作成し、これを学習させます。

データセット

ここでは実行コードは省きますが、全体の処理の流れは線形回帰で試したものと同様です。

DeepARによる推論結果

推論結果として、80%信頼区間と予測中央値を得ることができました。 トレンドはうまく捉えられているようですが、ピーク部分にずれがあります。ここはさらなるチューニングで改善できるかもしれません。

DeepARは元々、Amazon.com内における予測タスクに利用していたものだそうです。  AWS提供アルゴリズムのため、特別なセットアップ をする必要なく、 時系列予測問題に適用することができます。 時系列予測モデルはビジネスシーンでも利用頻度が高く、例えば機械学習アルゴリズムには詳しくないエンジニアやアナリストが、とりあえず現場のデータで精度が出るかやってみたい、という場合に使えそうです。

まとめ

以上、ハンズオンでは実際にAWS上で機械学習アプリケーションの学習とデプロイまでを行うことができました。

モデルの実装から推論用のエンドポイントの作成まで、特別インフラを意識する必要はありません。機械学習エンジニアにとってはよりアルゴリズム開発に集中できるのではないかと思います。

現在Google Cloud Platform上にも同様なサービスとして「Cloud Machine Learning Engine」がありますが、機能の違いなど比較すると面白そうです。

最後に、個人的に便利だと思った点をいくつか上げておきます。

·      単純にmanaged Jupyterとしても利用できる

o   SageMakerはモデル実装から学習、デプロイまで一貫して行えるサービスですが、それぞれ一部だけ利用することもでき、Jupyter Notebookだけの利用も可能です。これを使えば簡単にGPUインスタンス上にJupyterを立ち上げてさっと使う、ということもできそうです。

·      データの暗号化に対応

o   学習データ/推論結果も、プロダクションレベルにおいては高いセキュリティレベルでの取扱いを要求される場合も多く、データを暗号化する仕組みがサポートされているのは助かります。

注意点も上げておきます。

·      現在SageMakerは東京リージョンでは提供されていませんので、実際のサービスに組み込む際には留意しておく必要があるでしょう。

·      Notebookインスタンス数など、SageMaker に利用するリソースはアカウントごとに上限が設定されています。もし社内で大規模に利用する場合には、事前に上限を上げる申請をしておく必要があります。(今回のハンズオンでも実施しました。) https://docs.aws.amazon.com/jajp/general/latest/gr/awsservice_limits.html

以上.

続きを読む

 

2018/02/16 14:46

DeNA TechCon 2018 開催レポート[1]

@Kesin11

Keywords: AI レポート

こんにちは!SWETグループの加瀬です。

この時期の恒例行事となった今年のDeNA TechCon 2018が2018年2月7日に開催されました。今年は第3回目の開催となります。

今回から全4回の予定でTechConの様子をお伝えしていきます。第1回はOpeningとKeynote、そしてYELLOW Stage『DeNAが切り拓くAI』の発表の紹介です。

オープニング

オープニングでは木村よりDeNA TechConの概要についての説明がありました。

DeNAは色々な事業に参入しており、その中のエンジニアも色々な領域でチャレンジをしています。それを知ってもらう場がDeNA TechConであり、また少しでも技術の進歩の役に立てればという思いが語られました。

Keynote - エンジニアが引っ張るDeNAの"モノづくり"

エンジニアが引っ張るDeNAの"モノづくり" from DeNA

今年のKeynoteは、代表取締役社長兼CEOである守安からDeNAにおける"モノづくり"の発表でした。

自身は元々エンジニア出身で、DeNA初期の頃の主力事業であったEコマースの『ビッダーズ』(現『Wowma!』)に夜勤でシステムの監視をする仕事から関わっていたという話から始まり、その後の『モバオク』、『Mobage』、そして現在、力を入れているオートモーティブ事業まで、DeNAのサービスにおいて発生した技術的な課題と、それらをどのように解決してきたかということが語られました。

その中で、分業体制で開発されていたために開発スピードを出すことができなかったビッターズの反省から、当時アルバイトだった川崎(現取締役)にモバオクの開発を一任し、1人で3ヶ月という短期間で完成させたエピソードが紹介されました。

最後に、サービスづくりをエンジニアが引っ張ることと、サービスの課題を高い技術力で解決することをDeNAの強みとして持ち続けたい、という話で発表を締めくくりました。

深層学習を用いたコンピュータビジョン技術とスマートショップの実現

深層学習を用いたコンピュータビジョン技術とスマートショップの実現 from DeNA

AIシステム部の西野と李による、現在のコンピュータビジョン技術の紹介と、その中の姿勢推定技術を活用したスマートショッププロジェクトについての話でした。

スマートショッププロジェクトとは、Eコマースで行われている商品推薦のような、一人ひとりに合わせた接客をリアル店舗でも行えるようにしようという試みです。 そのためには入店したお客の状況を把握する必要があり、カメラ映像から同一人物であることを検出するために姿勢推定技術をどのように用いているかという内容でした。

車両運行管理システムのためのデータ整備と機械学習の活用

車両運行管理システムのためのデータ整備と機械学習の活用 from 英爾 関谷

AIシステム部の関谷と森による、車両運行システムを支える技術と、深層学習を用いて車両停車が可能な位置を自動的に見つける仕組みについての話でした。

自動運転、配車予測、経路探索といった車両運行管理システムがどのような技術によって実現されているかという紹介です。また自動運転を活用した物流オペレーションを実現するために、自動車が停車可能な安全で交通の妨げにならない位置を深層学習を用いて画像からどのように推定するかという内容でした。

ゲーム体験を支える強化学習

DeNA TechCon2018 ゲーム体験を支えるための強化学習 from Jun Okumura

AIシステム部の奥村と田中による、アプリゲームのバランス調整を強化学習・深層学習で行うという話でした。

最近のアプリゲームは、リリースされてから長期間に渡り継続的にバージョンアップを続ける流れになってきており、DeNAがリリースしている『逆転オセロニア』においては新しいキャラクターを追加しながら全体のバランスを調整することが難しくなりつつあるという問題が起きています。 そこで強化学習・深層学習を用いて人間らしいプレイを行うAIを作り、そのAIによるシミュレーションを行うことでバランス調整に活用させるという取り組みについての内容でした。

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用 from Yusuke Uchida

AIシステム部の内田と本多による、コンピュータビジョン技術を活用した交通事故を減らす取り組みについての話でした。

深層学習を用いたコンピュータビジョン技術の解説と、それらを用いて運転中のよそ見や車間距離不足といった不安全行動を減らすことで重大な交通事後を減らすという取り組みが紹介されました。 また、大規模な演算処理が必要な深層学習をエッジデバイスである車両で行うために、精度を保ったまま演算数を減らす深層学習の軽量化手法についても発表がありました。

研究開発と事業貢献を両立させるAI組織の作り方

YELLOW Stageの最後は、AIシステム部の山田によるDeNAのAI組織についての話でした。

DeNAのAI組織体制、AI/機械学習を活用したサービスの紹介、研究開発と事業開発の関わり方、AI・分析の基盤技術、AI研究開発エンジニアとデータサイエンティストの役割、先端技術をキャッチアップするための精度や設備といった非常に多岐にわたる内容の紹介と、今後力を入れていくところについての発表でした。

次回の第2回ではRED Stage『DeNAのチャレンジ』の発表を紹介する予定です。

続きを読む

 

2018/01/12 12:00

サブカルのためのword2vec

@bonprosoft

Keywords: AI レポート

はじめに

AIシステム部AI研究開発グループ アルバイトの五十嵐です。(@bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。

私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。

取り組んだタスク

突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好みを自動的に学習し、様々なジャンルの記事があるなかから、1日3回のおすすめ記事を配信してくれます。

さて、ハッカドールの裏側ではユーザーへ記事を配信するために日々膨大なWeb記事をクロールして、どの記事がどのジャンル・要素のものであるのかなどを識別し、検索サービスと同じようにユーザーへ記事を配信しています。 Web記事を適切に解析するためには、毎クール増えるアニメのタイトルはもちろん、話題となっている単語にもいち早く対応しなければなりません。

そこでハッカドールチームでは、形態素解析のための辞書を毎日自動的に構築するジョブを用意しています。 これにより、大部分の解析処理はうまくいくようになりますが、まだいくつかの課題が残っています。 それは、シノニム辞書の構築 です。 ここで言う「シノニム辞書」とは、アニメの作品名をはじめとした何らかの名称と略称/愛称を関連付けるための辞書のことを指しています。 シノニム辞書は、ハッカドール内において記事のタグ付けや検索において利用されています。 有名な例としては、次のようなものがあります。

·      ご注文はうさぎですか? ⇔ ごちうさ

·      Re:ゼロから始める異世界生活 ⇔ リゼロ

·      この素晴らしい世界に祝福を! ⇔ このすば

略称/愛称自体の分かち書きは、前述のジョブによりうまく動作しますが、その略称/愛称が指している名称との紐づけは現状自動的に獲得できておらず、この紐づけは現在手動で行っています。 2017年10月現在、シノニム辞書に登録されたエントリ数は約5600件にも達し、日々増えていくシノニムを今後も管理し続けるのはとても大変な作業です。 そこで今回は「シノニム辞書を何とか自動で獲得できないか」というタスクに取り組みました。

なお、シノニム辞書の自動構築にあたって、ハッカドール内で利用できるデータセットとしては次のようなものがあげられます。

·      日々のWeb記事のクロール結果

·      アニメ/サブカルに関するタグ/キーワード集合

·      日々更新される形態素解析用辞書

·      アプリ内の検索キーワード

·      現時点で登録されているシノニムペア

以降の章では、先行研究と提案手法、評価実験に関する詳細を説明していきますが、もし読むのが大変に感じる場合や先に成果物だけを見たい場合には、次のURLからスライドとデモサイトをご覧ください。

·      デモサイト http://animew2v.vbcpp.net/

サブカルのためのWord2vec from DeNA

先行研究

最初の1週間は、今回のタスク設定と近い、同義語獲得/同義性判定関連の先行研究を調査しました。 その結果、大きく分けて先行研究で用いられていた手法は、次の3種類に分けられると考えました。

·      単語表記を考慮した同義語判定

·      周辺文脈を利用した同義語判定

·      検索クエリなどの関係情報を利用した同義語判定

それぞれの手法において、特に印象に残った論文を、簡単にご紹介します。

単語表記を考慮した同義語判定

同義語がもともとの名称をベースに作られることを仮定すると、編集距離などの表記を考慮した手法を適用することを考えるのが自然です。 2008年に高橋らが提案した手法[a]では、同義語を以下の3種類から生成されるものと仮定して、これらを考慮した同義語判定のためのフローおよび素性の作成を行っています。

·      定型文字列の追加: 接頭/接尾辞等の文字列を追加

·      表記変換: 読みを保存して表記を変換

·      省略: 文字順を保存して文字を削除

判定ルールのなかには、例えば音節数を考慮した正規化や、SVMを用いた省略関係にあるかどうかの判定ロジックが含まれており、2つの単語の単語表記について、様々な観点から距離を計算するための手法が組み込まれています。

周辺文脈を利用した同義語判定

「同じ文脈に出現する単語は類似した意味を持つ」という分布仮説(Harris, 1954)に基づいて、単語の意味を表すベクトルを求めるためのモデルとして、近年ではSkip-gramモデル(Mikolov+, 2013,[b])を用いた研究が活発に行われています。 ここではSkip-gramモデルの詳細の説明は割愛させていただきますが、原理を簡単に説明すると、ある単語を与えたときに、出力と周辺に出現する単語が一致する確率が高くなるように図1のWeWeとWWを学習することで、適当なイテレーションを回した後に得られるWeWeが単語ベクトルとして利用できるという仕組みになっています。 なお以降の図では、Skip-gramモデルを図1右下のような、省略された図を用いて表現することにします。(図1右上と右下は等価なモデルを示しています。)

▲図1 Skip-gramモデル

Skip-gramモデルを利用した同義語獲得のアプローチとしては様々な手法がありますが、特に新しい手法として、城光らによって提案された、文脈限定Skip-gram(城光+, 2017,[c])があります。 この手法では、特定の品詞のみ/左右特定の位置のみを考慮するような制約を加えて、異なる制約を持った複数のSkip-Gramモデルを学習したあと、2つの単語ペアを与えたときに、これらのSkip-gramが出力するコサイン類似度を素性として、同義語か否かの教師あり学習を行っています。 論文中では、実際に合計254種類のSkip-gramを学習させたあと、これらのモデルを用いて同義語判定を行ったところ、通常のSkip-gramモデルだけの場合と比較して、F値が大幅に向上したと述べています。

検索クエリなどの関係情報を利用した同義語判定

同義語判定は検索エンジンにおいても重要となります。 2012年にMicrosoft Researchから発表された論文では、固有表現のシノニムを自動的に検出する手法に用いる指標の一つとして、Pseudo Document Similarity(Kaushik+,2012,[d])が提案されました。 この指標の前身となったClick Similarity(Cheng+, 2010,[e])は、2つのクエリの類似度を測るための手法として、検索クエリ集合とWebドキュメント集合を頂点とした二部グラフを考えたうえで、ある検索クエリからあるWebドキュメントにたどりついたときにエッジを張り、2つのクエリが与えられたときに、その値がどの程度一致するかという情報を用いています。 これに加えて、Pseudo Document Similarityでは、特に検索クエリが複数の単語からなる場合にもRecallがあがるよう、エッジの張り方を工夫しています。

先行研究の本タスクへの適用

先ほど挙げたそれぞれの手法を、今回のタスクへ適用することを考えてみます。はじめに次の例をご覧ください。

·      終末何してますか?忙しいですか?救ってもらっていいですか? ⇔ すかすか

·      僕友達ない ⇔ はがない

この例は、近年放送されたアニメの作品名とそのシノニムのペアを示しています。 1番目の例は、すかが3回繰り返し出現しているにもかかわらず、シノニムはそのうちの2回から構成されています。 また、2番目の例では、有用と思われる名詞や形容詞、漢字表記などを無視して、シノニムは主に助詞から構成されています。

これは主観ですが、1クール毎に増えるアニメ作品名の略称の競合を避けるためにも、作品名からのシノニムの推測は年々難しくなっていると考えています。 したがって、単語表記を考慮した同義語判定は、今回のタスクへ適用するのは難しいと考えました。

続いて、周辺文脈を利用した同義語判定ですが、単語分割さえできていればSkip-gramの学習が可能であり、周辺単語から単語自体が出現するコンテキストを推測する(単語表記を考慮しない)という性質から、今回のタスクにおいて応用可能であると考えました。 しかし、城光らの手法では、2つの単語がシノニムの関係にあるかどうかを判定するために、シノニムペアを教師データとして使用しており、教師データ作成のコストが必要です。 さらに、分類機の入力として合計254種類ものSkip-gramを用いており、この手法でモデルを頻繁に更新するのは難しいと考えました。

最後に、検索クエリなどの関係情報を利用した同義語判定ですが、今回のタスクへ適用するにはエッジを張るために必要な情報が足りません。 これは、検索クエリなどはデータセットに含まれるものの、その後のユーザーの行動に関する情報が含まれていないため、先行研究のようなエッジを張ることができないためです。 代わりに、検索クエリが文章に含まれているという関係をエッジとして使うことを考えましたが、この関係が果たしてどれくらい有効に働くかという点が見通せなかったため(3週間という限られた時間のなかで成果を出すため)今回はこの手法の採用を見送りました。

以上の理由から、今回のタスクは周辺文脈を利用した同義語判定ベースの手法で取り組みました。 しかし城光らの手法をそのまま適用することは難しいため、予備実験として、ひとまず従来のSkip-gramを学習させたうえで、何か改善できる点がないかを調べました。

予備実験

従来のSkip-gramを用いて単語ベクトルの獲得を行い、シノニムを与えたときのk近傍を観察してみます。

実験設定

学習に用いたデータセットとしては、Webからクロールした記事250,000件を使用しました。 このデータセットに含まれる単語数は533,999単語(のべ123,273,881語)です。

Skip-gramの学習に関する主要なハイパーパラメータとしては、窓幅を5単語、学習する単語ベクトルの次元を100次元としました。 また、ある単語の出現回数が全データセット中で5回より少ない場合には、その単語を学習から除外しました。 したがって最終的には、172,257単語(のべ93,799,316語)の単語を用いて学習を行いました。

実験結果

次の表は、学習済みモデルを用いて、アニメ作品のシノニムの単語ベクトルとコサイン類似度の高いベクトルを持つ5単語をそれぞれ列挙したものです。

表1 従来のSkip-gramを用いたときの、シノニムの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5単語

ごちうさ

(ご注文はうさぎですか?)

リゼロ

(Re:ゼロから始める異世界生活)

このすば

(この素晴らしい世界に祝福を!)

けもフレ

(けものフレンズ)

よう実

(ようこそ実力至上主義の教室へ)

#1

リゼロ 0.71542

ごちうさ 0.71542

幼女戦記 0.67590

二次創作 0.58515

プリアラ 0.71460

#2

きんモザ 0.70086

ガーリッシュナンバー 0.69933

はいふり 0.65225

エンドレスエイト 0.57156

クロムクロ 0.66699

#3

まどマギ 0.67969

緋弾のアリア AA 0.66972

ハルチカ 0.63882

シュタゲ 0.55419

ガーリッシュナンバー 0.63846

#4

ラブライブ 0.67866

ワンパンマン 0.66917

リゼロ 0.63733

グレンラガン 0.54987

えとたま 0.61215

#5

アイマス 0.67314

幼女戦記 0.66810

暗殺教室 0.63500

ラブライブ 0.54697

正解するカド 0.60950

それ以外の単語で試した場合でも、上の表と同様にして、アニメタイトルを表す単語を与えた場合には、何らかのアニメタイトルを表す単語がk近傍に存在するという結果になりました。

しかし「ごちうさ」から「ご注文はうさぎですか?」、「リゼロ」から「Re:ゼロから始める異世界生活」が捉えられないことから、同一の作品を表すアニメタイトルの距離が近くなるように学習できていないことが分かります。 言い換えると、従来のSkip-gramでは、アニメタイトル同士は正しく距離が近くなるように学習されるものの、それ以上の特徴は捉えられていないということが分かります。 (この結論は、一度でもword2vecを使ったことのある方なら、頷いていただけると思います。)

したがって、今回のタスクを解決するには、従来のSkip-gramでは難しいという結論になりました。

予備実験に関する考察

先ほどの表1をご覧ください。 従来手法では「ごちうさ」に類似したベクトルを持つ単語として「リゼロ」が、また「リゼロ」に類似したベクトルを持つ単語として「ごちうさ」がそれぞれ出現しています。 これは、学習の結果で得られた100次元のベクトル表現において「ごちうさ」と「リゼロ」がお互いに近い位置に存在するということを意味しています。 では、なぜ「ごちうさ」と「リゼロ」が近くなるのでしょうか。 以降ではこの問題を、ごちうさ-リゼロ状態として呼ぶことにしましょう。

ごちうさ-リゼロ状態はなぜ起こるのか


▲図2 「ごちうさ」(左)「リゼロ」(右)という単語の周辺5単語に出現する単語を、頻度の高い順にソートした結果

図2をご覧ください。 この表は、それぞれ「ごちうさ」「リゼロ」という単語の周辺5単語に出現する単語を、頻度を高い順にソートしたものです。

ところで、皆さんは、この表にあるような周辺単語の分布から「ごちうさ」「リゼロ」という作品名まで言い当てることができますか? (実際にアニメ作品名を知らせない状態で、作品の正式名称を除いた分布を与えて作品名を推測してもらったところ、あくまで主観ですが、半数程度の人が異なる作品名を答えていました。) 確かに作品を表すような特徴を持つような単語を含んでいるものの、基本的に確信を持って言えることは「アニメ作品」(もしくはサブカル全般)ということ程度かと思います。 Skip-gramを含むWord2vecは、基本的にこのようなタスクを解くことを目標にして、単語ベクトルを学習しているのです。

さて、図2をよく観察すると、次のことが言えます。

1.    「店舗限定」や「コラボ」などの、今回のタスクにおいてはノイズとなりそうな単語が上位に来ている

2.    「アニメ」「キャラ」「イベント」などのアニメ全般で使われる単語が上位に来ている

この2点を手掛かりに解決策を探していきます。

まず一つ考えられる要因としては、複数作品に関して言及している記事が学習に含まれているという点です。 図3は、クロールされた記事に、アニメ/サブカルに関するタグ/キーワード集合(タスク設定の章で説明)を用いて付与されたキーワードの数に関するヒストグラムです。


▲図3 クロールされた記事に付与されたキーワードの数

キーワードを多く含むような記事としては、どのようなものがあるのでしょうか? 実際にデータセットを確認してみると、コミックマーケットをはじめとしたイベントにおける出展情報に関する記事が多く含まれていることがわかりました。 「リゼロ」や「ごちうさ」のような人気作品はグッズも多く取り上げられることから、出展情報に関する多数のウェブページに出現しており、これが、ごちうさ-リゼロ状態の一つの要因になっているのではないかと考えました。

また二つ目に考えられる要因として、単語ベクトルの学習に周辺単語を使うだけでは、今回のタスクを解くには不十分であるという点です。 周辺単語を見ると、アニメ全般で用いられるような単語が多く出現していることがわかります。 これらの単語はWord2vecの学習において、一般名詞のなかからアニメ全般に関する概念を獲得する(アニメに関する単語の距離が近くなるように学習する) には重要ですが、今回のような、もう少し詳細にアニメ作品を考慮した単語ベクトルを獲得したい場合には、これらの アニメ全般用語は、いわばストップワードと同じ扱いになると言っても良いでしょう。

次の章では、アニメ作品に関するドメインの知識を考慮するような仕組みを組み込んだモデルを提案します。

提案手法

前述の要因二つについて、まず一つ目の解決策としては、前処理として1記事にキーワードを10個以上含む記事については除外を行いました。 これにより、なるべく1つの作品について言及しているようなWeb記事からのみ学習を行うようにするという狙いがあります。

二つ目に解決策ですが、学習モデルにこのキーワード情報をうまく埋め込むことで、アニメ作品に関するドメインの知識も単語ベクトルに埋め込むことができないかを検討しました。 そこで考えたのが、以下の3つのモデルです。

モデル1号


▲図4 モデル1号

モデル1号は、ある単語を入力としたときに、その周辺単語とドキュメントに付与されたキーワードを出力として学習を行うモデルです。 つまり、通常のSkip-gramモデルに加えて、キーワード情報を推測するような層を途中に付け足して、マルチタスク学習を行っています。

モデル2号


▲図5 モデル2号

モデル2号は、ある単語と、その単語が出現するドキュメントに付与されたキーワード情報を入力としたときに、その単語の周辺単語を学習するモデルです。 これが学習できると、単語だけではなく、あるキーワードが出現するドキュメントにおいては、特定の単語が周辺に出現しやすいという、条件付きの周辺単語の推測もできるようになります。 また、単語ベクトルの学習と同時に、キーワード情報に関するベクトルも学習できる点も魅力的です。

モデル3号

※こちらのモデルは、インターン期間終了後に追加実験として試したモデルです。

Rev. A


▲図6 モデル3号 Rev.A

モデル3号 Rev.Aは、基本的にはモデル2号と同じです。 しかし、モデル2号では1つのドキュメントに複数のキーワードが付与されていた場合に、そのSumを取って入力としていたところを、このモデルでは1つずつ入力として取るようにした点が異なります。 このように変更することで、モデル2号と比較して全体のモデル構成が浅くなり、学習が進みやすいのではないかと考えたためです。

Rev. B


▲図7 モデル3号 Rev.B

モデル3号 Rev.Bは、Rev.Aに加えて、concatの後に1層のFully Connected層を挟んでいます。 これにより、例えば入力として与えられたキーワード情報が周辺単語の推測に役に立たないような場合でも、学習が可能になるのではないかと考えました。

Rev. C


▲図8 モデル3号 Rev.C

モデル3号 Rev.Cは、Rev.Bに加えて、ResNet(He+, 2016,[f])で用いられているようなShortcut Connectionを加えました。 これにより、仮にキーワード情報を用いた場合のほうが性能が悪くなるような場合でも、最悪時の性能を通常のSkip-gramと同等くらいに保証できるのではないかと考えました。

キーワードのみSkip-gram


▲図9 キーワードのみSkip-gram

これは、モデル1号において、周辺単語への出力層を無くしたものと一致します。 すなわち、マルチタスク学習の有効性を検証するために実験に用いたモデルです。

キーワードのみSkip-gramは、基本的にモデル構成はSkip-gramと同様ですが、ある単語を入力としたときに周辺単語を学習するのではなく、ある単語が出現するドキュメントのキーワード情報を学習している点が異なります。

評価実験

従来のSkip-gram、キーワードのみモデル、モデル1号~3号 Rev.Cまでをすべて実装し、評価実験を行いました。 なお、すべてのモデルはChainerを用いて実装しました。

実装は後日公開予定です。

評価手法

現在ハッカドールが持っているシノニムペア5600組を用いてモデルの評価を行うために、次の3つの評価手法を用いました。

·      コサイン類似度

·      K近傍一致度

·      相互ランク

コサイン類似度

コサイン類似度は、単純にシノニムペアがどれくらい近くなっているかを測定するための指標として取り入れました。

シノニムペアをx,yx,yとしたときに、コサイン類似度cos(x,y)cos(x,y)は次のように定義されます。

cos(x,y)=∑di=0wxiwyi√∑di=0w2xi√∑di=0w2yicos(x,y)=∑i=0dwxiwyi∑i=0dwxi2∑i=0dwyi2

ここで、wxwxは単語xxの単語ベクトル、ddは単語ベクトルの次元を示しています。

k近傍一致度

k近傍一致度は、シノニムペアとなる2単語の周辺に存在する単語がどれくらい一致しているかを測定することを目的として取り入れました。

シノニムペアをx,yx,yとしたときに、単語xx(単語yy)に対するコサイン類似度が高い上位kk単語を集めた集合をSxSx(SySy)とします。 すなわち、すべての単語集合をSSとしたときに、SxSx(SySy)は次の2式を満たすように定義されます。

|Sx|=k|Sx|=k∀p∈S∖Sx. ∀q∈Sx. cos(x,p)≤cos(x,q)∀p∈S∖Sx. ∀q∈Sx. cos(x,p)≤cos(x,q)

このとき、k近傍一致度Jaccardk(Sx,Sy)Jaccardk(Sx,Sy)は次のように定義されます。

Jaccardk(Sx,Sy)=∑w∈Sx∪Symin(cos(x,w),cos(y,w))∑w∈Sx∪Symax(cos(x,w),cos(y,w))Jaccardk(Sx,Sy)=∑w∈Sx∪Symin(cos(x,w),cos(y,w))∑w∈Sx∪Symax(cos(x,w),cos(y,w))

つまり、単語xxとyyのk近傍が、どれくらい一致しているかを重み付きのJaccard係数を用いて計算しています。

相互ランク

相互ランクは、単語xxと単語yyがどれくらい相互に近くなっているかを測定するための指標として導入しました。

単語xxについて、すべての単語とコサイン類似度を計算し、値の高い順にソートしたリストにおいて単語yyが出現する順位をdx→ydx→yとします。 また単語yyについて、すべての単語とコサイン類似度を計算し、値の高い順にソートしたリストにおいて単語xxが出現する順位をdy→xdy→xとします。

このとき、相互ランクrank(x,y)rank(x,y)は次のように定義されます。

rank(x,y)=dx→y+dy→x2rank(x,y)=dx→y+dy→x2

つまり、この値は単語xxの類似単語を検索したときの単語yyの順位と、単語yyの類似単語を検索したときの単語xxの順位の平均を示しており、この値が小さければ小さいほど良いモデルであると判断できます。

実験設定

学習に用いたデータセットとしては、Webからクロールした記事集合のなかで、1記事にキーワードを10個以上含まない記事集合から100,000件を使用しました。 このデータセットに含まれる単語数は331,138単語(のべ49,187,387語)、キーワード数は47,751です。

Skip-gramの学習に関する主要なハイパーパラメータとしては、窓幅を5単語、学習する単語ベクトルの次元を100次元としました。 また、ある単語の出現回数が全データセット中で5回より少ない場合には、その単語を学習から除外しました。 したがって、最終的には、114,045単語(のべ37,128,122語)の単語を用いて学習を行いました。

同様にして、頻度が5回以下のキーワードについても除外しました。 除外した結果、キーワードを含まなくなった記事については、特殊なキーワード(None)を与えました。 したがって、最終的には、キーワード数は11,824となりました。

また、k近傍一致度で用いたkkの値は20としました。 スコアには、シノニムペア5600組に対してそれぞれの評価手法を適用したときの値の平均を採用しました。 ただし考察で述べる理由から、相互ランクにおいてのみ、中央値の算出も行いました。

実験結果

表2 モデルの評価結果

モデル

コサイン類似度

K近傍一致度

相互ランク(平均値)

相互ランク(中央値)

従来のSkip-gram

0.4041

0.0660

9523.5263

892.0

キーワードのみモデル

0.5063

0.1918

5745.6675

22.5

1号

0.5293

0.1923

4926.6754

19.0

2号

0.3706

0.0532

14301.6743

2599.0

3号 Rev.A

0.3348

0.0544

12626.5088

1696.0

3号 Rev.B

0.3599

0.0616

11804.2098

1296.5

3号 Rev.C

0.3585

0.0619

12003.0603

1292.0

実験結果から、従来のSkip-gramと比較すると、提案したモデル1号の性能は大幅に向上していることがわかります。 では実際に、どのような出力がでるようになったかを実際に試してみましょう。

表3 モデル1号を用いたときの、シノニムの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5単語

ごちうさ

(ご注文はうさぎですか?)

リゼロ

(Re:ゼロから始める異世界生活)

このすば

(この素晴らしい世界に祝福を!)

けもフレ

(けものフレンズ)

よう実

(ようこそ実力至上主義の教室へ)

#1

ご注文はうさぎですか? 0.87631

Re:ゼロから始める異世界生活 0.78200

めぐみん 0.84121

たつき監督 0.73934

ようこそ実力至上主義の教室へ 0.70415

#2

ご注文はうさぎですか?? 0.85684

長月達平 0.67824

ダクネス 0.79038

けものフレンズ 0.73272

zitsu 0.57993

#3

チノ 0.82150

エミリア 0.67667

この素晴らしい世界に祝福を! 0.77038

サーバルちゃん 0.72079

軽井沢 0.56846

#4

シャロ 0.75929

レム 0.67260

駄女神 0.75584

アライさん 0.69193

清隆 0.55031

#5

千夜 0.74842

MJ文庫J 0.64899

カズマ 0.74682

ドッタンバッタン 0.66814

綾小路 0.54770

表1と比較すると、既存手法に比べて、取りたかったものがだいぶ取れていることが分かります。ほかの例も試してみましょう。


▲図10 従来手法(Skip-gram)と提案手法(モデル1号)の比較

図10の例では、様々な単語を既存手法と提案手法(モデル1号)に与えたときの類似5単語を示しています。 この例から、例えば「すかすか」→「週末なにしてますか?忙しいですか?救ってもらっていいですか?」といった既存手法では獲得するのが難しいと思われていたシノニムも正しく獲得できていることがわかります。 また「ほたるん」(のんのんびよりのキャラクターの愛称)を与えた場合に、既存手法ではキャラクターの語尾や一般名詞などが混在し、正しく距離を計算できていない結果となってしまっていますが、提案手法では 同作品のキャラクターの愛称が近くなるようなベクトルが得られていることにも注目です。 さらに「お仕事シリーズ」や「マスター」といった単語を与えた場合にも、ユーザーが想定しているであろう作品関連の単語が近くなるように学習されており、従来手法と比較すると、提案手法ではアニメタイトルやキャラクター同士が近くなるのはもちろん、作品なども考慮して距離が計算されるように制約がかかっているように見えます。

考察

相互ランクの値が大きいシノニムペアの特徴

はじめに、モデル1号について、実際にモデルに単語を与えたときの印象と比べて、評価データでの相互ランクの平均値が大きい(順位が低い)ことに注目しました。 そこで、モデル1号の相互ランクのヒストグラムを求めた結果、次の図のようになりました。


▲図11 モデル1号の相互ランクに関するヒストグラム

図11から、一部の相互ランクの値が大きいシノニムペアに影響されて、平均値も大きくなっていることが推測できます。 これが、実験において相互ランクの中央値を求めた理由です。

では、モデル1号ではどのようなシノニムペアが相互ランクの値が大きくなっているのか(すなわち、正しく取れなかったのか)を考察してみます。 評価データとして用いたシノニムペア 5600組のうち、モデル1号で相互ランクの値が大きかった(順位が低かった)シノニムペアを観察した結果、大きく分けて次の5種類に分類されると考えました。

·      表記ゆれによる単語の重複

·      評価データセットに古いデータが含まれている

·      評価データセットに一般名詞が含まれている

·      評価データセットにセリフ・その他が含まれている

·      同じ単語で複数の意味を持つ単語が存在

1番目の項目は、例えば「ニコ生」と「にこなま」のような単語です。 Web記事において出現する単語の数は、前者のほうが圧倒的に多く、後者が出現することはまれです。 つまり、前者は正しく学習することができますが、後者は正しく学習することが難しくなります。 このため、評価データに含まれる「にこなま」などの表記ゆれがある単語とのシノニムペアは、距離が離れてしまうと考えました。

2番目の項目は、例えば(「ワールドイズマイン」,「ワイズマ」)のようなシノニムペアが評価データに含まれているケースです。 今回の学習に用いたデータセットは、2014年3月~2017年9月の期間に公開された記事で構成されており、その期間より古いものや新しいもので出現するような単語については、正しく学習することが難しいという理由が考えられます。

3番目の項目は、例えば(「コメント」,「comment」)のようなシノニムペアが評価データに含まれているケースです。 今回の学習には、主にサブカル関係のWeb記事をデータセットとして用いており、マルチタスク学習にもアニメ作品関連のキーワードを利用しています。 そのため、一般名詞に関する順位は低いままでもおかしくないと考えました。

4番目の項目は、例えば(「イチロー」,「打ってみた」)のようなシノニムペアが評価データに含まれているケースです。 これらは主にニコニコ動画などのサービスで、動画のタグ機能として用いられているのをよく見かけますが、2番目の理由と同様にして今回の学習で獲得するのは難しいと考えました。

5番目の項目は、例えば「私モテ」や「とある」のような単語です。 例えば、前者の「私モテ」は「私がモテないのはどう考えてもお前らが悪い!」(2013年7月アニメ化)と「私がモテてどうすんだ」(2016年10月アニメ化)の2作品の愛称として知られています。 実際にGoogleで検索した場合にも、両方の作品が表示されていることがわかります。 後者の「とある」は、アニメ分野においては「とある魔術の禁書目録」「とある科学の超電磁砲」の2作品を指し、さらに一般的には連体詞として用いられています。

このような場合には、複数のコンテキストで同一の単語が出現することになり、正しく学習することが困難になります。 実は、このような曖昧性解消問題はアニメ関連においても深刻な問題となりつつあり、上記の作品名以外にも、例えば「凛」という名前が指すキャラクターが多い(有名なところでは「星空凛」「松岡凛」「遠坂凛」「渋谷凛」など)という問題があります。 このアニメドメインにおける曖昧性解消問題を凛状態と呼ぶことにしましょう。

凛状態の解決に向けて

では凛状態を解決するにはどうすれば良いでしょうか。

「どの凛を指しているかはキーワードと周辺文脈から区別できる」という仮定を置くと、次のナイーブなアルゴリズムを考えることができます。

1.    キーワードごとに異なる「凛」となるように区別

2.    提案モデルを学習

3.    1エポックごとに「凛」間の距離を測り、一定閾値以下であればマージ

4.    2.へ戻る


▲図12 凛状態解決に向けたアルゴリズム

3週間のうちに実際に実験することはできませんでしたが、上記のアルゴリズムを組み込むことで、適切にコンテキストの異なる同一単語を分離することができるのではないかと考えています。

モデル2号・3号の単語ベクトルのスコアが低い理由

従来のモデルとモデル2号・3号は、出力として周辺単語を予測するように学習を行っており、スコアの高いキーワードのみモデルとモデル1号は、出力としてキーワード情報を予測するように学習を行っています。 このことからも、評価実験でのスコアに大きく貢献したのは、キーワード情報からのロスであると考えることができます。

ところで、モデル2号と3号もキーワード情報をモデルの入力として用いています。 この入力は、本当に無意味だったのでしょうか?

評価実験では単語ベクトルWeWeのみを評価していたためスコアとしては現れていませんが、実はキーワードベクトルWeWeにも面白い特徴が得られていました。 モデル3号 Rev.Bの学習を通して得られたWdWdに表1,3と類似したキーワードを与えると次の結果が得られました。

表4 モデル3号 Rev.Bを用いたときの、キーワードの単語ベクトルとコサイン類似度の近いベクトルを持つ上位5キーワード

ご注文はうさぎですか?

Re:ゼロから始める異世界生活

この素晴らしい世界に祝福を!

けものフレンズ

ようこそ実力至上主義の教室へ

#1

ココア 0.68947

レム 0.78615

めぐみん 0.83319

サーバル 0.82906

よう実 0.69769

#2

シャロ 0.67518

エミリア 0.69870

ダクネス 0.73124

サーバルちゃん 0.77726

セントールの悩み 0.55141

#3

ティッピー 0.56429

長月達平 0.66962

駄女神 0.61180

ジャパリパーク 0.72899

恋と嘘 0.54268

#4

きんいろモザイク 0.51485

スバル 0.3048

ダークホース 0.60308

けもフレ 0.72134

紗霧 0.53223

#5

のんのんびより 0.51027

鬱展開 0.56276

角川スニーカー文庫 0.56557

かばんちゃん 0.71177

夏アニメ 0.48676

これもこれで面白い結果が出ていますね。 例えば「ご注文はうさぎですか?」に類似したキーワードとして「きんいろモザイク」や「のんのんびより」が出現している点や、「Re:ゼロから始める異世界生活」に「鬱展開」というキーワードが出現している点、さらには「ようこそ実力至上主義の教室へ」に類似したキーワードとして同時期に放送されたアニメなどが多数含まれている点など、何らかの知識が埋め込まれていると考えて良さそうです。

この結果から、モデル2号や3号においてモデルの学習に役立つアニメドメインに関する知識はキーワード情報からの入力を直接受け取るWdWdが獲得しやすいため、WeWeではドメインに特化しない一般的な単語ベクトルの獲得が行われた、すなわちWeWeにアニメドメインに関する知識の埋め込みが行われなかったのではないかと考えることができます。

これを踏まえると「なぜ1号のようにマルチタスク学習を行わなかったのか?」と疑問に思われる方も多いと思います。 実は今回の記事を執筆するにあたって間に合わなかったという理由もあるため、この実験は今後のタスクの1つでもありますが、実験を通して以下の2つの問題も出てくるのではないかと考えています。

·      入力と出力に同じデータが来るため、正しく学習されない可能性もある

·      (他のモデルと比較して)学習時間が大幅に増加する

o   入力と出力のキーワード情報の組み合わせが二乗個になるため

モデルファイルとデモサイト

今回の取り組みで得られた単語ベクトルがどのようなものかを、実際に試せるデモサイトを次のURLで公開しました。

·      デモサイト http://animew2v.vbcpp.net/

このウェブサイトでは、上部に単語を入力しEnterキーを押すことで、各モデルにおける類似度が高い単語(入力された単語のベクトルとコサイン類似度が高いベクトルを持つ単語)を検索することができます。 利用できるモデルは次の通りです。

·      Original Raw (250k, 100dim) : 従来のSkip-gram(250,000件のWeb記事を元に学習)

·      Original (100k, 100dim) : 従来のSkip-gram (100,000件の前処理済みWeb記事を元に学習)

·      Keyword Only (100k, 100dim) : キーワードのみモデル (100,000件の前処理済みWeb記事を元に学習)

·      Model 1 (100k, 100dim/Best) : モデル1号(100,000件の前処理済みWeb記事を元に学習。提案モデルのなかで最も精度が高い。)

·      Model 1 Large (1M, 300dim/Best) : モデル1号(1,000,000件の前処理済みWeb記事を元に学習。提案モデルのなかで最も精度が高い。)

·      Model 2 (100k, 100dim) : モデル2号 (100,000件の前処理済みWeb記事を元に学習)

·      Model 3 Rev.A (100k, 100dim) : モデル3号 Rev.A (モデル2号と同様)

·      Model 3 Rev.B (100k, 100dim) : モデル3号 Rev.B (モデル2号と同様)

·      Model 3 Rev.C (100k, 100dim) : モデル3号 Rev.C (モデル2号と同様)

また、学習済みの単語ベクトルも配布しますので、手元に環境がある方はこちらでも試してみてください。

·      単語ベクトル配布サイト https://1drv.ms/f/s!AuXCFAQlUx5TiP9t2YLwJMSERy58BA

なお、配布形式には次の3種類あります。

·      tsv : 単語にスペースを含めることを許容するために、独自のフォーマットとなっています。単語と値の間がタブ区切りになっています。値はスペース区切りとなっています。

·      Google-txt : Googleが公開したword2vec実装の出力形式(テキスト形式)に準拠しています。 そのため、既存のword2vec実装で読み込むことができます。(単語と値の間がスペース区切りとなっています。そのため単語にスペースが含まれる場合(1つのエントリが複数語からなる場合)には、アンダーバー_ で置換されています。)

·      Google-bin : Googleが公開したword2vec実装の出力形式(バイナリ形式)に準拠しています。 Google-txtと同様の処理が行われています。

まとめ

今回の3週間のインターンでは、アニメやサブカルに関連したシノニムの自動獲得タスクに取り組みました。 1週間目では、同義語獲得に関する先行研究の調査を行い、主な既存手法の要点を整理しました。 2週間目では、予備実験として、Skip-gramモデルを用いて現状のデータセットから単語ベクトルを学習し、得られた単語ベクトルから現状のタスクに適用する場合の問題点(ごちうさ-リゼロ状態)を調査しました。 また、予備実験で明らかになった問題点から、改善するための仕組みを取り入れたモデルを提案・実装し、評価実験を行いました。 評価実験の結果、提案モデルはアニメ作品に関する知識も同時に埋め込んだ単語ベクトルを獲得できることが明らかになり、従来のモデルよりも高い精度で今回のタスクを解くことが可能となりました。 3週間目では、これらの実験モデルに関する考察とデモの作成を行いました。 考察を通して、特に複数のコンテキストを持つ同一単語の単語ベクトルを学習することが困難である(凛状態)ことがわかり、アニメドメインにおける曖昧性解消の必要性について言及しました。

今回の提案手法によって得られた単語ベクトルの応用先の例として、ハッカドール内における検索システムで用いる同義語辞書などが挙げられます。 その理由として、例えばユーザーが「ごちうさ グッズ」のようなクエリで検索した場合に「(ごちうさ OR ご注文はうさぎですか? OR チノ OR ココア OR ...) AND (グッズ OR トートバッグ OR ...)」のように展開されたクエリで検索を行うほうが嬉しい場合もあるからです。

また、今回はキーワード情報としてアニメ関連の単語を使用しましたが、異なるドメインと関連した単語をキーワード情報として用いることで、別のドメインに関する知識を単語ベクトルに埋め込むことができると考えています。 例えば、料理やお店に関する情報をキーワードとして持っておき、これらの単語を文章のキーワード情報として与えることで、幅広い分野に本提案モデルを適用できるでしょう。

今後のタスクとしては、凛状態の解決とモデル2号・3号の性能改善などが挙げられます。

最後に、インターン開始前から業務内容をはじめ様々な点でお世話になりました、メンターの鴨志田さん、人事の戸上さん、山本さんに感謝いたします。 土田さん、濱田さんには特に研究を進めるうえで有益なアドバイスをいただきました。ありがとうございます。 本タスクに関して一緒にディスカッションしてくださった鈴木政隆さん、内田さんにも感謝いたします。

そして、今回のインターンを無事に終えるにあたって、さまざまな場所で支えてくださった、AIシステム部とハッカドールチームの皆様に、心から感謝いたします。

参考文献

[a] 高橋いづみ, et al. "単語正規化による固有表現の同義性判定." 言語処理学会第 14 回年次大会発表論文集 (2008): 821-824.http://www.anlp.jp/proceedings/annual_meeting/2008/pdf_dir/D4-5.pdf

[b] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013. http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality

[c] 城光英彰, 松田源立, and 山口和紀. "文脈限定 Skip-gram による同義語獲得." 自然言語処理 24.2 (2017): 187-204. https://www.jstage.jst.go.jp/article/jnlp/24/2/24_187/_article/-char/ja/

[d] Chakrabarti, Kaushik, et al. "A framework for robust discovery of entity synonyms." Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012. https://www.microsoft.com/en-us/research/wp-content/uploads/2012/01/idg811-cheng.pdf

[e] Cheng, Tao, Hady W. Lauw, and Stelios Paparizos. "Fuzzy matching of web queries to structured data." Data Engineering (ICDE), 2010 IEEE 26th International Conference on. IEEE, 2010.

[f] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html

続きを読む

 

2017/12/20 09:26

chainercvを用いたMask R-CNNの実装

@hirotomusiker

Keywords: AI

はじめに

皆さんこんにちは。DeNAのAI研究開発エンジニアの本多です。DeNAからは初日のRealtime Multi-Person Pose Estimationにつづき2回目のChainer Advent Calendar への投稿となります。私は2017年よりDeNA AIシステム部にジョインし、以来コンピュータビジョンの研究開発に従事しております。 12/16に行われた第43会CV勉強会@関東にてICCV 2017現地レポートをさせていただいたこともあり、同学会でBest Paper Awardを獲得した'Mask R-CNN' [1]を、chainercvをベースに実装してみることにしました。

図1 実装したMask R-CNNによる推論結果

背景

Mask R-CNNは、一つのネットワーク・モデルで、以下のような複数の情報を取得することのできるマルチタスク検出器です。

·      画像中の物体位置と大きさ (bounding box)

·      物体のカテゴリ (人なのか、ソファなのか)

·      物体のセグメンテーション (画素レベルでの物体位置)

·      人の体パーツ位置 (頭・肩・足など)

一枚の画像の各ピクセルをクラス分類するsemantic segmentationと異なり、本手法でのセグメンテーションは、オブジェクト毎の個別segmentationであることから、instance segmentationと呼ばれます。 例えば図1ですと、左の人と右の人は別のオブジェクトとしてsegmentationされています。ポーズ推定でも同様で、複数の人が別のオブジェクトとして認識されつつ、それぞれの体パーツの推定がおこなわれます。

このように、Mask-RCNNでは、画像内の物体領域を求め、それぞれの物体について個別に、詳細な情報を推論していくことができます。 今回は、chainercvのexampleに含まれており、Mask R-CNNの前身であるFaster R-CNNをベースに、簡単な変更だけでMask R-CNNの機能を実装していきます。

ネットワークの構成

Mask R-CNNのネットワークは、Extractorと呼ばれる特徴抽出器と、物体の候補領域をピックアップするRegion Proposal Network、そして各タスクに対応するheadと呼ばれる子ネットワークから構成されます。

①class and box head

②mask head

①はFaster R-CNNに含まれており、ピックアップした候補領域を1次元ベクトルに変換したのち、全結合ネットワークによりクラス分類、及び物体の境界であるbounding boxの位置を出力します。今回追加するのは②、すなわちセグメンテーションマスクを推定するためのheadネットワークのみです。

図2 Mask R-CNNのネットワーク構成 [1] (K. He et al., 2017)

データセットの読み込み

学習にはCOCO dataset 2017のtrainを用います。 COCO datasetは、80のオブジェクト分類及び位置、セグメンテーションマスク、人に関しては体パーツ位置など、多くのアノテーションが付与されたデータセットで、13万枚程度の学習用画像が含まれます。データセットをサンプルする関数であるget_exampleが返すのは、画像と、bounding boxラベル、そして上記 セグメンテーションマスク の4つとなります。

ここでは、セグメンテーションマスクの読み込みについて説明します。 マスク情報は、ポリゴン座標のリストという形でアノテーションデータに含まれています。ある画像に対するセグメンテーション情報をseg_polygonsに読み込んだのち、

mask_in = np.zeros((int(h), int(w)), dtype=np.uint8)

for annot_seg_polygon in annot_seg_polygons:

       N = len(annot_seg_polygon)

       rr, cc =    polygon(np.array(annot_seg_polygon[1:N:2]),

                   np.array(annot_seg_polygon[0:N:2]))

       mask_in[np.clip(rr,0,h-1), np.clip(cc,0,w-1)] = 1

のようにして、ポリゴンをセグメンテーションマスクに変換しながらmask_inに格納していきます。ここで、マスクはバイナリで、'1'が物体のある場所を表します。ここでh,wは画像のサイズと同じです。

モデルの実装

実装は、chainercvのexamplesに含まれているfaster_rcnnをベースに行っていきます。

1.ExtractorとRegion Proposal Network

まず入力画像からfeature map (特徴マップ)を抽出します。

features = self.mask_rcnn.extractor(imgs)

ここでextractor(抽出器)は、mask_rcnnクラス内で

extractor = VGG16(initialW=vgg_initialW)

のように定義されています。今回はchainercvのFaster-RCNNに倣い、VGG16の5回目のmax poolingの直前までをextractorとして使用します。他にResNet等を使用することもできます。抽出されたfeature mapのサイズは元画像の1/16になります。

次にRegion Proposal Networkを適用し、物体の存在する領域(Region of Interest, ROI)を抽出します。chainercvのregion_proposal_network.pyを変更なく用いています。

2.教師マスクデータ

次に抽出されたROIに対し、ground truth (教師データ)を設定します。 chainercvのproposal_target_creator.pyでは、抽出されたROIそれぞれとオーバーラップの大きいground truthオブジェクトを見つけ、gt_assignmentというインデックスで関連づけています。これを利用して、マスクデータの読み込みを追加します。

gt_roi_mask=[]

for i , idx in enumerate(gt_assignment[pos_index]):

    A=mask[idx, np.max((int(sample_roi[i,0]),0)):np.min((int(sample_roi[i,2]),h)),        

          np.max((int(sample_roi[i,1]),0)):np.min((int(sample_roi[i,3]),w))]

    gt_roi_mask.append(cv2.resize(A, (masksize,masksize)))

ground truthマスクは、図3のように、positiveとなったROIに相当する領域sample_roiで切り出されます。ここでROIの大きさはそれぞれ異なるのですが、正解データは全て(masksize,masksize)に固定します。masksizeは例えば14です。

図3 ground truthマスクの切り出し

ROIの切り出し方法については、本論文では新しく導入されたROI alignという手法により精度良く切り出しを行っています。本稿では簡単のため、Faster R-CNNで用いられており、chainerにも実装されているROI poolingを用います。ROI alignとROI poolingの違いについては、[2]をご参照ください。

3.Headネットワーク

ROI poolingで切り出されたfeature mapのサイズは、128(候補数) x 512 (channel数) x 7 x 7 (ROI大きさ)となっています。これを、各head networkに入力していきます。

ネットワーク定義は

·      class and box head (Faster R-CNNと同じ)

#Faster-RCNN branch

self.fc6 = L.Linear(512*roi_size*roi_size, 4096, initialW=vgg_initialW)

self.fc7 = L.Linear(4096, 4096, initialW=vgg_initialW)

self.cls_loc = L.Linear(4096, n_class * 4, initialW=vgg_initialW)

self.score = L.Linear(4096, n_class, initialW=score_initialW)

·      mask head (今回追加。サイズは7 x 7 から 14 x 14 に拡大される)

#Mask-RCNN branch

self.convm1_1 = L.Convolution2D(512,512,3,1,pad=1, initialW=None)

self.convm1_2 = L.Convolution2D(512,512,3,1,pad=1, initialW=None)

self.deconvm1 = L.Deconvolution2D(512, 256, 2, 2, initialW=None)

self.convm2_1 = L.Convolution2D(256, 256, 3, 1, pad=1,initialW=None)

self.convm2_2 = L.Convolution2D(256, n_class, 3, 1, pad=1,initialW=None)

ネットワークのforward実行は

·      class and box head

      fc6 = F.relu(self.fc6(pool)) 

      fc7 = F.relu(self.fc7(fc6))

      roi_cls_locs = self.cls_loc(fc7) 

      roi_scores = self.score(fc7)

·      mask head

·      h = F.relu(self.convm1_1(pool))

·      h = F.relu(self.convm1_2(h))

·      h = F.relu(self.deconvm1(h)) 

·      h = F.relu(self.convm2_1(h))

   masks=self.convm2_2(h)

のように行います。

4.損失関数

mask headのLoss(損失)計算のため、mask headの出力であるroi_cls_mask : 128(候補数) x 81(クラス) x 14 x 14 (マスク大きさ)から、対象ROIに存在する正解ラベルに該当するroi_mask :128(候補数) x 14 x 14(マスク大きさ) を抽出します。

roi_mask = roi_cls_mask[self.xp.arange(n_sample), gt_roi_label]

そして、同じく候補領域のground truth maskであるgt_roi_maskと比較し、損失を求めます。

mask_loss = F.sigmoid_cross_entropy(roi_mask[0:gt_roi_mask.shape[0]], gt_roi_mask)

ここでground truthは0 or 1 のバイナリで、ネットワーク出力は正負の値を持つfloat値です。損失関数としては、sigmoid cross entropyを用います。 これでmask lossが定義できました。Faster R-CNNのlossに、mask_lossを加えてできあがりです。論文で記載されているloss式に倣い、各lossの重み付けは行っていません。

loss = rpn_loc_loss + rpn_cls_loss + roi_loc_loss + roi_cls_loss + mask_loss

学習

さて、いよいよ学習です。COCO datasetは大きいので、epochでなくiterationで管理します。図4のように、およそ40万iteration (それでも3 epoch!)程度でlossの値が安定します。train lossの内訳を見ると、各lossの絶対値は異なりますが、mask loss (roi_mask_loss)も比較的初期段階から下降していきます。 セグメンテーションマスクの学習は、前述のように、候補領域に存在するオブジェクトの正解ラベルと正解マスクを用いて行われます。したがって、正確にラベル予想ができるようになる前(roi_cls_lossが下がる前)でもセグメンテーションの学習が進んでいると考えられます。

図4 train lossの推移

推論

推論の実装では、学習に用いたネットワークの出力に若干の「後処理」を加えています。 Non Maximum Supression (NMS)、およびセグメンテーションマスクの表示です。 NMS処理は、推定したBounding Boxのうち、信頼度の高いものだけを残して、それらにオーバーラップするものを排除する処理で、chainercvのNMS実装をそのまま用いています。

セグメンテーションマスクは、我々の実装では、簡単に

for my in range(mask_size):

    for mx in range(mask_size):

        mxy = (bb[1]+width/14*mx, bb[0]+height/14*my)

        Mcolor=np.clip((M[my,mx])*1,0,0.5)

        ax.add_patch(plot.Rectangle(mxy, int(width/14)+1,int(height/14)+1,

        fill=True, linewidth=0,facecolor=COLOR[i%len(COLOR)], alpha=Mcolor))

のように、Bounding Box('bb')内を(mask_size(=14), mask_size)に分割して、maskネットワークの出力'M'に応じて四角形をアルファブレンドしていきます。簡易な表示方法ですが、人物のセグメンテーションが個別に行えていることがわかります。色はパレットを作り、オブジェクト毎にランダムに選定しています。

図5 セグメンテーションマスク推論結果の可視化

まとめ

今回はICCV'17 Best PaperであるMask R-CNNの機能を、chainercvに追加するかたちで再現してみました。 実装はこちらにて公開しています。ぜひお試しください!

参考文献

[1]K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask R-CNN. In ICCV, 2017.

[2]yu4u, 最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する. https://qiita.com/yu4u/items/5cbe9db166a5d72f9eb8

続きを読む

 

2017/12/04 10:25

Amazon EC2 P3インスタンスにおけるPose Estimation速度向上検証

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。AIシステム部・AI研究開発グループの李天琦(leetenki)です。

先日Amazon EC2 P3インスタンスがリリースされるに伴い、11月9日にアマゾン東京本社にて、「Amazon EC2 GPU インスタンス 祭り」というイベントが開かれました。それに先駆けて、弊社AIシステム部では特別に先行でP3インスタンスを使用させて頂き、速度性能の評価を行いました。また、イベントでのお客様企業による登壇セッションでもその内容について発表させて頂きました。本記事でその評価結果について紹介しようと思います。

Amazon EC2 P3インスタンスとは

Amazon EC2 P3は、NVIDIA Tesla V100世代のGPUを搭載した最新のインスタンスです。GPUベースの並列コンピューティング機能を兼ね備え、CUDAやOpenCLを使用するGPGPUコンピューティング用途向けに設計ています。特に高い浮動小数点演算処理能を必要とする機械学習、Deep Learning用途に最適化されています。

2017年11月時点において、Amazon EC2で提供されているオンデマンドタイプのGPUインスタンスのうち、P3シリーズのインスタンスは下記の3種類です。全てTesla V100モデルのVoltaアーキテクチャのGPUを搭載しています。GPUの数やGPUメモリサイズ、CPUの数やCPUメモリサイズ等の細かい違いがあります。

GPUs

GPU Memory

CPUs

Main Memory

p3.2xlarge

1

16

8

61

p3.8xlarge

4

64

32

244

p3.16xlarge

8

128

64

488

検証環境

今回速度性能評価を行う上で、比較をシンプルにするために、以下の1GPUのみのp3.2xlargeタイプのインスタンス、及びこれに対応する1世代前のp2.xlargインスタンスを使用しました。

GPUs

GPU Memory

CPUs

Main Memory

p2.xlarge

1

12

4

61

p3.2xlarge

1

16

8

61

また、OS及び各種ライブラリ環境はどちらも以下のように統一させました。

OS

Ubuntu16.04

CUDA

9.0

cuDNN

7.0

chainer

3.0.0

cupy

2.0.0

検証用モデル

自分はAIシステム部内ではComputer Visionチームに所属しているという事もあり、今回は普段から業務で使っているCNN(Convlutional Neural Network)について速度検証させていただきました。具体的には、以下に述べるVGG19及び、Pose Estimationのネットワークを使用しました。

VGG19速度比較

Computer Visionのタスクを解く上で、よく使われるCNNモデルにVGG19というのがあります。これは元々、画像認識の世界的なコンペティションであるILSVRC2014において、Classification Taskの分野で世界一の精度を記録したモデルです。最近ではClassification Taskだけでなく、様々な高度なCNNモデルのベースの特徴抽出器としても使われています。そのモデル構造は非常にシンプルで、下図のように3×3のConvolution層及びPooling層のみから成り立っています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

今回VGG19の計測を行うために、元々p2インスタンス上で動かしていたコードをそのままp3インスタンスに持ってきて速度比較を行いました。本来ならば、Tensorcoreを発動させるのにp3用にソースコードをFP32からFP16に書き換えるのが望ましいですが、今回はChainerの開発ブランチが上手く動作せず、そちらについては断念しました。

以下が、p2及びp3上におけるVGG19モデルの動作速度の比較になります。このグラフでは、VGG19を1回推論処理するのに必要な平均時間を示しています。

VGG19を1回推論処理するのに、p2インスタンスでは5.7[msec]かかっていたのが、p3インスタンスでは0.62[msec]と約9〜10倍高速化される結果となりました。 なぜTensorcoreを発動せずともこのように高速化できたのかについて、詳しく調べるためにNVIDIA Profilerを使ってプロファイリングしてみました。

まずp2インスタンスについて、下図のように、処理中はGPU使用時間の約70%をimplicit_convole_sgemmというcuda関数が占めています。これは簡単に言えば、cudaを使ったconvolution層の畳み込み演算を行う関数です。

一方で、p3インスタンスの処理結果を見てみると、同じようにconvolution処理を行なうのに、implicit_convole_sgemmではなく、winograd3 × 3Kernelというcuda関数が呼び出されています。

このwinogradが何かと言うと、convolutionのカーネルサイズが小さい時(3 × 3等)に、畳み込み演算を高速化するアルゴリズムです。VGG19のモデルでは全てのconvolution層のカーネルサイズが3 × 3となっているので、このwinogradアルゴリズムにより大幅に高速されたという訳です。しかし、このwinogradアルゴリズムは実はKepler世代より前のGPUには対応していないため、今回はp3インスタンス上でのみ発動し、このwinogradアルゴリズムの差、及び元々のGPUパワーの差が効いて、9倍高速されたと推測できます。

Pose Estimation速度比較

次にPose Estimationについて速度比較を行います。このPose Estimationという技術を簡単に説明すると、RGBの2次元動画像から、映っている人の細かいPoseを推測する技術です。下図のように、実際に我々が開発を進めているスマートショップというプロジェクトでもこの技術を活用しています。

アルゴリズムの詳細については元論文を参照して頂ければと思いますが、このアルゴリズムのモデル構造は非常にシンプルです。下図にあるように、ネットワーク構造は1 × 1、3 × 3、7 × 7のConvolution 及びPooling Layerのみで構成されています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

入力画像を、まずはVGG19とほぼ同じ構造のCNNに通して、解像度を8分の1に圧縮した特徴マップを抽出します。その後段で2つのブランチに分岐し、1つはConfidence Mapsと呼ばれる、体の各key pointをheatmap形式で予測するネットワークです。下図のように、key pointの種類ごとに1channelの出力で予測します。

Part Confidence Maps (Cao, et al., 2017)

もう一つのブランチが、PAFs (Part Affinity Fields) と呼ばれる、各key point間の繋がりうる可能性を表すベクトルマップを予測するネットワークです。

出典: Part Affinity Fields (Cao, et al., 2017)

これら2つのブランチでConfidence Maps及びPAFsをそれぞれ予測した後、さらに予測した結果に最初のVGG19で抽出した特徴マップをconcatして、これを再度同じ構造のネットワークに繰り返し入力していきます。この繰り返しのネットワークをstageと言い、stageが進むほど精度があがる仕組みです。

このPose Estimationのモデルに関してはstageごとに推論速度の比較を行いました。以下が比較結果になります。

こちらの比較結果を見ると、最初のVGG19の処理部分では、p3インスタンスのほうが約8〜9倍高速化できている事がわかります。また、その次のstage1でも、p3インスタンスのほうが約7倍高速化されています。しかし、stage2以降では差が縮まり、約2.3倍しか高速化されない結果となりました。

これについてもプロファイリングしてみたところ、winogradアルゴリズムが関係している事がわかりました。先ほど説明した通り、winogradというのはconvolutionのカーネルサイズが小さい時(3 × 3等)に、畳み込み演算を高速化するアルゴリズムです。今回使用したPose Estimationのモデルでは、最初のVGG19及びstage1の部分では全てカーネルサイズが3 × 3のconvolution層で構築されているため、p3インスタンスのほうでwinogradが発動して7〜9倍高速化された訳です。しかし、stage2以降ではほとんどのconvolution層がカーネルサイズ7 × 7に置き換わるため、p3でwinogradを発動させる事ができず、GPUパワーの違いのみで、そこまで大きく速度差が開かなかったと考えられます。

Batch処理の速度比較

以上のpose estimationの推論速度の比較を行ったところ、winogradが発動しない場合はGPUパワーのみの違いで約2〜3倍しか差が開かない事がわかりました。しかし、GPU使用率を見てみると、p2インスタンスではGPU使用率100%といっぱいいっぱいなのに対し、p3インスタンスではGPU使用率が34%とまだかなり余裕があるように思えます。

そこで、Batch処理を行って、どちらもGPU使用率を100%まで使い切った状態で速度比較を行いました。下図が、batchサイズを増やした際のp2インスタンス及びp3インスタンスの推論処理時間になります。

batch size 1の時ではp3インスタンスのほうが処理速度3.7倍(stage 2までのトータル処理速度)だったのに対し、batch sizeを大きくしていけば行くほど処理速度の差が開いていく結果になりました。グラフにあるように、p2インスタンスではbatch sizeを32倍にすると処理速度もそれに比例して約30倍ほど遅くなるのに対し、p3インスタンスではbatch sizeを32倍にしても処理速度は約8〜9倍しか遅くならないという結果となりました。倍率で言うと、batch size 32で処理した場合はwinogradの発動しないstage2以降でも、p3インスタンスのほうが8倍以上高速化可能という事になります。

ちょうど、今までp2インスタンス上でリアルタイムのPose Estimationを行うのに約3〜4FPSとフレームレート的にカクカクだったので、これをp3インスタンスに置き換えれば30FPSと完全にリアルタイムで処理できるという事になります。

訓練速度比較

ここまで推論の話を書いてきたので、訓練についても速度比較を行ってみます。ここでは、Pose Estimationのモデルをフルスクラッチで訓練させ、1回の順伝搬及び逆伝搬にかかったイテレーション時間を計測します。なお、batch sizeはGPUメモリの都合上どちらも16とします。

以下が訓練における速度比較結果になります。p2インスタンスでは1回のイテレーションを行うのに9.8秒かかったのが、p3インスタンスでは1.3秒と約7.5倍高速化された結果となりました。ちょうど今までp2インスタンスでの訓練に1週間ほどかかっていたのが、1日で完了するので実用的にはかなり嬉しいですね。

速度

p2インスタンス

9.8[sec/iter]

p3インスタンス

1.3[sec/iter]

コストパフォーマンス比較

今回速度比較に用いたp2.xlarge及びp3.2xlargeインスタンスについて、東京リージョンの価格を比較してみます。

価格

p2.xlarge

$1.542/hour

p3.2xlarge

$5.243/hour

このように、コスト面ではp3.2xlargeのほうが約3.4倍高くなっています。しかしこれまで説明した通り、p2インスタンス上で動いていたコードに特に変更を加えなくとも、そのままp3インスタンスに持って行けば約7〜9倍高速化できるので、値段の割にコスパはかなり良いと思います。そして今回は残念ながら触れられませんでしたが、Volta世帯のGPUの目玉機能であるTensorcoreが発動するようコードを修正すれば、更に10倍速以上の高速化が期待できますので、機会があればそちらにもチャレンジしてみようと思います。

おまけ

おまけですが、今回p2及びp3インスタンスの速度比較に使用したPose Estimationのソースコードについて、こちらでオープンソース公開していますので、皆さんもし良かったら試してみてください。

参考文献

・Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017. arXiv:1611.08050 [cs.CV].

続きを読む

 

2017/11/21 11:36

Chainerを用いたRealtime Multi-Person Pose Estimation実装

TianqiLi

Keywords: AI

はじめに

皆さんこんにちは。DeNAのAI研究開発エンジニアの李天琦(leetenki)です。今日はChainer Advent Calendar 2017の初日エントリという事で、Realtime Multi-Person Pose Estimationの実装について解説させて頂きます。

pose estimationの実行結果

背景

Realtime Multi-Person Pose Estimationとは、CVPR2017でCMUが発表した、RGBの2次元画像のみから複数人のPose情報を検出するアルゴリズム (Cao, et al., 2017) です。特徴は、1枚の画像から複数人のPoseを検出するために、それまで主流であったBounding Boxを検出した後に各Boxに対してPose検出するというトップダウン方式を取らずに、ボトムアップかつワンショットに複数人のPoseを推定してしまう点です。画像に映ってる人数に関わらず1回の推論でPose推定を行うので、Realtimeに処理できるほど高速という訳です。また、1回の推論でPoseまで検出できるので、Bounding Boxから検出するトップダウン方式に比べると誤差の蓄積がなく、精度も著しく向上しています。事実こちらのアルゴリズムは2016 MSCOCO Keypoints Challengeで優勝し、この時点においてのstate-of-the-artを記録しています。

CMUのオリジナル実装はCaffeをベースにしたopenposeというライブラリで公開されています。TensorFlowやPyTorchによる再現実装も有志で行われているようですが、Chainer実装で公開されているものはなかったので、今回はこれをChainer化していこうと思います。コードはこちらを参照してください。

モデル解説

実装の話に入る前に、まずはモデルの構造を簡単に説明しておきます。

詳細は元論文を参照して頂ければと思いますが、このアルゴリズムのアーキテクチャ自体は非常にシンプルです。以下のモデル図にあるように、ネットワーク構造は1 × 1、3 × 3、7 × 7のConvolution 及びPooling Layerのみで構成されています。

Architecture of the two-branch multi-stage CNN (Cao, et al., 2017)

入力画像を、まずはVGG19とほぼ同じ構造のCNNに通して、解像度を8分の1に圧縮した特徴マップを抽出します。その後段は2つのブランチに分岐しており、1つはConfidence Mapsと呼ばれる、体の各key pointをheatmap形式で予測するネットワークです。下図のように、key pointの種類ごとに1channelの出力で予測します。

Part Confidence Maps (Cao, et al., 2017)

もう一つのブランチが、PAFs (Part Affinity Fields) と呼ばれる、各key point間の繋がりうる可能性を表すベクトルマップを予測するネットワークです。繋がりが定義されているkey point間を結ぶ線分上(正確には一定の幅を持つ領域)の全てのピクセルにおいて、一定の長さを持つ方向ベクトルが定義されます。このベクトルはxとyの2枚チャンネルのheatmapによって表現されます。下図の例では、オレンジ色となっている部分が、肩から腕にかけての方向ベクトルのマップです。

出典: Part Affinity Fields (Cao, et al., 2017)

これら2つのブランチでConfidence Maps及びPAFsをそれぞれ予測した後、さらに予測した結果に最初のVGG19で抽出した特徴マップをconcatして、これを再度同じ構造のネットワークに繰り返し入力していきます。この繰り返しのネットワークをstageと言い、stageが進むほど精度があがる仕組みです。

モデルの実装

では実装の解説に入っていきましょう。MSCOCO Keypoints Challenge 2016で訓練済みの重みパラメータファイルがこちらで公開されていますので、今回まずこれをChainer用に変換して、推論の処理を実装して行きます。

先ほど説明したように、このアルゴリズムのネットワーク構造自体は非常にシンプルで、1 × 1、3 × 3、及び7 × 7のConvolution Layerのみで構成されています。ゆえに、chainer.links.caffe.CaffeFunctionを使えば簡単にcaffemodelを読み込む事ができます。ただし、CaffeFunctionを使ったcaffemodelの読み込みは非常に時間がかかるので、毎回使い回す事を考えて、一旦自前でChainerのLayer定義を書いて、これに重みパラメータを代入した状態でnpzファイルに書き出します。

ChainerのLayer定義ファイルはこちらです。以下のconv11からconv44_CPMの部分が最初のVGG19を使った特徴抽出器です。VGG19と同じ構造で、全て3 × 3のConvolution Layerとなっています。これによって画像サイズが8分の1に圧縮されたFeature mapが出力されます。

# cnn to make feature map

conv1_1=L.Convolution2D(in_channels=3, out_channels=64, ksize=3, stride=1, pad=1),

conv1_2=L.Convolution2D(in_channels=64, out_channels=64, ksize=3, stride=1, pad=1),

conv2_1=L.Convolution2D(in_channels=64, out_channels=128, ksize=3, stride=1, pad=1),

conv2_2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv3_1=L.Convolution2D(in_channels=128, out_channels=256, ksize=3, stride=1, pad=1),

conv3_2=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv3_3=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv3_4=L.Convolution2D(in_channels=256, out_channels=256, ksize=3, stride=1, pad=1),

conv4_1=L.Convolution2D(in_channels=256, out_channels=512, ksize=3, stride=1, pad=1),

conv4_2=L.Convolution2D(in_channels=512, out_channels=512, ksize=3, stride=1, pad=1),

conv4_3_CPM=L.Convolution2D(in_channels=512, out_channels=256, ksize=3, stride=1, pad=1),

conv4_4_CPM=L.Convolution2D(in_channels=256, out_channels=128, ksize=3, stride=1, pad=1),

その後に続く以下のような2分岐されたConvolution Layerが、各StageにおけるPAFs及びConfidence Mapsの計算部分になります。ここではL1とついてるのがPAFsで、L2がConfidence Mapsになります。そして、stage1ではカーネルサイズ3 × 3のConvolution Layerで構成されていますが、stage2以降ではreceptive fieldを広げるために7 × 7のConvolutionに置き換わっています。stage3以降のネットワークも全てstage2と同じ構造となっています。

# stage1

conv5_1_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_2_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_3_CPM_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_4_CPM_L1=L.Convolution2D(in_channels=128, out_channels=512, ksize=1, stride=1, pad=0),

conv5_5_CPM_L1=L.Convolution2D(in_channels=512, out_channels=38, ksize=1, stride=1, pad=0),

conv5_1_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_2_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_3_CPM_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=3, stride=1, pad=1),

conv5_4_CPM_L2=L.Convolution2D(in_channels=128, out_channels=512, ksize=1, stride=1, pad=0),

conv5_5_CPM_L2=L.Convolution2D(in_channels=512, out_channels=19, ksize=1, stride=1, pad=0),

# stage2

Mconv1_stage2_L1=L.Convolution2D(in_channels=185, out_channels=128, ksize=7, stride=1, pad=3),

Mconv2_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv3_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv4_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv5_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv6_stage2_L1=L.Convolution2D(in_channels=128, out_channels=128, ksize=1, stride=1, pad=0),

Mconv7_stage2_L1=L.Convolution2D(in_channels=128, out_channels=38, ksize=1, stride=1, pad=0),

Mconv1_stage2_L2=L.Convolution2D(in_channels=185, out_channels=128, ksize=7, stride=1, pad=3),

Mconv2_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv3_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv4_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv5_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=7, stride=1, pad=3),

Mconv6_stage2_L2=L.Convolution2D(in_channels=128, out_channels=128, ksize=1, stride=1, pad=0),

Mconv7_stage2_L2=L.Convolution2D(in_channels=128, out_channels=19, ksize=1, stride=1, pad=0),

次に、caffemodelをChainer用に変換します。変換用コードはこちらです。重みパラメータの代入部分は以下のようになります。

exec("chainer_model.%s.W.data = caffe_model['%s'].W.data" % (layer_name, layer_name))

exec("chainer_model.%s.b.data = caffe_model['%s'].b.data" % (layer_name, layer_name))

Convolution Layerの場合、W.dataとb.dataのみ代入すれば済みますので、これを全てのLayerに対して繰り返すだけです。

推論の実装

ネットワークの推論の実装はこちらです。実際にCNNの処理を行っている部分はこれだけです。

h1s, h2s = self.model(x_data)

RGB画像をCNNに通して、PAFsとConfidence Mapsの出力を得るだけですね。ただ、このアルゴリズムのミソはその後処理部分で、得られたPAFsとConfidence Mapsからスケルトン情報を再構築する部分が最も複雑です。では順を追って説明していきます。

① PAFsとConfidence Mapsのサイズ拡大

ネットワークから出力されるfeature mapは幅も高さも8分の1に圧縮されているので、まずはこれをresizeしてオリジナルの画像サイズに引き伸ばします。Chainer2.0からはchainer.functions.resize_imagesというFunctionが定義されたので、これを使うとVariableのまま計算できます。

② Confidence Mapsをガウシアン平滑化

8倍サイズに引き伸ばした直後のConfidence Mapsは、peak周りがデコボコしていて、山がハッキリしないので、これにガウシアンフィルタをかけてpeakを一定に平滑化します。scipy.ndimage.filters.gaussian_filterを使えば簡単に実装できるのでオススメです。以下がガウシアン平滑化の計算部分になります。

heatmap = gaussian_filter(heatmaps[i], sigma=params['gaussian_sigma'])

下図の左がガウシアンフィルタをかける前で、右がかけた後です。

ちなみに、これをVariableのままGPUを使って計算したい場合、chainer.functions.convolution_2dを使って、ガウシアンカーネルを手動で定義してあげれば実装できます。

③ Confidence Mapsからkey point座標を求める

ガウシアンフィルタをかけた後のConfidence Mapsは下図(右)のようになります。ここから、peakの(x, y)座標を求めます。実はこのConfidence Mapsからpeakの座標値を求める処理が意外に計算コストが高いのです。

実際にConfidence Mapsからpeak座標を求める処理は以下の部分になります。

map_left = xp.zeros(heatmap.shape)

map_right = xp.zeros(heatmap.shape)

map_top = xp.zeros(heatmap.shape)

map_bottom = xp.zeros(heatmap.shape)

map_left[1:, :] = heatmap[:-1, :]

map_right[:-1, :] = heatmap[1:, :]

map_top[:, 1:] = heatmap[:, :-1]

map_bottom[:, :-1] = heatmap[:, 1:]

 

peaks_binary = xp.logical_and.reduce((

    heatmap >= map_left,

    heatmap >= map_right,

    heatmap >= map_top,

    heatmap >= map_bottom,

    heatmap > params['heatmap_peak_thresh']

))

ここでは効率良く計算するために、Confidence Mapsを上下左右に1ピクセルずつずらしたheatmapを4枚用意します、オリジナルのConfidence Mapsと上下左右のheatmapを比較して、その全てより値が大きいピクセルをkey pointとして座標抽出するようにしています。

④ key point間のPAFsを積分

key pointが全て求まった後、関係あるkey pointだけをグルーピングして人のスケルトンを構築する必要があります。論文では、2種類のkey point間の考え得る全てのconnectionの組合せを実際に繋げてみて、その間のPAFsの積分値で同じグループか否かを判別します。ちなみに、そもそもなぜこのPAFsの積分を行うのかと言うと、訓練時に、関係あるkey pointの間には一定の方向ベクトルが定義され、関係ないkey point間ではゼロベクトルが定義されるので、推論する時にはこれを手掛りにkey point間のベクトルの方向及び大きさの合計を見れば、2つのkey pointが関係あるか否か判別できるのです。

PAFsの積分は元論文に書いてある通り、2点間を結ぶ線分上の各ピクセルにおいて、その水平方向ベクトルと実際の推論で求まったベクトル値の内積をとって、全部足し合わせるという手法です。

single limb with groundtruth positions (Cao, et al., 2017)

これを実際に実装しているのが以下の部分になります。params[‘nintegpoints’]というのは、2点間を何分割するかというハイパーパラメータで、今回は10に設定しています。

vec_unit = vec / vec_len

integ_points = zip(

    np.linspace(joint_a[0], joint_b[0], num=params['n_integ_points']),

    np.linspace(joint_a[1], joint_b[1], num=params['n_integ_points'])

)

paf_in_edge = self.extract_paf_in_points(paf, integ_points)

inner_products = np.dot(paf_in_edge, vec_unit)

⑤ connectionの選択

以上の④までで、各点間の候補となるconnectionはPAFsによって重み付けられた積分値を得る事ができました。最後はこれを使って有効なconnectionを選択していきます。本来であれば2種類のkey point間で考え得る全パターンの組合せを作り、そのトータルのPAFs積分値が最大となる組合せを選択すべきですが、これを愚直に実装すると人数が増えるにつれて計算量がO(n^2)で増えていきます。なので、今回はgreedy法を採用し、PAFs積分値を大きい順にソートして上から順に選択していきます。そしてそれ以上選べるkey pointがなくなった時点で打ち切るようにしています。以上の処理はcompute_connectionsという関数で実装しています。

推論処理の実装は以上です。モデル訓練の話はData AugmentationやPAFs生成と長くなりそうなので、また次回のパートⅡで書こうと思います。

実行結果

ではてきとうな画像を使って推論を試してみましょう。

完璧にPose認識できていますね。

人が増えても、遠くにいても問題ないですね。 ※ちなみに推論処理のスケールについて、entity.pyというファイル内で以下のように定義しているハイパーパラメータがあります。

'inference_scales': [0.5, 1.0, 1.5]

これは画像を0.5倍、1.0倍、1.5倍のスケールでそれぞれ推論し、その結果を平均するという意味です。速度と精度のトレードオフだと思いますが、この値を調整すればいろんなスケールに対して高精度にPose検出する事ができます。

今回、chainerで実装したRealtime Multi-Person Pose Estimationのコードは全てこちらで公開していますので、皆さん興味があればぜひご自分の環境で動かしてみてください。

参考文献

・Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017. arXiv:1611.08050 [cs.CV].

続きを読む

 

2017/10/26 10:36

KDD2017に参加してきました

Akira Kasuga

Keywords: AI レポート

はじめに

こんにちは。AIシステム部研究開発グループの春日です。当グループではCV/NLP/RLといった技術領域を中心に研究開発を行い、実際のサービスへの活用を行っております。近年では会社として次の柱とすべくオートモーティブ事業へも注力しており、ここで活用される機械学習技術も当グループで開発を担っています。そこで、KDDというデータマイニング分野でのトップカンファレンスを聴講しにいき、オートモーティブ事業関連で活用されている技術についてキャッチアップしてきました。今回はその内容についてお伝えしていきたいと思います。

KDDとは

KDDの正式名称は「International Conference on Knowledge Discovery and Data Mining」です。今回は23回目の開催であり、1990年代にデータマイニングという研究分野が明確に確立されてから現在も盛んに研究発表がなされています。開催期間は8/13-17の5日間でした。初日はTutorial Day、2日目がWorkshop Dayという特定のテーマに沿った発表です。3-5日目がMain KDD Conferenceで、採択率約10%で採択された優秀な論文が発表されます。

開催場所

開催場所は、カナダ・ハリファックス (Halifax, Nova Scotia - Canada) です。日本からだと直行便がなく、最短で約17時間はかかる場所です。小さい町ですが港町として栄えており、非常に過ごしやすい場所でした。

[ 会場のHalifax World Trade and Convention Centre]

さすが、港町というだけあって平然とロブスターが大量に叩き売りされています。

[ロブスターの陳列]

近年のデータサイエンスブームの波を受けたこともあり、過去最多の1143本が投稿され、Main Conferenceに採択されたのは100本、Posterに採択されたのは116本でした。

セッションの様子

投稿された論文のうちMain Conferenceに採択されると口頭での発表ができます。カテゴリごとに複数の会場があり、各会場とも300人程度のキャパシティがあります。人気なところは立ち見になることもあります。Google社の講演 TFX: A TensorFlow-Based Production-Scale Machine Learning Platform (Denis Baylor et al.) は大変盛況でした。

[Main Conferenceでの発表の様子(KDD2017での講演より)]

一方で、Posterに採択されると、19:00-22:00の夜の時間帯で会場に自身の研究内容をポスターで展示し、参加者からの質疑応答に応える形式で発表がされます。

[Poster発表会場の様子(KDD2017でのポスター展示より)]

注目の論文

今回KDDに参加した中で、オートモーティブドメインにおいて注目すべき論文を取り上げて紹介します。

·      The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (DiDi Chuxing)

こちらは中国の配車最大手「DiDi Chuning」による論文 The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (Yongxin Tong et al.) です。DiDiはUber Chinaを350億ドルで買収したことで一大ニュースとなった有力企業です。そのDiDiが主力事業としているタクシー配車におけるタクシー需要のオンライン予測システムに関する論文です。UOTD(Unit Original Taxi Demand)とは、下図で示すようにそれぞれのPOIや時間ごとのタクシーの需要を意味します。ここでは1時間ごとのZhongguancun Software Parkにおけるタクシー需要の予測値を示しています。

[タクシー需要のオンライン予測 [1]]

特徴的なのが、DeepLearningを代表とする複雑なネットワークモデルを用いて予測するのではなく、以下の式で示すような単純な線形回帰モデルで予測している点です。これにシンプルな正則化項を加えただけのモデルです。

[需要予測に用いているモデル [1]]

ただし、特徴量は合計で2億次元以上という非常に大規模なものを用いています。これには、時間や天気、POIといった様々な特徴を組み合わせたものも含みます。

[大規模な特徴量構成 [1]]

このようなモデルを用いている背景にはビジネス観点があります。それは法規制等の環境の変化に伴って、新たな特徴が加わるごとに、モデル自体を見直すのは非常に高コストであるからという考えです。DeepLearningのようなモデルは、入力が変化する度にハイパーパラメーターチューニングに非常に時間やリソースがかかってしまうため、モデルは線形回帰と固定して特徴量だけ再設計することで、新たな予測をするということです。サービスから得られた実データを用いた実験では、NNやGBRTといった手法より高精度で予測できています。 近年では、AI = DeepLearning という認識が広まりつつあるのですが、ビジネスへの活用という観点ではこのような古典的かつシンプルな線形回帰で十分なバリューを発揮するという意味で非常に面白い論文です。

[1] The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands on Large-Scale Online Platforms (Yongxin Tong et al.)

·      A Taxi Order Dispatch Model based On Combinatorial Optimization (DiDi Chuxing)

同じくDiDiによる論文ですが、こちらはタクシー配車におけるDispatchを扱ったものです A Taxi Order Dispatch Model based On Combinatorial Optimization [Lingyu Zhang et al.] 。Dispatchとはタクシードライバーと顧客の配車オーダーの割当を意味し、これをどのように最適化するかという問題です。まず前提として、顧客が配車オーダーを出した段階で、ドライバーにリクエストが送信されます。ドライバーはそれを承諾するか拒否するかという行動をとることができます。よって、どのオーダーをどのドライバーに割り当てれば承諾の成功確率(=SR)を最も高くできるかを考えなくてはなりません。単純には、配車オーダーがあった地点から最も近い地点のドライバーを割り当てるといった方法が考えられます。

[オーダーとドライバーの位置関係の例 [2]]

DiDiの提案手法では、まずドライバーの承諾確率をモデル化します:pij=p(y=1|oi,dj) oiはオーダーに関連するETAやPOIのカテゴリーといった特徴量、djはドライバーに関連する過去の承諾率や営業エリアといった特徴量です。さらに曜日や時間といった特徴も加えて、承諾確率pijをモデル化します。ここではLogistic Regressionが用いられています。 この承諾確率を用いてSRの平均を最大化するオーダーとドライバーの割当の組み合わせを以下に式に従って最適化します。

[Order Dispatch Problem [2]]

この際、Hill-climbing Algorithmを用いて最適解を求めます。北京市内の実データに適用実験した結果、SRがベースラインモデルの80%から84%に向上したということです。

[実験結果 [2]]

DiDiは自社にどんどん蓄積される豊富なデータを用いて、より効率的なモデルの独自開発を行っており、今後も注目すべき企業だといえます。 [2] A Taxi Order Dispatch Model based On Combinatorial Optimization [Lingyu Zhang et al.]

·      Planning Bike Paths based on Sharing-Bikes' Trajectories (Microsoft Research)

こちらは最近日本進出でも話題となったMobikeのデータを用いた自転車専用レーンの設計計画に関するMicrosoft Researchの論文 Planning Bike Paths based on Sharing-Bikes' Trajectories [Jie Bao et al.]

[Mobikeユーザーの走行軌跡データ(KDD2017での講演より)]

中国では大気汚染や交通渋滞の解消のためにシェアバイクが急速に普及しています。しかし、自転車専用レーンが整備されていないため、安全性が不十分という問題があります。そこで、予算という制約のもとで、いかに効率的に専用レーンを建設すべきかが今回の目的です。 各ユーザーの走行軌跡に対して建設した専用レーンのスコアをscore(,)=ssegs()s.ls.lと定義します。これを合計したスコアTscore(,)を最大化するように専用レーンを建設する計画を立てます。 方法はシンプルで、①開始点を抽出する ②Greedy Network Expansionによって道路リンクを繋いでいく というステップで最終的に建設する道路ネットワークを抽出・可視化します。 ①の開始点の抽出ですが、単純には最も頻繁に使われる上位数点を用いるといったことが考えられます。そうすると、頻繁に通る道はたいてい近い場所にあることが多いので、かなり近い範囲で開始点が定まってしまうことが問題です。そこでSpatial Clusteringを行うことで、空間的な広がりも考慮しながら開始点を定めるというところが本手法のコアです。これによって、下図で示すように、地図上で広がりのある道路ネットワークを可視化できていることがわかります。 ②のGreedy Network Expansionでは、①で決めた開始点を繋ぐように貪欲に道路リンクを探索していきます。もちろん予算という制約があるので、出来る限りの開始点を繋げるように道路リンクを広げていきます。

[Spatial Clusteringを用いた結果 [3]]

[3] Planning Bike Paths based on Sharing-Bikes' Trajectories [Jie Bao et al.]

KDD Cup 2017

最後に KDD Cup というデータ分析コンテストについて共有します。KDD Cup では提供されたデータセットに対して課題が設定され、その課題におけるモデルの精度を競うコンペティションです。世界的にも権威と歴史がある大会で、トップクラスのデータサイエンティストが競い合います。今回のテーマは、''Highway Tollgates Traffic Flow Prediction" でした。課題設定は2つあり、①Travel Time Prediction ②Volume Prediction です。ここでは、①Travel Time Predictionについて取り上げます。

[Highway Tollgates Traffic Flow Prediction [5]]

このタスクは交差点から料金所の旅行時間を予測するというものです。例えば上図でいうと、IntersectionAからTollgate2の区間での車両の通過時間を意味します。用いるデータセットは各区間の車両軌跡データ・該当エリアの天気・道路ネットワークです。評価指標は移動時間予測タスクにおける一般的な指標であるMAPE(Mean Absolute Precentage Error) です。優勝チームであるTeam Convolutionは、MAPE=0.1748でした。このチームが優勝したポイントはモデル・特徴・データという3つのレベルでのアンサンブル学習にあります。モデルレベルではXGBoostやMultilayer Perceptron等のモデルを用いたアンサンブル学習とします。特徴レベルでは異なる減衰係数やスムージング係数等を用いて算出した特徴量を組み合わせたものをアンサンブル学習させます。データレベルでは異なる滑走窓の値や分割数でのデータによりアンサンブル学習させます。このように3つのレベルでたくさんアンサンブル学習させることにより汎化性能を上げ、MAPE = 0.1748という精度を得られています。かなりテクニカルではありますが、基本的には複雑なモデルを用いずに、BoostingやMLPといった古き良き古典的なモデルを用いている点が面白いです。実際のビジネスの場でも最新の複雑なモデルではなく、広く一般的に使われているモデルを用いる場面も多々あります。

[5] KDD Cup 2017

全体の感想

KDDという学会は扱う分野がかなり幅広いのですが、今回は主にオートモーティブ事業関連について取り上げました。他にもClusteringやGraphなどの理論寄りに関する研究から、Medical DataやRecommendationといった実務寄りの研究まで多様な研究が発表されていました。ご興味ある方はこちらのAccepted Paperからご覧下さい ( http://www.kdd.org/kdd2017/accepted-papers ) 今回の学会参加を通して、最先端のオートモーティブ事業で取り組まれている技術についてキャッチアップできたことはもちろん、参加者の方々とのネットワーキングができたことも大変刺激的で良い勉強になりました。 DeNAでは国際学会派遣制度というものがあり、私のような新卒1年目でも積極的に学会に参加することができます。こういった制度を活用してスキルアップできる環境は素晴らしいと思います。一緒に働いてみたいと思われた方は是非ご一報下さい!

続きを読む

 

2017/10/24 18:58

Google機械学習活用勉強会レポート

Koichiro Mori

Keywords: AI レポート 勉強会

はじめに

AIシステム部・AI研究開発グループの森と申します。この4月にDeNAに転職し、現在は主に画像や音声に関するDeep Learningの研究開発に従事しています。

DeNAでは、機械学習・人工知能(AI)技術を積極的に事業活用していく方針が全社的に打ち出されており、その一環として、エンジニアを対象にしたGoogle社様による勉強会が定期的に開催されています。

8月に行われた1回目の勉強会では、

·      Googleの機械学習プロジェクト

·      機械学習をビジネスに応用する際のポイント

·      Google Cloud Platformで提供されている機械学習APIの概要

などをGoogle Cloud ソリューションアーキテクトの中井悦司さんに講義していただきました。

リンク:Google機械学習系API勉強会レポート https://engineer.dena.jp/2017/08/googleapi.html

2回目である今回の勉強会では、前回同様に中井悦司さんにお越しいただき、Google Cloud Platform (GCP) が提供する機械学習サービスをより実践的な面から講義していただきました。本勉強会には、DeNAのエンジニアを中心に約80名が参加しました。

勉強会の様子

GCPが提供する機械学習サービス

1回目の勉強会では、Cloud Vision API、Cloud Speech API、Cloud Natural Language APIなど学習済みモデルのWeb APIが中心的な話題でした。

講演資料より

今回は、学習済みモデルのAPIではなく、TensorFlowとCloud Machine Learning (ML) Engineを用いて、データからオリジナルモデルを学習し、新しいAPIをデプロイするまでの流れを一通り解説していただきました。以後、演習で使用した各サービスを簡単にレポートします。

講演資料より

データ

BigQueryで公開されているOpen Natality Datasetを使いました。母親のさまざまな属性(人種、年齢など)と生まれた赤ちゃんの体重に関連する表形式のデータです。このデータを用いて母親の属性から赤ちゃんの体重を予測する回帰モデルをGCPのサービスを組み合わせて実現するのが目的です。

Cloud Datalab

Cloud Datalabは、データの探索、分析、可視化、機械学習モデル構築を行うためのインタラクティブツールです。Pythonのデータ分析環境として有名なJupyter Notebookと同じユーザインタフェースでGCP上のさまざまなサービスと連携することができます。今回は、BigQueryからのデータ収集、可視化による統計分析、データ前処理、機械学習モデル構築まですべてCloud Datalab上で実行しました。

演習に用いたノートブック

BigQuery

BigQueryは、ペタバイト級のデータを格納できるデータウェアハウスサービスです。講義ではOpen Natality Datasetの公開データベースからSQLを使って500万件のデータを収集しました。BigQueryの検索結果は、Pythonのデータ解析ライブラリであるpandasのDataFrame形式に変換できるため高度な統計分析や可視化が簡単にできます。

Cloud Dataflow

Cloud Dataflowは、パイプライン処理によってデータ前処理ができるサービスです。今回は、BigQueryから収集したデータに対して、(1) 属性の変換 (2) 訓練データとテストデータへの分割 (3) CSV形式でCloud Storageに格納という一連のパイプラインを実行しました。

講演資料より

Cloud Dataflowは、処理するデータ量によって自動的にインスタンスが立ち上がるオートスケールに対応しており、何も意識することなく高速にデータ処理ができます。実際に背後でGoogle Compute Engineのインスタンスが自動的に立ち上がる様子も確認できました。

TensorFlow

TensorFlowは、Googleが提供している機械学習ライブラリです。DeNAのAI開発部でも多くのエンジニアが日常的に活用しています。

今回の勉強会では、カテゴリ変数(母親の人種など)と量的変数(母親の年齢など)を組み合わせたモデルを作るために tf.contrib.learn.DNNLinearCombinedRegressor (Wide & Deep Model) を使いました。このような複雑なモデルもTensorFlowのhigh-level APIを活用すると簡単に書けます。

講演資料より

Cloud Machine Learning Engine

Cloud DataLab上では小規模データによるテストまで行い、本番の大規模データによるモデル学習は、Cloud ML Engineを使いました。

Cloud ML Engineは、TensorFlowで構築したモデルの訓練、訓練したモデルのデプロイ、APIの提供までGCP上でシームレスに実行できるサービスです。Experiment APIを用いてモデル・訓練データ・テストデータ・評価指標を設定することで分散環境で高速にモデル学習ができます。

学習経過のログはCloud Storageに保存されるため、Cloud DataLabからTensorboardを呼び出すことで学習経過を可視化することもできます。

Tensorboardの出力例

学習済みモデルも同様にCloud Storageに保存されます。この学習済みモデルはCloud ML EngineのWebインターフェイスまたはgcloudコマンドを使うことで簡単にデプロイできます。デプロイしたモデルは、Web APIとして提供されるのでアプリケーションからjson形式のリクエストを送ることで利用できます。Cloud ML Engine上ではリクエストの頻度などAPIの使用状況も確認できます。

Google App Engine

Google App Engineを使うことで、デプロイしたWeb APIを利用するWebアプリケーションが構築できます。今回は、母親の情報から赤ちゃんの体重を予測するアプリケーションを作成しました。

完成したWebアプリケーション

ハンズオン

後半のハンズオンでは各参加者にGCPプロジェクトのアカウントが配布され、前半の講義で習った内容を実際に手を動かして体験することができました。弊社のインフラ基盤チームとGoogleエンジニアによるサポートやSlackでの情報交換により演習を円滑に進めることができました。

まとめ

今回の勉強会では、Google Cloud Platform上で、機械学習アプリケーションを構築する流れを一通り体験することができました。

これまでオンプレミス環境でWebサーバを立てて、モデルをアップロードして、アプリケーションを書いてという流れは一通り経験していましたが、これらをすべてクラウド上でかつ簡単な操作で実現できることに驚かされました。

現在、AIシステム部では、さまざまな機械学習・AI案件に取り組んでおり、迅速なサービス開発・デプロイが求められることが多くなっています。今後は、Google Cloud PlatformとCloud ML Engineを積極的に活用して効率的にサービス展開していきたいと考えています。

より深く理解するために

講師の中井さんからGCPをより深く理解するためのリソースをご紹介いただきました。

GoogleCloudPlatform / training-data-analyst https://github.com/GoogleCloudPlatform/training-data-analyst

今回の演習で使ったGithubのリポジトリです。今回の演習では blogs/babyweight を使いました。

データサイエンスに関する初心者向けの参考書 http://enakai00.hatenablog.com/entry/2017/02/20/124112

中井さんのブログ記事です。

Data Engineering on Google Cloud Platform https://www.coursera.org/specializations/gcp-data-machine-learning

Courseraが提供している有料のコースです。今回の勉強会の内容をすべて含んでいます。

続きを読む

 

2017/09/26 17:36

第1回 SHIBUYA SYNAPSE が開催されました

KoheiNishino

Keywords: AI 勉強会

はじめに

AIシステム部の西野剛平です。AIシステム部ではAI研究開発グループに所属しており、Computer Visionの技術を中心に研究開発を行っています。

8/30にAI技術に関するイベントSHIBUYA SYNAPSEの第1回目を弊社内にあるSakuraCafeにて開催し、そこで現在私が関わっている「スマートショップ実現に向けた取り組み」に関してご紹介させて頂きました。 今回は、エンジニアブログという事もあり、イベントで発表した内容のうち、特に技術的な内容について紹介したいと思います。

SHIBUYA SYNAPSEとは

昨今のAI技術は深層学習を中心に目まぐるしく進化しており、それとともにビジネスへの適用も着実に行われてきております。SHIBUYA SYNAPSEは、このような環境において、企業×大学や、プランナー×エンジニアといった異なるバックグラウンドを持つ参加者の有機的なつながりにより、価値あるサービスの共創の場を提供することを目的に設立されました。より詳細な情報に関してはSHIBUYA SYNAPSEのホームページをご覧いただければと思います。

今回は、SHIBUYA SYNAPSEの記念すべき第1回目で、東京大学の山崎俊彦准教授をメインスピーカーにお招きし、山崎先生からは「魅力」の予測や解析に関してのご紹介をして頂きました。また、イベントの最後には懇親会もあり、AIに対して様々な携わり方をしている方同士での意見交換が広く行われるなど、大盛況のうちにイベントを終わる事ができたのではないかと思います。

スマートショップの実現に向けた研究

インターネット上でのサービスにおいては、お客様に合った最適なコンテンツの配信、ログ情報からお客様の行動を解析して迷わない導線に改善するなど、日々サービスを快適にご利用頂く工夫が行われております。しかし、リアルな店舗においてはそのような最適化はあまり行われていないため、快適なサービスを提供するという点では、まだまだ改善の余地があるのではないかと考えております。 私たちは、AI技術を活用することで、リアルの店舗においても一人一人のお客様の状況に合わせた接客やリアルタイムの商品推奨など、今までにないショップ体験の提供ができないかを考え、将来のスマートショップの実現を見据えた研究開発を行っています。

姿勢推定技術を活用した同一人物の再認識

スマートショップの実現のためには、店内でのお客様の状況を把握する技術の確立が不可欠です。その第一ステップとして、定点カメラからの映像を元に、深層学習ベースの姿勢推定技術を活用した、同一人物の再認識技術の開発を行いました。

本手法は、人物の検出と検出された人物の同定を繰り返し行っていくというのが大枠の流れとなっており、この人物の検出タスク部分に姿勢推定技術を利用したのは、高精度であるというのが一番の理由ですが、その他にも将来性を考慮したいという意図があります。姿勢推定では一般的な検出器で検出される人の矩形情報を得られるだけでなく、各体のパーツを表す器官点情報までも同時に検出することができます。これらの情報は非常に有用で、今後別のタスクを解く必要が発生した場合でも、有益な情報として利用できる可能性は高いと考えています。今回紹介する人物同定の技術においても、この器官点情報を利用する事により、高精度でリアルタイムに同一人物の再認識を実現しています。

一般的なトラッキングにおける問題点

例えば、粒子フィルタをベースとしたような一般的な物体追跡においては、フレーム間の画像変化を基に追跡を行うため、フレーム間隔が長い場合(フレームレートが小さい場合)はフレーム間の画像変化量が大きくなってしまい、追跡は極めて困難になってしまいます。

また、正確な検出器を前提とした場合は、ある時刻tで検出された人と次のフレーム時刻t+1で検出された人の対応付けを行う事により同一人物判定をする事ができます。 例えば、簡易にトラキングを実現する方法として、Intersection over Union(IoU)の結果を利用する方法が考えられ、それぞれのフレームで検出された人の矩形(BoundingBox)同士、各々の組みでIoUを求め、その値が大きいもの同士を同一の人物とします。

ただし、この場合もフレーム間での人の移動量が大きい場合には、IoUの値が0となってしまい追跡が破綻してしまいます。

実サービスを見据えた場合、コスト対効果を意識しなければいけないため、限られた計算リソースで実行する事を想定する必要があります。その上で、リアルタイムに処理するとなると、フレームレートが低くなってしまうというのは、ある程度は前提事項として許容しなければいけない事でないかと考えています。(実際、紹介しているリアルタイムデモ映像のフレームレートは1.7fps程度となっています。)したがって、前述したようなフレームレートが低い場合に発生してしまう問題に対応できるような人物追跡手法を設計する必要があります。

今回紹介する手法は、こういった低いフレームレートやオクルージョンが発生するケースを特に意識しており、姿勢推定によって得られた器官点情報を上手く利用することで、そのような状況下においてもロバストに同一人物の再認識を行えるなるような手法を考案しました。

デモ映像

弊社SakuraCafe内で行ったリアルタイムデモ映像になります。

姿勢推定技術によって検出した人物を矩形で囲っています。その上に表示されている番号はその人物を識別するためのIDで、同じ番号の場合は同一人物と認識されています。また、今回技術の詳細は紹介しませんが入店と退店のタイミングや、年齢および性別の推定もリアルタイムに行っております。赤色の線が入店、青色の線が退店を表し、顔が正面を向いた際に表示される矩形に年齢と性別の推定値を表示しています。

全体の構成

本手法は下記の要素で構成されています。

1.    フレーム画像から人物の器官点の検出

2.    1つ前のフレームで検出された人物と今回検出された人物の同じ器官点同士で色の照合

3.    1つ前のフレームで検出された人物と今回検出された人物の位置の照合

4.    2と3の結果から総合的に判断し、人物の同定

1から4の手順を動画の各フレームに対して逐次行っていくことで、連続的に同一人物の再認識を実現しています。

姿勢推定技術に関して

まずは、姿勢推定技術を使って、フレーム画像中から人物、および器官点の検出を行います。器官点は複数人数の器官点を同時に検出し、検出されたそれぞれの器官点はどの人物のどの体の部分に対応しているかを認識します。下の写真は検出された、鼻、首、左肩、左手、右肩、右手、左腰、左足、右腰、右足の10個の器官点になります。

色差の計測

各器官点の色を取得します。各器官点を中心とした局所領域からピクセルのRGB値を取得し、それをL*a*b*色空間に変換した後、CIE2000で色差を計測します。色差は1つ前のフレームで検出された人物と今回検出された人物の同じ器官点同士での計測になります。

色差を類似度に変換

色差を色の類似度として扱いたいので、色差dを1.0 〜 0 の定義域に射影する下記の関数を導入し、それを類似度S(d)とします。

この関数自体はただのシグモイド関数で、係数αやバイアスΒのパラメータ値は、おおよそ下記の要件に合うように調整しています。

色の類似度の計算

色差の計算方法、およびそれを類似度に変換する式を説明しましたが、もう少し具体的な例で説明したいと思います。時刻tのフレームでPersonAという人を検出、時刻t+1でPersonBという人を検出したと仮定し、これらに対し「色の類似度」を求める手順を示します。

各器官点毎にL*a*b*色空間に変換した後、CIE2000色差を計算し、類似度を求めます。各器官点毎の類似度が全て求まったら、それらの平均を取り、最終的にその値をPersonAとPersonBの「色の類似度」とします。上記はその計算過程をイメージした表になります。見切れや隠れなどにより検出されなかった器官点がどちらか一方にでもある場合は、類似度50%となるようにしています。(これは、その器官点を使用しない場合に比べ、器官点1つあたりの類似度への寄与率が高くなり過ぎないようにするための措置です。)

位置の尤度

追跡中の人物は最初の検出フレームからその移動の軌跡をすべて保持しています。したがって、これまでの移動情報を基にその人物が次のフレームにいる位置をガウス分布でモデル化する事ができます。これを尤度関数とし、実際に次のフレームで人が検出されたら、その位置情報をそれぞれの尤度関数にあてはめることにより、尤もらしさを求める事ができます。ちなみに、実際のデモ映像では人に対して相対的にブレが少ない首の器官点位置を利用しています。

上記は、追跡中の3人の軌跡情報を基にガウス分布でモデル化したイメージ図になります。次のフレームでの各人の予測位置は赤色で書かれている部分で、これまでの移動量が大きいほど次フレームでの予測位置は遠くに、分散は大きくなります。

総合尤度の算出

色の類似度、および位置の尤度から総合尤度を計算し、その値から同一人物の判定を行っていきます。例えば、前のフレームでPersonAとPersonBの2人を追跡しており、現在のフレームでPersonCとPersonDとPersonEの3人を検出した場合について考えてみます。

前のフレームと現在のフレームで検出された全ての人の組み合わせに対し、色の類似度および位置の尤度を計算し、その積を総合尤度とします。この例では下記のようになります。

これを総合尤度の高い順で並べ替え、ある閾値以下(ここでは0.02を利用)のものを除外すると下記のようになります。

これを上から順に人物同定していきます。「前フレーム」欄か「現在のフレーム」欄のどちらかに既出の人物が含まれる場合、その行は無視します。これを最後の行まで行い最終的な結論を出します。この例においては下記のような結果となります。

PersonA と PersonDは同一人物である

PersonB と PersonEは同一人物である

PersonCは新たに検出された人である

これを動画の各フレームに対して連続的に行っていく事で、高精度な同一人物の再認識を実現しています。

最後に

SHIBUYA SYNAPSEの開催当日は、このブログに書かせて頂いた内容をご紹介しつつ、会場内でリアルタイムにそれを体験できるデジタルサイネージのブースも用意しました。

発表している内容をその場で実際に体験できるという事で、参加された方々にも興味を持っていただき、非常に良い試みだったと思っています。 SHIBUYA SYNAPSEは今後も2回3回と続いていく予定なので、このブログを読んで興味を持って頂ければ幸いです。是非、次回のご参加を検討して頂ければと思います!

続きを読む

 

2017/08/29 08:51

CVPR2017に参加してきました

TianqiLi

Keywords: AI レポート

はじめに

みなさんこんにちは、AIシステム部AI研究開発グループの李天琦 (@TianqiLi)です。普段は主にComputer Visionの研究開発を行っています。

DeNAのAIシステム部では、カメラの映像解析をはじめとする多くのプロジェクトでDeep Learningの技術を活用しています。Deep Learningの世界は変化が激しく、毎日追い続けても追いきれないほど日々新しい技術論文が発表されています。そこで、最新の技術トレンドをキャッチアップするため、今年(2017年)7月にハワイで開催されたConputer Visionに関するトップカンファレンスの一つである「(CVPR2017」)に参加してきました。その内容について紹介したいと思います。

CVPRとは

CVPRの正式名称は「Computer Vision and Pattern Recognition」です。Compuer Visionというのはロボット(コンピュータ)の視覚を指し、広義では画像処理、映像処理の技術分野全般を意味しています。そのComputer Visionの分野において世界で最も権威ある学会の一つがこのCVPRです。そして近年ではDeep Learningを始めとするAI技術の飛躍的な進歩により、あらゆるComputer Vision分野でDeep Learningを使う事が当たり前になってきているので、CVPRはDeep Learningに関するトップカンファレンスの一つだとも言われるようになりました。

今年の開催期間は7/21〜7/26の6日間です。初日と最終日は特定のテーマに絞って集中的に行うTutorial & Workshopが開かれました。他の4日間が、幅広い分野のセッションが行われるMain Confernceです。また、Main Conferenceの4日間では、Expoと呼ばれるスポンサー企業の展示会も並行して行われ、世界トップのIT企業たちが最新の研究成果や製品などを展示しました。

開催場所

今年の開催地はハワイのオアフ島です。海と自然に囲まれた最高のリゾート地でした。

[ 会場のHawaii Convention Center ]

近年のDeep Learning人気の影響を受けて、CVPRの参加者は年々増加し、今年は採択論文数も参加者も過去最高でした。統計によれば、今年の投稿論文は2680本で、採択は783本でした。そして今回のCVPRの参加人数は6000人以上にものぼっています。

[ オープニングセレモニーの様子 ]

[ 採択論文の統計 ]

セッションの様子

CVPRに採択された論文のうち、評価の高かったものはOralやSpotlightと呼ばれるプレゼンテーション形式のセッションで発表されます。その場で大掛かりなデモを行うものもあります。それ以外は、Posterと呼ばれるセッションで展示され、質問すると論文の作者が直々に解説してくれます。

[ Oral セッションの様子 ]

[ Poster セッションの様子 ]

Expoの様子

Main Conferenceと並行して行われるExpoでは、各企業が独自の技術Demoを展示しています。今年最も多かったのはやはり自動運転で、TOYOTA、Tesla等の大手車メーカー以外にも、多数の自動運転ベンチャーが展示していました。

[ Googleのリアルタイムポーズ推定のデモ ]

[ 完全無人運転のDemo ]

[ 無人運転の映像解析Demo ]

展示企業によっては最新の製品の販売も行っていて、今回の目玉商品はIntelが新たに販売する予定の「Movidius Neural Compute Stick」でした。これは簡単に言えばDeep Learning専用の外付け小型計算機です。これまで、Deep Learningは非常に計算コストが高いため、GPUを積んだ大型マシンが必要というのが常識でしたが、それを小型のエッジデバイス上で実現させたのがこのIntelのStickです。日本での発売予定日はまだ三ヶ月以上先ですが、今回の学会で一部の研究者向けに先行販売を行うとの事でしたので、DeNAでも研究開発用にと一部確保してきました。CVPRでも数百個しか販売されていなく半日で売り切れたので、かなり貴重です。

[ Movidius Neural Compute Stick ]

懇親会への参加

カンファレンス期間中、毎晩のようにビーチやナイトクラブで懇親会が行われていました。そのほとんどがクローズドなもので、特定の企業のメンバーもしくは招待状を受けとった人しか参加できないようになっています。ACCV(アジア地域で開催されるComputer Visionの国際学会)のメンバーの懇親会では、AIの世界的な権威者であるTakeo Kanade先生やFei-Fei Li先生のスピーチに会場が沸きました。

[ ACCV懇親会でのTakeo Kanade先生のスピーチ ]

注目の論文

今回CVPRで発表された論文の中で、特筆すべきものをいくつか紹介します。

- DenseNet

まず、今年のBest Paperに選ばれた2本の論文のうち、1つがこちらのDensely Connected Convolutional Networks (Gao Huang et al.)です。

[ Dense blockの構成 ]

この論文が最初に発表されたのは2016年の8月頃で、当時Image-Classificationタスク(画像に映った物体の種類を分類する問題)におけるState-Of-The-ArtだったResNetのSkip Connection構造を取り入れた密な結合構造「Dense Block」を提案しています。各層の入力に、それより以前の全ての層の出力を結合した結果を使うというシンプルなネットワークアーキテクチャです。汎化性能が高く、パラメータ数の少なさと精度においてResNetを上回る性能を示しています。

- SimGAN

2本のBest Paperのうち、もう1本がこちらのLearning from Simulated and Unsupervised Images through Adversarial Training(Ashish Shrivastava et al.)です。

[ SimGANの展示ポスター ]

こちらは、GAN(Generative Adversarial Nets)の手法を用いて、シミュレータから生成されたCGデータを現実画像に見えるように変換して、現実の画像と見分けづらくさせる手法です。そもそもなぜこれが重要かと言うと、Deep Learningの世界では訓練データの多さがそのまま計算結果の精度に直結するため、データが多くあればあるほど有利です。しかしリアルのデータを集めて、それにラベルを付けていく事は非常に大変なので、これをシミュレータから無限に生成できないかというアプローチです。シミュレータから生成された画像は通常、リアルの画像と比べてどうしても不自然さが生じますが、その不自然さをなくす事に成功したのがこちらの論文です。

Loss Functionの設計が特徴的で、シミュレータのデータにリアリズムを付与するAdversarial Lossと、元々のアノテーション情報を失わないようにするためのSelf-regularization Lossという2つのLossを定義しています。この仕組によって、一部のUnsupervisedなリアルデータさえあれば、シミュレータから無限に教師データを生成できる画期的な手法です。

- YOLO9000

今回のCVPRではBest Paperとは別に、Best Honorable mention awardという特別賞のPaperも2本ありました。そのうちの1本がこちらのYOLO9000: Better, Faster, Stronger(Joseph Redmon et al.)です。

[ YOLO9000のポスターセッション ]

YOLO9000は、画像内から特定の物体の位置と種類を含めて検出する「一般物体検出」の手法に関する論文です。従来の手法よりも遥かに高速、高精度かつ多種の物体を検出できるようにしたフレームワークを提案しています。 YOLO9000自体の技術Demoも凄いですが、それ以上に今回展示されたポスターが独特すぎると話題を呼びました。通常であれば学会に出すポスターは論文の解説ポスターと相場が決まっているところを、原則を完全無視して広告的な意味でのデザインポスターを展示してくるあたり、さすがすぎるとツイッター等のSNSで一時期話題となりました。 ちなみにこちらのYOLO900の論文は、自分のほうで部分的に再現実装したYOLOv2 Chainerバージョンというリポジトリをオープンソースで公開しています。皆さん興味あればぜひ使ってみてください。

- Polygon RNN

2本の特別賞のPaperのうち、もう一本がこちらのAnnotating Object Instances with a Polygon-RNN(Lluis Castrejon et al.)です。

[ Polygon-RNNのツール画面 ]

こちらの論文では、Semantic Segmentationの教師データを作る際のアノテーションコスト削減の仕組みを提案しています。通常であれば、セグメンテーション用の教師データを作るのに、物体のピクセル領域全域を細かく塗りつぶす必要があったところを、こちらの論文では複数の頂点によって構成された多角形の頂点推測問題に置き換えています。アノテーターは物体の外接矩形であるBounding Boxを与えてあげれば、RNNの仕組みで内部のオブジェクトに対して自動的に頂点候補を生成してくれます。生成された頂点がズレている場合は、アノテーターは最低限の頂点修正作業のみ行えば済みます。これによって従来の4〜7倍もの作業効率を実現できるという画期的なフレームワークです。 ちなみにアノテーション効率化に関するPaperは、このPolygon-RNN以外にもTraining object class detectors with click supervision(Dim P. Papadopoulos et al.)というのがありました。こちらは、Bounding Boxのアノテーション作業をワンクリックで行えるようにしたという画期的な手法を提案しています。

全体の感想

今年のCVPRはやはりというべきか、CNNをベースとした論文がほとんどでした。また、その多くが、計算のパイプラインを複雑化する事で高い精度を達成できたという、手法的な新規性に関するものでした。私たちの研究チームでもこれから学会に技術論文を発表していく予定なので、良い参考にはなったと思います。 今回のCVPRで発表されたOralやSpotlightのプレゼンは基本的に、こちらのYouTubeですべて動画で見られますが、実際に行ってみると論文の気になる点を作者に直に聞けたり、あとネットワーキングもできる等のメリットがあります。自分は今回がCVPR初参加でしたが、技術的な収穫はもちろん、ネットワークも広がって凄く良い刺激になりました。

[ おまけ:Fei-Fei Liとの写真 ]

続きを読む

 

2017/08/10 09:07

Google機械学習系API勉強会レポート

@pacocat

Keywords: AI レポート 勉強会

AIシステム部の奥村(@pacocat)です。AIシステム部では、AI研究開発グループに所属しており、主に強化学習を用いたゲームAIの研究開発を行っています。 DeNAでは、様々な事業ドメインのデータを実際に使いながら機械学習を使ったサービス開発を推進しており、中でもゲームは豊富なデータ・シミュレーターがあるため、最先端のアルゴリズムを動かすための環境を自前で持っているのが特徴です。

全社的にも機械学習サービスのニーズが高まっている背景の中、7/5にGoogle様による機械学習系API勉強会が当社セミナールームにて開催されました。今回は、勉強会の内容をブログでレポートしたいと思います。

Googleといえば、先日開催されたGoogle I/O 2017でも"AI first"というメッセージが改めて強調されていましたが、実際にGoogle LensやGoogle Homeなど機械学習を活用したサービス・プロダクトが次々と登場し、注目が集まっています。

[最近話題になっていた"Democratizing AI(AIの民主化)"についてなど、AI関連の取り組みについてはこちらのGoogle Cloud Next'17の動画をご覧ください]

このセミナーでは、Google Cloud, ソリューションアーキテクトの中井悦司さんにお越しいただき、

·      Googleでどのようにディープラーニングを活用しているのか

·      Google Cloud Platform(GCP)が提供する機械学習サービス

·      機械学習のビジネス適用における考え方

といったテーマについてお話いただきました。

昨今「人工知能」を利用したビジネス期待が急激に高まっていますが、中井さんはそうした期待値と実際の機械学習ソリューション開発のギャップを適切に埋めるため、機械学習の啓蒙やGCPを使った技術支援全般を行っています。

セミナーの様子(100名程度の社内エンジニアが参加していました)

※以下、主にディープラーニングに関連した学習技術を含め「機械学習」という用語を使いますが、「機械学習」と「ディープラーニング」の区別が必要な場合は明示的に「ディープラーニング」と記載します。

Googleでなぜ機械学習を活用するか

そもそも、Googleではどのように機械学習が取り入れられているのでしょうか。 「1クリックで世界の情報へアクセス可能にする」という企業ミッションを耳にすることもありましたが、モバイル市場の拡大に伴い、情報へのアクセス手段もクリックに限らなくなってきました(※参考:Searching without a query)。

そうした背景のもと、音声や画像入力に対応するため、サービスを支える機械学習技術が強くなっていったのは必然的な変化だったのでしょう。実際、Googleでは様々な機械学習(特にディープラーニングを使った)技術が開発されています。セミナーでは、そうした技術の中でもホットなものを紹介していただきました。

Wavenet(DeepMind社による音声合成技術)

Wavenetは、ニューラルネットワークを使って音声のデジタルデータを直接出力するモデルです。従来の、音素に分解してつなぎ合わせるパラメトリックな手法に比べて音声生成精度が飛躍的に向上しました。いずれは、人間の発話と区別がつかなくなってくるようになるかもしれません。 また、人間の音声に限らず、楽器の音を集めてトレーニングすることで、自動作曲が出来ることも話題になりました。

DeepMind Technologies Limited, "Wavenet",

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

(accessed: 2017-07-13)

Gmail Smart Reply

自然言語処理の分野でも新しいサービスが提供されています。現在は英語モードのGmailのみが対象となっていますが、スマホでGmailを開くとメールの文脈を理解して、返答文の候補を生成してくれるサービスです。ここにも文脈理解のためのディープラーニング技術が活用されています。

※現在はモバイルGmailアプリからの返信の20%程度で、この機能が利用されているそうです。

Google, "Save time with Smart Reply in Gmail",

https://www.blog.google/products/gmail/save-time-with-smart-reply-in-gmail/

(accessed: 2017-07-13)

データセンターの冷却効率改善(DeepMind社によるソリューション)

Google社内向けのソリューションも開発されています。DeepMind社は昨年、ディープラーニングと強化学習を組み合わせた技術でデータセンターの電力消費効率を最大40%削減することに成功しました。(※参考:DeepMind AI reduces energy used for cooling Google data centers by 40%

※この事例における技術の詳細は公開されていませんが、こちらに中井さんによる機械学習を使ったエネルギー効率予測についての解説があります。

他にも、Google Photosの一般物体画像認識技術など、様々な機械学習サービスが生み出されており、Google社内では機械学習のバックグラウンドを持っていないサービスエンジニアも社内トレーニングコースなどを活用して、機械学習モデルを使いこなしているそうです。

GCPが提供する機械学習サービス

さて、Googleでは一般ユーザーがこうした機械学習技術を活用できるためのサービスを提供しており、目的別に以下の二つの方向性に大別されます。

·      学習済みモデルのAPIサービスを使う

⇒ ディープラーニング技術を今すぐに活用してみたい人向け

·      TensorFlowやCloud Machine Learning Engineのような環境を使って開発を行う

⇒ 独自モデルを作りたい人向け

Google社講演資料より

①学習済みモデルのAPIサービスを使う

Cloud Vision API

Google, "CLOUD VIDEO API",

https://cloud.google.com/vision/?hl=ja

(accessed: 2017-07-13)

Cloud Vison APIは、画像を渡すことで様々なラベル情報を取得することが出来ます。 上の例では、顔の検出だけでなく、顔が向いている方向・感情分析の結果が返ってくるAPIとなっています。

Cloud Natural Language API

Cloud Natural Language APIは、自然言語を分析するサービスです。文章の感情分析を行うことも可能で、お問い合わせメールの自動分類でカスタマーサポート業務を効率化するなど、導入事例が増えてきているそうです。

Cloud Video Intelligence API(β版)

Google, "CLOUD VIDEO INTELLIGENCE API",

https://cloud.google.com/video-intelligence/?hl=ja

(accessed: 2017-07-13)

現在はβ版が提供されていますが、Cloud Video Intelligence APIは、動画解析・検索が出来るサービスです。 動画のフレームを解析し、場面の切れ目を検知したり、場面ごとに何が映っているかを検出することが可能です。

※上の例では、"Elephant", "Elephants", "Animal", "African elephant"とったラベルが検出されています。

他にも様々なAPIが公開され、導入事例も増えてきているそうなので、気になる方はこちらをご覧ください。

②独自にモデルを1から作成する

上述のAPIは、既に学習が済んでいるモデルをそのまま使うパターンになりますが、自社のデータを使って独自にモデルを開発したい場合もあります。その場合は、TensorFlowのような機械学習フレームワークとCloud Machine Learning Engineのような(TensorFlowのGPU・分散学習機能に対応している)計算リソースを利用する方法があります。

③学習済みの公開モデルを利用して独自モデルを作成する

①と②を折衷したパターンです。独自モデルを作る場合、既存で提供されているAPIレベルのものを1から作るのは大変です。そこで、公開されているフレームワークや学習済みデータを活用することで独自モデルを作成する方法もあります。これは転移学習と呼ばれている手法で、既に学習されたネットワークを独自にチューニング・カスタマイズすることで、1から学習をするよりも効率的に開発が行えるメリットがあります。 セミナーでは、TensorFlow Object Detection APIを使った簡単なアプリのデモが行われていました。(※デモアプリの作成方法は、こちらの記事で公開されています。)

https://github.com/tensorflow/models/tree/master/object_detection

(accessed: 2017-07-13)

機械学習のビジネス適用における考え方

セミナーの後半では、機械学習を実ビジネスに適用する際、どのような点に気をつけないといけないか、リアルなプロジェクト視点で講演を行っていただきました。

まず、ディープラーニングは非構造化データ(画像・動画・音声・自然言語)に高い性能を発揮する特性がある一方で、適応領域はまだ限定的です。データが不十分だったり、まだ実証されていない事を実現する場合のハードルは高いと考えたほうがいいという話がありました。 ディープラーニングはあくまでツールの一つでしかなく、それだけで凄いサービスが作れるかというとそうではありません。あくまでビジネスの中でディープラーニングが上手くハマるところを見つけていく、という関わり方が大事という話が印象的でした。

続いて、(ディープラーニング以外の)従来の機械学習をサービスに導入する際には、データアナリストによるデータとビジネスに対する知見が必要、というポイントが紹介されました。従来の一般的な機械学習では、構造化データによる予測処理がサービス適用の中心となります。そうした予測は、一般的な統計分析(いわゆるBI)が出発点になるため、あらかじめデータを整備しサービス分析が出来ていることが前提になる、というニュアンスです。

ここで、データ分析に対する考え方を整理しましょう。データ分析のプロセスについて、次のような理解をされることがあるそうです(下図の矢印のサイクル)

·      手元にデータが存在しており、データアナリストはそこからインサイトを得るために様々な集計や機械学習モデルの実験を繰り返す

·      そうして作られた機械学習モデルによって、未知のデータに対する予測が出来るようになる

·      データ予測がビジネスに使えないか検討する

Google社講演資料より

しかし、本来のゴールである「ビジネス判断」を考えると、このループを逆にたどる必要があります。

·      まず、ビジネスゴールを明確にする(一番大事な出発点)

·      ビジネスゴールを実現するために、何を予測すべきかを決める

·      予測に必要な機械学習モデルやデータを洗い出す

·      そうしたデータを集め、分析するためにはどのような活動をしないといけないのか

当たり前じゃないかと思われる方がほとんどだと思いますが、改めて大事な視点だと感じました。

話はさらに機械学習エンジニアとビジネスのコミュニケーションにも踏み込んでいきました。 機械学習はやってみないとどれくらいの精度が出るか分からない、という不確実な要素が強い領域です。ただ、だからといって素直に「やってみないと分からない」とコミュニケーションするだけでは何も進められないのも現実です。

機械学習は実験的な要素を含んでいるんだとエンジニアとビジネスサイドで共通認識を持った上で、影響範囲を適切に見極めながら実際にサービスに機械学習を組み込んでみて、リアルに実験をしていくのが重要だというのが中井さんの主張です。そうして知見が溜まることで、機械学習をビジネスで使う勘所をサービスメンバー全体で持てるようになるのではないでしょうか。

Google社講演資料より

まとめ

最新の機械学習系APIの紹介から、ビジネス適用まで、様々な観点から機械学習サービスについてのエッセンスをまとめていただきました。特に後半の機械学習サービス開発の注意点については、なかなかこうした形でまとめて聞く機会も少ないので、改めて機械学習を使ったサービスについて考えるきっかけになったのではないでしょうか。AIシステム部では、様々なAI案件でビジネスメンバーと一緒にサービスをデザインして組み立てていくことが多く、機械学習に対する共通認識や社内文化の作り方など、参考になる観点が多かったように思います。

今回カバーしきれなかった内容を扱った第二回も検討されているそうなので、楽しみです!

続きを読む

 

2017/07/05 19:11

ICLR2017読み会を開催しました

@yu4u

Keywords: AI 勉強会

はじめに

こんにちは、AIシステム部の内田(@yu4u)です。 大分時間が経ってしまいましたが、先日、深層学習に関する論文が多数発表された国際学術会議、International Conference on Learning Representations (ICLR'17) の論文読み会をSakuraカフェにて開催したのでその報告です。 ICLRは、オープンレビューを採用しているので、リジェクトされたものも含め全ての論文およびレビューを読むことができるので、こういう読み会には丁度良いかもしれません。

ICLR'17ウェブサイト

オープンレビューサイト

読み会のConnpass

読み会のTogetter

当日の様子

懇親会の様子

背景

私自身はコンピュータビジョンが専門ですが、その中で利用するニューラルネットのモデルやその学習方法、モデル圧縮等に興味があり、ICLRの論文は良く読んでいました(ICLRの論文を読むというよりは、気になる論文を読んでいたらそれがICLRの論文であるケースがあるという方が正確)。

そんな折、同僚がICLRに参加するらしいということでふと調べてみると、ICLRに関しては過去国内で読み会が開催されていない (to the best of my knowledge) ことに気づき、使命感(?)から開催を企画する運びとなりました。 Twitterで発表者を募ったところ、Connpassでは発表者の募集ができないくらい多くの方に手を上げて頂けたので、当初15時くらいから開催しようかと思っていたのですが、半日フル開催というボリュームにすることができました。

感想とか

こういう勉強会の企画・運営は初めてだったのですが、会場はもとより、コーヒーブレークや懇親会まで会社的にフルバックアップしてもらえたので、スムーズに開催することができました。あとConnpassは良いサービスですね!

発表者の方々がその道のプロばっかりだったので、発表内容のクオリティが高かったのが凄かったです。当日はずっと司会だったのですが、内容がかなり学術的であることもあり、たまに質問が途切れると専門ではない内容でも質問をしなければという使命感から、学会の座長をしている気分でした。おかげで、実はコンピュータビジョンとか個別の分野よりも、こういうより抽象的なレイヤーの研究のほうが面白いのではないかと思い始めてきました。

機会があれば、またこういう勉強会は企画してみようと思います。あと、来年のICLR読み会も開催したいと思います。

当日の発表内容

以降の内容は当日の各発表の解説です。当日何となく理解したつもりになった発表も、厳密に分かっていないところもあるので、結局元の論文を読み返したりしてしまいました。専門ではない内容も多いため、間違いがあればご指摘ください!

ICLR2017紹介

[ICLR2017読み会 @ DeNA] ICLR2017紹介 from Takeru Miyato

最初の発表では、PFNの宮戸さんにICLR2017を俯瞰できるようなご講演をして頂きました。 実は大学の研究室の先輩であるPFNの @sla さんから、宮戸さんがICLRで発表されるということを聞き、ICLRという会議自体を俯瞰できるようなご講演をお願いしたところ、ご快諾頂きました。 現場の盛り上がりを感じられる内容で、ポスター会場の混み具合はもとより、夜は企業がパーティーみたいな場を設けているということで、もはやお祭りですね。 本会議の採録率は39%らしく(去年は28%)、間口を広げる方向にシフトしているのかもしれません。来年は是非発表者として参加してみたいですね。

医療データ解析界隈から見たICLR2017

医療データ解析界隈から見たICLR2017 from RIKEN, Medical Sciences Innovation Hub Program (MIH)

次に、理化学研究所の川上さんに、医療データ解析をされている立場からICLRという会議を振り返って頂きました。 川上さんは医師免許を持っておられるお医者さんでもあり、同僚の @pacocat がICLRの現地でお会いした際に読み会に興味を持って頂けたとのことで、なかなか聞けない切り口でご講演頂けるのではと思いお願いさせて頂きました。 弊社もヘルスケア事業にも力を入れており、医療領域における機械学習の活用は非常に興味があります。個人的にはパーソナライズドな医療に期待しています。 論文の実験の再現性が低いという話があり、再現しなかったからと言って直ちに間違っているということも言えないので、なかなか新しい手法が出てきて一気に変化が起こるような領域ではないのだろうと考えさせられました。 自分の分野だと、話題の手法はあっという間に再実装や追試がされていくので、対照的だと感じました。最近だと、例えばSELUs (scaled exponential linear units) という手法が話題になって、あっという間に追試された結果が色々Twitterに流れてきたのは印象的でした。

Data Noising as Smoothing in Neural Network Language Models

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena from Takanori Nakai

@Quasi_quant2010 さんのご発表。 これまでn-gramを用いた言語モデル (language modeling) では、Kneser-Neyに代表されるスムージングが非常に重要な役割を果たしていた。他方、RNNによる言語モデルでは、単語(列)の頻度を明示的に扱っているわけではないので、そのようなスムージングを直接的に行うことはできなかった。 そこで、n-gramから導出される確率を利用して、RNN言語モデルを学習する訓練データに対し、単語を置き換えたりするノイズを加えることで、スムージングと同様の正則化を実現することを提案し、経験的にperplexityが低下することを示した。

レビューでも経験的と言われていますが、アイディアは面白いですね。画像でいうと、ちょっと賢いData Augmentationをしているようなイメージでしょうか。 ちなみにKneserの発音は「k N AI z uh r」らしいです。

http://d.hatena.ne.jp/tkng/20100426/1272266900

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

170614 iclr reading-public from Katsuhiko Ishiguro

石黒さん(みらい翻訳/NTTドコモ)のご発表。 DNNは多数のlocal minimumがあり、それらの局所解はどれもglobal minimumと遜色ないと言われている。この論文では、そのlocal minimumにはsharp minimumとflat minimumがあり、大きなバッチサイズを使うとsharp minimumに、小さなバッチサイズを使うとflat minimumに収束すると主張している。 Flat minimumは、局所解から多少パラメータを変動させても、ロスがあまり増加しないような局所解であり、訓練データとテストデータの分布の違いによりロス関数がずれたとしても、あまり精度が変わらない汎化された理想的な局所解と定義される。

大きいバッチサイズと小さいバッチサイズそれぞれで得られたパラメータを結ぶ直線上にあるパラメータを内挿・外挿により求め、ロスを算出することで、sharp minimumとflat minimumを可視化しているのが面白く、説得力があります。 ちなみにその後、バッチサイズの大小ではなく、SGDのパラメータ更新回数こそが重要であるという主張の論文が出ています。

論文:https://arxiv.org/abs/1705.0874

解説:https://www.slideshare.net/JiroNishitoba/20170629

Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

Q prop from Reiji Hatsugai

@Reiji_Hatsu さんのご発表。 強化学習において最適な方策を見つける手法は、直接方策をモデル化する方策ベースの手法と、状態の価値をモデル化する価値ベースの手法に大別できる。 方策ベースの手法は、現在推定している方策と学習に利用しているサンプルが同じである方策オン型であり、安定した学習が可能である一方、方策がアップデートされるとこれまでの学習サンプルが利用できないためサンプル効率が悪い。 価値ベースの手法(Q学習)は、常に価値が最大となる方策を選択するため、サンプルの方策とは異なる方策に基づく方策オフ型である。このため、任意の方策でサンプリングされたデータで学習できる一方、学習が安定しない、複数ステップ法への拡張が難しいという問題がある。 この論文では、これらの手法のいいとこ取りをするというのがポイントである。具体的には、方策勾配の関数に、criticのTaylor展開したものを加えて数式コネコネすると、actor-criticの手法に似たアップデートの式が出てきて、criticが方策オフ型で学習できるようになる。

何となく雰囲気は分かるが、導出がトリッキーなので、時間があるときにAppendix Aの数式を追ってみたいです。上記のいいとこ取りという観点では、同じくICLR'17に下記のような論文もあります。 PGQ: Combining Policy Gradient And Q-learning

論文:https://arxiv.org/abs/1611.01626

解説:https://www.slideshare.net/sotetsukoyamada/pgq-combining-policy-gradient-and-qlearning

Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- from Takahiro Kubo

@icoxfog417 さんのご発表。 機械学習である単語を表現する場合には、その単語のIDに該当する次元が1でそれ以外が0となるone-hotなベクトルが利用される。学習時のロスもこのone-hotなベクトルをベースに計算されるので、推論結果が、正解の単語とほぼ同じような単語であろうと全く違う単語であろうと同じロスが発生する。 本論文では、これに対し、単語間の類似度に基づき、正解をone-hotではなく広がりのある分布として表現し、その分布を用いてロスを計算することを提案している。 具体的には、元々のone-hotのベクトルと、単語の埋め込みベクトル間の内積により算出される類似度をsoftmax通すことで作られるベクトルの重み付き和により、この広がりのある分布を定義している。 また、one-hotのベクトルをdenseなベクトルにする埋め込み行列Lについても、出力時の射影Wと本質的に対応しているべきであり、それらを個別に学習しないような手法を提案している。具体的には、LがWの転置であるという制約を導入している。

読み会では、LとWの対応について逆行列で求めているのかという質問がありましたが、フルランクではないのでどのようにしているのかと思いましたが、論文を読むと上記のように転置であるという制約を入れているようです。

Stochastic Neural Networks for Hierarchical Reinforcement Learning

ICLR読み会 奥村純 20170617 from Jun Okumura

奥村さん(DeNA)のご発表。 迷路を解くような問題では、報酬がゴールにたどり着いた時にしか発生しない(報酬がsparse)。このようなケースでは、探索時にゴールに全く辿り着かずに学習が進まないという問題がある。これに対し、中間的なタスクを設定し、そこで汎用的なスキルを身に付けさせることで、報酬がsparseである問題を解決しつつ、身につけた汎用的なスキルを他の問題にも適用できるようにできれば嬉しいよねという問題提起。 本論文では、迷路を解く問題に対し、取り敢えず移動するというタスク(蛇のような関節モデルを想定しており、移動すらランダムだと難しい)を設定し、更に様々な方向に移動する多様性もあるように学習させるために、確率的ニューラルネットの利用と、色々な動きをした際に報酬にボーナスを与える相互情報量ボーナスを導入している。

やっていることは理解できるのですが、背景でなるべく中間タスクはhandcraftedにならないようにと言っている割に、えらくタスクに依存する手法となっているのがちょっとモヤモヤします。

Optimization as a Model for Few-Shot Learning

Optimization as a Model for Few-Shot Learning - ICLR 2017 reading seminar from Hokuto Kagaya

@_hokkun_さんのご発表。 Deep learningは大量の訓練データが存在する場合には威力を発揮するが、例えば鳥というクラスの中で細かい鳥の種類を分類するようなfine-grainedなタスクなどにおいて、各クラスに十分な訓練データが準備できないケース(few-shot learning)がある。そのようなケースでも高精度な認識をするための手法。 SGDの更新式ってLSTMのセルの更新式に似ているよねという発想から、SGDのパラメータの更新の方法をLSTMで学習するというメタ学習を提案している。

枠組みとしては通常の学習でも活用できそうな気がしますが、自動的にドメイン特化した更新式を獲得する枠組みがポイントなので、ドメインが決まっている通常の学習では単に学習率とかを色々単純に試したほうが良いかもしれません。 つまり、問題設定として、メタ学習データでメタ学習を行い、メタテストデータで先ほど獲得した学習方法を利用して学習を行う(ややこしいがメタテストデータに学習データとテストデータがさらに存在する)という前提があり、そもそも学習データで学習率を調整できない(ドメインが変わるので意味がない)のでこのようなアプローチが重要になるのだと思います。

Autoencoding Variational Inference for Topic Models

@nzw0301 さんのご発表。 Latent Dirichlet Allocation (LDA) をNeural Variational Inference (NVI) で行う(明示的にDirichlet分布は利用していないのでLDAと言うのは語弊がある?)。VAEではガウス分布のパラメータをニューラルネットが出力し、そのガウス分布からサンプルを生成する。この際、backpropができるような計算グラフを構築するreparameterization trickを利用する。LDAでは、ディリクレ分布のパラメータを生成し、多項分布(トピック分布)を生成したいが、そのままでは上記のtrickは利用できない。そこで、事後分布をガウス分布で近似するLaplace近似を利用し、ガウス分布からのサンプルにsoftmax(σ())を適用することで、多項分布をサンプルすることを可能とする。 上記のトピック分布θとトピック毎の単語生成確率行列σ(β)との積によって、最終的な文書の単語分布が得られる。ここで、σ(β)は、トピック毎の多項分布であり、最終的な単語分布はそれらのθによる重み付き和となる。このようなケースでは、生成される単語分布は、トピック毎の単語分布よりシャープにならず、幾つかのトピックにおいて主観品質の悪い結果をもたらすことがある。これに対し、本論文では、得られる単語分布をσ(βθ)とするProdLDAを提案している。この場合、βは多項分布であるような正規化がされていないため、上記の問題を解決できるとしている。また、学習方法もBNとDropoutを利用するなど工夫しているらしい。

とても勉強になりました。σ(βθ)としてしまうのは乱暴なようだけど、この定式化でもσ(β)はちゃんとトピック毎の単語性生成行列になるのですね。下記の論文のように、reparameterization trickにもいろいろな種類があって面白いです。

https://arxiv.org/abs/1611.00712

Variational Lossy AutoEncoder

@crcrpar さんのご発表。 VAEでは、潜在変数の事前分布p(z)を正規分布に、事後分布p(z|x)をガウス分布とすることが多い。このような単純な分布は表現能力が低く、真の事後分布にうまくfitしない問題が発生する。この問題に対し、Normalizing Flow、Inverse Autoregressive Flow (IAF) といった、より複雑な事後分布を生成できる手法が提案されている。これらの手法では、単純な分布を徐々に複雑な分布にする可逆変換を利用している。本論文では、IAFで事後分布を複雑な分布にするのではなく、Autoregressive Flow (AF) を用いて事前分布を複雑な分布にすることを提案し、AF事前確率とIAF事後確率のエンコーダ処理は同一であることを示した。

AFを事前確率に入れるほうがIAFを事後確率に入れるより表現能力が高いという主張が良く分かりませんでした。事前知識が足りず、normalizing flow辺りの論文から理解しないといけないですね。

Semi-Supervised Classification with Graph Convolutional Networks

Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会 from 英爾 関谷

関谷さん(DeNA)のご発表。 隣接行列で表現される重み付き無向グラフが与えられ、各ノードには特徴信号が紐付いている。一部ノードにはクラスラベルも付いており、残りのノードにはクラスラベルは付いていない。このような前提で、クラスラベルの付いていないノードのクラス分類を行う、graph-based semi-supervised learningの問題をグラフ畳み込みネットワークで解く手法。 グラフに対する畳み込みは、各ノードの特徴信号を並べたベクトルに対し、グラフラプラシアンの固有ベクトル行列を利用してグラフフーリエ変換を行うことでフーリエドメインに変換し、そこで畳み込みカーネルとの要素積を行い、最後に逆フーリエ変換する処理として定義される。 上記の処理は行列演算と固有値分解の計算量が大きいため、畳み込みカーネルをグラフラプラシアンの固有値の関数と定義し、1次までのチェビシェフ近似を用いることでノード数に線形なグラフ畳み込みを行うことを提案している。

チェビシェフ近似の辺りから、何でそれで良いのか理解が難しいです。ちなみに特徴ベクトルは独立に周波数ドメインに変換されて畳み込みが行われるようですが、次元間の関係をうまく捉えるような拡張とかできないかな、と思いました。

続きを読む

 

2017/02/27 15:22

DeNA TechCon 2017 開催レポート【2】

@progrhyme

Keywords: AI レポート

こんにちは。ゲーム事業本部開発基盤部の池田です。

去る2月10日、DeNAは技術カンファレンス「DeNA TechCon2017」を開催しました。

公開可能な資料については、公式サイトのスケジュール画面からリンクしておりますので、まだチェックしていないという方は是非ご覧ください。

追って、各セッションの動画もアップ予定です。

本記事は、この「DeNA TechCon2017」振り返り記事の第2弾となります。

今回は特に、DeNAの新たなチャレンジ領域である AI 分野について、Aステージで筆者が聴講した以下の3講演について取り上げます:

·      基調講演:「実世界の人工知能」株式会社Preferred Networks岡野原大輔様

o   スライド資料

·      「強化学習を利用した自律型GameAIの取り組み〜高速自動プレイによるステージ設計支援〜」MASHIKO RYOSUKE, SEKIYA EIJI

o   スライド資料

·      「DeNA AIシステム部におけるクラウドを活用した機械学習基盤の構築」SEO NAOTOSHI

o   スライド資料

基調講演―実世界の人工知能

基調講演では、株式会社Preferred Networks岡野原大輔氏が登壇しました。

講演の前半では、畳み込みニューラルネットワークが近年の研究でどのように複雑に進化し、ディープラーニング(深層学習)と呼ばれるようになったかを解説しました。

深層学習で使われる畳み込みニューラルネットワークでは、ネットワークの層数やニューロン数が、それまでのものより桁違いに多くなっています。

この深層ニューラルネットワークが、現在、様々な分野で応用されつつあります。

講演では、応用分野として「自動車」「ロボット」「異常検知」「バイオ・ヘルスケア」「コミュニケーション」「クリエーター」といった分野における取り組みについて取り上げられました。

特に、「クリエーター」分野においては、線画にいい感じに着色する PaintsChainer が最近インターネットなどで話題になったことは、記憶に新しいのではないでしょうか。

結びとしては、深層学習・教科学習の進化は著しく、研究段階から実用化・ビジネス化チームが付き添うことが大事と締め括られました。

強化学習を利用した自律型GameAIの取り組み〜高速自動プレイによるステージ設計支援〜

こちらのセッションは前半・後半の2部構成でした。

前半では、強化学習そのものについてAIシステム部SEKIYA EIJIが発表しました。

まず、強化学習の仕組みについて簡単な解説をした後、2014年に登場した新手法であるDeep Q-Networksの概要を示しました。

次に、強化学習に関する最新の動向として、NIPS 2016で発表されたDeepMind LabやOpenAI Universeなどについて取り上げました。

後半では、強化学習の利用例として、FINAL FANTASY Record Keeperにおける自律型GameAIの活用事例について、同じくAIシステム部のMASHIKO RYOSUKEが発表しました。

FINAL FANTASY Record Keeperでは、ボスのパラメータ調整を行うため、バトルを自動プレイするAIに対するニーズがありました。

このバトルAIの行動決定アルゴリズムとして、探索的アプローチであるMonte Carlo Tree Searchと、ニューラルネットを用いたアプローチであるNEAT, Q-learningを適用した結果が比較解説されました。

結果として、ニューラルネットを用いた方法において、学習時間が掛かるなど課題はあるものの、人がプレイする場合と遜色ないレベルでの勝率を達成することができました。

講演の最後では、ゲームへのAI活用のポイントとして、ゲームシステムの設計段階でどこまでAIを利用するか考慮し、シミュレータやデータ形式を用意しておくことの重要性が挙げられました。

DeNA AIシステム部におけるクラウドを活用した機械学習基盤の構築

AIシステム部のSEO NAOTOSHIは、DeNAにおけるクラウドを活用した機械学習システム基盤の構築について発表しました。

DeNAの機械学習システムのインフラ面においては、「潤沢なGPU」「隔離された環境」「素早い構築」「運用が楽」「自由度を高く」「ミスが起きにくい」という6つの要素が求められていました。

本発表では、これらの要素一つひとつを達成するために、AWSやGCPを活用したインフラ環境の構築方法について示しました。

例えば、「素早い構築」については、TerraformやItamaeといったツールを活用し、AWS, GCPの両方に対応した環境構築をコード化していることが語られました。

発表の後半には、GPU学習環境をオンデマンドでスケールさせるために整備したツールや、APIサービス環境の構成が取り上げられました。

GPU環境をスケールさせるための内製ツール「ec2-scale-run」の中ではDockerが活用されています。このツールでは、使われなくなったインスタンスを再利用し、また不要になったら確実にシャットダウンする仕組みがあることが説明されました。

結びに

本記事を通して、DeNAがAI分野においてどのようなチャレンジ・取り組みをしているか、少しでも伝われば幸いに思います。

余談ですが、Aステージの講演では社員によるグラフィックレコーディングがリアルタイムに行われ、完成したものは展示スペースに貼り出されました。

下の写真は、基調講演のグラフィックレコードとなります。

次回の記事でも引き続き、発表されたセッションの模様を紹介していく予定です。

お楽しみに!

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o   YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o   AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o   The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o   All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

·      CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

·      Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

·      Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1.    Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2.    Bbox Branch: bounding box regression is carried out for cropped ROIs.

3.    Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1.    2D heatmap estimation using stacked hourglass network

2.    ResNet encodes the heatmap and the image features into latent feature vectors

3.    3D mesh inference from the latent feature vectors by Graph CNN

4.    3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

·      heat-map loss: keypoint estimation loss on the 2D images

·      3D pose loss: L2 loss of 3D keypoint estimation

·      mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

·      heat-map loss: the same as the one on the synthetic data.

·      depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

·      pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.

続きを読む

 

Introduction

Hi, I am Hiroto Honda, an AI R&D engineer at DeNA Co., Ltd. Japan. The research engineers in my computer vision (CV) team survey and discuss the latest CV papers every day. This time, we would like to share a part of our survey results on cutting-edge computer vision papers. Authors: Plot Hong, Toshihiro Hayashi and Hiroto Honda.

Contents

·      Quick Summary

·      Scope of the survey

·      What is Human Recognition?

·      Papers

o   CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

o   Deep High-Resolution Representation Learning for Human Pose Estimation

o   Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

o   Parsing R-CNN for Instance-Level Human Analysis

o   3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

·      Conclusion

Quick Summary

·      Five arXiv papers regarding human and hand pose estimation, markerless motion capture, and body part segmentation are surveyed

·      Using a multi-person pose estimation method on a region of interest is effective for crowded scenes.

·      Keypoint localization accuracy can be improved by taking advantage of high resolution features.

·      3D human pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation methods, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Scope of the survey

The survey covers CV papers that were submitted to arXiv in November 2018 or later. We have picked the papers which we thought important and researched the details. In this report we introduce cutting-edge papers on human recognition, such as pose estimation.

What is Human Recognition?

In this report we introduce human recognition methods which aim at estimating human pose, human parts area or motion capture information using RGB images as input. The human recognition methods are grouped into two categories: top-down and bottom-up approaches. The top-down methods first detect the human instance regions and investigate each instance afterwards. The bottom-up ones first detect the body parts or joints in the whole image and group them afterwards. The methods we introduce this time are categorized as top-down approaches and single-person recognition. The following tasks are included in human recognition:

·      Pose Estimation: a task to find and localize the human body parts such as eyes, shoulders and knees.

·      Dense Human Pose Estimation: a task to localize dense body part points corresponding to the 3D model of human bodies.

·      Markerless Motion Capture: a task to obtain motion capture output without using markers.

·      Human Parsing: a segmentation task for body parts such as hair, face and arms.

The popular datasets used for human recognition are:

·      MS-COCO is the de-facto dataset which includes annotations for object detection, segmentation, and keypoint detection.

·      MPII, PoseTrack are the datasets for 2D keypoint detection.

·      DensePose is the dataset for dense human pose estimation and includes body point annotation corresponding to the human 3D model.

·      Human3.6M is the 3D human pose dataset.

·      MHP is the dataset for human body part parsing.

·      STB is the dataset for 3D hand pose estimation.

Papers

CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark (CVPR2019 Oral)

Summary

An occlusion-robust pose estimation method, and the new dataset to better evaluate in crowded scenes

Proposed Method

Pose estimation pipeline

o   YOLOv3 (*1) is adopted for human bounding box detector and AlphaPose (*2) used with modification as a single-person pose estimator (SPPE) within each box.

o   AlphaPose originally calculates training loss on the single person's keypoints as ground truth even if another person's keypoints are within the target image. The proposed method calculates joint-candidate loss which takes all the keypoints within the image into account.

o   The joints detected in all the regions are mapped on the input image. The keypoints which are detected more than twice in different ROIs and close to each other are grouped into joint nodes.

o   All the joint nodes are grouped and integrated by persons at the Global Association step.

CrowdPose dataset

A new dataset called CrowdPose is introduced. The dataset contains 20k images and 80k human instances and the crowdedness of the images is controlled so that the newly introduced Crowd Index satisfies uniform distribution.

Figure A1: Pipeline of our proposed method. Single-person pose estimator (SPPE) estimates all the keypoints existing within the ROI. At the global association step all the keypoints detected in ROIs are grouped together by person.

Results

The relationship between the mean average precision (mAPs) of the de-facto methods and the Crowd Index on the COCO dataset is shown in Fig A2 (left). The mAP drops by 20 points from Crowd Index < 0.1 to > 0.9. When we look at the dataset, in the MSCOCO dataset (persons subset), 67.01% of the images have no overlapped person. On the other hand newly proposed CrowdPose dataset has uniform distribution of Crowd Index (Fig. A2 right).

Figure A2: Relationship between Crowd Index and landmark average precision on COCO dataset (left), Crowd index distribution on MSCOCO (center) and CrowdPose (right).

The benchmark is carried out on the CrowdPose dataset (Fig. A3). The proposed method surpasses the popular methods such as OpenPose, Mask R-CNN, AlphaPose, and Xiao et al.'s method (*3).

Figure A3: Benchmark results on the CrowdPose dataset.

The proposed method surpasses Mask R-CNN, AlphaPose and Xiao et al.'s method.

Figure A4: Benchmark results on MS-COCO test-dev.

Links

Paper: https://arxiv.org/abs/1812.00324

*1 a popular real-time object detection model proposed in 2018.

*2 AlphaPose: single-person pose estimation model and is also referred to as multi-person pose estimation (RMPE). https://arxiv.org/abs/1612.00137

*3 the method of Xiao et al. was state-of-the-art when 'Crowdpose' was developed but had not been open-sourced yet. The authors seem to have re-implemented Xiao et al.'s method. Crowdpose uses YOLOv3 as a human region detector to compare with the method. PyTorch repo open-sourced in Aug. 2018: https://github.com/Microsoft/human-pose-estimation.pytorch

Deep High-Resolution Representation Learning for Human Pose Estimation

Summary

A strong and accurate single-person pose estimation network which maintains high-resolution representations through the whole process.

Proposed Method

Existing single-person pose estimation (SPPE) methods rely on the high-to-low (downsampling) and low-to-high (upsampling) framework, such as theHourglass network or U-Net. The proposed High-Resolution Net (HRNet) is composed of Parallel multi-resolution subnetworks, where high-resolution representations are maintained through the whole process. As shown in Fig. B1, the feature maps at scale 1x are maintained and interact with the other scales. This network design enables spatially precise keypoint heatmap estimation. The input image goes through two convolution layers with stride=2 before entering HRNet, which means the input feature map is at 4x scale compared with the input image. Therefore the 1x, 2x, 4x, and 8x scales in HRNet shown in Fig. B1 correspond to 4x, 8x, 16x, and 32x scales respectively. The channel widths of the feature maps at the four scales are 32, 64, 128, and 256 respectively (HRNet-W32 setting). The feature maps of different scales are integrated (summed up) after being upsampled by strided 3x3 convolution or downsampled by 1x1 convolution and nearest neighbor operation. The final layer of the network still consists of feature maps at four scales, and only 1x-scale feature map which empirically has highest accuracy is used as output. The loss function is the mean square error with ground-truth keypoint heatmaps.

Figure B1: Proposed HRNet. 1x, 2x, and 4x scales in the figure correspond to 4x, 8x and 16x scale compared with the input image.

Results

Multi-person pose estimation results using HRNet outperforms the Simple Baseline method (ECCV Posetrack challenge 2018 winner) and significantly improved precision-speed tradeoff as shown in Fig. B2. The computation complexity comparison between network components of HRNet and Simple Baseline with ResNet50 + deconvolution upsampling is shown in Figure B3. The total computation complexity of HRNet is 7GFLOPs, smaller than 9GFLOPs (Simple Baseline), which is because upsampling layers that have the dominant (~60%) computation cost are integrated in HRNet. Fig. B4 shows the visualization results of HRNet on MPII and COCO dataset. Benchmark results on COCO test-dev dataset is shown in Fig. B5. The HRNet achieves 75.5% AP, which is significantly higher than existing popular methods: OpenPose 61.8%, Mask R-CNN 63.1%, Cascaded Pyramid Network (CPN) 73.0%, Simple Baseline 73.7%, and also higher than CrowdPose (70.9%). HRNet achieves the best accuracy on PoseTrack dataset as well.

Figure B2: Comparison between SimpleBaseline on tradeoffs between average precision and computation cost.

Figure B3: Computation complexity comparison between network components of HRNet and Simple Baseline (ResNet50).

Figure B4: visualization results on MPII (top) and COCO (bottom) datasets.

Figure B5: benchmark results on COCO test-dev.

Links

Paper: https://arxiv.org/abs/1902.09212

PyTorch implementation: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Monocular Total Capture: Posing Face, Body, and Hands in the Wild (CVPR2019 Oral)

Summary

A markerless motion capture method to extract the motion of body, face, and fingers from a monocular image or video using a 3D deformable mesh model.

Figure C1: 3D total body motion capture results from monocular images.

Proposed Method

Figure C2: Total capture pipeline of the proposed Method which consists of CNN part, mesh fitting part, and mesh tracking part.

Proposed pipeline consists of three stages as shown in Fig. C2.

·      CNN part: an input image at the ith frame is fed to CNN to obtain joint confidence maps and part orientation fields which represents 3D orientation information of body parts.

·      Mesh fitting part: estimates human motion by adjusting the parameters of the deformable 3D mesh model frame by frame. The 3D mesh model proposed in Total Capture is used.

·      Mesh tracking part: improves temporal consistency across frames by using the image and the parameters of the mesh model at (i - 1)th frame.

Part Orientation Fields L represents the 3D vectors between keypoints as shown in Fig. C3, which is similar to Part Affinity Field used in OpenPose.

Figure C3: Part orientation field. The 3D vectors between keypoints are inferred as a heatmap.

The new dataset is collected using CMU Panoptic Studio . 834K body images and 111K hand images with corresponding 3D pose data are obtained (not available so far).

Results

The proposed single framework achieves comparable results to existing state-of-the-art 3D body pose estimation or hand pose estimation methods as shown in Fig. C4 and C5.

Figure C4: Benchmark results of 3D pose estimation on Human3.6M dataset.

Figure C5: Benchmark results of 3D hand pose estimation on STB dataset.

Links

Paper:https://arxiv.org/abs/1812.01598

Video:https://www.youtube.com/watch?v=rZn15BRf77E

Parsing R-CNN for Instance-Level Human Analysis

Summary

A high-accuracy R-CNN method for human instance recognition tasks such as human body parts parsing and Dense Pose estimation.

Figure D1: The Parsing R-CNN pipeline. Feature Pyramid Network is used as backbone and Bbox branch and Parsing branch are applied to cropped ROIs.

Proposed Method

1.    Feature extraction part: a similar structure as Feature Pyramid Network (FPN) is employed, except that proposals separation sampling (PSS) is used for cropping. PSS selects the ROI proposed by the Region Proposal Network (RPN) only from the P2 scale that has the highest spatial resolution.

2.    Bbox Branch: bounding box regression is carried out for cropped ROIs.

3.    Parsing branch: newly proposed Geometric and Context Encoding (GCE) module is adopted to perform human body parts parsing or dense pose estimation on the ROIs. GCE is composed of Atrous spatial pyramid pooling (ASPP) (*1) to capture features with an enlarged receptive field, and a Non-local Neural Network(*2) to integrate non-local features. Both ASPP and the Non-local part contribute to improving accuracy. Four convolution layers are inserted after GCE, which is empirically better than before GCE. (Figure D1).

Figure D2: Geometric and Context Encoding module that is the part of Parsing branch shown in Fig. D1.

Results

The proposed method outperforms all state-of-the-art methods on CIHP (Crowd Instance-level Human Parsing), MHP v2.0 (Multi-Human Parsing) and DensePose-COCO benchmarks (Figure D3 and D4).

Figure D3: (a) input image (b) Inference result on DensePose task (c) input image (d) Human Parsing Results

Figure D4: 2018 COCO Dense Pose challenge results (left), human parsing benchmark results on CIHP and MHP datasets (right)

Links

Paper: https://arxiv.org/abs/1811.12596

*1 Atrous spatial pyramid pooling is the module that can improve semantic segmentation performance. By operating dilated convolutions with different dilation rates in parallel, the receptive field of the network is enlarged. paper: https://arxiv.org/abs/1802.02611

*2 Non-local Neural Network is the method to integrate similar but non-local features. paper: https://arxiv.org/abs/1711.07971

3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR2019 Oral)

Summary

3D hand pose and 3D mesh estimation from an RGB image, which can run in real-time on GPU at over 50fps (Fig. E1).

Proposed Method

This paper proposes a 3D hand mesh and pose estimation method from a single RGB image utilizing Graph CNN and synthetic data. The 3D mesh data have the graph structure by nature, which is why Graph CNN is effective. Synthetic data are used for training because 3D mesh annotation is extremely laborious and costly. More specifically, the network is trained under supervision of synthetic data with 3D mesh annotations and fine-tuned with weak supervision by the RGBD real-world data. 3D hand joint locations are regressed from the reconstructed 3D hand mesh by using a simplified linear Graph CNN (Fig. E2).

Pipeline(Fig. E2, E3)

1.    2D heatmap estimation using stacked hourglass network

2.    ResNet encodes the heatmap and the image features into latent feature vectors

3.    3D mesh inference from the latent feature vectors by Graph CNN

4.    3D keypoints estimation from the 3D mesh by Linear Graph CNN

At test time, the absolute depth of the root joint and the hand scale are assumed to be provided.

Loss functions for training on synthetic data:

·      heat-map loss: keypoint estimation loss on the 2D images

·      3D pose loss: L2 loss of 3D keypoint estimation

·      mesh loss: composed of four losses - vertex loss, normal loss, edge loss and Laplacian loss.

Loss functions for fine-tuning on real data:

·      heat-map loss: the same as the one on the synthetic data.

·      depth map loss: smooth L1 loss between ground truth and the depth maps rendered by differentiable renderer from the mesh.

·      pseudo-ground truth loss: pseudo-ground truth mesh is generated using the pretrained models and the ground truth heat-maps. Edge loss and the Laplacian loss are applied as the pseudo-ground truth mesh loss to guarantee the mesh quality.

Results

Although there are no existing methods where 3D mesh is reconstructed from RGB images, the method can produce accurate and reasonable 3D hand mesh compared with baseline methods. As for 3D hand pose estimation, the method outperforms state-of-the-art methods (Fig E4). On STB dataset, higher AUC than Monocular Total Capture is achieved. The pipeline can run at 50FPS on GTX 1080.

Figure E1: Inference results by the proposed methods. Not only 2D / 3D keypoints but also 3D mesh are generated. Results on the synthetic dataset (top), on the real-world dataset (center) and on the STB dataset (bottom).

Figure E2: Training pipeline of the proposed method. (a) fully supervised training on the synthetic dataset and (b) fine-tuning on the real image dataset without 3D mesh or 3D pose ground truth in a weakly-supervised manner.

Figure E3: Graph CNN architecture which generated 3D hand mesh from a latent feature vector.

Figure E4: Benchmark results. Results on the RHD dataset (left), on the STB dataset (center), and on the STB dataset without 3D hand pose supervision (right).

Links

Paper: https://arxiv.org/abs/1903.00812

Conclusion

In this report, we have introduced the latest papers regarding human recognition, specifically pose estimation, hand pose estimation, markerless motion capture, and body part segmentation.

Human pose estimation is getting more and more accurate and able to detect the keypoints that are occluded by other instances. Using a multi-person pose estimation method on a region of interest is effective for crowded scenes. Keypoint localization accuracy can be improved by taking advantage of high resolution features.

3D human (hand) pose and mesh are estimated from a monocular RGB image. In addition to 3D pose estimation, deformable 3D mesh model, graph CNN, and synthetic data are utilized.

Further progress will be made on human recognition techniques and novel attempts and applications will appear every year. We will keep updated on the cutting-edge research to innovate our products and services.