Jian Li, PhD aka. Poor hungry Determined or Permanent head Damage or Pile higher Deeper.

Work: NB aka. NoBody of Research and Technology Planning, Futurewei Technologies

Hobby: TRIF (technologist researcher investor forecaster) as an adapter of immune response

E M A I L : jian.li   AT   futurewei DOT  com   ;   lijianathome AT yahoo DOT com

DISCLAIMER

Views, thoughts, and opinions expressed in the presentation belong solely to the author or public domain references as cited, and not necessarily to the author’s current or former employers, organizations, committees or other related groups or individuals.

Trademarks, logos, etc. belong to their corresponding parties.

Both technology planning and financial investment take risks.  One is responsible to its/his/her/theirs/etc.'s own. 

INTRODUCTION

Dr. Jian Li is a Sr. Director of Research and Technology Planning at Futurewei Technologies Inc.  Prior to this position, he was a research scientist at IBM Research.  While with IBM, he also spent over three years on an international assignment as an executive architect at IBM Growth Markets Unit, and was previously a chief architect of Big Data Systems at IBM Greater China Group.  He holds a Ph.D. degree from Cornell University, a B.S. degree from Tsinghua University.  He is a senior member of both IEEE and ACM.

His technical team has made industrial impacts in big data systems, AI systems, autonomous driving, and other emerging technologies. They participated and won 5 out of total 7 prizes in the Low Power ImageNet Recognition Challenge.  More details at http://lpirc.net or IEEE Reboot Computing http://rebootingcomputing.ieee.org/

His prior research had centered on Big Data & Analytics platforms and solutions, such as Apache Hadoop, SPARK, Twitter STORM, IBM BigInsights and InfoSphere Streams, etc on x86, PowerPC and other platforms.  A short IBM Research Technical Report summarizes team effort is available here: "Understanding System and Architecture for Big Data", IBM Research Report, RC25281.

He has worked in the areas of architectural support for power- and variation-aware computing, interconnection network design for high-performance computing systems, workload-driven three-dimensional (3D) integration architecture, architectural applications of non-volatile memory (NVM) and storage class memory (SCM), energy-efficient interconnection networks, data center networks, workload optimized systems.

He holds an adjunct position at the Texas A&M University and collaborates with Professor Lawrence Rauchwerger and other faculty. For details on his university collaborations, please check out the "University Collaborations" section of this page.

This web page is intended to record his professional effort in the public domain only.  If interested in MU LLC's consulting and/or investment services, please contact lijianathome@yahoo.com .  Thanks!

PUBLICATIONS 

PROFESSIONAL ACTIVITIES

PATENTS

University Collaborations

Dr. Jian Li has been fortunate to work with the following highly-talented graduate students and be in touch with their advisers and research groups.

 He also holds an adjunct position at the Texas A&M University and collaborate with Professor Lawrence Rauchwerger and other faculty.

Last update: 2021



/* 

More recent edits in the following.  The opinions and views I express below or anywhere on or related to this web site are mine, and not my current or prior employers', or anyone else's.  Trademarks, logos, etc. belong to their corresponding parties.  Comments truly welcome!

*/

My Study Notes - Open to All Creatures Great and Small:

。SoC4CG 202408-01: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202407-03: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202407-02: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202407-01: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202406-02: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

SoC4CG 202406-01: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202405-02: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202404-1: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202404-01: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202403-1: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202402-01: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202401-1: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

。SoC4CG 202312-2: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress) - including predictions of 2024 :)

。SoC4CG 202312-1: https://docs.google.com/presentation/d/31411KqVNlZPwDvtqud2C-g8EOExZBt4-klS0VkKcn17ARA0/edit?usp=sharing (In-progress)

SoC4CG 202311-2: https://drive.google.com/file/d/1cg-XpSpNndynizNbQwKwT98vqSqiu_Q9/view?usp=sharing  (Frozen)

。SoC4CG 202311-1:https://drive.google.com/file/d/1NHrF2-SL4NacDTs-K-S8_WyQ_RwQfNjU/view?usp=sharing  (Frozen)

。SoC4CG 202310-2: https://drive.google.com/file/d/1lHnZ3roUX8tUMz_Ive7ZIbXY11za1Rv7/view?usp=sharing  (Frozen)

。SoC4CG 202310-1: https://drive.google.com/file/d/1jk5V-zcY6Le_TgKMSXmN98wPW65MgRY2/view?usp=sharing  (Frozen)

。Sparks over Coffee for Common Good (SoC4CG), 202309 :  https://drive.google.com/file/d/1ffM3e300UUFmXwwYyLWPzxmOy1xYQTGQ/view?usp=sharing (Frozen)


。在Neurips大会看到这个做DL软件加速的公司,https://www.hpc-ai.tech/ 。创始人是新加坡国立大学的尤洋教授和他在伯克利的导师,https://www.comp.nus.edu.sg/~youy/, 伯克利毕业的。在前两周的Supercomputing也看到过他们的工作。我个人觉得可以让HPC-AI Tech做个poc,纯软件的,应该见效很快,https://github.com/hpcaitech/ColossalAI

。另外,在Neurips会上发现一个ARM的文章,和MIT 韩松的TinyML训练有共性目标,但只做算法优化,不是软硬件协同。但是,比MCUNet 多做了 bitwidth和sparcity的优化。我也问了韩松这边,他们说因为已经达到优化目标了,所以没有做bitwidth和sparcity的优化。链接:

https://nips.cc/virtual/2022/poster/55251

https://openreview.net/forum?id=ZJe-XahpyBf

。貌似Hinton泰斗 和 谷歌研究院长兼实干家Jeff Dean, 都有类似想法,即,learning based Reconfigurable systems。也许,他们目前都是谷歌的,有一定默契。但这个方向的一些技术点也被MIT等学界研究,论证和支撑了。 

。SC会上和Intel的人交流时,他们自己也很骄傲PolarFly这个作品。另外,他们参与了,AGILE项目,应该大概率有落地计划。有一点是: 这种dragonfly变种的拓扑,会对服务器网络布线有一定难度,因为光纤长短不一,等等。但,这都不是新问题。也可控,因为PolarFly数学上很优美,只需要工程人员适应一下即可。Polarfly和HammingMesh都是为了CNN,GNN等DL类新应用的DragonFly变种。Torsten Hoefler的一页SC会议上的胶片基本是这类网络拓扑技术的历史沿革。没想到我原来在IBM做的PERCS文章还是和Torsten Hoefler合作的。他当时在UIUC做我们的IBM BlueWater的售后支持工作。我们是甲乙方关系,写完论文就自然把他的名字放上去了,当时也没留意

。https://groq.com/press/  Groq是个谷歌TPU团队出来的人弄的公司,现在又相当的政府HPC和金融界高频交易客户。他们用的也是变种的DragonFly。 https://www.youtube.com/watch?v=mUsBORr-T8E  这个报告是网络和调度部分。这些工作发表在年中的体系结构顶会ISCA 2022

。这个SC的topo aware network panel我也去听了,确实很实用,因为主要是业界的人,相关胶片的照片在楼上提到的谷歌云盘里:https://drive.google.com/drive/folders/1OhvChtn3olayRqCNYlvbHwO_B8clQTpB 

其中,我觉的谷歌的 Brian Towles的报告虽然不好看,但非常切中要害。他在问答环节说的也不多,但字里行间很到位,值得细细品味下。我想原因是这样:他是斯坦福bill daly那里出来的(楼上提到过Bill Daly和Peter Kogge的关于Exascale Computing的总结报告,也很干货),对dragonfly很了解,还和bill daly出了一本网络实践的教科书,在DE Shaw的生物制药超算中心一直做domain specific 网络(这些工作都是比其它人早近10年就看是的工作,很多学界的教授根本没有概念),然后在谷歌的TPU团队也还是做专用网络。可以说,他的理论和实践功底,在panel里是最牛的。但,人很低调。所以,还是要细听的他语句。总体是:基于他的研究和实践经验,domain specific网络是毋庸置疑的,这里包括 topology和相关参数设计和调优。

这块我在panel后问了一下周围的朋友。可能主要是业界的人在上面这个panel上,相关的学界教授做的很多因为资源不足,有价值的论文少些

。这个中山大学和超算中心等的ICS 2022论文,Optimized MPI collective algorithms for dragonfly topology,我觉得可以看作topo aware的一个软件实践。而且,MPI Collectives的网络通讯方式其实很多和DL训练时出现的规律和方式是一样的。这里有个油管报告视频:https://www.youtube.com/watch?v=Gu2Tp-G9LyA  其中一些技术和理念,可以用在HammingMesh,PolarFly等DragonFly变种上

。Jack在SC的图灵奖报告也是一样的逻辑。

或者,换个角度看:深度学习的AI负载,图计算hpc-g的负载,和传统HPC的Linpak(hpc-l)负载是不同的。以传统hpc-l为设计中心的系统,面对ai和g的负载,其效率很低是正常的,一般在1-100甚至到1-1000,主要原因是多线程处理器和内存访问的差距,即,数据搬运的需求差距。

所以,目前很多人是考虑对ai和g负载的系统设计和优化,例如ETH的Onur Mutlu文章里提到的从PIM入手,很大地减少处理器对内存的访问,因为很多计算在内存里或附近做了。加上其它硬件加速器和片上IO的结合,计算离数据会更近。但,这还不够。如ETH的Onur的文章所示,即使是AI的负载,也有不同的需求和相应优化。因此,这就回到您上面提到的DARPA的SDH(sw defined hw)的项目,其实质我认为是,粗粒度的可重构体系结构,其可重构是由软件来指挥的,例如NVDIA的Symphony项目(实际是Steve Keckler和Doug Burger两个人,还在UT Austin做教授时的TRIPS项目的延申)。

其实把这些软件定义和可重构的理念,和云计算放在一起是很完美的。云计算的本质是服务,即用户和编程人员一般不需要知道很多硬件细节,只要好用就行。在好用的前提下,通过高级语言甚至脚本控制下面硬件对不同负载的粗粒度重构,正好满足DARPA的SDH项目的纸面意义上的需求。或者说,云也会是 domain specific clouds, 会有类似SDH的DSL和NVDIA Symphony等类似的domain specific architecture(DSA)架构和设计。这里面最难的恐怕是网络架构的设计,及其和内存访问和计算单元的协处理。

。陆奇 今天在哈佛和MIT的报告。另有他去年末在中关村的报告。同一个主题。报告本身没有太多意外和项目直相关性。但是,在哈佛和MIT的这两场报告里,他都极力推荐openai 的 co-pilot (和将来的auto-pilot) 和 ChatGPT。其实最近openai的软件包的热度飙升。所以在想,可否应该把openai的软件栈也放入咱们的评测应用集之中? 这方面的应用应该会在AI领域很快很有代表性。

开源可获取行的问题,我想了想:

从溯源来看,OpenAI目前它可以是个Model as a Service(MaaS)的云平台(这一点好像陆奇的一页胶片有涉及)。训练OpenAI的模型,又可以是一个 Training as a Service(TaaS)的云服务。Maas和TaaS都应该可以为我司所用。由于OpenAI的GPT和Codex(Co-Pilot)等model services和API的迅速疯行,和将来的好势头,咱们要储备系统级优化技术,针对OpenAI这种大模型的训练TaaS云服务优化,及其MaaS的云服务优化。这就回到您的忧虑,即OpenAI目前不把API开放给中国,gpt3等也没有开源,那咱们做系统优化和设计的怎么把这块典型市场应用放到咱们的benchmark suite里来?

这确实是个问题。但看看OpenAI的底层技术和沿革,不难发现,OpenAI其实没有算法等方面的重大突破。它的特点是现有算法的大模型和大数据的拓展,及相应的工程实现。这貌似很土,也曾经不被很多学者和业界人士看好;但事实证明解决普适的基本问题,例如语言生成chatgpt,编程辅助codex。回到咱们的诉求,如果各种原因不能直接获得其开源代码,模型等等,可以用其它类似的 大公司如NVDIA和微软等 做的开源软件替代来“仿真”OpenAI对系统的运行特点,再做针对性的优化。这样,从系统的角度,优化效果大概率是类似的。

因此,针对:

1. Training as a Service,这可以是并行计算parallel computing的典型云服务范例,即您说的AI大模型的训练的开源可获取性:如上所述,因为OpenAI没有算法突破,咱们可以以NVDIA的大模型Megatron @ https://github.com/NVIDIA/Megatron-LM 为出发点。原因是NVDIA是主要是系统公司,他们要卖系统赚钱,所以他们的开源是真心实意的。进而,更大的模型训练开源项目还有 微软的基于Megatron的DeepSpeed @ https://www.microsoft.com/en-us/research/project/deepspeed/ 和 https://github.com/microsoft/DeepSpeed 。另外,欧洲那边的Bloom @ https://huggingface.co/blog/bloom-megatron-deepspeed 是在Megatron和DeepSpeed的基础上的更大的模型训练,甚至都比GPT-3的训练模型还大,所以都有 计算内核或算子 的代表性。可以根据咱们的条件适当取舍。

2. Model as a Service,这可以是多应用计算multiprgrammed workload的典型云服务范例,即chatgpt,codex等。这些模型的基本computing kernels应该和网上能搜到的开源模型,从计算机系统的角度没有太大区别,即一堆其它类似开源模型放在一起跑,咱们来优化,应该和chatgpt,codex等OpenAI模型放在一起跑对计算机系统的要求类似。这里面,单独线程差异有多大,说实话我还没有很大把握,但多线程组合起来,对multiprogrammed 负载分析,应该还是有统计意义的。

。单模型 训练成本降低的趋势是对的,但整体TaaS的市场会因为训练成本门槛低了以后催生更多的市场需求而继续发展,单一成本 X 数量 = 整体市场。类似PC的盛行,基因测序的盛行,有点像云计算的IaaS。在IaaS之上,还会有MaaS的发展,就像PaaS。然后带动相应的应用生态,就像SaaS。希望很多大厂能很快出自己的gpt和openai平台,和openAI竞争降成本增应用,这样才能更快地催生这个市场。另外从整体成本的角度,训练成本是一个环节,(1)之前的数据清洗(貌似目前主要需要人工),(2)和之中的数据标注(需要专业know-how,有部分自动化,如Tesla的AD视频标注),这两块如果也都自动化和规模化,也是一部分市场需求我觉得,但可以一步一步来

。陆奇 举例子时说,微软非常重视 邮件软件Outlook和它的Teams交互软件的业务,这就是从微软角度您提到的泛链接,有了office的流量才能保证微软的产品生态
。Gates, who cofounded Microsoft in 1975, believes that new robots like ChatGPT are capable of training, improving, and reading and writing through new knowledge(知识). He said that AI will improve messaging software like Microsoft's Team. URL: https://www.thestreet.com/technology/bill-gates-reveals-the-next-big-thing?puc=yahoo&cm_ven=YAHOO

。周一在三藩的ISSCC听了AMD的Lisa Su的主题报告。油管上的视频也出来了:https://www.youtube.com/watch?v=DxAL7MGiWGs 。我个人最喜欢后面这几页,即:基于AI性能的加速提升,可以考虑用 AI计算 来替代 传统HPC领域的物理建模迭代计算 (AI Surogates Physics Models),从而用AI来提高HPC性能。这里和系统领域的 run-ahead execution 和 value prediction 等技术有关联性。即,用速度快的AI模型的inference结果来逼近传统物理建模的计算结果。但,Lisa没有提到的是如果两者之间差别加大,那怎么办?这一点,我们之前有个专利有解决方案,即把 AI计算 做为 传统HPC计算的预测或(近似计算)加速器的话,如何让两者协调同时获得高性能和可靠结果。这个专利是2021年递交申请给专利局的,已经是公开可获取的文件

。ISSCC会上看到这个Graphcore的报告,觉得不错。个人认为用它来做大模型训练和推理应用的性能预估还是挺靠谱的。这样,可以和仿真系统相互验证。下载地址:https://submissions.mirasmart.com/ISSCC2023/Itinerary/EventDetail.aspx?evt=58

ISSCC的注册信息,可以看到其它所有文档。另外,会场问Graph core的 人,他们的用户开始是对 training 需求大,然后过度到 inference 需求大,但客户希望用同一个系统架构可以同时支持training和inference的优化需求。目前,他们95%的需求可以用他们graphcore的on-chip SRAM支撑,不用off-chip memory。但是,他们也说,DL变化太快,需要系统设计时有一定超前性。

。2022年HotChip的Dojo和其它的相关报告: https://hotchips.org/advance-program/ 

Machine Learning

  Groq Software-Defined Scale-out Tensor Streaming Multi-Processor

 Dennis Abts, Groq 

  Boqueria - Next Generation At-Memory Inference Acceleration Device with 1,000+ RISC-V cores

 Robert Beachler, Untether AI 

  DOJO: The Microarchitecture of Tesla’s Exa-Scale Computer

 Emil Talpes, Tesla  : https:/ /youtu.be/ZL2aD4fKCS4

  DOJO - Super-Compute System Scaling for ML Training

 Bill Chang, Tesla : https://youtu.be/MWQNjyEULDE?t=5474 

  Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learningv

 Sean Lie, Cerebras
Keynote #2  : https://youtu.be/ZL2aD4fKCS4

 f Beyond Compute - Enabling AI through System Integration

 Ganesh Venkataramanan, Tesla Motors
https://hc34.hotchips.org/

。https://sharegpt.com/ 

https://news.ycombinator.com/item?id=34954604

不是所有人都认同这个sharegpt,但也许可以成为一个弯道超车的办法,因为sharegpt可以是建立在chatgpt的label基础上的一个小数据小模型平台。https://sharegpt.com/explore https://sharegpt.com/c/dds1LKN