人工智能(AI)的世界可以分为三大领域(尽管这是一种简化的分类方式):
大型语言模型(LLM)
如 GPT-4 或 Chinchilla 等通用模型,它们通过分析网络或其他文本数据,生成多样化的应用,例如生成法律文件摘要、搜索引擎优化,或作为智能聊天机器人。
图像生成模型
包括 Midjourney、Dall-E、Stable Diffusion 以及视频制作工具和 NeRF 等 3D 模型。这些模型通过用户输入的提示生成高质量图像。
其他领域
包括机器人技术、自动驾驶汽车、蛋白质折叠等。尽管这些技术的模型架构和应用市场各异,但为了方便讨论,我们将它们归为一类。
当人们谈论“生成式人工智能”时,往往会将这些领域混为一谈。然而,每种技术的底层模型架构、计算需求、质量标准和应用场景都不同,因此需要分别分析其未来潜力。
图像生成技术有望在以下领域产生深远影响:
社交产品和图像(如 Lensa 的升级版或与社交平台的深度集成)
图形与可视化设计
电影、漫画、动漫、日本漫画
视频游戏
CAD 设计
建筑
电子商务
以及其他众多领域
高性能的视频和语音技术也将开辟更多应用场景。
尽管图像生成的社会应用范围广泛,但与文本和语言的应用规模相比仍显不足。目前,大多数 B2B 应用以语言为核心,而消费者应用则混合了文本和视觉元素(如社交媒体平台和电子商务)。
与图像生成相比,大型语言模型(LLM)在短期内具有更高的经济价值。语言是 B2B 交互、社交产品、商业及其他领域的核心,因此 LLM 的重要性远超过图像生成。
图像生成模型的训练成本相对较低。例如,Stable Diffusion 的最新版本仅需数十万到数百万美元的 GPU 时间即可完成训练。
大型语言模型在以下领域展现出巨大潜力:
搜索引擎优化
B2B 交互、销售、ERP、文档管理与电子邮件
代码生成、SQL、Excel 等
金融
社交与消费产品
聊天、短信及其他应用
白领工作的辅助工具(如法律、会计、医学等)
尽管 LLM 在某些领域表现优异,但哪些领域需要小众语言模型,哪些需要 LLM,仍是一个未解的问题。
大型语言模型及其潜在的市场结构决定了未来生态体系中的经济赢家和人才赢家(谁将获得收入、利润、市值与创新机会)。