人工智能(AI)的世界大致可分为三大领域(当然,这是一种简化的分类方式):
大型语言模型(LLM)
这类模型属于通用型,例如 GPT-4 或 Chinchilla。它们通过吸收网络或其他文本/语言数据,转化为能够生成法律文件摘要、使用搜索引擎或作为聊天机器人等多种功能的基础模型。
图像生成模型
包括 Midjourney、Dall-E、Stable Diffusion 等,以及一些易于使用的视频制作工具和 NeRF 等 3D 模型。这类模型通过用户输入的提示生成图像。
其他领域
这个类别涵盖了机器人技术、自动驾驶汽车、蛋白质折叠等多种应用。虽然这些技术的模型架构和终端市场各不相同,但为了方便讨论,本文将暂时将它们归为一类。
在谈论“生成式人工智能”时,人们常常将这些领域混为一谈。然而,每个领域都有不同的底层 AI 模型架构、计算需求、扩展方式、质量标准和实际应用场景。因此,将它们分开分析,才能更好地推断它们未来的发展方向。
图像生成技术可能会对多个行业产生深远影响,包括但不限于:
社交平台与图像生成(如 Lensa 类产品的未来版本,或与核心社交平台的深度集成)
图形与可视化设计
电影、漫画、动漫、日本漫画
视频游戏
CAD 设计
建筑行业
电子商务领域
等等…
此外,高性能视频和语音技术的应用也开辟了更多可能性。
尽管图像生成技术在短期内对社会的影响力较大,但与文本和语言的应用范围相比仍显局限。未来,随着视频、语音等交互方式的普及,这种情况可能会有所改变。目前,大多数 B2B 应用以语言为核心(文本为主,语音为辅),而消费者应用则是混合型的(如社交平台 Twitter、Facebook、TikTok、YouTube,以及电子商务平台 Amazon、Airbnb 等)。
从市场规模和收入来看,图像生成的应用潜力虽然巨大,但与语言生成技术相比仍有较大差距。语言是 B2B 交互、社交产品、商业等领域的核心部分。因此,短期内 LLM 的经济价值可能远超图像生成,尽管后者的重要性也不容忽视。
相比于 LLM,图像生成模型的训练成本更低。例如,最新版的 Stable Diffusion 模型训练可能仅需数十万到数百万美元的 GPU 时间。
LLM 的主要应用领域包括:
搜索引擎
B2B 交互、销售、ERP、文档管理与使用、电子邮件等
代码生成、数据交互、SQL、Excel 等
金融领域
社交与消费产品
聊天、短信及其他应用
“一切的白领助手”——涵盖法律、会计、医学等领域
在这些领域中,哪些需要大型语言模型?哪些更适合小规模的专业模型?这仍是一个悬而未决的问题。目前来看,LLM 在某些领域表现优于小众模型,但并非所有领域都是如此。
大型语言模型及其终端市场结构可能存在多种发展方向。市场结构的重要性在于它决定了生态系统中的经济赢家和人才赢家(即谁将获得收入、人才、利润、市值与创新的最大份额)。
👉 WildCard 野卡 | 一分钟注册,轻松订阅海外线上服务