人工智能(AI)的飞速发展,为我们带来了一个充满可能性的未来。从广泛的应用领域来看,AI 的世界可以被大致分为以下三个主要范畴(尽管这是一种简化的分类方式):
大型语言模型(LLM)
如 GPT-4 或 Chinchilla,这些通用模型通过摄取网络或其他文本/语言来源的内容,打造出具备多功能的系统。它们可以生成法律文件摘要、执行搜索任务,或者作为友好的聊天机器人。
图像生成
包括 Midjourney、DALL-E、Stable Diffusion 等模型。通过用户的简单文本提示,它们可以生成图像,甚至随着技术进步,还支持视频制作和 3D 建模(如 NeRF)。
其他人工智能领域
这类技术涵盖了机器人技术、自动驾驶汽车、蛋白质折叠等广泛的领域。尽管它们在架构和终端市场上存在巨大差异,但为了简化,我们在此将它们暂时归为一类。
在“生成式人工智能”这一广义概念下,这些领域常被混为一谈。然而,它们在底层 AI 模型架构、计算需求、扩展性、质量标准及实际应用领域上存在显著差异。理解这些差异对于预测 AI 的未来发展至关重要。
图像生成技术可能颠覆多个行业,为以下领域带来深远的影响:
社交产品与视觉内容(未来版的 Lensa 类工具,或与核心社交平台集成)
图形设计和数据可视化
电影、漫画、动漫的创作
视频游戏开发
CAD 和建筑设计
电子商务的图像技术
此外,高性能视频及语音生成技术的日臻成熟,也可能开辟更多创新的应用场景。
尽管图像生成的应用范围广泛,但从规模来看,短期内其影响力仍然较小,特别是与语言应用领域相比。然而,视频、语音及其他交互形式的发展可能在未来逐步改变这一现状。就目前来看,大部分 B2B 应用以文本和语言为核心,而消费者应用则更多聚焦于社交平台与电商互动。
与图像生成技术相比,语言生成技术的经济潜力要大得多。语言是 B2B 交互、社交产品和商业活动的核心。在市值和实际收入方面,语言生成的潜在应用超越了图像生成的规模。
目前,对于 LLM 的训练成本也远高于图像生成模型。比如,主流图像生成模型(如 Stable Diffusion)可能仅需数十万至数百万美元的 GPU 时间完成训练,而大型语言模型则需要更高的投入。
LLM 正在改变我们工作的方方面面,覆盖以下许多场景:
搜索引擎优化与自然语言查询
B2B 交互和业务管理(如销售、ERP、文档管理、电子邮件等)
代码生成与数据交互(SQL、Excel 等)
金融行业的预测与分析
社交与消费者应用(如聊天、短消息产品)
各类白领职业的辅助工具(法律、会计、医学等)
这让我们面临一个核心问题:哪些应用场景需要大型语言模型,哪些则适合小型、更多定制化的小众模型?目前,LLM 在某些领域表现优越,但并不适用于所有业务,市场仍在探索最佳解决方案。
AI 的市场结构将深刻影响行业生态和各方利益分配。谁将在这场竞赛中最终获胜?是人才的吸收者,还是利润的赢家?这一切取决于不同 AI 模型在市场中的定位、盈利潜力,以及技术与商业的结合程度。
大型语言模型与图像生成技术,两者各有千秋。尽管短期内 LLM 显然占据主导,但随着 AI 技术的逐步成熟,从语言到视觉,甚至更加多样化的应用领域,都将迎来繁荣的未来。期待在技术之光的引领下,AI 为更多领域创造价值!