Azure OpenAI 服务是一项强大的 AI 工具,但其使用受一些配额和限制约束。以下内容为您带来一目了然的配额和限制指南,帮助您更好地规划和使用该服务。
为了确保服务的稳定性与性能,Azure OpenAI 设置了一系列默认配额和限制。 以下是一些重要规范:
每个 Azure 订阅每个区域资源上限:30
DALL-E 2 并发请求上限:2
DALL-E 3 配额容量单位:2 单位(约每分钟 6 请求)
Whisper 每分钟请求上限:3
每个请求的最大提示令牌数:因模型而异
每个资源的最大标准部署数:32
最大微调模型部署数:5
每个资源的训练作业总数限制:100
排队的最大训练作业数:20,而最大同时进行的训练作业为 1
在优调(微调模型)限制方面:
每个资源的最大文件数:50
单文件最大上传大小:16 MB
总文件大小上限:1 GB
其他具体 API 提供的详细限制请参考相关官方文档或服务手册。
Azure OpenAI 的批处理功能提供了批量处理的便捷方法,但也受一些限制。
gpt-4o-mini 企业协议模式:1.5 亿令牌
gpt-4o-mini 默认模式:1 亿令牌
gpt-4o 默认配额:30 万令牌
gpt-4o-mini 默认配额:1百万令牌
Azure 不同模型的速率限制各不相同。以下是主要模型的速率限制信息:
gpt-4o
企业协议配额:每分钟 30 百万令牌(TPM),每分钟请求数 180K。
默认配额:每分钟 450K TPM,请求限制为 2.7K。
o1 系列模型
o1-mini Enterprise:每分钟 5 百万令牌,每分钟 500 请求。
这些速率设置确保模型在高负载情况下稳定运行。
为了优化服务体验,建议采用以下方式来确保资源使用高效且在速率限制范围内:
实现自动重试逻辑
逐步增加工作负载,避免骤然增幅
定期优化负载模式,测试性能极限
必要时提高配额,或者从非关键工作负载转移配额
如果您需要扩展默认配额,可以通过申请表单提交申请。
Azure OpenAI 提供了一系列强大的 AI 功能,其配额和限制旨在保障每位用户的公平和体验。在使用过程中,合理规划负载和额度分配,能让服务更高效地满足您的实际需求。