On-Premise LLM

Безопасность и
контроль

Максимальная безопасность, конфиденциальность и производительность

Серверные конфигурации

Выберите оптимальную конфигурацию для ваших задач

Минимальная
Для прототипирования • до ~5 параллельных запросов
CPU:

8–12 vCPU (AMD EPYC 72xx, Intel Xeon Silver 43xx)

GPU:

≥24 ГБ VRAM (RTX 3090/4090, NVIDIA A10)

RAM:

12–24 ГБ

SSD:

1 ТБ NVMe (рекомендуем RAID-1)

Показатели даны для vLLM/TGI, Q8, контекст ≤4–8k; фактическая скорость и число одновременных запросов зависят от батчинга и длины контекста.
Оптимальная
Для продукта • 5–15 параллельных запросов
CPU:

16–24 vCPU (AMD EPYC 7282, Intel Xeon Gold 53xx)

GPU:

1×48 ГБ (RTX A6000 / L40 / A6000 Ada) или 2×24 ГБ (RTX 3090/4090/A10) с TP=2

RAM:

24–80 ГБ

SSD:

1–2 ТБ NVMe (RAID-1/10)

13B: 16 ГБ VRAM, 24–40 ГБ RAM. 30B: 32 ГБ VRAM, 48–80 ГБ RAM. Все модели в Q8.
Расширенная
Для масштаба • 10–20+ параллельных запросов
CPU:

32–64 vCPU (2-сокет: AMD EPYC 7002/9004 или Intel Xeon Scalable 3-го поколения)

GPU:

≥64 ГБ VRAM (A100 80GB / H100 80GB)

RAM:

100–160 ГБ

SSD:

2–4 ТБ NVMe (RAID-1/10)

65B: 64 ГБ VRAM, 100–160 ГБ RAM. Для более крупных моделей требуется baremetal или managed кластер.

Подбор конфигурации и расчёт стоимости

Персонализированный расчёт оборудования под ваши задачи

Входные параметры

Векторная база знаний

Дополнительные опции

Рекомендованная конфигурация
Оценка стоимости

Готовы к внедрению On-Premise LLM?

Получите персональную консультацию по выбору оптимальной конфигурации