Что именно “съедает” память в локальных LLM?
Производительность и требование к памяти зависят не только от “7B/13B/32B”, а от трёх факторов:
Веса модели (параметры + квантизация). Это то, что загружается в RAM/VRAM.
KV-кэш (зависит от контекста и количества слоёв). Он растёт во время диалога.
Оверхед (рантайм, токенизатор, буферы, драйверы, UI). Обычно “пара гигабайт сверху”.
Ключевая идея: если модель “влезла” — это ещё не значит, что она не будет лагать. Часто лаги начинаются, когда растёт KV-кэш (вы увеличили контекст или долго общаетесь).
Быстрая оценка: сколько памяти нужно модели?
Это грубая, но рабочая прикидка. Точные цифры зависят от архитектуры и реализации, но логика такая:
FP16 ≈ 2 байта на параметр → очень прожорливо, почти всегда не нужно дома.
8-bit ≈ 1 байт на параметр → заметно легче.
4-bit ≈ 0.5 байта на параметр (плюс служебные данные) → самый популярный вариант для ПК.
Практическое правило: для домашнего запуска чаще всего выбирают 4-bit (Q4) или 5-bit (Q5). Они дают хорошее соотношение “качество/скорость/память”.
Ориентиры по VRAM для GPU-инференса (4-bit)
Размер | Минимум VRAM | Комфортно | Что реально можно делать |
|---|---|---|---|
3B–4B | 2–4 ГБ | 6 ГБ | Быстрые ответы, простые задачи, чат “на каждый день”. |
7B–8B | 4–6 ГБ | 8 ГБ | Код, объяснения, резюме текстов, базовые RAG-сценарии. |
13B–14B | 8–10 ГБ | 12–16 ГБ | Сложнее рассуждает, лучше в коде/инструкциях, меньше “галлюцинаций”. |
30B–34B | 16–24 ГБ | 24+ ГБ | Большие задачи, длинные диалоги, сложные проекты, более “взрослый” ассистент. |
70B | 40+ ГБ | сервер | Для домашнего ПК — редко рационально. |
Важно: если VRAM впритык, модель может частично “спилливаться” в RAM (offload), и скорость резко падает. Поэтому “минимум” — это про запуск, а “комфортно” — про отсутствие лагов.
Подбор модели по твоему железу
Сетап A: 8 ГБ RAM, без дискретной GPU
Выбор: 3B–7B в 4-bit.
Контекст: 2k–4k (не ставь 16k “на всякий”).
Ожидания: норм для чата/справки, но кодогенерация может быть медленной.
Сетап B: 16 ГБ RAM, 6–8 ГБ VRAM
Выбор: 7B (комфортно) или 13B в 4-bit.
Контекст: 4k–8k (по задаче).
Ожидания: хороший “локальный помощник” для разработчика.
Сетап C: 32 ГБ RAM, 12–16 ГБ VRAM
Выбор: 13B без компромиссов, 32B в 4-bit (часто уже реально).
Контекст: 8k–16k (если нужно RAG/длинные документы).
Ожидания: можно держать несколько моделей и переключаться.
Сетап D: 24 ГБ VRAM и выше
Выбор: 32B комфортно, иногда — больше (в 4-bit).
Контекст: 16k+ при необходимости.
Ожидания: почти “домашний сервер”, особенно если CPU тоже сильный.

Как не словить лаги?
Квантизация
Если не уверен — бери Q4 как базу.
Если качество важно, а память позволяет — попробуй Q5 или 8-bit.
Контекст (context window)
Ставь контекст по задаче. Для обычного чата часто хватает 4k–8k.
Для работы с документами/RAG — повышай, но следи за памятью (KV-кэш растёт).
Offload (часть модели в RAM)
Offload помогает запуститься на слабой VRAM, но может резко замедлить ответы.
Если “тормозит” — сначала уменьши модель/контекст, и только потом играйся с offload.
Стабильная формула: меньше модель + Q4/Q5 + разумный контекст = почти всегда “без лагов”.
Что выбрать разработчику: “универсальная” vs “кодовая” модель
Если у вас цель — код, то часто лучше работает специализированная “code” модель того же размера, чем “универсальная” модель побольше, но впритык по памяти.
Универсальная модель — чат, объяснения, письма, идеи, RAG.
Code-модель — генерация/рефакторинг, объяснение ошибок, подсказки по API.
Типичная ошибка: взять “самую большую”, а потом выключить GPU-ускорение и терпеть. Лучше взять “поменьше”, но быстро.
Если ты только начинаешь: где прокачать базу (и зачем это важно)?
Локальные LLM — отличный инструмент, но они не заменяют понимание основ: переменных, циклов, SQL-запросов, работы с API. Чтобы нейросеть реально усиливала, а не “генерила магию”, база должна быть.
В приложении Кодик удобно учиться программированию через практику: короткие уроки, упражнения, закрепление на задачах. А в нашем Telegram-сообществе регулярно выходят полезные посты и разборы — отличный способ повторять темы “по пути”.
