Что именно “съедает” память в локальных LLM?

Производительность и требование к памяти зависят не только от “7B/13B/32B”, а от трёх факторов:

Веса модели (параметры + квантизация). Это то, что загружается в RAM/VRAM.
KV-кэш (зависит от контекста и количества слоёв). Он растёт во время диалога.
Оверхед (рантайм, токенизатор, буферы, драйверы, UI). Обычно “пара гигабайт сверху”.

Ключевая идея: если модель “влезла” — это ещё не значит, что она не будет лагать. Часто лаги начинаются, когда растёт KV-кэш (вы увеличили контекст или долго общаетесь).

🔥 100 000+ учеников уже с нами

Устал читать теорию?
Пора кодить!

Кодик — приложение, где ты учишься программировать через практику. AI-наставник, интерактивные уроки, реальные проекты.

Присоединились сегодня

Кодик

Быстрая оценка: сколько памяти нужно модели?

Это грубая, но рабочая прикидка. Точные цифры зависят от архитектуры и реализации, но логика такая:

FP16 ≈ 2 байта на параметр → очень прожорливо, почти всегда не нужно дома.
8-bit ≈ 1 байт на параметр → заметно легче.
4-bit ≈ 0.5 байта на параметр (плюс служебные данные) → самый популярный вариант для ПК.

Практическое правило: для домашнего запуска чаще всего выбирают 4-bit (Q4) или 5-bit (Q5). Они дают хорошее соотношение “качество/скорость/память”.

Ориентиры по VRAM для GPU-инференса (4-bit)

Размер	Минимум VRAM	Комфортно	Что реально можно делать
3B–4B	2–4 ГБ	6 ГБ	Быстрые ответы, простые задачи, чат “на каждый день”.
7B–8B	4–6 ГБ	8 ГБ	Код, объяснения, резюме текстов, базовые RAG-сценарии.
13B–14B	8–10 ГБ	12–16 ГБ	Сложнее рассуждает, лучше в коде/инструкциях, меньше “галлюцинаций”.
30B–34B	16–24 ГБ	24+ ГБ	Большие задачи, длинные диалоги, сложные проекты, более “взрослый” ассистент.
70B	40+ ГБ	сервер	Для домашнего ПК — редко рационально.

Важно: если VRAM впритык, модель может частично “спилливаться” в RAM (offload), и скорость резко падает. Поэтому “минимум” — это про запуск, а “комфортно” — про отсутствие лагов.

Подбор модели по твоему железу

Сетап A: 8 ГБ RAM, без дискретной GPU

Выбор: 3B–7B в 4-bit.
Контекст: 2k–4k (не ставь 16k “на всякий”).
Ожидания: норм для чата/справки, но кодогенерация может быть медленной.

Сетап B: 16 ГБ RAM, 6–8 ГБ VRAM

Выбор: 7B (комфортно) или 13B в 4-bit.
Контекст: 4k–8k (по задаче).
Ожидания: хороший “локальный помощник” для разработчика.

Сетап C: 32 ГБ RAM, 12–16 ГБ VRAM

Выбор: 13B без компромиссов, 32B в 4-bit (часто уже реально).
Контекст: 8k–16k (если нужно RAG/длинные документы).
Ожидания: можно держать несколько моделей и переключаться.

Сетап D: 24 ГБ VRAM и выше

Выбор: 32B комфортно, иногда — больше (в 4-bit).
Контекст: 16k+ при необходимости.
Ожидания: почти “домашний сервер”, особенно если CPU тоже сильный.

Как не словить лаги?

Квантизация

Если не уверен — бери Q4 как базу.
Если качество важно, а память позволяет — попробуй Q5 или 8-bit.

Контекст (context window)

Ставь контекст по задаче. Для обычного чата часто хватает 4k–8k.
Для работы с документами/RAG — повышай, но следи за памятью (KV-кэш растёт).

Offload (часть модели в RAM)

Offload помогает запуститься на слабой VRAM, но может резко замедлить ответы.
Если “тормозит” — сначала уменьши модель/контекст, и только потом играйся с offload.

Стабильная формула: меньше модель + Q4/Q5 + разумный контекст = почти всегда “без лагов”.

Что выбрать разработчику: “универсальная” vs “кодовая” модель

Если у вас цель — код, то часто лучше работает специализированная “code” модель того же размера, чем “универсальная” модель побольше, но впритык по памяти.

Универсальная модель — чат, объяснения, письма, идеи, RAG.
Code-модель — генерация/рефакторинг, объяснение ошибок, подсказки по API.

Типичная ошибка: взять “самую большую”, а потом выключить GPU-ускорение и терпеть. Лучше взять “поменьше”, но быстро.

Если ты только начинаешь: где прокачать базу (и зачем это важно)?

Локальные LLM — отличный инструмент, но они не заменяют понимание основ: переменных, циклов, SQL-запросов, работы с API. Чтобы нейросеть реально усиливала, а не “генерила магию”, база должна быть.

В приложении Кодик удобно учиться программированию через практику: короткие уроки, упражнения, закрепление на задачах. А в нашем Telegram-сообществе регулярно выходят полезные посты и разборы — отличный способ повторять темы “по пути”.

Какая нейросеть подойдёт твоему ПК? Подбираем LLM по RAM и VRAM без лагов

Что именно “съедает” память в локальных LLM?

Устал читать теорию?
Пора кодить!

Быстрая оценка: сколько памяти нужно модели?

Ориентиры по VRAM для GPU-инференса (4-bit)

Подбор модели по твоему железу

Сетап A: 8 ГБ RAM, без дискретной GPU

Сетап B: 16 ГБ RAM, 6–8 ГБ VRAM

Сетап C: 32 ГБ RAM, 12–16 ГБ VRAM

Сетап D: 24 ГБ VRAM и выше

Как не словить лаги?

Квантизация

Контекст (context window)

Offload (часть модели в RAM)

Что выбрать разработчику: “универсальная” vs “кодовая” модель

Если ты только начинаешь: где прокачать базу (и зачем это важно)?

Понравилась статья?
Пора применять на практике!

Какая нейросеть подойдёт твоему ПК? Подбираем LLM по RAM и VRAM без лагов

Что именно “съедает” память в локальных LLM?

Устал читать теорию? Пора кодить!

Быстрая оценка: сколько памяти нужно модели?

Ориентиры по VRAM для GPU-инференса (4-bit)

Подбор модели по твоему железу

Сетап A: 8 ГБ RAM, без дискретной GPU

Сетап B: 16 ГБ RAM, 6–8 ГБ VRAM

Сетап C: 32 ГБ RAM, 12–16 ГБ VRAM

Сетап D: 24 ГБ VRAM и выше

Как не словить лаги?

Квантизация

Контекст (context window)

Offload (часть модели в RAM)

Что выбрать разработчику: “универсальная” vs “кодовая” модель

Если ты только начинаешь: где прокачать базу (и зачем это важно)?

Понравилась статья?Пора применять на практике!

Устал читать теорию?
Пора кодить!

Понравилась статья?
Пора применять на практике!