{}const=>[]async()letfn</>var
ИИРазработка

Какая нейросеть подойдёт твоему ПК? Подбираем LLM по RAM и VRAM без лагов

Разбираем, какую LLM можно запускать на твоём железе: от 8 ГБ RAM до 24 ГБ VRAM.

К

Кодик

Автор

3 мин чтения

Что именно “съедает” память в локальных LLM?

Производительность и требование к памяти зависят не только от “7B/13B/32B”, а от трёх факторов:

  • Веса модели (параметры + квантизация). Это то, что загружается в RAM/VRAM.

  • KV-кэш (зависит от контекста и количества слоёв). Он растёт во время диалога.

  • Оверхед (рантайм, токенизатор, буферы, драйверы, UI). Обычно “пара гигабайт сверху”.

Ключевая идея: если модель “влезла” — это ещё не значит, что она не будет лагать. Часто лаги начинаются, когда растёт KV-кэш (вы увеличили контекст или долго общаетесь).

🔥 100 000+ учеников уже с нами

Устал читать теорию?
Пора кодить!

Кодик — приложение, где ты учишься программировать через практику. AI-наставник, интерактивные уроки, реальные проекты.

🤖 AI 24/7
🎓 Сертификаты
💰 Бесплатно
🚀 Начать учиться
Присоединились сегодня

Быстрая оценка: сколько памяти нужно модели?

Это грубая, но рабочая прикидка. Точные цифры зависят от архитектуры и реализации, но логика такая:

  • FP16 ≈ 2 байта на параметр → очень прожорливо, почти всегда не нужно дома.

  • 8-bit ≈ 1 байт на параметр → заметно легче.

  • 4-bit ≈ 0.5 байта на параметр (плюс служебные данные) → самый популярный вариант для ПК.

Практическое правило: для домашнего запуска чаще всего выбирают 4-bit (Q4) или 5-bit (Q5). Они дают хорошее соотношение “качество/скорость/память”.

Ориентиры по VRAM для GPU-инференса (4-bit)

Размер

Минимум VRAM

Комфортно

Что реально можно делать

3B–4B

2–4 ГБ

6 ГБ

Быстрые ответы, простые задачи, чат “на каждый день”.

7B–8B

4–6 ГБ

8 ГБ

Код, объяснения, резюме текстов, базовые RAG-сценарии.

13B–14B

8–10 ГБ

12–16 ГБ

Сложнее рассуждает, лучше в коде/инструкциях, меньше “галлюцинаций”.

30B–34B

16–24 ГБ

24+ ГБ

Большие задачи, длинные диалоги, сложные проекты, более “взрослый” ассистент.

70B

40+ ГБ

сервер

Для домашнего ПК — редко рационально.

Важно: если VRAM впритык, модель может частично “спилливаться” в RAM (offload), и скорость резко падает. Поэтому “минимум” — это про запуск, а “комфортно” — про отсутствие лагов.

Подбор модели по твоему железу

Сетап A: 8 ГБ RAM, без дискретной GPU

  • Выбор: 3B–7B в 4-bit.

  • Контекст: 2k–4k (не ставь 16k “на всякий”).

  • Ожидания: норм для чата/справки, но кодогенерация может быть медленной.

Сетап B: 16 ГБ RAM, 6–8 ГБ VRAM

  • Выбор: 7B (комфортно) или 13B в 4-bit.

  • Контекст: 4k–8k (по задаче).

  • Ожидания: хороший “локальный помощник” для разработчика.

Сетап C: 32 ГБ RAM, 12–16 ГБ VRAM

  • Выбор: 13B без компромиссов, 32B в 4-bit (часто уже реально).

  • Контекст: 8k–16k (если нужно RAG/длинные документы).

  • Ожидания: можно держать несколько моделей и переключаться.

Сетап D: 24 ГБ VRAM и выше

  • Выбор: 32B комфортно, иногда — больше (в 4-bit).

  • Контекст: 16k+ при необходимости.

  • Ожидания: почти “домашний сервер”, особенно если CPU тоже сильный.

Как не словить лаги?

Квантизация

  • Если не уверен — бери Q4 как базу.

  • Если качество важно, а память позволяет — попробуй Q5 или 8-bit.

Контекст (context window)

  • Ставь контекст по задаче. Для обычного чата часто хватает 4k–8k.

  • Для работы с документами/RAG — повышай, но следи за памятью (KV-кэш растёт).

Offload (часть модели в RAM)

  • Offload помогает запуститься на слабой VRAM, но может резко замедлить ответы.

  • Если “тормозит” — сначала уменьши модель/контекст, и только потом играйся с offload.

Стабильная формула: меньше модель + Q4/Q5 + разумный контекст = почти всегда “без лагов”.

Что выбрать разработчику: “универсальная” vs “кодовая” модель

Если у вас цель — код, то часто лучше работает специализированная “code” модель того же размера, чем “универсальная” модель побольше, но впритык по памяти.

  • Универсальная модель — чат, объяснения, письма, идеи, RAG.

  • Code-модель — генерация/рефакторинг, объяснение ошибок, подсказки по API.

Типичная ошибка: взять “самую большую”, а потом выключить GPU-ускорение и терпеть. Лучше взять “поменьше”, но быстро.

Если ты только начинаешь: где прокачать базу (и зачем это важно)?

Локальные LLM — отличный инструмент, но они не заменяют понимание основ: переменных, циклов, SQL-запросов, работы с API. Чтобы нейросеть реально усиливала, а не “генерила магию”, база должна быть.

В приложении Кодик удобно учиться программированию через практику: короткие уроки, упражнения, закрепление на задачах. А в нашем Telegram-сообществе регулярно выходят полезные посты и разборы — отличный способ повторять темы “по пути”.

🎯Хватит откладывать

Понравилась статья?
Пора применять на практике!

В Кодик ты не просто читаешь — ты сразу пишешь код. Теория + практика = реальный скилл.

Мгновенная практика
🧠AI объяснит код
🏆Сертификат

Без регистрации • Без карты