Kilo Code: выбор конфигурации для домашнего компьютера

Добавил(а) microsin

Ниже представлен диалог с DeepSeek.

[Вопрос1. Выбор модели]

Посоветуй выбор модели ИИ плагина Kilo Code для программирования. Параметры моего компьютера:

Процессор	AMD Ryzen 7 7700 8-Core Processor (3.80 GHz)
Установлено ОЗУ	32,0 GB (31,1 GB usable)
Видеокарта	NVIDIA GeForce RTX 4080 SUPER (16 GB) AMD Radeon(TM) Graphics (486 MB)
Диск	Использовано 2.73 TB от общего объема 10.92 TB
Тип системы	Windows 11 Pro, Version 25H2, OS build 26200.8457, 64-bit operating system, x64-based processor

Судя по вашему мощному компьютеру (RTX 4080 и 32 GB ОЗУ), у вас отличная возможность гибко подходить к выбору модели в Kilo Code. У вас достаточно ресурсов, чтобы использовать самые разные подходы — от самых умных облачных моделей до запуска нейросетей прямо на вашей видеокарте.

Вот несколько лучших стратегий, от которых я бы отталкивался:

Топ по качеству кода (облачные модели). Если вам нужен максимальный результат без компромиссов, стоит обратить внимание на модели от Anthropic. Независимые тесты показывают, что они лидируют по качеству анализа и генерации кода.

● Claude Code Haiku 4.5: несмотря на название "Haiku", эта модель получила 100/100 в свежих бенчмарках за анализ кода, обойдя даже старшие версии. Отличный баланс скорости и интеллекта.
● Claude Code Sonnet 4.5: Показывает выдающиеся результаты (99.5/100) и считается "золотым стандартом" для написания и рефакторинга.
● Google Gemini 3 Pro Preview: отличная альтернатива от Google с гигантским контекстным окном в 1 миллион токенов (позволяет загрузить всю кодовую базу целиком).

Оптимально по цене и качеству. Если не хочется переплачивать, но результат нужен близкий к топовому — присмотритесь к этим вариантам:

● OpenRouter Qwen3 Max: эта модель показала результат 98.3/100, уступив только свежим версиям Claude, и при этом значительно дешевле.
● KiloCode xAI Grok Code Fast 1: отличная модель от xAI с оценкой 95.3/100. Её особенность — генерация понятных схем (Mermaid diagrams), что очень помогает в планировании архитектуры.
● MiniMax M2.1: очень сильный новичок. На бенчмарке SWE-bench (решение задач из реальных репозиториев) набирает 74.0, обходя DeepSeek V3.2.

Запуск моделей локально (ваш козырь). У вас NVIDIA RTX 4080 с 16 ГБ видеопамяти — это позволяет запускать мощные open-source модели прямо на компьютере. Преимущества: бесплатно, приватно и без задержек сети.

Kilo Code поддерживает подключение к локальным серверам, например, через Ollama или LM Studio. Я бы посоветовал обратить внимание на:

1. Google Gemma 4 31B: инструкция (модель, оптимизированная под следование инструкциям) весит 30.7 млрд параметров, поддерживает multimodal (понимает изображения) и отлично работает с контекстом в 256K токенов. Модель довольно "тяжелая", но ваша 4080-я с 16 ГБ должна её потянуть с оптимизациями (например, в 4-битном квантовании).

2. DeepSeek V3: модели DeepSeek славятся эффективностью и сильными навыками кодинга. Вы сможете найти "квантованные" версии, которые займут меньше места на видеокарте, но сохранят качество.

Практический совет по настройке. Ваш компьютер позволяет использовать главную "фишку" Kilo Code — режим Оркестратора (Orchestrator). Вы можете настроить трех агентов:

Architect (Архитектор): поставьте ему Claude Sonnet 4.5 или Gemini 3 Pro. Он будет думать над сложной архитектурой.
Coder (Программист): поставьте Qwen3 Max или локальную Gemma 4. Он будет быстро писать код по плану.
Debugger (Отладчик): поставьте Grok Fast или MiniMax M2.1 для поиска багов.

Это даст вам качество топовых моделей там, где это нужно, и экономию там, где можно чуть быстрее.

Как попробовать локальную модель:

1. Скачайте и установите LM Studio или Ollama.
2. Загрузите через них модель (например, gemma-4-31b-it).
3. В Kilo Code зайдите в настройки (шестеренка) -> вкладка Providers -> внизу Custom provider.
4. Укажите локальный адрес (обычно http://localhost:1234/v1) и выберите загруженную модель.

Учитывая ваш мощный ПК, я бы на вашем месте в первую очередь попробовал связку Claude Sonnet 4.5 (или Haiku 4.5) через API для ключевых задач, и параллельно настроил бы Gemma 4 31B локально для рутинных правок и рефакторинга. Это даст максимальное качество и приватность.

[Вопрос 2. Уточнение выбора в пользу локальной модели]

Я нахожусь в России, и у меня проблема с оплатой облачных сервисов провайдеров моделей ИИ. Скорректируй рекомендацию в сторону использования локальной модели.

С учетом вашей ситуации с оплатой зарубежных сервисов, перевод на локальные модели — это не просто компромисс, а полностью самостоятельное и эффективное решение. Ваш RTX 4080 с 16 ГБ VRAM идеально подходит для этой задачи: на таком оборудовании можно запускать производительные open-source модели, которые по качеству кода приближаются к топовым облачным аналогам .

Ниже — готовая стратегия перехода на локальную работу с Kilo Code.

Шаг 1: Установка Ollama (движок для моделей)

Ollama — это стандартный инструмент для запуска LLM на своем ПК. Kilo Code "из коробки" умеет с ним работать, вам не придется писать сложные конфиги вручную .

1. Перейдите на сайт ollama.com и скачайте версию для Windows.
2. Установите программу (после установки она запустится в фоне и появится значок в трее).

Шаг 2: Выбор и установка лучшей модели

Учитывая вашу видеокарту (16 ГБ), я составил список из трех моделей, от наиболее мощной до самой быстрой. Вам нужно открыть командную строку (CMD) или терминал VS Code и по очереди (или выборочно) ввести команды `ollama run ...`

Модель (команда)	Объем VRAM	Качество (оценка)	Скорость (токен/сек)	Вердикт
1. qwen3-coder:30b	~15-16 ГБ (прямо под ваш лимит)	Очень высокое (лучшее понимание кода)	~50 ток/с	Максимальное качество. Отличный выбор для сложных задач и тяжелого рефакторинга.
2. gpt-oss:20b	~14 ГБ (отлично влезает)	Высокое (от OpenAI)	~140 ток/с (мгновенно)	Золотая середина. Топ по скорости отклика, при этом очень умный. Идеален для повседневной работы (автодополнения, простые правки).
3. qwen3:14b	~12 ГБ	Хорошее	~62 ток/с	Резерв. Самый легкий вариант, если вы запускаете еще что-то тяжелое параллельно с игрой или IDE.

Как установить: скопируйте одну из команд и вставьте в терминал из столбца "Модель (команда)". Первый запуск скачает модель (около 8-10 ГБ), дальше она будет запускаться мгновенно.

# 1. Самый умный (рекомендую попробовать первым)
ollama run qwen3-coder:30b

# 2. Самый быстрый (если первый покажется медленным)
ollama run gpt-oss:20b

# 3. Запасной вариант
ollama run qwen3:14b

После того как модель загрузится и начнет отвечать в консоли, закройте терминал — она останется в списке установленных.

Шаг 3: Настройка Kilo Code для работы по-новому

Теперь подключим установленную локальную модель к интерфейсу Kilo Code.

1. Откройте VS Code.
2. Нажмите на иконку Kilo Code на левой боковой панели (или сочетанием Ctrl + Shift + X, если панель пропала).
3. В открывшемся окне чата Kilo найдите шестеренку (⚙️ Settings) в правом верхнем углу.
4. Перейдите на вкладку "Providers" (Провайдеры).
5. В списке провайдеров найдите "Ollama".
6. Если вы устанавливали Ollama стандартно, Kilo должен сам найти его по адресу http://localhost:11434.
7. В поле `Model ID` начните вводить имя модели, которую вы скачали (например, `qwen3-coder`). Kilo подставит вариант из списка.
6. Вернитесь в чат. В левом верхнем углу под заголовком "Kilo Code" сейчас, скорее всего, написано "Claude 3.5 Sonnet" (или любая другая облачная модель).
7. Нажмите на это название. Выпадет список доступных моделей. Выберите ту, что вы скачали в Ollama (например, `ollama/qwen3-coder:30b`).

Шаг 4: Финальный тюнинг (опционально)

Если вы выбрали самую тяжелую модель (`qwen3-coder:30b`) и заметили, что компьютер начал подтормаживать, нужно открыть ручную конфигурацию Kilo, чтобы добавить одну строчку.

1. В настройках Kilo (шестеренка) нажмите "Open Local Config" (Открыть локальную конфигурацию).
2. В открывшемся файле `kilo.jsonc` найдите секцию "provider" > "ollama".
3. Добавьте параметр `numGPU` (количество используемых видеокарт) или параметр низкоуровневой оптимизации, если знаете точный код. Обычно Kilo сам оптимизирует загрузку, но если тормоза есть — напишите, подскажу точную настройку под 4080.

Итог: вы полностью отвязаны от иностранных платежей, ваш код никогда не покидает ваш компьютер, и при этом вы получаете скорость отклика, сравнимую с Copilot (более 100 токенов в секунду на быстрой модели).

Если на каком-то из этапов Kilo не видит Ollama или модель выдает ошибку — проверьте, запущен ли Ollama (значок в трее) и точно ли написано имя модели.

[Вопрос 3. На какой диск устанавливать Ollama]

У меня в системе 2 диска - один SSD, другой обычный HDD. Какой диск лучше выбрать для установки Ollama?

Выбор диска для Ollama: однозначно SSD

Для хранения Ollama и, самое главное, моделей ИИ используйте только SSD-диск. HDD абсолютно не подходит для этой задачи.

Почему SSD, а не HDD: цифры и факты. Скорость загрузки моделей (реальные бенчмарки):

Тип диска	Скорость чтения	16 ГБ модель (как Qwen3)	38 ГБ модель
NVMe SSD	~7,000 МБ/с	~6 секунд	~10 секунд
SATA SSD	~550 МБ/с	~32 секунды	~72 секунды
HDD	~150 МБ/с	~85 секунд	~195 секунд (более 3 минут)

Разница очевидна: SSD загружает модель в 10–20 раз быстрее HDD.

Что это значит на практике? Каждый раз, когда вы:

- Запускаете VS Code и Kilo Code
- Перезагружаете компьютер (даже с автозапуском)
- Переключаетесь между моделями
- Выходите из режима сна

Модель снова загружается с диска в VRAM вашей RTX 4080. С SSD вы ждёте 6–10 секунд. С HDD — более полутора минут.

Как это работает в Ollama. Ollama хранит две категории файлов:

● Программа Ollama (около 4–5 ГБ) — можно хранить где угодно.
● Модели ИИ (десятки ГБ!) — обязательно на SSD.

Вы можете (и должны) разделить хранение:

- Программа Ollama → можно установить на SSD (рекомендуется) или даже на HDD (но нежелательно).
- Модели → строго на SSD.

Как настроить хранение моделей на SSD (пошаговая инструкция)

Вариант 1: для уже установленной Ollama (проще всего)

Если Ollama уже установлена, нужно перенести модели на SSD:

1. Создайте на SSD-диске папку, например D:\Ollama_Models (или E:\, если SSD — это отдельный диск).

2. Настройте переменную окружения:

- Нажмите Win + R, введите sysdm.cpl → Enter
- Вкладка "Дополнительно" → "Переменные среды…"
- В разделе "Переменные пользователя" нажмите "Создать…"
- Имя переменной: OLLAMA_MODELS
- Значение переменной: D:\Ollama_Models (ваш путь на SSD)
- Нажмите OK во всех окнах

3. Перенесите существующие модели (если есть):

xcopy /E /I "%APPDATA%\Ollama\models" "D:\Ollama_Models"

Затем удалите старую папку, чтобы освободить место на системном диске

4. Перезапустите Ollama: закройте значок в трее и запустите заново из меню "Пуск".

Вариант 2: при чистой установке (новый компьютер)

Установите программу на SSD (или даже на HDD — это не критично), а модели на SSD:

# Установка программы (например, на диск D:)
D:\Downloads\OllamaSetup.exe /DIR="D:\Ollama"

Затем настройте переменную окружения OLLAMA_MODELS на тот же SSD-диск, как описано выше.

Итоговая рекомендация для вашего ПК. У вас два диска:

- SSD → сюда всё! Устанавливайте и программу, и модели.
- HDD → используйте только для хранения проектов, файлов, бэкапов. Но не для моделей.

Ваш RTX 4080 заслуживает того, чтобы модель загружалась за 6 секунд, а не за 85. Поставьте модели на SSD — разница в опыте работы будет колоссальной.

[Ссылки]

1. kilo.ai: что это такое, как пользоваться.