Каталог AI моделей и нейросетей: сравнение и цены

Каталог нейросетей с описанием возможностей и ценами в рублях. Сравните стоимость токенов и выберите лучшее решение.

OpenAI

200K

o3-deep-research — это продвинутая модель OpenAI для глубоких исследований, разработанная для решения сложных многоэтапных исследовательских задач.

Примечание: Эта модель всегда использует инструмент ‘web_search’, что добавляет дополнительные затраты.

Входные данные:

931 ₽ / 1M

Изображения

Текст

Файл

Исходящие данные:

3726 ₽ / 1M

Текст

Контекст:

200K

Входящие токены за 1M:

931 ₽

Исходящие токены за 1M:

3726 ₽

Чат Детали

OpenAI o4 Mini Deep Research

OpenAI

200K

o4-mini-deep-research — это более быстрый и доступный модель для глубоких исследований от OpenAI, идеально подходящая для решения сложных, многоэтапных исследовательских задач.

Примечание: Эта модель всегда использует инструмент ‘web_search’, что добавляет дополнительные расходы.

Входные данные:

186 ₽ / 1M

Файл

Изображения

Текст

Исходящие данные:

745 ₽ / 1M

Текст

Контекст:

200K

Входящие токены за 1M:

186 ₽

Исходящие токены за 1M:

745 ₽

Чат Детали

NVIDIA Llama 3.3 Nemotron Super 49B V1.5

NVIDIA

131K

Llama-3.3-Nemotron-Super-49B-v1.5 — это модель с 49 миллиардами параметров, ориентированная на английский язык, предназначенная для рассуждений и общения, созданная на основе Meta’s Llama-3.3-70B-Instruct с контекстом в 128K. Она дополнительно обучена для агентных рабочих процессов (RAG, вызов инструментов) через SFT в областях математики, программирования, науки и многократного общения, с последующими несколькими этапами RL; Оптимизация предпочтений с учетом вознаграждения (RPO) для согласования, RL с проверяемыми вознаграждениями (RLVR) для пошагового рассуждения и итеративное DPO для уточнения поведения при использовании инструментов. Поиск нейронной архитектуры, основанный на дистилляции («Puzzle»), заменяет некоторые блоки внимания и изменяет ширину FFN, чтобы уменьшить объем памяти и повысить производительность, что позволяет использовать модель на одном GPU (H100/H200), сохраняя качество следования инструкциям и CoT.

Во внутренних оценках (NeMo-Skills, до 16 запусков, temp = 0.6, top_p = 0.95) модель демонстрирует сильные результаты в рассуждениях и программировании, например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность вывода (высокое количество токенов в секунду, уменьшенное использование VRAM) с поддержкой Transformers/vLLM и явными режимами «включения/выключения рассуждений» (по умолчанию сначала чат, рекомендуется жадный режим при отключении). Подходит для создания агентов, ассистентов и систем извлечения с длинным контекстом, где важны сбалансированная точность и стоимость, а также надежное использование инструментов.

Входные данные:

9 ₽ / 1M

Текст

Исходящие данные:

37 ₽ / 1M

Текст

Контекст:

131K

Входящие токены за 1M:

9 ₽

Исходящие токены за 1M:

37 ₽

Чат Детали

Baidu ERNIE 4.5 21B A3B Thinking

Baidu

131K

ERNIE-4.5-21B-A3B-Thinking — это обновленная облегченная модель MoE от Baidu, усовершенствованная для повышения глубины и качества рассуждений, обеспечивая высочайшую производительность в логических головоломках, математике, науке, программировании, генерации текста и академических тестах экспертного уровня.

Входные данные:

6 ₽ / 1M

Текст

Исходящие данные:

26 ₽ / 1M

Текст

Контекст:

131K

Входящие токены за 1M:

6 ₽

Исходящие токены за 1M:

26 ₽

Чат Детали

Google Nano Banana (Gemini 2.5 Flash Image)

Google

33K

Gemini 2.5 Flash Image, также известный как “Nano Banana”, теперь доступен для общего использования. Это современная модель генерации изображений с контекстуальным пониманием. Она способна на генерацию изображений, редактирование и ведение многоходовых диалогов.

Входные данные:

27 ₽ / 1M

Изображения

Текст

Исходящие данные:

232 ₽ / 1M

Изображения

Текст

Контекст:

33K

Входящие токены за 1M:

27 ₽

Исходящие токены за 1M:

232 ₽

Чат Детали

Qwen Qwen3 VL 30B A3B Thinking

Qwen

131K

Qwen3-VL-30B-A3B-Thinking — это мультимодальная модель, объединяющая мощную генерацию текста с визуальным пониманием изображений и видео. Ее вариант Thinking улучшает способность к рассуждению в STEM, математике и сложных задачах. Она превосходно воспринимает реальные и синтетические категории, 2D/3D пространственное закрепление и долгосрочное визуальное понимание, достигая конкурентоспособных результатов в мультимодальных тестах. Для агентного использования она справляется с многоизображенческими многоходовыми инструкциями, выравниванием временных шкал видео, автоматизацией GUI и визуальным кодированием от набросков до отлаженного пользовательского интерфейса. Производительность текста соответствует флагманским моделям Qwen3, что делает ее подходящей для документального ИИ, OCR, помощи в пользовательском интерфейсе, пространственных задач и исследований агентов.

Входные данные:

18 ₽ / 1M

Текст

Изображения

Исходящие данные:

93 ₽ / 1M

Текст

Контекст:

131K

Входящие токены за 1M:

18 ₽

Исходящие токены за 1M:

93 ₽

Чат Детали

Qwen Qwen3 VL 30B A3B Instruct

Qwen

262K

Qwen3-VL-30B-A3B-Instruct — это мультимодальная модель, объединяющая мощную генерацию текста с визуальным пониманием изображений и видео. Вариант Instruct оптимизирован для выполнения инструкций в общих мультимодальных задачах. Она превосходно справляется с восприятием реальных и синтетических категорий, 2D/3D пространственным обоснованием и длительным визуальным пониманием, достигая конкурентоспособных результатов в мультимодальных тестах. Для агентного использования она обрабатывает инструкции с несколькими изображениями и многократными обращениями, выравнивание временной шкалы видео, автоматизацию графического интерфейса и визуальное кодирование от эскизов до отлаженного пользовательского интерфейса. Производительность текста соответствует флагманским моделям Qwen3, что делает её подходящей для ИИ документов, OCR, помощи в пользовательском интерфейсе, пространственных задач и исследований агентов.

Входные данные:

12 ₽ / 1M

Текст

Изображения

Исходящие данные:

48 ₽ / 1M

Текст

Контекст:

262K

Входящие токены за 1M:

12 ₽

Исходящие токены за 1M:

48 ₽

Чат Детали

OpenAI GPT-5 Pro

OpenAI

400K

GPT-5 Pro — это самая продвинутая модель OpenAI, предлагающая значительные улучшения в области рассуждений, качества кода и пользовательского опыта. Она оптимизирована для сложных задач, требующих пошагового рассуждения, следования инструкциям и точности в критически важных случаях использования. Модель поддерживает функции маршрутизации во время тестирования и продвинутое понимание подсказок, включая намерения, заданные пользователем, такие как “подумай над этим тщательно”. Улучшения включают снижение количества галлюцинаций, лести и лучшую производительность в задачах программирования, письма и связанных со здоровьем.

Входные данные:

1397 ₽ / 1M

Изображения

Текст

Файл

Исходящие данные:

11180 ₽ / 1M

Текст

Контекст:

400K

Входящие токены за 1M:

1397 ₽

Исходящие токены за 1M:

11180 ₽

Чат Детали

Z.ai GLM 4.6 (exacto)

Z AI

205K

По сравнению с GLM-4.5, это поколение вносит несколько ключевых улучшений:

Увеличенное окно контекста: Окно контекста расширено с 128K до 200K токенов, что позволяет модели справляться с более сложными агентными задачами.
Улучшенная производительность в кодировании: Модель достигает более высоких результатов в тестах на код и демонстрирует лучшую производительность в реальных приложениях, таких как Claude Code, Cline, Roo Code и Kilo Code, включая улучшения в создании визуально отточенных фронт-энд страниц.
Продвинутое рассуждение: GLM-4.6 показывает явное улучшение в производительности рассуждений и поддерживает использование инструментов во время вывода, что приводит к более сильным общим возможностям.
Более способные агенты: GLM-4.6 демонстрирует более высокую производительность в использовании инструментов и поисковых агентов, и более эффективно интегрируется в агентные фреймворки.
Усовершенствованное написание: Лучше соответствует человеческим предпочтениям в стиле и читаемости, и действует более естественно в сценариях ролевых игр.

Входные данные:

40 ₽ / 1M

Текст

Исходящие данные:

162 ₽ / 1M

Текст

Контекст:

205K

Входящие токены за 1M:

40 ₽

Исходящие токены за 1M:

162 ₽

Чат Детали

Z.ai GLM 4.6

Z AI

203K

По сравнению с GLM-4.5, это поколение вносит несколько ключевых улучшений:

Увеличенное окно контекста: Окно контекста расширено с 128K до 200K токенов, что позволяет модели справляться с более сложными агентными задачами.
Улучшенная производительность в кодировании: Модель достигает более высоких результатов в тестах на код и демонстрирует лучшую производительность в реальных приложениях, таких как Claude Code, Cline, Roo Code и Kilo Code, включая улучшения в создании визуально проработанных фронтэнд-страниц.
Продвинутое рассуждение: GLM-4.6 показывает явное улучшение в производительности рассуждений и поддерживает использование инструментов во время вывода, что приводит к более высокой общей способности.
Более способные агенты: GLM-4.6 демонстрирует более высокую производительность в использовании инструментов и поисковых агентов, а также более эффективно интегрируется в агентные фреймворки.
Улучшенное написание: Лучше соответствует человеческим предпочтениям в стиле и читаемости, и более естественно выполняет ролевые сценарии.

Входные данные:

40 ₽ / 1M

Текст

Исходящие данные:

162 ₽ / 1M

Текст

Контекст:

203K

Входящие токены за 1M:

40 ₽

Исходящие токены за 1M:

162 ₽

Чат Детали

Anthropic Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5 — это самая продвинутая модель Sonnet от Anthropic на сегодняшний день, оптимизированная для агентов реального мира и рабочих процессов программирования. Она демонстрирует передовые результаты на тестах программирования, таких как SWE-bench Verified, с улучшениями в проектировании систем, безопасности кода и соблюдении спецификаций. Модель разработана для длительной автономной работы, поддерживая непрерывность задач между сессиями и предоставляя отслеживание прогресса на основе фактов.

Sonnet 4.5 также вводит более сильные агентные возможности, включая улучшенную оркестрацию инструментов, спекулятивное параллельное выполнение и более эффективное управление контекстом и памятью. Благодаря улучшенному отслеживанию контекста и осведомленности о использовании токенов в вызовах инструментов, она особенно хорошо подходит для многоконтекстных и длительных рабочих процессов. Области применения охватывают разработку программного обеспечения, кибербезопасность, финансовый анализ, исследовательские агенты и другие области, требующие устойчивого рассуждения и использования инструментов.

Входные данные:

279 ₽ / 1M

Текст

Изображения

Файл

Исходящие данные:

1397 ₽ / 1M

Текст

Контекст:

Входящие токены за 1M:

279 ₽

Исходящие токены за 1M:

1397 ₽

Чат Детали

DeepSeek DeepSeek V3.2 Exp

DeepSeek

164K

DeepSeek-V3.2-Exp — это экспериментальная крупная языковая модель, выпущенная компанией DeepSeek как промежуточный шаг между V3.1 и будущими архитектурами. Она вводит механизм DeepSeek Sparse Attention (DSA), тонко настроенный разреженный механизм внимания, разработанный для повышения эффективности обучения и вывода в сценариях с длинным контекстом, сохраняя при этом качество вывода. Пользователи могут управлять поведением рассуждений с помощью логического параметра reasoning enabled.

Модель была обучена в условиях, согласованных с V3.1-Terminus, чтобы обеспечить прямое сравнение. Тестирование показывает производительность примерно на уровне V3.1 в задачах рассуждения, кодирования и использования агентных инструментов, с незначительными компромиссами и улучшениями в зависимости от области. Этот выпуск сосредоточен на проверке архитектурных оптимизаций для увеличенных длин контекста, а не на повышении точности выполнения задач, что делает его в первую очередь исследовательской моделью для изучения эффективных дизайнов трансформеров.

Входные данные:

25 ₽ / 1M

Текст

Исходящие данные:

38 ₽ / 1M

Текст

Контекст:

164K

Входящие токены за 1M:

25 ₽

Исходящие токены за 1M:

38 ₽

Чат Детали

TheDrummer Cydonia 24B V4.1

The Drummer

131K

Модель для нецензурированного и креативного письма, основанная на Mistral Small 3.2 24B, с хорошей памятью, соблюдением инструкций и интеллектом.

Входные данные:

27 ₽ / 1M

Текст

Исходящие данные:

46 ₽ / 1M

Текст

Контекст:

131K

Входящие токены за 1M:

27 ₽

Исходящие токены за 1M:

46 ₽

Чат Детали

Relace Relace Apply 3

Relace

256K

Relace Apply 3 — это специализированная LLM для исправления кода, которая интегрирует предлагаемые ИИ изменения прямо в ваши исходные файлы. Она может применять обновления от GPT-4o, Claude и других в ваши файлы со средней скоростью 7500 токенов в секунду.

Модель требует, чтобы запрос был в следующем формате:

{инструкция}

{исходный_код}

{фрагмент_правки}

Для Relace включено нулевое сохранение данных.

Входные данные:

79 ₽ / 1M

Текст

Исходящие данные:

116 ₽ / 1M

Текст

Контекст:

256K

Входящие токены за 1M:

79 ₽

Исходящие токены за 1M:

116 ₽

Чат Детали

Google Gemini 2.5 Flash Lite Preview 09-2025

Google

Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономичности. Она обеспечивает повышенную пропускную способность, более быстрое создание токенов и лучшую производительность по общим тестам по сравнению с предыдущими моделями Flash. По умолчанию “мышление” (т.е. многократное рассуждение) отключено для приоритета скорости, но разработчики могут включить его через параметр Reasoning API, чтобы избирательно обменивать стоимость на интеллект.

Входные данные:

9 ₽ / 1M

Текст

Изображения

Файл

Аудио

Видео

Исходящие данные:

37 ₽ / 1M

Текст

Контекст:

Входящие токены за 1M:

9 ₽

Исходящие токены за 1M:

37 ₽

Чат Детали