# Modelos

A EvaGPT oferece suporte para que você utilize diferentes modelos de IA, dependendo de suas necessidades, para criar experiências envolventes através de agentes de IA conversacional. Isso inclui modelos da OpenAI, como GPT-4 e GPT-3, juntamente com modelos da Anthropic, Mistral, DeepSeek, Perplexity, Meta e Google.&#x20;

<table><thead><tr><th width="176">Nome do modelo</th><th width="234">Descrição curta</th><th width="187">Proporção de tokens</th><th>Tamanho do contexto</th></tr></thead><tbody><tr><td>gpt-5.2</td><td>O GPT-5.2 é o membro rápido e leve da família 5.2, otimizado para conversas rápidas, enquanto mantém forte inteligência geral.</td><td>0.7778</td><td>400000</td></tr><tr><td>gpt-5.1</td><td>O oferece raciocínio mais forte, melhor adesão às instruções e um estilo conversacional mais natural.</td><td>0.5556</td><td>400000</td></tr><tr><td>gpt-5</td><td>GPT-5 é um modelo de linguagem de nova geração com recursos de raciocínio e desempenho aprimorado em todos os domínios, incluindo codificação, matemática e ciências.</td><td>0.5556</td><td>400000</td></tr><tr><td>gpt-5-Mini</td><td>O GPT-5 Mini é a versão econômica do GPT-5, oferecendo excelente desempenho para a maioria das tarefas, sendo mais rápido e acessível que o GPT-5.</td><td>0.1111</td><td>400000</td></tr><tr><td>gpt-5-Nano</td><td>O GPT-5 Nano é o modelo mais leve e rápido da família GPT-5, otimizado para tarefas simples que exigem respostas rápidas com sobrecarga computacional mínima.</td><td>0.0222</td><td>400000</td></tr><tr><td>gpt-4.5</td><td>O GPT-4.5 se destaca em tarefas que se beneficiam do pensamento e da conversa criativos e abertos, como escrever, aprender ou explorar novas ideias.</td><td>8.3333</td><td>128000</td></tr><tr><td>gpt-4o-mini</td><td>GPT-4o mini é o modelo mais eficiente em termos de custo da OpenAI, sendo mais inteligente e mais barato que o GPT-3.5 Turbo, possuindo boa capacidade de visão. O modelo tem um contexto de 128K e um limite de conhecimento até outubro de 2023.</td><td>0.033</td><td>128000</td></tr><tr><td>gpt-4o</td><td>GPT-4o é mais rápido e mais barato que o GPT-4 Turbo, com capacidades de visão mais robustas. O modelo tem um contexto de 128K e um limite de conhecimento até outubro de 2023. </td><td>0.5556</td><td>128000</td></tr><tr><td>gpt-4-turbo</td><td>Este é um modelo avançado em desempenho e precisão. Com respostas mais rápidas, interpretação aprimorada e adaptação versátil, oferece uma experiência de conversação fluida e eficiente. Ideal para aplicações que exigem comunicação eficaz com alta qualidade e ótimo custo-benefício.</td><td>1.6667</td><td>128000</td></tr><tr><td>gpt-4</td><td>Este é um modelo de inteligência conversacional de última geração, projetado para oferecer respostas rápidas e precisas. Com uma compreensão profunda da linguagem e capacidade de adaptar-se a diferentes contextos, o Intelli-4 garante interações fluídas e eficazes para uma ampla gama de aplicações.</td><td>3.3333</td><td>8192</td></tr><tr><td>gpt-3.5-turbo</td><td>GPT-3.5 Turbo é um modelo rápido e econômico para tarefas mais simples.</td><td>0.0833</td><td>16384</td></tr><tr><td>gpt-3.5-turbo-instruct</td><td>GPT-3.5 Turbo é um modelo rápido e econômico para tarefas mais simples.</td><td>0.1111</td><td>4096</td></tr><tr><td>gpt-4.1</td><td>GPT 4.1 é o modelo principal da OpenAI para tarefas complexas, sendo adequado para resolução de problemas em diversas áreas.</td><td>0.4444</td><td>1047576</td></tr><tr><td>gpt-4.1-mini</td><td>GPT 4.1 mini oferece um equilíbrio entre inteligência, velocidade e custo, o que o torna um modelo atraente para muitos casos de uso.</td><td>0.0889</td><td>1047576</td></tr><tr><td>gpt-5.3-codex</td><td>O GPT-5.3-Codex é um modelo de codificação especializado da OpenAI, otimizado para fluxos de trabalho de engenharia de software e tarefas autônomas de codificação de longa duração.</td><td>0.7778</td><td>400000</td></tr><tr><td>gpt-5.2-codex</td><td>Esta é uma versão especializada do GPT-5.2 otimizada para engenharia de software e fluxos de trabalho de codificação. Ele foi projetado tanto para sessões interativas de desenvolvimento quanto para a execução independente e prolongada de tarefas complexas de engenharia.</td><td>0.7778</td><td>400000</td></tr><tr><td>gpt-5.1-codex</td><td>O GPT-5.1-Codex é uma versão especializada do GPT-5.1, otimizada para engenharia de software e fluxos de trabalho de codificação, projetado tanto para sessões interativas de desenvolvimento quanto para a execução independente e prolongada de tarefas complexas de engenharia.</td><td>0.5556</td><td>400000</td></tr><tr><td>gpt-5.1-codex-max</td><td>O GPT-5.1-Codex-Max é um modelo de codificação por agentes da OpenAI, projetado para tarefas de desenvolvimento de software de longa duração e alto contexto.</td><td>0.5556</td><td>400000</td></tr><tr><td>gpt-5.1-codex-mini</td><td>O GPT-5.1-Codex-Mini é uma versão menor e mais rápida do GPT-5.1-Codex.</td><td>0.1111</td><td>400000</td></tr><tr><td>gpt-5-codex</td><td>O GPT-5-Codex é uma versão especializada do GPT-5 otimizada para engenharia de software e fluxos de trabalho de codificação. Ele foi projetado tanto para sessões interativas de desenvolvimento quanto para a execução independente e prolongada de tarefas complexas de engenharia.</td><td>0.5556</td><td>400000</td></tr><tr><td>o3</td><td>o3 é um modelo versátil e poderoso em diversos domínios. Ele estabelece um novo padrão para tarefas de matemática, ciência, programação e raciocínio visual. Também se destaca em redação técnica e no cumprimento de instruções.</td><td>0.4444</td><td>200000</td></tr><tr><td>o4-mini</td><td>Este é o mais recente modelo mini da série o. Ele é otimizado para raciocínio rápido e eficaz, com desempenho excepcionalmente eficiente em tarefas de programação e visuais.</td><td>0.2444</td><td>200000</td></tr><tr><td>o1</td><td>Apresentamos o novo modelo de raciocínio da OpenAI, projetado para lidar com tarefas complexas que exigem amplo conhecimento geral, com suporte a 128K tokens de contexto e informações atualizadas até outubro de 2023. <strong>Atenção:</strong> para garantir o melhor desempenho, é crucial que a temperatura seja sempre mantida em 1, sem alterações!</td><td>3.3333</td><td>128000</td></tr><tr><td>o3-mini</td><td>O o3-mini é um modelo de raciocínio econômico, otimizado para codificação, matemática e ciências. Ele oferece suporte a ferramentas e saídas estruturadas.</td><td>0.2444</td><td>200000</td></tr><tr><td>gpt-4.1-nano</td><td>gpt-4.1 nano é o modelo gpt-4.1 mais rápido e econômico.</td><td>0.0222</td><td>1047576</td></tr><tr><td>mistral-large-latest</td><td>Raciocínio de alto nível para tarefas de alta complexidade. O modelo mais poderoso da família Mistral AI.</td><td>0.6667</td><td>32000</td></tr><tr><td>mistral-small-latest</td><td>Raciocínio econômico para cargas de trabalho de baixa latência.</td><td>0.1667</td><td>32000</td></tr><tr><td>claude-4.6-sonnet</td><td>Este é o modelo apresenta alto desempenho em programação, agentes desenvolvimento iterativo, navegação em bases de código complexas, gerenciamento de projetos, criação de documentos refinados e automação de fluxos de trabalho.</td><td>0.8333</td><td>1000000</td></tr><tr><td>Claude Opus 4.6</td><td>Claude Opus 4.6 é eficiente para programação e tarefas profissionais de longa duração, otimizado para fluxos de trabalho com agentes em múltiplas etapas, grandes bases de código e raciocínio sustentado em trabalhos complexos.</td><td>1.3889</td><td>1000000</td></tr><tr><td>Claude Opus 4.5</td><td>Este modelo da Anthropic é otimizado para engenharia de software complexa, fluxos de trabalho agentivos e uso prolongado de computador, oferecendo capacidades multimodais, desempenho competitivo em programação e raciocínio, além de robustez contra injeção de prompts.</td><td>1.3889</td><td>200000</td></tr><tr><td>Claude Sonnet 4.5</td><td>Modelo avançado ajustado para agentes, programação de longa duração e raciocínio sustentado.</td><td>0.8333</td><td>1000000</td></tr><tr><td>Claude 3.7 Sonnet</td><td>Claude 3.7 Sonnet é um modelo de linguagem de grande porte avançado, com capacidades aprimoradas de raciocínio, programação e resolução de problemas.</td><td>0.8333</td><td>200000</td></tr><tr><td>Claude Haiku 4.5</td><td>Este é o modelo rápido e eficiente da Anthropic, oferecendo inteligência por uma fração do custo e da latência dos modelos Claude maiores, igualando o desempenho do Claude Sonnet 4 em tarefas de raciocínio, programação e uso de computador.</td><td>0.2778</td><td>200000</td></tr><tr><td>claude-v2</td><td>Claude 2.0 é um LLM líder da Anthropic que possibilita uma ampla gama de tarefas, desde diálogos sofisticados e geração de conteúdo criativo até instruções detalhadas.</td><td>1.3333</td><td>100000</td></tr><tr><td>claude-v2.1</td><td>Claude 2.1 é o mais recente modelo de linguagem de grande porte (LLM) da Anthropic, com uma janela de contexto líder do setor de 200 mil tokens, taxas reduzidas de alucinação e precisão aprimorada em documentos longos.</td><td>1.3333</td><td>200000</td></tr><tr><td>claude-instant-v1</td><td><p>Claude Instant é o LLM da Anthropic mais rápido, de menor preço, mas ainda assim muito capaz.</p><p><br></p></td><td>0.1333</td><td>100000</td></tr><tr><td>claude-v3</td><td>O Claude 3 atinge o equilíbrio ideal entre inteligência e velocidade, especialmente para cargas de trabalho corporativas. Ele oferece utilidade máxima e foi projetado para ser confiável.</td><td>0.8333</td><td>200000</td></tr><tr><td>claude-v3-haiku</td><td>O modelo mais rápido e compacto da Anthropic, para capacidade de resposta quase instantânea. Ele responde a consultas e solicitações simples com rapidez.</td><td>0.0694</td><td>200000</td></tr><tr><td>claude-v3-opus</td><td>O modelo de IA mais poderoso da Anthropic, com desempenho de alto nível em tarefas altamente complexas. Ele pode navegar por prompts abertos e cenários invisíveis.</td><td>4.1667</td><td>200000</td></tr><tr><td>claude-v3-sonnet</td><td>O Claude 3 Sonnet atinge o equilíbrio ideal entre inteligência e velocidade, especialmente para cargas de trabalho corporativas. Ele oferece utilidade máxima e foi projetado para ser confiável.</td><td>0.8333</td><td>200000</td></tr><tr><td>claude-v3.5-haiku</td><td>O modelo mais rápido e compacto da Anthropic para respostas quase instantâneas. Ele responde a consultas e pedidos simples com rapidez.</td><td>0.2222</td><td>200000</td></tr><tr><td>claude-v3.5-sonnet</td><td>Claude 3 Sonnet atinge o equilíbrio ideal entre inteligência e velocidade, particularmente para trabalhos empresariais. Ele é projetado para ser confiável em implementações de IA em grande escala.</td><td>0.8333</td><td>200000</td></tr><tr><td>claude-4-opus</td><td>O Claude Opus 4 foi avaliado como o melhor modelo para codificação no momento de seu lançamento, oferecendo desempenho consistente em tarefas complexas, de longa duração, e em fluxos de trabalho com agentes.</td><td>4.1667</td><td>200000</td></tr><tr><td>claude-4.1-opus</td><td>Claude Opus 4.1 é o modelo mais poderoso da Anthropic, com recursos aprimorados para raciocínio complexo, codificação e tarefas criativas.</td><td>4.1667</td><td>200000</td></tr><tr><td>claude-4-sonnet</td><td>O Claude Sonnet 4 apresenta melhora significativa nas capacidades em relação ao seu antecessor, o Sonnet 3.7, destacando-se tanto em tarefas de codificação quanto de raciocínio, com maior precisão e controle.</td><td>0.8333</td><td>200000</td></tr><tr><td>GLM-5</td><td>GLM-5 é o modelo base open-source da Z.AI, projetado para design de sistemas complexos e fluxos de trabalho agentivos, oferecendo desempenho em tarefas de programação em larga escala.</td><td>0.1422</td><td>202800</td></tr><tr><td>GLM-4.7 Flash</td><td>GLM-4.7-Flash é o modelo rápido e com boa relação custo-benefício da Z.AI, otimizado para programação, fluxos de trabalho agentivos e uso no mundo real com hardwares mais simples.</td><td>0.0222</td><td>200000</td></tr><tr><td>GLM-4.7</td><td>GLM-4.7 é um modelo da Z.AI, com atualizações em programação e raciocínio em múltiplas etapas. Ele demonstra melhorias significativas na execução de tarefas complexas e oferece experiências conversacionais mais naturais.</td><td>0.0833</td><td>202752</td></tr><tr><td>MiniMax M2.5</td><td>MiniMax M2.5 é o modelo principal da MiniMax voltado para produtividade, otimizado para programação, automação de escritório e fluxos de trabalho com agentes em múltiplas etapas, com alta eficiência de tokens.</td><td>0.0667</td><td>204800</td></tr><tr><td>Kimi K2.5</td><td>Kimi K2.5 é o modelo multimodal principal da MoonshotAI, com forte desempenho em programação, raciocínio e fluxos de trabalho agentivos.</td><td>0.1556</td><td>256000</td></tr><tr><td>deepseek-r1-distill-llama-70b</td><td>Esse modelo possui raciocínio de alto nível para tarefas de alta complexidade, apresentando um avanço significativo na velocidade de processamento de linguagem natural e aprendizado profundo, gerando respostas contextualizadas e precisas. </td><td>0.055</td><td>128000</td></tr><tr><td>deepseek-chat-v3-0324</td><td>DeepSeek V3, um modelo baseado em mixture-of-experts, é a mais recente iteração da principal família de modelos de chat da equipe DeepSeek. Ele sucede o modelo DeepSeek V2 e apresenta um desempenho muito bom em uma variedade de tarefas.</td><td>0.0489</td><td>164000</td></tr><tr><td>llama-3.3-70b-versatile</td><td>Desenvolvido pela Meta, este modelo é otimizado para tarefas com grandes volumes de dados, capturando relações complexas em textos e sendo adequado para atendimento ao público e sistemas de recomendação, com alto desempenho e eficiência computacional.</td><td>0.0439</td><td>128000</td></tr><tr><td>sonar</td><td>Opção leve, com fundamentação por busca em tempo real na internet, mais rápida e mais barata que o Sonar Pro.</td><td>0.0556</td><td>128000</td></tr><tr><td>sonar-deep-research</td><td>Realiza pesquisas em tempo real na internet, abrangentes e de nível especializado, e as sintetiza em relatórios acessíveis e acionáveis.</td><td>0.4444</td><td>128000</td></tr><tr><td>sonar-pro</td><td>Opção premium, com fundamentação por busca em tempo real na internet, suportando consultas avançadas e acompanhamentos.</td><td>0.8333</td><td>128000</td></tr><tr><td>sonar-reasoning</td><td>Opção premium, com fundamentação por busca em tempo real na internet e tecnologia DeepSeek R1 com Cadeia de raciocínio (Chain of Thought - CoT).</td><td>0.2778</td><td>128000</td></tr><tr><td>sonar-reasoning-pro</td><td>Modelo de primeira linha, com fundamentação por busca em tempo real na internet e tecnologia DeepSeek R1 com Cadeia de raciocínio (Chain of Thought - CoT) e  fundamentação avançada por busca.</td><td>0.4444</td><td>128000</td></tr><tr><td>gemini-3.1-pro</td><td>Gemini 3.1 Pro é um modelo do Google para raciocínio multimodal de alta precisão em texto, imagem, vídeo, áudio e código, com uma janela de contexto longa.</td><td>0.6667</td><td>1048576</td></tr><tr><td>gemini-3-flash</td><td>Gemini 3 Flash é um modelo de raciocínio de alta velocidade e alto valor, projetado para fluxos de trabalho agentivos, conversas em múltiplos turnos e assistência em programação.</td><td>0.1667</td><td>1048576</td></tr><tr><td>gemini-2.5-flash</td><td>Um modelo multimodal capaz e de baixo custo, com ótimo desempenho em todas as tarefas e desenvolvido para a era dos Agentes.</td><td>0.1944</td><td>1048576</td></tr><tr><td>gemini-3-Pro</td><td>Gemini 3 Pro é o modelo do Google para raciocínio multimodal de alta precisão, combinando forte desempenho em texto, imagem, vídeo, áudio e código.</td><td>1</td><td>1048576</td></tr><tr><td>gemini-1.5-flash</td><td>Modelo multimodal rápido com excelente desempenho para tarefas diversas e repetitivas, e uma janela de contexto de 1 milhão de tokens.</td><td>0.0167</td><td>1048576</td></tr><tr><td>gemini-1.5-pro</td><td>Modelo de maior inteligência da série Gemini 1.5, com uma inovadora janela de contexto de 2 milhões de tokens.llion token context window.</td><td>0.2778</td><td>2097152</td></tr><tr><td>gemini-2.0-flash</td><td>Um modelo multimodal, com excelente desempenho em todas as tarefas, uma janela de contexto de 1 milhão de tokens e projetado para a era dos Agentes.</td><td>0.0222</td><td>1048576</td></tr><tr><td>gemini-2.0-flash-lite</td><td>Modelo pequeno e com melhor relação custo x benefício, projetado para uso em grande escala.</td><td>0.0167</td><td>1048576</td></tr><tr><td>gemini-2.5-pro</td><td>Um modelo multimodal de alta capacidade, com excelente desempenho em todas as tarefas, com uma janela de contexto de 1 milhão de tokens, e construído para a era dos Agentes.</td><td>0.8333</td><td>1048576</td></tr><tr><td>gpt-image-1-mini</td><td>O GPT Image 1 Mini é um modelo de geração de imagens, multimodal, que aceita tanto texto quanto entradas de imagem, e produz saídas de imagem.</td><td>0.4444</td><td>---</td></tr><tr><td>gpt-image-1</td><td>O GPT Image 1 é um modelo de geração de imagens, multimodal, que aceita tanto texto quanto entradas de imagem, e produz saídas de imagem.</td><td>2.2222</td><td>---</td></tr><tr><td>gpt-image-1.5</td><td>GPT Image 1.5 é um modelo avançado de geração de imagens com qualidade e capacidades multimodais, pois aceita tanto texto quanto imagens como entradas, permitindo uma interação mais rica e dinâmica.</td><td>100</td><td>---</td></tr><tr><td>dalle3</td><td>Este modelo é baseado na arquitetura DALL-E 3. É um modelo de alta qualidade que pode gerar imagens a partir de texto. É ajustável e oferece um equilíbrio entre custo e qualidade.</td><td>1</td><td>---</td></tr><tr><td>dalle2</td><td>Este modelo é baseado na arquitetura DALL-E 2. É um modelo de alta qualidade que pode gerar imagens a partir de texto. É ajustável e oferece um equilíbrio entre custo e qualidade.</td><td>1</td><td>---</td></tr><tr><td>stablediffusion</td><td>Este modelo é baseado na arquitetura Stable Diffusion. É um modelo de alta qualidade que pode gerar imagens a partir de texto. É ajustável e oferece um equilíbrio entre custo e qualidade.</td><td>1</td><td>---</td></tr><tr><td>personalizado</td><td>Quando se utiliza uma chave de API externa para qualquer modelo selecionado.</td><td>0.0028</td><td>---</td></tr></tbody></table>

Escolha o modelo apropriado dependendo do seu caso de uso específico e desempenho desejado, de acordo com suas necessidades.

## Personalização das configurações do modelo

Para personalizar as configurações de um modelo, dentro do ambiente de **criar Agente** ou **editar Agente**, clique em configurações avançadas, escolha o modelo e personalize suas propriedades.

Existem quatro propriedades principais que podem ser personalizadas: **número máximo de tokens**, **temperatura, penalidade de frequência e penalidade de presença**.

### Número máximo de tokens

Esta propriedade determina o número máximo de tokens que o modelo pode consumir ao gerar uma resposta. Por padrão, isso é definido como o tamanho máximo do contexto para o modelo, mas você pode reduzi-lo para limitar a quantidade de recursos usados pelo modelo. Isso pode ajudar a economizar custos de token, mas, por outro lado, também pode reduzir a capacidade do agente de responder bem na conversa.

### Temperatura

Esta propriedade determina o nível de aleatoriedade ou criatividade nas respostas do modelo. Um valor de temperatura mais alto resultará em respostas mais diversas e criativas, enquanto um valor mais baixo resultará em respostas mais conservadoras e previsíveis.

### Penalidade de Frequência

Esta propriedade determina o quanto o modelo aceita a repetição de certas palavras ou frases em suas respostas. Um valor de penalidade de frequência mais alto resultará em respostas mais variadas e menos repetitivas.

### Penalidade de Presença

Esta propriedade determina o quanto o modelo aceita o uso de certas palavras ou frases em suas respostas. Um valor de penalidade de presença mais alto resultará em respostas menos propensas a conter palavras ou frases específicas.

Ao personalizar essas propriedades, você pode ajustar o comportamento do modelo para melhor atender ao seu caso de uso específico e seus requisitos. No entanto, é importante observar que a alteração dessas propriedades pode ter um impacto significativo no desempenho e na precisão do modelo, portanto, é recomendável experimentar e testar diferentes configurações para encontrar o melhor equilíbrio entre desempenho e criatividade.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.evagpt.com.br/agentes/modelos.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
