12 de Fevereiro de 2025 3 min de leitura

Criando um "chatGPT" em sua máquina local

Por que utilizar um “ChatGPT” local?

Privacidade: Leia os termos de uso e políticas de privacidade das soluções famosas disponíveis. Não é segredo que podem utilizar seus para treinamento da “IA”. Se for utilizar com dados sensíveis o melhor caminho é ter seu chat local.

“Se você não paga pelo produto, você é o produto.”

Contenção de custos: Se você realiza um alto volume de execuções, como um script que utiliza alguma LLM para funcionar, tem ciência (ou deveria ter) que essa brincadeira pode doer no bolso. Talvez, seja um excelente aliado ter seu modelo rodando localmente lhe economize um bom dinheiro.
Indisponibilidade: por não depender de conexão com a internet, indisponibilidades seja da operadora e/ou da solução não afetarão a sua execução. O chatGPT, por exemplo, já ficou indisponível por algumas vezes.

O que será necessário

Para executar modelos de IA localmente em sua máquina, com o mínimo de performance, você precisará de:

Computador (óbvio!), sendo:

Ideal: com placa de vídeo offboard NVIDIA com no mínimo 12gb de VRAM Nota: NVIDIA por conta dos núcleos CUDA (assunto para um próximo post)

Básico: com processador Ryzen série 5 + 32gb de RAM

Ollama: ferramenta de código aberto que facilita e permite a execução de modelos de LLMs em computador local
Terminal: CMD (Windows), Terminal (Linux), etc.

OFF TOPIC:

O cálculo de VRAM e RAM necessárias para rodar modelos de IA depende de alguns fatores como tamanho do modelo, formato do modelo, tamanho do batch e estratégia de offloading. Não vamos aprofundar nos conceitos neste momento, porém, para fins de testes, sugiro a seguinte métrica:

Número de parâmetros =< quantidade de VRAM

Exemplos:

4GB VRAM → Modelos pequenos (1B~3B)
8GB VRAM → Modelos médios (7B)

Veja a tabela abaixo, considerando modelos LLaMA:

Modelo	Parâmetros	FP32 (VRAM)	FP16 (VRAM)	INT8 (VRAM)
LLaMA 7B	7 bilhões	~28GB	~14GB	~7GB
LLaMA 13B	13 bilhões	~52GB	~26GB	~13GB
LLaMA 30B	30 bilhões	~120GB	~60GB	~30GB
LLaMA 65B	65 bilhões	~260GB	~130GB	~65GB

Passo-a-passo

1. Acesse ollama.com e clique em “Download”;

2. Baixe a versão para o seu sistema operacional. Aqui utilizaremos o Windows (sim, o Windows!);

3. Prossiga com a instalação;

4. Volte para ollama.com, clique em “Models” no menu e escolha um modelo. Minha sugestão é começar com o llama3.2 (3b) ou, o tão falado do momento, deepseek-r1 (1.5b)

5. Selecione o tamanho do modelo (no exemplo utilizarei o deepseek-r1 1.5b) e copie o comando para instalação

ollama run deepseek-r1:1.5b

6. Agora, abra o terminal. No caso do Windows abra o CMD;

a. Windows + R

b. Digite “CMD” e dê Enter

Nota: Talvez seja necessário executar o CMD com privilégios elevados. Nesse caso, basta pesquisar CMD no Menu Iniciar, clicar com o botão direito do mouse e selecionar “Executar como administrador”

7. No CMD, cole o comando copiado no passo 5 e dê Enter

8. Após a finalização, já estará apto para utilizar o seu chat com IA particular.

Isso é só o começo e as possibilidades podem se expandir bastante. Você pode melhorar a interface com um design mais intuitivo, integrar comandos de voz para uma experiência mais interativa, armazenar históricos de conversa para referência futura e até conectar a IA com APIs externas para automação de tarefas (nesse caso, porém, lembre-se do ponto privacidade!). Além disso, otimizações como ajuste do modelo utilizado, personalização de respostas e integração com bancos de dados tornam o seu chat pessoal ainda mais poderoso e adaptado às suas necessidades.

Bruno Costa v2.0.0

Criando um "chatGPT" em sua máquina local

Por que utilizar um “ChatGPT” local?

O que será necessário

OFF TOPIC:

Passo-a-passo

Repositório no GitHub e deploy automático via FTP

Bruno Costa

Comentários

Criando um "chatGPT" em sua máquina local

Por que utilizar um “ChatGPT” local?

O que será necessário

OFF TOPIC:

Passo-a-passo

Repositório no GitHub e deploy automático via FTP

Compartilhar

Bruno Costa

Comentários