Gemma 4 12B Instruct — GGUF Q4_K_M

Quantização Q4_K_M com imatrix do modelo google/gemma-4-12B-it, obtida de bartowski/gemma-4-12B-it-GGUF (llama.cpp b9496).

Arquivo Tamanho Tipo
gemma-4-12B-it-Q4_K_M.gguf 7.66 GB Modelo principal
mmproj-gemma-4-12B-it-f16.gguf ~122 MB Projetor visual (multimodal)
gemma-4-12B-it-imatrix.gguf Calibração imatrix
Modelfile Template Ollama pronto para uso

Especificações

  • Parâmetros: 12B (denso, arquitetura gemma4)
  • Contexto máximo: 128K tokens (131 072)
  • Quantização: Q4_K_M com imatrix calibration dataset
  • Ferramenta de build: llama.cpp b9496
  • Licença: Gemma Terms of Use

Uso com Ollama

# Baixar e criar modelo
huggingface-cli download bandtor/gemma-4-12B-it-GGUF --local-dir ./gemma4-12b
ollama create gemma4-12b -f ./gemma4-12b/Modelfile
ollama run gemma4-12b

Ou diretamente via HF (Ollama >= 0.3):

ollama run hf.co/bandtor/gemma-4-12B-it-GGUF

Uso com llama.cpp

# Apenas texto
llama-cli -m gemma-4-12B-it-Q4_K_M.gguf \
  --ctx-size 32768 \
  -fa 1 \
  --prompt "<|turn>user\nOlá!<turn|>\n<|turn>model\n"

# Multimodal (visão)
llama-cli -m gemma-4-12B-it-Q4_K_M.gguf \
  --mmproj mmproj-gemma-4-12B-it-f16.gguf \
  --image imagem.jpg \
  --prompt "<|turn>user\nDescreva esta imagem.<turn|>\n<|turn>model\n"

Formato de prompt (Gemma 4)

<bos><|turn>system
{system_prompt}<turn|>
<|turn>user
{mensagem}<turn|>
<|turn>model
{resposta}<turn|>

Créditos

Downloads last month
126
GGUF
Model size
12B params
Architecture
gemma4
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for bandtor/gemma-4-12B-it-GGUF

Quantized
(127)
this model