a month ago
Fala pessoal!
Estou pensando em rodar Ollama na infraestrutura da Railway e queria ouvir relatos reais de quem já tentou/usa em produção.
Alguém aqui já:
Subiu o Ollama como serviço na Railway e rodou modelos (Llama/Mistral/etc.)?
Rodou em CPU e/ou GPU — e como isso impactou latência e custo?
Teve números de latência (TTFT), tokens/s, throughput, e consumo de CPU/RAM?
Fez algum benchmark (nem que seja simples) e pode compartilhar?
Se puderem, mandem detalhes do setup:
Modelo(s) e quantização (Q4/Q5/Q8)
Config do serviço (CPU/RAM/GPU, concurrency, autoscaling)
Estratégia de cache/volume para os modelos (evitar re-download e reduzir cold start)
Carga real (req/min) + comportamento sob pico (timeouts, OOM, throttling)
Custos aproximados e dicas/pegadinhas no deploy
Valeu demais!
1 Replies
a month ago
Yes, it works well. I don't have the answers to all your questions, but this is worth a read https://railway.com/deploy/open-source-llm-models