Ollama + modelos na Railway: como ficou CPU/RAM/GPU, latência e custos?
Anonymous
PROOP

a month ago

Fala pessoal!

Estou pensando em rodar Ollama na infraestrutura da Railway e queria ouvir relatos reais de quem já tentou/usa em produção.

Alguém aqui já:

  • Subiu o Ollama como serviço na Railway e rodou modelos (Llama/Mistral/etc.)?

  • Rodou em CPU e/ou GPU — e como isso impactou latência e custo?

  • Teve números de latência (TTFT), tokens/s, throughput, e consumo de CPU/RAM?

  • Fez algum benchmark (nem que seja simples) e pode compartilhar?

Se puderem, mandem detalhes do setup:

  • Modelo(s) e quantização (Q4/Q5/Q8)

  • Config do serviço (CPU/RAM/GPU, concurrency, autoscaling)

  • Estratégia de cache/volume para os modelos (evitar re-download e reduzir cold start)

  • Carga real (req/min) + comportamento sob pico (timeouts, OOM, throttling)

  • Custos aproximados e dicas/pegadinhas no deploy

Valeu demais!

1 Replies

ilslaoaycd
HOBBY

a month ago

Yes, it works well. I don't have the answers to all your questions, but this is worth a read https://railway.com/deploy/open-source-llm-models


Loading...