Programa del Curso

Introducción al Escalamiento de Ollama

  • Arquitectura de Ollama y consideraciones sobre escalabilidad
  • Puntos débiles comunes en las implementaciones multiusuario
  • Prácticas recomendadas para la preparación de infraestructuras

Asignación de Recursos y Optimización de GPU

  • Estrategias eficientes para el uso de CPU/GPU
  • Consideraciones sobre memoria y ancho de banda
  • Límites de recursos en nivel de contenedor

Implementación con Contenedores y Kubernetes

  • Contenizar Ollama con Docker
  • Ejecución de Ollama en clústeres de Kubernetes
  • Balancing de carga y descubrimiento de servicios

Autoscaling y Agrupación

  • Diseño de políticas de autoscaling para Ollama
  • Técnicas de inferencia por lotes para la optimización del rendimiento
  • Cambios entre latencia y rendimiento

Optimización de Latencia

  • Perfilado del desempeño de inferencia
  • Estrategias de caché y calentamiento del modelo
  • Reducción del sobrecoste de E/S y comunicación

Supervisión y Observabilidad

  • Integración de Prometheus para métricas
  • Creamos paneles con Grafana
  • Alertas y respuesta a incidentes en la infraestructura de Ollama

Gestión de Costos y Estrategias de Escalado

  • Asignación de GPU consciente del costo
  • Consideraciones entre implementación en la nube vs. local
  • Estrategias para una escalabilidad sostenible

Resumen y Próximos Pasos

Requerimientos

  • Experiencia en administración de sistemas Linux
  • Comprensión de la containerización y la orquestación
  • Familiaridad con el despliegue de modelos de aprendizaje automático

Público objetivo

  • Ingenieros DevOps
  • Equipos de infraestructura ML
  • Ingenieros de confiabilidad del sitio
 21 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas