Nueva Adquisición para mi Cluster: Nvidia Jetson Orin Nano 8GB
Como ya he hablado por aquí antes, tengo un cluster Kubernetes formado por 4 Raspberry Pi 4 y una Raspberry Pi 5. Lo uso principalmente para CI/CD con Gitea, web scrapping con Selenium y muchos workflows n8n que tiran de OpenAI a saco (agentes y chains simples).
Nvidia Jetson Orin Nano 8GB
El caso es que el otro día vi un post de Asier Arranz donde se veía lo bien que va el modelo Gemma 2 cuantificado a 4 bits en la Nvidia Jetson Orin Nano de 8 GB. La capacidad de IA de este SBC es de 40 TOPS. ¡Una pasada teniendo en cuenta que tiene como pico de consumo 17W!
Gemma 2 tiene un rendimiento muy bueno a pesar de ser un SLM. Se supone que es capaz de alcanzar los 12 tokens/s. Aunque en mi mayoría de mis flujos uso GPT-4o mini y el coste es “despreciable”, me gusta la idea de no depender de OpenAI y poder correrlo en local.
Especificaciones Técnicas
Para aquellos que no están familiarizados con la Nvidia Jetson Orin Nano, aquí hay un resumen de sus especificaciones técnicas:
- CPU: 6-core Arm® Cortex®-A78AE v8.2 64-bit CPU
- GPU: 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores
- Memoria: 8GB 128-bit LPDDR5
- Almacenamiento: Soporte para SSD M.2
- Interfaces: 1 x USB 3.2 Gen 2 Type-C, 1 x HDMI, 1 x DisplayPort, PCIe Gen4, entre otros
Para más detalles sobre las especificaciones, puedes visitar la página oficial de Nvidia.
Integración con el Cluster
Se supone que la Jetson Orin Nano llega esta semana que entra, y ya tengo un SSD M.2 de 2TB esperando para dotarle del espacio necesario para Gemma 2 y sus fine-tunings (alguna caerá con el sobremesa y sus 2x RTX 3090 Ti).
Estoy particularmente emocionado por integrar la Jetson Orin Nano con mi cluster de Raspberry Pi. La Jetson Orin Nano tiene la capacidad de complementar perfectamente los nodos actuales y ofrecer una potencia de procesamiento de IA que antes no tenía en mi red local.
Pruebas y Resultados
En fin, una vez que llegue el kit y esté completamente integrado en mi cluster, planeo realizar varias pruebas. Desde evaluar el rendimiento del modelo Gemma 2 con 12 tokens/s hasta el funcionamiento general con mis flujos de trabajo actuales de CI/CD y web scrapping.
Ya os iré contando qué tal va y qué resultados obtengo. ¡Espero que sea tan prometedor como parece!