JM Robles - Consultor tecnológico y emprendedor

Ejecutando Modelos LLM Pequeños en Raspberry PI 5

Pseudo Raspberry PI 5

Modelos LLM “pequeños”

PHI-2 es un modelo LLM (Large Language Model) creado por Microsoft con 2.7 billones de parámetros. El modelo PHI-2 es parte de los esfuerzos de Microsoft para desarrollar modelos de lenguaje que pueden ser utilizados en una variedad de aplicaciones, desde la generación de texto hasta la comprensión del lenguaje natural. Este modelo ha sido entrenado en una enorme cantidad de texto para poder entender y generar contenido humano de manera coherente.

Aunque pueda parecer un modelo de gran tamaño, en realidad estamos hablando de un modelo pequeño dentro de la categoría de los LLMs. De hecho, su rendimiento ha demostrado ser muy competitivo en comparación con modelos de 7B y de 13B como LLama-2. Los benchmarks muestran que PHI-2 tiene el potencial de competir con el modelo Gemini Nano de Google.

Aplicaciones en IoT y Mobile Computing

La idea es que estos modelos puedan correr en dispositivos IoT y en teléfonos móviles.

Sobre Llama.cpp

Llama.cpp es un motor de inferencia para modelos de lenguaje a gran escala desarrollado por la comunidad de software libre. Proporciona una interfaz eficiente y fácil de usar para trabajar con estos modelos y ha sido fundamental para permitir la ejecución de PHI-2 en la Raspberry PI 5. Este motor de inferencia ha sido diseñado específicamente para trabajar con modelos de lenguaje de gran tamaño y permite la ejecución de los mismos en hardware con recursos limitados, como la Raspberry PI 5.

Pruebas en Raspberry PI 5

Recientemente, he tenido la oportunidad de probar el rendimiento de PHI-2 en mi nueva Raspberry PI 5. Para mi sorpresa, los resultados fueron mucho mejores de lo que esperaba.

Para la prueba, utilicé una versión reducida de PHI-2 (con pesos de 5 bits) y el famoso motor “llama.cpp”.

Como podrán ver en el siguiente GIF, el modelo es capaz de procesar prácticamente un token por segundo.

PHI-2 en Raspberry PI 5

Potencial para el Edge Computing

Imaginen el potencial que esto tiene para el edge computing. Como primer caso práctico, se me ocurre el análisis en bloques de logs para detectar comportamientos anómalos.

Otra aplicación interesante sería el uso de modelos simplificados de TimeLLM para el análisis de series temporales.

Conclusiones

En resumen, hay mucho potencial a descubrir y desarrollar durante el 2024.