EnchantedLLM: IA generativa con privacidad completa en un mini-ordenador

EnchantedLLM en un sistema autónomo que observa su entorno, lo interpreta y lo narra sin necesidad de conexión a la nube. Esta propuesta surge como exploración sobre dos grandes desafíos que enfrenta actualmente la IA generativa: la privacidad de los datos y los considerables recursos computacionales que requiere operar con ellos.

Edición V

Nuestro proyecto del mes: EnchantedLLM

La inteligencia artificial está transformando nuestra manera de interactuar con el mundo, pero en el proceso surgen dos retos.

El primero es la demanda de recursos. La mayoría de los modelos de IA operan en grandes centros de datos o en dispositivos con GPUs de alta potencia, lo que implica un coste elevado, y un considerable consumo energético. Esto limita su accesibilidad, dejándolos fuera del alcance de muchos y generando interrogantes sobre su sostenibilidad. ¿Es posible implementar una IA eficiente en dispositivos más modestos, o estamos condenados a depender de infraestructuras complejas y costosas?

El segundo reto es la privacidad: muchos modelos actuales de IA requieren que datos personales, imágenes y conversaciones se envíen a la nube para ser procesados, lo que deja al usuario con escaso control sobre cómo y dónde se almacenan esos datos. ¿Necesitamos depender de servidores externos para aprovechar la IA, o existen alternativas que preserven nuestra privacidad?

Un narrador digital autónomo

Imagina un dispositivo que observa el mundo, lo analiza y cuenta historias con voz propia. Esta es la idea tras EnchantedLLM, un proyecto que convierte una Raspberry Pi en un narrador de historias mágicas, capaz de reconocer su entorno, identificar los cambios y crear historias que narran las aventuras que ocurren entre las imágenes. Y todo esto sin depender de Internet y utilizando solo 8 GB de RAM. Sin trucos en la nube ni infraestructuras invisibles.

Nuestra visión va más allá de la simple descripción de imágenes estáticas o la invención de historias aisladas. EnchantedLLM construye una narrativa dinámica que relaciona dos momentos, conectando una imagen con la siguiente. Es un narrador que interpreta los cambios y los transforma en una historia coherente que sucede entre esos instantes intermedios, esos espacios temporales donde la narración toma forma.

La Habitación de la Transmutación

En medio de una ciudad moderna y bulliciosa, existía una habitación que desafiaba la realidad. En su interior, dos ordenadores descansaban sobre una mesa blanca, sus pantallas emitiendo un brillo sobrenatural. Una estantería guardaba libros con títulos en lenguas incomprensibles, sus portadas resplandeciendo con luz iridiscente.

Un día apareció una mujer de cabello castaño y ojos brillantes como estrellas. Al tocar los ordenadores, estos cobraron vida, transformándose en espejos que la reflejaban infinitamente. Los libros comenzaron a abrirse como flores, y una puerta roja reveló una escalera descendente.

Atraída por una fuerza invisible, la mujer bajó las escaleras. La habitación se desvaneció como una pintura borrada, y emergió en un mundo donde los edificios se retorcían como seres vivos y los árboles daban frutos multicolores. Ríos de plata líquida fluían entre calles donde la gente se movía con propósito misterioso.

En este nuevo universo, el tiempo perdió significado, fundiéndose pasado y presente. Detrás quedaron los ordenadores, silenciosos, esperando al próximo visitante que se atreviera a cruzar el umbral de la transformación.

¿Qué hardware hemos usado?

El núcleo de EnchantedLLM es una Raspberry Pi 5, que proporciona todas las funciones de un ordenador en un formato muy compacto. Para completar el sistema, necesitamos además una cámara para capturar imágenes y un altavoz para la salida de audio. Un aspecto crítico del montaje es la refrigeración: dado que el sistema opera cerca de sus límites, utilizando intensivamente los recursos de la placa, es imprescindible instalar un ventilador y disipador.

¿Cómo funciona EnchantedLLM?

El proceso de EnchantedLLM se ejecuta en tres pasos secuenciales:

  1. Captura de imágenes: El sistema utiliza una cámara conectada a la Raspberry Pi para fotografiar automáticamente el entorno.

  2. Análisis visual: El procesamiento de imágenes se realiza mediante Florence2, optimizado para funcionar localmente. Florence2 las analiza, identificando objetos.

  3. Construcción narrativa: Utilizando los resultados del análisis visual, Ollama ejecuta modelos de lenguaje altamente optimizados (como Mistral o Llama2) para construir una historia. Estos modelos cuantizados interpretan las descripciones de imágenes sucesivas, generando una narrativa coherente que conecta los momentos capturados.

  4. Síntesis de voz: La fase final utiliza Piper para transformar las narrativas generadas en audio. Este componente se integra con Mopidy y Pirate Audio para gestionar la reproducción a través del altavoz.

Primer reto: la IA con recursos limitados

El desarrollo de EnchantedLLM en una Raspberry Pi 5 con 8 GB de RAM representa un logro significativo en la optimización de recursos computacionales. El principal desafío técnico fue adaptar los modelos de lenguaje que tradicionalmente requieren GPUs potentes a un hardware tan limitado. Esto exigió una cuidadosa selección de modelos y un riguroso equilibrio entre rendimiento y memoria disponible, sin comprometer la calidad de los resultados. También fue necesario optimizar la resolución de las imágenes procesadas e implementar mecanismos específicos de liberación de memoria.

El resultado es un sistema técnicamente eficiente, que también es capaz de interactuar de forma lúdica con su entorno: desde narrar historias sobre los objetos que observa hasta jugar al veo-veo o comentar cambios en la disposición de los elementos de una habitación.

Segundo reto: la IA respetuosa con la privacidad

Nuestro reto con EnchantedLLM era demostrar que es posible desarrollar sistemas de IA accesibles que respeten la privacidad del usuario y minimicen la dependencia de infraestructuras externas. Este desafío es especialmente relevante en aplicaciones críticas como la asistencia médica, donde sistemas locales podrían ayudar a personas con discapacidad visual a comprender su entorno o asistentes que apoyen a personas mayores proporcionando descripciones y recordatorios sobre los cambios en su espacio cotidiano, todo ello manteniendo sus datos privados y bajo su control.

Para abordar este reto, hemos desarrollado una implementación que opera completamente en hardware limitado, demostrando que es posible ejecutar modelos de IA avanzados sin depender de servidores externos. Esta aproximación no solo es válida para asistencia sanitaria, sino que se extiende a otros contextos donde la privacidad es crucial, como entornos educativos o domésticos.

Los resultados demuestran que es viable construir sistemas de IA que sean a la vez potentes y respetuosos con la privacidad. EnchantedLLM establece así un precedente para una nueva generación de aplicaciones de IA que priorizan la autonomía y el control del usuario sobre sus datos, especialmente en ámbitos donde la confidencialidad es fundamental.

Podéis saber más de algunas de las tecnologías y modelos que hemos utilizado en los siguientes enlaces:

¿Os interesaría participar en un taller para construir vuestro propio EnchantedLLM?

Ah, este tipo de pruebas de conceptos las podemos hacer para tu empresa, como diría en LinkedIn, “Hablemos”.

¿Qué hemos estado leyendo, aprendiendo y debatiendo estos días?

Waymo continúa explorando los límites de la inteligencia artificial en la conducción autónoma con su nuevo modelo multimodal EMMA. Este desarrollo, basado en el modelo Gemini de Google, permite procesar datos de sensores para predecir trayectorias de vehículos y comprender escenarios complejos en tiempo real. Lo interesante de EMMA es su capacidad de transferencia de tareas, lo que mejora su rendimiento en múltiples aspectos críticos de la conducción autónoma, desde la detección de objetos hasta la planificación de rutas. Aunque enfrenta desafíos, como la falta de integración de sensores LiDAR y radar, la investigación abre un camino prometedor hacia vehículos más adaptables y seguros. Este avance invita a reflexionar sobre el impacto potencial de los modelos multimodales en otros ámbitos donde la toma de decisiones rápida y precisa es fundamental.

La adopción de la IA en el entorno laboral enfrenta múltiples barreras, desde el miedo a la sustitución de empleos hasta la preocupación por la privacidad y seguridad de los datos. Aunque el avance de la IA ofrece grandes oportunidades, muchos profesionales se sienten abrumados por la rapidez de su evolución y la vasta oferta de herramientas disponibles. En este contexto, es esencial enfocar la integración de la IA en tareas específicas y repetitivas que liberen tiempo para actividades de mayor valor añadido. Además, el papel de los líderes es crucial para fomentar una cultura de aprendizaje y experimentación, asegurando que la IA se vea no como una amenaza, sino como un complemento que potencia el desempeño humano. Reflexionemos sobre cómo podemos prepararnos para este cambio y cómo posicionarnos de manera proactiva en un entorno de trabajo cada vez más impulsado por la IA.

A pesar del entusiasmo inicial en torno a la inteligencia artificial, muchas empresas aún encuentran dificultades para obtener valor tangible de sus inversiones en esta tecnología. Solo un 4% de las compañías está logrando generar un valor significativo con la IA, mientras que la mayoría sigue en fases de prueba o con implementaciones limitadas. Los líderes en adopción de IA destacan por su enfoque estratégico: priorizan procesos esenciales y funciones de soporte, establecen metas ambiciosas y se centran en integrar la IA tanto para reducir costos como para incrementar ingresos. Además, se enfocan en las personas y los procesos, no solo en la tecnología. Para quienes buscan maximizar el impacto de la IA, resulta esencial definir una estrategia clara y comprometida desde la dirección, priorizar iniciativas de alto valor y asegurar la infraestructura mínima necesaria. ¿Estamos preparados para avanzar de la prueba de concepto a una verdadera generación de valor con IA?

Las grandes empresas de IA, como OpenAI, Google y Anthropic, están enfrentando un momento de desafío en su evolución tecnológica. Tras años de avances rápidos y significativos, ahora se encuentran con rendimientos decrecientes y dificultades para alcanzar las expectativas en sus modelos más recientes. La falta de nuevas fuentes de datos de alta calidad y los elevados costos de entrenamiento están ralentizando los progresos en IA generativa, poniendo en duda la viabilidad de alcanzar la inteligencia artificial general (AGI) en un futuro cercano. Esta situación obliga a repensar el modelo de crecimiento basado únicamente en el tamaño y poder de los modelos, y plantea una cuestión estratégica esencial: ¿es posible que el verdadero avance esté en aplicaciones más prácticas, como los agentes autónomos, en lugar de continuar apostando por modelos más grandes y costosos?

Nuestro próximo curso abierto al público

En colaboración con La Nave Nodriza:

  • 9ª edición de IA Generativa: Fundamentos, Usos y Visión Crítica

    12 de diciembre. 7h de curso (más 1 de comida).
    Nuestro curso original que se actualiza en cada edición para ir más allá del prompt y del hype del momento haciendo una reflexión crítica sobre el estado del arte de diferentes herramientas de IA, navegando desde sus orígenes hasta el actual boom generativo.

Recuerda que este tipo de cursos podemos hacerlos en formato “in company” o podemos diseñarte uno a medida en función de nuestra experiencia y de los diferentes temas de los que seguimos aprendiendo. Además, prometemos que te divertirás.

Esperamos que te haya gustado. Si crees que le puede interesar a alguien conocido, no dudes en compartir la newsletter en cualquier formato o canal. Siempre nos podéis escribir con nuevas ideas o comentarios.

:)