TensorRT-LLM y RTX VSR 1.5: NVIDIA ha vuelto a hacerlo (bien)

0
17

El grado de implicación de NVIDIA con el desarrollo de la IA es, sencillamente, superlativo, y TensorRT-LLM no es solo una prueba más de ello, sino también un gran avance en la computación de inteligencia artificial en el cliente, es decir, en el sistema en el que se demanda el uso de la misma, en contraposición al modelo actual, en el que estas acciones se llevan a cabo en servidores, debido a la enorme capacidad de cálculo que es necesario para completarlas, especialmente en un tiempo razonable.

Para que el modelo de computación de IA en el cliente se vaya extendiendo es necesaria, claro, una comunión entre hardware y software, algo que en NVIDIA han entendido muy bien desde hace ya tiempo, como podemos comprobar fácilmente viendo el gran uso que hacen tecnologías como DLSS de los núcleos Tensor de las GPU GeForce RTX. Por no hablar de colaboraciones, como la suscrita entre Microsoft y NVIDIA el pasado mes de mayo, con la que los de Redmond podrán enriquecer la experiencia de uso de la IA en Windows 11 apoyándose en el hardware del gigante verde para el mercado de consumo.

Dentro del ecosistema de la inteligencia artificial, en estos últimos tiempos han cobrado especial relevancia los modelos generativos de lenguaje de gran tamaño (LLM, por sus siglas en inglés, Large Language Model). Se basan en una red neuronal con un enorme conjunto de parámetros (cientos, miles de millones, o incluso más) que son entrenados con datasets también excepcionalmente amplios. Inicialmente los LLM se entrenaban exclusivamente con texto (de ahí la referencia al lenguaje en su nombre), pero de un tiempo a esta parte ya han aparecido algunos procedimientos de entrenamiento de LLM con otros tipos de contenido.

Emplear un LLM requiere, ya lo habrás deducido, de una gran capacidad de cómputo, razón por la que los servicios más populares basados en los mismos y que todos conocemos, como Bard, Bing, ChatGPT y Claude, entre otros, se basan en el modelo cliente-servidor, no en la capacidad de cálculo local. Pero ahí es donde entra TensorRT-LLM, una solución tecnológica que acaba de ser anunciada por NVIDIA, y que apunta a marcar una gran diferencia en este sentido.

TensorRT-LLM y RTX VSR 1.5: NVIDIA ha vuelto a hacerlo (bien)

¿Qué es TensorRT-LLM?

TensorRT-LLM es una biblioteca creada por NVIDIA que, como posiblemente ya habrás deducido por su nombre, emplea la capacidad de cómputo de tareas relacionadas con IA de los núcleos Tensor, presentes en las GeForce RTX. Su existencia no es una novedad, pues su versión para centros de datos ya fue anunciada previamente por la compañía, pero lo que no esperábamos, lo que resulta un enorme salto, es que NVIDIA ha anunciado TensorRT-LLM para Windows, es decir, que ahora esta librería facilitará el uso de modelos LLM generativos en el cliente.

Para permitir este salto, TensorRT-LLM multiplica por cuatro el rendimiento de la plataforma de ejecución (en este caso el PC) en las operaciones de inferencia (que es la base de las respuestas de los modelos de IA a nuestras peticiones), en equipos que cuenten con adaptadores gráficos con núcleos Tensor. De este modo, y dado que hablamos de una biblioteca, los desarrolladores podrán integrarla en sus aplicaciones, para que el empleo de modelos LLM sea mucho más eficiente y, por lo tanto, apto para su ejecución directa en equipos cliente.

TensorRT-LLM, que se integra en el SDK NVIDIA TensorRT, es compatible con los principales modelos LLM, como e Llama 2 y Code Llama, pero esto es aún mejor, ya que la compañía ha optado por el modelo open source, por lo que los desarrolladores podrán modificarlo a voluntad, adaptándolo de este modo a sus necesidades y, para facilitar su implementación, NVIDIA también ha publicado diversos tipos de recursos, como scripts optimizados para su uso, modelos open source y un vasto conjunto de documentación de referencia.

TensorRT-LLM y RTX VSR 1.5: NVIDIA ha vuelto a hacerlo (bien)

Una muestra muy interesante de lo que ofrece TensorRT-LLM la encontramos en la posibilidad de emplear tecnologías como RAG (Retrieval Augmented Generation) que, explicada de una manera sencilla, consiste en poder enriquecer las respuestas proporcionadas por el modelo, complementando la base creada a partir de su entrenamiento con fuentes adicionales configuradas por el desarrollador, y que pueden servir para adaptarlas a un contexto en particular, para proporcionar información más actual, para obtener más profundidad en temáticas concretas, etcétera.

Como ejemplo, que puedes ver en la imagen sobre el párrafo superior, NVIDIA nos muestra la respuesta, a una misma pregunta, proporcionada por LLaMa 2 (a la izquierda), y por una implementación del mismo en la que se ha empleado RAG, mediante TensorRT-LLM, para que el modelo tenga en cuenta información adicional a la empleada en su entrenamiento. Como puedes comprobar, ante la pregunta sobre las tecnologías de NVIDIA integradas en el esperadísimo Alan Wake 2, LLaMa 2 no es capaz de proporcionar una respuesta (de hecho niega que exista e incluso que esté en desarrollo), mientras que la generada por la implementación personalizada, identificada como GeForce News y que, claro, suma como fuentes sus publicaciones (públicas, valga la redundancia) sí que es capaz de proporcionar una respuesta completa y correcta. Donde el modelo original falla, su implementación personalizada enriquecida con RAG acierta.

Las posibilidades son, como puedes imaginar, incontables. TensorRT-LLM facilita la integración de modelos LLM, incrementa hasta en un factor x4 la velocidad de respuesta y permite enriquecer el modelo gracias a RAG, todo esto con computación en el cliente gracias a los núcleos Tensor, y apostando por el modelo de distribución open source, lo que expande las posibilidades de manera exponencial. Hablamos, sin duda, del mayor avance en la proliferación de la IA en el cliente visto hasta el momento.

TensorRT-LLM y RTX VSR 1.5: NVIDIA ha vuelto a hacerlo (bien)

NVIDIA RTX Video Super Resolution 1.5

Sin abandonar el mundo de la inteligencia artificial en el cliente, NVIDIA también ha anunciado hoy RTX Video Super Resolution 1.5, una importante evolución sobre la tecnología presentada en febrero de este mismo año y que, como ya te contamos en su momento, tiene como fin mejorar la calidad de imagen del contenido de vídeo que vemos a través de Google Chrome y Microsoft Edge. Como bien planteaba nuestro compañero Eduardo, de una manera simplificada podemos ver RTX VSR como un DLSS aplicado a los contenidos en streaming.

En la primera versión de esta tecnología, compatible con las tarjetas gráficas de las series RTX 30 (Ampere) y 40 (Lovelace), el modelo era capaz de identificar la diferencia entre elementos sutiles pero legítimos de la imagen y los artefactos que se generaban en la misma, por lo que podía respetar los primeros y corregir los segundos, proporcionando una calidad de imagen superior cuando el vídeo había sido reescalado de su resolución original a la de pantalla.

Con esta nueva versión de RTX VSR, que está disponible desde hoy mismo a través de los drivers NVIDIA Game Ready, nos encontramos con dos novedades muy destacables. La primera es que su alcance se extiende a los equipos con GPU basada en la arquitectura Turing con núcleos RT, es decir, que con NVIDIA RTX Video Super Resolution 1.5 los usuarios de adaptadores gráficos de la serie RTX 20 también podrán disfrutar de esta mejora de la calidad de imagen en contenido en streaming.

La otra gran novedad tiene que ver con las resoluciones a las que se aplica la corrección. Como indicaba antes, RTX VSR 1.0 se activaba cuando el vídeo era reescalado, desde su resolución nativa (fuera la que fuese) a la de la pantalla en la que se visualiza. Sin embargo, con la versión 1.5 la corrección de artefactos y mejora de imagen se aplicará en todos los casos, es decir, también cuando coincidan la resolución original del vídeo con la de la pantalla en la que está siendo reproducido.

La entrada TensorRT-LLM y RTX VSR 1.5: NVIDIA ha vuelto a hacerlo (bien) se publicó primero en MuyComputer.