Back to InsightsIA y Aprendizaje Automático

El Futuro de la Memoria de IA: El Enfoque Visionario de DeepSeek para Contextos Largos y la Brecha Global de Innovación

Mercury Technology Solutions21 de octubre de 20258 min read

Resumen:Las leyes de escalado de la IA están alcanzando rendimientos decrecientes, dando paso a una era donde la innovación arquitectónica, no solo el cómputo a la fuerza bruta, definirá el progreso. El reciente DeepSeek-OCR de DeepSeek, con su "compresión visual" del contexto, representa un cambio revolucionario. Al convertir largas conversaciones textuales en fragmentos de memoria "fotográfica", DeepSeek está abordando el crítico problema del contexto largo de la IA, permitiendo conversaciones teóricamente infinitas mientras optimiza el cómputo. Esta innovación destaca una divergencia fundamental en la estrategia global de IA: donde la tecnología occidental a menudo "apila recursos", las empresas chinas están sobresaliendo en "optimización de ingeniería" – una diferencia que podría remodelar el panorama competitivo y democratizar las capacidades avanzadas de IA.

Soy James, CEO de Mercury Technology Solutions.

La trayectoria del desarrollo de IA, particularmente entre Oriente y Occidente, continúa revelando dos enfoques fundamentalmente diferentes hacia el progreso tecnológico. Mientras que gran parte de la conversación reciente ha girado en torno al percibido estancamiento de las leyes de escalado de IA—especialmente después de que GPT-5 no entregara el mismo "salto mágico" que sus predecesores—los verdaderos avances están ocurriendo ahora en la intrincada danza de la optimización.

Ayer, DeepSeek presentó DeepSeek-OCR, y creo que esta innovación abre una nueva frontera crucial para la optimización de IA. Es un testimonio de pensar de manera diferente sobre la propia naturaleza de la memoria de IA.

El Elefante en la Habitación: La Amnesia Contextual de la IA

Cualquiera que haya pasado un tiempo significativo conversando con un LLM lo ha experimentado: cuanto más larga es la conversación, más "tonto" se vuelve la IA. Las respuestas se desvían, la coherencia se desvanece y, eventualmente, la IA olvida detalles anteriores por completo. Nuestra reacción instintiva es a menudo simplemente reiniciar una nueva conversación, lo que, para nuestro alivio, restaura inmediatamente la "frescura" y calidad de la IA.

Esto no es un error; es un desafío fundamental:La IA lucha con contextos excesivamente largos.Imagina intentar recordar meticulosamente cada palabra de un libro entero, mientras procesas nueva información. Tu cerebro se "bloquearía" rápidamente. Los LLM enfrentan una avalancha computacional similar al procesar ventanas de contexto largas; el cómputo requerido crece exponencialmente, llevando a sobrecargas de memoria y tiempos de respuesta inaceptablemente lentos. Si bien teóricamente posible, prácticamente, la latencia hace que tal sistema sea inutilizable.

Sin embargo, el equipo de DeepSeek propuso una solución radical:"fotografiar" conversaciones antiguas.

Compresión Visual: Un Enfoque Humano a la Memoria de IA

Inicialmente, la idea suena contraintuitiva. ¿Convertir texto en imágenes, y luego pedir a una IA que "lea" esas imágenes para reconstruir la conversación? ¿No llevaría eso a una gran pérdida de información y a un aumento de los requisitos de almacenamiento?

Los resultados de DeepSeek son, francamente, asombrosos. Descubrieron que una página de 1,000 palabras podría ser reconstruida con más del 97% de precisión usando solo alrededor de 100 "tokens visuales". Esto es como comprimir una conversación de 100,000 palabras en 10,000 "fragmentos fotográficos", permitiendo a la IA recordar la esencia de tu discusión al mirar estos fragmentos. Incluso al llevar la relación de compresión a 20x (50 tokens visuales por 1,000 palabras) aún se mantenía aproximadamente un 60% de precisión. Piensa en recordar detalles de una conversación de hace un mes: un 60% de retención es impresionante para un humano, y mucho más para una IA.

(Una advertencia crucial: estas pruebas fueron principalmente en escenarios de OCR – reconstrucción de texto a partir de imágenes. La efectividad en diálogos complejos de múltiples turnos, discusiones de código o razonamientos intrincados aún requiere validación completa, ya que el propio documento reconoce que estos son resultados preliminares.)

Sin embargo, desde un punto de vista ingenieril, el rendimiento es notable. Una sola GPU A100 puede procesar 200,000 páginas diarias, escalando a 33 millones de páginas con 20 nodos. Para casos de uso que involucran procesamiento masivo de documentos, como preparar grandes modelos para entrenamiento o construir bases de conocimiento empresariales, este aumento de eficiencia es transformador.

DeepSeek incluso ha abierto el código y los pesos del modelo, reduciendo la barrera de entrada. Si bien el modelo no está ajustado para uso conversacional y requiere formatos de solicitud específicos, la optimización subyacente es innegable.

Arquitectura Inteligente: Compresión Adaptativa y la Hipótesis del "Olvido Humano"

DeepSeek-OCR no es una solución rígida y única para todos. Su arquitectura es flexible, ofreciendo múltiples modos como los diversos ajustes de disparo de una cámara. Una simple diapositiva podría necesitar solo 64 tokens visuales a 512x512 de resolución (modo Tiny), mientras que un diseño complejo de periódico puede manejarse con alrededor de 800 tokens usando un modo multi-vista "Gundam".

Esta flexibilidad es clave. Es similar a cómo los humanos procesan información: las notas simples se almacenan de manera diferente que los complejos trabajos académicos. DeepSeek-OCR ajusta inteligentemente la compresión según la complejidad del contenido, conservando recursos donde sea posible y aplicando más potencia cuando es necesario. El principio subyacente es profundo: el límite de compresión depende de la complejidad, reflejando cómo opera la memoria humana.

Esto nos lleva al concepto más perspicaz del documento:"Dejar que la IA olvide como un humano."

Considera tu propia memoria. Puedes repetir una oración reciente palabra por palabra. La esencia de una conversación de hace una hora es clara. Los eventos de ayer son fragmentos clave. La discusión de la semana pasada es borrosa. La de hace un mes está en gran parte olvidada.

DeepSeek propone un mecanismo similar para la IA: las interacciones recientes se mantienen como texto sin procesar. El contenido de hace una hora se convierte en una "foto" de alta resolución (800 tokens). El diálogo de esta mañana se degrada a definición estándar (256 tokens). El de ayer se convierte en baja resolución (100 tokens), y los recuerdos más antiguos son comprimidos fuertemente o descartados.

Este diseño se asemeja a la naturaleza desvaneciente de la memoria humana, y abre la posibilidad de que la IA manejeconversaciones teóricamente infinitas, ya que los recuerdos más antiguos "se desvanecen" automáticamente para hacer espacio para los nuevos.

Por supuesto, quedan desafíos. ¿Cómo determinamos qué información es "importante" y merece retención en alta resolución? ¿Qué sucede si un usuario, 50 turnos en una conversación, de repente hace referencia a un detalle del turno 5 que ha sido fuertemente comprimido? Esto podría requerir "puntuación de importancia de memoria" o etiquetas de importancia asignadas por el usuario.

La Brecha Global de IA: Optimización de Ingeniería vs. Apilamiento de Recursos

Esta investigación ilustra vívidamente una característica definitoria de las empresas de IA chinas: un enfoque extremo enla optimización de costos y la eficiencia en la ingeniería.

El modelo V3 anterior de DeepSeek logró un rendimiento a nivel de GPT-4 con una fracción del cómputo (2.788M horas de GPU H800, costo de entrenamiento estimado de $5.57M), asombrando a la industria. Este modelo OCR continúa esa tendencia, buscando incansablemente lograr los mejores resultados con la menor cantidad de tokens.

En contraste con el enfoque de "apilar recursos hasta que funcione" que a menudo se ve en algunos desarrollos de IA occidentales, los equipos chinos sobresalen en la optimización profunda bajo restricciones de recursos. Esto podría ser un resultado directo de las restricciones de exportación de GPU, fomentando la innovación forzada, combinada con una fuerte cultura de ingeniería de eficiencia. Mientras OpenAI puede gastar enormes sumas entrenando modelos más grandes, DeepSeekdebeencontrar maneras de lograr resultados comparables con menos.

Esta divergencia está remodelando activamente el panorama competitivo global de la IA. Mientras que algunas empresas occidentales todavía compiten por quién tiene el modelo más grande o los costos de entrenamiento más altos, las empresas chinas están explorando cómo lograr el 90% del efecto con el 10% del costo. A largo plazo, esta capacidad de optimización de ingeniería podría resultar ser una ventaja competitiva más formidable que el simple despliegue de recursos, especialmente para aplicaciones comerciales a gran escala donde el control de costos es primordial.

Mirando hacia adelante: La Promesa de R2 y Más Allá

Si DeepSeek integra estos tipos de técnicas innovadoras en su modelo de inferencia de próxima generación, R2, podría llevar a cambios sustanciales. R1 ya demostró la capacidad de los equipos chinos para lograr paridad casi occidental en inferencia, pero su manejo de contexto largo seguía limitado por arquitecturas tradicionales. Si R2 integra compresión visual, optimización de MoE y otras técnicas aún no anunciadas, podría reducir drásticamente el costo computacional de los contextos largos mientras mantiene un razonamiento poderoso.

Esto no es solo un aumento de rendimiento; es una expansión de casos de uso. Imagina una IA que recuerda docenas de turnos de conversación, procesa documentos extremadamente largos y mantiene un costo de inferencia aceptable. Esto sería transformador para aplicaciones que requieren interacción extendida, como educación, consulta médica o análisis legal. Y si el costo es lo suficientemente bajo, estas capacidades podrían pasar de ser "exclusivas para grandes corporaciones" a ser "accesibles para desarrolladores pequeños y medianos."

La hoja de ruta tecnológica de DeepSeek apunta consistentemente hacia soluciones "más eficientes, más prácticas", en lugar de simplemente perseguir números de referencia. V3, OCR y probablemente R2, siguen todos este camino. Si bien estos se basan en información actual y especulación, la dirección es clara y técnicamente respaldada.

La memoria humana no funciona como una computadora tradicional, registrando cada detalle. Recordamos impresiones, información clave y conexiones emocionales, no transcripciones verbatim. Olvidamos detalles pero retenemos lo importante. Re-codificamos recuerdos, almacenándolos de manera más eficiente. DeepSeek-OCR ofrece un camino viable para que la IA imite esto: al manejar contextos largos, una representación visual podría ser mucho más eficiente que el texto puro.

Si esta idea se sostiene en contextos más amplios sigue por verse. Pero indudablemente prueba una cosa: bajo restricciones de recursos, al contemplar profundamente la naturaleza del problema, diseñar inteligentemente la arquitectura y optimizar meticulosamente cada componente, aún es posible construir sistemas altamente competitivos. Esto, quizás, es un microcosmos del desarrollo de IA en China – una victoria no del apilamiento de recursos, sino de la optimización de ingeniería.

La próxima vez que encuentres que tu IA "olvida" tu conversación anterior, quizás una IA futura responda: "No he olvidado; simplemente he fotografiado nuestra conversación y la he almacenado profundamente en mi memoria. Si la necesitas, siempre puedo recuperarla para ti."

En ese momento, el diálogo entre la IA y la humanidad podría volverse mucho más natural y duradero.

Mercury Technology Solutions. Acelera la Digitalidad.

Originally published on MTS Blog & Research