Artículo Premium
#23 De "chatear con la IA" a construir una base de conocimiento
Andrej Karpathy ha publicado un método para que la inteligencia artificial construya y mantenga una base de conocimiento estructurada a partir de documentos sueltos. La idea es brillante. Las limitaciones para un despacho profesional, también.
Qué ha pasado
El 2 de abril de 2026, Andrej Karpathy publicó un mensaje en la red social X (antes Twitter) que se hizo viral en cuestión de horas. Superó el millón de visualizaciones. Al día siguiente, publicó un documento técnico en GitHub con la arquitectura completa de lo que propone.
Karpathy no es cualquiera. Es cofundador de OpenAI (la empresa detrás de ChatGPT), fue director de inteligencia artificial en Tesla, y es uno de los investigadores más influyentes del sector. Cuando él dice algo, la industria escucha. Y lo que dijo esta vez es provocador: ha dejado de usar la IA principalmente para escribir código y ha empezado a usarla para construir bases de conocimiento.
¿Por qué debería importarte esto si diriges un despacho de asesoría? Porque el problema que Karpathy describe —y la solución que propone— es exactamente el mismo que vives cada día con la documentación de tus clientes. Solo que él lo ha puesto en palabras que la industria tecnológica no puede ignorar.
El problema que describe (y que tú conoces bien)
Piensa en cómo usas ChatGPT o cualquier herramienta de IA hoy. Abres una conversación, haces una pregunta, recibes una respuesta, cierras la pestaña. Mañana abres otra conversación y empiezas desde cero. La IA no recuerda nada. No acumula. No aprende de lo que le preguntaste ayer.
Karpathy lo compara con un sistema que "redescubre el conocimiento desde cero en cada pregunta". Es como si cada vez que un cliente te llamara para preguntar por su situación fiscal, tú tuvieras que releer su expediente completo desde el principio. Sin notas, sin historial, sin contexto previo. Cada llamada, borrón y cuenta nueva.
Ese es el estado actual de las herramientas de IA para la mayoría de los usuarios. Y para las empresas que han intentado solucionarlo con tecnología más avanzada (lo que en el sector se llama RAG, que son las siglas en inglés de "generación aumentada por recuperación"), el resultado tampoco es satisfactorio.
El RAG funciona así: coges todos tus documentos, los troceas en fragmentos, los conviertes en código numérico y los guardas en una base de datos especial. Cuando preguntas algo, el sistema busca los fragmentos que parecen más relevantes y se los pasa a la IA para que elabore una respuesta. Es como si, en vez de darle a un abogado el expediente completo de un caso, le dieras párrafos sueltos arrancados de distintos documentos y le pidieras que sacara conclusiones. A veces funciona. Muchas veces, no.
La solución de Karpathy: tres carpetas y un bibliotecario incansable
Lo que Karpathy propone es sorprendentemente simple. Tan simple que muchos ingenieros no se lo creyeron al principio. El sistema tiene tres carpetas y un fichero de instrucciones. Nada más.
Carpeta 1: "raw" (material en bruto). Aquí se mete todo lo que quieres que la IA procese. Artículos, informes, notas, capturas de pantalla, lo que sea. Sin ordenar, sin clasificar. Es un cajón de sastre a propósito.
Carpeta 2: "wiki" (conocimiento estructurado). Esta carpeta la escribe y mantiene la IA. Lee todo lo que hay en la carpeta de material en bruto y lo "compila" en artículos organizados: resúmenes, conceptos clave, enlaces entre ideas relacionadas, un índice general. Es como si contrataras a un documentalista que lee todo lo que le echas y va construyendo una enciclopedia interna de tu despacho.
Carpeta 3: "outputs" (resultados). Cuando le haces preguntas a la IA sobre lo que ya ha organizado, las respuestas se guardan aquí. Así no se pierden.
El fichero de instrucciones es un documento de texto que le dice a la IA cómo debe organizar la wiki: qué estructura seguir, cómo nombrar los artículos, cómo enlazar conceptos entre sí. Karpathy lo compara con darle a un empleado un manual de procedimientos antes de que empiece a trabajar.
El resultado que Karpathy muestra: unas 100 páginas y 400.000 palabras sobre un tema de investigación, organizadas, enlazadas entre sí, con índice y resúmenes. Sin que él escribiera directamente una sola palabra. La IA lo hizo todo.
Además, la IA hace algo que Karpathy llama "chequeos de salud": revisiones periódicas donde busca contradicciones, información que falta o conexiones nuevas entre conceptos. Una especie de auditoría automática del conocimiento.
La idea de fondo que importa de verdad
Más allá de la arquitectura técnica, hay una idea que merece atención especial. Y es esta: cada vez que le haces una pregunta a la IA dentro de este sistema, la respuesta se incorpora a la base de conocimiento. El conocimiento se acumula en vez de evaporarse.
Piensa en la diferencia. En ChatGPT, si le preguntas cómo tributar una operación inmobiliaria con un no residente, recibes una respuesta, la usas y desaparece. Si el mes que viene un compañero tiene un caso similar, tiene que empezar de cero. Con el sistema de Karpathy, esa respuesta queda integrada en la wiki. La siguiente pregunta relacionada ya tiene contexto. Y la siguiente más. El conocimiento compone, como el interés compuesto.
Un emprendedor que respondió al post de Karpathy lo resumió con una frase que vale más que todo el artículo técnico: "Todas las empresas tienen una carpeta de material en bruto. Nadie la ha compilado nunca. Eso es el producto." Karpathy estuvo de acuerdo.
Lo que no funciona (y nadie te está contando)
Hasta aquí, la historia suena casi demasiado bien. Y cuando algo suena demasiado bien, hay que mirar debajo de la alfombra. Hay varios problemas serios que la cobertura entusiasta de este post está pasando por alto.
Los errores se acumulan igual que el conocimiento
Si la IA organiza mal una información y la graba en la wiki, todas las respuestas posteriores que dependan de ese dato serán incorrectas. Y lo serán de forma silenciosa, sin que nadie se dé cuenta. Los "chequeos de salud" que propone Karpathy los hace la propia IA. Es como pedir a la misma persona que cometió el error que revise su propio trabajo. A veces lo detectará. Muchas veces, no.
En un despacho, este problema es crítico. Si la IA clasifica mal un criterio fiscal o un plazo procesal y eso queda grabado en la base de conocimiento, las consultas posteriores heredarán el error. Y a diferencia de un artículo de investigación mal redactado, aquí las consecuencias son declaraciones fiscales incorrectas o plazos legales incumplidos.
No escala a un despacho real
El sistema de Karpathy funciona bien con unos 100 artículos y 400.000 palabras. Él mismo lo reconoce. Más allá de esa escala, los tiempos de procesamiento crecen y la coherencia se degrada. Un despacho medio maneja miles de expedientes, cientos de consultas vinculantes, normativa que cambia cada trimestre, convenios colectivos, doctrina administrativa. La escala es de otro orden de magnitud.
No hay trazabilidad real de las fuentes
Uno de los problemas que señalaron los propios desarrolladores en los comentarios al post: cuando el material original cambia (una ley se modifica, una sentencia se revoca), la wiki no lo sabe. El conocimiento compilado puede ser incorrecto sin que haya ninguna señal de alerta. Los health checks son la IA releyendo y "adivinando" si algo ha cambiado. En un contexto regulado, eso no es trazabilidad. Es esperanza.
El coste en tokens es enorme
Compilar y mantener 400.000 palabras de wiki con un modelo de IA avanzado cuesta dinero. Cada revisión, cada compilación, cada consulta compleja consume capacidad de procesamiento que se paga. Para un investigador individual con suscripción ilimitada a una herramienta, es asumible. Para un despacho que quiera implementar esto a escala con la API de un proveedor de IA, los costes se multiplican rápidamente.
No hay modelo de seguridad ni gobernanza
El sistema es un conjunto de carpetas con ficheros de texto. No tiene control de acceso, no tiene cifrado, no tiene registro de quién modificó qué ni cuándo. Para uso personal de un investigador, no importa. Para un despacho que maneja datos protegidos por el RGPD y sujetos a secreto profesional, es directamente inviable sin una capa adicional de seguridad que Karpathy ni menciona.
Entonces, ¿qué significa esto para tu despacho?
Que no deberías copiar lo que hace Karpathy. Pero sí deberías entender lo que está señalando.
La idea central es correcta: las herramientas de IA actuales desperdician conocimiento porque no acumulan. Cada conversación empieza de cero. Cada consulta repite trabajo. Eso tiene un coste enorme en productividad para cualquier despacho que use IA.
La dirección es la correcta: el futuro no está en "chatear con la IA" pregunta a pregunta, sino en construir bases de conocimiento estructuradas donde la IA compile, organice y mantenga actualizado el saber colectivo del despacho. Que cuando un asesor junior tenga una duda sobre la tributación de una operación, no empiece de cero: que la base de conocimiento del despacho ya tenga criterios, doctrina y casos previos organizados y accesibles.
Pero la implementación necesita lo que Karpathy no resuelve:
Primero, trazabilidad legal. Cada pieza de conocimiento tiene que estar vinculada a su fuente normativa o doctrinal, con fecha y vigencia verificable. No vale que la IA "crea" que un criterio es correcto. Tiene que ser demostrable.
Segundo, supervisión humana en el bucle. En un contexto profesional regulado, la IA puede compilar y sugerir, pero un profesional cualificado tiene que validar antes de que el conocimiento se integre como "verdad" del despacho.
Tercero, cumplimiento normativo. RGPD, secreto profesional, y la propia Ley Europea de Inteligencia Artificial (con obligaciones aplicables desde agosto de 2026) exigen un nivel de gobernanza que tres carpetas de texto no proporcionan.
Cuarto, separación entre conocimiento verificado y generado. El co-creador de Obsidian (la herramienta que usa Karpathy) respondió al post advirtiendo precisamente de esto: hay que separar el conocimiento curado por humanos del compilado por IA, para saber siempre qué es fiable y qué necesita verificación.
La oportunidad real
Si eres director de un despacho, llévate esta reflexión: tu despacho ya tiene una "carpeta raw". Son tus expedientes, tus consultas resueltas, tus criterios internos, los correos donde un socio explicó cómo tratar una operación compleja. Todo ese conocimiento existe, disperso y sin compilar. Cada vez que un profesional de tu equipo necesita resolver una duda, está "redescubriendo el conocimiento desde cero" —preguntando al compañero, buscando en carpetas, o directamente improvisando.
Lo que Karpathy ha demostrado es que la tecnología para compilar ese conocimiento ya existe. Lo que falta no es la IA. Lo que falta es la capa de gobernanza, trazabilidad y cumplimiento que haga viable usar esa IA en un entorno profesional regulado.
Quien construya esa capa para el sector de despachos profesionales tendrá un producto de enorme valor. Mientras tanto, lo que sí puedes hacer hoy es empezar a pensar en tu despacho no como un lugar donde se resuelven casos aislados, sino como un sistema que debería estar acumulando conocimiento de forma estructurada con cada caso que resuelve.
En resumen
- Andrej Karpathy, cofundador de OpenAI, ha publicado un sistema donde la IA construye y mantiene automáticamente una base de conocimiento estructurada a partir de documentos sueltos, sin intervención humana directa.
- La idea central es poderosa: que el conocimiento se acumule en vez de perderse con cada conversación de IA. Pero el sistema tiene limitaciones serias de escala, trazabilidad y seguridad que lo hacen inviable tal cual para un despacho profesional.
- El mayor riesgo es la acumulación silenciosa de errores: si la IA se equivoca al compilar, todas las consultas posteriores heredan el error sin que nadie lo detecte.
- La oportunidad para el sector está en aplicar este principio (compilar conocimiento, no redescubrirlo) con las capas de supervisión humana, trazabilidad legal y cumplimiento normativo que un entorno regulado exige.
- La pregunta que debería hacerse todo director de despacho: ¿cuánto conocimiento se pierde cada día en tu equipo porque no existe un sistema que lo compile y lo haga accesible?
Referencia
Karpathy, A. (2026, 2 de abril). LLM Knowledge Bases [Publicación en X]. x.com/karpathy/status/2039805659525644595
Karpathy, A. (2026, 4 de abril). LLM Wiki [GitHub Gist]. gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
