Una de las ideas que se me antoja hacer con el dataset de las conferencias de prensa es una base de conocimiento a la cual podamos preguntarle por cosas que dice la presidenta, secretarios y reporteros. Obtener una idea los temas que se tratan a diario, a la semana, al mes.
Una forma que se ocurre es alimentar una LLM (Large Language Model) con el contexto de las conferencias de prensa, una técnica para hacer esto se conoce como RAG (Retrieval-Augmented Generation).
Básicamente significa tomar una base de conocimiento de texto, partirlo en pedazos, hacer embeddings de esos pedazos, indexarlos y almacenarlos en una base de datos vectorial.
Después basado en una consulta (query) el sistema obtiene (retrieves) los documentos relevantes, genera un prompt usando el query y los documentos obtenidos, luego se envía toda esta información a una LLM como ChatGPT, Claude, Llama; y se obtiene una respuesta humana basada en la información de inyectada.
Muy interesante técnica para exponer a las LLMs a información que no fue parte de su entrenamiento como información privada o de un dominio específico.