Idea: RAG con la información de las conferencias de prensa

Una de las ideas que se me antoja hacer con el dataset de las conferencias de prensa es una base de conocimiento a la cual podamos preguntarle por cosas que dice la presidenta, secretarios y reporteros. Obtener una idea los temas que se tratan a diario, a la semana, al mes.

Una forma que se ocurre es alimentar una LLM (Large Language Model) con el contexto de las conferencias de prensa, una técnica para hacer esto se conoce como RAG (Retrieval-Augmented Generation).

Básicamente significa tomar una base de conocimiento de texto, partirlo en pedazos, hacer embeddings de esos pedazos, indexarlos y almacenarlos en una base de datos vectorial.

Después basado en una consulta (query) el sistema obtiene (retrieves) los documentos relevantes, genera un prompt usando el query y los documentos obtenidos, luego se envía toda esta información a una LLM como ChatGPT, Claude, Llama; y se obtiene una respuesta humana basada en la información de inyectada.

Muy interesante técnica para exponer a las LLMs a información que no fue parte de su entrenamiento como información privada o de un dominio específico.

Leave a Reply

Your email address will not be published. Required fields are marked *