Bitácora ML – Registro personal sobre lo aprendido mientras estudio Machine Learning

¿De qué se trata DocETL?

Posted onNovember 3, 2024December 22, 2024Leave a comment

DocETL is a novel system designed to optimize complex document processing pipelines for accuracy by leveraging Large Language Model (LLM) agents

DocETL sirve para procesar grandes cantidades de texto, existen varios procesamientos que se le pueden hacer al texto Leer más …

Investigando un poco sobre reconocimiento de placas de automóviles

Posted onNovember 2, 2024November 25, 2024Leave a comment

Hace varias semanas un amigo *cof* el Robles *cof* me preguntó si sabía hacer reconocimiento de placas de automóviles. Al principio pensé que sería fácil, no pero no lo es y existen muchas técnicas para lograrlo.

Hoy retomé el tema, encontré varios artículos interesantes. Leer más …

Idea de RAG con las Leyes de Transparencia

Posted onOctober 29, 2024November 24, 2024Leave a comment

Mientras le presumía al Yeomans mi RAG sobre las conferencias matutinas, me sugirió una idea, la cual de hecho es parte de los casos de uso de las RAG.

Me sugirió que hiciera un RAG pipeline para las Leyes sobre Transparencia en México. Leer más …

Primer RAG para las conferencias de prensa matutinas

Posted onOctober 28, 2024November 24, 20241 Comment

Adapté el tutorial de RAG de langchain con mi dataset de las conferencias de prensa de la presidencia de México. Aunque fue un proceso sencillo no estoy conforme aún con los resultados.
Leer más …

Tutorial oficial sobre RAG en Langchain

Posted onOctober 27, 2024November 18, 20241 Comment

Mientras investigo información sobre RAG (Retrieval-Agumented Generation) para ver como implementarlo a información para crear bases de conocimiento. Leer más …

Idea: RAG con la información de las conferencias de prensa

Posted onOctober 21, 2024November 11, 2024Leave a comment

Una de las ideas que se me antoja hacer con el dataset de las conferencias de prensa es una base de conocimiento a la cual podamos preguntarle por cosas que dice la presidenta, secretarios y reporteros. Obtener una idea los temas que se tratan a diario, a la semana, al mes.

Una forma que se ocurre es alimentar una LLM (Large Language Model) con el contexto de las conferencias de prensa, una técnica para hacer esto se conoce como RAG (Retrieval-Augmented Generation). Leer más …

Dataset Conferencias de Presidenta de México en Kaggle

Posted onOctober 20, 2024November 11, 20242 Comments

Después de crear el scrapper para sacar las versiones estenográficas de todas las conferencias de prensa de la Presidenta de México Claudia Sheinbaum ya subí la primera versión del dataset a kaggle.

Cualquier sugerencia en cuanto a formato, metadata e ideas para usar este dataset son bienvenidas. Leer más …

Scrapper de las conferencias de la Presidenta de México

Posted onOctober 19, 2024November 11, 20241 Comment

Terminé el scrapper de las conferencias de prensa de presidencia usando el archivo del blog de presidencia de México.

La idea es subirlo a hugging face y kaggle como dataset, además de mantenerlo, con fin de aplicarle tareas y modelos de NLP y ver que información se puede obtener. Leer más …

an AI generated image with the prompt create an image of palm tree with dusk in ocean like pov resting on the sand of that beach, make it colorful but cartoonish but not too surreal

Segunda Temporada

Posted onOctober 18, 2024November 9, 2024Leave a comment

Después de un par de años en hiatus estoy de vuelta, aprendiendo más Machine Learning. Desde la última vez que escribí aparecieron las LLMs y hubo un explosión de hype, productos y tech alrededor de todo esto. Voy a tratar de desentrañar esto poco a poco Bienvenidos a la segunda temporada de mi Bitácora ML.

Stable Diffusion fine-tunning usando Dreambooth

Posted onDecember 28, 2022November 4, 2024Leave a comment

Dreambooth es un técnica con la cuál podemos hacer un ajuste o afinación al modelo pre-entrenado de Stable Diffusion. Coloquialmente esto también es conocido como re-entrenar el modelo. Leer más …