5 min read

🎓 Aprende análisis de datos con Python y ChatGPT - #10

🎓 Aprende análisis de datos con Python y ChatGPT - #10

Estas semanas han salido múltiples herramientas, apps, extensiones, etc. que están potenciados con AI. Sin embargo, no he encontrado mucha información al momento de querer hacer análisis de datos con ayuda de AI, específicamente con ChatGPT con el nuevo modelo GPT-4.

Es por esto que me aventuré a aprender Data Analysis con Python, usando exclusivamente Google Colab con ayuda de ChatGPT. Si no sabes programar, pero te interesa aprender a hacer análisis de datos en un par de minutos, este artículo es para ti.

¿Qué necesitas para comenzar?

  1. Una cuenta en Google Colab (intenté con Jupyter notebook pero me gustó más Colab).
  2. Una cuenta de ChatGPT (idealmente que tengan Plus para utilizar GPT-4. No he probado hacer lo mismo con GPT-3.5, aunque los resultados deberían ser similares o un poco peor)
  3. Un dataset que quieran analizar. Idealmente que sepas el significado de todas sus columnas. El dataset debe estar en .csv (formato separado por comas). (Nota: Si ocupas macOS, te recomiendo subir tu archivo .xlsx a Google Sheets, y después descargarlo como csv. Yo tuve problemas transformándolo a CSV desde el Excel de macOS.)

¡Y listo! Ya podemos comenzar.


¿Aún no estás suscrito? Suscríbete a mi newsletter semanal para recibir key takeaways sobre negocios, productividad y tecnología.


Para este ejemplo, utilicé un dataset de un negocio de cajas de suscripción para perros. Los datos han sido cambiados por datos aleatorios para poder publicar este ejercicio; sin embargo, la lógica de las columnas de este dataset se mantiene.

Comenzamos con un prompt en ChatGPT con instrucciones para subir / cargar el dataset y que se entienda qué significa cada columna de la siguiente forma:

A lo que ChatGPT nos va a devolver algo como esto:

Acá tenemos que copiar este código, e ir a Google Colab y pegarlo en la primera barra de input de código vacía:

Clickeamos el símbolo de "play", para que importe las bibliotecas, y seguimos con el dataset en las instrucciones de ChatGPT:

Eso te permitirá leer tu archivo csv desde una carpeta en Google Drive. Yo ya lo había subido a Google Colab, te recomiendo esta opción también, por lo que le dije a ChatGPT que reescribiera esa parte para que tomara el archivo que acababa de subir a la carpeta de Google Colab. Esta fue su respuesta:

Importante que cambies el nombre dataset.csv por el de tu archivo real.

Posterior a eso nos da unas indicaciones para que comprobemos que hemos subido todo correctamente:

Vemos que está todo OK en Google Colab:

Como vemos acá, el timestamp, que es la fecha de compra, no lo está tomando como fecha. Además cometí el error de subir fechas en diferentes formatos.

Esto no es problema para ChatGPT, con un par de explicaciones y correcciones, logré ajustar el formato de las fechas y que estuvieran todas listas para trabajar:

Le pego el error que obtengo a ChatGPT para que lo solucione
Gráfico con la cantidad de ventas por año

Ahora que tenemos bien nuestro dataset con las fechas correctas y legibles, podemos comenzar a hacer preguntas para responderlas con Python. Pondré algunas preguntas de ejemplo, y sus resultados para que te hagas una idea de las cosas que se podrían resolver:

  1. ¿Cuál es la relación entre el uso de códigos de descuento y la cantidad pagada?

2. Analiza quienes son los 20 clientes top en cuanto a cantidad de compras y en monto gastado. Analiza si alguna variable podría explicar por qué compran o gastan más.

Acá nos podemos dar cuenta, por ejemplo, que el 51% de los clientes que más compran tienen perro pequeño, pero el 53% de los clientes que más monto gastan tienen perro mediano.

3. Identifica la frecuencia promedio al año de los clientes que compran al menos una vez. Muestra a qué plan corresponden las diferentes frecuencias.

Acá podemos ver que hay clientes que han comprado 12 veces un plan de 1 caja, pudiendo haberse suscrito a alguna de las suscripciones de 3 o 6 meses para ahorrar dinero. Casos similares para clientes que compran más 2 de veces.

Estas preguntas son sencillas y se la podría hacer a cualquier dataset para obtener insights de una forma rápida.

Me quise aventurar más y quise armar un modelo que pudiera predecir la probabilidad de compra de un cliente en el futuro. Este fue un desafío mayor, por lo que lo documentaré en detalle en una próxima edición del newsletter. Cuéntame si te gustaría conocer cómo armé el modelo y qué cosas te gustaría aprender a hacer con datos y Python.

Por ahora, te dejo el prompt y algunas respuestas de ChatGPT:

¿Interesante no? ¿Qué harías ahora que sabes quiénes son los clientes con una probabilidad más alta de compra en el futuro? O en caso contrario, ¿qué harías con los que tienen una mayor probabilidad de churn?


🦉Quote de la semana

We go to work five days per week, but spend more than one of those days on average just looking for the information we need to do our work. Half the time, we don’t even succeed in doing that.
Building a Second Brain - Thiago Forte.

Quote resucitado gracias a Readwise. Pruébalo gratis acá.


Y eso ha sido todo por hoy, si te gustó, házmelo saber con el feedback de más abajo. Si no, también :).

Recuerda suscribirte si aún no estás suscrito acá.

¡Nos vemos la próxima semana!