Análisis de datos

Al mal tiempo, buena data
4 min readJan 25, 2021

Si te interesa el mundo de los datos y quieres desempeñarte como data scientist o data analyst, es importante que tengas en cuenta que una de las tareas principales que harás en tu día a día es analizar datos. Es cierto eso que dicen que aproximadamente el 70% del proceso que realizarás será analizar datos, proceso que consiste en limpiar y transformar datos con el fin de extraer información relevante.

El análisis de datos permite identificar patrones de comportamiento, tener un conocimiento más amplio de lo que sucede en una organización, predecir sucesos e identificar oportunidades para crear un plan de acción que permita alcanzar los objetivos de la organización.

Algunos pasos para realizar análisis de datos:

  1. Identificar el problema: Como primer punto es importante identificar el objetivo del análisis de datos y lo que se necesita para llevarlo a cabo.
  2. Recolección de datos: Una vez se ha identificado el objetivo del análisis se pasa a la ingesta de datos necesarios y/o existentes.
  3. Preparación y análisis de datos: Luego de obtener los datos se procede con la preparación que implica limpieza, transformación, selección de variables relevantes y posteriormente el análisis de los datos con ayuda de medidas estadísticas y visualización.
  4. Evaluación de resultados: Finalmente, se evalúa el análisis realizado y se toman decisiones basadas en dicha información.

Tipos de análisis

Existen varios tipos de análisis de datos como análisis exploratorio (lo veremos más adelante), descriptivo, predictivo, prescriptivo, entre otros, que nos van a ayudar a identificar el comportamiento de nuestros clientes, del mercado y de la organización, y con ello tomar decisiones basadas en datos en beneficio de las partes involucradas. A continuación, presentaré dos de los principales:

Análisis descriptivo: Los datos almacenados de la organización (datos históricos), ayudan a evaluar lo que está pasando e identificar patrones de comportamiento. Por ejemplo, si tenemos datos de un supermercado, el análisis descriptivo nos permite identificar cuales productos tienen mayor y menor demanda, si hay productos que se vendan en conjunto, cuales han sido las ganancias y ventas en días de promociones, en que zonas se realizan más compras.

Para este tipo de análisis se utilizan técnicas de clustering, asociación y selección de factores, en su mayoría no supervisadas.

Análisis predictivo: Este análisis nos permite, mediante el uso de técnicas y modelos matemáticos, predecir comportamientos futuros y tomar decisiones basadas en los datos históricos. Con los datos obtenidos se puede identificar una correlación entre variables y tomar medidas para aprovechar esa información en beneficio de los clientes y la organización. Por ejemplo, un almacén de ropa puede predecir la temporada con mayores y menores ingresos para luego ofrecer prendas en promoción, descuentos; asimismo, identificar las zonas donde se tiene gran demanda y predecir una ubicación para un nuevo punto de venta.

Para este tipo de análisis se utilizan técnicas de clasificación y regresión, en su mayoría técnicas supervisadas.

Herramientas

  • Lenguajes de programación como Python, R y Matlab
  • Visualización de datos con Power BI, Tableau, Qlik View, Data Studio
  • Herramientas Cloud como GCP, Azure y AWS
  • Excel
  • SAS
  • Weka

Cursos

A continuación, listo algunos de los cursos que he encontrado sobre análisis de datos:

LinkedIn:

Coursera:

Análisis exploratorio de datos

En este tipo de análisis se realiza un tratamiento estadístico a los datos y una visión general de los datos que tenemos para su posterior manipulación y análisis prescriptivo y/o descriptivo. En este punto podemos identificar si en nuestros datos hay valores nulos, atípicos, los tipos de variables, la distribución de los datos y comportamiento general de la información recopilada.

IMPORTANTE: Este es el primer análisis que debe realizarse una vez se realice la ingesta de datos. El análisis exploratorio nos permitirá definir si los datos que tenemos son suficientes y son los que necesitamos para cumplir con el objetivo planteado, o si se debe realizar una nueva ingesta.

Veremos un poco de código en Python para análisis exploratorio de datos:

  • Información general del dataset: Esta línea nos permite visualizar información general de nuestros datos como cantidad de datos y nombres de las columnas, índices, valores nulos y tipos de datos de cada columna.
dataset.info()
  • Tamaño del dataset: Podemos visualizar la cantidad de filas y columnas que tienen nuestros datos.
dataset.shape
  • Descripción estadística: Permite visualizar medidas estadísticas de los datos numéricos como valor mínimo y máximo, media, desviación estándar y cuartiles.
dataset.describe()
  • Componentes del dataset: Con estos comandos podemos visualizar como los índices, los nombres de las columnas y los valores que corresponden a cada fila, respectivamente.
dataset.index
dataset.columns
dataset.values
  • Eliminar datos duplicados: Se detectan valores duplicados en el dataset y se elimina uno de ellos.
dataset.drop_duplicates(subset=”nombreColumna”,inplace=True)
  • Validar si hay valores faltantes: Muestra el número de datos faltantes por columna.
dataset.isna().sum()

Los datos representan un gran valor para las empresas, de manera que si se utiliza bien esta información impulsan el crecimiento de la organización, y es por ello que la demanda de analistas de datos ha aumentado en los últimos años. Todas las organizaciones generan datos y muchas veces no se realiza nada con ellos; el análisis de datos es una de las actividades más importantes, lo principal es realizar las preguntas correctas basados en cómo funciona la organización y obtener la información necesaria para generar valor a la empresa.

En la próxima publicación hablaré de preparación de datos con Python usando la librería Pandas, librería especializada en el manejo y análisis de estructuras de datos.

--

--

No responses yet