UREUS

Demo Machine Learning - Productividad Laboral de las MiPYMES chilenas

Antecedentes generales

El presente análisis de datos tiene por objetivo descubrir los factores relacionados a la Productividad Laboral Chilena específicamente en los tramos de las Micros, Pequeñas y Medianas empresas o MiPYMES dada su gran relevancia socioeconómica. Según el Ministerio de Economía de Chile los criterios de clasificación establecidos para dichos tramos de empresas se determinan a partir de los siguientes atributos:

Micro Pequeña Mediana Grande
1 a 5 trabajadores y/o volumen de ventas anuales entre UF 0 a UF 2.400 6 a 50 trabajadores y/o volumen de ventas anuales entre UF 2.401 a UF 25.000 50 a 400 trabajadores y/o volumen de ventas anuales entre UF 25.001 a UF 100.000 400 a más trabajadores y/o volumen de ventas anuales mayor a UF 100.001

Entre los planteamientos comúnmente utilizados para la medición de la productividad de una empresa se establece inicialmente: Productividad = Productos o Servicios producidos / Recursos utilizados. A partir de lo anterior se establece la siguiente fórmula para la medición de la productividad laboral:

Productividad Laboral = Ventas Anuales UF
Número de Trabajadores

Los datos fueron obtenidos desde la sección de información Estadísticas de Empresas del sitio web del Servicio de Impuestos Internos de Chile (http://www.sii.cl/sobre_el_sii/estadisticas_de_empresas.html), desde donde se obtuvo y analizó la siguiente información:

  • Estadísticas de Empresas por Tramo (micro, pequeña, mediana y grande) según ventas y región.
  • Estadísticas de Empresas por Tramo (micro, pequeña, mediana y grande) según ventas y rubro (actividad económica).

Aspectos preliminares

Para el contexto de análisis de datos y abordar de mejor forma el panorama de la Productividad Laboral de las MiPYMES chilenas, inicialmente generamos una serie de preguntas tales como:

  • ¿Qué rubros del segmento MiPYMES poseen una mejor productividad laboral?
  • ¿Qué regiones del segmento MiPYMES poseen una mejor productividad laboral?
  • ¿Existen diferencias sustanciales o simulitudes entre las MiPYMES con mejor productividad laboral de acuerdo a su rubro?
  • ¿Existen diferencias sustanciales o simulitudes entre las MiPYMES con mejor productividad laboral a partir de su ubicación?
  • ¿Cuál es la tendencia de la productividad laboral de las MiPYMES para los próximos años?

Al observar una muestra aleatoria de los dos conjuntos de datos obtenidos del Servicio de Impuestos Internos se aprecian los siguientes atributos:

Ventas por región

Año Tramo Comuna Provincia Region N_empresas Ventas_UF N_trabajadores Renta_neta N_trab_fem Renta_trab_fem N_trab_masc Renta_trab_masc
35114 2014 Pequeña Lota Concepción R.Biobío 78.0 277211.0 272.0 21577.0 88.0 9780.0 184.0 11797.0

Ventas por rubro

Año Tramo2 Rubro N_Empresas Venta_UF N_trabajadores Renta N_trab_fem Renta_trab_fem N_trab_masc Renta_trab_masc
1422 2018 Pequeña Inmobiliaria 7221.0 52852348.0 22591.0 4959799.0 9986.0 2016333.0 12604.0 2936362.0

Consideraciones: La información provista por el SII en ambos conjuntos de datos posee datos agrupados, por lo que no fue posible combinarlos para generar un análisis a nivel de detalle. Se identifican atributos adicionales como género de trabajadores y renta, lo que permite obtener mejores inferencias de la problemática abordada.


Feature Engineering (Ingeniería de Atributos)

Identificación de datos perdidos

Al analizar ambos conjuntos de datos se encontraron datos con valores cero (0), asteriscos (*) y sin Ventas/Sin Información, por lo que fueron considerados como datos perdidos. La siguientes gráficas, reflejan este primer acercamiento a los datos que son descartados inicialmente:

Datos Perdidos

datos perdidos

La inspección para uno de los archivos identifica un total de 51.260 registros (42% de la muestra inicial) y las columnas con mayor cantidad de datos perdidos, es decir, que contiene asteriscos, ceros, sin/ventas u sin información (aquellos que se identifican con espacios en blancos) corresponden a:

  • Tramo 1
  • Tramo 2
  • Ventas_UF
  • N_trabajadores
  • Renta_neta
  • Renta_trab_fem
  • Renta_trab_masc

Las columnas Tramo 1 y Tramo 2 están estrechamente relacionadas, ya que identifican el segmento de la empresa. A su vez, si en la columna Ventas_UF de la empresa no hay datos acerca de las rentas, en efecto no habrá datos en las rentas por sexo ya sea femenino y masculino.

Para tener mayor claro este panorama inicial de la data, se muestra la cantidad de datos NO perdidos por columna.

Datos No Perdidos por Columnas

barra perdidos

Identificados los datos perdidos por columnas se procede a eliminarlos de la data a procesar y en consecuencia, de los 51.260 registros se trabajó con 28.937 procesables. Otro factor a destacar dentro de los lineamientos iniciales es que se establece el análisis con el 99% de los datos para disminuir el impacto en el análisis de outliers (observaciones que se encuentran a una distancia anormal de la concetración de valores en una muestra aleatoria de una población).

Datos Procesados

datos no perdidos

Distribución por Tramo

A partir de la siguiente representación que considera el período más reciente (año 2018), podemos establecer que aproximadamente el 50% de los trabajadores pertenece al sector laboral correspondiente a MiPYMES, sin embargo, al comparar las ventas obtenidas por este segmento este representa solo un 15%. En consecuencia, la productividad laboral del sector MiPYMES es sustancialmente inferior a la productividad laboral de la gran empresa.

Distribución por Tramo año 2018

Distribución por Tramo

Conforme a lo anterior, gran parte de la motivación de esta etapa de análisis se enfocará en esclarecer el panorama de la productividad laboral de las MiPYMES.

Análisis de la Productividad Laboral nacional

El siguiente gráfico muestra la distribución de la Productividad Laboral en el período 2005 a 2018:

Distribución Productividad Nacional

Distribución Productividad Laboral nacional

La asimetría positiva de la distribución anterior refleja el hecho que muchos datos de Productividad Laboral están bajo la media nacional, más aún el 50% es menor igual a UF 805.

La siguiente gráfica representa la distribución de productividad laboral para cada segmento de empresas.

Distribución por Tipo Empresa

Productividad por Tipos de Empresas

La representación anterior aclara el panorama MiPYMES dado que todos segmentos que la comprenden están bajo la media de Productividad Laboral nacional de 1202 UF. Los resultados promedios obtenidos (productividad anual por trabajador) son: microempresa UF 609, pequeña empresa UF 701 y mediana empresa UF 873 UF.

Para cada registro, se extrae la cantidad de empresas, ventas y trabajadores, obteniéndose las siguientes distribuciones:

Distribución Series

El hecho de no mostrar la graduación en la dimensión del eje Y, es debido a que esta escala representa la densidad de probabilidad y representa mayor relevancia para el estudio; se persigue más bien observar la forma (curtosis y asimetría) para su inferencia. A continuación, medimos la productividad promedio cada segmento para el período 2005 - 2018 versus, comparada con la productividad promedio nacional durante el mismo intervalo de tiempo.

Productividad laboral por segmento de empresa (2005 - 2018)

La gráfica superior permite acentuar la gran brecha de productividad laboral existente, al comparar a la gran empresa con la microempresa esta último segmento produce en promedio un tercera parte. Por otro lado, la tendencia al alza de la productividad para todos los segmentos ha sido interrumpida entre los años 2016 y 2017. Teniendo este panorama preliminar desde este punto en adelante sólo se estudiarán las observaciones relacionadas a las MiPYMES.

Productividad MiPYMES en Años

El segmento menos productivdo históricamente ha sido el de la microempresas. Recordar que la productividad definida en esta investigación, se genera a partir de dos factores que corresponde a la venta y la cantidad de trabajadores, es decir que para establecer alguna causal de productividad hay que exponer ambos factores.

Para entender como ha ido cambiando la productividad laboral MiPYMES desde 2005 hasta 2018, se presenta tal variación. La siguiente representación gráfica expone los cambios que se producen con respecto al año anterior.

Variación de la Productividad MiPYMES en años

Si se observa bien, la microempresa muestra la mayor diferencia de 2010 al 2011 aproximadamente 57 Uf/Trabajador. Como también, destaca la diferencia aunque negativa de 2017 a 2018 -35 Uf/Trabajador. Para la Pequeña Empresa, destaca el año 2017, como la mayor variación registrada de -63 UF/Trabajador. Y finalmente para la Mediana Empresa, en general este segmento muestra los mayores vaivenes en el transcurso de los años, destacando el año 2006 -47 UF/Trabajador, 2013 con 60 UF/Trabajador y 2017 -50 UF/Trabajador aproximadamente. Señalar que en 2017 todos los segmentos Mipymes hubo una caída importante en las ventas por cada trabajador.

Productividad por Rubro

La siguiente representación se obtiene desde el segundo archivo que contiene la data acerca del segmento y rubro a saber:

Productividad MiPymes vs Rubro

Los rubros menos productivos se relacionan con Administración, Enseñanza y Áreas Recreativas; la siguen áreas asociadas a Agricultura, Alojamiento, Construcción y Otros servicios. En cambio, los rubros con mayor Productividad Laboral, corresponden al Comercio, Finanzas e Inmobiliarias. Para inferir mejor acerca de la Productividad Laboral, se graficará la cantidad de trabajadores y ventas para cada tramo.

Trabajadores MiPymes vs Rubro

El hecho de que en agricultura y construcción haya baja productividad laboral, se debe a la gran cantidad de trajadores en estas áreas, sobre todo para la Pequeña empresa. Al revisar las ventas por rubro en las MiPYMES se obtiene:

Ventas MiPymes vs Rubro

Del gráfico anterior, claramente el Comercio es el rubro con mayores ventas y por lo tanto se relaciona a una mayor productividad en el tramo de las MiPYMES.

Ventas por Rubro y Sexo

Indagando acerca de las ventas en cada uno de los tramos MiPYMES y utilizando la columna sexo (masculino,femenino),se tiene:

Ventas vs Rubro y Sexo

Micro Empresa

Antes de resaltar las diferencias observadas decir que cada unidad presentada en el gráfico corresponde a 10.000.000 de UF. Inmediatamente se advierte la diferencia del sexo femenino en la Micro empresa para el rubro de Enseñanza, cerca de 50 millones UF anual, como también en Comercio, Administración, Salud y Otros Servicios. En tanto el sexo masculino marca diferencia en Agricultura, Transporte, Manufactura y Construcción. A continuación, se preenta el segmento Pequeña Empresa:

Ventas vs Rubro y Sexo

Pequeña Empresa

Las unidades presentadas en este gráfico corresponden a 100.000.000 de UF y destaca la participación de las ventas por parte del sexo masculino asociadas a Construcción cerca de 7 veces esta diferencia, como también en Comercio, Agricultura y Manufactura. Por su parte, el sexo femenino mantiene la diferencia que ocurre en la micro empresa para Enseñanza, Salud y Administración. Finalmente, para la Mediana Empresa:

Ventas vs Rubro y Sexo

Mediana Empresa

Al igual que la pequeña empresa, las unidades del gráfico corresponden a 100.000.0000 de UF. Se advierte una similitud para el sexo masculino y los rubros que se sabian desde la Pequeña Empresa. Como también, persiste la diferencia sustancial en la Enseñanza por parte del sexo femenino y se pierde la tendencia que habia para otras areas

Productividad por Región

Los siguientes diagramas de caja o boxplots representan la distribución intercuartil de la Productividad Laboral a nivel de regiones. Para mayor comprensión se ordenaron de manera creciente a partir de la mediana de los datos.

Productividad MiPYMES vs Región

Desde la perspecitiva de la mediana, las regiones con menor Productividad Laboral corresponden a O'Higgins: 532 UF/Trab, Arica: 595.6 UF/Trab y Valparaíso: 702.35 UF/Trab, y las de mayor Productividad Laboral corresponden a Antofagasta: 960 UF/Trab, Ñuble: 895 UF/Trab y Araucanía: 887 UF/Trab .

Productividad por Género

A partir de las siguientes distribuciones es posible analizar la correlación entre las ventas y productividad con el género de los trabajadores (masculino / femenino) de las MiPYMES.

Productividad - Trabajadores Masculinos - Trabajadoras Femeninas - Ventas

Parece contradictorio que a mayor cantidad de trabajadores masculinos o femeninos hay mayor venta y sin embargo es menor la productividad. Este hecho, resulta evidente desde la definicion de productividad como cociente entre venta y trabajador. Más bien, parece interesante, que las trabajadoras femeninas de la Pequeña igualan a las de Medianas empresas en cuanto a la relación con las ventas. Este hecho en las ventas, tambien ocurre con trabajadores masculinos entre micro y pequeña empresa. Observando a trabajadores masculinos versus ventas, la pequeña empresa es evidente la relación directa entre ambas. La micro empresa, registra una mayor sensibilidad al momento de relacionar ventas con productividad. Finalmente, señalar como aparece en la gráfica que relaciona a mayor cantidad de trabajadores masculinos tambien existe una mayor cantidad de trabajadoras femeninas.

Distribución por Género

Profundizando acerca de la cantidad de trabajadoras femeninas y masculinos en los distintos tramos. Se expresa a través de los siguientes gráficos de violín, que alberga la distribución y densidad de probabilidad en los registros.

Distribución Trabajadoras Femeninas

Distribución Trabajadores Masculinos

Bajo la perspectiva de las MiPYMES hay una mayor cantidad de registros con una menor cantidad trabajadoras femeninas que masculinos para cualquier segmento. En el caso de la micro empresa, prevalece que hay muchos registros con menor cantidad de trabajadoras femeninas respecto de masculino.


Análisis de Correlación

El coeficiente (r) de correlación de Pearson es una medida estadística utilizado para evaluar la relación lineal entre datos emparejados. No es excluyente para variables cualitativas, ya que podemos aplicar una función que permita codificarlas de manera ordinal.

De lo anterior, se agruparon las variables Rubro, Ventas UF, Número de trabajadores, Renta trabajadores (masculino y femenino), y la variable objetivo Productividad.

Matrix Correlación Micro Empresas

En términos generales no existen altas correlaciones negativas, y es posible destacar que una alta correlación positiva entre las variables:

  • Venta UF y Productividad.
  • Venta UF y Número Trabajadores.
  • Venta UF y rubro Comercio.
  • Productividad y rubro Comercio.
  • Renta trab. masculinos y Renta trab. femeninas.
  • Renta trabajadoras femeninas y el rubro de Enseñanza.

 

Matrix Correlación Pequeñas Empresas

Análogamente, para la pequeña empresa, se obtiene una alta correlación entre:

  • Venta UF y Comercio.
  • Número Trabajadores y rubro Agricultura.
  • Número Trabajadores y rubro Construcción.
  • Renta trab. masculinos y Renta trab. femeninas.
  • Productividad y rubro Finanzas.
  • Productividad y rubro Inmobiliarias.

 

Matriz de correlación Medianas Empresas

En cuanto a la mediana empresa, se obtiene alta correlación entre:

  • Venta UF y Comercio.
  • Venta UF y Renta trab. femeninas.
  • Venta UF y Número Trabajadores.
  • Número Trabajadores y rubro Servicios de Apoyo.
  • Renta trab. femeninas y rubro Comercio.
  • Productividad y rubro Finanzas.
  • Productividad y rubro Inmobiliarias.

 


Análisis de Geolocalización

Explicación OBSERVACIONES

Productividad Laboral nacional

Cruzando la data del archivo 1 y el mapa SHP de Chile Regional, se pudo generar el siguiente mapa de calor para la productividad a nivel regional de MiPYMES. Las regiones de mayor productividad están hacia el rojo oscuro.

Productividad MiPymes

Nivel País

Este mapa utilizó el intervalo desde 2005 a 2018 excluyendo a las grandes empresas, cabe descatar que Tarapacá, Antofagasta y RM_Santiago están sobre la media de productividad laboral MiPYMES, que corresponde a 770.9 UF/Trabajador.

Productividad Laboral nacional por segmento

A continuación se mostrará a través de cada uno de los segmento MiPYMES.

Productividad según Segmento MiPYMES

Al respecto:

  • Micro Empresa: Sólo Antofagasta está sobre la media MiPYMES 933 UF/Trabajador
  • Pequeña Empresa: Las regiones de mayor productividad promedio corresponden son RM_Stgo: 822 UF/Trab, Antofagasta:820 UF/Trab y Tarapacá: 795 UF/Trab.
  • Mediana Empresa: Al igual que en la pequeña empresa las regiones RM_Stgo: 964 UF/Trab, Antofagasta:838 UF/Trab y Tarapacá: 1556 UF/Trab; sumandose a esta lista las regiones de Magallanes: 855 UF/Trab y Aisén: 783 UF/Trab.

En efecto, el resto de las Regiones no mencionadas, están bajo la media de productivdad laboral MiPYMES.

Productividad Laboral en el Gran Santiago

Enfocando este análisis hacia el Gran Santiago, se puede observar que:

Productividad MiPYMES

Gran Santiago

Al observar la figura anterior, cuyo intervalo en años que abarca la consulta desde 2005 a 2018, arroja a Lo Barnechea como la comuna con mayor productividad laboral MiPYMES a nivel de region Metropolitana, seguida de Pedro Aguirre Cerda(PAC) y Las Condes.

Para ver en detalle y desprender el nivel de productividad en los 3 segmentos, se separara el Gran Santiago por tramo:

Productividad Micro Empresa

Gran Santiago

La comuna de Lo espejo es la comuna se muestra con la mayor productividad en el tramo de micro Empresa, seguido de Lo Barnechea, Lo Prado y Pedro Aguirre Cerda(PAC), recordar que en lo Espejo se encuentra el terminal pesquero y en Pedro Aguirre Cerda está el Abastecimiento Lo Valledor. Como se observa, los sectores oscuros representan mayor productividad, además se observa una similitud de colores para la productividad laboral de la micro empresa en el Gran Santiago, no obstante, es interesante observar la baja productividad la comuna de Santiago y también providencia. Aunque, una razón de peso es la cantidad sustancial de trabajadores que hay en estas comunas, respecto de las otras y que baja considerablemente la productividad.

Es interesante observar la baja productividad de la micro empresa, en la comuna de Santiago y también providencia. Aunque, una razón de peso es la cantidad sustancial de trabajadores que hay en estas comunas, respecto de las otras y que baja considerablemente la productividad.

Cantidad de Trabajadores por Comuna

Finalmente se presenta la productividad de la Pequeña y Mediana Empresa en el Gran Santiago:

En la pequeña empresa, se destaca la productividad laboral del sector oriente y Pedro Aguirre Cerda. Para la mediana empresa se observa mayor heterogeneidad, destacando las comunas de Lo Barnechea y Pedro Aguirre Cerda. Vale aclarar, que si bien Lo Barnechea destaca en el nivel de productividad, esta comuna no es presente ni como la comuna de mayor ventas ni la cantidad de trabajadores.

Conclusión Featuring Engineering

  • Si bien existen diversos procedimientos de abordar datos, se ideó una estrategia que tratara de abarcar cada una de las columnas del dataset, con foco en la productividad. A su vez, se sabe que la productividad se define en función de ventas y trabajadores, por lo tanto, para cada una de estas componentes se hizó un trabajo similar.
  • Los hallazgos más importantes, confirman la realidad de la microEmpresa, como el sector menos productivo dentro de las MiPYMES, aunque llama la atención a la comuna de Lo Espejo con un nivel de productividad cercano a una pequeña en Las Condes.
  • El alcance y profundización de este featuring se puede situar en haber cruzado por ejemplo Rubros con Región o Comuna y así percatarse de los hallazgos que enmarcan mejores y peores desempeños en la productividad en una localidad, sin embargo, no se tuvo en cuenta una data que provea estos atributos de manera unificada o que al menos permitiera tal concatenación.

Por último, uno de los objetivos de este trabajo siempre ha sido en pro de tener un mejor diagnóstico de la productividad laboral MiPYMES y tener un punto de partida para aplicar algún modelo de Machine Learning que profundice este concepto.


Machine Learning

Machine Learning (ML) se define como el uso de algorítmos y estadísticas computacionales para aprender de los datos. El ascenso en el aprendizaje automático hoy en día ha sido habilitado por la abundancia de datos, un almacenamiento de datos más eficiente y computadoras más rápidas.Dependiendo de lo que esté tratando de lograr, hay muchas maneras diferentes de hacer que una computadora aprenda de los datos. Estas diversas formas se pueden clasificar en dos subsecciones principales del aprendizaje automático: aprendizaje supervisado, aprendizaje no supervisado.

Aprendizaje Supervisado

Este algorítmo toma datos etiquetados y crea un modelo que puede hacer predicciones a partir de datos nuevos. Estos pueden ser un problema de clasificación o un problema de regresión. En un problema de clasificación, puede haber datos de prueba que consisten en fotos de animales, cada uno etiquetado con su nombre correspondiente. El modelo sería entrenado en estos datos de prueba y luego se usaría para clasificar fotos de animales sin etiquetar con el nombre correcto. En un problema de regresión, hay una relación que intenta determinarse entre muchas variables diferentes. Por lo general, esto tiene lugar en forma de datos históricos que se utilizan para predecir cantidades futuras. Un ejemplo de esto sería predecir el precio futuro de una acción en función de los movimientos de precios pasados.

Aprendizaje No Supervisado

Esta técnica se utiliza cuando el modelo de aprendizaje profundo recibe el conjunto de datos sin instrucciones explícitas, es decir, qué hacer con él. Luego, el modelo intenta encontrar automáticamente la estructura en los datos extrayendo las características y analizando la estructura. Puede organizar los datos de varias maneras, como agrupación, detección de anomalías, asociación, codificadores automáticos.

En lo que sigue para esta demo se mostrará un ejemplo de Cluster y Regresión.

El objetivo de esta demostración en Machine Learning, es mejorar la comprensión de los aspectos esenciales que comprenden la productividad MiPYMES. Con ello, el primer acercamiento es agrupar los rubros que tengan características similares de productividad. Por tanto, se aplicará un modelo no supervisado de cluster y luego inferir acerca de que rubros tienen características similares cuando los relacionamos los componentes de ventas y Trabajadores (variables que definen la productividad) de una empresa Mipymes.


Clustering

Inspección de Variables Ventas y Trabajadores

Trabajadores vs Ventas

Identificación de Cluster mediante Elbow Method

Este método relaciona dos parámetros para determinar el número de cluster o agrupaciones a los datos:

  • Distorsión: se calcula como el promedio de las distancias al cuadrado desde los centros de los grupos de los grupos respectivos. Por lo general, se utiliza la métrica de distancia euclidiana.
  • Inercia: es la suma de las distancias al cuadrado de las muestras a su centro de agrupación más cercano. Repetimos los valores de k de 1 a 9 y calculamos los valores de distorsiones para cada valor de k y calculamos la distorsión y la inercia para cada valor de k en el rango dado.

Para determinar el número óptimo de grupos, tenemos que seleccionar el valor de k en el "elbow", es decir, el punto después del cual la distorsión / inercia comienza a disminuir de manera lineal. Por lo tanto, para los datos dados que se gráfica más abajo, se concluye que el número óptimo de grupos para los datos es 4.

Gráfica Elbow Method

N°Cluster encontrados: 4

Silhouette Coefficient

Para confirmar el hallazgo anterior de 4 cluster para la cantidad de agrupaciones que encuentra Kmeans para ventas y cantidad de trabajadores, se aplicará mean Silhouette Coefficient .

Mean Silhouette Coefficient calcula la distancia media dentro del grupo (a) y la distancia media más cercana al grupo (b) para cada muestra.

Para una muestra, se calcula Silhouette Coefficient como:

S=\Large\frac{(b - a)}{max (a, b)}

Para aclarar, b es la distancia entre una muestra y el grupo más cercano del que la muestra no forma parte. Esta función retorna el coeficiente de silueta medio sobre todas las muestras.

El mejor valor es 1 y el peor valor es -1. Los valores cercanos a 0 indican grupos superpuestos.

Los valores negativos generalmente indican que se ha asignado una muestra al grupo incorrecto, ya que un grupo diferente es más similar.

De lo anterior, como el silhoutte score promedio obtenido fue levemente el más alto. Por lo tanto, y a raíz de los dos métodos empleado para tener mayor certeza en las agrupaciones se utilizará el parámetro n_cluster=4. Notar que para n_cluster>2, la agrupación única "verde", su silhoutte score es cero y por lo tanto, no aparece en la gráfica de barra.

Identificación de Rubros en Cluster

Gráfico de Clusters Micro Empresa utilizando Centroides

Obs: Las dimensiones del eje Y, cambian ya que se ha aplicado StandardScaler(), un proceso de normalización que se realiza para que el modelo no le otorgue más importancia a datos que sean mayores o que esten en diferentes unidades de medidas.

Cluster por Rubros

Micro Empresa

Considerando el análisis previo, por ejemplo el conseguido en la matriz de correlaciones, se conocía la alta correlación entre comercio y productividad, como también características comunes entre los rubros de Construcción y Agricultura.

El modelo cluster, considera que el Rubro de comercio no se asemeja a ninguno de sus pares cuando lo relacionamos con venta y trabajadores. Una de las razones es la cantidad de ventas que superan en creces al resto de los rubros(Ver gráfico Ventas vs Rubros).

Pequeña Empresa



Cluster por Rubros

Pequeña Empresa

Se observan diferencias de agrupaciones, respecto de la microEmpresa. Por ejemplo, Enseñanza y Administración cambian de cluster y se mantienen Agricultura y Construcción juntos.


Cluster por Rubros

Mediana Empresa

El rubro servicios de Apoyo, cambia de cluster. Finalmente, señalar que comercio es un área que persiste como un sector que se agrupa similar y diferente de los demás sectores, independiente del tramo de empresa.


Regresión

  • Se ocupará un modelo de regresión que se adapte a la productividad de la micro Empresa, durante el Transcurso de los años. Producto de la acotada y simple data, sólo se aplicará un modelo de Regresión aplicando PolynomialFeatures, y en función de métricas mse,rmse y R2 obtenidas para distintos grados polinomiales, se concluirá con el modelo que mejor se ajusta a los datos de testing.
  • Ocupando train_test_split(test_size = 1/3, random_state = 0)

Productividad en Años



Gráficos de Regresión usando PolynomialFeatures

Aspectos a destacar:

  • R^2<1
    (es negativo) solo cuando el modelo elegido no sigue la tendencia de los datos, por lo que se ajusta peor que una línea horizontal(underfit).
  • Para grados mayores a 3 no se observa mayor diferencia entre métricas y la representación gráfica, esto sin lugar a dudas por la acotada data de training y testing.

Y para grados mayores a tres se corre el riesgo de sobreajuste. Algunas ideas para reducir el sobreajuste:

  • Agregar más datos
  • Usar diferentes modelos para mejorar la generalización
  • Agregar regularización (regularización L1 / L2)

Considerando, las gráficas anteriores, el que entrega mejor desempeño es de polinomio grado 3, cuyo rmse es 12.47, esto recae en una diferencia entre la predicción y la observación real, específicamente como la raíz cuadrada del promedio de las diferencias cuadráticas entre la predicción y la observación real.

RMSE=\sqrt{\frac{1}{n}\displaystyle\sum_{k=1}^n (y_{j}-\hat y_{j})^2}

Para el mejor modelo, y sólo para establecer una referencia, ya que no es una predicción en serie de tiempo, la productividad de la micro empresa para el año 2019 sería de 556.94 ventas por cada trabajador

Por último, señalar que el objetivo de realizar esta regresión era entender la dinámica de la productictidad durante el transcurso de estos 14 años.

¿Qué sigue?

  • Agregar data de años y productividad laboral MiPYMES, como también indagar en data en dd/mm/yy. Y de esta forma, realizar modelos en Serie de Tiempo.
  • Realizar un modelo de regresión polinómica en conjunto a métodos de regularización.
  • Profundizar con los conceptos de underfitting y overfitting
  • Diversas técnicas de minimización de errores en regresión lineal con ejemplos.
  • Modelos de aprendizaje de regresión lineal como descenso de gradiente u OLS.

En el aprendizaje estadístico, uno de los temas más importantes es el ajuste y el sobreajuste. Son importantes porque explican el estado de un modelo en función de su rendimiento. La mejor manera de entender estos términos es verlos como una compensación entre el sesgo y la varianza del modelo. El término sobreajuste se refiere a un modelo que se ajusta muy bien a los datos con los que se entrena, pero los generaliza poco, lo que significa que cuando se enfrentan a valores distintos de los del entrenamiento, se predicen con baja precisión. Por otro lado, la falta de adaptación se refiere al estado opuesto, lo que significa que el modelo no se ajusta bien incluso a los datos con los que se entrena. Finalmente, es importante señalar que existe una variedad de modelos para utilizar desde la librería Sklearn, que pueden ser más complejos, aunque corriendo el riesgo de generar overfit en el regresor.


Conclusión Final

Existían conocimientos previos desde featuring engineering de que rubros eran más o menos productivos, con el primer ejemplo de machine learning el objetivo fue agrupar características similares de acuerdo a ventas y trabajadores. Lo que develó el modelo clustering, es que básicamente hay cuatro formas de agrupación para todos los contituyentes MiPYMES con ligeras variaciones en algunos rubros a la pertenencia dentro de los cluster. Por consiguiente, podemos demostrar que dentro del grupo de las MiPYMES existen 4 niveles de productividad, aunque para uno de los cuatro cluster, el único elemento contenido es el Comercio. Para avalar esta idea de generar subcategorìas y en cuanto a términos tributarios se refiere existe estas divisiones, basándose en el cálculo de las ventas anuales:

Micro Empresa Pequeña Empresa Mediana Empresa
Subtramos:
  • Micro 1:0,01 UF a 200 UF
  • Micro 2:200.01 UF a 600 UF
  • Micro 3:600.01 UF a 2.400 UF
Subtramos:
  • Pequeña 1:2.400,01 UF a 5.000 UF
  • Pequeña 2:5.000,01 UF a 10.000 UF
  • Pequeña 3:10.000,01 UF a 25.000 UF
Subtramos:
  • Mediana 1:25.000,01 UF a 50.000 UF
  • Mediana 2:50.000,01 UF a 100.000 UF

Si mantenemos la línea de este reporte, se puede establecer a partir de las coordenadas de los centroides, que para clasificar en términos de productividad laboral por rubro según el tramo, se obtuvo:

Niveles de Productividad según tramos
  Micro Empresa Pequeña Empresa Mediana Empresa
Productividad 1 218 424 484
Productividad 2 734 582 973
Productividad 3 841 714 1258
Productividad 4 1876 1729 2141

Por otra parte, el mejor ajuste regresional encontrado fue de grado 3, e indicaría que en los siguientes años la productividad laboral al menos de la micro_empresa caería hasta los 556 UF por trabajador. Finalmente, gran parte de este trabajo ha sido evidenciar la realidad de la productividad laboral en las MiPYMES, sector que representa a la mitad de los trabajadores de Chile, sin embargo, con una productividad baja en comparación a la media nacional y sustancialmente menor a la gran empresa. Es de esta forma, que contribuir a tener un mejor diagnóstico de este sector permitiría tomar acciones que a futuro mejoren este aspecto, y en consecuencia buscar mecanismos que ayuden a gran parte de los trabajadores de este país. Como Empresa, vemos que herramientas de análisis y/o predicción pueden otorgar conocimiento nuevo a este importante segmento empresarial.


Referencias