Comprender la reducción de dimensionalidad en modelos de aprendizaje automático

Únase a Transform 2021 del 12 al 16 de julio. Registrarse for el evento de IA del año.


Los algoritmos de aprendizaje automático han ganado fama por ser capaces de extraer información relevante de conjuntos de datos con muchas características, como tablas con docenas de filas e imágenes con millones de píxeles. Gracias a los avances en la computación en la nube, a menudo puede ejecutar grandes modelos de aprendizaje automático sin darse cuenta de cuánta potencia computacional funciona entre bastidores.

Pero cada característica nueva que agrega a su problema aumenta su complejidad, lo que hace que sea más difícil resolverlo con algoritmos de aprendizaje automático. Los científicos de datos utilizan la reducción de dimensionalidad, un conjunto de técnicas que eliminan características excesivas e irrelevantes de sus modelos de aprendizaje automático.

La reducción de la dimensionalidad reduce drásticamente los costos del aprendizaje automático y, a veces, permite resolver problemas complicados con modelos más simples.

La maldición de la dimensionalidad

Los modelos de aprendizaje automático asignan características a resultados. Por ejemplo, di que quieres crea un modelo que predice la cantidad de lluvia en un mes. Tiene un conjunto de datos de información diferente recopilada de diferentes ciudades en meses separados. Los puntos de datos incluyen temperatura, humedad, población de la ciudad, tráfico, número de conciertos realizados en la ciudad, velocidad del viento, dirección del viento, presión del aire, número de boletos de autobús comprados y la cantidad de lluvia. Obviamente, no toda esta información es relevante para la predicción de lluvias.

Es posible que algunas de las funciones no tengan nada que ver con la variable de destino. Evidentemente, la población y la cantidad de boletos de autobús comprados no afectan las precipitaciones. Otras características pueden estar correlacionadas con la variable objetivo, pero no tener una relación causal con ella. Por ejemplo, la cantidad de conciertos al aire libre puede estar correlacionada con el volumen de lluvia, pero no es un buen predictor de lluvia. En otros casos, como la emisión de carbono, puede haber un vínculo entre la característica y la variable objetivo, pero el efecto será insignificante.

En este ejemplo, es evidente qué características son valiosas y cuáles son inútiles. en otros problemas, es posible que las características excesivas no sean obvias y necesiten más análisis de datos.

Pero, ¿por qué molestarse en eliminar las dimensiones adicionales? Cuando tenga demasiadas funciones, también necesitará un modelo más complejo. Un modelo más complejo significa que necesitará muchos más datos de entrenamiento y más potencia de cálculo para entrenar su modelo a un nivel aceptable.

Y desde el aprendizaje automático no comprende la causalidad, los modelos intentan mapear cualquier característica incluida en su conjunto de datos a la variable de destino, incluso si no existe una relación causal. Esto puede dar lugar a modelos imprecisos y erróneos.

Por otro lado, reducir la cantidad de funciones puede hacer que su modelo de aprendizaje automático sea más simple, más eficiente y menos exigente en datos.

Los problemas causados ​​por demasiadas características a menudo se denominan “la maldición de la dimensionalidad” y no se limitan a los datos tabulares. Considere un modelo de aprendizaje automático que clasifica imágenes. Si su conjunto de datos está compuesto por imágenes de 100 × 100 píxeles, entonces su espacio problemático tiene 10,000 características, una por píxel. Sin embargo, incluso en los problemas de clasificación de imágenes, algunas de las características son excesivas y pueden eliminarse.

La reducción de dimensionalidad identifica y elimina las características que están dañando el rendimiento del modelo de aprendizaje automático o que no contribuyen a su precisión. Existen varias técnicas de dimensionalidad, cada una de las cuales es útil para determinadas situaciones.

Selección de características

Un método de reducción de dimensionalidad básico y muy eficiente es identificar y seleccionar un subconjunto de las características que son más relevantes para la variable objetivo. Esta técnica se llama “selección de características”. La selección de funciones es especialmente eficaz cuando se trata de datos tabulares en los que cada columna representa un tipo específico de información.

Al realizar la selección de características, los científicos de datos hacen dos cosas: mantener las características que están altamente correlacionadas con la variable objetivo y contribuir más a la variación del conjunto de datos. Las bibliotecas como Scikit-learn de Python tienen muchas funciones buenas para analizar, visualizar y seleccionar las funciones adecuadas para los modelos de aprendizaje automático.

Por ejemplo, un científico de datos puede usar diagramas de dispersión y mapas de calor para visualizar la covarianza de diferentes características. Si dos características están altamente correlacionadas entre sí, tendrán un efecto similar en la variable de destino y no será necesario incluir ambas en el modelo de aprendizaje automático. Por lo tanto, puede eliminar uno de ellos sin causar un impacto negativo en el rendimiento del modelo.

Mapa de calor

Arriba: Los mapas de calor ilustran la covarianza entre diferentes características. Son una buena guía para encontrar y eliminar características excesivas.

Las mismas herramientas pueden ayudar a visualizar las correlaciones entre las características y la variable de destino. Esto ayuda a eliminar las variables que no afectan al objetivo. Por ejemplo, puede descubrir que de 25 características en su conjunto de datos, siete de ellas representan el 95 por ciento del efecto en la variable objetivo. Esto le permitirá eliminar 18 funciones y simplificar mucho su modelo de aprendizaje automático sin sufrir una penalización significativa en la precisión de su modelo.

Proyecciones técnicas

A veces, no tiene la opción de eliminar funciones individuales. Pero esto no significa que no pueda simplificar su modelo de aprendizaje automático. Las técnicas de proyección, también conocidas como “extracción de características”, simplifican un modelo al comprimir varias características en un espacio de menor dimensión.

Un ejemplo común utilizado para representar técnicas de proyección es el “rollo suizo” (en la foto de abajo), un conjunto de puntos de datos que giran alrededor de un punto focal en tres dimensiones. Este conjunto de datos tiene tres características. El valor de cada punto (la variable objetivo) se mide en función de lo cerca que está a lo largo de la ruta enrevesada hasta el centro del rollo suizo. En la imagen de abajo, los puntos rojos están más cerca del centro y los puntos amarillos están más lejos a lo largo del rollo.

Rollo suizo

En su estado actual, crear un modelo de aprendizaje automático que mapee las características de los puntos de giro suizos a su valor es una tarea difícil y requeriría un modelo complejo con muchos parámetros. Pero con la ayuda de técnicas de reducción de dimensionalidad, los puntos se pueden proyectar a un espacio de menor dimensión que se puede aprender con un modelo simple de aprendizaje automático.

Existen varias técnicas de proyección. En el caso del ejemplo anterior, usamos “incrustación localmente lineal”, un algoritmo que reduce la dimensión del espacio del problema al tiempo que conserva los elementos clave que separan los valores de los puntos de datos. Cuando nuestros datos se procesan con el LLE, el resultado se parece a la siguiente imagen, que es como una versión desenrollada del rollo suizo. Como puede ver, los puntos de cada color permanecen juntos. De hecho, este problema aún se puede simplificar en una sola característica y modelar con regresión lineal, el algoritmo de aprendizaje automático más simple.

Rollo suizo, proyectado

Si bien este ejemplo es hipotético, a menudo enfrentará problemas que pueden simplificarse si proyecta las entidades en un espacio de menor dimensión. Por ejemplo, el “análisis de componentes principales” (PCA), un algoritmo de reducción de dimensionalidad popular, ha encontrado muchas aplicaciones útiles para simplificar los problemas de aprendizaje automático.

En el excelente libro Aprendizaje automático práctico con Python, el científico de datos Aurelien Geron muestra cómo puede usar PCA para reducir el conjunto de datos MNIST de 784 características (28 × 28 píxeles) a 150 características mientras se conserva el 95 por ciento de la varianza. Este nivel de reducción de dimensionalidad tiene un gran impacto en los costos de entrenamiento y carrera. redes neuronales artificiales.

dataset mnist de reducción de dimensionalidad

Hay algunas advertencias a considerar sobre las técnicas de proyección. Una vez que desarrolle una técnica de proyección, debe transformar nuevos puntos de datos en el espacio de dimensión inferior antes de ejecutarlos a través de su modelo de aprendizaje automático. Sin embargo, los costos de este paso de preprocesamiento no son comparables a las ganancias de tener un modelo más liviano. Una segunda consideración es que los puntos de datos transformados no son directamente representativos de sus características originales y transformarlos de nuevo al espacio original puede ser complicado y, en algunos casos, imposible. Esto puede dificultar la interpretar las inferencias hechas por su modelo.

Reducción de dimensionalidad en la caja de herramientas de aprendizaje automático

Teniendo demasiadas funciones hará que su modelo sea ineficiente. Pero cortar y eliminar demasiadas características tampoco ayudará. La reducción de la dimensionalidad es una de las muchas herramientas que los científicos de datos pueden utilizar para crear mejores modelos de aprendizaje automático. Y como con todas las herramientas, deben usarse con precaución y cuidado.

Ben Dickson es ingeniero de software y fundador de TechTalks, un blog que explora las formas en que la tecnología resuelve y crea problemas.

Esta historia apareció originalmente en Bdtechtalks.com. Copyright 2021

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transformar 2021: Aprende más
  • funciones de red y más
Hágase miembro

Source: VentureBeat by feedproxy.google.com.

*The article has been translated based on the content of VentureBeat by feedproxy.google.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!