La selección de variables es una técnica de preprocesado comúnmente usada en conjuntos de datos de alta dimensionalidad. Tiene como propósito reducir la dimensión del espacio de variables, eliminar variables irrelevantes o redundantes, mejorar la eficiencia de los algoritmos de aprendizaje e incrementar la interpretabilidad de los modelos construidos.
En este trabajo se introduce una nueva técnica de selección de variables para problemas multiclase. La técnica es una extensión del popular algoritmo RFE, consistente en resolver el problema de clasificación multiclase con una combinación One Vs. All de clasificadores binarios, y seleccionar luego variables en cada uno de los subproblemas creados por el OVA usando RFE.
Usando datos reales de genómica y espectrometría de masa, y varios clasificadores para construir los rankings, se analiza en detalle la performance y estabilidad del nuevo método y se lo compara con el método RFE tradicional.
Institución:
FCEIA (Facultad de Ciencias Exactas, Ingenieria y Agrimensura)