Aplicaciones de machine learning para la producción de información geoespacial
Aplicaciones de machine learning para la producción de información geoespacial
Por Augusto Van der Ploeg y Martín Fernando Ortiz
A través de los años, la información geoespacial ha ganado gran relevancia para la toma de decisiones en la administración pública. A partir de una mejor comprensión de las dinámicas territoriales, se pueden diseñar políticas públicas que sean efectivas para mejorar la calidad de vida de los habitantes del territorio nacional. En este sentido, el Instituto Geográfico Nacional (IGN), como organismo líder en la producción de información geoespacial de la República Argentina, tiene la responsabilidad de continuar innovando en las metodologías que se aplican a este fin.
La producción de información geoespacial enfrenta desafíos significativos, entre ellos la necesidad de mantener altos estándares de calidad y precisión de los datos, gestionar los tiempos requeridos para su generación y contar con los recursos adecuados para llevar a cabo este proceso. Resulta fundamental reflexionar sobre los objetivos que guían la producción de dicha información, ya que esto orienta la selección de las técnicas y herramientas apropiadas para su consecución. En este sentido, la incorporación de herramientas basadas en inteligencia artificial emerge como una estrategia clave para abordar estos desafíos de manera efectiva.
Machine learning para la producción de información geoespacial
El aprendizaje automático o machine learning es una técnica estadística mediante la cual se generan modelos de datos para identificar patrones de comportamientos y, a partir de estos, realizar predicciones (Romon Jacob, 2022). Las capacidades de estas técnicas combinadas con datos geoespaciales permiten el procesamiento de vastos conjuntos de datos aplicados a diferentes ejes temáticos. La adopción de machine learning no solo se traduce en una mejora sustancial en los tiempos de producción, sino que también permite la automatización de tareas repetitivas. Además, proporciona métricas sobre la exactitud y precisión de los datos espaciales, lo que fortalece la toma de decisiones informada y estratégica.
Machine learning en el IGN
Durante los años 2022 y 2023, el Departamento de Aplicaciones Geoespaciales de la Dirección Nacional de Servicios Geográficos desarrolló una metodología para la clasificación de cobertura de suelo mediante metodologías de machine learning. El objetivo de dicha metodología no solo persiguió la actualización de la información, sino también buscó contar con procesos que permitan la replicabilidad, tanto en el eje espacial como temporal, sin tener que acudir a un trabajo exhaustivo de captura manual a través de imágenes satelitales.
Para esto, se realizó una clasificación supervisada. Las clasificaciones supervisadas son un tipo de aprendizaje automático en el que, a partir de datos muestrales, se entrena un modelo estadístico para realizar predicciones. Dentro de este tipo de clasificaciones existen diferentes algoritmos, como pueden ser la regresión logística, K-Vecinos Cercanos, Random Forest, Redes Neuronales Artificiales, entre otros.
Para este proyecto, el algoritmo utilizado fue Random Forest (RF). RF se basa en una estructura de árboles de decisiones (FIGURA 1). Cada árbol de decisión obtiene un resultado a partir de las diferentes características o atributos del dato de entrada. El resultado mayor veces obtenido, la moda, dará el resultado de la clasificación. Este tipo de modelo tiene la ventaja de ser fácil de interpretar y visualizar. Permite manejar grandes cantidades de datos, puede funcionar como un método de reducción de dimensionalidad y es relativamente robusto ante valores atípicos y al ruido. A su vez, brinda información útil sobre estimaciones internas del error, la fuerza, correlación e importancia de las variables.
FIGURA 1. Representación de cómo funciona el algoritmo de clasificación supervisada Random Forest
Fuente: adaptado de Farkhod Khushaktov (2023).
Para realizar la clasificación de cobertura de suelo, se utilizaron imágenes satelitales SENTINEL-2 MSI con nivel de preprocesamiento 1-C, a excepción de Tierra del Fuego en donde se utilizó el nivel de preprocesamiento 2-A, debido a la alta presencia de nubes en la zona. A su vez, se utilizó el Modelo Digital de Elevación, MDE-Ar v2, provisto por el Instituto Geográfico Nacional.
Para la clasificación, se definieron once tipos de clases en base al catálogo de objetos geográficos del IGN. Las clases fueron:
- Cuerpos de agua
- Nieve
- Bosque, selva
- Estepa arbustiva
- Tierra para cultivo
- Afloramiento rocoso
- Humedal
- Salina
- Médano, duna
- Pastizal
- Monte
También cuenta con dos categorías que fueron agregadas por fuera de la clasificación: planta urbana (IGN) y glaciar (Inventario Nacional de Glaciares).
Cómo se mencionó anteriormente, la utilización de clasificaciones supervisadas requiere de la recolección de muestras para realizar el entrenamiento del modelo y su posterior validación. En este caso, se tomaron las muestras mediante información antecedente (como pueden ser cartas topográficas) y métodos de captura como fotointerpretación de imágenes satelitales. El conjunto de muestras abarcan las once categorías clasificadas y han sido recolectadas a lo largo del territorio nacional¹. El 70% de las muestras recolectadas se utilizó para el entrenamiento del modelo, que consiste en la creación de múltiples árboles de decisión de forma aleatoria sobre un subconjunto de las características disponibles (en nuestro caso, los diferentes indicadores utilizados). Con el 30% de datos restante se realiza la validación del modelo. El objetivo de esto es poder entender la exactitud y precisión del modelo a partir de diferentes índices y métricas. Entre los principales índices utilizados podemos señalar: índice de precisión general, precisión del usuario, precisión del productor e índice de Kappa, matriz de confusión. Esta última muestra la frecuencia de las clasificaciones correctas e incorrectas en relación con los datos reales. La matriz de confusión fue realizada por regiones (Noreste Argentino, Noroeste Argentino, Centro, Cuyo, Patagonia y Atlántica) y los valores oscilaron entre 77% y 97%. El índice de Kappa es una medida de la concordancia entre las clasificaciones predichas por el modelo, teniendo en cuenta la posibilidad de que las clasificaciones ocurran al azar. Los valores oscilaron entre 0,55 y 0,82². Éste índice proporciona una comprensión detallada de los tipos de errores que comete el modelo.
Mapa Nacional de Cobertura de Suelo
El Mapa Nacional de Cobertura de Suelo (FIGURA 2) es el producto generado a partir de esta metodología. Se encuentra publicado en el visor de mapas institucional³ y también disponible como geoservicio WMS. A su vez, desde la web del instituto se puede acceder al documento metodológico como también al código utilizado a través de la plataforma de Google Earth Engine⁴. Esto permite que cualquier usuario o institución tenga acceso a los insumos necesarios para realizar pruebas, estudiar o modificar la metodología y aplicarla en otros contextos o recortes espacio–temporales.
FIGURA 2. Mapa Nacional de Cobertura de Suelo
Fuente: elaboración propia.
Conclusiones
La integración de técnicas de machine learning en la producción de información geoespacial es altamente relevante en el contexto actual, donde los elementos del mundo que representamos cartográficamente están en constante cambio. Esta dinámica demanda una agilidad excepcional para la producción y actualización de datos. Al emplear el machine learning, podemos automatizar procesos, detectar patrones y tendencias lo que nos permite producir nuestros mapas y datos geoespaciales con mayor grado de precisión y actualización ante los rápidos cambios del entorno.
La metodología desarrollada para el Mapa Nacional de Cobertura de Suelo se presenta como un incipiente paso para la investigación y desarrollo de nuevas técnicas de producción de información geoespacial mediante inteligencia artificial. Esta primera experiencia resulta exitosa en tanto se obtuvo una metodología replicable y escalable, así como también un producto relevante para el diseño de políticas públicas y su intervención territorial obteniendo métricas de calidad del dato. El perfeccionamiento, tanto de la metodología como del producto obtenido, requiere de la combinación de mediciones de campo y de la articulación con diferentes organismos. Creemos que este primer paso puede incentivar la aplicación de estas metodologías para obtener otros objetos geográficos y posicionarlas lentamente como alternativas para la actualización de los mismos.
Alentamos a los diferentes actores involucrados en la producción de información geoespacial a la investigación y desarrollo de nuevas metodologías reconociendo sus potencialidades en cuanto a la precisión de los datos obtenidos y a los tiempos requeridos para su producción. A medida que avanzamos hacia un futuro necesariamente más sostenible, la capacidad de utilizar herramientas innovadoras, como el machine learning, se convierte en un activo esencial para afrontar los desafíos globales con determinación y visión.
Notas
Bibliografía
Autores
Augusto Van der Ploeg. Licenciado en Gestión Ambiental. Departamento de Aplicaciones Geoespaciales, Dirección de Información Geoespacial, IGN.
Martín Fernando Ortiz. Licenciado en Geografía. Coordinador del Departamento de Aplicaciones Geoespaciales, Dirección de Información Geoespacial, IGN.