Page 25 - Revista 2021 - 2022
P. 25
Revista de la Facultad de Ingeniería, Año 7, Número 1
En lo que refiere al procesamiento de imágenes, las redes neuronales convolucionales
intentan imitar el funcionamiento de la visión y el cerebro humano en lo que refiere a
la interpretación de las imágenes y el reconocimiento de los elementos que en estas
se encuentran. Esto quiere decir que, las CNN analizan las imágenes en búsqueda de
patrones reconocibles y aprendidos previamente, o bien en aprender nuevos
patrones, y basan su funcionamiento en el reconocimiento de estos patrones para
poder realizar acciones con las imágenes o bien para hacer una clasificación.
Las primeras redes utilizadas para la detección de objetos en imágenes se basaban
en las redes neuronales, este enfoque era suficiente para procesar imágenes de
pequeño tamaño, sin embargo, eran sumamente ineficientes para procesar imágenes
de mayor tamaño. Es aquí donde entran las redes neuronales convolucionales. Una de
las principales ventajas de esta técnica consiste en que las imágenes pueden ser
utilizadas de forma directa sin mayores transformaciones ni reducción de tamaño
(Parada Torralba, 2021).
El funcionamiento de las redes CNN y los conceptos que en estas se manejan son la
base en las que se sustentan otro tipo de redes neuronales como son las redes GAN,
por lo que una vez que se entiende como es que estas redes funcionan resulta muy
sencillo comprender como es el funcionamiento del resto de los tipos de redes
neuronales.
Redes convolucionales (CNN)
Las redes convolucionales, también denominadas CNN, son un tipo particular de
redes neuronales profundas, cuya principal característica consiste en su habilidad
para reducir la cantidad de parámetros utilizados por la red sin perder calidad en el
modelo. La cantidad de capas y la forma en que estás se interconectan y activan es lo
que se denomina arquitectura de la red neuronal.
Una estructura típica de una red convolucional se puede dividir en tres fases, la
primera fase consiste en una sección de extracción de características, una segunda
fase consistente en capa densa de clasificación y por último una tercera fase donde
se encuentra la capa de salida. Dentro de la sección de extracción se encuentran
bloques (uno o más de uno) con la siguiente estructura: una “capa convolucional”, la
operación de activación y, por último, una capa de agrupación (Pooling).
Es importante que visualicemos como se compone una red neuronal convolucional
completa, en la Figura 1se exhibe un diagrama con una arquitectura ejemplo donde
se pueden identificar las distintas secciones de la arquitectura.
La primera parte de la red se compone de una imagen (o varias en el caso del
entrenamiento) que componen la entrada a la red (input).
La segunda parte de la red consiste en dos secciones y es donde se realiza todo el
procesamiento de la imagen a través de las múltiples capas que componen la
arquitectura. La primera sección es la red convolucional propiamente dicha donde se
encuentran las capas convolucionales y de pooling y donde se extraen las
características de la imagen para ser evaluadas por las capas siguientes, mientras que
en la segunda sección se encuentran las capas densas (o redes profundas) y es donde
se realiza la clasificación en base a las características extraídas en las capas
convolucionales.
Por último, se encuentra la capa de salida u output de la red donde el número de
neuronas de salida corresponde a la cantidad de clases que el modelo debe clasificar.
Cada neurona devuelve un valor con la probabilidad que el objeto en la imagen
corresponda a la clase que representa la neurona, por lo que la clase con el valor más
alto será la predicción del modelo.
24