Page 25 - Revista 2021 - 2022
P. 25

Revista de la Facultad de Ingeniería, Año 7, Número 1
            En lo que refiere al procesamiento de imágenes, las redes neuronales convolucionales
            intentan imitar el funcionamiento de la visión y el cerebro humano en lo que refiere a
            la interpretación de las imágenes y el reconocimiento de los elementos que en estas
            se encuentran. Esto quiere decir que, las CNN analizan las imágenes en búsqueda de
            patrones  reconocibles  y  aprendidos  previamente,  o  bien  en  aprender  nuevos
            patrones,  y  basan  su  funcionamiento  en  el  reconocimiento  de  estos  patrones  para
            poder realizar acciones con las imágenes o bien para hacer una clasificación.
            Las primeras redes utilizadas para la detección de objetos en imágenes se basaban
            en  las  redes  neuronales,  este  enfoque  era  suficiente  para  procesar  imágenes  de
            pequeño tamaño, sin embargo, eran sumamente ineficientes para procesar imágenes
            de mayor tamaño. Es aquí donde entran las redes neuronales convolucionales. Una de
            las  principales  ventajas  de  esta  técnica  consiste  en  que  las  imágenes  pueden  ser
            utilizadas  de  forma  directa  sin  mayores  transformaciones  ni  reducción  de  tamaño
            (Parada Torralba, 2021).

            El funcionamiento de las redes CNN y los conceptos que en estas se manejan son la
            base en las que se sustentan otro tipo de redes neuronales como son las redes GAN,
            por lo que una vez que se entiende como es que estas redes funcionan resulta muy
            sencillo  comprender  como  es  el  funcionamiento  del  resto  de  los  tipos  de  redes
            neuronales.
            Redes convolucionales (CNN)

            Las  redes  convolucionales,  también  denominadas  CNN,  son  un  tipo  particular  de
            redes  neuronales  profundas,  cuya  principal  característica  consiste  en  su  habilidad
            para reducir la cantidad de parámetros utilizados por la red sin perder calidad en el
            modelo. La cantidad de capas y la forma en que estás se interconectan y activan es lo
            que se denomina arquitectura de la red neuronal.

            Una  estructura  típica  de  una  red  convolucional  se  puede  dividir  en  tres  fases,  la
            primera fase consiste en una sección de extracción de características, una segunda
            fase consistente en capa densa de clasificación y por último una tercera fase donde
            se  encuentra  la  capa  de  salida.  Dentro  de  la  sección  de  extracción  se  encuentran
            bloques (uno o más de uno) con la siguiente estructura: una “capa convolucional”, la
            operación de activación y, por último, una capa de agrupación (Pooling).
            Es  importante  que  visualicemos  como  se  compone  una  red  neuronal  convolucional
            completa, en la Figura 1se exhibe un diagrama con una arquitectura ejemplo donde
            se pueden identificar las distintas secciones de la arquitectura.

            La  primera  parte  de  la  red  se  compone  de  una  imagen  (o  varias  en  el  caso  del
            entrenamiento) que componen la entrada a la red (input).

            La segunda parte de la red consiste en dos secciones y es donde se realiza todo el
            procesamiento  de  la  imagen  a  través  de  las  múltiples  capas  que  componen  la
            arquitectura. La primera sección es la red convolucional propiamente dicha donde se
            encuentran  las  capas  convolucionales  y  de  pooling  y  donde  se  extraen  las
            características de la imagen para ser evaluadas por las capas siguientes, mientras que
            en la segunda sección se encuentran las capas densas (o redes profundas) y es donde
            se  realiza  la  clasificación  en  base  a  las  características  extraídas  en  las  capas
            convolucionales.

            Por  último,  se  encuentra  la  capa  de  salida  u  output  de  la  red  donde  el  número  de
            neuronas de salida corresponde a la cantidad de clases que el modelo debe clasificar.
            Cada  neurona  devuelve  un  valor  con  la  probabilidad  que  el  objeto  en  la  imagen
            corresponda a la clase que representa la neurona, por lo que la clase con el valor más
            alto será la predicción del modelo.




            24
   20   21   22   23   24   25   26   27   28   29   30