Page 2 - Aprendizaje No Supervisado
P. 2
Laboraatorio Innteligenncia Arttificial ee
Interneet de lass Cosass
d donde se ccomienza coon todos llos T Técnica n no lineal:: t-Distribbuted
elementos en un único cluuster y se diviide Sttochastic Neeighbor Emmbedding (t-SSNE)
en cluster máss pequeños. t-SSNE, acrónimmo de t-Disttributed Stocchastic
N Neighbor Embbedding, es ootra técnica ppara la
Agruupamiento DDBSCAN reeducción dee dimensioonalidad quue se
El aggrupamiento DBSCAN (Density-Bassed diiferencia PCAA en que t-SNNE no se cenntraliza
Spatiaal Clustering of Applicatiin with Noisse), enn la linealiddad, sino qque se centra en
comoo su nombbre lo inddica basa su prreservar la siimilitud entree pares de ppuntos
funcioonamiento enn la densidadd de puntos. Es dee datos, funciionando muyy bien con daatos de
particcularmente úútil en conjuuntos de dattos alta dimensionnalidad y estruucturas compplejas.
que ccontienen diistribuciones no lineales y Esta técnicaa en paarticular peermite
ruido. Al igual quue el jerárquiico no requieere transformar datos de múltiples dimensiones
conoccer el númeero de gruppos ya que el enn datos dee dos o tres dimensiones
algoriitmo identifiica las zonass densas y las reeduciendo su dimensionaliidad.
expanndirá según seea necesario.
D Detección dde anomalíías: basadoos en
A differencia de loos agrupamienntos anteriorres, diistancia, dennsidad e Isoolation Foresst
donde los métoddos basados en K-means o Laa detección de anomalíías es una dde las
jerárqquico son buuenos enconntrando gruppos applicaciones dde aprendizajje no supervvisado
con fformas conveexas o esfériicas, DBSCAAN m más comunees. Este allgoritmo peermite
puedee encontrar ggrupos de forrma arbitrariaa y deetectar aquelllos elementoss que son disstintos
comppleja. al resto, desdde el puntoo de vista de la
esstadística poodríamos deecir que son los
Reduucción de dimensionaliddad ouutliers.
Los algoritmos dde aprendizaaje automátiico
proceesan grandes volúmenes dde datos y con Existen dos mmétodos parra la deteccióón de
una ggran cantidadd de variabless. Trabajar con annomalías, bassados en distaancia o basaddos en
tanta informaciónn es una tareaa compleja ppor deensidad. El método bassado en disstancia
lo que poderr realizar una bueena coonsiste en mmedir la diistancia entrre los
simpllificación sin perder inforrmación es uuna puuntos y a aquuellos puntos que se encueentran
tarea clave. m muy distantess del resto se los connsidera
annomalías. El método baasado en dennsidad
Es enn este punto ddonde entrann los algoritmmos poor otro lado, determina quue un punto ees una
de reeducción dee dimensionnalidad que se annomalía si sse encuentraa ubicado enn una
divideen en dos ttipos: linealees (PCA) y no reegión de baja densidad.
lineales (t-SNE, MMDS, Isomap entre otros).. A
continnuación, see presenta una breeve Bibliografía
expliccación de PCA y t-SNE. G Géron, A. (20119). Aprendee Machine Leaarning
coon Scikit-Leearn, Kerass y TensorrFlow.
Técnnica lineal: AAnálisis de componentess Conceptos, hherramientas y técnicas para
princcipales (PCAA) coonseguir sisteemas inteligenntes. O’Reillyy.
Es una técniica de r reducción de M Mirjalili, V., Raschka, SS. (2019). PPython
dimennsionalidad qque permite identificar las
caractterísticas mmás importaantes que se M Machine Learnning. Aprenddizaje automáático y
encueentran preesentes en los dattos apprendizaje pprofundo con Python, scikit-
minimmizando la perdida dee información learn y TensorrFlow. Marcoombo.
relevaante. V Van Der Poost, H. y SSmith, M. ((2023).
U Unsupervised Machine Learning: with
La téccnica de PCAA funciona mmejor con dattos Pyython. Reactiive Publishing.
lineales identificcando los componenttes W Wohlenberg, J. (2021, junioo 21). 3 versioons of
subyaacentes y su funcionamieento se basa en k--Means. Mediium.
manteener grandes distancias por pares de htttps://towarddsdatasciencee.com/three-
datos para maximiizar la varianzza. veersions-of-k-mmeans-cf939bb65f4ea