ALGORITHME DBSCAN
6️⃣ minutes de lecture 📗 📗 📗
Classification non supervisée
Je vous présente ici un algorithme de partitionnement de données (clustering) utilisé en data-science : L’algorithme DBSCAN (density-base spacial clustering of applications with noise). Il propose une approche différente de l’algorithme des
Présentation
L’algorithme de DBSCAN ( density-bases spatial clustering of applications with noise) a été introduit en 1996 par Martin Ester, Hans-peter Kriegel, Jorg Sander et Xiaowei Xu et il a été reconnu pour sa contribution scientifique durable en 2014. Cet algorithme de partionnement de données se base sur la densité pour identifier les cluster et éliminer le bruit.
Déroulement de l’algorithme
Il utilise généralement la distance euclidienne comme mesure de dissimilarité et nécessite essentiellement 2 paramètres :
Avec ces paramètres renseignés, l’algorithme part d’un point arbitrairement choisi et évalue tous les points à proximité : S’il y a au minimum
Dans l’image ci-dessus, si
DBSCAN fonction de la manière suivante :
Etape 1️⃣
DBSCAN commence par un point de départ choisi au hasard parmi les points de données qui n’a pas été visité. Le voisinage de ce point est extrait en utilisant une distance
Etape 2️⃣
S’il y a au moins
Etape 3️⃣
Pour ce premier point du nouveau cluster, les points situés dans son voisinage à distance se joignent également au même cluster. Cette procédure est ensuite répétée pour tous les nouveaux points qui viennent d’être ajoutés au groupe de cluster.
Etape 4️⃣
les étapes 2️⃣ et 3️⃣ sont répétées jusqu’à ce que tous les points du cluster soient déterminés, c’est-à-dire que tous les points à proximité du
Etape 5️⃣
Une fois terminé avec le cluster actuel, un nouveau point non visité est récupéré et traité, ce qui permet de découvrir un nouveau cluster ou du bruit. Ce processus se répète jusqu’à ce que tous les points soient marqués comme étant visités. A la fin de tous les points visités, chaque points a été marqué comme appartenant à un cluster ou comme étant du bruit.
Estimations des paramètres
Le choix des paramètres
On définit la fonction (
Par exemple, si l’utilisateur choisit la valeur de
La méthode proposée ici pour déternimer la valeur optimale de
L’ idée est de calculer la moyenne des distances de chaque point par rapport à ses
Le but est de déterminer le « genou1 », qui correspond au paramètre
La valeur Optimale de
Avantages et Inconvénients
L’ algorithme est très simple et ne nécessite pas qu’on lui précise le nombre de clusters à trouver. Il est capable de gérer les données aberrantes en les éliminant du processus de partitionnement. Les clusters n’ont pas pour obligation d’être linéairement séparables (tout comme pour l’algorithme des
Illustration
CODES2 R
Cliquez ici !!!
👇👇 👇👇
DBSCAN
APPLICATION RSHINY
3
Cliquez ici !!!
👇👇 👇👇
BIBLIOGRAPHIE
1- Guillaume, Cleuziou, Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information . Université d’Or- léans, 2004. Français. fftel-00084828
2- Lebarbier, T. Mary-Huard, Classification non supervisée
3- Ricco RAKOTOMALALA, Algorithmes des K-medoides, Université de lyon 2
4- AIME NDJENG, Implémentation sur R: Algorithme de pam, Dbscan et Hdbscan, Euria, brest
5- https://datascientest.com/machine-learning-clustering-dbscan
6- https://openclassrooms.com/fr/courses/4379436-explorez-vos-donnees-avec-des-algorithmes-non-
supervises/4379571-partitionnez-vos-donnees-avec-dbscan
7- https://miro.medium.com/v2/resize:fit:1000/1*
yDUZAvQb39vrf9apjrRU5A.gif
https://khayyam.developpez.com/articles/data-science/clustering/dbscan/