Les méthodes de classification
APPRENTISSAGGE AUTOMATIQUE SUPERVISE
L’apprentissage automatique est une branche de l’intelligence artificielle qui est intéressé à concevoir et à développer des algorithmes et des techniques pour permettre aux ordinateurs de posséder la fonctionnalité «apprentissage». En général, il y a deux niveaux d’apprentissage: inductive et déductive. Or, la tâche principale pour l’apprentissage automatique est d’extraire une valeur à partir d’informations de données. Par conséquent, elle rapproche de l’exploration de données (data mining) et de la théorie statistique et informatique.Dans ce chapitre, nous allons décrire l’apprentissage automatique supervisé par classification. Nous commencerons par définir l’apprentissage et la classification. Nous verrons ensuite comment atteindre la procédure de classification et enfin nous expliquerons également comment prédire cette procédure.
Etat de l’art
L’apprentissage est un ensemble de mécanismes menant à l’acquisition ou la modification d’une aptitude (connaissance, attitude, représentation, automatisme) lié à une intervention environnementale. Biologiquement, l’apprentissage est un résultat de modifications de l’intensité de couplage entre les neurones, ces modifications essentielles font de chacun de nous un individu unique. L’intelligence artificielle nomme apprentissage automatique la production à l’aide d’une machine, des comportements qualifiés d’intelligent et inspirés de l’être vivant. Lorsque l’apprentissage automatique est appliqué à des problèmes de classification et de décision, il s’agit d’apprendre à différencier, en faisons plusieurs tests sur des données de cet environnement par l’observation. On peut regrouper les types d’apprentissage en trois catégories: apprentissage supervisé et apprentissage non supervisé et apprentissage semiapprentissage. Notre mémoire se repose sur l’apprentissage supervisé. L’apprentissage supervisé est appelé aussi apprentissage prédictif, dans ce type d’apprentissage l’algorithme construit une fonction f qui permet d’approximer les valeurs de sorties Y à partir d’une base de donnée contenant des exemples. Il tombe sous ce type d’apprentissage des sous-types définis selon la puissance requise du système d’apprentissage automatique, les plus importants de ces sous-types:La classification: est le type le plus couramment utilisé dans l’apprentissage automatique. Dans ce type la base de données est classée en deux branches ou plus. Le but de processus d’apprentissage est de produire un modèle capable de classifier tout nouveau exemple à un ou plusieurs des branches précédemment définis. La régression: Ce type est similaire à la classification, cependant il produit des valeurs continues au lieu des classes distinctes. Il existe de nombreuses applications pour ce type par exemple prédire la température à l’intérieur d’un bâtiment, selon la météo et l’heure et les capteurs existants.
La classification supervisé
Classer un ensemble d’objets, c’est attribué à chacun une classe ou une « catégorie». Cette tâche est appelée «classification». Un algorithme qui réalise automatiquement une classification est appelé classifieur.Les statisticiens appellent aussi « classification » la tâche qui consiste à regrouper des données qui se ressemblent dans des classes qui ne sont pas définies à l’avance c’est à dire d’assimiler les classes auxquelles appartiennent des objets à partir de certains traits descriptifs. Le concept de classification est strictement lié à la notion de partition d’un ensemble fini. Il s’applique à un grand nombre d’activités humaines et convienne en particulier au problème de la prise de décision automatisée. Il s’agira, par exemple, d’établir un diagnostic médical à partir de la description clinique d’un patient. Le système d’apprentissage extraire la procédure de classification automatiquement à partir d’un ensemble d’exemples. Chaque exemple consiste à la description d’un cas avec la classification correspondante. Par exemple, si on dispose d’un historique des prêts accordés avec, pour chaque prêt, la situation personnelle du demandeur et le résultat du prêt, au vu de la situation personnelle d’un client, devra décider de l’attribution du prêt. Il s’agit donc d’induire une procédure de classification générale à partir d’exemples. En effet la classification supervisée est basé sur l’extraction d’une règle de descriptions à l’intérieur des classes et les procédures de classification seront construites à l’aide d’hypothèses probabilistes.
L’approche de classification
Comme nous avons cité auparavant l’approche de classification se repose sur l’extraction de la procédure de classification à partir d’un ensemble d’exemples. Pour bien comprendre cet approche on va traiter l’exemple de diagnostic médical dont le but est être capable d’associer le nom d’une maladie à un certain nombre de symptômes présentés par des malades avec les malades forment la population, les symptômes sont les des descriptions des malades et les maladies sont les classes. On suppose qu’il y a une application qui associe à tout malade une maladie. Pour formaliser notre exemple, nous utiliserons les notations suivantes : – : la population – D : l’ensemble des descriptions – K = {1, . . ., c} l’ensemble des classes – X : D : la fonction qui associe une description à chaque élément de la population – Y : {1,…, c}: fonction de classement qui associe une classe à tout élément de la population. -Une fonction C: D {1,…, c} est appelée fonction de classement ou procédure de classification.Le but de l’apprentissage est de rechercher une procédure de classification C telle que CX soit une bonne approximation de Y.
L’approximation de la fonction de classement Y
On suppose l’existence d’une distribution de probabilité sur l’ensemble (la population est probabilisé) et on dit que CX est une bonne approximation de Y s’il est peu probable que ces deux fonctions diffèrent. Nous supposerons également, pour simplifier la présentation, que l’ensemble D est discret. Soit P la probabilité définie sur la population . On peut alors définir les probabilités et les notations suivantes : – P(d) : la probabilité qu’un élément de ait d pour description. – P(k) : la probabilité qu’un élément de soit de classe k. – P(d/k) : la probabilité qu’un élément de classe k ait d pour description. Cette probabilité n’est définie que si la probabilité pour un élément de d’être de classe k est non nulle. – P(k/d) : la probabilité qu’un élément ayant d pour description soit de classe k. Cette probabilité n’est définie que si la probabilité pour un élément de d’avoir d pour description est non nulle.
Guide du mémoire de fin d’études avec la catégorie Classfication des facteurs de risque du cancer du sein au Maroc |
Étudiant en université, dans une école supérieur ou d’ingénieur, et que vous cherchez des ressources pédagogiques entièrement gratuites, il est jamais trop tard pour commencer à apprendre et consulter une liste des projets proposées cette année, vous trouverez ici des centaines de rapports pfe spécialement conçu pour vous aider à rédiger votre rapport de stage, vous prouvez les télécharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de télécharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres étudiants dans leurs propres travaux, est classé dans la catégorie Algorithme de CART où vous pouvez trouver aussi quelques autres mémoires de fin d’études similaires.
|
Table des matières
Introduction générale
Chapitre 1 : Apprentissage automatique supervisé
1.Etat de l’art
2. La classification supervisé
2.1. L’approche de classification
2.2. L‘approximation de la fonction de classement Y
2.3. Le choix de la fonction C
2.3.1. Règle de la classe majoritaire
2.3.2. Règle de maximum de vraisemblance
2.3.3. Règle de Bayes
2.3.4. Comparaison des régles
Chapitre 2 : Les méthodes de classification
1.Le classifieur naif de bayes
1.1. Rappels sur les probabilités
1.2.La construction du classifieur naif de bayes
2.Les arbres de décision
2.1.Les types de données
2.2. Définition
2.3.Construction d’un arbre de décision
2.4. Elagage
2.5.Algorithme de CART
2.6. Les critéres d’arrêts
Chapitre 3 : Classfication des facteurs de risque du cancer du sein au Maroc
1.Description de la base des données
2. Classification par un classifieur naif de bayes
3.Classification par arbre de décision
3.1.Construction d’arbre de décision manuellement
3.2.Construction de l’arbre de décision avec R
4.Comparaison des résultats
Conclusion
Bibliographie
Télécharger le rapport complet