Data Analysis & Data Mining

Data Analysis & Data Mining

Turn your Data into insight

Datasets for Data Mining

Posted by Fateh BEKIOUA on janvier 11th, 2012

Pour ceux qui cherchent des jeux de données pour s’entrainer a appliquer les techniques de data mining je vous propose cette liste tiré spécialement du fameux portail Kdnuggets.Com

Data repositories

Université d’EDUNBERGH

http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html

Posted in Data Mining | 3 Commentaires »

Résumé des Résultats de la quatrième enquête Mondiale sur les pratiques du Data mining

Posted by Fateh BEKIOUA on mai 8th, 2011

Cette enquête a été réalisée par le bureau de consulting Rexer Analytic

Questions et participants:  l’enquête a abordé 50-points sur les pratiques du Data Mining dans cette quatrième édition conduite en ligne début de l’année 2010, ou 735 participants de 60 pays ont pris part.

Domaines& objectifs: Les Data Miners travaillent dans divers secteurs et domaines.  Le CRM / Marketing a été le premier domaine d’application du Data Mining dans les 4 éditions passé de cette enquête.  Précisément, «améliorer la compréhension des clients”, “fidéliser les clients” et d’autres objectifs CRM sont les objectifs identifiés par les Data mineurs questionnés.
• ALGORITHMES: Les arbres de décision, régression, et l’analyse typologique  continuent de  former une triade d’algorithmes de base pour les data miners. Toutefois, une grande variété d’algorithmes est utilisée. Cette année, pour la première fois, l’enquête portait sur les modèles d’Ensemble, et 22% des Data Miners questionnés ont répondu qu’ils les utilisent.
Un tiers des Data Miners utilisent actuellement le Texte Mining et un autre tiers prévoit de l’utiliser à l’avenir.

• MODELS:   Environ un tiers des Data Miners   construisent généralement des modèles final avec 10  variables ou moins, tandis qu’environ 28% construisent des modèles avec plus de 45 variables.

OUTILS: Après une hausse soutenue tout au long des dernières années, le logiciel d’analyse de données open source R a dépassé d’autres outils pour devenir l’outil utilisé par le plus de Data Miners (43%) que les autres. STATISTICA, qui a également monté dans le classement, est choisi comme l’outil primaires par les data miners (18%).  Les Data Miners rapportent qu’ils utilisent en moyenne environ 4 logiciels différents pour leurs projets. STATISTICA, PASW Modeler, et R ont reçu la notation de satisfaction la plus forte en 2010 et en 2009.

• TECHNOLOGIE: Le data Mining est  le plus souvent produit sur PC ou Laptop, et souvent les données sont stockées localement. L’application des modèles de scoring se produit généralement en utilisant le même logiciel utilisé pour développer ces modèles.  Les utilisateurs de STATISTICA sont plus susceptibles que les utilisateurs d’autres outils pour déployer des modèles utilisant le PMML.

ENJEUX : Comme les années précédentes, la qualité  ainsi que l’accès difficile aux données sont les principaux défis pour les Data Miners.

L’AVENIR: les Data Miners sont optimistes quant à la croissance continue du nombre de projets qu’ils mèneront, et la croissance dans l’adoption des techniques de Data Mining par les entreprises.  Seulement 13% des Data Miners jugent la capacité d’analyse de leur entreprise comme étant «excellente» et seulement 8% la juge comme étant «très performante»

Posted in Data Mining | Réagir »

Processus d’une étude Data Mining (CRISP-DM)

Posted by Fateh BEKIOUA on avril 17th, 2011

CRISP-DM a été conçu fin 1996 par trois «vétérans» des données du jeune et immature marché  du Data Mining. DaimlerChrysler (Daimler-Benz) était déjà connu avant la plupart des organisations industrielles et commerciales par l’application de la fouille de données dans ses opérations commerciales.  SPSS (ISL) faisait de la prestation de services basée sur l’exploration et la fouille de données depuis 1990et a lancé le premier logiciel commerciale de Data Mining “Clementine” en 1994.
NCR, dans le cadre de son objectif d’offrir une valeur ajoutée à ses clients qui ont opté pour l’entrepôt de données Teradata, avait mis en place des équipes de consultants en Data Mining pour faire face aux exigences de ses clients.

 CRISP-DM n’a pas été construit dans un cadre théorique, de manière académique, ni par un comités d’élite des gourous derrière des portes fermés. Ces deux approches pour l’élaboration de méthodes ont été essayées dans le passé, mais ont rarement conduit à des normes pratiques, avec un succès largement adopté.

 CRISP-DM a réussit parce qu’elle est solidement fondée sur l’expérience pratique, le monde réel de la façon dont les spécialistes gèrent des projets de Data Mining.

 

 Le modèle de référence CRISP-DM
Le modèle de référence de Data Mining donne un aperçu du cycle de vie d’un projet Data Mining. Il contient les phases d’un projet, leurs tâches respectives et les relations entre ces tâches. A ce niveau de description, il n’est pas possible d’identifier toutes les relations.

 

 Le cycle de vie d’un projet de Data Mining  se compose de six phases. La figure suivante montre les phases d’un processus CRISP-DM.  La séquence des phases n’est pas rigide, un va et vient entre les différentes phases est toujours nécessaire, il dépend de l’issue de chaque phase.

CRISP-DM
Le cercle extérieur à la figure symbolise la nature cyclique des données elles-mêmes. L’étude Data Mining n’est pas terminée une fois qu’une solution est déployée, Les leçons apprises au cours du processus et la solution déployée peut déclencher de nouvelles, souvent à davantage de questions ciblées. La suite des processus data mining bénéficieront de l’expérience de précédents.

Dans ce qui suit, nous décrivons brièvement chaque phase:

1 : Compréhension du métier
Cette phase consiste à :
·  Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.
·  Traduire ces objectifs et ces contraintes en un problème de data mining.
·  Préparer une stratégie initiale pour atteindre ces objectifs.

2 : Compréhension des données
Cette phase consiste à :
·  Recueillir les données.
·  Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.
·  Évaluer la qualité des données.
·  Éventuellement, sélectionner des sous-ensembles intéressants.

3 : Préparation des données
Cette phase consiste à :
·  Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé our toutes les phases suivantes.
·  Sélectionner les cas et les variables à analyser.
·  Réaliser si nécessaire les transformations de certaines données.
·  Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.

4 : Modélisation
Cette phase consiste à :
·  Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème).
·  Calibrer les paramètres des techniques de modélisation choisies pour optimiser les résultats.
·  Éventuellement revoir la préparation des données pour l’adapter aux techniques utilisées.

5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
·  Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus.
·  Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier.
·  Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données.

6 : Déploiement des résultats obtenus
Cette phase est externe à l’analyse du data mining. Elle concerne le maître d’ouvrage.
Cette phase consiste à :
·  Prendre les décisions en conséquences des résultats de l’étude de data mining
·  Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en oeuvre.

Posted in Data Mining | Réagir »

Informatique décisionnelle vs Informatique de production

Posted by Fateh BEKIOUA on novembre 23rd, 2010

La production :

Le modèle Entité-Association (EA) est l’un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d’information, il permet de conserver la cohérence de la base de données. Les systèmes transactionnels (temps réel) OLTP (On Line Transaction Processing) garantissent l’intégrité des données, ils permettent de réduire le temps des opérations d’ajout, de suppression ou de modification. Cependant dans une situation réelle, le modèle des données est très large et contient plusieurs dizaines d’entités. Les bases sont alors constituées de nombreuses tables, reliées entre elles par divers liens dont le sens n’est pas toujours explicite. La complexité des données, l’absence d’annuaire claire rend la base inutilisable aux non initiés sans l’intervention d’informaticiens et d’outils sur mesure, ’intervention des utilisateurs est donc guidée à travers des outils spécifiques proposés par une équipe de développeurs. La dernière caractéristique de ces bases de données est qu’elles conservent l’état instantané du système. Dans la plupart des cas, l’évolution n’est pas conservée. On conserve simplement des versions instantanées pour la reprise en cas de panne et pour des raisons légales.

Le décisionnel :

Dans un système décisionnelle, l’utilisateur final formulera des questions de type :

·         Comment se comporte le produit X par rapport au produit Y ?

·         Et par rapport à l’année dernière ?

·         Quel type de client peut bien acheter mon produit Z ?

Ces exemples permettent de mettre en évidence les faits suivants :

·         Les questions doivent pouvoir être formulées dans le langage de l’utilisateur en fonction de son métier, c’est-à-dire de son secteur d’activité (Marketing, Finance, Logistique,…….)

·         La prévision des interrogations est difficile car elles sont du ressort de l’utilisateur. De plus, ses questions vont varier selon les réponses obtenus : si le produit X s’est vendu moins bien que l’année précédente, il va être utile d’en comprendre les raisons et donc de détailler les ventes du produit X(par région, par type de magasin,……..)

·         Des questions ouvertes (profil du client du produit Z) vont nécessiter la mise en place de méthodes d’extraction d’information (Datamining).

   Ce qui caractérise d’abord les besoins c’est donc la possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tableaux de bord et d’autres imprévisibles. Si des outils d’édition automatiques préprogrammés peuvent être nvisagés, il est nécessaire de permettre à l’utilisateur d’effectuer les requêtes qu’il souhaite, par lui-même sans intervention de programmeurs. Deux contraintes apparaissent alors mmédiatement : la simplicité du modèle des données, la performance malgré les grands volumes.

   Pour les entrepôts de données (Datawarehouse), on recherche plus de lisibilité, de simplicité que dans le cas des bases de données relationnelle. La modélisation introduit la notion de fait et dimension. Les faits correspondent à l’activité chiffrée de l’entreprise : les ventes, le chiffre d’affaires, le nbr de visites pour un site web, les communication pour un opérateur télécom, ect……… Les dimensions sont les critères sur lesquels on souhaite évaluer, quantifier, qualifier les faits : les dimensions usuelles sont le temps, le client, le magasin, la région, le produit…………

   Dans les exemples de requêtes citées au début de ce paragraphe, les faits et les dimensions apparaissent :

·         Les ventes en fait.

·         Les produits, les clients, le temps, le lieu en dimensions.

Il sera souvent nécessaire de filtrer, d’agréger, de compter, sommer et de réaliser quelques statistiques élémentaires (moyenne, écart-type,…..). La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, on est amené à introduire de la redondance dans les informations stockées en mémorisant des calculs ntermédiaires (dans l’exemple, on peut être amené à stocker toutes les sommes de ventes par produit ou par année). On rompe donc avec le principe de non redondance des bases de production.

   Le Datawarehouse assure donc plutôt une cohérence globale des données. Pour cette raison, leur alimentation sera un acte réfléchi et planifié dans le temps. Un grand nombre d’information sera importé du système transactionnel lorsqu’on aura la garantie que toutes les données nécessaires auront été produites et mémorisées. Les transferts de données du système opérationnel vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l’activité de l’entreprise. Chaque transfert sera contrôlé avant d’être diffusé.

   Une dernière caractéristique importante des Datawarehouse, qui est aussi une différence fondamentale avec les bases de production, est qu’aucune information n’y est jamais modifiée. En effet, on mémorise toutes les données sur une période donnée et terminée, il n’y aura donc jamais à remettre en cause des données car toutes les vérifications utiles auront été faite lors de l’alimentation. L’utilisation se résume donc à un changement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.

Posted in Data Mining | Réagir »

Les techniques du data mining

Posted by Fateh BEKIOUA on octobre 13th, 2010

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l’analysede données et de l’informatique pour explorer les données.

Rappels de vocabulaire : concept, donnée, variable, type, modèleOn travaille sur des tableaux de données.·  Le nom du tableau, c’est « ce dont on parle », c’est-à-dire le « concept » dont on parle.C’est une abstraction. Par exemple, un tableau de clients, de malades, etc.Rappelons qu’un concept (ou notion, ou idée) est une représentation mentale générale etabstraite d’un objet. Le concept est le résultat de l’opération de l’esprit qui fait qu’on place tel objet dans telle catégorie et non dans telle autre.

·  Chaque colonne du tableau a un nom qui est un attribut du concept. On parle aussi de « propriété » ou de « champ ». Le nom de la colonne est une abstraction (un concept).Pour un objet concret, la colonne a une valeur particulière qui est la valeur particulière de l’attribut pour l’objet concret.

En data mining (et en statistique), les attributs des objets sont appelés : « variables ».·  Chaque ligne du tableau est un élément du tableau, c’est-à-dire un objet concret correspondant au concept abstrait dont on parle.En data mining, un objet concret est appelé : « individu ».En data mining, la valeur d’un attribut pour un individu est appelé : « donnée ».En data mining, l’ensemble des individus est appelé : « population ». Un tableau de données est une population.

·  Un sous-ensemble de valeurs pour un ou plusieurs attributs donnés peut être appelé :« type », « classe », « catégorie » , « segment » ou encore « modalité »Par exemple, « grand » et « petit » sont deux types (ou classe, ou catégorie, ou segment)de l’attribut « taille ».

·  On parle de « variable catégorielle » par opposition aux « variables numériques ». Parexemple, si la variable (attribut) « taille » peut prendre deux valeurs possibles : « grand » et   « petit », c’est une variable catégorielle. Si les valeurs de la variable « taille » sont données en cm, c’est une variable numérique.

·  Quand on fait de la prévision, on travaille sur une variable particulière appelée :« variable cible » et sur un ensemble d’autres variables utiles pour la prédiction appelées : « prédicteurs ».Le principe général de la prédiction sera : si le ou les prédicteurs valent tant, alors la variable cible vaut tant. ·  Les statisticiens et les data miners construisent des modèles. Un modèle est un résumé global des relations entre variables permettant de comprendre des phénomènes (description, jugement) et d’émettre des prévisions (prédiction, raisonnement).  « Tous les models sont faux, cependant certains sont utile » George E.P Box (Robustness in the strategy of scientific model building » On distingue d’abord entre deux grandes catégories de techniques : les techniques descriptives et les techniques prédictives.Les techniques descriptives (archétype : la classification)·  Décrire.·  Résumer, synthétiser, réduire, classer.·  Mettre en évidence des informations présentes mais cachées par le volume des données.·  Pas de variable cible à prédire.·  On les appelle aussi : technique non supervisées.·  Elles produisent des modèles de classement : typologie, méta-typologie. Les techniques prédictives (archétype : le scoring)·  Prédire.·  Extrapoler de nouvelles informations à partir des informations présentes.·  Les techniques prédictives présentent une variable cible à prédire.·  L’objectif est de prévoir la variable cible mais aussi de classer à partir de la variable cible.·  On les appelle aussi : techniques supervisées.·  Elles sont plus délicates à mettre en oeuvre que les techniques descriptives.·  Elles demandent plus d’historique que les techniques descriptives.·  Elles produisent des modèles de prédiction. 

Deuxième distinction : variable numérique et variable catégorielleCette distinction est essentielle en statistique et en data mining.Les variables numériques permettent de faire des résumés, des synthèses : moyenne,minimum, maximum, écart type, etc.Les variables catégorielles permettent de faire des regroupements par catégories, c’est-à-dire des classements.

  • Les techniques descriptives :
    • Classification (syn : « segmentation », « clestering »)
    • Recherche d’associations
    • Recherche de séquence similaires
  • Les techniques prédictives :
    • Classement/discrimination (variable « cible » qualitative)§  Analyse discriminante / Régression logistique§  Arbre de décision§  Réseaux de neuroneso   Prédiction (Variable « cible » quantitative)§  Régression linéaire (simple et multiple)§  ANOVA, MANOVA, ANCOVA, MANCOVA (GLM)§  Arbre de décision §  Réseaux de neurones

Méthodes descriptives VS Predictives.

Un point de terminologie :Les techniques de data mining diffèrent dans leur terminologie suivant la littérature francophone ou anglo-saxon :

Auteurs Anglo-Saxons Certains auteurs francophones Analyse des données à la française
Clustering Segmentation Classification
Classification Classification Classement, Analyse discriminante
Descision trees Arbre de décision Segmentation

Distinction entre classification et classementDans un classement, on sait à l’avance à quelle classe l’individu appartient car on connaît à l’avance les classes. Dans une classification, on ne sait pas à l’avance à quelle classe un individu appartient car on ne connaît pas à l’avance les classes. La classification se fait en fonction de la population entière.Exemple :On peut classer les personnes par choix de l’option internationale et de l’option messagerie.Ca définit a priori 4 classes. C’est un classement.On peut prendre tous les attributs des clients et chercher des classes de clients en fonction detous ces attributs : ça donnera un nouvel attribut avec ses valeurs possibles.

Classement Classification
Ne crée pas nécessairement de nouvel attribut Crée nécessairement un nouvel attribut
Les classes sont définies à partir d’un attributunique ou d’un petit nombre d’attributs. Les classes sont définies à partir d’un grandnombre d’attributs
Une classe est connue à partir d’un individu Les classes sont connues à partir de lapopulation
Les classes et leur nombre sont connus apriori. Les classes et leur nombre sont connus aposteriori.
La classe d’appartenance d’un individu estdéfinie par l’individu lui-même. La classe d’appartenance d’un individu estdéfini par ses relations avec la population.
Plutôt prédictif. Les données des attributs declassement sont utilisés pour prédire unevariable cible.Exemple : superposition du « churn » enfonction du choix de l’option internationale. Plutôt descriptif. Le classification crée unattribut de classification qui est la variablecible de la classification elle-même.

Utilisation des algorithmes prédictifs :

  • Plus délicats à mettre en œuvreo   Avoir une méthodologie rigoureuse pour éviter certaines erreurs                       (sur-apprentissage)
  •  Nécessitent au moins un an d’historique dans les donnéeso   Avantages de cette technique plus complexe :§  Une vision dynamique et non statique du client
  • Prendre en compte le passé permet de mieux prédire l’avenir
  • Le pouvoir prédictif d’un score tient + longtemps que celui d’une classification§  Une vision graduelle
  • Un client est, ou n’est pas, dans un segment, au lieu d’avoir une note de score plus ou moins élevée

Utilisation des algorithmes descriptifs :

  • Plus facile à mettre en œuvre
  • Nécessitent moins d’historique
  • La classification permet :
    • Une vision générale de la clientèle§  Permettant d’alimenter une réflexion stratégique
    • Une volumétrie des différents types de client§  Estimation du potentiel commerciale selon le type de produito   L’affectation de certains types de clients à certains types de commerciaux
    • La détection de certains types de clients
    • La personnalisation de la communication (mailings ou pages Web) en fonction du segment du client.

D’après les cours de: Bertrand LIAUDET&Stephane tufféry

Posted in Data Mining | Réagir »

Le Métier de Statisticien

Posted by Fateh BEKIOUA on octobre 6th, 2010

Voila une réflexion d’un statisticien sur son métier.

A propos du métier de statisticien appliqué

Texte de Pascal Schilch, extrait de sa thèse de Docteur en Sciences de l’Université Paris XI Orsay intitulée” Contributions à la Sensométrie ” ; 12 Juillet 1993.

Effectuer des applications statistiques est un métier à part entière. Après avoir exercé ce métier quelques années et parce que sa passion pour lui ne cesse de croître, l’auteur souhaite terminer son texte par quelques réflexions métastatistiques qui pourraient intéresser ceux qui entrent dans la profession. “The Statistical Consultant in Action” (Hand & Everitt, 1987)permettra au lecteur d’approfondir ses réflexions et d’accéder à une bibliographie surla question.

Existe-t-il en France de véritables formations dédiées à l’exercice du métier de statisticien appliqué ?

Nous ne pouvons répondre à cette question avec certitude, mais nous suspectons que la plupart d’entre nous ont eu à apprendre… sur le tas. L’itinéraire classique est une formation en mathématiques complétée d’une ou deux années d’apprentissage de quelques théories statistiques, trop souvent présentées comme des satellites du calcul des probabilités. Puis survient le plongeon dans l’application, il faut rompre le cordon qui nous relie aux mathématiques sécurisantes.La recherche n’est plus celle de l’élégance mais celle de l’efficacité. Si l’élégance d’un résultat mathématique peut être définie comme le rapport de la difficulté intrinsèque de l’énoncé à la simplicité de sa démonstration, la définition del’efficacité d’une application statistique se mesure, en dehors du champ statistique, parl’ampleur et l’importance des résultats qu’elle a contribués à faire obtenir. Un problème est posé, des hypothèses sont émises, un plan d’expérience est établi, des méthodes statistiques sont choisies, des données sont collectées, des calculs sont menés et leurs résultats permettent de confirmer ou d’infirmer les hypothèses émises. Tel est le schéma idyllique d’une application statistique réussie. Bien entendu, le statisticien est responsable du plan d’expérience et du choix des méthodes statistiques, mais on ne dira jamais assez qu’il doit participer à la définition du problème, aider à formuler les hypothèses, savoir comment les données sont collectées, contrôler les procédures de calcul et participer à l’interprétation des résultats. Dans un projet scientifique, le statisticien n’est pas un technicien, ou un super-technicien, mais un scientifique à part entière, il doit être reconnu comme tel et associé au projet dès sa conception. Son interlocuteur privilégié est le responsable scientifique du projet et lui seul.

Mais la réalité est souvent toute autre. Les trois situations suivantes, quoique caricaturales, menacent quotidiennement le statisticien appliqué:

L’embuscade: A la cafétéria, ou sur un parking,un collègue vous aborde: “J’ai une question de statistique à te soumettre à laquelle tu devrais pouvoir me répondre sur le champ…”. Il n’existe pas de question statistique qui puisse être résolue et expliquée en 5 minutes sur le coin d’un comptoir ou le capot d’une voiture. S’il s’agissait simplement de rappeler une formule, ce collègue n’avait qu’à ouvrir lui-même un livre de statistique. En général, ce collègue est un fier doublé d’un égoïste. Il recherche une seule chose: votre bénédiction pour ce qu’il a déjà décidé de faire. En cas de désaccord, il ne retiendra pas vos conseils et en fin de compte, il ne reconnaîtra jamais votrecontribution. Face a l’embuscade, la bonne attitude est soit de détourner la conversation, soit de lui conseiller de vous téléphoner pour prendre rendez-vous.

Le courant d’air: Un collègue fait irruption à l’improviste dans votre bureau avec la traditionnelle formule: “Juste cinq minutes devraient te suffire pour résoudre mon petit problème statistique…”. Le courant d’air est une variante de l’embuscade où la fierté est remplacée par la naïveté ou la filouterie. En général, il faudra une ou plusieurs heures pour arriver à quelque chose et votre propre travail de la journée en pâtira. De plus, si vous répondez au courant d’air, il reviendra le lendemain avec un autre problème de 5 minutes. Comme l’embuscade,le courant d’air oubliera très rapidement votre contribution parce que celle-ci n’était pas contractuelle. Il faut fermer la porte au courant d’air avant même qu’il ait eu le temps de déballer ses listings ou autres documents envahissants.

L’ambulance: Avec ou sans rendez-vous, un collègue arrive la mine grave et vous annonce sur un ton tragique: “11 faut absolument que tu m’aides à débrouiller mon problème statistique. C’est extrêmement important et urgent!”.

En général, ce collègue est à bout de souffle sur le plan scientifique. Il arrive avec une publication sévèrement critiquée par les lecteurs pour la faiblesse de l’interprétation statistique, ou avec des données à analyser avant la fin de la semaine afin qu’il puisse préparer ce week-end la communication scientifique qu’il doit présenter le lundi suivant. La solidarité nous pousse parfois à effectuer le sauvetage dans les délais imposés, mais la qualité du travail fourni s’en ressent invariablement. Il est impératif de refuser de répondre aux récidivistes de l’ambulance et de leur expliquer que les statistiques commencent lors de la définition du projet.

Il relève de la responsabilité du statisticien appliqué de refuser poliment mais fermement ces trois situations, il oeuvre ce faisant pour la qualité des travaux du groupe auquel il appartient.

De plus, il gagnera ainsi un temps précieux qu’il pourra consacrer à de vraies collaborations.

Ces dernières nécessitent de la part du statisticien un effort d’apprentissage du langage et des notions de base de la discipline où il intervient. Réciproquement, le chercheur de cette discipline doit faire l’effort de comprendre les statistiques mises en oeuvre. De cette situation d’apprentissage réciproque doit naître un sentiment d’estime et de confiance. Bien entendu, le statisticien doit être associé à la valorisation des résultats. Tantôt, l’originalité des résultats primera sur celle de la méthodologie statistique, et tantôt ce sera l’inverse. Dans les deux cas, il doit y avoir accord entre le chercheur et le statisticien sur l’origine de l’idée essentielle. S’il a la chance de pouvoir intervenir dans un même domaine durant quelques années, le statisticien finira par en comprendre les enjeux et les méthodes. Réciproquement, ses collègues augmenteront leur culture et leur autonomie statistique. Cette osmose permettra à chacun de faire évoluer ses fonctions. Le statisticien pourra par exemple définir et organiser des programmes de recherches dont le but sera de faire progresser les méthodes d’investigation scientifique de la discipline d’application. En ce sens, il sera devenu un Xmétricien. Pour l’auteur, X est l’évaluation sensorielle, mais il est clair que toute discipline scientifique ou toute technologie incluant de l’expérimentation peut conduire à la même osmose.

Après avoir évoqué le rôle du statisticien appliqué et le contexte dans lequel il évolue, nous proposons sept conditions qui nous semblent toutes nécessaires au bon exercice du métier de statisticien appliqué:

1. Connaître le domaine d’application, comprendre sa problématique, suivre sa bibliographie et surtout connaître en détails ses expérimentations et leurs contraintes.

2. Etre capable de lire les mathématiques, au minimum l’algèbre linéaire et les probabilités afin de se tenir au courant des développements théoriques récents.

3. Lire des articles d’application des statistiques dans, mais aussi hors, de son propre domaine.

4. Maîtriser l’utilisation d’un logiciel statistique reconnu internationalement incluant un macro langage, un langage de programmation matricielle et les fonctions mathématiques, algébriques et statistiques évoluées. Ce logiciel devra de plus inclure des outils permettant la gestion des données et leur analyse exploratoire par des méthodes graphiques. Se souvenir malgré tout que la production de logiciels peaufinés n’est pas du ressort du statisticien.

5. Ne pas effectuer le maximum de calculs en pensant trier ensuite. Justifier a priori tout calcul, interpréter immédiatement ses résultats et rédiger dans la foulée les conclusions.

6- Faire comprendre dans un langage non mathématique toutes les méthodes utilisées aux collègues impliqués dans le projet, quitte à limiter le nombre et la variété des méthodes employées. Se rappeler qu’il n’existe aucune corrélation entre la qualité d’une application statistique et le degré de complexité des méthodes mises en oeuvre.

7. Confronter à partir d’un même problème et des mêmes données son approche avec celle d’autres statisticiens.

Avec la progression de la connaissance, le champ de l’investigation scientifique s’élargit et les problèmes abordés se complexifient rendant de plus en plus attractive l’application des mathématiques. Or dans le système éducatif français, surtout en mathématiques, l’application est souvent inféodée à la théorie. Il faut évacuer cet état d’esprit et conter aux étudiants comment l’application des mathématiques entretient le plaisir d’apprendre et procure la satisfaction d’apporter sa contribution à la société.

Posted in Réflexion | Réagir »

Introduction au DataMining

Posted by Fateh BEKIOUA on octobre 5th, 2010

Quelque Définitions : 

U.M.Fayyad, G.Piatetski-Shapiro: “Data Mining is the non trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data” 

D.J.Hand:“I shalldefineData Mining as the discovery of interesting, unexpected, or valuable structures in large data sets” 

La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998). Le Data Miningne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences) (Hand, 2000)

le Data Miningest né de : 

  • L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données (Data Warehouse).
  • La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés: terabytesde données recueillies automatiquement.
  • Développement de la Gestion de la Relation Client (CRM)
  • Marketing client au lieu de marketing produit Attrition, satisfaction, etc.
  • Recherches en Intelligence artificielle, apprentissage, extraction de connaissances
  • Mais aussi une entreprise commerciale…

La croissance simultanée de la compétition sur les marchés et des capacités des ordinateurs permet aux entreprises la manipulation et l’exploitation de données de plus en plus volumineuses.

Elles ont désormais besoin d’extraire de l’information et d’y trouver des relations.Le Data Mining inclut une large palette d’outil permettant d’identifier des relations et d’extraire des informations. Une erreur courante est de penser qu’il suffit de passer un grand nombre d’informations dans des algorithmes dits intelligents afin de dégager des structures et de donner des solutions magiques à tous les problèmes.

Le Data Mining est un processus interactif et itératif où l’expertise métier est utilisée conjointement avec les dernières avancées technologiques afin d’identifier des relations et des caractéristiques dans les données.

De nombreuses techniques présentes dans le Data Mining sont issues de l’intelligence artificielle ou des méthodes de modélisation. Leur objectif principal est d’estimer, de prédire et donc d’aider à la décision.

Intérêt du data mining:

Les entreprises sont inondées de données (scanners des supermarchés, internet, bases de données, etc.).Ces données languissent dans des entrepôts de données (ou référentiels, ou data warehouse).·  Le data mining permet d’exploiter ces données pour améliorer la rentabilité d’une activité.·  Le data mining permet ainsi d’augmenter le retour sur investissement des systèmes d’information. 

Finalités : comprendre et décider, savoir et prévoir (la raison et la volonté):

Le data mining est un outil qui permet de produire de la connaissance :

  • Dans le but de comprendre les phénomènes dans un premier temps : SAVOIR
  • Dans le but de prendre des décisions dans un second temps : PREVOIR pour DECIDER. 

Méthodes du data mining:

 Du bon sens. Il s’agit d’abord d’analyser les données avec du bon sens et un peu d’outillage mathématiques et statistiques élémentaire.

Des algorithmes de calculs statistiques. Il s’agit ensuite d’appliquer des algorithmes de calculs à des données. Ces algorithmes sont plus ou moins complexes à mettre en oeuvre. Ils permettent de classer les données et de prédire des valeurs inconnues. 

Les techniques du data mining : classer et prédire: La production de règles de raisonnement se fait à partir de plusieurs techniques plus ou moins spécifiques au data mining.

Ces techniques mixent à la fois des statistiques et de l’algorithmique. Globalement, on peut dire que certaines techniques visent à classer, d’autres visent à prédire. La présentation de ces technique fera l’objet du poste intitulé « Technique du Data Mining ».

Processus ECD

Posted in Data Mining | Réagir »

Présentation

Posted by Fateh BEKIOUA on octobre 5th, 2010

Salam Tlm,

Voila je viens de me lancer sur mon premier Blog que j’ai appelé DZAnalytic, ce blogue traitera du domaine de l’analyse des données et du datamining, on essayera à travers ce blog, de promouvoir cette belle discipline pour les internautes. Pour ce qui ne me connaissent pas je suis un jeune Algérien diplômé de l’École Nationale Supérieure en Statistique et en Économie Appliquée  ENSSEA (ex INPS),  j’occupe actuellement le poste d’analyste Data dans une société de Télécom. J’espère que ce bolg apportera un plus pour tous ceux ou celles qui s’intéressent à la science de la statistique et de l’Analyse des données en général.

Bonne lecture. 

Posted in Présentation | 2 Commentaires »

 


Créer Blog | Nom Domaine | Créer Forum | Tags | 8 articles | Un Abus?
culture | actualités | politique | bebe | finance | justice | ecologie | sport | sante
net | grossesse | jeux | droit | voyage | design | livre | internet | grippe | photos
iPhone | famille | nature | europe | emploi | enfant | web | Top | New | Nouveaux