background preloader

1 - Qu'est-ce que le data mining ?

Facebook Twitter

1 – Exploration de données. Un article de Wikipédia, l'encyclopédie libre.

1 – Exploration de données

Vous lisez un « bon article ». L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. 2 – Les techniques de collecte automatisée. Ces vingt dernières années ont vu le développement de techniques et d’outils informatiques qui permettent d’automatiser la collecte et la mise en forme de données, en particulier celles provenant d’internet[1].

2 – Les techniques de collecte automatisée

Plus puissantes et plus faciles d’accès, ils sont aussi de plus en plus utilisés dans de nombreuses professions. Leur diffusion intéresse donc les chercheurs en sciences sociales, à la fois parce qu’elles permettent de collecter rapidement des informations sur divers aspects du monde social, mais aussi parce qu’elle conteste un peu plus leur monopole dans la production de données quantitatives. On se propose ici de réaliser un rapide tour d’horizon sur cette question qui souligne le potentiel, et évoque certains enjeux, du recours croissant à ces méthodes pour nos disciplines. Pour prendre un exemple concret, on peut vouloir chercher à déterminer les prix de l’immobilier dans une zone donnée. Dans plusieurs pays, le data mining connaît un renouveau. 3 – Des données au savoir. L’informatique a permis d’accumuler des quantités massives de données sur des sujets divers et variés, qu’il s’agisse du génome humain, de simples opérations de vente ou encore de données textuelles.

3 – Des données au savoir

Une donnée brute, tant sous sa forme numérique que papier, n’est pas intéressante en elle-même. Le data mining (« fouille de données » pour les francophones, également appelé Knowledge Discovery From Data) lui apporte tout son intérêt. Comment transformer les données en sources de savoir ? Voici l’une des grandes questions qui préoccupent les experts de la donnée. Le data mining tente d’apporter des réponses à cheval sur un grand nombre d’autres disciplines, soit en tant qu’outils comme les statistiques et la recherche opérationnelle, soit en tant que domaine d’application comme la sociologie, le marketing ou la biologie. Cet article est le deuxième d’une trilogie portant sur le data mining : 1- Le data mining : des données au savoir Mining out of Silverton source : adambarhan/flickr Brian D. 4 – Des milliards de données font le big data. Chaque seconde, la masse de données créées sur Internet par les smartphones, ordinateurs et tablettes explose.

4 – Des milliards de données font le big data

Appelé "big data" par les experts du Web, cet amas colossal est un marché prodigieux. LE MONDE | • Mis à jour le | Par Sarah Belouezzane et Cécile Ducourtieux Photos, vidéos, sons, chiffres, textes... Depuis la démocratisation de l'Internet haut débit, ce sont des milliards de données qui sont déversées par les particuliers, les entreprises et même l'Etat sur la Toile. Les spécialistes appellent ça le "big data", littéralement "grosse donnée"... Tous les jours, ce sont 118 milliards de mails qui sont envoyés à travers le monde, 2,45 milliards de contenus différents qui sont postés sur Facebook. Les humains ne sont pas les seuls responsables de ce déluge d'informations. "Cela fait quelque temps déjà que le nombre de données produites et stockées est important, note Patrice Poiraud, directeur business et analyse chez IBM. 5 – Données le vertige. Des flots d’octets, un océan de données, un déluge de connaissances… A mesure qu’Internet tisse sa toile, le volume d’informations numérisées n’en finit plus d’exploser.

5 – Données le vertige

D’ici huit ans, cette masse vertigineuse de «datas» sera 50 fois supérieure à ce qu’elle est aujourd’hui, prédit le cabinet d’études IDC. Et il faudra dix fois plus de serveurs informatiques pour espérer gérer cette déferlante. Pas par crainte d’être submergés, mais plutôt pour être en mesure de retrouver, d’extraire et d’exploiter cette nouvelle manne. Il y a vingt ans, nous stockions encore nos fichiers sur des disques durs de quelques mégaoctets (1 Mo équivaut à 1 000 000 d’octets, soit 106 octets, 1 octet valant 8 bits ; le bit est l’unité de base en informatique, à savoir un 0 ou un 1). Photo: Emmanuel Pierrot.Vu pour Libération «Capteurs». C’est là qu’intervient une nouvelle discipline : le «big data». Mesagraph fournit ainsi à Canal + une modélisation de son audience à partir des conversations sur Twitter. 6 – Les données, puissance du futur.

LE MONDE | • Mis à jour le | Par Stéphane Grumbach, Stéphane Frénot Nous vivons une période de rupture, celle de la numérisation de tout : l'homme, la société, les organisations, le savoir, les interactions, le corps biologique de chacun, etc.

6 – Les données, puissance du futur

Tout devient donnée numérique, et par là même a vocation à une existence dans le monde virtuel en émergence. L'écart entre le monde des données et le monde réel, bien anticipé par Jorge Luis Borges dans sa nouvelle visionnaire De la rigueur de la science, évoluera pour devenir de plus en plus subtil. Il y a un avant et il y a un après-numérisation. Il nous est aussi difficile d'imaginer les évolutions de la société de l'information qu'il l'était de prévoir au milieu du XIXe siècle les possibilités permises par l'électricité. 7 – A qui servent les données ? Dans son ouvrage Open data, Simon Chignard rapporte l’un des tous premiers exemples d’utilisation des données pour analyser une situation, voire construire de nouvelles connaissances. « En 1854, à Londres, le médecin anglais John Snow révolutionne la compréhension et le traitement du choléra en collectant et analysant des données.

7 – A qui servent les données ?

Il utilise des techniques de cartographie pour recenser les décès dans les quartiers de Soho et démontrer le lien avec l’une des fontaines publiques des environs ». La médecine d’alors croyait que le choléra se transmettait par les miasmes ; un croisement de données permet d’incriminer l’eau contaminée. Matière brute de l’information permettant la compréhension d’un phénomène, d’une réalité, la donnée est un outil d’aide à la gestion et à la décision pour les services urbains (voirie, eau, propreté), et d’évaluation des politiques publiques. Lire l'entretien avec Simon Chignard, vice-président de la Cantine numérique rennaise Utiles à l’avenir ?

Accueil dossier. 8 – Entretien avec Simon Chignard. 9 – Les domaines du data mining.