background preloader

4 – Le data mining outil de prévision

Facebook Twitter

Le data mining, c’est aussi un outil qui permet de démultiplier les propriétés liées au calcul de probabilité.

En effet, parce qu’il permet de croiser un volume de données sans commune mesure avec celles habituellement utilisées par les probabilistes, mais surtout, parce qu’il permet d’appliquer ces calculs à de très nombreux domaines, il apparaît aujourd’hui comme capable de faire des prévisions… De la prévision à la prédiction, il n’y a que quelques lettres de différence et aujourd’hui, les scientifiques n’hésitent pas à annoncer qu’ils seront bientôt capables de prévoir l’avenir… Si les deux termes semblent s’opposer –sciences versus prédiction– on doit néanmoins convenir qu’en certains domaines, les outils aujourd’hui en usage offrent des résultats très impressionnants.

Probabilités et prédictions… (perles 1 à 6)
Aujourd’hui, la statistique prévisionnelle s’attaque à toutes sortes de questions : catastrophes naturelles, santé, délinquance, climat… Les outils statistiques sont nombreux et sont combinés entre eux pour améliorer les résultats, comme lorsqu’on utilise des « forets aléatoires ». Plus fascinant encore, les logiciels sont capables de s’améliorer eux-mêmes et d’accumuler toujours plus de données pour booster leurs performances… En attendant, il est possible de se fier à ces analyses pour tenter d’éviter la grippe et se faire vacciner à bon escient.

Prévoir ou prévenir les crimes (7 à 10)
Si l’idée qu’un logiciel serait capable de prévoir crimes et délits fait irrésistiblement penser au film de Spielberg « Minority report », la réalité a aujourd’hui rattrapé la fiction : le logiciel PredPol (pour predictive policing) permet d’estimer mieux qu’aucune autre technique ou analyse humaine, les lieux où risquent de se produire des délits, et conséquemment de mieux programmer les patrouilles de police et autres dispositifs préventifs.

Se prémunir de la fraude (11 à 12)
Autres perspectives offertes par le data mining, améliorer la lutte contre les fraudes et les « arnaques » à l’assurance. Là encore, il s’agit de mieux cibler les contrôles et apparemment, cela fonctionne : « Cette technique donne des résultats très nets (...) Dans plus de la moitié des cas, quand un contrôleur va faire un contrôle ciblé sur la base du datamining, il trouve quelque chose » affirme Hervé Drouet, directeur de la Cnaf. Les compagnies d’assurance appliquent elles aussi ce type d’analyses pour déceler les escroqueries.

Prédire l’avenir ?

1 – Prévoir en croisant des données. En novembre 2012, il avait presque réussi à détrôner médiatiquement le vainqueur, Barack Obama.

1 – Prévoir en croisant des données

Nate Silver, à partir des différents sondages et d'un modèle statistique enrichi au fil de la campagne, a prédit correctement les résultats électoraux dans 50 états sur 50. Tout est une question de modèle. 2 – Les archives du Times pour décrire l'avenir. Researchers at Microsoft and the Technion-Israel Institute of Technology are creating software that analyzes 22 years of New York Times archives, Wikipedia and about 90 other web resources to predict future disease outbreaks, riots and deaths — and hopefully prevent them.

2 – Les archives du Times pour décrire l'avenir

The new research is the latest in a number of similar initiatives that seek to mine web data to predict all kinds of events. Recorded Future, for instance, analyzes news, blogs and social media to “help identify predictive signals” for a variety of industries, including financial services and defense. Researchers are also using Twitter and Google to track flu outbreaks. Eric Horvitz of Microsoft Research and Kira Radinsky of the Technion-Israel Institute describe their work in a newly released paper, “Mining the Web to Predict Future Events” (PDF). For example, they examined the way that news about natural disasters like storms and droughts could be used to predict cholera outbreaks in Angola. 3 – Prédire le futur en fouillant le web.

4 – Analyser le web pour prévoir l'avenir. 5 – Forêts aléatoires et data mining. 6 – Eviter la grippe grâce au big data. 7 – La fiction rattrapée par le réel : Minority Report (2002) 8 – Un algorithme pour prévenir le crime. 9 – Le logiciel qui prédit les délits. Santa Cruz, en Californie, août 2012.

9 – Le logiciel qui prédit les délits

Il est 12 h 30. 10 – Un logiciel pour prévoir les crimes. Prévoir l’avenir, c’est le quotidien des météorologistes et de certains économistes.

10 – Un logiciel pour prévoir les crimes

Désormais, c’est au tour de la police d’anticiper l’avenir, pour savoir où et quand seront commis des actes de délinquances. Un logiciel, nommé PredPol, fournit ces informations aux policiers du Kent, au Royaume Uni, qui testent cette nouvelle arme. En analysant l’heure, la date, et le lieu des derniers larcins, il est désormais possible d’anticiper les prochains braquages, cambriolages ou vols de voiture. Le sergeant détective Martin Smith explique comment le fonctionnent de cette technologie: “Chaque case correspond à un périmètre de 150 mètre carré. 11 – Lutter contre la fraude aux allocations familiales. Les fraudes recensées par la Caisse nationale des allocations familiales (Cnaf) se sont élevées à 101,5 millions d'euros en 2011 pour 65 milliards de prestations versées aux allocataires, contre 90,15 millions en 2010, a annoncé mardi 29 janvier cet organisme de la Sécurité sociale.

11 – Lutter contre la fraude aux allocations familiales

Le nombre de cas de fraudes s'est élevé à 15.011 (13.114 en 2010). Les plus fréquents concernent les minimas sociaux, 29% les prestations familiales et 23% les aides au logement, a-t-on précisé. Les deux prestations les plus concernées par les fraudes ont été le Revenu de Solidarité Active (RSA) et l'allocation de logement à caractère social (ALS). La grande majorité des fraudes (67%) résultent de déclarations d'activité ou de ressources "non à jour", tandis que 27% sont des dissimulations de concubinage (pour toucher par exemple le RSA majoré destiné aux parents isolés) et 6% des escroqueries, faux et usages de faux documents.

12 – Le datamining pour détecter la fraude à l’assurance. Les compagnies d’assurance perdent beaucoup d’argent chaque année à cause de demandes d’indemnisation frauduleuses.

12 – Le datamining pour détecter la fraude à l’assurance

Pour assurer leur mission vis à vis de leurs clients et générer des résultats qui garantissent leur pérennité, les compagnies doivent réduire ces pertes. Datamining et analyse prédictive constituent des outils puissants au service de ces objectifs. Le datamining apporte de puissantes techniques analytiques pour transformer les données déjà collectées en informations utiles pour identifier les cas probables de fraude et d’abus. De nombreuses compagnies d’assurance ont déjà intégré le datamining dans leurs processus d’investigation et de vérification.

13 – Comment un téléphone peut prédire les déplacements. Votre téléphone mobile sait où vous êtes allé.

13 – Comment un téléphone peut prédire les déplacements

Et de nouvelles recherches montrent qu’il est tout à fait capable de deviner où vous irez ensuite.