4 – Le data mining outil de prévision

> >

Le data mining, c’est aussi un outil qui permet de démultiplier les propriétés liées au calcul de probabilité.

En effet, parce qu’il permet de croiser un volume de données sans commune mesure avec celles habituellement utilisées par les probabilistes, mais surtout, parce qu’il permet d’appliquer ces calculs à de très nombreux domaines, il apparaît aujourd’hui comme capable de faire des prévisions… De la prévision à la prédiction, il n’y a que quelques lettres de différence et aujourd’hui, les scientifiques n’hésitent pas à annoncer qu’ils seront bientôt capables de prévoir l’avenir… Si les deux termes semblent s’opposer –sciences versus prédiction– on doit néanmoins convenir qu’en certains domaines, les outils aujourd’hui en usage offrent des résultats très impressionnants.

Probabilités et prédictions… (perles 1 à 6)
Aujourd’hui, la statistique prévisionnelle s’attaque à toutes sortes de questions : catastrophes naturelles, santé, délinquance, climat… Les outils statistiques sont nombreux et sont combinés entre eux pour améliorer les résultats, comme lorsqu’on utilise des « forets aléatoires ». Plus fascinant encore, les logiciels sont capables de s’améliorer eux-mêmes et d’accumuler toujours plus de données pour booster leurs performances… En attendant, il est possible de se fier à ces analyses pour tenter d’éviter la grippe et se faire vacciner à bon escient.

Prévoir ou prévenir les crimes (7 à 10)
Si l’idée qu’un logiciel serait capable de prévoir crimes et délits fait irrésistiblement penser au film de Spielberg « Minority report », la réalité a aujourd’hui rattrapé la fiction : le logiciel PredPol (pour predictive policing) permet d’estimer mieux qu’aucune autre technique ou analyse humaine, les lieux où risquent de se produire des délits, et conséquemment de mieux programmer les patrouilles de police et autres dispositifs préventifs.

Se prémunir de la fraude (11 à 12)
Autres perspectives offertes par le data mining, améliorer la lutte contre les fraudes et les « arnaques » à l’assurance. Là encore, il s’agit de mieux cibler les contrôles et apparemment, cela fonctionne : « Cette technique donne des résultats très nets (...) Dans plus de la moitié des cas, quand un contrôleur va faire un contrôle ciblé sur la base du datamining, il trouve quelque chose » affirme Hervé Drouet, directeur de la Cnaf. Les compagnies d’assurance appliquent elles aussi ce type d’analyses pour déceler les escroqueries.

Prédire l’avenir ? (perle 13)
Sans nullement prétendre à l’exhaustivité tant la matière est riche sur cette question des prévisions, on retiendra les résultats d’une étude qui permet de prévoir les déplacements des individus en analysant les données de géo-localisation (ou tracking) contenues dans leurs téléphones…

1 – Prévoir en croisant des données. En novembre 2012, il avait presque réussi à détrôner médiatiquement le vainqueur, Barack Obama. Nate Silver, à partir des différents sondages et d'un modèle statistique enrichi au fil de la campagne, a prédit correctement les résultats électoraux dans 50 états sur 50. Tout est une question de modèle. Au fur et à mesure que différents types de données sont mis en ligne et exploités, de nouveaux modèles statistiques peuvent être envisagés, avec toutes sortes d'applications concrètes.

On a pu ainsi apprendre qu'une équipe du laboratoire de recherche de Microsoft et du Technion-Israel Institute of technology essaie de prévoir les catastrophes naturelles et sanitaires à partir des archives du New York Times et des articles de Wikipédia. Un autre exemple est à trouver chez votre magasin en ligne favori. C'est ainsi que la recommandation devient un développement stratégique des commercecs en ligne. Alexandre Léchenet Cette entrée a été publiée dans data. 2 – Les archives du Times pour décrire l'avenir. Researchers at Microsoft and the Technion-Israel Institute of Technology are creating software that analyzes 22 years of New York Times archives, Wikipedia and about 90 other web resources to predict future disease outbreaks, riots and deaths — and hopefully prevent them.

The new research is the latest in a number of similar initiatives that seek to mine web data to predict all kinds of events. Recorded Future, for instance, analyzes news, blogs and social media to “help identify predictive signals” for a variety of industries, including financial services and defense. Researchers are also using Twitter and Google to track flu outbreaks. Eric Horvitz of Microsoft Research and Kira Radinsky of the Technion-Israel Institute describe their work in a newly released paper, “Mining the Web to Predict Future Events” (PDF). For example, they examined the way that news about natural disasters like storms and droughts could be used to predict cholera outbreaks in Angola. 3 – Prédire le futur en fouillant le web. 4 – Analyser le web pour prévoir l'avenir. Peut-on prédire les événements du futur avec un bon algorithme et (beaucoup) d’analyse de données?

C’est l’hypothèse testée par Eric Horvitz, chercheur chez Microsoft, et Kira Radinsky, qui travaille au Technion-Israel Institute de Haïfa, dans leur article «Mining the Web to Predict Future Events», explique le site Gigaom. En compilant les données disponibles à un instant t, on devrait pouvoir générer des alertes concernant par exemple les maladies ou les manifestations à venir, pensent les auteurs. Les deux chercheurs ont donc expérimenté leur idée sur 22 années d’archives du New York Times, de 1986 à 2007, pour tester sa validité. L’expérience consiste à observer si un certain type de menace survient dans le cadre d’une chaîne d’événements précise, par exemple en cherchant les mot-clé «malaria» ou «choléra». Autre exemple parlant dans le domaine du maintien de l’ordre, celui de la prédiction des manifestations et protestations. Publicité Devenez fan sur , suivez-nous sur.

5 – Forêts aléatoires et data mining. 0inShare Le module STATISTICA Random Forest est intégré à l’outil de data mining STATISTICA Data Miner. Il reprend les travaux effectués par Breiman et répond aussi bien à des problématiques de classification que de régression. Une Forêt Aléatoire (Random Forest) est constituée d’un ensemble d’arbres simples de prévision, chacun étant capable de produire une réponse lorsqu’on lui présente un sous-ensemble de prédicteurs. Pour les problématiques de classification, la réponse prend la forme d’une classe qui associe un ensemble (classe) de valeurs indépendantes (prédicteur) à une des catégories présente dans la variable indépendante. Concernant la régression, l’arbre est une estimation de la variable dépendante en fonction des prédicteurs. Samuel DODE a rejoint StatSoft France il y a 5 ans. 6 – Eviter la grippe grâce au big data.

7 – La fiction rattrapée par le réel : Minority Report (2002) 8 – Un algorithme pour prévenir le crime. 9 – Le logiciel qui prédit les délits. Santa Cruz, en Californie, août 2012. Il est 12 h 30. Un policier arpente une rue tranquille qu'il n'a pas l'habitude de surveiller. Quelques minutes plus tard, il arrêtera deux hommes en flagrant délit : ils tentaient de voler un véhicule. Quelques mois auparavant, deux de ses collègues qui "planquaient" aux abords d'un parking du centre-ville avaient interpellé deux femmes qui cherchaient à forcer la portière d'un véhicule. Dans les deux cas, les policiers n'étaient pas là par hasard. Ils se doutaient qu'un délit allait être commis à cet endroit précis et ce jour-là. L'informateur qui leur a transmis le tuyau n'était pas un indic à l'ancienne rencontré discrètement dans une impasse... mais un logiciel d'ordinateur.

Pour un peu, on se croirait propulsé dans le film de science-fiction de Steven Spielberg, Minority Report (2002), dans lequel des humains mutants prévoient les crimes à venir grâce à leur don de prescience. Louise Couvelaire. 10 – Un logiciel pour prévoir les crimes. Prévoir l’avenir, c’est le quotidien des météorologistes et de certains économistes.

Désormais, c’est au tour de la police d’anticiper l’avenir, pour savoir où et quand seront commis des actes de délinquances. Un logiciel, nommé PredPol, fournit ces informations aux policiers du Kent, au Royaume Uni, qui testent cette nouvelle arme. En analysant l’heure, la date, et le lieu des derniers larcins, il est désormais possible d’anticiper les prochains braquages, cambriolages ou vols de voiture. Le sergeant détective Martin Smith explique comment le fonctionnent de cette technologie: “Chaque case correspond à un périmètre de 150 mètre carré. L’algorithme nous dit si cette zone est propice aux crimes ou pas. Au cours des six derniers mois, vous avez eu un braquage, trois vols de voiture, quatre crimes avec violence et qautre actes de vandalisme. Les cases sont nommées de A à Z.

La prévision des crimes est calculée sur les mêmes bases mathématiques que les tremblements de terre. 11 – Lutter contre la fraude aux allocations familiales. Les fraudes recensées par la Caisse nationale des allocations familiales (Cnaf) se sont élevées à 101,5 millions d'euros en 2011 pour 65 milliards de prestations versées aux allocataires, contre 90,15 millions en 2010, a annoncé mardi 29 janvier cet organisme de la Sécurité sociale. Le nombre de cas de fraudes s'est élevé à 15.011 (13.114 en 2010). Les plus fréquents concernent les minimas sociaux, 29% les prestations familiales et 23% les aides au logement, a-t-on précisé. Les deux prestations les plus concernées par les fraudes ont été le Revenu de Solidarité Active (RSA) et l'allocation de logement à caractère social (ALS). La grande majorité des fraudes (67%) résultent de déclarations d'activité ou de ressources "non à jour", tandis que 27% sont des dissimulations de concubinage (pour toucher par exemple le RSA majoré destiné aux parents isolés) et 6% des escroqueries, faux et usages de faux documents.

Technique du datamining "Cette technique donne des résultats très nets (...) 12 – Le datamining pour détecter la fraude à l’assurance. Les compagnies d’assurance perdent beaucoup d’argent chaque année à cause de demandes d’indemnisation frauduleuses. Pour assurer leur mission vis à vis de leurs clients et générer des résultats qui garantissent leur pérennité, les compagnies doivent réduire ces pertes. Datamining et analyse prédictive constituent des outils puissants au service de ces objectifs. Le datamining apporte de puissantes techniques analytiques pour transformer les données déjà collectées en informations utiles pour identifier les cas probables de fraude et d’abus. De nombreuses compagnies d’assurance ont déjà intégré le datamining dans leurs processus d’investigation et de vérification. Mieux cibler les dossiers Il faut concentrer ses moyens sur les cas qui en valent la peine. Cela passe par la mise en évidence de petits sous-ensembles de demandes d’indemnisation présentant un fort pourcentage de fraude récupérable.

Mieux exploiter les données existantes Déterminer la composition de la population de référence. 13 – Comment un téléphone peut prédire les déplacements. Votre téléphone mobile sait où vous êtes allé. Et de nouvelles recherches montrent qu’il est tout à fait capable de deviner où vous irez ensuite. Une équipe de chercheurs britanniques a développé un algorithme qui utilise les données de tracking (suivi) sur les téléphones des utilisateurs pour prédire où ils se trouveront 24 heures plus tard. La marge d’erreur moyenne de cet algorithme? Seulement 20 mètres. Ce résultat est bien plus juste que ceux des précédentes études qui ont tenté de prédire les mouvements des individus.

Dans cette nouvelle étude, les chercheurs ont réglé ce problème en combinant les données des téléphones individuels et celles de leurs amis –i.e.: des personnes qui étaient enregistrées dans le carnet d’adresse du téléphone. Pour cettre découverte, les chercheurs —Mirco Musolesi, Manlio Domenico, et Antonio Lima de l’université de Birmingham— ont gagné cette année le Data Challenge de Nokia Mobile. Will Oresmus.