background preloader

Data Mining

Facebook Twitter

How to choose a statistical model. Statistical techniques for fraud detection, prevention, and evaluation. The talk begins by setting the context: fraud is defined and its breadth outlined; figures are given showing how significant fraud is; and different areas of fraud are examined, including health care fraud, banking fraud, and scientific fraud.

The particular data analytic challenges of banking fraud are described and illustrated in detail. These include the fact that the classes are highly unbalanced (with typically no more than 1 in a 1000 transactions being fraudulent), that class labels may often be incorrect, that there will typically be delays in discovering the true labels, that the transaction arrival times are random, that the data are dynamic, and, perhaps most challenging of all, that the distributions are reactive, changing in response to the implementation of fraud detection systems. The role of mechanistic and empirical models in tackling these problems is described. Both have been widely used, and both have a contribution to make. Наборы данных. Big data sets available for free.

Exploration de données. Un article de Wikipédia, l'encyclopédie libre. Vous lisez un « bon article ». L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. C'est aussi le mode de travail du journalisme de données[1]. L'exploration de données[2] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle.

Histoire[modifier | modifier le code] Collecter les données, les analyser et les présenter au client. De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence statistique médicale. L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes bayésiennes sans grever les coûts. Applications industrielles[modifier | modifier le code]

Open Data Tools: Turning Data into ‘Actionable Intelligence’ › Scientific and Medical Libraries.