Data mining

> > >

Data mining. Data mining is the process of discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems.[1] Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal to extract information (with intelligent methods) from a data set and transform the information into a comprehensible structure for further use.[1][2][3][4] Data mining is the analysis step of the "knowledge discovery in databases" process or KDD.[5] Aside from the raw analysis step, it also involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.[1] Etymology[edit] In the 1960s, statisticians and economists used terms like data fishing or data dredging to refer to what they considered the bad practice of analyzing data without an a-priori hypothesis.

DST’s Milner: Founders’ Exit Is Cue For Investors’ Exit - Venture Capital Dispatch. Exploration de données. Un article de Wikipédia, l'encyclopédie libre.

Vous lisez un « bon article ». L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. C'est aussi le mode de travail du journalisme de données[1]. L'exploration de données[2] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle. Histoire[modifier | modifier le code] Collecter les données, les analyser et les présenter au client. De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence statistique médicale.

L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes bayésiennes sans grever les coûts. Applications industrielles[modifier | modifier le code] Observatoire Transmedia » INA : L’info fouillée au corpus. Marie-Luce Viaud fait des fouilles.

Pas avec un pinceau, à genoux dans le sable, mais devant son ordinateur, dans un bureau de l’INA Expert, le département recherche de l’Institut national de l’audiovisuel, à Bry-sur-Marne (Val-de-Marne). La chercheuse s’est spécialisée dans la fouille de données. Soit «l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques» , selon la définition de Wikipédia à laquelle elle nous renvoie. Depuis octobre 2010, elle coordonne une quinzaine de chercheurs qui collaborent à un discret mais ambitieux projet : l’ Observatoire transmédia (OTMedia), une plateforme pour analyser les flux médiatiques à l’aide de moteurs de recherche (1). Ils fonctionnent sur une vaste base de données, capturées de juillet 2011 à décembre 2012.

L’observatoire doit permettre de «mieux appréhender les enjeux et les mutations de la sphère médiatique» , explique le site du projet . Lire les réactions à cet article.