background preloader

Data mining

Facebook Twitter

Data mining. Data mining is the process of discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems.[1] Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal to extract information (with intelligent methods) from a data set and transform the information into a comprehensible structure for further use.[1][2][3][4] Data mining is the analysis step of the "knowledge discovery in databases" process or KDD.[5] Aside from the raw analysis step, it also involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.[1] Etymology[edit] In the 1960s, statisticians and economists used terms like data fishing or data dredging to refer to what they considered the bad practice of analyzing data without an a-priori hypothesis.

Data mining

DST’s Milner: Founders’ Exit Is Cue For Investors’ Exit - Venture Capital Dispatch. Exploration de données. Un article de Wikipédia, l'encyclopédie libre.

Exploration de données

Vous lisez un « bon article ». L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. C'est aussi le mode de travail du journalisme de données[1]. L'exploration de données[2] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle. Histoire[modifier | modifier le code] Collecter les données, les analyser et les présenter au client. De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence statistique médicale.

L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes bayésiennes sans grever les coûts. Applications industrielles[modifier | modifier le code] Observatoire Transmedia » INA : L’info fouillée au corpus. Marie-Luce Viaud fait des fouilles.

INA : L’info fouillée au corpus

Pas avec un pinceau, à genoux dans le sable, mais devant son ordinateur, dans un bureau de l’INA Expert, le département recherche de l’Institut national de l’audiovisuel, à Bry-sur-Marne (Val-de-Marne). La chercheuse s’est spécialisée dans la fouille de données. Soit «l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques» , selon la définition de Wikipédia à laquelle elle nous renvoie. Depuis octobre 2010, elle coordonne une quinzaine de chercheurs qui collaborent à un discret mais ambitieux projet : l’ Observatoire transmédia (OTMedia), une plateforme pour analyser les flux médiatiques à l’aide de moteurs de recherche (1). Ils fonctionnent sur une vaste base de données, capturées de juillet 2011 à décembre 2012.

L’observatoire doit permettre de «mieux appréhender les enjeux et les mutations de la sphère médiatique» , explique le site du projet . Lire les réactions à cet article.