background preloader

Data mining et autres

Facebook Twitter

Apprentissage supervisé. Un article de Wikipédia, l'encyclopédie libre.

Apprentissage supervisé

L'apprentissage supervisé est une technique d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des « exemples » (en général des cas déjà traités et validés). Définition mathématique[modifier | modifier le code] Similarité (informatique) Un article de Wikipédia, l'encyclopédie libre.

Similarité (informatique)

En mathématique et en informatique la similarité est un critère important pour l'identification de sous-groupe dans un groupe d'objets, de valeurs (numériques ou non), de données (connus ou reconnus) dans un « espace » ou système... En classification, on parle de clusterisation (ou Clustering) pour décrire le partitionnement de données, et un cluster est alors un ensemble de données ou d'éléments présentant des similarités. Le langage de description des objets d'une base de données doit permettre de définir la distance de cet objet par rapport aux autres. Une donnée et par suite la mesure de sa distance à d'autres objets peut être surpondérée ou sous-pondérée dans le système de calcul de distance entre objet, quand la donnée parait plus importante (ou moins) pour le problème considéré. La pondération se fait à dire d'expert ou au moyen d'un système expert. Il en existe plusieurs, visant le partitionnement des données, dont :

Regroupement hiérarchique. Un article de Wikipédia, l'encyclopédie libre.

Regroupement hiérarchique

Dans le domaine informatique, et plus précisément dans le domaine de l'analyse et de la classification automatique de données, la notion de regroupement hiérarchique recouvre différentes méthodes de clustering, c'est-à-dire de classification par algorithme de classification. La classification ascendante hiérarchique (CAH)[modifier | modifier le code] C'est une méthode de classification automatique utilisée en analyse des données ; à partir d'un ensemble de n individus, son but est de répartir ces individus dans un certain nombre de classes. La méthode suppose qu'on dispose d'une mesure de dissimilarité entre les individus; dans le cas de points situés dans un espace euclidien, on peut utiliser la distance comme mesure de dissimilarité.

La classification ascendante hiérarchique est dite ascendante car elle part d'une situation où tous les individus sont seuls dans une classe, puis sont rassemblés en classes de plus en plus grandes. Entrées: Donnée (statistique) Un article de Wikipédia, l'encyclopédie libre.

Donnée (statistique)

Pour les articles homonymes, voir Donnée. Une donnée statistique est une information codifiée, figée et transmissible [1] Une donnée statistique peut être une donnée à caractère quantitatif ou qualitatif. Les données quantitatives sont des données qui peuvent être mesurées ( taille, poids…) ou repérées ( température…)[2] Exemples de propriétés physiques quantitatives : Le point de fusion, (par exemple, le fer fond à une température de 1 535 °C), le point d'ébullition, la masse volumique, la viscosité, la solubilité, la conductivité électrique, la conductivité thermique… Lorsque le caractère d'une entité est mesurable, il est fait choix d'une unité de mesure appropriée.

Lorsque le caractère est seulement repérable, des conventions déterminent une échelle numérique dans laquelle chaque entité a une position également définie par un nombre. Les caractères quantitatifs se subdivisent eux-mêmes en deux espèces : La BI, l'informatique décisionnelle et les graphes - Graph Database - Paris (Paris. Pour ce meetup du groupe "Graph Database Paris", vous apportez votre bonne humeur et nous nous chargeons des pizzas et du vin.

La BI, l'informatique décisionnelle et les graphes - Graph Database - Paris (Paris

Intervenants : Philipp Rathle : Neo Product Manager En plus d'être à la tête du développement du produit Neo4j pour Neo Technology, Philip est l'un des membres de l'exécutif de Neo4j basé dans la Silicon Valley aux USA. Nous profitons de sa venue en europe pour la conférence Neo4j/viadeo/kernix afin que la communauté Neo4J de Paris puisse le rencontrer.

Cédric Fauvet (Neo Technology) : Représentant de Neo en France Programme : 19:30-19:45 (15 min) Apéro d'accueil des participants. Data Mining, Scoring et Statistique - Deroulement.PDF. New approach to 'friend suggestions' centres on where you know, not who you know. A method of predicting which individuals may become friends on social networking sites based on the places they visit out in the real world has been developed by researchers at Cambridge University in Britain.

New approach to 'friend suggestions' centres on where you know, not who you know

The new approach to "friend suggestions" looks at the usual haunts of individuals to determine which users may have connections with one another. This, combined with the "friend-of-a-friend" method, currently favoured by social networking sites such as Facebook and LinkedIn, can increase the efficacy of the prediction system, say researchers. "We wanted to investigate the properties of places that encourage connections between visitors and how this could be incorporated into a system that predicts friends," Salvatore Scellato, one of the researchers, told Reuters. The team analyzed the creation of social connections on Gowalla, a location-based social networking site that allows users to share information about the places they visit.