background preloader

Data Mining, Data Science et Big Data Analytics

Data Mining, Data Science et Big Data Analytics
Cette page recense les supports utilisés pour mes enseignements de Machine Learning, Data Mining et de Data Science au sein du Département Informatique et Statistique (DIS) de l'Université Lyon 2, principalement en Master 2 Statistique et Informatique pour la Science des donnéEs (SISE), formation en data science, dans le cadre du traitement statistique des données et de la valorisation des big data. Je suis très attentif à la synergie forte entre l'informatique et les statistiques dans ce diplôme, ce sont là les piliers essentiels du métier de data scientist. Attention, pour la majorité, il s'agit de « slides » imprimés en PDF, donc très peu formalisés, ils mettent avant tout l'accent sur le fil directeur du domaine étudié et recensent les points importants. Cette page est bien entendu ouverte à tous les statisticiens, data miner et data scientist, étudiants ou pas, de l'Université Lyon 2 ou d'ailleurs. Nous vous remercions par avance. Ricco Rakotomalala – Université Lyon 2

http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html

Related:  Données

Données de la recherche - veille collaborative > Library Home > Groups > Données de la recherche - veille collaborative > Library > Vers une culture de la données en SHS. Une étude à l'université de Lille Tags More Refresh Cours Data Mining - Data Science, Big Data Analytics Contenu et objectifs du cours DATA MINING - DATA SCIENCE Data Mining Le DATA MINING , raccourci de "Extraction de Connaissances à partir de Données" ("Knowledge Discovery in Databases" en anglais - KDD), est un domaine très en vogue. A la lecture des différents documents essayant tant bien que mal de définir exactement ce qu'est le data mining, on peut se dire que, finalement, cela fait plus de 30 ans qu'on le pratique avec ce qu'on appelle l'analyse de données et les statistiques exploratoires. Et on n'aurait pas complètement tort. En réalité, ce n'est pas aussi simple, le data mining emmène plusieurs points nouveaux qui sont loin d'être négligeables :

Conférences de la Bibliothèque - Division de l'information scientifique (DIS) Jean-Blaise Claivaz, Coordinateur du pôle Open access et données de la recherche, CODIS, UNIGELaure Ognois, Directrice du service Recherche, UNIGEEliane Blumer, Coordinatrice du projet CUS-P2 DLCM, UNIGEPierre-Yves Burgi, NTICE, chef de projet CUS-P2 DLCM, UNIGEMarie Fuselier, Directrice de la DIS, UNIGE Programme complet Date Mercredi 6 mai 2015, de 10h15 à 12h Lieu Genève, Uni Dufour24, rue du Général-DufourAuditoire Rouiller U300Accès

Conception d'un entrepôt de données Nous avons vu dans mes articles précédents ce qu'était le BI, ce que comprenait un environnement décisionnel et qu'il avait comme concept central l'entrepôt de données ou le Data Warehouse. Intéressons nous maintenant à comment concevoir un entrepôt de données. Quelle structure permet-elle d'avoir les fonctionnalités requises pour un entrepôt de données ? Fouille de données – Persée UMS Cumulés, les contenus numériques produits par Persée – qu’ils alimentent le portail Persée ou les Perséides – constituent une masse critique de données structurées. Au-delà de la simple consultation par le biais de sites web, ces données constituent un corpus à part entière pouvant faire l’objet d’exploitations transversales : visualiser des tendances, observer l’évolution de certains concepts, termes ou métaphores d’un point de vue diachronique, mesurer des occurrences, évaluer l’influence d’un auteur ou d’un texte au regard d’un contexte. Vous pouvez accéder et utiliser ces données dans le respect du droit des tiers : ● Data Persée réunit les données décrivant l’ensemble des ressources produites par Persée, en RDF.

Manipulation et gestion de données — Bibliothèques Universitaires Besoin de rédiger un plan de gestion de données, de publier une bibliographie interactive, de constituer un corpus documentaire, d’enrichir ou de nettoyer un jeu de données ? Les BU accompagnent la manipulation et la gestion des données utilisées et produites dans le cadre d’activités de recherche. Un service évolutif Voir la plaquette présentant les services à la recherche Ce service sera déployé progressivement à partir de janvier 2016. Son périmètre sera susceptible d’évoluer en fonction des besoins identifiés. Prospectibles Droit de l'information Archives Les plateformes occupent une place de plus en plus prépondérante dans l’activité numérique actuelle. Que ce soit sur des applications mobiles ou à propos de nouveaux services publics ou associatifs, on retrouve cette même notion à la définition un peu floue. Définition et réglementation

Le text-mining comme service aux chercheurs – Carnet'IST Lorsque les doctorants débutent leur thèse, ils sont souvent confrontés à un volume important de documents qu’ils collectent au cours de leurs recherches bibliographiques ou dont ils héritent de leurs pairs qui leur confient leur « bibliothèque ». Cela peut représenter des centaines de documents. C’est avec cette problématique qu’une doctorante nous a sollicitée : elle devait « lire » plus de 650 documents.

OpenData : Apprendre à réutiliser des données : Cours et recettes en français pour tous Bien que l’on parle de la possibilité de réutilisation des données ouvertes (open data), cela demeure nébuleux pour la plupart des citoyens qui ne maîtrisent pas le développement informatique. L’Ecole des données (School of Data), initiative de l’Open Knowledge Foundation vise à donner plus de pouvoir à la société civile en fournissant en ligne des éléments pédagogiques pour apprendre à réutiliser les données. Cette éducation critique au numérique par le faire s’avère essentielle au sein des EPN. Statistiques d'utilisation - AnalogIST/ezPAARSE Le projet ezPAARSE, porté entre 2012 et 2015 par une collaboration avec l'INIST-CNRS et l'Université de Lorraine, est désormais terminé. Nous avons entamé le projet ezMESURE au début de l'année 2016, qui prend la suite d'ezPAARSE en mettant à contribution les instances qui sont déjà déployées dans les établissements pour proposer un entrepôt national et des interface de visualisation des données collectées. - L'instance partagée d'ezPAARSE (hébergée à l'INIST-CNRS) pour s'appropier et tester le logiciel en conditions ré - ANG : la plateforme d'analyses des plateformes éditeur pour enrichir les capacités de reconnaissance d' - Le site collaboratif d'information pour la communauté des - Le fil Twitter du projet, pour avoir toutes les dernières nouvelles rapidement et entrer en contact avec l'é - le dépôt public pour récupérer le code source du projet

Related: