background preloader

DATA MINING

Wen Mining Course Unit on Web Log Analysis Web Mining Course Modules To get the presentations, add www.kdnuggets.com/web_mining_course/ in front of ppt files below Module 1: Introduction to Web Mining wm1-web-mining-intro.pptModule 2a: Web Server Log wm2a-web-server-log.pptModule 2b: Unix tools for web log analysis wm2b-unix-web-log-analysis.pptModule 3a: Hit Analysis wm3a-hit-analysis.ppt Module 3b: Gawk tools for web log analysis< wm3b-gawk-web-log-analysis.ppt Module 4a: Visit Analysis; Bot or Not? wm4a-visit-analysis.ppt Module 4b: Perl tools for web log analysis wm4b-perl-web-log-analysis.ppt Basic Perl script for web log parsing (web_log_parse.txt) Module 5: Behavior modeling wm5-behaviour-analysis.ppt Assignments Note: Professors using these modules can get answers by contacting Gregory Piatetsky directly at gregory at kdnuggets dot com. Data This data can be downloaded from kdlog.zip (0.6 MB) in www.kdnuggets.com/web_mining_course/ directory. First 100 log lines are in the unzipped file d100.log in the same directory.

Du contenu roi aux données reines Souvenez-vous… il y a quelques années, le contenu était considéré comme la matière première du web : Celui qui maîtrisait le contenu maitrisait le web (les portails qui agrégeaient de très nombreuses sources de contenu concentraient également l’audience). Puis il y a eu MySpace, les Skyblogs, Facebook, Twitter, FourSquare… et maintenant il parait que c’est la communauté qui est reine. Certes, les plateformes sociales sont indéniablement en haut des tableaux d’audience, mais je reste convaincu que sans contenus une communauté n’est pas viable. Comprenez par là que ce sont les contenus qui alimentent les conversations et font tourner les communautés. Sans rentrer dans la polémique, je pense ne pas me tromper en disant que le contenu reste roi, la communauté se nourrit de ce contenu pour générer des interactions sociales (mais là encore il y a des subtilités : Ne confondez plus communautaire et social). Les données à la base du… journalisme de données Vers des systèmes auto-alimentants

Web-mining.fr Data mining Data mining is the process of discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems.[1] Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal to extract information (with intelligent methods) from a data set and transform the information into a comprehensible structure for further use.[1][2][3][4] Data mining is the analysis step of the "knowledge discovery in databases" process or KDD.[5] Aside from the raw analysis step, it also involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.[1] Etymology[edit] In the 1960s, statisticians and economists used terms like data fishing or data dredging to refer to what they considered the bad practice of analyzing data without an a-priori hypothesis.

L'exploration des données à la portée des non-initiés En téléchargeant un module d'extension du tableur Excel développé par 11Ants, les TPE-PME peuvent accéder à des outils d'analyse mathématiques auparavant réservés aux seuls experts. Pour amener les petites et moyennes entreprises (PME) à se servir d'outils de modélisation mathématiques et de prévision statistique, il faut intégrer ceux-ci dans des logiciels qu'elles connaissent. En suivant cette logique, 11Ants propose une solution qui intègre des fonctions de calculs de probabilités et d'analyse prédictive à Excel. "Nous éliminons l'intimidation des non-initiés en intégrant des outils de 'data mining' à un environnement qui leur est familier", explique à L'Atelier Tom Fuyala, l'un des responsables du projet. Plus concrètement, les fonctions introduites correspondent à une série de techniques mathématiques développées par l'université néo-zélandaise de Waikato. Des algorithmes ajoutés aux paramètres Une solution avantageuse pour les petites entreprises

Six Stunning Projects That Show the Power of Data Visualization Data visualization is taking the web by storm and, with a little luck, it might be the next big thing in online journalism. Buoyed by the open data movement and accelerating change in newsrooms around the country, it has become something more than just flashy graphics and charts — it is a new form of visual communication for the 21st century. In the coming months, I’ll be writing about this emerging field for MediaShift. We’ll cover best practices, free tools and resources. We’ll also analyze the best of the best and talk to some data visualization or viz bloggers about what’s hot and what’s not. From time to time, I’ll share some of my own data viz experiences with you and seek your feedback. What is Data Visualization? At its core, data visualization is the visual representation of information served up with a healthy dose of innovation and creativity. 1. Hans Rosling makes stats come alive Any discussion about data visualization has to start with Hans Rosling. 2. 3. 4. Our Aging World

Data Mining Vs. Semantic Web This tutorial covers the field of datamining in general, talks about its possible applications (special case studies can be added on request), and elaborates on the issue of hardware accelerators for datamining. The introduction gives a formal and an informal definition (through an example), plus it points to possible missunderstandings typical of the topic. The part on methods and algorithms covers a number of different approaches, each one presented thru animation, using the examples that are both colourfull and unusual, but excellent for pointing into the essence. The part on tools lists about a dozen different tools, and selects one for a detailed case study. Would you like to put a link to this lecture on your homepage?

Introduction au Text-mining Les outils de text-mining ont pour vocation d’automatiser la structuration des documents peu ou faiblement structurés. Ainsi, à partir d’un document texte, un outil de text-mining va générer de l’information sur le contenu du document. Cette information n’était pas présente, ou explicite, dans le document sous sa forme initiale, elle va être rajoutée, et donc enrichir le document. A quoi cela peut bien servir ? à classifier automatiquement des documentsà avoir un aperçu du contenu d’un document sans le lireà alimenter automatiquement des bases de donnéesà faire de la veille sur des corpus documentaires importantsà enrichir l’index d’un moteur de recherche pour améliorer la consultation des documents Bref, plusieurs usages et plusieurs services peuvent découler des solutions de text-mining. Comment çà marche ? Il y a quelques règles de base que les outils de text-mining se doivent de respecter dans leur traitement. une approche statistiqueune approche sémantique 1. 2. Les désavantages : 3.

Related: