Simply Statistics

Related: Data science blogs

Linguistics and Data Science Violeta Migallón Con ayuda de los diagramas de Venn podemos dar los primeros pasos para la comprensión del cálculo de probabilidades de distintos sucesos de un espacio muestral. El siguiente geogebra se ha realizado con dicho propósito. En él trabajaremos en términos de porcentajes y en caso de querer calcular probabilidades sólo habrá que dividir entre cien los resultados obtenidos. Para trabajar estos conceptos se puede proponer un ejercicio similar al siguiente. En una ciudad se publican 3 revistas sobre tecnología y videojuegos A, B y C. Mediante una encuesta se estima que el 30% lee la revista A el 20% la revista B, el 15% lee la C, el 10% lee A y B, el 6% lee A y C, el 5% lee B y C, y el 3% lee las tres revistas. ¿Qué porcentaje lee al menos dos revistas? En primer lugar introduciremos los datos que nos dan en el ejercicio tal y como aparece en el Geogebra al que puedes acceder pinchando en la imagen y obtendremos interactivamente los distintos valores del diagrama de Venn:

Cours Data Mining - Data Science, Big Data Analytics Contenu et objectifs du cours DATA MINING - DATA SCIENCE Data Mining Le DATA MINING , raccourci de "Extraction de Connaissances à partir de Données" ("Knowledge Discovery in Databases" en anglais - KDD), est un domaine très en vogue. A la lecture des différents documents essayant tant bien que mal de définir exactement ce qu'est le data mining, on peut se dire que, finalement, cela fait plus de 30 ans qu'on le pratique avec ce qu'on appelle l'analyse de données et les statistiques exploratoires. Et on n'aurait pas complètement tort. En réalité, ce n'est pas aussi simple, le data mining emmène plusieurs points nouveaux qui sont loin d'être négligeables : (1) des techniques d'analyse qui ne sont pas dans la culture des statisticiens, en provenance de l'apprentissage automatique (Intelligence artificielle), de la reconnaissance de formes (pattern recognition) et des bases de données ; (2) l'extraction de connaissances est intégrée dans le schéma organisationnel de l'entreprise. Public visé

Handling Large Datasets In R Handling large dataset in R, especially CSV data, was briefly discussed before at Excellent free CSV splitter and Handling Large CSV Files in R. My file at that time was around 2GB with 30 million number of rows and 8 columns. Recently I started to collect and analyze US corporate bonds tick data from year 2002 to 2010, and the CSV file I got is 6.18GB with 40 million number of rows, even after removing biases data as in Biases in TRACE Corporate Bond Data. How to proceed efficiently? BTW, determining the number of rows of a very big file is tricky, you don’t have to load the data first and use dim(), which easily leads to short of memory. data <- gzfile("yourdata.zip",open="r")MaxRows <- 50000TotalRows <- 0while((LeftRow <- length(readLines(data,MaxRows))) > 0 )TotalRows <- TotalRows+LeftRowclose(data) Tags – data , csvRead the full post at Handling Large Datasets in R. Related Handling Large CSV Files in R A follow-up of my previous post Excellent Free CSV Splitter. August 9, 2010

Home Supports de cours -- Data Mining et Data Science Cette page recense les supports utilisés pour mes enseignements de Machine Learning, Data Mining et de Data Science au sein du Département Informatique et Statistique (DIS) de l'Université Lyon 2, principalement en Master 2 Statistique et Informatique pour la Science des donnéEs (SISE), formation en data science, dans le cadre du traitement statistique des données et de la valorisation des big data. Je suis très attentif à la synergie forte entre l'informatique et les statistiques dans ce diplôme, ce sont là les piliers essentiels du métier de data scientist. Attention, pour la majorité, il s'agit de « slides » imprimés en PDF, donc très peu formalisés, ils mettent avant tout l'accent sur le fil directeur du domaine étudié et recensent les points importants. Cette page est bien entendu ouverte à tous les statisticiens, data miner et data scientist, étudiants ou pas, de l'Université Lyon 2 ou d'ailleurs. Nous vous remercions par avance. Ricco Rakotomalala – Université Lyon 2

New release: Choroplethr v3.2.0 - AriLamstein.com Today I am happy to announce that a new version of choroplethr, v3.2.0, is now available. You can get it by typing the following from an R console: install.packages("choroplethr") Note that it sometimes takes a few days for new packages to get copied to each CRAN mirror. If install.packages(“choroplethr”) only gets you version 3.1.0, please try again tomorrow. This version contains three changes. Change #1: Better Default Projection The most significant change is the addition of a better default map projection. library(choroplethr) data(df_pop_county) df_pop_county$value=NA new = county_choropleth(df_pop_county, title = "New Default") old = CountyChoropleth$new(df_pop_county) old$title = "Old Default" old$projection = element_blank() old = old$render() library(gridExtra) grid.arrange(new, old, ncol=2) Change #2: Better Border Control On maps with many small regions, the borders can obscure information. In previous version of choroplethr it was hard to make the right-hand map. In Other News

The Unofficial Google Data Science Blog