background preloader


Facebook Twitter

[FRENCH] Data Mining avec R dans un monde libre. R est un langage et un environnement pour les calculs statistiques et leurs représentations graphiques. R est similaire au système S qui a été récompensé par le Software System Award de l'ACM (Association for Computing Machinery) et qui est la plate-forme du logiciel commercial S-Plus. Rappelons quelques technologies reconnues par la récompense ACM à savoir UNIX, TeX, PostScript, TCP/IP, World-Wide Web, Tcl/Tk, et Apache. La citation de l'ACM contenait la phrase suivante: «... system, which has forever altered how people analyze, visualize, and manipulate data.» Le but de l'article précédemment paru dans le FI 2/01 [1] était de fournir un point de départ pour les novices intéressés par R [2].

Fin juin 2001, la version 1.3.0 de R est sortie, contenant un portage stable pour MacOS/X [3]. R est un exemple parmi tant d'autres du succès incontestable des logiciels libres - les éléments essentiels d'un monde libre. Qu'est-ce que le data mining? Les bases de données et SQL On aura l'affichage: Blog - Simply Statistics. R-bloggers | R news & tutorials from the web. It's crantastic!

Blog Revolution - statistics. By Terry M. Therneau Ph.D.Faculty, Mayo Clinic About a year ago there was a query about how to do "type 3" tests for a Cox model on the R help list, which someone wanted because SAS does it. The SAS addition looked suspicious to me, but as the author of the survival package I thought I should understand the issue more deeply. It took far longer than I expected but has been illuminating. First off, what exactly is this 'type 3' computation of which SAS so deeply enamored? Imagine that we are dealing with a data set that has interactions. In my field of biomedical statistics all data relationships have interactions: an effect is never precisely the same for young vs old, fragile vs robust, long vs short duration of disease, etc. To compute this, one can start by fitting a sufficiently rich model, get predicted values for our age distribution, and then average them.

A primary statistical issue with type 3 is the choice of reference. Also, I need to mention a couple more things: RStudio - Home. R project. MOOC - R Programming.