background preloader

Portail données ouvertes

Portail données ouvertes

Startseite | opendata.admin.ch A Practical Intro to Data Science — Zipfian Academy - Data Science Bootcamp Are you a interested in taking a course with us? Learn more on our programs page or contact us. There are plenty of articles and discussions on the web about what data science is, what qualities define a data scientist, how to nurture them, and how you should position yourself to be a competitive applicant. At Zipfian Academy, we believe that everyone learns at different paces and in different ways. We would love to hear your opinions on what qualities make great data scientists, what a data science curriculum should cover, and what skills are most valuable for data scientists to know. While the information contained in these resources is a great guide and reference, the best way to become a data scientist is to make, create, and share! Environment While the emerging field of data science is not tied to any specific tools, there are certain languages and frameworks that have become the bread and butter for those working in the field. Development Statistics Courses Books Tutorials Tools Blogs

GovData | Datenportal für Deutschland - GovData Random forest The selection of a random subset of features is an example of the random subspace method, which, in Ho's formulation, is a way to implement classification proposed by Eugene Kleinberg.[6] History[edit] The early development of random forests was influenced by the work of Amit and Geman[5] which introduced the idea of searching over a random subset of the available decisions when splitting a node, in the context of growing a single tree. The idea of random subspace selection from Ho[4] was also influential in the design of random forests. In this method a forest of trees is grown, and variation among the trees is introduced by projecting the training data into a randomly chosen subspace before fitting each tree. The introduction of random forests proper was first made in a paper by Leo Breiman.[1] This paper describes a method of building a forest of uncorrelated trees using a CART like procedure, combined with randomized node optimization and bagging. Algorithm[edit] Tree bagging[edit] .

Centre de Données astronomiques What should I study or learn if I want to be a data analyst? Open Data : Europeana ouvre les données de 20 millions d'oeuvres Europeana, la médiathèque co-financée par l'Union Europénne, a annoncé mercredi la mise en ligne d'un ensemble de métadonnées couvrant 20 millions d'oeuvres numérisées, sous une licence gratuite qui autorise toute forme d'exploitation. Excellente nouvelle pour les développeurs, et pour les amateurs d'art. Alors qu'en France les données culturelles sont exclues du champs des données devant être offertes librement au public, Europeana a annoncé mercredi l'ouverture de ses métadonnées couvrant 20 millions d'oeuvres référencées, dans 29 langues. Cette initiative, d'une ampleur inédite au monde, "offre un nouvel élan à l'économie numérique, en fournissant aux entrepreneurs électroniques de nouvelles opportunités pour créer des applications et des jeux innovants pour les tablettes et smartphones, et pour créer de nouveaux services et portails web", estime Europeana. Lire Flickr : succès pour la marque du domaine public et la licence CC 0 Open Data : le gouvernement veut muscler les sanctions

Python (programming language): How can I learn to program in Python? OpenData : Bouches-du-Rhône Tourisme a déjà attiré 10 000 internautes Depuis son lancement en avril 2012, le site a attiré 10 000 visiteurs - Capture d'écran Depuis que Bouches-du-Rhône Tourisme a libéré ses données touristiques, en avril 2012, le site data.visitprovence.com compte 10 000 visiteurs, plus de 4 000 téléchargements et 2 créations numériques développées à partir des informations présentées. Par ailleurs, afin de faciliter la mise à jour, le CDT a mis en place, en partenariat avec Microsoft, un système qui permet d'accéder aux données via une API sur le portail OGDI DataLab. Et, pour pousser les internautes à développer des application numériques ou des sites web, le CDT lance une opération de sponsoring OpenData. Les créations sélectionnées seront rémunérées 500 € TTC afin de promouvoir la destination et faire découvrir sa démarche de libération des données. A lire sur le sujet : Données touristiques : le CDT des Bouches-du-Rhone se positionne sur l'Open data Autres articles

How do I become a data scientist? Les déplacements intelligents à l'heure de l'Open Data ciblés par OBS et la Société Générale le 17/09/2012, par Quentin Renard, Terminaux et Systèmes, 689 mots ALD Automotive, filiale de la Société Générale, s'associe à Orange Business Service afin de proposer un assistant de mobilité personnel et intelligent. L'application permet aux salariés de gagner du temps de trajet ou de réduire l'impact écologique de leurs déplacements en puisant aux meilleures sources de données. ALD Automotive, la filiale de la Société Générale dédiée à la location de parc automobile à destination des entreprises, a présenté le lundi 17 décembre 2012 la solution Aldo, développée en partenariat avec l'opérateur télécoms Orange Business Service (OBS). Selon François Estrabaud, Marketing Manager chez OBS, le but d'Aldo est de « simplifier la vie des gens. » Derrière ce slogan, il s'agit de proposer à un employé d'une entreprise de planifier un déplacement en lui indiquant le mode de transport adéquat. Photo : Laurent Corbellini - Directeur Marketing ALD Automotive France (D.R)

Heat map Heat map generated from DNA microarray data reflecting gene expression values in several conditions Heat maps originated in 2D displays of the values in a data matrix. Larger values were represented by small dark gray or black squares (pixels) and smaller values by lighter squares. There are different kinds of heat maps: There are many different color schemes that can be used to illustrate the heatmap, with perceptual advantages and disadvantages for each. The colors lack the natural perceptual ordering found in grayscale or blackbody spectrum colormaps.Common colormaps (like the "jet" colormap used as the default in many visualization software packages) have uncontrolled changes in luminance that prevent meaningful conversion to grayscale for display or printing. Software Implementations[edit] Several heat map software implementations are listed here (the list is not complete): PermutMatrix is a work space designed to graphically explore numérical dataset. Examples[edit] References[edit]

Home'n'go met l'open data au service de la recherche de logement Mercredi 12 se tiendra le Camping Demo Day Tour. L'occasion pour les douze start-ups soutenues par l'accélérateur de présenter leur projet aux investisseurs. Parmi eux, Home'n'go, un service de recherche de logement enrichi de données économiques, démographiques ou même politiques. Quand ils sont sortis de HEC en 2011, Adrien Pavillet, Sébastien Zerah et Margaux Pelen ont tous trois cherché un appartement. « C'est chronophage et stressant et on ressentait le besoin d'avoir un service qui centralise les annonces », confie cette dernière. De l'avis Margaux Pelen, « les grandes agences immobilières n'ont pas pris le tournant du Web 2.0 ». Home'n'go repose sur quatre piliers : centralisation, gestion, information et collaboration. « Pour l'instant nous comptons 1,5 millions d'annonces mais à terme nous voulons couvrir 95% du marché immobilier français », annonce Margaux Pelen. Le deuxième pilier du service permet de gérer les annonces.

The One-Stop Shop for Big Data Today, I’m going to explain in plain English the top 10 most influential data mining algorithms as voted on by 3 separate panels in this survey paper. Once you know what they are, how they work, what they do and where you can find them, my hope is you’ll have this blog post as a springboard to learn even more about data mining. What are we waiting for? Let’s get started! Here are the algorithms: 1. What does it do? C4.5 constructs a classifier in the form of a decision tree. Wait, what’s a classifier? A classifier is a tool in data mining that takes a bunch of data representing things we want to classify and attempts to predict which class the new data belongs to. What’s an example of this? Sure, suppose a dataset contains a bunch of patients. Now: Given these attributes, we want to predict whether the patient will get cancer. And here’s the deal: Cool, so what’s a decision tree? Decision tree learning creates something similar to a flowchart to classify new data. The bottomline is: Why use C4.5?

Related: