Data Mining Community's Top Resource

Data Mining sous R - Le package rattle Le père de Tanagra est aussi un fan de R. Cela peut paraître étrange et/ou contradictoire. Mais en réalité, je suis surtout un grand fan de Data Mining. Dans ce tutoriel, nous présentons le package rattle pour R spécialisé dans le Data Mining. Pour décrire le fonctionnement de rattle, nous reprenons la trame du document de présentation publié par son auteur dans le journal de R (voir référence). Mots clés : logiciel R, rpart, random forest, glm, arbres de décision, régression logistique, forêt aléatoire, forêts aléatoiresLien : fr_Tanagra_Rattle_Package_for_R.pdfDonnées : heart_for_rattle.txtRéférences :Togaware, "Rattle"CRAN, "Package rattle - Graphical user interface for data mining in R"G.J.

Poll: R GUIs you use frequently This poll got huge participation from over 600 readers, of which only 50 did not use R. After removing the last group, and some suspicious(*) votes, we got 562 voters, who used an average of 1.6 GUI per person. The regional distribution was US/Canada - 45% (top GUI: R console, RStudio, Eclipse/StatET) W. Europe - 35% (top GUI: RapidMiner R extension, R console, Eclipse/StatET) Latin America - 4.8% (top GUI: R console, Tinn-R, Rattle GUI) E. Europe - 4.4% (top GUI: R console, RStudio, Eclipse/StatET) Asia - 4.3% (top GUI: Rstudio, R console, RStudio, Tinn-R) Africa/Middle East - 3.4% (top GUI: R console, RStudio, Rattle GUI) Australia/New Zealand - 3% (top GUI: Rattle GUI, R console, Tinn-R) The top 3 countries with most voters were US (42.5%), Germany (15.3%), and UK (4%). (* Over 100 votes for "Eclipse/StatET" from Belgium were removed, since they looked like they came from the same person). Comments Regarding another R GUI: Has anyone experience with RevolutionAnalytics? M.

Data Extraction Data Extraction and Web Scraping A key activity in web automation is the extraction of data from websites, also known as web scraping or screen scraping. Whether it is price lists, stock information, financial data or any other type of data, iMacros can extract this data for you and either re-use the data or store it in a file or database. iMacros can write extracted data to standard text files, including the comma separated value (.csv) format, readable by spreadsheet processing packages. Also, iMacros can make use of the powerful scripting interface to save data directly to databases. The Extract command Data extraction is specified by an EXTRACT parameter in the TAG command. TAG POS=1 TYPE=SPAN ATTR=CLASS:bdytxt&&TXT:* EXTRACT=HTM This means that the syntax of the command is now the same as for the TAG command, with the type of extraction specified by the additional EXTRACT parameter. Creation of Extraction Tags Extraction Wizard Text Extraction Wizard Extraction from Framed Websites Example:

Comprendre Hadoop en moins de 5 minutes « Java EE performance Dans ce tutorial, nous allons découvrir Hadoop au travers de son système de fichiers distribués et son mécanisme de Map/Reduce. Comprendre les grands concepts de Hadoop Comprendre le HDFS et le mécanisme de Map/Reduce Hadoop est un projet Open Source écrit en java, distribué par la fondation Apache. Son système de fichiers HDFS permet de distribuer le stockage des données et de faire des analyses très performantes sur ces données grâce au modèle MapReduce permettant de distribuer une opération sur plusieurs nœuds dans le but de paralléliser leur exécution. Le HDFS est le système de fichiers utilisé par Hadoop. Pour plus d’informations sur l’architecture et la configuration du HDFS vous pouvez consultez la très bonne documentation de Hadoop: Il est important de savoir qu’un ensemble de commandes est mis à disposition pour interagir avec ce système. Il suffit d’invoquer la commande: . Voici quelques exemples de commandes utiles: Voici la commande: </b></i>*}

[Tuto] Utiliser Tor comme proxy Je tiens à rajouter pour faire mon gros chieur, que si jamais vous avez juste besoin de naviguer un petit coup de temps en temps de façon occasionnelle, vous pouvez télécharger le Tor Browser Bundle, qui contient tout dans un petit dossier : Tor, et un navigateur Firefox pré-configuré pour tourner avec. L'installation est hyper facile et y'a rien à faire. Et cette solution présente un intérêt supplémentaire, hormis la facilité d'installation. En effet, Tor ne fait qu'anonymiser les communications du navigateur, mais pas celles de ses composants. Ainsi, les différents composants additionnels au navigateur peuvent compromettre l'anonymat. Le Tor Browser Bundle contient un navigateur Firefox vierge et exempt de tout plugin, ce qui garantit donc un anonymat parfait. Et enfin, chose à ne pas oublier, votre trafic est relayé par des inconnus, et tous ne sont pas de bonne foi. Le réseau Tor doit donc être uniquement utilisé à des fins d'anonymat, mais certainement pas de sécurité.

Data Mining and Screen Scraping from ScrapeGoat.com Q. Is data scraping legal? A. Data scraping from public data repositories is very common and in most cases legal. However, copyright infringement is a major concern for us. The goal of data scraping is not to try and get something for free or little cost, but to save you lots of money in the long term by automating essential business processes that are currently being done manually or not at all due to overwhelming cost or time constraints. ScrapeGoat operates under the assumption that the data you ask us to extract will be used legally and ethically and that you have obtained all necessary permission from the targeted data source. Q. A. Reputation or Perception management! Legitimate uses for data scraping abound everywhere from content managment, data entry, data analytics, stock market analytics, data verification, data updates, quality assurance, market intelligence, automated web searches, dynamic content for wireless devices, and so many other valuable and clever uses. Q. A. Q. A.

PlaceFinder Yahoo BOSS Geo Services Yahoo BOSS is a suite of services that provides Developers premium API's that can support Search and Geo applications. BOSS Geo services include two primary offerings today, Placefinder and PlaceSpotter, which allows developers to geo-enrich their applications and make them more location aware. How Do I Get Started? Learn more about BOSS Geo. Signing up for BOSS BOSS is a suite of services including Search and Geo offerings. Review the step by step tutorial and sign up when ready. Pricing This table only reflects an overview of the pricing. Overview of BOSS Geo Yahoo BOSS PlaceFinder Yahoo PlaceFinder is a geocoding Web service that helps developers make their applications location-aware by converting street addresses or place names into geographic coordinates (and vice versa). Yahoo BOSS PlaceSpotter PlaceSpotter provides geo-enrichment for the hugely significant proportion of Web content that is geographically relevant but not geographically discoverable. Terms of Use

Chicoree Installer Arduino sous Windows XP La plate-forme Arduino permet de se familiariser avec l'informatique embarquée pour un coût modeste et avec une grande simplicité d'utilisation. L'environnement de programmation Arduino est disponible pour Linux, Mac OS X et Windows. Cette dernière famille de systèmes d'exploitation, même si elle est loin d'avoir ma préférence, reste souvent celle dont dispose les utilisateurs qui se lancent sur Arduino. Pour ceux qui ne sont pas encore sensibles aux charmes de Linux, voici donc comment installer Arduino sous Windows XP. Télécharger le logiciel Télécharger le logiciel — La première étape pour utiliser Arduino est de se rendre à l'adresse pour télécharger l'environnement de développement. Copier le contenu de l'archive — Le fichier que vous avez téléchargé est une archive ZIP. Ne fermez surtout par la fenêtre, sinon vous ne pourrez pas Coller le dossier à l'étape suivante! Coller le dossier du logiciel — Collez le dossier où vous le souhaitez. Voir aussi

Interfaces mobiles : nouveaux usages, nouvelles ergonomies L'ergonomie sur les tablettes est en constante évolution. Les nouveaux usages d'aujourd'hui définissent les standards de demain. Dans ces conditions, comment faire une application ou un site mobile qui marche ? Miratech a déjà mené plus de 400 tests utilisateurs sur des interfaces mobiles (applications ou sites mobiles, sur tablettes ou sur smartphones). règle n° 1 : soignez l'intuitivité ; règle n° 2 : les règles du Web s'appliquent encore (presque) toutes au mobile. Faire comprendre de façon intuitive comment fonctionne le site ou l'application▲ Les interfaces mobiles sont pour la plupart tactiles. si un élément est cliquable, le curseur de la souris se transforme en main ; si une page est longue, un ascenseur apparaît ; si une action prend du temps, un sablier s'affiche… Nous avions d'ailleurs mesuré que l'utilisation d'un iPad génère quatre fois plus d'erreurs que l'utilisation d'un ordinateur. L'image ci-dessous est tirée de Jobintree, une application de recherche d'emploi.

Changer son adresse IP par script ou batch (XP, Vista) Partie 3 : Admin-Network.fr Publié le 14 août 2009Classé dans réseau | 4 commentaires Si vous ne les avez pas lu, il serait bien de lire d’abord les deux premières parties : - Première Partie - Deuxième Partie Pour commencer, si vous ne savez pas créer un fichier batch voici la méthode la plus simple : Aller sur le bureau de votre ordinateur ou dans un répertoire quelconque, faites un clique-droit puis « Nouveau »-> »Document texte ». Pour créer et éditer des fichier batch je vous conseille vivement d’utiliser le logiciel « PowerBatch » qui est disponible dans la rubrique Logiciels. Nous allons donc copier les lignes de code suivantes directement dans le bloc note ou PowerBatch, on sauvegarde et on lance le fichier .bat (Attention sous Windows Vista il faut lancer le fichier en tant qu’administrateur via un clique-droit sur le fichier) et on admire le résultat : netsh interface IP set address « Connexion au réseau local » static 192.168.10.100 255.255.255.0 192.168.10.1 1 Le fichier ne fonctionne pas! La faute à qui?

Subsonic – Créez votre propre clone de Deezer _2F_, super modo sur le forum, m'a fait découvrir ce matin Subsonic, un outil gratuit qui va faire plaisir à tous les fans de musique ! Subsonic permet en effet de se faire son propre clone de Deezer (ou un spotify web) hébergé à la maison. Vous pouvez ainsi partager votre musique sur le net, en donner l'accès qu'à quelques personnes et l'écouter depuis n'importe où avec votre navigateur ou les applications clientes Air, iPhone ou Android disponibles. Subsonic support les MP3, OGG, AAC et d'autres formats audio mais aussi les formats vidéo avec un peu de bidouille et une install de ffmpeg (voir le forum pour plus d'infos sur le stream vidéo) Toutes vos playlists peuvent être exportées / importées dans un grand nombre de formats (M3U, PLS, XSPF..etc) et il est même possible d'importer des podcasts de manière automatique (via un flux RSS). Pour couronner le tout, vous aurez même le droit à quelques stats et il est possible de changer le look et la langue de l'interface... Le Guide des Gamers

Coding for Journalists 101: Go from knowing nothing to scraping Web pages. In an hour. Hopefully. | Dan Nguyen pronounced fast is danwin UPDATE (12/1/2011): Ever since writing this guide, I’ve wanted to put together a site that is focused both on teaching the basics of programming and showing examples of practical code. I finally got around to making it: The Bastards Book of Ruby. I’ve since learned that trying to teach the fundamentals of programming in one blog post is completely dumb. Also, I hope I’m a better coder now than I was a year and a half ago when I first wrote this guide. Check it out and let me know what you think: Who this post is for His Girl Friday You’re a journalist who knows almost nothing about computers beyond using them to connect to the Internets, email, and cheat on Facebook scrabble. Anyone who has taken a semester of computer science will scoff at how I’ve simplified even the basic fundamentals of programming…and they’d be right…but my goal is just to get you into the basics to write some useful code immediately. Thankfully, coding is something that provides immediate success and failure. Tags