background preloader

Data Mining Map

Related:  Data mining

Data Mining - PPDM Wiki From PPDM Wiki Introduction Traditional data analysis is done by inserting data into standards or customized models. In either case, it is assumed that the relationships among various system variables are well known and can be expressed mathematically. However, in many cases, relationships may not be known. Data mining (DM) is a term used to describe knowledge discovery in databases. DM is on the interface of computer science and statistics, utilizing advances in both disciplines to make progress in extracting information from large databases. The major characteristics and objectives of data mining Data are often buried deep within very large databases, which sometimes contain data from several years. Effectively leveraging data mining tools and technologies can lead to acquiring and maintaining a strategic competitive advantage. How Data Mining Works Intelligent data mining discovers information within data warehouses that queries and reports cannot effectively reveal. Classes

Comparatif des logiciels gratuits de Data Mining Ce site reprend les supports utilisés pour le séminaire du 12 déc 2005 au Laboratoire ERIC. Il s'agissait de déterminer si des logiciels gratuits pouvaient être utilisés dans l'enseignement du Data Mining à l'Université. Le mode de fonctionnement de trois logiciels très répandus dans la communauté de la fouille de données a été décrit en détail : WEKA, ORANGE et TANAGRA. De mon point de vue, la réponse est double : OUI, si l'objectif est d'expliquer le fonctionnement des méthodes de fouille de données, interpréter les résultats, comparer les techniques ; NON, si l'objectif est de montrer la mise en oeuvre des logiciels de data mining dans les processus industriels. Portail KDNUGGETS » WEKA » ORANGE » TANAGRA » ALPHAMINER » YALE

Scraper un site en Ruby pour les nuls (ou presque) # encoding: UTF-8 require 'open-uri' require 'nokogiri' require 'csv' # Nettoie les caractères inutiles dans une chaine def clean str str.strip.gsub("\n", ' ').gsub(' ', ' ').gsub(' ', ' ').gsub(' ', ' ').gsub(' ', ' ').gsub(' ', ' ').gsub(' ', ' ') end # les types de décisions # on va écrire dans ce fichier CSV.open("conseil_constitutionel.csv", "w") do |csv| # l'entête csv << ["Année", "Numéro", "Date", "N°", "Type", "Intitulé", "Décision", "URL"] # le point d'entrée main_url = " # dans cette page on récupère tous les liens qui sont dans le div #articlesArchives qui vont correspondre aux pages listant les décisions Nokogiri::HTML(open(main_url)).search('#articlesArchives a').each do |a| # le contenu du lien corespond à l'année year = a.inner_text Nokogiri::XML(open(url_decision), nil, 'UTF-8').search('#articles li').each do |decision| if index_id

Echtzeitnachrichten | Jandaya Was ist Jandaya? Ein einzelnes Ereignis oder eine Analystenaussage können ausreichen, um einen Kurs oder einen ganzen Markt in Bewegung zu bringen. Wer frühzeitig darüber informiert ist, kann schneller reagieren und seine Investitionen entsprechend anpassen. Hier setzt Jandaya an. Jandaya berichtet täglich von 7.30 bis 24 Uhr über die weltweiten Märkte – kurz, präzise und in Echtzeit, damit Sie keine Zeit verlieren, sondern sofort handeln können. Zu welchen Unternehmen, Märkten oder Anlageklassen Ihnen Jandaya in Echtzeit berichtet, entscheiden Sie selbst. Mit Jandaya lesen und sehen Sie genau die Finanznachrichten, die Sie interessieren – genau dann, wenn sie wichtig sind. Wofür steht der Name „Jandaya”? Jandaya ist der Name einer Papageienart, die durch ihre hohe Intelligenz und ihre Fähigkeit zu sprechen auf sich aufmerksam macht. Wie funktioniert Jandaya? Damit Sie sich sofort zurechtfinden, ist Jandaya bewusst einfach und klar gehalten.

使用 Ruby 和 Twitter 进行数据挖掘 2008 年 10 月,与其他许多人一样,出于好奇,我创建了一个 Twitter 帐户。与大多数人一样,我与朋友建立连接,随意进行一些搜索,以便更好地理解这项服务。使用 140 个字符进行通信似乎并不是使 Twitter 广受欢迎一条创意。一个不相关的事件帮助我理解了 Twitter 的真实价值。 2009 年 7 月初,我的 Web 托管提供者突然无法使用。 那时我才意识到,Twitter 的真正威力在于个人和团体之间的开放、实时信息通信。 Twitter 和 API 早期 Web 旨在进行人机交互,当今的 Web 旨在通过 Web 服务进行机器间交互。 Web 服务通过几种风格实现。 回页首 快速浏览 Ruby 和 Twitter 下面,我们来探索如何联用 Twitter API 和 Ruby。 要获取最新的完整 Ruby 发行版(一个大小约为 13MB 的下载),使用以下命令行: $ sudo apt-get install ruby1.9.1-full 接下来,使用 gem 实用工具获取 Twitter gem: $ sudo gem install twitter 现在,您已经拥有这个步骤所需的组件,下面,我们来执行一个 Twitter 包装器测试。 清单 1 展示了一个与 IRB 之间的会话,为了便于阅读,清单 1 被划分为三个部分。 下一个部分(行 004)使用用户定义的位置字段,这是一个自由格式字段,用户可以在其中提供有用和无用位置信息。 最后一个部分(行 005 以后)探索 Twitter::Search 模块。 清单 1. $ irb irb(main):001:0> require "rubygems" => true irb(main):002:0> require "twitter" => true irb(main):003:0> puts Twitter.user_timeline("developerworks").first.text dW Twitter is saving #IBM over $600K per month: will #Google+ add to that? 下面,我们来看看 Twitter 中的一个用户的模式。 清单 2. 我们的快速浏览到此为止。 挖掘 Twitter 数据 用户信息 清单 3. #! 清单 4. user.rb 的样例输出 $ .

Data Mining Image: Detail of sliced visualization of thirty video samples of Downfall remixes. See actual visualization below. As part of my post doctoral research for The Department of Information Science and Media Studies at the University of Bergen, Norway, I am using cultural analytics techniques to analyze YouTube video remixes. My research is done in collaboration with the Software Studies Lab at the University of California, San Diego. A big thank you to CRCA at Calit2 for providing a space for daily work during my stays in San Diego. The following is an excerpt from an upcoming paper titled, “Modular Complexity and Remix: The Collapse of Time and Space into Search,” to be published in the peer review journal AnthroVision, Vol 1.1. The following excerpt references sliced visualizations of the three cases studies in order to analyze the patterns of remixing videos on YouTube. Image: this is a slice visualization of “The Charleston and Lindy Hop Dance Remix.”

Home | MINE: Maximal Information-based Nonparametric Exploration Scraping for Journalism: A Guide for Collecting Data Photo by Dan Nguyen/ProPublica Our Dollars for Docs news application lets readers search pharmaceutical company payments to doctors. We’ve written a series of how-to guides explaining how we collected the data. Most of the techniques are within the ability of the moderately experienced programmer. The most difficult-to-scrape site was actually a previous Adobe Flash incarnation of Eli Lilly’s disclosure site. These recipes may be most helpful to journalists who are trying to learn programming and already know the basics. If you are a complete novice and have no short-term plan to learn how to code, it may still be worth your time to find out about what it takes to gather data by scraping web sites -- so you know what you’re asking for if you end up hiring someone to do the technical work for you. The tools With the exception of Adobe Acrobat Pro, all of the tools we discuss in these guides are free and open-source. Ruby – The programming language we use the most at ProPublica.

Related:  empedocleImprorant Resourcesamitbatra