Mining Data-text-web

TwitterFacebook
Get flash to fully experience Pearltrees
http://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es Un article de Wikipédia, l'encyclopédie libre. L’ exploration de données [ Note 1 ] , connue aussi sous l'expression de fouille de données , forage de données , prospection de données , data mining , ou encore extraction de connaissances à partir de données, « ECD » en français, « KDD » en anglais, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données , par des méthodes automatiques ou semi-automatiques. L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web . L'exploration de données [ 1 ] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l' informatique décisionnelle .

Exploration de données - Wikipédia

Data mining - Wikipedia, the free encyclopedia

Data mining (the analysis step of the knowledge discovery in databases process, [ 1 ] or KDD), a relatively young and interdisciplinary field of computer science [ 2 ] [ 3 ] is the process of discovering new patterns from large data sets involving methods at the intersection of artificial intelligence , machine learning , statistics and database systems . [ 2 ] The overall goal of the data mining process is to extract knowledge from a data set in a human-understandable structure [ 2 ] and besides the raw analysis step involves database and data management aspects, data preprocessing , model and inference considerations, interestingness metrics, complexity considerations, post-processing of found structure, visualization and online updating . [ 2 ] http://en.wikipedia.org/wiki/Data_mining
In essence, Data Mining is the use of computers to help make sense of information. Typically, special techniques are used to find patterns in data. For more detail see this good overview article on Data Mining . Data Mining Software We maintain a List of Data Mining Software . http://www.the-data-mine.com/

Data Mining - Home Page - The Data Mine Wiki

Whatdoestheinternetthink.net - Disclaimer × The results are provided 'as is' and should not be considered reliable, nor do they reflect the opinion of whatdoestheinternetthink.net, its creators or Microsoft. Furthermore, results may vary greatly on a daily, or even hourly, basis. The results are merely a reflection of a majority in search term results reported by said search-engine. Whatdoestheinternetthink.net - How it 'works' × http://www.whatdoestheinternetthink.net/

whatdoestheinternetthink?net

Data Exploration

Browser Automation

http://www.alchemyapi.com/

AlchemyAPI - Transforming Text Into Knowledge

Named Entity Extraction Identify people, companies, organizations, cities, geographic features, and other typed entities within HTML pages, text documents/content, and scanned document images. Our advanced named entity recognition (NER) capability supports multiple languages and offers comprehensive disambiguation capabilities not found in other solutions. Extract important terms and "topic" keywords from HTML pages, text documents/content, and scanned document images. Advanced statistical and linguistic algorithms analyze your content, "tagging" it with the most important words and phrases.
Back in late 2006, Google released a massive set of web n-gram data (basically pieces of sentences). A trigram (n=3), for example, might be "I like food" or "frog is tasty." Each n-gram is also labeled with the number of times it appeared in Google's corpus. The entire archive, which is almost 100GB uncompressed, has unigrams (n=1) through fivegrams (n=5).

Chris Harrison - Web Trigrams Visualization

http://www.chrisharrison.net/projects/trigramviz/index.html
http://anand.typepad.com/datawocky/2011/04/retail-social-mobile-walmartlabs.html Eric Schmidt famously observed that every two days now, we create as much data as we did from the dawn of civilization until 2003. A lot of the new data is not locked away in enterprise databases, but is freely available to the world in the form of social media: status updates, tweets, blogs, and videos. At Kosmix, we’ve been building a platform, called the Social Genome, to organize this data deluge by adding a layer of semantic understanding. Conversations in social media revolve around “social elements” such as people, places, topics, products, and events. For example, when I tweet “Loved Angelina Jolie in Salt,” the tweet connects me (a user) to Angelia Jolie (an actress) and SALT (a movie). By analyzing the huge volume of data produced every day on social media, the Social Genome builds rich profiles of users, topics, products, places, and events.

Retail + Social + Mobile = @WalmartLabs

http://fr.wikipedia.org/wiki/Fouille_du_web

Fouille du web - Wikipédia

Un article de Wikipédia, l'encyclopédie libre. La fouille du Web est l'application des techniques d' exploration de données en vue de découvrir des constantes, schémas ou modèles, dans les ressources d'internet ou les données le concernant. Selon ses cibles, la fouille du web peut être divisée en trois types : la fouille de l'usage du web, la fouille du contenu du web, la fouille de la structure du web [ 1 ] . Le processus de fouille de l'usage du web

Web mining - Wikipedia, the free encyclopedia

Web mining - is the application of data mining techniques to discover patterns from the Web . According to analysis targets, web mining can be divided into three different types, which are Web usage mining , Web content mining and Web structure mining . [ edit ] Web usage mining Web usage mining is the process of extracting useful information from server logs i.e users history. http://en.wikipedia.org/wiki/Web_mining
http://maya.cs.depaul.edu/~mobasher/webminer/survey/survey.html

Web Mining: Information and Pattern Discovery on the World Wide Web

Next: Introduction Robert Cooley, Bamshad Mobasher, Jaideep Srivastava authors are ordered alphabetically Abstract: Two important and active areas of current research are data mining and the World Wide Web.

Recherche d'information - Wikipédia

Un article de Wikipédia, l'encyclopédie libre. Abrégée en RI ou IR ( Information Retrieval en anglais ), la recherche d' information est le domaine qui étudie la manière de répondre pertinemment à une requête en retrouvant de l'information dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données , qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web , l' internet et les intranets . Le contenu des documents peut être du texte, des sons, ses images ou des données .
Un article de Wikipédia, l'encyclopédie libre. L' exploration de données étant à l'intersection des domaines de la statistique , de l' intelligence artificielle et de l' informatique , il semble intéressant de faire un glossaire où on peut retrouver les définitions des termes en français et leur équivalent en anglais classées selon ces trois domaines, en indiquant lorsque c'est utile s'il s'agit d'exploration de données "classique", de fouille de texte, du web, de flots de données ou de fichier audio. FP-tree ( « Frequent Pattern tree » ) : Dans le domaine des règles d'association , c'est la déclinaison d'un arbre trie composé d'une racine, de sous-arbres préfixés par les items, et d'une table des items fréquents. Chaque nœuds contient le nom de l'item, le nombre de transactions contenant l'item dans la portion de l'arbre menant à ce nœud, un lien vers le prochain nœud portant le même nom d'item - ou null s'il n'y en n'a pas.

Glossaire du data mining - Wikipédia

Fouille de textes - Wikipédia

Un article de Wikipédia, l'encyclopédie libre. La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l' intelligence artificielle . Cette technique est souvent désignée sous l'anglicisme text mining .
Les outils de text-mining ont pour vocation d’ automatiser la structuration des documents peu ou faiblement structurés. Ainsi, à partir d’un document texte, un outil de text-mining va générer de l’information sur le contenu du document . Cette information n’était pas présente, ou explicite, dans le document sous sa forme initiale, elle va être rajoutée, et donc enrichir le document. Il y a quelques règles de base que les outils de text-mining se doivent de respecter dans leur traitement.

Introduction au Text-mining

Text mining - Wikipedia, the free encyclopedia

Text mining , sometimes alternately referred to as text data mining , roughly equivalent to text analytics , refers to the process of deriving high-quality information from text. High-quality information is typically derived through the devising of patterns and trends through means such as statistical pattern learning . Text mining usually involves the process of structuring the input text (usually parsing, along with the addition of some derived linguistic features and the removal of others, and subsequent insertion into a database ), deriving patterns within the structured data, and finally evaluation and interpretation of the output.