background preloader

Google

Facebook Twitter

Quand Google Books permet de comprendre notre génome culturel. Pour une fois, on va dire du bien de Google dans cette lecture de la semaine. A travers un article paru sur le site de Discover Magazine en décembre 2010, sous la plume de Ed Young. Le titre de cet article : “Le génome culturel ; Google Books révèle les traces de la notoriété, de la censure et des changements de la langue”. “De la même manière qu’un fossile nous dit des choses sur l’évolution de la vie sur terre, explique Ed Young, les mots inscrits dans les livres racontent l’histoire de l’humanité.

Ils portent une histoire, pas seulement à travers les phrases qu’ils forment, mais aussi par la fréquence de leur occurrence. Découvrir ces histoires n’est pas facile – cela requiert de convertir les livres en format numérique pour que les textes puissent être analysés et comparés. L’équipe a travaillé sur un tiers du corpus total. 5 millions de livres publiés en Anglais, Français, Espagnol, Allemand, Chinois, Russe et Hébreu, et remontant au 16e siècle. 1. 2. 3. 4. Xavier de la Porte. Historique d'une expression dans le corpus Google. Etes-vous déjà allé tester le service Google N-Gram mis en ligne sur le GoogleLabs ? C'est assez fascinant, et c'est une belle illustration de ce que je commençais à évoquer dans mon dernier billet sur les big data. Comme l'expliquent les responsables du projet sur le blog officiel, Google vient tout simplement de mettre à la disposition des chercheurs un invraisemblable corpus. 5 millions de livres ont été numérisés soit, paraît-il, environ 4% des livres imprimés depuis l'aube de l'humanité.

Je suppose que la distribution de ces ouvrages, censément en six langues, est accessibles quelque part. Google Research a ensuite trié les 1000 milliards de mots concernés, pour en construire le modèle n-gram pour n=5. En gros, ils créé le corpus de toutes les séquences de 1 à 5 mots disponibles. 1000 milliards de mots, 13 millions de mots différents, 1 milliard de séquences apparaissant au moins 40 fois, le tout disponible pour la recherche ou même accessible en ligne sur le GoogleLabs. Google Ngram Viewer. Google mini. Google Mini pour le moteur de recherche interne ID Search – ID Nova – Grenoble – Rhône-Alpes. Création et adaptation des moteurs de recherche personnalisés Google (CSE - Custom Search Engine) 1- Introduction L'indexation des pages d'un site dans l'index global de Google peut prendre du temps, il est en effet impossible de gouverner l'arrivée de GoogleBot sur les nouveaux articles déclarés dans un sitemap par exemple.

Aussi Google propose les moteurs de recherche personnalisés ou les moteurs CSE (Custom Search Engine), moteurs qu'il est possible d'encapsuler dans son propre site Web et pour lesquels l'indexation des pages peut être réalisée à la demande. Un moteur Google CSE intégré dans son site Web permet aux internautes d'obtenir dans les résultats de la recherche les tout derniers articles parus alors que ceux-ci ne sont pas encore répertoriés dans l'index global de Google. Voici un exemple d'incorporation d'un moteur de recherche CSE Google dans SQLPAC ( exemple avec une recherche sur les mots clés "Javascript" et "createElement". le moteur global Google. le moteur local CSE. 2- Création rapide du moteur CSE customSearchControl.draw('cse');