background preloader

Moteurs de recherche

Facebook Twitter

Solr et son fonctionnement...

Data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers - Sparna. Les Taxonomies de navigation – La recherche à facettes : Définition, utilisation, objectifs, mise en œuvre. L’utilisation du web pour donner accès à des contenus riches et structurés est de plus en plus courant : - accès à un catalogue de produits - accès à de la documentation technique, juridique, administrative - accès à de la documentation scientifique : brevets, articles - accès à des bases de connaissance : économiques, R&D, people, patrimoine … Les informations mises à disposition dans ces sites web sont qualifiées par de nombreuses données : caractéristiques du produit, lieu géographique, taille, prix, âge, sujets traités, … qui doivent pouvoir être accessibles aux utilisateurs pour filtrer les informations et trouver une liste de réponses correspondant à leurs attentes.

Chaque type d’attribut correspond à un axe de recherche, à une facette de la recherche. La recherche et le filtrage de l’offre par différents niveaux de choix permettent de guider progressivement l’utilisateur en fonction du contexte de la recherche. Taxonomies dynamiques Des taxonomies adaptées aux publics visés Conclusion. JocondeLab » Accueil. Interroger data.bnf.fr en SPARQL - doc_requetes_data.pdf.

Moteurs de recherche et web sémantique. Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ? ... Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ? L'utilisation du terme « Sémantique » a souvent été porteur de confusions donnant à penser que le Web sémantique visait la compréhension du langage naturel par les machines. Même si les objectifs réels du Web sémantique semblent en réalité éloignées des techniques du traitement automatique de la langue, les technologies du Web sémantique n'en restent pas moins intéressantes pour les solutions d'accès et de recherche d'information. Impliqués depuis plusieurs années dans le domaine, nous montrerons comment les technologies du Web sémantique aide les équipes Antidot à mieux gérer, traiter et valoriser les données de leurs clients.

Statistiques Vues Total des vues Vues sur SlideShare Vues externes Actions J'aime Téléchargements. L’extension des capacités des moteurs de recherche par l’utilisation de terminologies métier ou comment rendre les moteurs de recherche plus efficaces ? | Mondeca - Leçons de Choses. Les moteurs de recherche comme outils d’accès à l’information dans les intranets et portails web des entreprises et administrations sont tout à la fois un sujet d’émerveillement et de frustration. Contrairement aux moteurs de recherche généralistes du web, où l’on accepte d’assez bon coeur que face au miracle de disposer en ligne d’autant d’information, un travail d’exploration et de tri soit nécessaire, l’attitude face au moteur de recherche du Ministère des Finances, de la base d’assistance de Microsoft, de SFR, d’Orange ou du moteur de recherche d’un spécialiste du bricolage est tout autre.

Le domaine de recherche est fermé, l’information est limitée et nous nous attendons à un service de qualité de la part d’un fournisseur, d’un commerçant ou d’une administration. Les raisons de notre frustration peuvent avoir deux origines cumulatives : Pour les encourager à le faire nous montrerons dans cet article l’apport des terminologies métier à l’efficacité des moteurs de recherche. Search. ACACIA - CORESE: a semantic Web search engine based on Conceptual Graphs. Solr. Présentation de Lucene Solr | Eolya Consulting. Publié le septembre 18, 2008 La nouvelle version 1.3.0 de Solr est enfin disponible. Elle était très attendue des développeurs car la précédente version officielle datait déjà du 6 juin 2007 soit plus d’un an.

Comme beaucoup, je travaillais avec les build nocturnes depuis déjà un certain temps. Cette sortie est l’occasion de présenter Solr à ceux qui ne le connaissent pas encore. Solr (on prononce “solar”) est une outil open source permettant de mettre en place des fonctionnalités de recherche dans différents types d’applications et notamment des sites web (mais pas seulement). Comme Lucene, Solr est développé en Java. Un web service d’indexation des donnéesun web service de rechercheune interface web d’administration Les 3 principaux avantages à utiliser Solr et non pas Lucene seul sont : Les fonctionnalité principales ajoutées à Lucene sont : Pour comprendre le fonctionnement de Solr, je vous conseil ces articles (en anglais) : Tags: Lucene / Solr, Solr. Indexer Wikipédia dans Solr. Drôle d'époque. Après deux jours magiques à ParisWeb, et un retour chez moi dans une ambiance de guerre civile, le retour à la réalité est… difficile.

La reprise du quotidien après un tel événement est toujours une période cafardogène. Pour éviter de sombrer dans la déprime la plus grise, je vous propose de nous fixer un objectif un tantinet ambitieux : et si nous indexions la plus grande base de connaissance au monde dans le meilleur moteur de recherche ? (Si ça ne vous plait pas, vous pouvez plutôt vous abonner au tag #sudweb.) Chercher dans Wikipédia grâce à Solr ? Des données, des données, des données… Wikipédia fournit régulièrement des fichiers de dumps permettant de récupérer toutes les données du site. Configurer le schéma La documentation de Solr fournit un exemple de schéma pour indexer Wikipedia.

Commençons par ajouter un nouveau fieldtype : text_fr, dans le fichier schema.xml. Vous remarquerez que ce type de champ nécessite trois fichiers pour fonctionner. Et on importe. Recherche à facette sous Solr. Aujourd'hui, je vous propose de poursuivre nos articles sur les technologies de moteur de recherche avec un nouveau tutoriel pour Solr. Au menu : comment mettre en place une recherche à facette. Avec pour démarrer un rappel du principe de la recherche à facette, et ensuite, la config de Solr proprement dite.

Facette ? Késako ? Commençons par un petit rappel historique (ça donne un côté intellectuel à l'article) : dans la brève mais fulgurante histoire du web, deux paradigmes de recherche se sont principalement imposés : D'abord, la recherche navigationnelle dans une taxonomie ((Admirez au passage le savant emploi de mots techniques qui n'a d'autres utilité que de me donner l'air d'être un expert)) (ex : Dmoz). Chaque méthode présente ses avantages et des inconvénients. Un petit dessin vaut mieux qu'un long discours, voici un mini-mockup (réalisé grâce à l'excellent Pencil) qui vous permettra de vous faire une idée d'un coup d'œil. «Écran» représente une facette de recherche.

Configurer Solr. La recherche Full Text avec Solr. Chaque fieldType est décrit au moins par deux attributs name et class. Le premier permet de faire référence à ce type dans le reste du fichier XML ; l'autre décrit la classe Java utilisée pour construire le type en mémoire. Les champs de notre document devront être définis soit avec un type simple, soit avec un type complexe. Les types dits "simples" sont pour des données brutes, c'est-à-dire des chaînes sans signification sémantique, des valeurs numériques ou des dates. Les types dits "complexes" sont prévus pour décomposer la valeur et pour l'analyser de manière très précise. La plupart des attributs suivants sont disponibles à la fois dans les définitions fieldType et field. Vous trouverez ci-dessous une liste des attributs recommandés ou obligatoires pour chaque cas d'utilisation (1). Certains cas d'utilisation sont incompatibles.

Je ne présente ci-dessus que les types utiles avec la version de Solr choisie. À titre d'exemple, voici les trois versions du type entier (int).