background preloader

Parsing - Scraping

Facebook Twitter

Des recherches simples. On va commencer par faire des recherches très simples et très basiques. Normalement, vous ne devriez pas avoir trop de mal à suivre pour l'instant, c'est quand on mélangera tout après que ça se compliquera. Première chose importante à savoir : une regex (Expression régulière) est toujours entourée de caractères spéciaux appelés délimiteurs. On peut choisir n'importe quel caractère spécial comme délimiteur, et pour éviter de tourner en rond trop longtemps, je vais vous en imposer un : le dièse ! Votre regex se trouve alors entourée de dièses, comme ceci : #Ma regex# Euh, mais à quoi servent les dièses, puisque de toute façon la regex est entourée par des guillemets dans la fonction PHP ? Parce que si on veut, on peut utiliser des options. #Ma regex#Options À la place de « Ma regex », vous devez mettre le mot que vous recherchez.

#guitare# Dans un code PHP, ça donne : 1<? 2if (preg_match("#guitare#", "J'aime jouer de la guitare. ")) 4 echo 'VRAI'; 6else 8 echo 'FAUX'; O.K., c'est compris jusque-là ? Memento informatique - Memento Expression Régulière - Loribel.com. 3. Syntaxe des expressions régulières. Jouons à présent avec les débuts et fins de ligne. Pour ce faire, il faut tout d'abord indiquer à notre matcher que l'on prend en compte les passages à la ligne dans notre texte, en l'appelant avec le flag Pattern.MULTILINE. Sortons toutes les lignes commençant par un "d". Le code de début de ligne est le caractère "^", celui de fin de ligne "$". On peut donc construire le pattern suivant : "^d.

*$". Deux maisons des fleurs Si l'on n'avait voulu que le premier mot de chacune de ces lignes, on aurait utiliser le pattern suivant : "^d\\p{javaLetter}*" : un début de ligne, suivi du caractère "d", suivi d'un nombre quelconque de lettres. Le pattern suivant nous permet de sortir tous les derniers mots de chaque ligne : "\\p{javaLetter}+$". Les options dans les expressions régulières PCRE sur ExpReg. RegEx: les tests en ligne expression régulière pour Java.