====== BeautifulSoup ====== Doc: [[https://www.crummy.com/software/BeautifulSoup/bs4/doc/]] ===== Installer BeautifulSoup ===== pip install beautifulsoup4 ===== Lecture d'une page web ===== Récupérer le code HTML de la page : import urllib.request url = "https://my.website.com/page.html" page = urllib.request.urlopen(url) html = page.read() ===== Création de l'objet BeautifulSoup ===== Parser le code HTML pour produire un objet BeautifulSoup : from bs4 import BeautifulSoup soup = BeautifulSoup(html) ===== Extraire les données de l'objet BeautifulSoup ===== Extraire le code HTML remise en forme : soup.prettify() Extraire le texte brut : soup.get_text() Parcourir tous les éléments : for element in soup: print(type(element)) Parcourir tous les élements de type DIV : for element in soup.find_all('div'): print(element) Parcourir tous les élements de type DIV ayant la classe "exemple" : for element in soup.find_all('div', class_='exemple'): print(element)