pip install beautifulsoup4
Récupérer le code HTML de la page :
import urllib.request url = "https://my.website.com/page.html" page = urllib.request.urlopen(url) html = page.read()
Parser le code HTML pour produire un objet BeautifulSoup :
from bs4 import BeautifulSoup soup = BeautifulSoup(html)
Extraire le code HTML remise en forme :
soup.prettify()
Extraire le texte brut :
soup.get_text()
Parcourir tous les éléments :
for element in soup: print(type(element))
Parcourir tous les élements de type DIV :
for element in soup.find_all('div'): print(element)
Parcourir tous les élements de type DIV ayant la classe “exemple” :
for element in soup.find_all('div', class_='exemple'): print(element)