====== BeautifulSoup ======
Doc: [[https://www.crummy.com/software/BeautifulSoup/bs4/doc/]]
===== Installer BeautifulSoup =====
pip install beautifulsoup4
===== Lecture d'une page web =====
Récupérer le code HTML de la page :
import urllib.request
url = "https://my.website.com/page.html"
page = urllib.request.urlopen(url)
html = page.read()
===== Création de l'objet BeautifulSoup =====
Parser le code HTML pour produire un objet BeautifulSoup :
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
===== Extraire les données de l'objet BeautifulSoup =====
Extraire le code HTML remise en forme :
soup.prettify()
Extraire le texte brut :
soup.get_text()
Parcourir tous les éléments :
for element in soup:
print(type(element))
Parcourir tous les élements de type DIV :
for element in soup.find_all('div'):
print(element)
Parcourir tous les élements de type DIV ayant la classe "exemple" :
for element in soup.find_all('div', class_='exemple'):
print(element)