Outils pour utilisateurs

Outils du site


python:beautifulsoup

BeautifulSoup

Installer BeautifulSoup

pip install beautifulsoup4

Lecture d'une page web

Récupérer le code HTML de la page :

import urllib.request
 
url  = "https://my.website.com/page.html"
page = urllib.request.urlopen(url)
html = page.read()

Création de l'objet BeautifulSoup

Parser le code HTML pour produire un objet BeautifulSoup :

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html)

Extraire les données de l'objet BeautifulSoup

Extraire le code HTML remise en forme :

soup.prettify()

Extraire le texte brut :

soup.get_text()

Parcourir tous les éléments :

for element in soup:
    print(type(element))

Parcourir tous les élements de type DIV :

for element in soup.find_all('div'):
    print(element)

Parcourir tous les élements de type DIV ayant la classe “exemple” :

for element in soup.find_all('div', class_='exemple'):
    print(element)
python/beautifulsoup.txt · Dernière modification: 2022/11/25 19:58 par marclebrun