Semalt: Nxjerrja e URL-ve nga faqet e internetit me supë të bukur

Supë e bukur është një paketë e nivelit të lartë Python që përdoret për analizimin e dokumenteve XML dhe HTML. Biblioteka e bukur Supë Python krijon një pemë analize e cila përdoret për të nxjerrë informacione të dobishme nga HyperText Markup Language (HTML). Kjo bibliotekë është në dispozicion për të dy versionet Python 2 dhe Python 3.

Në shumicën e rasteve, ju zbuloni se të dhënat tuaja të synuara mund të arrihen dhe përdoren vetëm si pjesë e një faqe në internet. Në një rast të tillë, ju duhet të përdorni teknikë të tillë të scraping në internet që mund të nxjerrë të dhëna në formatet që mund të analizohen. Kjo është ajo ku hyn biblioteka e Soup Beautiful.

Kërkesat

Keni nevojë për modulet e duhura për të përdorur bibliotekën e Soup Beautiful. Për të filluar, duhet të instaloni gjuhën e programimit Python 2.7 në makinën tuaj. Në këtë postim, ju do të mësoni se si të shkruani një faqe në internet dhe të ekstraktoni të gjitha URL-të duke përdorur Kërkesa dhe Supë të Bukur 4. Parsimi HTML është një detyrë e bërë vetë, veçanërisht me ndihmën teknike të Supës së Bukur.

Pse të përdorni supë të bukur?

Supë e bukur është një paketë e rangut më të lartë në Python që është përdorur për të shfletuar faqet e internetit dhe për të analizuar etiketat HTML që nga viti 2004. Kohët e fundit, Soup Beautiful 4 zëvendësoi Beautiful Supa 3 në industri. Vini re se BS4 punon në të dy versionet e Python ndërsa BS3 punon vetëm në Python 2.7. Biblioteka përfshin karakteristikat e mëposhtme inbuilt:

  • Aftësia e Encodings - Nuk keni nevojë të frikësoheni rreth kodifikimeve pasi të instaloni modulet e nevojshme të bukura të Supës në kompjuterin tuaj. Biblioteka është e automatizuar për të kthyer inputet në Unicode dhe rezultatet në UTF-8.
  • Aftësia e lundrimit - Supë e bukur ofron metoda të thjeshta për t'u përdorur për kërkimin, lundrimin dhe modifikimin e një peme parse.

Si të përdorim bibliotekën e Supave të Bukura?

Pasi të keni instaluar Supë të Bukur në kompjuterin tuaj, mund të filloni të përdorni bibliotekën. Për të filluar, importoni bibliotekën bs4 në fillim të kodit tuaj Python. Kaloni përmbajtjen ose URL-në në Supë të Bukur për të krijuar një objekt Supë. Sidoqoftë, biblioteka nuk merr vetë faqen e synuar. Këtu, ju duhet ta kryeni atë detyrë me dorë. Ju gjithashtu mund të merrni lehtësisht faqet e preferuara të internetit duke përdorur një kombinim të Python dhe Supë të Bukur.

Rolet e bibliotekës së kërkesës

Për të shtypur një faqe, duhet ta shkarkoni së pari. Ju mund të shkarkoni faqet në internet duke përdorur bibliotekën e kërkesës. Kërkon vepra bibliotekare duke bërë një kërkesë "GET" te serverët në internet, i cili, nga ana tjetër, do të shkarkojë përmbajtjet HTML të faqes së preferuar të internetit.

Nxjerrja e URL-ve nga faqet e internetit

Tani keni informacione të hollësishme në lidhje me bibliotekën e Soup Beautiful. Një kombinim i bibliotekës BS4 dhe Python do t'ju ndihmojë të merrni një faqe në internet shumë shpejt. Për të nxjerrë të gjitha URL-të nga faqja juaj në internet e synuar, përdorni metodën "gjeni të gjitha". Kjo metodë do t'ju japë një përmbledhje elementesh me etiketën. Nga bs4, importoni të dy Supat e Bukura dhe kërkesat. Drejtoni kodin tuaj dhe shkruani një faqe në internet ose faqe për të nxjerrë URL-të nga.

mass gmail