आयात urllib2 वेबसाइट = "WEBSITE" openwebsite = urllib2.urlopen (वेबसाइट) html = getwebsite.read () प्रिंट Html
अब तक इतनी अच्छी है
लेकिन मुझे सादे पाठ HTML से केवल href लिंक चाहिए इस समस्या का समाधान किस प्रकार से किया जा सकता है?
से BeautifulSoup आयात करें BeautifulSoup import urllib2 import re Html_page = urllib2.urlopen ("http://www.yourwebsite.com") सूप = सूप में लिंक के लिए सुंदर सूप (html_page)। सभी ('ए'): प्रिंट link.get ('href')
< / Pre>यदि आप केवल
http: //
से शुरू होने वाले लिंक चाहते हैं, तो आपको इसका उपयोग करना चाहिए:soup.findAll ('a', attrs = {'Href': re.compile ("^ http: //")})
Comments
Post a Comment