如果我理解正确,您可以尝试以下方法:
l = [] for link in soup.findAll('a'): print link.get('href') l.append(link.get('href')) l = [x for x in l if "www" not in x] #or 'https'
您可以使用 parse_url 来自 requests 模块。
parse_url
requests
import requests url = 'https://www.facebook.com/KTeqSolutions/' requests.urllib3.util.parse_url(url)
给你
Url(scheme='https', auth=None, host='www.facebook.com', port=None, path='/KTeqSolutions/', query=None, fragment=None)