使用python3的requests模块获取网页源码,并可以使用代理、获取网页地址的源码,还能进行转码并将字母全部变为小写方便查找比对。
代码笔记留存如下:
import requests
def readurl(aurl):#读取地址获取网页源代码
headers = {'content-type': 'application/json','User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/44.0'}
#proxies = { "http": "http://127.0.0.1:1080","https": "http://127.0.0.1:1080",}#代理
readurl01=requests.get(aurl,verify=False,timeout=10,headers=headers)
'''
try:
readurlall=readurl01.text.encode('utf-8')
except:
readurlall=readurl01.text.encode('gbk')
'''
readurl01.encoding='utf-8'
readurlall=readurl01.content#取得内容 content与text区别是 text需要转码而content不用
return readurlall.lower()#.lower()把所有字符中的大写字母转换成小写字母
print(readurl('https://www.baidu.com'))