我的第1个爬虫
python3编写
画师通这个网站没有反爬虫,也没有登录
比较好爬
因为我直接爬的主页,没有进去爬
可能图片不是很高清
有需要的小伙伴可以自己改代码(不是我懒!!!)
如果你不想启动它,那就直接白嫖图片吧!!!(下面是百度网盘链接)
百度网盘
提取码:sxfe
我之前发的一个python爬虫的资料
下面就是源码了
再说一遍!!!
这是python3编写的!!!
import urllib.request
import re
import time
import threading
def xz(url,name):
for kkk in range(3):
try:
urllib.request.urlretrieve(url,'%s.jpg'%name)
except Exception as r:
print('%s 获取错误 %s'%name%r)
else:
print("%s获取成功"%name)
break
h='https://www.huashi6.com/hot_'
n=1
for th in range(1,8264):
s=h+str(th)
while 1:
try:
a=urllib.request.urlopen(s).read().decode('utf-8')
except:
print("页面获取失败")
time.sleep(2)
else:
print("页面获取成功")
break
print(a)
c=re.findall('http[^"]*jpg" alt="',a)
c+=re.findall('http[^"]*png" alt="',a)
ttt=[]
for f in c:
i=f[0:-7]
#print(i)
#time.sleep(1)
print("add",n)
t=threading.Thread(target=xz, args=(i,n,))
t.setDaemon(True)
ttt.append(t)
n+=1
for hh in ttt:
hh.start()
for hh in ttt:
hh.join()
print("第",th,"页执行完毕")
2020.8.7
今天突然发现网站更新了,之前的爬虫用不了了
于是重新打了一个
#画师通
import re
import time
import requests
import os
from bs4 import BeautifulSoup
rot=os.getcwd()+'\画师通'
url='https://www.huashi6.com/hot_'
headers = {'Referer':'www.baidu.com',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'}
def hq(dz,url):
try:
img=requests.get(url,headers=headers).content
f=open(dz,'wb')
f.write(img)
f.close
except Exception as e:
print(url,dz,'获取错误:',e)
else:
print('获取成功',dz)
def xgname(name):
xname=''
for i in name:
if i in ['\\','/',':','*','?','<','>','|','"',' ','.']:
xname+='#'
else:
xname+=i
return xname
def work(url1):
doem=BeautifulSoup(requests.get(url1).text,'html.parser')
for i in doem.find_all('img'):
if (i.attrs.get('title','NO')!='NO'):
hq(rot+'\\'+xgname(i.attrs['title'])+'.jpg',i.attrs['src'])
if __name__ == "__main__":
if not os.path.exists(rot):
os.makedirs(rot)
for i in range(int(input('输入开始页数:')),int(input('输入结束页数:'))+1):
work(url+str(i))