历史记录

清除记录

猜你想搜

AcWing热点
App
登录/注册

我的第1个爬虫

作者：

ZTEG , 2020-04-26 13:10:31 , 所有人可见 , 阅读 1308

10

3

我的第1个爬虫

python3编写

画师通这个网站没有反爬虫，也没有登录
比较好爬
因为我直接爬的主页，没有进去爬
可能图片不是很高清
有需要的小伙伴可以自己改代码(不是我懒！！！)

如果你不想启动它，那就直接白嫖图片吧！！！（下面是百度网盘链接）

百度网盘
提取码：sxfe

我之前发的一个python爬虫的资料
下面就是源码了
再说一遍！！！
这是python3编写的！！！

import urllib.request
import re
import time
import threading

def xz(url,name):
    for kkk in range(3):
        try:
            urllib.request.urlretrieve(url,'%s.jpg'%name)
        except Exception as r:
            print('%s 获取错误 %s'%name%r)
        else:
            print("%s获取成功"%name)
            break

h='https://www.huashi6.com/hot_'
n=1
for th in range(1,8264):
    s=h+str(th)
    while 1:
        try:
            a=urllib.request.urlopen(s).read().decode('utf-8')
        except:
            print("页面获取失败")
            time.sleep(2)
        else:
            print("页面获取成功")
            break
    print(a)
    c=re.findall('http[^"]*jpg" alt="',a)
    c+=re.findall('http[^"]*png" alt="',a)
    ttt=[]
    for f in c:
        i=f[0:-7]
        #print(i)
        #time.sleep(1)
        print("add",n)
        t=threading.Thread(target=xz, args=(i,n,))
        t.setDaemon(True)
        ttt.append(t)
        n+=1
    for hh in ttt:
        hh.start()
    for hh in ttt:
        hh.join()
    print("第",th,"页执行完毕")

2020.8.7

今天突然发现网站更新了，之前的爬虫用不了了
于是重新打了一个

#画师通
import re
import time
import requests
import os
from bs4 import BeautifulSoup


rot=os.getcwd()+'\画师通'

url='https://www.huashi6.com/hot_'
headers = {'Referer':'www.baidu.com',
           'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'}

def hq(dz,url):
    try:
        img=requests.get(url,headers=headers).content
        f=open(dz,'wb')
        f.write(img)
        f.close
    except Exception as e:
        print(url,dz,'获取错误:',e)
    else:
        print('获取成功',dz)

def xgname(name):
    xname=''
    for i in name:
        if i in ['\\','/',':','*','?','<','>','|','"',' ','.']:
            xname+='#'
        else:
            xname+=i
    return xname


def work(url1):
    doem=BeautifulSoup(requests.get(url1).text,'html.parser')
    for i in doem.find_all('img'):
        if (i.attrs.get('title','NO')!='NO'):
            hq(rot+'\\'+xgname(i.attrs['title'])+'.jpg',i.attrs['src'])

if __name__ == "__main__":
    if not os.path.exists(rot):
        os.makedirs(rot)
    for i in range(int(input('输入开始页数：')),int(input('输入结束页数：'))+1):
        work(url+str(i))

0 评论

App 内打开