更多
2018年01月03日 23点04分 修改 奇葩秋

我去爬了智能招聘的网站,但是用下面那个代码爬到10面的时候,就不能够得到网址


importrequestsfrombs4importBeautifulSoupimportredefgetHttp(url) :try:
        dic={'User-Agent':'Google/10.0'}
        r=requests.get(url,headers=dic)
        r.raise_for_status()
        r.encoding=r.apparent_encodingreturnr.textexcept:return""url="http://sou.zhaopin.com/jobs/searchresult.ashx?kw=%E7%BD%91%E7%BB%9C%E5%B7%A5%E7%A8%8B%E5%B8%88&sm=0&sg=78e9eafcaf414ca294d30b64548bf27d&p="list=list(range(90))
unlion=[]defgeturl(demo,list) :
    tempurl=re.findall(r"http://jobs.zhaopin.com/\d{15}\Whtm",str(demo))forlist1intempurl :print(list1)foriinlist[1:] :
    http=url+str(i)print(http,i)
    demo = getHttp(http)
    geturl(demo,list)
 


修改

爬虫 Python 编程开发语言 修改

应答 (下拉快捷留言)

知道“一起帮”的协助流程么?不要搞错哟:应答握手再远程……

(´・・)ノ(._.`)
还没有内容呢!等待求助被解决(酬谢/撤销)后,求助人或好心人总结……

2018年04月28日 11点20分 --- 第 6 楼 ---
抢: 都闪开,让我来……这个智联的反扒机制,你可以设置一个  .sleep()   然后一点一点试他们的时间,比如两秒,还是别的几秒,总有一个时间点是可以成功的
2018年01月16日 21点09分 --- 第 5 楼 ---

这个是智联的一个反扒机制  一定的页面采用服务器直接返回 html 的方式 一个是使用 api 接口返回数据  看中间的不规则网址 是 ashx 的 这个叫一般处理程序  返回的一般是 json 格式的数据或者是 xml/xaml 格式的数据  你抓一下这种请求  研究一下请求方式和参数 应该不用直接使用 html 解析了  直接有标准的数据集了 

2018年01月05日 10点20分 --- 第 4 楼 ---

--- 回复: ---

撤销,重新邀请其他人试试……
2018年01月05日 10点16分 --- 第 3 楼 ---

--- 回复: ---

没,好烦
2018年01月04日 17点02分 --- 第 2 楼 ---
还没搞定么?

2018年01月03日 23点18分 --- 第 1 楼 ---
抢: 我可以试试……
关键字



帮助

反馈