博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy-splash抓取动态数据例子七
阅读量:6957 次
发布时间:2019-06-27

本文共 4214 字,大约阅读时间需要 14 分钟。

一、介绍

    本例子用scrapy-splash抓取36氪网站给定关键字抓取咨询信息。

    给定关键字:个性化;融合;电视

    抓取信息内如下:

      1、资讯标题

      2、资讯链接

      3、资讯时间

      4、资讯来源

 

  二、网站信息

    

 

 

    

 

    

    

    

 

 

  三、数据抓取

    针对上面的网站信息,来进行抓取

    1、首先抓取信息列表

      抓取代码:sels = site.xpath('//li[@class="item"]')

    2、抓取标题

      首先列表页面,根据标题和日期来判断是否自己需要的资讯,如果是,就今日到资讯对应的链接,来抓取来源,如果不是,就不用抓取了

      抓取代码:titles = site.xpath('//div[@class="mobile_article"]/h1/text()')

    3、抓取链接

      抓取代码:url = 'http://36kr.com' + str(sel.xpath('.//a/@href')[0].extract())

    4、抓取日期

      抓取代码:dates = sel.xpath('.//div[@class="info"]/span[2]/@title')

    5、抓取来源

      抓取代码:sources = site.xpath('//div[@class="author am-fl"]/span[2]/abbr/text()')

   

  四、完整代码

# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom scrapy.spiders import Spiderfrom scrapy_splash import SplashRequestfrom scrapy_splash import SplashMiddlewarefrom scrapy.http import Request, HtmlResponsefrom scrapy.selector import Selectorfrom scrapy_splash import SplashRequestfrom splash_test.items import SplashTestItemimport IniFileimport sysimport osimport reimport timereload(sys)sys.setdefaultencoding('utf-8')# sys.stdout = open('output.txt', 'w')class kr36Spider(Spider):    name = 'kr36'    configfile = os.path.join(os.getcwd(), 'splash_test\spiders\setting.conf')    cf = IniFile.ConfigFile(configfile)    information_keywords = cf.GetValue("section", "information_keywords")    information_wordlist = information_keywords.split(';')    websearchurl = cf.GetValue("kr36", "websearchurl")    start_urls = []    for word in information_wordlist:        print websearchurl + word        start_urls.append(websearchurl + word)    # request需要封装成SplashRequest    def start_requests(self):        for url in self.start_urls:            index = url.rfind('/')            yield SplashRequest(url                                , self.parse                                , args={
'wait': '2'}, meta={
'keyword': url[index + 1:]} ) def Comapre_to_days(self,leftdate, rightdate): ''' 比较连个字符串日期,左边日期大于右边日期多少天 :param leftdate: 格式:2017-04-15 :param rightdate: 格式:2017-04-15 :return: 天数 ''' l_time = time.mktime(time.strptime(leftdate, '%Y-%m-%d')) r_time = time.mktime(time.strptime(rightdate, '%Y-%m-%d')) result = int(l_time - r_time) / 86400 return result def date_isValid(self, strDateText): currentDate = time.strftime('%Y-%m-%d') datePattern = re.compile(r'\d{4}-\d{1,2}-\d{1,2}') strDate = re.findall(datePattern, strDateText) if len(strDate) == 1: if self.Comapre_to_days(currentDate, strDate[0]) == 0: return True, currentDate return False, '' def parse(self, response): site = Selector(response) sels = site.xpath('//li[@class="item"]') for sel in sels: dates = sel.xpath('.//div[@class="info"]/span[2]/@title') flag,date =self.date_isValid(dates[0].extract()) titles = sel.xpath('.//div[@class="intro"]/h3/div/em')#如果没有em标签,说明标题中没有搜索的关键字,这样直接就过滤掉了 if flag and len(titles)>0 : url = 'http://36kr.com' + str(sel.xpath('.//a/@href')[0].extract()) yield SplashRequest(url , self.parse_item , args={
'wait': '1'}, meta={
'date': date, 'url': url, 'keyword': response.meta['keyword']} ) def parse_item(self, response): site = Selector(response) titles = site.xpath('//div[@class="mobile_article"]/h1/text()') if len(titles) > 0: it = SplashTestItem() keyword = response.meta['keyword'] title = titles[0].extract() it['title'] = title it['url'] = response.meta['url'] it['date'] = response.meta['date'] it['keyword'] = response.meta['keyword'] sources = site.xpath('//div[@class="author am-fl"]/span[2]/abbr/text()') if len(sources) > 0: it['source'] = sources[0].extract() return it

 

转载地址:http://usmil.baihongyu.com/

你可能感兴趣的文章
ES6(Symbol)
查看>>
华丽转身再获新生?体验大陆集团深耕自动驾驶生态圈的最新技术与产品
查看>>
代码查看神器--Editplus
查看>>
Prometheus vs. Graphite:时序数据监控工具选择
查看>>
Flask入门的第一个项目
查看>>
MikroTik RouterOS旧版本下载地址收集
查看>>
嵌入式软件开发工程师谈软件架构的设计
查看>>
./configure、make、make install 命令详解
查看>>
Laravel Response
查看>>
【Java入门提高篇】Day24 Java容器类详解(七)HashMap源码分析(下)
查看>>
[20180417]使用10046事件需要什么权限.txt
查看>>
如果centos7添加新网卡,系统不识别的解决办法
查看>>
JMX监控zookeeper
查看>>
Anaconda 2019.03 发布,Python 跨平台科学计算软件
查看>>
JS中遍历语法的比较
查看>>
读书笔记 effective c++ Item 15 在资源管理类中提供对原生(raw)资源的访问
查看>>
《C++ Primer》学习笔记:3.3.3其他vector操作
查看>>
NetBeans的(默认)快捷键
查看>>
年薪1美金还打N份工,我的收入终于超过马云了
查看>>
中国实体新气象:失之电商,收之“+互联网”
查看>>