Scrapy框架抓取安居客房源信息

Posted by Lazy on November 8, 2016

1.我们抓取这个地址 http://bj.zu.anjuke.com/ditie/dt20-s435/

2.首先我们来抓取发布的房源标题,分析下结构

Paste_Image.png

3.通过上面的分析我们看到我们需要房源的title在:

                div>h3>a 这样的一个结构我们就可以拿到a标签了
from scrapy.spider import Spider
from scrapy.selector import Selector

from tutorial.items import AnJuKeItem


class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://bj.zu.anjuke.com/ditie/dt20-s435/"
    ]

    def parse(self, response):
        sel = Selector(response)
        titleList = sel.xpath('//div/h3/a')
        for sel in titleList:
            item = AnJuKeItem()
            item['link'] = sel.xpath('@href').extract()
            item['title'] = sel.xpath('text()').extract()
            yield item


这样我们就拿到了页面的房屋标题,和进入详情界面的url,为我们下一步抓取电话做准备

4.增加了抓取电话和联系地址,并且保存数据到本地mysql

5.其中创建数据库字段的时候我们要 手动制定该字符的编码格式,详情见源码

项目地址持续更新:https://github.com/l123456789jy/ScrapyAnJuKe