博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy爬取酒店评论数据
阅读量:4029 次
发布时间:2019-05-24

本文共 796 字,大约阅读时间需要 2 分钟。

scrapy爬取酒店评论数据

代码 here:

采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务,需要一些hotel reviews, 选择从www.booking.com搞一点数据来。

根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论。

〇、数据源介绍

数据源:www.booking.com

具体:

所有的城市:

1

某个城市的酒店列表:

2

某个酒店的评论:

3

一、爬取数据项:

设定一条记录有如下字段:

  • 目标酒店名target
  • 分数score
  • 总体评价overall_comment
  • 正评论positive_comment
  • 负评论negative_comment
  • 入住日期date
  • 城市名city_name

用CSV文件保存with seperator “\t”.

4

二、目录介绍:

-hotel_review_booking:hotel_data数据文件

  -hotel_review_booking:scrapy理解的项目目录
        -hotel_review_booking:scrapy的真正项目目录
        -entrypoint
        ……

三、流程:四步:

  • 新建项目 (Project):新建一个新的爬虫项目
  • 明确目标(Items):明确你想要抓取的目标
  • 制作爬虫(Spider):制作爬虫开始爬取网页
  • 存储内容(Pipeline):设计管道存储爬取内容

四、url分析:

略……

五、代码提示:

  1. 因为酒店列表不好直接显示页数,所以采取半人工手段标记页数……

    5

  2. 日期date: 使用正则匹配。

    pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'

    pattern_compiled = re.compile(pattern)

  3. 其他也没啥的,就是scrapy的使用上,纯经验主义。

转载地址:http://trqbi.baihongyu.com/

你可能感兴趣的文章
socket,accept函数解析
查看>>
今日互联网关注(写在清明节后):每天都有值得关注的大变化
查看>>
”舍得“大法:把自己的优点当缺点倒出去
查看>>
[今日关注]鼓吹“互联网泡沫,到底为了什么”
查看>>
[互联网学习]如何提高网站的GooglePR值
查看>>
[关注大学生]求职不可不知——怎样的大学生不受欢迎
查看>>
[关注大学生]读“贫困大学生的自白”
查看>>
[互联网关注]李开复教大学生回答如何学好编程
查看>>
[关注大学生]李开复给中国计算机系大学生的7点建议
查看>>
[关注大学生]大学毕业生择业:是当"鸡头"还是"凤尾"?
查看>>
[茶余饭后]10大毕业生必听得歌曲
查看>>
gdb调试命令的三种调试方式和简单命令介绍
查看>>
C++程序员的几种境界
查看>>
VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法
查看>>
VUE-Vue.js之$refs,父组件访问、修改子组件中 的数据
查看>>
Vue-子组件改变父级组件的信息
查看>>
Python自动化之pytest常用插件
查看>>
Python自动化之pytest框架使用详解
查看>>
【正则表达式】以个人的理解帮助大家认识正则表达式
查看>>
性能调优之iostat命令详解
查看>>