强烈建议你试试无所不能的chatGPT，快点击我

scrapy爬取酒店评论数据

阅读量：4029 次

发布时间：2019-05-24

本文共 796 字，大约阅读时间需要 2 分钟。

scrapy爬取酒店评论数据

代码 here：

采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务，需要一些hotel reviews, 选择从www.booking.com搞一点数据来。

根据主页显示总共有20个城市from diferrent countries，每个城市下有若干个酒店，每个酒店下若干条评论。

〇、数据源介绍

数据源：www.booking.com

具体：

所有的城市：

某个城市的酒店列表：

某个酒店的评论：

一、爬取数据项：

设定一条记录有如下字段：

目标酒店名target

分数score

总体评价overall_comment

正评论positive_comment

负评论negative_comment

入住日期date

城市名city_name

用CSV文件保存with seperator “\t”.

二、目录介绍：

-hotel_review_booking：hotel_data数据文件

-hotel_review_booking：scrapy理解的项目目录

-hotel_review_booking：scrapy的真正项目目录

-entrypoint

……

三、流程：四步：

新建项目 (Project)：新建一个新的爬虫项目

明确目标（Items）：明确你想要抓取的目标

制作爬虫（Spider）：制作爬虫开始爬取网页

存储内容（Pipeline）：设计管道存储爬取内容

四、url分析：

略……

五、代码提示：

因为酒店列表不好直接显示页数，所以采取半人工手段标记页数……

日期date: 使用正则匹配。

pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'
pattern_compiled = re.compile(pattern)

其他也没啥的，就是scrapy的使用上，纯经验主义。

转载地址：http://trqbi.baihongyu.com/

你可能感兴趣的文章

socket,accept函数解析

今日互联网关注(写在清明节后):每天都有值得关注的大变化

”舍得“大法：把自己的优点当缺点倒出去

[今日关注]鼓吹“互联网泡沫，到底为了什么”

[互联网学习]如何提高网站的GooglePR值

[关注大学生]求职不可不知——怎样的大学生不受欢迎

[关注大学生]读“贫困大学生的自白”

[互联网关注]李开复教大学生回答如何学好编程

[关注大学生]李开复给中国计算机系大学生的7点建议

[关注大学生]大学毕业生择业:是当"鸡头"还是"凤尾"?

[茶余饭后]10大毕业生必听得歌曲

gdb调试命令的三种调试方式和简单命令介绍

C++程序员的几种境界

VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法

VUE-Vue.js之$refs，父组件访问、修改子组件中的数据

Vue-子组件改变父级组件的信息

Python自动化之pytest常用插件

Python自动化之pytest框架使用详解

【正则表达式】以个人的理解帮助大家认识正则表达式

性能调优之iostat命令详解

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-19 17:01:55 当前IP: 18.118.151.12 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我