本文共 796 字,大约阅读时间需要 2 分钟。
采用scrapy爬取酒店评论数据。
总共有28W条记录。
做某NLP任务,需要一些hotel reviews, 选择从www.booking.com
搞一点数据来。
数据源:www.booking.com
设定一条记录有如下字段:
用CSV文件保存with seperator “\t”.
-hotel_review_booking:hotel_data数据文件
-hotel_review_booking:scrapy理解的项目目录 -hotel_review_booking:scrapy的真正项目目录 -entrypoint ……略……
因为酒店列表不好直接显示页数,所以采取半人工手段标记页数……
日期date: 使用正则匹配。
pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'
pattern_compiled = re.compile(pattern)
其他也没啥的,就是scrapy的使用上,纯经验主义。
转载地址:http://trqbi.baihongyu.com/