Python爬取豆瓣电影论文

2023-08-21阅读(642)

问：Python爬虫实战（1）requests爬取豆瓣电影TOP250

答：爬取时间：2020/11/25
系统环境：Windows 10
所用工具：Jupyter Notebook\Python 3.0
涉及的库：requests\lxml\pandas\matplotlib\numpy
蛋肥想法：先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情祥备动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。
蛋肥想法：蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚带余才保存成xlsx的数据，并分别画成雷达图、柱形图、扇谨行毁形图。

问：【python爬虫实战】爬取豆瓣影评数据

答：爬取豆瓣影评数据步骤：
1、获取网页请求销谨册
2、解亏宏析获取的网页
3、提速数据晌备
4、保存文件

问：批量爬取豆瓣影视短评步骤

答：用Python批量爬取滑袜豆瓣影视短评步骤：
1、通过Chrome浏览器检查元素。
2、获取单个页面HTML文本。
3、用正则表达式解析出所需要的信备让和息并存入列仿盯表。
4、将列表中的信息存成csv文件。
5、利用start参数批量爬取其他页的短评。

Python爬取豆瓣电影论文

下载Doc文档

猜你喜欢