课件内容:
【模块1】Python程序设计语言基础
1)对于已经学过Python语言基础的同学,可以直接进入下一章节“【模块2】爬虫基础”的学习。2)对于已经有C语言基础、但没有学过Python语言的同学,只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维(函数)的语法,但是1.5数据的类型的介绍中,包含了组合数据类型的使用,这是C语言中没有的,必须先认真学习,掌握之后,再开始学习后续知识。3)对于已经学习过Python语言基础的同学,可以直接从下一个模块开始学习。
1.1 Python语言初探
1.2 IPO程序设计与顺序结构
1.3 程序控制之分支结构
1.4 程序控制之循环结构
1.5 理解数据的类型
1.6 模块化思维
1.7 文件读取
【模块2】爬虫基础
磨刀不误砍柴工。在开始编写爬虫程序之前,了解一些网络请求响应、网页HTML等爬虫相关基础知识,是非常必要的。
2.1 学习爬虫技术之前的重要提示
2.2 从一个简单的请求开始
2.3 HTTP那些事儿
2.4 认识HTML
2.5 爬虫第三方库requests简介
【模块3】单页面静态数据爬取与可视化
单页面静态数据爬取是编写爬虫程序最基本的技能。在这个模块中,非常详细的描述了如何利用网页开发者工具(F12)去分析一个页面的网页元素,定位目标数据所在标签。对于没有任何爬虫基础的小伙伴,在学完【模块2】之后,应该先从3.1开始。另外,很多教材与慕课对于词云的绘制,只是进行了简单的介绍,在本模块中详细介绍了如何利用词频统计改进词云绘制效果。
3.1 单页面数据爬取与简单词云绘制
3.2 细说词云绘制
3.3 词频统计
3.4 利用词频统计改进词云绘制效果
【模块4】多页面数据爬取与存储
多页面数据采集是一个常见的任务需求,例如各个电商网站的商品评论数据、豆瓣评论数据等。不管要抓取的数据对象是什么,只要目标数据是有规律的分布在多个网页上,在完成【模块4】的学习后,就能够对其他分布在多个页面的目标数据进行采集。
4.1 单章节小说爬取与模块化
4.2 目录页分析与存储
4.3 多章节小说存储
4.4 小说爬取中常见问题解决
【模块5】动态页面数据爬取
有时候,我们会遇到一些网站,在页面上命名看到了目标数据,但使用常规的数据采集方法抓取时,却偏偏抓回一个None?Why?这就是动态页面数据的抓取问题了,来吧,一起学习,看看如何解决这一类问题吧~~
5.1 任务进阶安排
5.2 从一个城市开始
5.3 动态查询一个城市天气
5.4 周边景点当天天气查询
5.5 周边景点7天气温折线图绘制
5.6 一省全域天气查询
5.7 天气数据API的使用
【模块6】PubMed数据库文献分析
JSON数据是目前网页传输数据时采用的主要方式之一。COVID-19数据具有数据量大、层次复杂的特点。如果能够熟练分析具有如此复杂结构的COVID-19 JSON数据,并根据任务场景从中提取目标数据,就说明学习者在数据爬取与处理方面的能力已经得到有效的训练,已经具备了相应能来来应对其他任务场景。
6.1 案例导入
6.2 PubMed数据库单篇文献基础信息抓取
6.3 获取Top-10文献基础信息
6.4 翻页获取Top-N文献基础信息
《Python数据爬取与可视化》PPT课件 李晓昀 南华大学
资源下载
下载价格10 金币
VIP 5折
立即购买