《Python数据爬取与可视化》PPT课件李晓昀南华大学-文档家

Python数据爬取与可视化_南华大学

课件内容：
【模块1】Python程序设计语言基础
1）对于已经学过Python语言基础的同学，可以直接进入下一章节“【模块2】爬虫基础”的学习。2）对于已经有C语言基础、但没有学过Python语言的同学，只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维（函数）的语法，但是1.5数据的类型的介绍中，包含了组合数据类型的使用，这是C语言中没有的，必须先认真学习，掌握之后，再开始学习后续知识。3）对于已经学习过Python语言基础的同学，可以直接从下一个模块开始学习。
1.1 Python语言初探
1.2 IPO程序设计与顺序结构
1.3 程序控制之分支结构
1.4 程序控制之循环结构
1.5 理解数据的类型
1.6 模块化思维
1.7 文件读取
【模块2】爬虫基础
磨刀不误砍柴工。在开始编写爬虫程序之前，了解一些网络请求响应、网页HTML等爬虫相关基础知识，是非常必要的。
2.1 学习爬虫技术之前的重要提示
2.2 从一个简单的请求开始
2.3 HTTP那些事儿
2.4 认识HTML
2.5 爬虫第三方库requests简介
【模块3】单页面静态数据爬取与可视化
单页面静态数据爬取是编写爬虫程序最基本的技能。在这个模块中，非常详细的描述了如何利用网页开发者工具（F12）去分析一个页面的网页元素，定位目标数据所在标签。对于没有任何爬虫基础的小伙伴，在学完【模块2】之后，应该先从3.1开始。另外，很多教材与慕课对于词云的绘制，只是进行了简单的介绍，在本模块中详细介绍了如何利用词频统计改进词云绘制效果。
3.1 单页面数据爬取与简单词云绘制
3.2 细说词云绘制
3.3 词频统计
3.4 利用词频统计改进词云绘制效果
【模块4】多页面数据爬取与存储
多页面数据采集是一个常见的任务需求，例如各个电商网站的商品评论数据、豆瓣评论数据等。不管要抓取的数据对象是什么，只要目标数据是有规律的分布在多个网页上，在完成【模块4】的学习后，就能够对其他分布在多个页面的目标数据进行采集。
4.1 单章节小说爬取与模块化
4.2 目录页分析与存储
4.3 多章节小说存储
4.4 小说爬取中常见问题解决
【模块5】动态页面数据爬取
有时候，我们会遇到一些网站，在页面上命名看到了目标数据，但使用常规的数据采集方法抓取时，却偏偏抓回一个None？Why？这就是动态页面数据的抓取问题了，来吧，一起学习，看看如何解决这一类问题吧~~
5.1 任务进阶安排
5.2 从一个城市开始
5.3 动态查询一个城市天气
5.4 周边景点当天天气查询
5.5 周边景点7天气温折线图绘制
5.6 一省全域天气查询
5.7 天气数据API的使用
【模块6】PubMed数据库文献分析
JSON数据是目前网页传输数据时采用的主要方式之一。COVID-19数据具有数据量大、层次复杂的特点。如果能够熟练分析具有如此复杂结构的COVID-19 JSON数据，并根据任务场景从中提取目标数据，就说明学习者在数据爬取与处理方面的能力已经得到有效的训练，已经具备了相应能来来应对其他任务场景。
6.1 案例导入
6.2 PubMed数据库单篇文献基础信息抓取
6.3 获取Top-10文献基础信息
6.4 翻页获取Top-N文献基础信息