📢2024-2025-2-CMP141-1-Python与网络爬虫-课程大作业通知
亲爱的同学们:
为全面提升同学们对数据采集、处理、分析与展示的综合能力,本课程将以课外项目的形式开展课程大作业。项目鼓励结合真实场景与技术创新,围绕网络爬虫与数据分析相关主题进行深入实践。请大家认真阅读以下任务说明,合理规划,积极参与。
一、项目形式与提交要求
1. 实施方式
- 项目可个人独立完成,或2人组队协作;
- 项目需完整覆盖以下模块:
- 数据采集(爬虫、接口等方式);
- 数据清洗与预处理;
- 分析建模与挖掘;
- 可视化呈现或构建简易应用/系统原型;
- 鼓励使用AI 技术(如文本抽取、图谱构建、预测模型等);
- 展示效果好、报告规范、分析深入者可获得额外加分。
2. 提交内容
请于2025 年 6 月 29 日 23:59 前提交以下材料:
- 项目源代码(
.py
文件或.ipynb
Jupyter Notebook); - 项目报告(格式为
.pdf
或.docx
); - 可选展示内容:演示视频、在线系统地址或交互式平台。
- 发送至邮箱 1025223605@qq.com(标题:“2024-2025-2-CMP141-1-网络爬虫-姓名-学号”)。
二、命题方式(可选其一)
(一)指定命题(推荐,有加分,限队伍数量)
每个命题限报名3支队伍,按接龙先后顺序登记。教师将提供部分指导与参考代码。
基于上市公司财报文本的结构化挖掘与就业趋势分析
分析财报中的员工数量、营收利润等指标,探讨就业形势与产业结构变化。面向高校招生数据的文本信息抽取与智能问答系统设计
提取高校招生简章的结构化信息,构建可查询的考生问答 Agent。分布式服务器GPU利用率的网络监测与性能可视化分析
爬取或采集服务器/GPU利用数据,进行可视化与利用率建模分析。
(二)自拟命题(需提交选题申请并获批)
自拟课题需符合课程核心目标,具备数据可得性与分析可行性,需提前提交选题说明并由教师审核批准。
方向建议(示例):
- 新能源汽车企业财务数据分析与行业对比;
- 高校官网栏目爬虫与舆情情感分析;
- 微博热词跟踪与公众情绪时间序列可视化;
- 图书电商平台商品价格波动监测与性价比分析系统。
三、项目报告建议结构
为确保项目成果表达清晰、逻辑完整,建议报告内容包括以下六个部分:
- 选题背景与现实意义
- 数据来源说明与爬虫技术实现
- 数据清洗方法与结构化处理流程
- 分析模型与核心发现
- 可视化成果展示与解释
- 项目总结与反思(含改进建议与挑战)
四、评分标准(总分 100 分)
维度 | 分值 | 评估说明 |
---|---|---|
技术实现 | 40分 | 爬虫功能、数据抓取完整性、模块设计规范性 |
数据与分析深度 | 30分 | 数据结构清晰、分析方法合理、结果可信 |
展示与表达效果 | 10分 | 报告格式、图表设计、表达条理性 |
创意与加分项 | 20分 | 命题选择、AI应用、系统原型、可视化交互等亮点 |
📌 附:补充说明
- 推荐队伍在选题确立后尽早提交“项目申报表”,便于教师跟进与支持;
- 欢迎在报告中展示作品链接、界面截图、数据图谱、短视频等;
- 项目提交后,部分优秀作品将推荐在课堂展示环节公开分享。
如有问题,请及时联系授课教师或在课程群中咨询。
祝大家圆满完成项目,收获技能与成果!