📢2024-2025-2-CMP141-1-Python与网络爬虫-课程大作业通知

亲爱的同学们:

为全面提升同学们对数据采集、处理、分析与展示的综合能力,本课程将以课外项目的形式开展课程大作业。项目鼓励结合真实场景与技术创新,围绕网络爬虫与数据分析相关主题进行深入实践。请大家认真阅读以下任务说明,合理规划,积极参与。

一、项目形式与提交要求

1. 实施方式

  • 项目可个人独立完成,或2人组队协作
  • 项目需完整覆盖以下模块:
    • 数据采集(爬虫、接口等方式);
    • 数据清洗与预处理
    • 分析建模与挖掘
    • 可视化呈现或构建简易应用/系统原型
  • 鼓励使用AI 技术(如文本抽取、图谱构建、预测模型等);
  • 展示效果好、报告规范、分析深入者可获得额外加分。

2. 提交内容

请于2025 年 6 月 29 日 23:59 前提交以下材料:

  1. 项目源代码(.py 文件或 .ipynb Jupyter Notebook);
  2. 项目报告(格式为 .pdf.docx);
  3. 可选展示内容:演示视频、在线系统地址或交互式平台。
  4. 发送至邮箱 1025223605@qq.com(标题:“2024-2025-2-CMP141-1-网络爬虫-姓名-学号”)

二、命题方式(可选其一)

(一)指定命题(推荐,有加分,限队伍数量)

每个命题限报名3支队伍,按接龙先后顺序登记。教师将提供部分指导与参考代码

  1. 基于上市公司财报文本的结构化挖掘与就业趋势分析
    分析财报中的员工数量、营收利润等指标,探讨就业形势与产业结构变化。

  2. 面向高校招生数据的文本信息抽取与智能问答系统设计
    提取高校招生简章的结构化信息,构建可查询的考生问答 Agent。

  3. 分布式服务器GPU利用率的网络监测与性能可视化分析
    爬取或采集服务器/GPU利用数据,进行可视化与利用率建模分析。

(二)自拟命题(需提交选题申请并获批)

自拟课题需符合课程核心目标,具备数据可得性分析可行性,需提前提交选题说明并由教师审核批准。

方向建议(示例):

  • 新能源汽车企业财务数据分析与行业对比;
  • 高校官网栏目爬虫与舆情情感分析;
  • 微博热词跟踪与公众情绪时间序列可视化;
  • 图书电商平台商品价格波动监测与性价比分析系统。

三、项目报告建议结构

为确保项目成果表达清晰、逻辑完整,建议报告内容包括以下六个部分:

  1. 选题背景与现实意义
  2. 数据来源说明与爬虫技术实现
  3. 数据清洗方法与结构化处理流程
  4. 分析模型与核心发现
  5. 可视化成果展示与解释
  6. 项目总结与反思(含改进建议与挑战)

四、评分标准(总分 100 分)

维度 分值 评估说明
技术实现 40分 爬虫功能、数据抓取完整性、模块设计规范性
数据与分析深度 30分 数据结构清晰、分析方法合理、结果可信
展示与表达效果 10分 报告格式、图表设计、表达条理性
创意与加分项 20分 命题选择、AI应用、系统原型、可视化交互等亮点

📌 附:补充说明

  • 推荐队伍在选题确立后尽早提交“项目申报表”,便于教师跟进与支持;
  • 欢迎在报告中展示作品链接、界面截图、数据图谱、短视频等;
  • 项目提交后,部分优秀作品将推荐在课堂展示环节公开分享。

如有问题,请及时联系授课教师或在课程群中咨询。

祝大家圆满完成项目,收获技能与成果!