📢2024-2025-2-CMP245-Python与大数据分析-课程大作业通知
⚠️ 严正声明
本次课程大作业是 Python 与大数据分析 课程的重要组成部分,旨在培养同学们的独立思考与实践能力。老师的初衷是通过引入更具趣味性的内容,让编程课程不再枯燥乏味,同时激发大家的学习兴趣。为此,老师在评估方式设计上倾注了大量心血,并将严查舞弊现象,不排除采取必要的查证手段,包括可能的“钓鱼执法”。希望同学们能够理解并珍惜这份良苦用心。
其实,安排一次传统的闭卷考试对老师而言更为省事,但选择这种更具挑战性的方式,付出极大精力开发软件,吃力不讨好,是为了让大家能够真正掌握知识、提升能力,从而受益长远。然而,部分同学的行为却违背了公平竞争的原则,影响了那些认真努力学习的同学。
古人云:“千里之行,始于足下。”又曰:“不积跬步,无以至千里。”作为学子,无论校园内外,当以诚信为本,恪守正道。规则的存在并非束缚,而是为公平与秩序提供保障。世事或有不公,此非投机取巧之遁词;革弊求新,正需积累之功、寸进之力。真正的成长,在于敬畏规则,砥砺德行,日臻完善。
老师的良苦用心在于希望大家能够通过实践与探索,真正掌握知识,提升能力,而非仅仅追求短期成绩。愿诸君珍惜当下,莫负韶华与期盼,方能行稳致远,未来可期。
请大家务必遵守规则,杜绝任何舞弊行为。接受举报,举报邮箱 6.00@163.com
📷 插图展示





🚨 涉嫌舞弊人员名单
以下为涉嫌舞弊的人员名单(红色字体标注),课程负责人将联合信息处负责人进行追查:
某同学375350157
某同学745706177
某同学_1楼主
SunnyBlossoming可指导
某同学5nyxa8b
某同学5nyv2hg
QQ1129888135
⚠️ 提醒
课程负责人将与信息处负责人一同追索上述涉嫌舞弊人员,并采取一切必要手段,包括可能的“钓鱼执法”。
请注意:你们能上的网站,课程老师也能上去,而且能看到全貌。
期末一旦发现舞弊行为,相关材料将上报教务处,按照作弊处理,存在学位吊销风险。
📌 大作业名称:谁会提出保险索赔?
⏰ 截止时间:2025年6月29日 23:59
- 作业下载:2025-期末大作业.zip
一、项目背景
在现代保险行业中,精准识别可能提出索赔的客户,对于控制风险、优化保费结构具有重要意义。现实中,车险客户索赔数据极度不平衡,绝大多数客户在保险期间内并不会提出索赔申请,只有极少数会。
本次项目要求同学们以“保险侦探”的身份,利用所学的 Python 数据分析与建模技能,对车险客户数据进行建模预测,判断客户在保单有效期内是否有索赔行为,从而:
- 帮助保险公司合理控制风险;
- 精细化定价和产品设计;
- 降低理赔成本;
- 提供更公平的服务给客户。
二、任务目标与提交内容
✅ 任务要求
你需要使用训练数据构建分类模型,并预测测试集中每位客户的索赔概率(取值在 0 到 1 之间)。此外,还需撰写完整项目报告,提交所有相关成果。
📄 提交内容
内容 | 文件格式 | 要求 |
---|---|---|
预测结果 | .csv |
共 17578 行 × 1 列,每行为客户索赔概率,无表头 |
项目首页 | .doc / .pdf |
包含项目标题、姓名、学号等 |
报告正文 | .doc / .pdf |
内容详实,包括数据处理、建模过程、模型评估等 |
源代码 | .ipynb / .py / .zip |
模型训练、预测代码需完整、可运行 |
⚠️ 严禁抄袭、共享测试集或提交他人结果,一经发现将按59.99 分处理。
三、📤 提交方式说明
为确保作业提交的规范性和完整性,本课程采用专用软件进行作业提交与评分。请务必按照以下方式完成:
提交软件获取
- 软件下载地址:[期末大作业.exe]
软件开放时间:2025年6月21日 23:59
运行限制:该软件仅允许在 一台主机上运行,原因你懂的。
四、数据说明及获取方式
📂 数据位置说明
训练集(
train.csv
)- 📍 位置:下载的作业包中的 "6-数据集" 文件夹内
- 行数:41015
- 列数:40
- 包含目标变量
claim_status
(1=索赔,0=未索赔)
测试集(
test.csv
)- 📍 获取方式:在指定时间通过 期末考试.exe 软件获取
- 行数:17579
- 列数:39(无
claim_status
) - ⚠️ 注意:测试集将在考试期间限时开放
📅 重要时间节点
时间节点 | 说明 |
---|---|
现在 - 2025年6月29日 23:59 | 作业截止时间 |
考试期间 | 测试集数据通过期末考试.exe获取 |
五、字段举例
字段名称 | 类型 | 含义 |
---|---|---|
subscription_length |
float | 保单生效时长(年) |
vehicle_age |
float | 车辆使用年限 |
customer_age |
int | 投保人年龄 |
region_density |
int | 地区人口密度 |
segment |
string | 市场细分等级(如 B1、C2) |
airbags |
int | 安全气囊数量 |
ncap_rating |
int | 安全评级(1-5星) |
claim_status |
int | 是否索赔(仅训练集中) |
六、⚠️ 重要提醒
数据获取流程
- 第一步:下载作业包,从"6-数据集"文件夹获取训练数据
- 第二步:使用训练数据进行模型开发和调试
- 第三步:在指定考试时间启动期末考试.exe获取测试数据
- 第四步:使用训练好的模型对测试数据进行预测
- 第五步:在截止时间前提交所有成果
📋 提交检查清单
- [ ] 预测结果文件(.csv格式,17578行×1列,无表头)
- [ ] 项目首页(包含姓名、学号等基本信息)
- [ ] 详细报告(数据处理、建模过程、模型评估)
- [ ] 完整源代码(可运行的模型训练和预测代码)
- [ ] 确认所有文件在截止时间前提交
六、结果文件示例生成代码
import pandas as pd
import numpy as np
# 假设 predictY 是你预测的概率值 DataFrame
predictY = pd.DataFrame(np.random.uniform(0, 1, 17578).reshape(17578, 1))
predictY.to_csv('Results.csv', encoding='utf-8', index=False, header=False)
七、模型评估标准:AUC(Area Under Curve)
- 本项目以 AUC 值 作为主要评估指标;
- AUC 衡量模型在所有可能阈值下的区分能力;
- 特别适用于类别极度不平衡的数据集;
- 不受分类阈值影响,体现模型对正负样本排序的整体性能。
示例代码:
from sklearn import metrics
# y_true 为真实标签,y_pred 为预测概率
fpr, tpr, _ = metrics.roc_curve(y_true, y_pred)
auc_score = metrics.auc(fpr, tpr)
print("AUC:", auc_score)
八、参考资料
- Scikit-learn 官方文档:https://scikit-learn.org
- AUC 详解:https://baike.baidu.com/item/AUC/19282953