📢2024-2025-2-CMP245-Python与大数据分析-课程大作业通知

⚠️ 严正声明

本次课程大作业是 Python 与大数据分析 课程的重要组成部分,旨在培养同学们的独立思考与实践能力。老师的初衷是通过引入更具趣味性的内容,让编程课程不再枯燥乏味,同时激发大家的学习兴趣。为此,老师在评估方式设计上倾注了大量心血,并将严查舞弊现象,不排除采取必要的查证手段,包括可能的“钓鱼执法”。希望同学们能够理解并珍惜这份良苦用心。

其实,安排一次传统的闭卷考试对老师而言更为省事,但选择这种更具挑战性的方式,付出极大精力开发软件,吃力不讨好,是为了让大家能够真正掌握知识、提升能力,从而受益长远。然而,部分同学的行为却违背了公平竞争的原则,影响了那些认真努力学习的同学。

古人云:“千里之行,始于足下。”又曰:“不积跬步,无以至千里。”作为学子,无论校园内外,当以诚信为本,恪守正道。规则的存在并非束缚,而是为公平与秩序提供保障。世事或有不公,此非投机取巧之遁词;革弊求新,正需积累之功、寸进之力。真正的成长,在于敬畏规则,砥砺德行,日臻完善。

老师的良苦用心在于希望大家能够通过实践与探索,真正掌握知识,提升能力,而非仅仅追求短期成绩。愿诸君珍惜当下,莫负韶华与期盼,方能行稳致远,未来可期。

请大家务必遵守规则,杜绝任何舞弊行为。接受举报,举报邮箱 6.00@163.com

📷 插图展示

黑1 黑2 黑3 黑4 黑5

🚨 涉嫌舞弊人员名单

以下为涉嫌舞弊的人员名单(红色字体标注),课程负责人将联合信息处负责人进行追查:

某同学375350157 某同学745706177
某同学_1楼主
SunnyBlossoming可指导
某同学5nyxa8b
某同学5nyv2hg
QQ1129888135

⚠️ 提醒

课程负责人将与信息处负责人一同追索上述涉嫌舞弊人员,并采取一切必要手段,包括可能的“钓鱼执法”。
请注意:你们能上的网站,课程老师也能上去,而且能看到全貌
期末一旦发现舞弊行为,相关材料将上报教务处,按照作弊处理,存在学位吊销风险

📌 大作业名称:谁会提出保险索赔?

截止时间:2025年6月29日 23:59

一、项目背景

在现代保险行业中,精准识别可能提出索赔的客户,对于控制风险、优化保费结构具有重要意义。现实中,车险客户索赔数据极度不平衡,绝大多数客户在保险期间内并不会提出索赔申请,只有极少数会。

本次项目要求同学们以“保险侦探”的身份,利用所学的 Python 数据分析与建模技能,对车险客户数据进行建模预测,判断客户在保单有效期内是否有索赔行为,从而:

  • 帮助保险公司合理控制风险;
  • 精细化定价和产品设计;
  • 降低理赔成本;
  • 提供更公平的服务给客户。

二、任务目标与提交内容

✅ 任务要求

你需要使用训练数据构建分类模型,并预测测试集中每位客户的索赔概率(取值在 0 到 1 之间)。此外,还需撰写完整项目报告,提交所有相关成果。

📄 提交内容

内容 文件格式 要求
预测结果 .csv 17578 行 × 1 列,每行为客户索赔概率,无表头
项目首页 .doc / .pdf 包含项目标题、姓名、学号等
报告正文 .doc / .pdf 内容详实,包括数据处理、建模过程、模型评估等
源代码 .ipynb / .py / .zip 模型训练、预测代码需完整、可运行

⚠️ 严禁抄袭、共享测试集或提交他人结果,一经发现将按59.99 分处理


三、📤 提交方式说明

为确保作业提交的规范性和完整性,本课程采用专用软件进行作业提交与评分。请务必按照以下方式完成:

提交软件获取

  • 软件下载地址:[期末大作业.exe]
  • 软件开放时间:2025年6月21日 23:59

  • 运行限制:该软件仅允许在 一台主机上运行,原因你懂的。


四、数据说明及获取方式

📂 数据位置说明

  1. 训练集(train.csv

    • 📍 位置:下载的作业包中的 "6-数据集" 文件夹内
    • 行数:41015
    • 列数:40
    • 包含目标变量 claim_status(1=索赔,0=未索赔)
  2. 测试集(test.csv

    • 📍 获取方式:在指定时间通过 期末考试.exe 软件获取
    • 行数:17579
    • 列数:39(无 claim_status
    • ⚠️ 注意:测试集将在考试期间限时开放

📅 重要时间节点

时间节点 说明
现在 - 2025年6月29日 23:59 作业截止时间
考试期间 测试集数据通过期末考试.exe获取

五、字段举例

字段名称 类型 含义
subscription_length float 保单生效时长(年)
vehicle_age float 车辆使用年限
customer_age int 投保人年龄
region_density int 地区人口密度
segment string 市场细分等级(如 B1、C2)
airbags int 安全气囊数量
ncap_rating int 安全评级(1-5星)
claim_status int 是否索赔(仅训练集中)

六、⚠️ 重要提醒

数据获取流程

  1. 第一步:下载作业包,从"6-数据集"文件夹获取训练数据
  2. 第二步:使用训练数据进行模型开发和调试
  3. 第三步:在指定考试时间启动期末考试.exe获取测试数据
  4. 第四步:使用训练好的模型对测试数据进行预测
  5. 第五步:在截止时间前提交所有成果

📋 提交检查清单

  • [ ] 预测结果文件(.csv格式,17578行×1列,无表头)
  • [ ] 项目首页(包含姓名、学号等基本信息)
  • [ ] 详细报告(数据处理、建模过程、模型评估)
  • [ ] 完整源代码(可运行的模型训练和预测代码)
  • [ ] 确认所有文件在截止时间前提交

六、结果文件示例生成代码

import pandas as pd
import numpy as np

# 假设 predictY 是你预测的概率值 DataFrame
predictY = pd.DataFrame(np.random.uniform(0, 1, 17578).reshape(17578, 1))
predictY.to_csv('Results.csv', encoding='utf-8', index=False, header=False)

七、模型评估标准:AUC(Area Under Curve)

  • 本项目以 AUC 值 作为主要评估指标;
  • AUC 衡量模型在所有可能阈值下的区分能力;
  • 特别适用于类别极度不平衡的数据集;
  • 不受分类阈值影响,体现模型对正负样本排序的整体性能。

示例代码:

from sklearn import metrics

# y_true 为真实标签,y_pred 为预测概率
fpr, tpr, _ = metrics.roc_curve(y_true, y_pred)
auc_score = metrics.auc(fpr, tpr)
print("AUC:", auc_score)

八、参考资料