赛题名称:5G移动用户使用预测挑战赛 赛题类型:数据挖掘 赛题链接👇:
https://challenge.xfyun.cn/topic/info?type=5G-user&ch=vWxQGFU
在2022世界互联网大会乌镇峰会期间发布的《世界互联网发展报告2022》显示,2022年第一季度,全球5G用户数增加7000万人,总数达到6.2亿人左右,5G人口覆盖率超25%。据爱立信及全球移动通信系统协会(GSMA)预测,到2022年底,全球5G用户数量将突破10亿人。

对于通信运营商来说,面对如此庞大的5G市场,如何基于一些用户侧的信息进行用户画像,再进一步对于潜在的5G使用者进行精准的推销也是非常有帮助的。
本次比赛任务是根据用户基本信息和通信相关数据、比如用户话费信息、流量、活跃行为、套餐类型、区域信息等特征字段,然后通过训练数据训练模型,预测测试集中每个样本是否属于5G用户。
赛题数据由训练集、测试集据组成,包含60个字段,其中target字段为预测目标,主要特征字段分为两类cat和num,分别是离散型特征和数值型特征。
| 特征字段 | 字段描述 |
|---|---|
| id | 样本标识id |
| cat_0 ~ cat_19 | 离散型特征 |
| num_0 ~ num_37 | 数值型特征 |
| target | 目标字段,是否为5G用户 |
本次竞赛的评价标准采用AUC,即分数越高,效果越好。
赛题是典型的挖掘数据挖掘,因此只需要读取数据然后训练模型即可:
import pandas as pd
import numpy as np
import seaborn as sns
train_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/train.csv")
test_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/test.csv")
import lightgbm as lgb
m = lgb.LGBMClassifier()
m.fit(
train_data.drop(['id', 'target'], axis=1),
train_data['target']
)
pd.DataFrame(
{
"id": test_data['id'],
"target": m.predict_proba(test_data.drop(['id'], axis=1))[:, 1].round(4)
}
).to_csv('submit.csv', index=None)
# 竞赛交流群 邀请函 #

每天大模型、算法竞赛、干货资讯

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢