• 赛题名称:5G移动用户使用预测挑战赛
  • 赛题类型:数据挖掘
  • 赛题链接👇:

https://challenge.xfyun.cn/topic/info?type=5G-user&ch=vWxQGFU

赛事背景

在2022世界互联网大会乌镇峰会期间发布的《世界互联网发展报告2022》显示,2022年第一季度,全球5G用户数增加7000万人,总数达到6.2亿人左右,5G人口覆盖率超25%。据爱立信及全球移动通信系统协会(GSMA)预测,到2022年底,全球5G用户数量将突破10亿人。

对于通信运营商来说,面对如此庞大的5G市场,如何基于一些用户侧的信息进行用户画像,再进一步对于潜在的5G使用者进行精准的推销也是非常有帮助的。

赛事任务

本次比赛任务是根据用户基本信息和通信相关数据、比如用户话费信息、流量、活跃行为、套餐类型、区域信息等特征字段,然后通过训练数据训练模型,预测测试集中每个样本是否属于5G用户。

赛题数据集

赛题数据由训练集、测试集据组成,包含60个字段,其中target字段为预测目标,主要特征字段分为两类cat和num,分别是离散型特征和数值型特征。

特征字段字段描述
id样本标识id
cat_0 ~ cat_19离散型特征
num_0 ~ num_37数值型特征
target目标字段,是否为5G用户

评价指标

本次竞赛的评价标准采用AUC,即分数越高,效果越好。

基础思路

赛题是典型的挖掘数据挖掘,因此只需要读取数据然后训练模型即可:

import pandas as pd
import numpy as np
import seaborn as sns

train_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/train.csv")
test_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/test.csv")

import lightgbm as lgb

m = lgb.LGBMClassifier()
m.fit(
    train_data.drop(['id''target'], axis=1),
    train_data['target']
)

pd.DataFrame(
    {
        "id": test_data['id'],
        "target": m.predict_proba(test_data.drop(['id'], axis=1))[:, 1].round(4)
    }
).to_csv('submit.csv', index=None)

 竞赛交流群 邀请函  #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

内容中包含的图片若涉及版权问题,请及时与我们联系删除