科大讯飞：5G移动用户预测 baseline

赛题名称：5G移动用户使用预测挑战赛
赛题类型：数据挖掘
赛题链接👇：

https://challenge.xfyun.cn/topic/info?type=5G-user&ch=vWxQGFU

赛事背景

在2022世界互联网大会乌镇峰会期间发布的《世界互联网发展报告2022》显示，2022年第一季度，全球5G用户数增加7000万人，总数达到6.2亿人左右，5G人口覆盖率超25%。据爱立信及全球移动通信系统协会(GSMA)预测，到2022年底，全球5G用户数量将突破10亿人。

对于通信运营商来说，面对如此庞大的5G市场，如何基于一些用户侧的信息进行用户画像，再进一步对于潜在的5G使用者进行精准的推销也是非常有帮助的。

赛事任务

本次比赛任务是根据用户基本信息和通信相关数据、比如用户话费信息、流量、活跃行为、套餐类型、区域信息等特征字段，然后通过训练数据训练模型，预测测试集中每个样本是否属于5G用户。

赛题数据集

赛题数据由训练集、测试集据组成，包含60个字段，其中target字段为预测目标，主要特征字段分为两类cat和num，分别是离散型特征和数值型特征。

特征字段	字段描述
id	样本标识id
cat_0 ～ cat_19	离散型特征
num_0 ~ num_37	数值型特征
target	目标字段，是否为5G用户

评价指标

本次竞赛的评价标准采用AUC，即分数越高，效果越好。

基础思路

赛题是典型的挖掘数据挖掘，因此只需要读取数据然后训练模型即可：

import pandas as pd
import numpy as np
import seaborn as sns

train_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/train.csv")
test_data = pd.read_csv("5G移动用户使用预测挑战赛公开数据/test.csv")

import lightgbm as lgb

m = lgb.LGBMClassifier()
m.fit(
    train_data.drop(['id', 'target'], axis=1),
    train_data['target']
)

pd.DataFrame(
    {
        "id": test_data['id'],
        "target": m.predict_proba(test_data.drop(['id'], axis=1))[:, 1].round(4)
    }
).to_csv('submit.csv', index=None)

# 竞赛交流群邀请函 #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

内容中包含的图片若涉及版权问题，请及时与我们联系删除