本系统的主要功能是使用足球比赛的图文直播数据自动生成相应的新闻报道。本系统生成的足球新闻主要由四部分构成,分别是标题、开头、比赛精彩细节与对应动态图(如进球、点球、有威胁的射门、红牌、单刀等)和赛后统计。

标题与开头是使用模版系统生成的文字,标题的格式为<赛事名称><赛事轮次><球员表现><队伍一><比分><比赛结果><队伍二><比赛影响>,如“英超第4轮 萨拉赫独中两元 菲尔米诺助攻 利物浦 2-7 客场惨败阿斯顿维拉 联赛连胜终止”。开头则为整场比赛的总览,格式为 <比赛时间、名称、轮次> <上半场进球详情><半场结束比分><下半场进球详情><全场结束比分>,如“足球战报基地10月5日讯,北京时间10月5日03:00,2020/2021赛季西甲第5轮展开了一场较量,巴塞罗那坐镇主场迎战塞维利亚。上半场,塞维利亚率先发难,凭借德容的进球,取得领先;随后,库蒂尼奥的进球,为巴塞罗那扳平比分。双方半场战成1:1。下半场,双方都没攻破对方球门。最终,双方1:1言和。”

比赛精彩细节是使用抽取式摘要模块生成的文章,该模块从新浪的文字直播里获取直播的解说文字,然后从新浪、网易等门户的新闻里获取赛后战报,形成训练数据的平行语料库。具体训练过程为:对于图文直播中的每个句子,计算与相应的新闻报道中每个句子的最大ROUGE-2 F-scores得分作为标签,并训练打分器,使用机器学习模型预测图文直播中每个句子的评分。同时,由于图文直播中可能出现多条类似的评分高的句子,为了解决冗余问题,系统基于行列式点过程的最大后验推断,进行进一步的句子选择。将句子重要性得分作为作为每个元素的被抽取的概率,将句子间的词相似性作为元素之间的相关性,利用贪心近似推断方法得出最可能的句子子集,使用该方法作为重复句子过滤器可以在一定程度上缓解句子冗余问题。

动态图模块使用了视频领域的处理方法,是对比赛精彩细节做的配图。

本系统结合了模版与抽取式摘要的方法,生成的足球新闻报告具有以下优点: 1)准确(由于使用了基于模版和抽取式的方法,所以文字中出现的数字、时间等关键信息都是准确的) 2)流畅(在抽取式摘要模块中,我们对图文直播中的句子进行筛选,并按照直播的顺序进行排列,保证了文字的连贯性) 3)实用(该系统简单实用,能减轻新闻编辑人员的负担)