百度&西交大第二届大数据竞赛
大赛名称:百度&西交大第二届大数据竞赛活动对象:全国大学生报名截止日期:2016年8月10日一、竞赛概述大数据竞赛是由百度和西安交通大学联合主办,旨在通过全国高校范围内,挖掘、发现大数据尖端人才,并为其提供更好的发展环境和实践机会。第一届百度西安交通大学大数据竞赛于2015年5月正式启动,历时四个月,吸引了全国高校近900支团队参加。第一届竞赛题目是基于百度的“知识图谱”技术展开,以挖掘明星(人物)关系为场景,进而构建知识挖掘系统。今年,竞赛题将围绕用户消费决策影响因素展开,从评价性文本片段中,结合上下文,提取核心内容,为用户判断提供有力依据。本届竞赛要求参赛者给出一个算法或模型,从评价性文本片段中,结合上下文提取子句中的核心实体,即识别出该子句所讨论的最重要的实体。二、竞赛详情1、任务设定:本次竞赛要求参赛者给出一个算法或模型,从评价性文本片段数据集中,结合上下文提取文本片段中的核心实体,即识别文本片段所讨论最重要的实体。竞赛数据由若干文本片段组成,每个文本片段单独占一行,可能包含多个子句,每个子句以半角句号结尾,要求参赛选手识别出每个文本片段子句及其核心实体。输入输出说明:输入:逐行读取文本片段;输出:逐行输出该文本片段的子句以及提取到的核心实体,以json形式分装,格式如下:[{"content":"子句1","core_entity":["entity1","entity2"]},{"content":"子句2","core_entity":["entity1","entity2"]}]样例数据:文本片段:不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些看上去并没有什么卵用但让人感觉确实舒服的小设计。如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时迁就用户个性的锤子。答案:[{"content":"不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些看上去并没有什么卵用但让人感觉确实舒服的小设计。","core_entity":["锤子手机"]},{"content":"如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时迁就用户个性的锤子。","core_entity":["苹果","锤子"]}]2、评分标准:正确识别文本片段中至少一个核心实体得1分,如文本片段包含多个核心实体,每多正确识别一个加0.5分,识别错误反扣0.5直到该子句得分为0为止,实体名称以该实体首次出现在文本片段中的名称为准。3、竞赛阶段Ø训练阶段(4-8月):参赛者获得训练数据,开始训练模型;发布1.2万条语料片段的训练数据集;Ø测试阶段(8-9月):参赛者获得测试数据,得到模型运行结果后,在线提交,实时刷新测试成绩;发布20万条语料测试数据集;Ø验证阶段(9月):排行榜前10名队伍上传源代码及说明文档,竞赛评委组使用官方验证数据集进行测试,最终给出排名;发布20万条语料验证数据集;注:1、参赛者可以任意使用其他公开的外部数据源或者词典作为辅助数据,但提交时需要说明清楚使用方式并将使用到的外部数据一并提交,同时禁止人工标注数据用于系统优化,如有发现成绩归零。2、说明文档至少包含编译环境说明,算法、代码等说明。3、报名截止日期:8月10日。三、开放数据训练数据:数据集包含1.2万个文本片段,每个文本片段后给出Json格式的子句及其核心实体;下载链接(百度网盘分享):http://pan.baidu.com/s/1pLtfjSZ密码:jzy9该数据为竞赛专用,严禁用于商业用途!四、报名要求参赛对象全日制在校学生均可报名参加,参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人;4月9日早8点开放报名!注:1、每人只能参加一支队伍;2、保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励;3、报名方式:用百度账号登入官网、填写完个人信息,可报名参赛。4、百度西交大大数据竞赛官方交流群,QQ群:482699741五、奖项设置奖项分为两类:普通奖项和特别贡献奖,各奖项均以团队进行评比;获奖团队成员优先推荐进入百度实习或工作。注:一个团队不可同时获得两类奖项。普通奖项:一等奖2万元人民币二等奖1万元人民币三等奖5千元人民币特别贡献奖10万元人民币(1名)大赛官网:http://openresearch.baidu.com/online/artical.do?method=activityItemDetail&activityID=26eb630e-5839-452d-ad71-bf023a8d6327&navIndex=1媒体支持:http://ps.webxun.com图文信息出自:百度校园,信息版权及解释权归百度校园所有。