NVIDIA 第六届 Sky Hackathon 报名开启,挑战创建 AI 大白,虚位...

Sky Hackathon 由 NVIDIA 发起并主办,项目旨在帮助在校学生、深度学习开发者在NVIDIA Jetson 边缘高性能计算产品上部署和优化人工智能应用。在经验丰富的 GPU 导师指导下,通过黑客松竞赛的方式学习业界所需的深度学习相关应用开发及其并行计算技能,激发学生们的学习兴趣与创新力。

NVIDIA 工程师将亲自为参赛队伍带来他们对最新的深度学习与边缘计算方面的理解、行业的趋势与最新的技术应用及最新开发工具实战技能知识,在训练营中对参赛队伍进行指导。

Sky Hackathon 为参加者提供了一个难得的学习并实操的机会,学习嵌入式深度学习开发所需的动手技能, 通过使用 NVIDIA 最新的编程模型、库和工具以加速和优化他们的AI应用程序。

整个活动包含了训练营和黑客松比赛,全程采用在线的方式。

本次比赛由联宝科技有限公司(简称联宝科技)赞助。联宝科技致力于为企业提供智能边缘计算产品及解决方案,是NVIDIA Jetson全球生态的推荐伙伴。

本次比赛前三名队伍将获得联宝Jetson NANO开发套件各一台;前十名队伍的参赛导师也将获得联宝Jetson NANO开发套件各一台。

为了确保赛事资源有效使用,每个参赛队伍需要缴纳100元人民币参赛费用(以团队为单位),请先填写报名表,组委会会联系各队队长,缴纳报名费后(可开具发票),报名才算成功,且中途退赛不退还报名费。

50 个参赛席位等待您,名额报满即关闭报名通道。
报名链接:https://jinshuju.net/f/EVyMZo

往届活动回顾
第一届活动可以访问:https://mp.weixin.qq.com/s/NmKVftUs5diTrDRl2Rblmg

第二届活动可以访问:https://mp.weixin.qq.com/s/1M50CStTGzQTY2ADuUpeYQ

第二届活动导师评价:https://mp.weixin.qq.com/s/Sue6OV0eZyYlD2vvSLvwEg

第三届活动可以访问:https://mp.weixin.qq.com/s/r-nd9zDbaYdrQ0nZzKl5vg

第四届活动可以访问:https://mp.weixin.qq.com/s/df1QCJ5MRLd8CxrHkSylcg

第五届活动可以访问:https://mp.weixin.qq.com/s/Rt9Xz_YmI9VsjL8tUsjuqg

本次活动主题
参赛题目:AI 助力防疫——创建 AI “大白”

新冠疫情给我们的生活带来了前所未有的挑战。面对疫情我们众志成城,团结抗疫,借助 AI 技术的发展助力科学防疫。NVIDIA 正在努力加强技术研究,致力于开发创新计算解决方案,加速了解新冠疫情的传播、规模和严重性,同时鼓励开发者们利用NVIDIA 各种 AI 开发工具,激发创造力对抗新冠疫情。

本次Hackathon 活动以 AI 助力防疫——创建 AI “大白”为主题。身着白色防护服的工作人员辛苦奋战在抗疫一线,我们可以通过AI的技术辅助防疫工作,例如口罩识别检测和口罩佩戴语音提醒,小区门禁二维码识别等场景的应用, 学习 AI项目在疫情防控中的设计理念。

场景描述

第一步 :通过语音跟AI大白打招呼 “你好大白,请让我进入小区“ 进行语音唤醒(ASR语音识别模块会将这段语音转换成文字)

第二步:当AI大白被语音指令唤醒,通过语音回复“请带好口罩并出示二维码”,并通过计算机视觉模块进行口罩检测与二维码识别。

第三步:AI大白通过视觉模块检测出您已配戴好口罩同时二维码有效,便会用声音说出“您好欢迎回家, 二维码有效请您通过”的语句(TTS语音合成模块会将文字转换成语音)

比赛内容说明
比赛过程说明:

1 数据采集:每组参赛队伍自行分工,收集数据集并标注用于模型的训练(语音数据需录制、图像数据需标注) 。

2 模型训练:每组参赛队伍需要根据组委会提供的教程,在自己的服务器上搭建环境,训练自动语音识别模型、目标检测模型、语音合成模型。

· ASR 自动语音识别:根据录制的语音数据制作语音识别数据集,结合对话式AI工具库NeMo,训练自动语音识别模型,通过模型来识别语音指令(如:您好大白, 请让我进入小区)

· CV 目标检测:收集口罩数据, 利用 NVIDIA TAO Toolkit 训练口罩检测模型. 利用TensorRT 优化训练好的模型, 生成可执行的目标检测推理引擎. 结合二维码识别模块, 完成图像中的口罩检测和二维码识别,输出识别结果与文字回复。

· TTS 语音合成:根据录制的语音数据制作语音合成数据集,结合对话式 AI 工具NeMo,训练语音合成模型,将 CV 目标识别模块输出的文字回复用声音说出来,实现语音播报功能(如: “您好,欢迎回家, 二维码有效, 请您通过” )

3 模型推理:参赛队伍最终将训练好的模型部署到组委会提供的 Jetson Nano 集群上,进行最终的推理测试。

4 本次活动不限定参赛者选用的模型以及使用的训练数据集。

5 正式比赛时,组委会会提供最终测试数据和评分规则。每个参赛队伍需要利用评分规则和最终的测试数据对程序进行评分。

6 注意:除了在 NANO 平台上提交模型进行比赛外,各参赛团队还要提交一份不少于800字的项目报告(项目报告模板见附件)。

在此过程中,学生将会实际体验到:

  1. 基于目标识别的深度学习模型的训练过程

  2. 利用 NVIDIA TAO 对模型进行剪枝等优化过程

  3. 利用 NVIDIA TensorRT 对训练好的模型进行部署

  4. 利用 NVIDIA NeMo 进行自动语音识别模型的训练

  5. 利用 NVIDIA NeMo 进行语音合成模型的训练

  6. 利用 NVIDIA NeMo 将自动语音识别模型以及语音合成模型部署在 Jetson NANO 上

  7. 利用 Jetson Nano 进行实际场景实验

  8. 深度学习数据集的收集,筛选,清理和标注以及语音数据集的录制构建等过程。

活动日程安排
活动形式:线上

活动安排:
[table=553]
[tr][td=104]
4月29日

5月19日
[/td][td=2,1,449]

线上报名(https://jinshuju.net/f/EVyMZo),每个参赛队员都需要报名。报名后,组委会联系队长缴纳报名费后才算报名成功。且中途退赛不退还报名费。报名时间内,如果所有席位报满,组委会将有权提前关闭报名通道。

[/td][/tr]
[tr][td=104]

5月21日

[/td][td=350]

第一次 AI 训练营

[/td][td=100]
[/td][/tr]
[tr][td=104]
9:30-9:40
[/td][td=350]

欢迎致辞

[/td][td=100]

NVIDIA Maggie

[/td][/tr]
[tr][td=104]

9:40-11:40

[/td][td=350]

宣布黑客松的比赛规则,讲解自动语音识别和语音合成快速入门+利用NeMo工具库在服务器端训练ASR自动语音识别与TTS语音合成模型

[/td][td=100]

NVIDIA Yipeng

[/td][/tr]
[tr][td=104]
[/td][td=350]
中午休息
[/td][td=100]
[/td][/tr]
[tr][td=104]
14:00-15:00
[/td][td=350]

如何在服务器端利用NVIDIA TAO工具来训练模型(视觉)

[/td][td=100]

NVIDIA Ken

[/td][/tr]
[tr][td=104]

5月28日

[/td][td=350]

第二次AI 训练营

[/td][td=100]
[/td][/tr]
[tr][td=104]
9:30-9:40
[/td][td=350]

前情回顾

[/td][td=100]

NVIDIA Ken He

[/td][/tr]
[tr][td=104]

9:40-10:30

[/td][td=350]

介绍如何在Jetson NANO上利用TensorRT部署TLT训练的目标检测模型

[/td][td=100]

NVIDIA Ken He

[/td][/tr]
[tr][td=104]

10:30-11:00

[/td][td=350]

介绍如何在Jetson NANO上部署NeMo训练的自动语音模型以及语音合成模型

[/td][td=100]

NVIDIA Yipeng

[/td][/tr]
[tr][td=104]
[/td][td=350]
中午休息
[/td][td=100]
[/td][/tr]
[tr][td=104]
14:00-14:20
[/td][td=350]

Jetson 平台介绍

[/td][td=100]

GPUS

[/td][/tr]
[tr][td=104]

14:20-18:00

[/td][td=350]

参赛团队远程上机操作,答疑

[/td][td=100]
[/td][/tr]
[tr][td=104]
6月3日
[/td][td=350]

线上测试

[/td][td=100]
[/td][/tr]
[tr][td=104]
18:00-24:00
[/td][td=350]

开放Jetson NANO云平台给参赛队伍做测试

[/td][td=100]
[/td][/tr]
[tr][td=104]
6月4日
[/td][td=350]

线上测试

[/td][td=100]
[/td][/tr]
[tr][td=104]
8:00-24:00
[/td][td=350]

开放Jetson NANO云平台给参赛队伍做测试

[/td][td=100]
[/td][/tr]
[tr][td=104]
6月5日
[/td][td=350]

比赛

[/td][td=100]
[/td][/tr]
[tr][td=104]
8:00-14:00
[/td][td=350]

开放Jetson NANO云平台给参赛队伍做测试

[/td][td=100]
[/td][/tr]
[tr][td=104]
14:00-18:00
[/td][td=350]

各队开始远程提交最终模型,组委会进行模型性能评测,

系统停止接受模型提交时间为 18:00

同时各参赛团队需要在18点之前提交一份不少于800字的项目报告。

如果有评分一样的,需要有加时赛直到确定比分顺序

[/td][td=100]
[/td][/tr]
[tr][td=104]
6月6日
[/td][td=350]

公布比赛结果及大赛总结

[/td][td=100]
[/td][/tr]
[tr][td=104]
10:00-10:15
[/td][td=350]

公布比赛结果

[/td][td=100]

NVIDIA

[/td][/tr]
[tr][td=104]

10:15-11:00

[/td][td=350]

本次大赛选手发挥及经验总结

[/td][td=100]

Ken He, NVIDIA

[/td][/tr]
[/table]
参赛推理平台
硬件平台:NVIDIA Jetson Nano(128CUDA核、4核CPU、4G内存)

操作系统:Ubuntu 18.04 L4T 64位元桌面版

开发环境:CUDA 10.2、CUDNN8.0、TensorRT7.1、OpenCV4.1.1

教学环境:Jupyter Lab 2.1.2

同时为参赛队伍提供真实的 NANO 编程环境

评分标准

    1. 自动语音识别推理精度评估(accASR):将服务器端训练好的语音识别模型上传到 NANO 节点上实现推理任务,调用语音识别模型对组委会提供的测试语音进行推理,调用语音识别模型进行推理完成语音识别任务,并计算字错率(cer_score)分数,进而得到准确率的分数即(accASR = 1 -cer_score);如果参赛队伍可以额外将自我介绍的中文名字也加入到语音识别任务如:“你好大白,我是小明,请让我进入小区” 并完成语音识别,则isOthermodel加1分。
    1. 目标检测推理精度评估:将最终提交的模型在 NANO 节点上进行部署,在 NANO 上对口罩进行检测, 并对二维码进行识别. 根据组委会提供的统一测试数据集进行推理并计算mAP精度部分的最终成绩为: accCV= 60-(accRank-1)
    1. PESQ 客观语音质量评估:PESQ 是指用经过处理后的语音文件(语音压缩、合成、重构等)与原始目标语音进行比较。它是 MOS (主观语音质量平均意见分)的相关性参考标准,PESQ 得分范围在 -0.5–4. 5 之间,得分越低语音质量越差,得分越高表示语音质量越好。
    1. MOS 主观语音质量平均意见分:MOS 是由不同的试听人员通过人耳听觉对测试语音的质量进行评分,最后求平均值得出 MOS 分数。将采取 5 个级别对测试语音的质量进行参考评价。

[table=538]
[tr][td=32]

评分

[/td][td=89]

语音质量

[/td][td=67]

失真程度

[/td][td=350]

听觉感受

[/td][/tr]
[tr][td=32]

5

[/td][td=89]

非常好(Excellent)

[/td][td=67]

不可察觉

[/td][td=350]

音质清晰,无噪音无失真,合成的语音内容清晰可懂。

[/td][/tr]
[tr][td=32]

4

[/td][td=89]

好(Good)

[/td][td=67]

略可察觉

[/td][td=350]

音质尚可,略有噪音及失真,合成的语音内容易于理解

[/td][/tr]
[tr][td=32]

3

[/td][td=89]

一般(Fair)

[/td][td=67]

可察觉

[/td][td=350]

音质尚可,有噪音及失真,合成的语音不影响内容理解。

[/td][/tr]
[tr][td=32]

2

[/td][td=89]

差(Poor)

[/td][td=67]

不可接受

[/td][td=350]

音质较差,有明显噪音及失真,仅可以隐约听到语音部分内容。

[/td][/tr]
[tr][td=32]

1

[/td][td=89]

很差(Bad)

[/td][td=67]

难以接受

[/td][td=350]

音质很差,均为噪音及失真,完全无法听到语音内容。

[/td][/tr]
[/table]

*5 网络模型重构(5%):

· 本教程在语音识别部分提供 Quartznet 预训练模型为基础,若能够灵活使用框架内其他语音识别预训练模型完成推理,则最终成绩 isOthermodel 加2分,若能够自制语音数据集进行模型训练并完成推理,则最终成绩 isOthermodel 加5分。

· 语音合成部分若能够将姓名在语音合成的语句中播报,则最终成绩 isOthermodel 加2分。

· 视觉部分(修改 resnet18 ,isOthermodel 加3分,修改 ssd ,isOthermodel 加5分,如:利用 ssd-mobilenet 则加3分,利用 yolo-resnet18 加5分)

最终成绩为五部分分数之和:Final = accASR + accCV + pesqTTS + mosTTS + isOthermodel

分数最高者为胜出团队。

另外本次比赛另设考勤分数,即参赛团队必须完成两次在线AI训练营打卡,即可获得考勤分。并且考勤情况我们也会通知团队导师。

赛事交流和答疑
本次 Hackathon 活动会提供专属赛事交流微信群,所有符合参赛条件的团队成员将被组委会人员邀请加入微信群。

NVIDIA 在开发者社区论坛会提供专属赛事栏目:

有关赛事的技术问题请在论坛上提问。组委会技术团队会负责技术答疑。

第一届赛事技术问题回顾可以访问:

NVDC-TLT 安装文档:

项目报告模板:

TLT 相关资料下载地址:

关于参赛团队导师
此次活动采用导师制。所以每个参赛队伍都需要有一名指导老师。

导师需要能够敦促参赛团队完成两次在线 AI 训练营的学习,以及最后的比赛。能给予团队成员一定的技术指导。

所有导师带队的团队能完成最后的比赛,且成绩有效,前十名队伍的参赛导师也将获得联宝Jetson NANO开发套件各一台(如队伍导师重复,也只发一台)

Q&A
我能参加么?

Sky Hackathons 目前针对高校学生,当然有兴趣参与的高中学生也欢迎。一般不需要有 GPU 编程经验,但是最好有一定 Python 和编程基础;对深度学习、神经网络有一定理论基础;

需要自己准备数据训练用的 GPU 服务器/工作站或者 GPU 云;

本次活动暂时不接受非学生者参加。

如何报名?

黑客精神就是团队合作,每队需要选出一名队长,并为团队起个名字。

此次活动采用导师制。所以每个参赛队伍都会有一名指导老师。

所有团队成员应单独报名,并填写团队名称以及导师名字

每队限3-5人(不含导师)。如果报名团队多余5人或者少于3人,我们将视为团队无效。

团队报名链接:https://jinshuju.net/f/EVyMZo

一个导师可以组织多支参赛队伍么?

可以,我们鼓励导师组织多支参赛队伍。

但是一个队伍只能有一位导师,不接受一个队伍两个导师。

有奖励么?

一般来说,NANO Hackathon 是合作而不是竞争。最好的奖品是代码的新性能级别、与专家的相处时间、在 Jetson 平台上运行的能力以及难忘的体验,这些都可能使您更接近一篇新的论文或演讲。但是,我们确实会颁发一些象征性的奖品和参赛证书。

奖品:

优胜奖:三个 ,每个队伍获得联宝 Jetson NANO 开发套件各一台

纪念奖:每位参赛选手,并获得参赛证书和参赛纪念品。

如何缴纳报名费?

团队在线报名后,请队长在24小时内缴纳报名费用,每个团队费用为100元人民币(跟参赛人数无关)

组委会合作伙伴会开具“技术服务费”增值税普通电子发票。

支付宝转账:

支付宝账号:18915751925 顾海燕 请备注团队名称

24小时内没有缴纳报名费用,则席位取消。

报名时间内,如果所有席位报满,组委会将有权提前关闭报名通道。

- 扩展阅读 -

AI强势来袭,联宝科技推出4款边缘计算产品应对物联网终端高性能需求

附件:项目报告模板