第七届NVIDIA Sky Hackathon项目报告书
创始人
2024-02-20 10:37:31
0

系列文章目录

  1. 数据集收集和标注情况
    1.1ASR语音数据集收集和标注情况
    1.2CV图像数据集收集和标注情况
  2. 进行模型的训练
    2.1进行ASR模型的训练
    2.2进行CV模型的训练
  3. 在Jetson平台进行部署和推理
    3.1部署和推理ASR模型
    3.2部署和推理CV模型
  4. 优化UI界面

文章目录

  • 系列文章目录
  • 1. 数据集收集和标注情况
    • 1.1ASR语音数据集收集和标注情况
    • 1.2CV图像数据集收集和标注情况
  • 2.进行模型的训练
    • 2.1进行ASR模型的训练
    • 2.2进行CV模型的训练
  • 3.在Jetson平台进行部署和推理
    • 3.1部署和推理ASR模型
    • 3.2部署和推理CV模型
  • 4. 优化UI界面
  • 总结


1. 数据集收集和标注情况

1.1ASR语音数据集收集和标注情况

提示:这里可以添加本文要记录的大概内容:

首先收集语音数据集,包含以下语音:

请检测出果皮
请检测出瓶子
请检测出纸箱
请检测出纸箱和果皮
请检测出果皮和纸箱
请检测出纸箱果皮和瓶子
请检测出果皮纸箱和瓶子
请检测出果皮瓶子和纸箱
请检测出纸箱瓶子和果皮
请检测出瓶子果皮和纸箱
请检测出果皮和瓶子
请检测出瓶子纸箱和果皮
请检测出瓶子和果皮
请检测出纸箱和瓶子
请检测出瓶子和纸箱

数据集类型以及数量

数据集类型语音数量
测试集111条男声+75条女声
训练集221条(男+女)

通过librosa计算语音时长

asr_result = quartznet.transcribe(paths2audio_files=["xxx"]) # 调用transcribe函数测试预训练模型识别效果  
print(asr_result)  

制作好训练集的json文件和测试集的json文件

1.2CV图像数据集收集和标注情况

收集箱子图片200+,瓶子图片100+,香蕉皮图片100+
比赛方提供了2636张图片的数据集,但是因为训练效果并不好,所以我们对数据集进行了清洗,并加入了我们自己的图片。
最后完整的数据集共2276张图片和标签。
我们使用labelimg进行图像标注,但是因为labelimg只能标注为Pascal VOC格式,所以我们需要将其手动转换为KITTI格式

# -*- coding: utf-8 -*-
import sys
from os import listdir
from os.path import isfile, isdir, join, dirname, splitext, basename
import xml.etree.ElementTree as ETpath=""
class XMLReader:def __init__(self, path):file = open(path, 'r')self.path = pathself.content = file.read()self.root = ET.fromstring(self.content)self.template = "{name} 0.00 0 0.0 {xmin}.00 {ymin}.00 {xmax}.00 {ymax}.00 0.0 0.0 0.0 0.0 0.0 0.0 0.0"def get_filename(self):return splitext(basename(self.path))[0]def get_dir(self):return dirname(self.path)def get_objects(self):objects = []for object in self.root.findall("object"):objects.append({"name" : object.find("name").text,"xmin" : object.find("bndbox").find("xmin").text,"ymin" : object.find("bndbox").find("ymin").text,"xmax" : object.find("bndbox").find("xmax").text,"ymax" : object.find("bndbox").find("ymax").text})return objectsdef fill_template(self, object):return self.template.format(**object)def export_kitti(self):objects = self.get_objects()#Skip emptyif len(objects) == 0: return Falsefile = open(join(self.get_dir(), self.get_filename()) + ".txt", 'w')for object in objects[:-1]:file.write(self.fill_template(object) + "\n")# Write last without '\n'file.write(self.fill_template(objects[-1]))file.close()return Truedef process_file(path):xml_reader = XMLReader(path)return xml_reader.export_kitti()def get_directory_xml_files(dir):return [join(dir, f) for f in listdir(dir) if isfile(join(dir, f)) and splitext(f)[1].lower() == ".xml"]def check_argv(argv):return len(argv) > 1def main():if not check_argv(sys.argv):print("Wrong arguments. You should specify xml files or directory with xml files")# remove script nameargs = sys.argv[1:]processed_file_count = 0for path in args:files = []if isfile(path):files.append(path)elif isdir(path):files += get_directory_xml_files(path)for file in files:if process_file(file): processed_file_count += 1print("Finished. {0} Files are processed".format(processed_file_count))if __name__ == "__main__":main()

2.进行模型的训练

2.1进行ASR模型的训练

导入相关包和yaml文件后进行训练,在yaml文件中修改batch_size和数据集路径等
训练150轮后查看训练结果,并保存nemo模型

2.2进行CV模型的训练

在CV模型的训练中,最主要的是完成数据集的加载以及模型训练时参数的设置

training_config {batch_size_per_gpu: 8num_epochs: 80enable_qat: falselearning_rate {soft_start_annealing_schedule {min_learning_rate: 5e-5max_learning_rate: 2e-3soft_start: 0.15annealing: 0.8}}

我们修改了学习率为0.002,并且有80个epochs,最后将训练的模型进行剪枝
最后用tao converter转换为bin的形式

注意!!!
这里要在节点上转换,不能在本地转换


3.在Jetson平台进行部署和推理

3.1部署和推理ASR模型

将本地保存好的nemo模型上传到节点
修改app.py的模型路径

nemo_asr.models.EncDecCTCModel.restore_from("/home/nvidia/7th_ASR/7th_asr_model_best.nemo") 

启动flask服务后进入前端的界面
在这里插入图片描述
点击加载模型
在这里插入图片描述
选择文件->上传语音
在这里插入图片描述
输入正确答案后识别
在这里插入图片描述
可以得到正确率和错字率

3.2部署和推理CV模型

需要在garbage_detection.py文件中修改自己模型的路径和名字
将训练好的模型通过flask部署到节点上,并且进行测试

在这里插入图片描述
在这里插入图片描述
上传图片并进行识别,可以得到识别结果
在这里插入图片描述


4. 优化UI界面

这一部分来自于我们团队中设计前端的同学
Css样式设计流程:
第一步:去除浏览器默认边界和覆盖浏览器默认字体,设置box类型
第二步: 设计body样式为display:flex(弹性布局),justify-conten:center(水平居中),align-items:center(垂直居中)
Background: #fff(背景为纯黑), min-height:100vh(元素会被撑开与屏幕高度一致)
第三步:设计比赛标题样式以及队名样式
第四步:设计div标签统一样式: 使用text-decoration:none(取消文本原样式)、position:relative(依据父级定位) 、padding:10px 8px(设计边界距离)、color : #21ebff(统一字体背景色)、font-size:20px(统一字体大小)、
第五步:给div设计边框,设计阴影效果,实现鼠标悬停触发特效。给button与input设计统一样式,微调位置,实现界面整洁和工整。
第六步:利用浏览器调试工具,进一步,美化界面,调试按钮、上传等功能



%%loading%%

7th Sky Hackathon

ASR
模型加载成功
仅支持 .wav 和单声道格式
  • %%key%%: %%value%%
CV
FPS: %%cvFps%%
mAP: %%cvMap%%
原图
结果图


总结

在这次比赛中,我们完整的做了一个深度学习的项目,从制作数据集开始,到训练神经网络,到最后部署到用户端,完整的实现了从0到1的过程。感觉这次比赛考察的能力非常多,从最开始的配置环境开始,就给我们出了一道难题,要从最基础的Linux操作学起,安装好双系统,再去配置环境,再去运行程序,从程序中的一条条error,去搜索,搜不到就去问,解决问题才有意义,从debug中一点一点前进,才能进步。
感觉最大的遗憾就是没有更彻底的自动化整个流程,因为没有接触过python,所以在制作语音数据集的时候,都是让队员复制过去的,没想到去写一个json,在制作cv数据集时也没想到用爬虫去找数据。

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
苏州离哪个飞机场近(苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近,以及苏州离哪个飞机场近点对应的知识点,希望对各位有...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...