案例简介
本案例中,今始科技(Linkface)是一家专注从事计算机视觉研究的科技创新型公司。该公司利用NVIDIA Tesla P100极大的加速了OCR模型的训练过程,显著降低了训练时间,对整个项目开发的推进起到了至关重要的作用。
本案例主要应用到拥有4块NVIDIA Tesla P100 GPU 的超级计算机。
Case Introduction
In this case,Linkface is a scientific and technological innovation company specializing in computer vision research .The company accelerated the training process of OCR model greatly by using NVIDIA Tesla P100, which significantly reduced the training time and played a vital role in promoting the development of the entire project .
The major product utilized in the case is supercomputer with 4 NVIDIA Tesla P100 GPU.
现状
今始科技(Linkface)是一家专注从事计算机视觉研究的科技创新型公司,以深度学习为技术引擎,结合计算机视觉和大数据分析,致力于通过原创的图像识别算法与大数据处理技术为传统银行、互联网金融、保险、证券等金融机构提供实名身份验证、文字信息识别、基础数据查询、用户画像、反欺诈等自动化解决方案。
OCR ( Optical Character Recognition,光学字符识别),本质上是利用光学设备去捕获图像并识别文字,将人眼的能力和人类的感知判断能力延伸至机器上。随着互联网络、智能手机的快速发展以及网上业务的增多,越来越多的人会用手机拍摄看到的事物和场景,此类场景中通常包含了大量的文字信息,如果单纯靠人工去对这些信息进行分析、过滤,无疑是一件费时费力的工作,因此通过 OCR 技术对这些需要处理的信息进行检测识别,将会在很大程度上提升用户的体验。而 OCR 也从早期的通用文档识别发展到对银行卡、身份证、金融票据证件进行识别,我们目前利用 NVIDIA 的 Tesla P100 显卡进行机动车行驶证的 OCR 模型训练。
挑战
机动车行驶证的文字识别难度要远远高于对于印刷体扫描件的文字识别,图片均为用户手机拍摄,图片质量没有保障,存在模糊、变形、光照等情况,此外版面复杂,字符检测和识别难度大,相对于传统学习的方法,深度学习效果好,但是深度学习需要高性能的计算机。
方案
面对以上的挑战,利用GPU 在处理密集数据的计算任务上的优势以及高度线程化的并行处理的优势,将会很大程度上助力模型的训练,目前我们利用了由丽台科技推
荐的高性能计算整体方案——包含4 块 NVIDIA TeslaP100 显卡的深度学习机对机动车行驶证来训练 OCR 模型,由于其强大的计算能力(单精度高达9.3T)以及高
速的显存带宽( 732GB/s )大大加快了训练速度,将模型的训练时间由原来的10 天缩短到了2 天,带来了很客观的加速比,大大缩短了项目开发周期。