晓查发自凹非寺
量子位出品|公众号QbitAI
2019年即将过去,搜狗在语音技术的落地应用上不断突破,在12月的最后几天,搜狗又秀出了今年的最后一件“神器”——<强>搜狗同传3.0 。
搜狗同传3.0可以像人类一样,从语音和图像中获取信息,不仅会听,还能同时看图,查资料,从而提高了同声传译的准确性,在AI同传落地应用中属首创。
尤其是面对专有名词,专业术语较多的场景,相比传统只依赖语音的技术,搜狗同传3.0针对PPT内容将翻译的正确率提升了<强> 40.3%。
而且这项技术不需要复杂的硬件升级,只需一台带有摄像头和麦克风的笔记本电脑即可实现。这让未来不同语言之间的无障碍电话会议成为可能。
前不久,在北京的某一场科技大会上,搜狗同传3.0强大的能力得到了验证。它快速准确地翻译了王小川的演讲内容,并将<强>知识图谱同步显示在屏幕上。
即使演讲内容中有大量的互联网、科技行业属术语,也没有难倒它。
早在2016年的世界互联网大会上,搜狗同传就完成了第一次亮相。经过了3年的迭代升级,搜狗同传3.0,集成了哪些最新的技术突破呢?
近日,在搜狗同传的一场交流会上,搜狗AI交互技术部总经理陈伟告诉我们,之前的AI同传都只是听,而搜狗同传3.0是目前业内首个推出的多模态同传技术,在同行中处于领先地位。
多模态同传,即人工智能获取信息的渠道不再是语音,还包含图像等其他内容。这种多模态的交互方式是搜狗一直坚信的趋势,也是与人最自然的一种交流方式。
实现这一切的是搜狗的<>强语境引擎强,是它为演讲者构建了个性化的认知语境。
语境引擎基于搜狗知识图谱和百科的知识推理能力,将OCR获取的PPT内容自动生成核心知识。
然后通过搜狗的知识图谱——<强>“搜狗知立方”强进行实时推理拓展,获取背景知识,同时基于搜狗百科的中英术语库得到中英双语对照,优化同传识别和翻译的效果。
语境引擎能够让AI同传跟随演讲者一起“思考”,是搜狗在该领域的一大技术创新。
让AI同传会看会思考
大会同传,是搜狗为多模态语音识别找到的第一个商业落地化场景。
业内通常只是把语音识别+翻译技术硬套在这个场景中,未做任何优化。
搜狗注意到,同传的应用场景,大多是一些专业的商业,学术会议场合。以往的AI同传一般只适用于通识场景,遇到专业的术语则无能为力,而术语往往又是理解语义的关键所在。
其实,人工智能也可以从人类的交互方式中汲取经验,这就是搜狗同传3.0的设计思路。搜狗把其中用到的技术叫做<强>”语境引擎”。
而大会同传的一个特点是,观众获取信息的途径不仅有语音,还有图片和文字等语境信息。这种多模态的交互方式正是搜狗过去所擅长的。
看,是搜狗也是业界第一次赋予AI同传视觉能力。基于搜狗的OCR技术,搜狗同传3.0在听取演讲者语音的同时,还能将屏幕上的PPT图像转化为文字。
想,是搜狗将PPT中的文字内容进行理解,提取知识,再在核心知识上做推理,进而扩展出整个演讲的领域知识,对同传内容进行个性化的加强。
搜狗的输入法为语音识别积累了技术,搜狗的搜索引擎,百科词条又为搜狗积累了大量的知识信息,让搜狗能够打造自己的知识图谱”知立方”,最终在大会同传这一特殊场景下得到落地。
0 留言