5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同探讨AI技术如何“爆改”千行百业。

以下为趣丸科技副总裁兼CTO 谢睿演讲实录。

趣丸科技副总裁兼CTO 谢睿

大家下午好!我是趣丸科技的谢睿。

很荣幸能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。

首先,请允许我简单介绍一下趣丸科技。

我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电竞业务比较熟悉。得益于公司十年积累的技术自研能力,我们也构建了全栈式AI交互技术产业生态,专注人工智能交互前沿技术研究和提供企业级解决方案。

我们目前围绕四个大模型(生成式3D大模型、生成式音频大模型、生成式动作大模型、对话大模型)在开展技术自研,后续将推动规模化落地应用。

前段时间GPT-4o的问世,相信大家都看到很多关于多模态智能的讨论。多模态使得人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。

多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技人工智能技术的重点投入方向。我们认为AI竞争归根结底是落地速度的竞争,新技术的真正繁荣,取决于应用的繁荣。

这几年,我们将多模态能力融入公司技术研发体系,并结合长期积累的用户优势,探索出了经过市场和用户验证的应用成果。这里,我主要选取了两个案例来做分享:

一、智能音频赋能创新玩法

在智能音频领域,我们的技术能力已经实现了数据层、算法层到应用层、接入层的全方位覆盖,智能音频也是趣丸科技与生俱来的技术优势。

如何利用智能音频技术解决创新玩法设计和提升用户体验?

具体来说,我们从听、说、想三部分来进行思路拆解:

首先要让AI能听懂用户的声音,正确识别声音中的文本信息、音频属性信息等;

其次能参与用户互动,比如用户可以进行实时的语音交流、调整音色,打造更多新奇体验;

第三就是能理解信息中蕴含的意思,理解用户的意图、情绪状态,帮助我们做出合理的响应。

分析好思路后,我们要做的是寻找解决方案,这个解决方案必须满足三大指标要求,即算法效果准确、模型预测的性能要最优、算法推理延时小于我们要求的阈值,保障用户能有良好的体验。

经过长时间的迭代与验证,我们自研了一套端云协同三维一体智音体系,它主要在移动端语音识别、音色克隆TTS、音色转换、语音评价等方面实现技术突破,在安全可信范围内,有效解决用户在即时语音场景下的语音沟通问题,且为用户提供了丰富的音频玩法。可落地应用于在线音频、社交、语音类产品中。

总的来说,我们希望通过这套解决方案,让AI“更懂人话、更有才华、更通人性”,切实地推动产品创新、增强用户体验。

(一)听:语音识别方向

在语音识别方向,我们主要基于特征和对比学习的模型蒸馏技术,以及对流式语音识别模型RNNT的一系列算法改进,包括跳帧解码、惩罚延迟以及输出抑制。此外,我们还借助强大的大模型进行模型微调和数据增强,最终整合端上神经网络计算框架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。

它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发出“字幕生成”功能,可以毫秒级完成语音识别音转字,方便用户交流。

(二)说:音色克隆TTS方向

在音色克隆方向,传统的语音克隆需要大量的数据集来训练模型,少批量数据会导致模型效果不佳,当使用少批量的数据进行语音克隆时,存在克隆音色相似度低,合成音频存在底噪大、漏字、情感自然度差等问题。

因此我们开发出了一种基于深度学习技术的云端语音克隆方案,自研完善音色克隆TTS技术。该方案通过高质量音频数据收集处理,在模型中加入alignment loss对齐模块、语言学信息、prosody encoder模块等,再经过云端推理优化,系统地提升了音频合成的自然度、相似度和多样性。

例如,可以将该方案应用在说唱歌曲合成场景,让不会说唱或喜爱说唱的用户,简单通过读歌词录制10秒音频,快速生成相似音色的说唱歌曲,大大满足个性化需求。

(三)想:变声&音效&音色识别&语音评价方向

传统音频技术已发展多年,很多技术已经开始趋向成熟或到了瓶颈,而深度学习的到来,给音频技术带来了一次革新。我们通过将传统音频技术与深度学习技术相结合,有效地结合了二者的优点,研发了一套移动端变声&音效&音色识别&语音评价系统。在音色效果的丰富性、音色识别的准确性和鲁棒性、语音评价的多维度上,实现了全方位的能力提升,取得了高于行业平均水平的效果。

该方案在音乐创作、线上K歌场景中为用户带来了全新的互动玩法,例如在线上K歌打分玩法中,能够结合音高、节奏、吐字、气息等多维度对用户的唱歌水平进行更加全面、客观的评价,进而帮助用户在轻松的歌唱环境中提升唱歌技能与结交好友。

二、大模型赋能数字安全升级

前面分享的主要是我们在技术创新上的一些成果,实际上我特别想借今天这个机会跟大家分享关于数字安全、关于社会责任的一些思考。

对于趣丸科技来讲,在追求科技创新的过程中,我们不仅希望通过技术去推动产业发展,也希望能利用技术的先进性更好地去承担作为科技公司的社会责任。

数字安全是一场没有硝烟的“战争”,这一点相信大家都深有体会。尤其在人工智能时代,数字安全问题呈现出前所未有的复杂性。它并非单点技术可以解决,而是需要由上至下、多方协同的体系化工程建设。

我们依托过去十年在安全攻防领域的实战经验和AI领域的双重专长,在合规的基础上,建立了新一代平台安全管控体系,具备可管可控、极速响应、高效定制、生态保障的特点,可以帮助企业进一步完善平台生态建设,为用户构建起更加风清气正的网络空间。

其中,我们利用自建算法模型,取得了囊括图片、文本、音频、视频等多模态内容的识别与审核能力。这里重点介绍我们的“特定人群文本识别”和“语音年龄识别”两大技术手段。

特定人群文本识别:采用单文本检测+上下文识别的方案。其中,单文本识别我们自研了通用的关键词匹配分析框架,支持多种匹配方式、支持自定义过滤条件、支持特殊标记等;上下文识别采用大模型进行复杂语义理解,我们将用户情绪因素纳入到了内容审核算法中,极大提高了对高风险音频的拦截准确度。

语音年龄识别:语音年龄识别是识别音频信号中是否含有某个年龄段的声音以及年龄标签对应的时间。我们采用语音自监督学习模型,通过语音数据高效的收集、处理、增强流程,以及帧级别置信度输出,使得对特定年龄段的声音识别准确率高达90%以上。

随着人工智能技术的发展,多模态智能有望融入更多应用场景,如影视、教育、直播、办公等各个领域,逐渐渗透到每个大众的生活中。然而,人工智能技术今天依然面临着许多根本性的问题没有解决,如应用门槛依然不低、算力与电力的紧缺、法律与伦理等复杂问题。

AI的浪潮已经来临,应用层的黄金机会正等待着我们去发掘,站在历史的重要交汇点,趣丸科技在人工智能领域的投入初见成效。接下来,我们会继续秉承“向下扎根,向上生长”的信念,我们认为只有不断向下夯实底层技术能力,构建属于自己的技术护城河,才能让技术在更多的领域向上“开花结果”,最终带领公司顺利地穿越周期。

谢谢!

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com