您的浏览器未设置支持javascript
科大讯飞行业首发语音同传大模型,达到人类专家译员水平
发布时间:2025-01-24 10:41:47
|
科技数字设备
|
浏览量1402
·
评论0
·
点赞24
|
漫科学
|
科创扬帆,科普同行
科普图文简介:
近日,作为国内智能翻译领域的佼佼者,科大讯飞推出了业界首个具备端到端语音到语音同传能力的大模型——星火语音同传大模型。


随着全球化深入发展,无论是商务谈判、学术交流,还是旅游观光,跨语言交际早就变得越来越普遍。但传统的翻译方式要么依赖昂贵的人工翻译,要么只能用没有智能化的机翻拼凑,往往无法满足即时互动的需求。那么,在人工智能蓬勃发展的今天,我们是否能找到更好的技术方案,让不同语言的使用者能够自然顺畅地交流?

近日,作为国内智能翻译领域的佼佼者,科大讯飞推出了业界首个具备端到端语音到语音同传能力的大模型——星火语音同传大模型,最快语音同传时延小于5秒,为打破全球化交流壁垒提供了新的技术方案。

众所周知,语音同传的技术难度较高,目前市面上的机器翻译系统大多采用交传技术,很难实现真正的端到端语音同传。而同声传译作为口译界的“皇冠”,对译员的能力要求极高。它不仅要求译员在极短时间内完成源语言解码和目标语言编码,还需要同时处理语言的语音、语义、语用三个层面。

在国际翻译领域,目前主流大模型仍以交传模式为主。交传模式下,模型可以获取完整的句子内容再进行翻译,理论上更容易保证翻译质量。而科大讯飞此次发布的是业界少有的端到端同传模型,需要在说话者未完成发言时就开始实时处理翻译,技术难度更大。但在长达 5 小时的音视频测试中,星火语音同传大模型在内容完整度、信息准确度等维度上的表现甚至超过了 Gemini 2.0、GPT-4 等主流大模型的交传效果,在很大程度上提高了机翻同传技术的实用性。

1882619286327713794

(图源:科大讯飞)

那么,星火语音同传大模型是如何实现这一技术突破的?这主要得益于其独特的技术架构。与传统的机器翻译系统不同,该模型采用了模仿人类同传译员思维链路的训练方式,实现了从简单的“词对词”翻译向“意群理解+信息重组”的跨越。

在语言学理论中,“意群”(thought group)是指在语言表达中具有相对完整语义的最小单位。人类同传译员往往会基于意群进行信息处理和重组。星火语音同传大模型也采用了类似的处理机制:系统能够实时进行语音识别的同时,完成意群切分和理解,并结合上下文语境进行精准选词和信息重组。

以实际案例说明,当翻译“I went to iFLYTEK for a seminar at 10 o'clock yesterday”这样的句子时,如果采用传统的直译方式,会产生“我去讯飞为了一场研讨会在 10 点昨天”这样不符合中文表达习惯的译文。而星火语音同传大模型会基于意群理解,将信息重组为“我去讯飞参加一场研讨会,时间是昨天上午十点”,既保证了信息的准确传达,又确保了表达的自然流畅。

在同传过程中,不同语言之间的结构差异带来了巨大挑战。例如,英语是主谓宾结构,而德语常常将动词置于句末;中文倾向于将时间、地点等状语前置,而英语则常常后置。这种结构差异导致了翻译过程中的时序问题。

为解决这一难题,讯飞团队开发了创新的流式语音合成技术。该技术通过三个层面的优化来确保同传的流畅性:首先是意群韵律衔接,系统能够精确控制每个意群的语音特征,确保发音的自然连贯;其次是语速自适应调节,根据源语言的语速实时调整译文的播报速度;最后是译文精炼度动态调整,系统会根据源语种和目标语种的时长差距,实时优化译文的表达方式。由此,模型才得以在保持翻译准确性的同时,实现接近人类同传译员的自然表达,让听众感受不到机器翻译的生硬感。

为进一步推动技术应用,讯飞还宣布将为专业合作伙伴限量开放星火语音同传大模型的功能入口。这意味着更多专业用户将有机会体验和应用这一突破性技术。同时,此次技术升级也将全面提升讯飞各类产品的整体翻译性能,为用户在跨语言交际过程中带来更优质的体验。

创作来源:版权属于原作者,侵权请联系客服
责任编辑:漫科学
评论

暂无评论

漫科学APP发表评论或查看更多评论