人工智能语音技术广电媒体应用

时间：2022-07-01 19:40:04 浏览次数：

　人工智能语音技术在广电媒体的应用刘晓曦葛骏浩徐涛范传棕（合肥市广播电视台，安徽 230071）

　【摘

　要】合肥广播电视台与科大讯飞公司合作，开展智能语音技术在广电媒体中的应用。改变了传统节目制作对音视频文件的处理方式，将人工智能语音技术应用到广播电视节目制作的全流程中，实现了智能文稿唱词系统、智能虚拟播报系统、智能编目检索系统和智能会议系统等功能。全新的人机交互机制，全面提升广播电视节目制作的效率和质量。本文阐述了智能语音识别、转写、合成、编目、检索的基本原理，及智能语音应用平台的建设方案、技术架构、实现方法。

　【关键词】人工智能，智能语音，文稿唱词，虚拟播报，编目检索【中图分类号】

　TP312 【文献标识码

　】

　The application of Artificial Intelligence Voice Technology in Radio and Television Media LIU Xiaoxi （Hefei Radio and TV Station， Anhui 230071，China）

　Abstract

　TV and Broadcasting station of Hefei cooperates with iFlytek in the application of Artificial Intelligence Voice Technology in Radio and Television media. Jumping out of the regular idea of media processing method and use Artificial Intelligence Voice Technology in the whole workflow of media processing. With this new technology, the goal of smart manuscript presentation, smart virtual broadcasting, smart catalog management and smart meeting could be achieved. The brand new interactive mechanism improves the effectiveness and efficiency of the production of media programs. This article expounds the basic of Artificial Intelligence Voice Recognition, text-voice conversion, catalog and management of the system. The technology architecture and construction plan is also expounded. Keyword

　AI，Artificial Intelligence Voice Technology, Manuscript Presentation, Virtual Broadcasting, Catalog Management.

　1 1

　项目背景

　广电“十三五”科技发展规划中要求，广播影视技术与新一代信息技术加速融合，依靠科技创新，推动广播影视在节目制作、内容生产、网络传输、终端服务、安全监管等各方面向智能化、跨屏互动演进，实现全业务、全流程、全网络从数字化向智能化的战略转型。

　近年来，人工智能技术迅速发展，其中以智能语音技术表现最为突出，已经实现了快速信息录入、便捷人机交互等功能，能够将语音识别转写成文字、将文字通过语音转换成声音、能够理解语音中的意思并执行相应的命令操作，当前已广泛应用于政企、教育、医疗、汽车、金融等领域。

　目前，广播电视媒体在采、编、播、管、存、办公等节目生产的全流程中，都拥有海量的文稿和音视频资料，但智能语音技术的应用程度并不高。合肥台每天在节目制作、节目播报、稿件录入、编目检索、会议记录等方面都采用人工方式，工作量大，繁琐耗时，效率较低。稿件文字是由采编人员在电脑上通过键盘一字一字人工输入；节目字幕需要一边听一边打字手工添加，眼睛还要看着画面确定每一句唱词在画面上出现的起点和终点；节目播报真人实录，主持人工作压力大，广播电视节目呈现形式单一，缺乏新颖性、创新性；每天新增的广播电视节目素材手工编目，大部分节目

　仅标签式输入名称属性，不便于后期检索使用，媒资库中庞大的音视频文件为非数据化内容，信息的定位及检索困难，整理耗时费力；会议记录沿用纸笔或键盘人工方式完成，效率低下，存在信息遗漏或会议内容理解偏差等问题。

　为提高工作效率，创新技术手段，打造智能场景，推动融合发展，合肥广播电视台与科大讯飞公司合作，将智能语音技术应用于合肥台融媒体中心的实际生产业务中，以智能语音技术为基石、以人机协作为特征、以提升内容生产传播效率为目标，建设媒体智能语音应用平台。

　2 2

　智能语音技术

　智能语音技术包括语音采集、语音识别、语种识别、声纹识别、口语评测、语义理解、语音转写、语音合成、语音唤醒、语言处理等等多项技术，广播电视智能语言应用主要涉及到语音识别、语音转写、语音合成等技术，其中以语音识别技术为核心。

　2 2. .1 1

　语音识别

　语音识别是把说话的语音转换成对应文字的数字信息，是一种新的信息录入方式。语音识别首先对输入的音频流进行端点检测，确定说话的起始和终止位置，同步进行识别处理。随后使用超大规模语言模型，智能预测识别语句的对话语境，并提供智能断句和标点符号的预测，语音识别流程如图 1 所示。系统还可根据用户自定义热词集，优先选取自定义词汇。科大讯飞的语音识别系统对普通话的识别准确率可达到 95%以上，满足广播电视日常工作的要求。

　降噪解混响结果输出音频输入端点检测特征提取一遍解码声学模型语音模型ngram模型DFCNN模型二遍解码Bilstmp模型领域语音模型RNN语音模型标点预测文本顺滑文本分段图 1

　语音识别流程图 2 2. .2 2

　语音转写

　语音转写是通过识别和理解过程把语音信号转变为相应的文字文本。语音转写基于语音识别技术构建的语音转写引擎，结合语言模型及声学模型，运用深度学习、计算神经科学等技术，在大数据和用户历史数据的基础上，通过提取上下文相关语义、停顿、语气、基频信息等语音学特征，对转写的句子和段落进行划分，并使用篇章级语言模型和降噪、解混响技术，解决远场噪声问题。

　广播电视台节目制作全流程应用智能语音转写技术，可以实现智能语音文稿、智能唱词、演播室对话转文字、视音频素材编目、媒资语音检索和融媒体线索分拣等功能，如图二所示。

　媒体库语音检索功能

　采编人员通过在多终端输入语音的方式形成节目文稿智能唱词功能节目的配音、同期声音频自动生成带时码的唱词文件智能演播室对话转文字功能实时将演播室访谈节目中嘉宾主持人的访谈对话内容转写成文字06 010504 0302智能语音文稿功能

　采编人员通过在多终端输入语音的方式形成节目文稿智能视音频素材编目功能素材文件通过智能语音转写系统生成“文字名片”作为编目基础智能融媒体线索分拣功能

　对融媒体汇聚来的视音频文件按关键字进行“粗分拣” 图 2

　语音转写功能图 2 2. .3 3

　语音合成

　语音合成又称文语转换（Text to Speech）技术，是将文稿文字通过计算机转换成自然流畅的语音输出，应用在语音播报、信息提醒、语音导航、智能客服等场景中。语音合成过程是先将文字序列解析成音素序列，再进行多种声学模型的决策，生成对应的文本决策模型序列，将文本实现参数化；然后，通过声码器将声学参数序列解码成语音波形信号；最后，样本单元拼接技术将波形单元序列串拼合起来，形成完整的合成语音波形信号输出，如图三所示。科大讯飞采用中文文本、韵律分析算法和大语料库的合成方法，合成语音接近真人的自然效果。

　音库录制音库标注声学模型训练汉语口语前端知识库语音输出问题集构建阶段文本对应模型序列样本单元拼接语音声码器音效处理合成阶段定制模块输出阶段样本单元挑选语音参数生成前端文本分析文本输入/ / 外部调用模型决策专家设计前端构建图 3

　语音合成流程图

　 3 3

　技术架构

　3 3. .1 1 系统架构

　媒体智能语音应用平台分为基础支撑层、核心能力层、应用服务层、应用接入层、用户客户端5 个层次，系统的功能架构如图 4 所示。

　应用接入层合肥广播电视台智能语音应用平台（文稿唱词、虚拟播报、融媒体内容转写、融媒体会议、第三方接入）音频处理可用模块服务接口账户管理服务应用接入层音视频处理服务语音实时转写服务语音离线转写服务语音合成服务关键词管理服务禁忌词管理服务小包优化服务统一能力调度服务核心能力层基础支撑层AI平台（语音合成引擎、实时转写引擎、离线转写引擎）统一存储平台（分布式结构化数据存储管理）统一存储平台（分布式非结构化数据存储管理）

　图 4 智能语音应用平台系统架构图（1）基础支撑层基于语音云计算框架，对底层的分布式硬件、存储资源进行统一的调度和管理。

　（2）核心能力层 AI 核心引擎提供语音合成、语音识别核心服务能力，并进行资源自优化管理。

　（3）应用服务层集成最新的语音技术，提供超大规模的语音服务能力，并进行管理和维护。

　（4）应用接入层实现服务接口、语音处理，包括网络交互适配功能，为智能语音业务提供服务。

　（5）服务应用平台完成文稿唱词、虚拟播报、内容转写、智能会议系统的客户端应用接入，支持第三方系统的对接。

　3 3. .2 2 软件架构

　（1）采用 J2EE 规范的体系架构 J2EE 是一套设计、开发、部署和分布式的企业级 Java 应用规范。采用 J2EE 体系架构设计后，系统具有可移植性，可以部署在任何符合 J2EE 规范的应用服务器上，降低维护和管理成本。另外，利用成熟的J2EE平台，可实现系统设计的高度灵活性和扩展性。合肥台智能语音应用平台采用Java技术路线，配套 Ubuntu 和 Windows 操作系统，使用 Java 企业级应用平台进行开发和部署。

　（2）客户端采用 Node-Webkit 智能语音应用平台的应用客户端 Node-Webkit 是一个基于和 chromium 的应用程序运行环境，为用户提供优秀的交互界面，能够兼容业务人员使用的 Windows XP、Windows 7 等操作系统。智能语音应用平台用户权限管理使用 B/S 模式，方便管理员在任何地点查看系统的使用状况，确保系统的数据安全。广电中心局域网内集中的办公室场所，应用 C/S 模式能有效利用客户端硬件计算能力，响应速度快，用户体验更好。

　（3）采用 REST 规范设计接口 REST（Representational State Transfer）是一种轻量级的 Web Service 架构风格，其实现和操作明显比 SOAP 和 XML-RPC 更为简洁，可以完全通过 HTTP 协议实现，还可以利用缓存 Cache来提高响应速度，在性能、效率和易用性上都优于 SOAP 协议。

　（4）基于 JSON 的数据交换格式 JSON与XML格式相比是一种轻量级的数据交互格式。JSON是一个基于JavaScript定义的子集，非常适合于服务器与 JavaScript 的交互。JSON 采用完全独立于编程语言的文本格式，易于人的

　阅读和编写，也易于机器解析和生成，具有跨平台，跨系统，跨语言的优势。使用 JSON 作为数据交换格式，使系统具有充分的通用性、灵活性、扩展性。

　（5）Spring Boot 框架 Spring Boot 框架可以极大程度的简化新 Spring 应用的初始搭建和开发过程，其配置、部署非常方便。Spring Boot 嵌入的 Tomcat，无需部署 WAR 文件，提供简化 Maven 配置，可自动配置Spring、无代码生成和 xml 配置，提供准生产的应用监控。

　4 4

　建设方案

　合肥台以需求为主导，立足当前，着眼未来。基于已建的 “融合媒体生产发布云平台”，搭建了统一的“智能语音应用平台”，主要包含文稿唱词、虚拟播报、融媒体内容转写、融媒体会议等应用系统。并为第三方二次开发预留接口，智能语音应用平台网络拓扑图如图 5 所示。

　文稿唱词应用服务器集群实时转写引擎集群离线转写引擎集群语音合成引擎集群Mysql数据库服务器集群elasticsearch数据库服务器集群虚拟播报融媒体内容转写融媒体会议系统第三方接入LAN 图 5

　智能语音应用平台网络拓扑图 4 4 .1 文稿唱词系统

　文稿唱词系统是以语音识别为核心功能软件，主要解决录音整理文稿和字幕制作的需求。采编人员输入音频文件，或使用麦克风口述内容，系统就能快速将语音转写成文稿。采访录音音源是普通话，直接播放转成文字，如果是非普通话（方言），记者可以使用麦克风进行跟读识别。针对安徽的特定方言，系统自带方言声学模型包，可有效提高识别准确率。在文稿校对上，系统支持双击文本文字即播放对应的录音，解决了录音定位问题，方便校正。

　在录制的大型晚会、新闻类、访谈类、综艺类等节目的唱词字幕制作上，系统可对输入的音频文件进行降噪，响度调整，解混响等优化处理。转写过程中，通过使用泛化特征并结合上下文相关语义特征和语音学特征，系统可解决分句与分段问题，剔除转写结果中的停顿词、语气词、重复词。此外，系统支持 SRT（文本字幕）格式编辑，唱词文件自带时间码功能，可实现语音、字幕和视频画面同步。系统预置禁忌词检测报警提示，有效提升节目安全。

　4 4 .2 虚拟播报系统

　智能虚拟播报系统，由二次元虚拟主持人、智能语音机器人、主播音库组成，实际应用过程中，只需要将播报文稿导入智能播报系统，就可应用语音合成进行配音，实现对新闻稿件的自动播报，

　播报的语速、响度、声音模板均可调控，适应新媒体节目快速播报的需求。

　二次元虚拟主持人（动漫卡通虚拟主持人），是基于底层语音合成服务，输入播报稿件，由系统软件实现男女两名虚拟主持人自动播报，创新节目播报形式。

　智能语音交互机器人，可进行中文听写、人脸识别，其人机对话识别正确率达到 90%以上，具备专业知识库制作和上线能力，满足广播电视节目常用对话需求。

　主播人员的音库制作，采用了中文文本、韵律算法和大语料库。系统定制了真实主播人员的音库，合成语音接近真人的自然效果，实现了非出镜场合的新闻主持人及纪录片智能配音。

　4 4. .3 3

　内容转写系统

　电视广播节目每天都会产生大量的音、视频素材，主要以文件夹的形式存储。内容转写系统与融媒体媒资管理系统对接，在视音频文件进入媒资库之前，让文件先通过智能语音转写系统，生成该文件中语言类的内容，就像“文字名片”一样，媒体文件随身携带“文字名片”一起提交媒资编目审核系统，编目人员可以通过媒体文件的“文字名片”获取此媒体文件的编目信息，大大提升素材归档的效率，降低编目差错率。

　媒资库检索系统先用语音识别把音视频素材文本化，自动转写成 TXT（文本文档）或 SRT（文本字幕）格式，并存储到指定文件夹中，让文件名与音、视频素材名称一致，素材与文本的原始信息逐一对应，同属分类。使用者可以以语音输入关键字的方式进行视音频资料检索，实现对标题、内容、关键字、作者的全方位检索。同时还能通过声纹进行检索，可以快速定位到特定人的资料。

　4 4 .4 融媒体会议系统

　融媒体会议系统实现在会议场景下（访谈录节目）的实时音频或录音采集，并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料。

　针对通过其他录播系统或录音设备获取的非实时性的音频文件，系统支持导入录音整理功能，导入会议音频文件后可快速转写成文字，转写过程中支持同步编辑及重点内容标记，通过双击文字定位回听文本对应的音频，达到声文对应，字音对应编辑。系统提供的语气词过滤、自动分段等功能自动优化文字结果，辅助记录人员更好的理解会议内容，提升纪要、决议的准确度。系统支持MP3、WAV、AMR、PCM 等格式的音频文件，用户可以使用全文检索功能方便检索历史音频，也可通过会议模板导出会议纪要。

　4 4 .5

　第三方接口服务

　平台提供应用开发接口（SDK），向第三方提供合成、识别等相关语音业务功能，如图 6 所示。

　图 6

　应用开发接口图其他系统可以作为数据资源接入智能语音云平台，实现智能融媒体线索分拣功能。融媒体线索汇聚，是利用手机 UGC、PGC、网站内容扒取、微信、微博爆料等多种工具，将新闻线索回传汇聚到线索平台。这其中包括大量视音频素材文件，利用智能语音转写技术，以文字的方式生成文件的大致内容，平台把这些内容信息按照具体用户需求，进行分类整理，为用户提供更具针对性的订阅线索服务，用于后续新闻选题策划等生产发布工作。

　4 46 .6 系统配置

　系统配置主要基于合肥市广播电视台融合媒体云平台专网，建设统一的智能语音应用平台，完成各业务应用系统的接入应用。

　（1）软件部分软件配置如表 1 所示。

　（2）硬件部分硬件配置如表 2 所示。

　表表 1 1

　软件配置

　序号名

　称

　配

　置数量 1 文稿唱词系统语音识别服务智能中文语音识别平台，实现对普通话内容的音视频连续实时和非实时转写，并提供对已转写文字的音字对齐功能，实现时间码和词汇智能匹配（单个引擎支持 10 路并发）

　6 客户端应用软件负责接收平台端的转写结果，提供音频导入转写，自动分段、关键词优化、禁忌词屏蔽、语气词过滤、全文检索、重点内容标记、音字对照，时间码调整，SRT 文件导出等功能。提供 200 个终端、60 路并发的文稿唱词系统应用 200 2 虚拟播报系统虚拟主持人智能中文语音合成平台，实现将文字转变为语音，采用最新中文文本、韵律分析算法和大语料库的合成方法，呈现真人语音自然效果（单个引擎支持10路并发的虚拟主持人）

　1 音库定制完成男女 2 个虚拟主持人的音库制作 2 智能机器人为媒体定制一台智能语音机器人，可以进行虚拟播报 1 客户端应用软件授权部署在客户端的业务应用软件，实现内容的输入与修改，进行合成功能，回听审核、导出等功能 10 3 内容转写系统语音识别引擎智能中文语音识别平台，实现对普通话内容的音视频连续实时和非实时转写，并提供对已转写文字的音字对齐功能（单个引擎支持 10 路并发）

　3 客户端应用软件管理端软件主要实现对智能内容管理系统的内容进行检索管理，存储管理，统计分析，转码，任务分发，用户管理，权限管理，后台任务进程，文件管理，接口服务管理等功能 30 4 融媒体会议系统实现在会议场景下的实时音频或录音采集，并通过语音识别技术实时转化为文字 1

　表表 2 2

　硬件配置表

　序号名

　称

　配

　置数量 1 语音引擎、应 E5-2650v4×2，256G 2133Mhz 内存，600G 10K SAS 硬盘× 19

　服务平台支撑硬件用、全文检索

　4， RAID 千兆网卡；Cent OS 5.5 64 位（以上）Linux 操作系统（根据实际承载量进行优化，满足同等配置要求均可）

　存储服务器 E5-2650v4×2，256G 2133Mhz 内存，6T×12 SAS 7.2K 3.5 千兆网卡；Cent OS 5.5 64 位（以上）Linux 操作系统（根据实际承载量进行优化，满足同等配置要求均可）

　5 交换机支持设备虚拟化，端口≥48 个 10/100/1000Mbps 电口，≥4个 SFP+光口(含光模块) 8 2 机器人智能语音交互机器人专为媒体行业设计。外观为类人体形状，头部配置高清摄像头，3D 躯干扫描传感器以及 6 麦克风阵列，可进行人脸识别及躯干扫描；躯干配置 13 寸以上显示屏，手臂可自动指引，底部具有工业底盘滑轮可自由移动

　1 3 融媒体会议系统配套硬件智能会议主机 CPU：i7-7700HQ；内存：64G 内存；硬盘：256GB SSD+1TB HDD；操作系统：windows 10，64 位专业版；配备 office 2013

　专业版办公软件。

　1 声音采集工作站采样率大于等于 16K16bit，外置 USB 声卡，支持卡侬及6.35mm 音频输入接口，支持 6.35mm 接口监听，支持 48V幻象电源 1 耳机头戴式监听耳机，加带麦克风，双连接线 200

　 5 5

　资源数据库

　5 51 .1 信息采集

　为提高节目制作、节目播报、内容编目、会议记录场景下的转写效果，我们需要对广播电视及融媒体领域相关信息进行采集，科学化、针对性地进行智能语音转写效果优化，形成媒体行业的信息资源数据库，便于成果保存，信息采集分类如表 3 所示。

　表表 3 3

　信息采集分类表

　数据名称数据类型采集方式来源更新机制备注关键词、专业词汇 TXT、Word 文档文本摘取媒资库原始与新增媒资可参考已有媒资标签禁忌词、敏感词汇 TXT、Word 文档通用模板或应用单位提供监审系统应用软件导入可设计通用模板录音音频 WAV、MP3 等音频格式应用单位提供历史音视频素材引擎优化可通过声学模型优化的方式提高转写准确率其他（财经、地名等）

　TXT、Word 文档应用单位提供历史音视频素材软件添加或引擎优化可通过语言模型优化的方式提高转写准确率 5 52 .2 数据库规范要求

　（1）支持高效多用户的联机事务处理（OLTP），以满足多用户的多种应用并发访问数据库要求。

　（2）系统具有高可靠性、容错能力和自恢复能力。

　（3）支持分布、异构的数据源；支持数据的自动复制，自动维护多个副本间的异步一致更新。

　（4）提供集中管理工具，提供足够的安全管理机制，支持 SQL 标准。

　（5）提供一整套覆盖软件开发生命周期全过程的最佳开发工具。

　6 6

　安全设计

　国家新闻出版广电总局颁发的《广播电视相关信息系统安全等级保护基本要求》和《广播电视相关信息系统安全等级保护定级指南》，综合考虑各级各类广播电视相关信息系统的业务信息安全等级和系统服务安全等级，建议省会城市广播电视台的综合制作系统、媒资系统具有第二级以上安全保护能力。合肥台智能语音应用平台，基于节目制作内容和播出的安全性考虑，在网络边界增加对恶意代码检测和清除；增强审计数据分析和保护，生成审计报表；实现应用层 HTTP、FTP、TELNET等协议命令级的控制；对非授权设备私自联到内部网络的行为进行检查和有效阻断；其主要网络设备要求采用两种或两种以上组合的鉴别技术实现身份鉴别，从而满足并高于安全二级等级保护的要求。

　（1）离线部署客户端与服务端之间的数据交互完全基于基于合肥市广播电视台专网，不与外网连接，保障数据安全。

　（2）权限控制系统采用统一用户管理、强制访问控制、标记身份鉴别等安全措施，严格访问权限控制等安全措施。

　（3）多重加密除私有云部署外，核心转写引擎采用专业加密狗的方式进行加密处理。

　（4）账号数据区分采用分账号使用的方式，用户之间数据隔离，进行数据保密。

　（5）系统确认系统会对用户当前身份和权限进行确认，对用户每次提交的数据进行完整性和合法性校验。

　（6）安全跟踪系统应该具有安全跟踪和告警框架，在网络发生入侵时，主动发出报警。

　7 7

　结束语

　合肥广播电视台智能语音应用平台，实现了以下功能：文稿唱词系统，快速完成音频转文稿，视频字幕制作更加简便高效提升新闻类撰稿 6 倍以上效率；新颖的虚拟主持人、智能机器人和定制主持人音库的智能播报系统，丰富了节目播报的呈现手段，给观众带来全新的视听体验、提升广播电视台影响力；融媒体内容转写系统，提供音视频素材自动转写、检索、编目功能，可以达到 10:1的转写效率；融媒体会议系统，自动记录，并通过会议模板导出会议纪要，统大大减轻了会议记录整理工作。智能语音技术的应用，提高了合肥台在采、编、播、管、存等实际工作流程中的作业效率，让广播电视节目制作的效率和质量上一个台阶，并将新颖的节目形态呈现给电视观众。

　参考文献: :

　【1】黄子君.语音识别技术及应用综述[J].南昌师范学院学报,2010(3):44-46 【2】刘幺和，宋庭新. 语音识别与控制应用技术[M]. 北京：科学出版社，2008. 【3】王炳锡,屈丹,彭煊.实用语音识别基础[M].北京:国防工业出版社,2005.

推荐访问:人工智能广电语音