网站增加流量,做杂志的网站有哪些,免费一键生成原创短视频app,做综合医院网站大语言模型一般都是流式返回文字#xff0c;如果等全部文字返回了一次性去TTS#xff0c;那么延迟会非常严重#xff0c;常用的方法就是通过标点符号断句#xff0c;返回了一句话就提交给TTS。随着流TTS的出现#xff0c;就可以直接把大模型返回的文字灌给流TTS#xff0…大语言模型一般都是流式返回文字如果等全部文字返回了一次性去TTS那么延迟会非常严重常用的方法就是通过标点符号断句返回了一句话就提交给TTS。随着流TTS的出现就可以直接把大模型返回的文字灌给流TTS实现低延迟的文本到语音转换。
下图是我们电话机器人接口适配流TTS的原理完整的接口说明可以看 请点击这里 顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-电话机器人http接口说明 | 顶顶通 - 呼叫中心二次开发接口,smartivr,mod_vad,FreeSWITCH,语音识别,呼叫中心中间件,电话机器人,空号检测,智能外呼。 主要涉及到的技术点就是FreeSWITCH通过websocket流TTS放音。 现在很多大模型直接支持语音输入和语音输出顶顶通电话机器人中间件也都有对应的接口 可以通过TCP和UDP协议 输出声音流 对接任意大模型。 流对接推流到第三方接口和同时播放流
app cti_audio_stream 参数 remote-ip:remote-port
native 可选参数 如果不设置流格式为 8000hz 16位如果设置了就是原始的音频格式param 自定义参数
推流协议
前面4字节 引导数据长度 网络字节顺序时间戳 8字节引导数据 {uuid:,codec:,param:自定义参数}数据流
连接断开后会自动重连并且重发引导数据。 返回的放音流需要和推流的编码一样不需要引导数据。
流对接旁路
app: cti_unicast_start 启动推流 参数 tcp|udp remote-ip remote-port local-ip local-port play|mix
tcp|udp 使用tcp还是udp协议推流remote-ip 远端 ipremote-port 远端端口不设置用0.0.0.0local-ip 本地端口,不设置好用0随机端口play|mix play 支持播放远端返回的流发送方必须是远端IP和远端端口mix 把远端的流和本地放音混音
api uuid_cti_unicast_start 启动推流 参数 uuid tcp|udp remote-ip remote-port local-ip remote-ip play|mix
api uuid_cti_unicast_stop 停止推流 参数 uuid