MSC-Android开发文档

MscSdk引擎

####在线

  • 需要网络;

  • 速度慢(通过会话模式(边录边传)跟音频压缩的优化,在讯飞输入法的实际速度并不比离线的慢);

####离线:

  • 不需要网络;
  • 识别速度快;
  • 需要付费;
  • 需要下载离线包;

语音识别相关

####语音听写

  • 语音转文本;
  • 可以提取语音中的文字信息,可以识别个性化数据;
  • 不需要构建语法;
  • 可以通过上传词典的方式提高匹配率;
  • 离线的只支持普通话转文本,且暂未开放购买;
  • 在线的可以支持多种语言;

####语法识别

  • 语音转文本;

  • 识别的匹配率高(因为上传了语法规则);

  • 识别结果有置信度,可以根据这个值判断该识别结果是否有效;

  • 使用场景多是需要准确结果并且结果有限的语音控制(比如语音控制空调);

  • 需要构建语法;

  • 在线语法识别已经下线,新用户无法使用;

####构建语法

  • abnf(在线语法规则):需要指定引擎类型为在线引擎;需要指定语法格式为abnf;构建成功之后会在回调里返回一个id,在识别时会用到;
  • bnf(离线语法规则):需要指定引擎为本地引擎;需要指定语法格式为bnf;需要指定本地语法构建结果文件的路径;需要下载对应的离线sdk;

####更新词典

实质是个性化热词上传。

有以下两种方式指定词典:

  • 在线听写词典:考虑这种情况:发音是‘zhangsan’,习惯上出现概率最高的应该是”张三”,但实际我们想要的是”张散”(假如有个手机联系人是张散),此时我们可以通过上传个性化热词的方式告诉语音云服务器优先匹配”张散”。
  • 离线语法词典:用于更新已经构建的语法文件中某个规则的内容。

####识别对话框

这个是讯飞提供的语音输入ui。

  • 在显示对话框后,录音自动开始;
  • 点击对话框内任意地方,可结束录音,点击对话框外,则取消会话;
  • 出现错误后,再点击对话框内,可启动下一次会话。

####翻译

将语音翻译成目标语种文本,涉及到如下参数:

  • SpeechConstant.ASR_SCH 启用翻译
  • SpeechConstant.ADD_CAP 翻译通道
  • SpeechConstant.ORI_LANG 原始语种
  • SpeechConstant.TRANS_LANG 目标语种
  • SpeechConstant.TRS_SRC 结果格式

语音合成相关

文字转为语言:可以设置转换结果的语言,方言,发音人的特征语速等;

###语义理解相关

  • 将语言内容转换为一定结构的文本数据,之后抓取重点信息,理解用户意图,进行下一步处里。
  • 分为两种:文本语义跟语音语义(先转为文本之后再进行文本语义理解);
  • 仅有在线模式;
  • 默认不开通,需要再aiui开放平台开通;
  • aiui:主要用于人机交互

目前支持的离线在线服务:

  • 离线服务(离线命令词、离线合成、唤醒),体验期均为35天,装机量3台,体验期结束后,点击控制台-》我的应用-》立即购买按钮
  • 在线服务(听写、合成):免费500次/天-》免费提额通过后2w次/天-》超过2w/天-》联系商务msp_business@iflytek.com
  • 在线服务(人脸、声纹):免费500次/天-》超过500次/天-》联系商务msp_business@iflytek.com

ps:具体接入及使用代码示例参见https://doc.xfyun.cn/msc_android

参考文档:https://doc.xfyun.cn/msc_android