对于语音,我们使用了公开的LibriSpeech数据集中100小时的子数据集。虽然数据集不提供原始文本以外的标签,但我们使用Kaldi工具包获得了强制对齐的通话序列,并在Librispeech上预训练模型。该数据集包含来自251个不同说话者的语音。
2018-07-14 09:18
OpenVINO强大之处在于整合了当前AI经常应用的情境,像是图片或是影像的对象辨识、语音识别、自然语言与数据推荐系统等等,而透过这个套件的Open Model Zoo可以导入现有多个常用框架的模型,像是Caffe、TensorFlow、MXNet、Kaldi与ONNX,无疑是个现成的参考数据库。
2022-10-20 16:20