一个新系统省去了前人需要的训练数据的人工注释,但获得了可比较的结果。
技术

口语系统研究的中心话题是所谓的说话人日记,或者计算地确定记录中有多少扬声器特征,以及它们当中的哪个扬声器何时讲话。188bet亚洲体育语音日记是任何自动注释音频或视频记录的程序的基本功能。

到目前为止,最好的日记系统使用了所谓的监督机器学习:它们根据人类编索引的样本记录进行训练,指示哪个发言者何时进入。十月份发行的IEEE音频事务,演讲,语言处理,然而,麻省理工学院(MIT)的研究人员描述了一种新的说话人日记系统,这种系统在没有监督的情况下可以获得可比的结果。不需要预先编制索引。

[登录类型=再多点]

此外,麻省理工学院的研究人员的一项创新是新的,用紧凑的方式来表示各个发言者的声音之间的差异,它可以用于其他口语计算任务。

“你可以从他们的声音中了解一个人的身份,因此,这种技术正致力于这种类型的信息,“Jim Glass说,麻省理工学院计算机科学和人工智能实验室(CSAIL)的高级研究科学家,口语语言系统组组长。“事实上,这种技术可以用任何语言工作。它对此不敏感。”“

要创建单个发言者的声音肖像,玻璃解释道,计算机系统通常需要分析超过2,000个不同的声学特征。188bet亚洲体育其中许多可能对应于熟悉的辅音和元音,但许多人可能不会。描述这些特征中的每一个,188bet亚洲体育系统可能需要大约60个变量,它们描述诸如不同频带中的声信号的强度之类的特性。

声学信号

结果是,对于记录的每秒钟,日记系统必须搜索具有120的空间,000个维度,那太费时了。在以前的工作中,Najim Dehak口语系统组的一位研究科学家,也是这篇新论文的合著者之一,演示了用于减少描述特定说话者的声学特征所需的变量数量的技术,称为i-向量。

要了解该技术的工作原理,设想一个图表,说,小时工工作时间和挣的钱。该图将是二维空间中的对角线。现在设想旋转图形的轴,使得x轴平行于直线。突然,y轴变得不相关:图中的所有变化都是由x轴单独捕获的。

同样地,i-向量发现用于描述120中的语音特征的信息的新轴,000维空间。该技术首先找到捕捉信息中大部分变化的轴,然后是捕获次要变化的轴,等等。因此,由每个新轴添加的信息逐渐减少。

Stephen Shum麻省理工学院电气工程和计算机科学系研究生,新论文的主要作者,发现一个100变量的i向量-一个120的100维近似值,000维空间-是一个日记系统的充分起点。

由于i-向量旨在描述扬声器可能在任何时间跨度内发出的声音的每个可能的组合,并且由于日记系统只需要对单个记录中的声音进行分类,Shum能够使用类似的技术来进一步减少变量的数量,只有三。

点群

对于录音中的每一秒钟的声音,因此,Shum在三维空间中以单个点结束。下一步是确定与单个说话者相对应的点群的边界。为此,Shum使用了一个迭代过程。系统开始于人为地高估说话者的数量,比如说,15-找到与每个点对应的一组点。

彼此非常接近的集群然后合并以形成新的集群,直到它们之间的距离变得太大,似乎无法架起桥梁。然后重复这个过程,每次都以与前一次迭代中相同的集群数量开始。最后,它到达以相同数量的集群开始和结束的点,并且系统将每个集群与单个说话者相关联。

“完全不明显的,令人惊讶的是,就是这个i-向量表示可以用在这个上面,比例非常不同,你可以使用这种方法来提取非常,188bet亚洲体育非常短的语音段,也许一秒钟长,对应于电话交谈中的说话人转向,“格拉斯补充说。“我认为这是斯蒂芬工作的重大贡献。”“

http://www.engineersjou..ie/wp-content/uploads/2013/11/Audio-1024x1024.jpghttp://www.engineersjou..ie/wp-content/uploads/2013/11/Audio-300x300.jpg戴维奥里奥登技术麻省理工学院研究
口语系统研究的中心话题是所谓的说话人日记,或者计算地确定记录中有多少扬声器特征,以及它们当中的哪个扬声器何时讲话。188bet亚洲体育演讲者日记是任何自动注释音频或视频记录的程序的基本功能。最好的。。。