|
|
语音是人类最自然、最轻松的日常沟通方式。然而,当我们需要与电脑这样的机器沟通时,就不那么简单了。语音组的工作就是把语音交流平稳地、可靠地嵌入计算机。我们的研究工作主要集中在口语识别与合成技术、人机语音交互技术, 以及人与人之间的语音通信等方面。
语音组目前的研究重点包括:自动语音识别的核心技术使计算机能“听”,使计算机能更方便地协助人们存取数据,创建内容和完成任务;文语转换的语音合成使计算机能“说”,让电脑像人一样说话,并对人声作出回应、提供资料;音频信息管理及检索使计算机能将各类音频信息库有效管理,并随时快速检索,以丰富人际沟通,例如转换语音邮件成文本;信号处理,用于改善语音信号,无缝调节语音信号参数,如频率,语速,语音特征等;与其他组合作,将语音统计学习算法扩展到其他模式识别应用中,如数学公式和东亚字符的手写识别。
可训练的文娱合成系统
我们开发了一种基于统计模型训练方法的文语合成系统(TTS)。与以前的基于拼接语音合成系统相比,新方法有如下优点:
1) 在模型训练和语音生成过程中采用了统一的最大似然准则;
2) 语音模型的训练只需要相对较少的语音数据(500句);
3) HMM模型的存储量小,通常小于2M;
4) 能够灵活的修改生成语音的频谱、能量、语速和其他相关的参数;
5) 对于一个新的说话人,可以通过自适应模型训练方法快速得到他的模型。
寻找音乐:哼唱检索和音乐导航
没有音乐,世界将会怎样?使用我们的“哼唱检索”技术,即使不知道或不记得曲名,你还是可以通过哼唱旋律找到喜爱的歌曲。对手机下载手机铃声, 哼唱检索特别有用, 因为用手机键入歌曲或歌手的名字并不方便,但用声音输入对手机却自然无碍。我们和微软中国产品部门合作,建立了一个服务原型系统 —— 通过手机拨号接通服务,哼唱一段歌曲旋律,就能找到所要的手机铃声以供下载。音乐导航,是指通过音乐内容分析、推荐和筛选,由人机互动方式生成乐曲列表,用户方便地找到想听的歌。当几千几万首歌曲已经储存在便携式音乐播放器中(比如iPod, Zune和智能手机),如何快速选择要听的音乐便成了一个大问题。音乐导航提供了“智能选择播放”的功能: 用户选定一首音乐,系统就会生成一个”乐曲点播台”, 自动推荐一些相似的乐曲。 根据用户对某一歌曲喜欢或不喜欢的反馈,或由设定的音乐筛选器,推荐乐曲的列表就会自动调整。其中的关键技术是对乐曲的自动内容分析,检测每一首歌多重音乐属性, 包括风格、乐器、音调和节奏等。
语音用户界面智能校正
我们开发了一种用于文字输入的智能语音用户界面。 它以连续语音作为其主要输入方式,以及配备手写输入纠错机制。连续语音录入加快了文本输入的速度,手写输入方便了定位以及语音识别错误的纠正。这种更自然的交互界面是非常智能的,在统计上,它可以纠正比用户手写指出的错误更多的错误。基于一个实际语音数据库,我们已经确认,通过重写语音识别自动产生的词图,我们可以生成一个比用户指出错误更少的句子。
HMM模型的区分性训练
HMM模型被广泛应用于各种模式分类问题中,如语音识别,数学公式和东亚字符的手写识别等。为了训练得到高区分性的HMM模型,我们提出了区分性模型训练的统一框架,可采用各种不同的准则,如最大互信息准则,最小分类错误准则,最小音素错误准则等。
增强人际交流:音频检索
虽然人与人之间的沟通大都通过交谈,但记录交谈时主要仍是通过传统的笔录、备忘录、会议记录或其他不同的文档。现在的技术还无法有效地利用录下的音频数据。如何使计算机更聪明地处理语音和音频数据是语音组的一个主要任务。目前,我们的创新技术是一个快速搜索引擎,它可从在音频记录中有效检索谈话内容,这些音频记录包括会议、电话、语音邮件,报告、在线讲座,以及网络视频等。微软办公软件的一个组件Microsoft OneNote 2007,是第一个集成我们音频检索技术的微软产品。用户可以借此搜索会议记录和电话中的关键词。
- 音乐音频信号中的自动情态检测和追踪
Lie Lu, Dan Liu, Hong-Jiang Zhang. “Automatic Mood Detection and Tracking of Music Audio Signals”, Special Issue on Statistical and Perceptual Audio Processing, IEEE Trans. on Audio, Speech and Language Processing, Vol. 14, No. 1, pp. 5-18, 2006
- 自然语音的词汇无关索引
Peng Yu, Kaijiang Chen, Chengyuan Ma, and Frank Seide, "Vocabulary-Independent Indexing of Spontaneous Speech", IEEE Trans.on Speech and Audio Processing, Vol. 13, No. 5, pp. 635-643, September 2005 - 实时音频内容分析中的无监督说话人分割和追踪
Lie Lu, Hong-Jiang Zhang. "Unsupervised Speaker Segmentation and Tracking in Real-Time Audio Content Analysis", ACM/Springer Multimedia Systems Journal 10 (4), pp. 332-343, 2005.
- 合成音频的无监督内容侦测
Rui Cai, Lie Lu, Alan Hanjalic. “Unsupervised Content Discovery in Composite Audio", Proc. ACM Multimedia 05, pp. 628-637, 2005 - 语意话题的自动丰富表出
Lie Lu, Zhiwei Li. "Automated Rich Presentation of a Semantic Topic”, Proc. ACM Multimedia 05, pp. 745-753, 2005 - 应用领域知识的互联网对象索引
Muyuan Wang, Zhiwei Li, Lie Lu, Wei-Ying Ma, and Naiyao Zhang. “Web Object Indexing Using Domain Knowledge” Proc. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD 05), pp. 294-303, 2005 - 感知视觉化音乐库
Jiajun Zhu, and Lie Lu. “Perceptual Visualization of A Music Collection”, Proc. of IEEE International Conference on Multimedia and Expo (ICME05), pp 1058-1061, 2005
- 一个基于内容音频分析的统一框架
Lie Lu, Rui Cai, and Alan Hanjalic. “Towards A Unified Framework for Content-based Audio Analysis”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2005, Vol. II, pp1069-1072, 2005
- 利用关键音频效果和信息互聚类理论的无监督音频场景分类
Rui Cai, Lie Lu, and Lian-Hong Cai. “Unsupervised Auditory Scene Categorization via Key Audio Effects and Information-Theoretic Co-Clustering”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2005, Vol. II, pp1073-1076, 2005 - 快速两阶段词汇无关自然语音搜索
Peng Yu and Frank Seide, "FAST TWO-STAGE VOCABULARY-INDEPENDENT SEARCH IN SPONTANEOUS SPEECH", Proc. ICASSP 2005
- 搜索音频笔记本:对话录音中的关键词搜索
Peng Yu, Kaijiang Chen, Lie Lu, and Frank Seide, "SEARCHING THE AUDIO NOTEBOOK: KEYWORD SEARCH IN RECORDED CONVERSATIONS", Proc. HLT 2005
- 用发音人自适应的上下文相关音素边界模型来修正音素边界
Yong Zhao, Jijuan Wang, Min Chu, Frank, K. Soong and Zhigang Cao, Refining Phoneme Segmentations Using Speaker-Adaptive Context Dependent Boundary Models, Proc. Interspeech 2005, Lisbon, 2005.
- 采用通用后验概率检验语音的音素转写的正确性
Lijuan Wang, Yong Zhao, Min Chu, Frank K. Soong, Zhigang Cao, Phonetic Transcription Verification with Generalized Posterior Probability, Proc. Interspeech 2005, Lisbon, 2005.
- 根据语音库定制TTS系统中的基本合成单元
Yining, Chen, Yong Zhao and Min Chu, Customizing Base Unit Set with Speech Database in TTS Systems, Proc. Interspeech 2005, Lisbon, 2005.
- 基于噪声特征子空间投影的稳健语音检测算法
Dongwen Ying, 2, Yu Shi, Frank K. Soong and Jianwu Dang, "A Robust VAD based upon Noise Eigenspace Projection" - 基于全音节的后验概率模型在置信度测量中的应用
P. Liu, Y. Tian, J.-L. Zhou and F. K. Soong, “Background model based posterior probability for measuring confidence”, Interspeech 2005 - 用词/音素混合方法提高即时语音词表无关搜索
Peng Yu and Frank Seide, "A HYBRIDWORD / PHONEME-BASED APPROACH FOR IMPROVED VOCABULARY-INDEPENDENT SEARCH IN SPONTANEOUS SPEECH", ICSLP 2004 - Transformation and Combination of Hidden Markov Models for Speaker Selection Training
C. Huang, T Chen and E. Chang, “Transformation and Combination of Hidden Markov Models for Speaker Selection Training”, ICSLP’2004, Korean, - Vocabulary-Independent Search in Spontaneous Speech
Frank Seide, Peng Yu, Chengyuan Ma, and Eric Chang.Vocabulary-Independent Search in Spontaneous Speech.ICASSP 2004, Montreal. - Refining Segmental Boundaries for TTS database Using Fine Contextual-Dependent Boundary Models
LiJuan Wang, Yong Zhao, Min Chu, Jianlai Zhou and Zhigang Cao, Refining Segmental Boundaries for TTS database Using Fine Contextual-Dependent Boundary Models, proc. of ICASSP 2004, Montreal, pp. I-641~I-644.
更多论文……
|
|
|