翻译知识

首页 翻译服务|市场 翻译园地 组织 翻译科技 行业之窗 招聘求职 社区服务投资移民论坛
 

微软亚洲研究院-自然语言计算组

概述
在当今的信息时代,每天都有海量的数字化信息在生成、存储、传播和交换。这种趋势不可避免地加剧了信息获取的困难;而语言障碍也成为日益严重的问题。为了解决这些问题,微软亚洲研究院自然语言组致力于研究和探索最先进的传统自然语言处理(NLP)、基于统计的自然语言处理技术、机器翻译、信息检索以及跨语言检索、中文和日文自然语言处理、机器学习等有关领域。

自然语言组用统计学习的方法来获取语言知识。为了支持知识获取和评估,我们用语料标注和机器字典的方法建立了大规模的语料库(包括单语和双语的语料和各种电子版词典)。我们还建立了强大的语言处理系统,包括中文分词系统、中文句法分析系统、英文基本名词词组识别系统和统计语言模型建模工具箱。这些资源和处理工具成功的支持了我们的语言研究项目。

我们已经完成的项目包括英文写作助理系统、英文阅读助理系统、中文文本校对系统、中文拼音-汉字转换系统、日文假名-汉字转换系统,等等。这些技术在研究领域了引起了极大反响,有些已被应用于相关微软产品中。

研究领域
自然语言组的研究方法是基于数据驱动的:我们收集大量单语或双语语料和词典,从中获取语言知识和翻译知识;并用这些知识支持我们的研究项目。 下面是对我们主要的研究领域的介绍:

语料的收集、分类和标注
这是一个持续进行的项目,目标是构建一个大规模的文本语料库,以之作为统计语言模型的基础。文本可以从各种文档和网页上获得,并按照主题以及写作风格进行文本分类,这对于构建平衡语料库及各种特定领域语料库都是非常有用的。语料库标注是一项很有挑战性的工作,包括单词划分、命名实体识别、词性标记、句法分析、单词语义标记以及指代标记。不同的标记工具可以直接在很多自然语言应用中使用,并且不同标注的语料库可以在统计语言模型中用作有监督的训练数据。

统计语言模型及其应用
研究的目标是在语料库的不同层次上获取语言知识;并且对线性符号序列和结构化对象进行建模。目前,我们的项目重点是基于单词的n-gram语言建模及其应用,例如,对中文IME的拼音-汉字转换、日文IME的假名-日本汉字转换、中文单词的划分、文本校对(拼写错误检查以及建议)、文本信息检索。我们也研究基于分类的n-gram建模(例如,对命名实体的识别)以及远距离依赖关系。

机器辅助翻译
这个项目的目标是帮助中文用户更流畅的阅读和书写英文。我们关注统计的“浅层机器翻译”,它可以对单词、词组、以及词的搭配提出更精确的翻译解决方案。我们也研究从单语/双语文本中获取语言知识(例如词的搭配和同义词)以及翻译知识(例如单词翻译选择,词的搭配的翻译等等,并且从单语或者双语文本中获取翻译知识)。对于这些项目而言,大的双语文本库是最重要的翻译资源。因此,句子对齐、新词和术语抽取、翻译模式抽取的是我们主要的研究内容。与机器辅助翻译相关的其他研究主题我们也感兴趣,例如句型相似度计算算法,源语言的词组划分,以及基于语言模型的目标语言生成。

文本挖掘
这个方面的研究目标是开发文本挖掘的核心技术,以支持对文本信息进行管理、分析、检索的各种应用。文本挖掘是从大量文档集合中发现有用的知识,并且开发提供这种知识的系统,以支持用户决策。目前,我们研究工作的重点是支持企业信息管理的文本和知识挖掘,更具体地说,支持企业检索和客户关系管理。

信息检索
我们的目标是使用先进的自然语言处理技术提高传统的信息检索的性能。我们研究中文最佳的索引单元、查询扩展、挖掘单词关联度、文本的相似度,以及不同IR系统的检索结果的融合方法、基本NP识别,以及采用基于统计方法和基于样例的方法来翻译中文查询。我们参加了TREC-9的跨语言检索和NTCIR-III的跨语言检索。我们也参加了TREC-10的互联网检索。

统计语言学习
统计方法在自然语言处理领域成为越来越重要的方法。这里我们的目标是为统计语言学习开发基础模型、策略、以及算法。

论文
信息检索的依存语言模型
Jianfeng Gao, Jian-Yun Nie, Guangyuan Wu and Guihong Cao."Dependence language model for information retrieval", In SIGIR-2004. Sheffield, UK, July 25-29, 2004.
一种英-汉命名实体对齐的新方法
Dong-Hui Feng, Ya-Juan Lv, Ming Zhou,"A New Approach for English-Chinese Named Entity Alignment", 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, Jul. 2004.
基于单语语料库的搭配翻译自动获取
Ya-Juan Lv,Ming Zhou,"Collocation Translation Acquisition Using Monolingual Corpora", 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul. 2004.
可适应性的中文分词
Jianfeng Gao, Andi Wu, Mu Li, Chang-Ning Huang, Hongqiao Li, Xinsong Xia and Haowei Qin."Adaptive Chinese word segmentation" , 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul. 2004.
采用支持向量机识别中文新词
Hongqiao Li, Chang-Ning Huang, Jianfeng Gao and Xiaozhong Fan, "The use of SVM for Chinese new word identification", In IJCNLP-04. Sanya City, Hainan Island, China, March 22-24, 2004.
语言模型中获取长距离依存的经验探讨
Jianfeng Gao and Hisami Suzuki,"Capturing long distance dependency for language modeling: an empirical study", In IJCNLP-04. Sanya City, Hainan Island, China, March 22-24, 2004.
Word Translation Disambiguation Using Bilingual Bootstrapping
Hang Li and Cong Li," Word Translation Disambiguation Using Bilingual Bootstrapping", Computational Linguistics 30(1), 1-22, 2004.
Text Classification Using Stochastic Keyword Generation
Cong Li, Ji-Rong Wen, and Hang Li, "Text Classification Using Stochastic Keyword Generation", Proc. of ICML'03, 464-471.
Uncertainty Reduction in Collaborative Bootstrapping: Measure and Algorithm
Yunbo Cao, Hang Li, and Li Lian, "Uncertainty Reduction in Collaborative Bootstrapping: Measure and Algorithm", Proc. of ACL'03, 327-334.
改进的信源-信道模型在中文分词中的应用
Ya-JJianfeng Gao, Mu Li and Chang-Ning Huang, "Improved Source-Channel Models for Chinese Word Segmentation", 41nd Annual Meeting of the Association for Computational Linguistics. Sapporo. Japan, July 7-12, 2003.
Topic Analysis Using a Finite Mixture Model
Hang Li and Kenji Yamanishi, "Topic Analysis Using a Finite Mixture Model", Information Processing & Management, 39(4), 521-541, (2003).
Using Bilingual Web Data to Mine and Rank Translations
Hang Li, Yunbo Cao, and Cong Li,"Using Bilingual Web Data to Mine and Rank Translations", IEEE Intelligent Systems, Vol. 18(4), 54-59, (2003)

 

商务服务

广州租车

条码

会议系统

矩阵切换器

广州机票

特别推荐

 

推荐广告

 

Copyright ©2003 - 2005 目录大全