搜索与挖掘
互联网搜索与数据挖掘组致力于将数据挖掘、机器学习与知识发现技术和信息分析、组织、检索与可视化的过程相结合,将目前的互联网搜索提高到一个新的层次。例如,我们正在研究如何挖据深层互联网结构,以实现对多个在线数据库的一站式搜索,并利用网页布局结构提高链接分析和排序算法的性能。我们还在开发能处理大规模数据并快速适应新主题的分类和聚类算法,以适应互联网的动态特点。
自然语言计算组
信息时代带来了海量的数字化文本。每一天,这些海量的文本通过互联网生成、传播、交换、储存和访问,进入位于世界各地的人们日常生活中。日益累积的数据使得信息的获取越来越困难,同时语言的障碍也变得越来越严重。为了克服这些困难,自然语言计算组正集中精力于相关的研究课题上,其中包括多国语言文本分析、机器翻译、跨语言信息检索和自动问答系统等。