|
|
互联网搜索与数据挖掘组致力于将数据挖掘、机器学习与知识发现技术和信息分析、组织、检索与可视化的过程相结合,将目前的互联网搜索提高到一个新的层次。例如,我们正在研究如何挖据深层互联网结构,以实现对多个在线数据库的一站式搜索,并利用网页布局结构提高链接分析和排序算法的性能。我们还在开发能处理大规模数据并快速适应新主题的分类和聚类算法,以适应互联网的动态特点。基于文档级别的排序和检索是信息检索领域25年来的传统模式,目前我们正在探索一种新的模式,以实现对象级别的互联网搜索。
同时,我们还在研究一些基本理论问题,例如理解互联网的演化过程及其建模。移动搜索是我们感兴趣的新领域之一,目前我们着力于实现在移动设备上的信息自适应转换以及无所不在的访问,并试图发现可能的新应用领域,以连接物理世界中的搜索和数字世界搜索。针对多媒体搜索技术,除了传统的基于内容的检索技术,我们还致力于分析媒体对象和其它网络内容例如文本、链接、深层网络结构和用户交互记录之间的多类型类间相关关系,以创建针对媒体对象的更优秀的语义理解与索引技术。
最新研究成果
对象级别的垂直搜索技术(Object-level Vertical Search)
最新研究成果应用体验:学术搜索 Microsoft Libra
相关介绍: 微软下一代智能互联网搜索技术专栏->
所搜即所得
互联网搜索
我们致力于推动互联网搜索研究到达一个新的层次,同时帮助微软公司开发先进的搜索技术。互联网是一个庞大、异构和动态的网络,先进的互联网搜索技术需要吸收和利用不同领域内的成果,包括信息检索、数据挖掘、机器学习和数据库等。更具体地说,我们正在以下两个方向展开研究:
(1)
大规模实验性互联网搜索平台:我们正在开发一个新的大规模搜索平台。这个平台的首要目标是能够有效的存储、解析、索引和检索数十亿个网页以及各种类型的文档。另外这个平台也是为了构建一个足够灵活的实验性系统,它能够帮助我们试验各种新的搜索技术,包括我们自己的技术。
(2)
使互联网结构化:我们预期在未来几十年中,最大的挑战将在于如何有效和快速地从无组织和非结构化的互联网数据中挖掘出机器所能理解的信息和知识。因此,我们正在探索新的技术,在网页中自动进行结构发现和对象抽取,(这通常被称作网页信息抽取,深层互联网挖掘和互联网结构挖掘)。挖掘出来的信息和知识将大大提高目前互联网搜索的性能,并推动下一代互联网搜索技术走向成熟。
社区与多媒体搜索
近年来随着著作工具和互联网基础设置的完善,人们可以轻松地发布文章表达自己对事物的看法,以及分享自己创造的影像和视频。因此,互联网上的各式各样的媒体变得非常普遍。为了更好地理解和管理人们创造的这些散布在互联网上的海量信息,我们展开了一系列研究工作来试图解决这些极富挑战性的问题。我们的研究主要包括:开发创新性的互联网服务来促进互联网上的社区发展,聚合不同来源、不同媒体形式的用户数据来提供有价值的专用搜索引擎,分析多媒体数据来提升他们的使用价值,以及发明革新性的用户界面来创造丰富的媒体展示形式。同时,我们从新的角度考虑图像标注问题,利用网络搜索技术及网络上大量的图像进行自动标注。这种方法使得无限大标注词库成为可能;并且这一新的设计角度,即利用超大规模数据和搜索技术解决问题,将对高维索引、内容分析和概念建模方面的研究提出新的要求。随着旅游和互联网的流行,越来越多的用户开始通过查询在线旅游服务来帮助自己制定旅游计划以及分享自己的旅游经验。我们正在开发的一项原型Web服务,可以通过聚合、挖掘用户发表在各种论坛、博客上的旅游相关文章实现旅游经验的共享。
移动与本地搜索
近年来PDA和智能手机等移动设备的数目在迅速增长。虽然目前台式电脑依然是进行互联网搜索的主要设备,但是支持用户在外出时访问和搜索互联网变得越来越有价值。为台式电脑设计的搜索引擎能在具有网页浏览功能的移动设备上直接访问,但这并不是最优的方案,因为移动用户的需求只得到了部分满足,而且在移动设备上的浏览也很不方便。我们正在开发前瞻性的技术以帮助移动用户更加准确、快速和便捷地找到信息。目前的移动搜索引擎通常是普通搜索系统的移动版本,只支持文本方式的查询输入。我们发现移动信息需求经常无法用关键词很好地描述。在传统的输入模式之外,照相手机可以支持更加丰富的查询,例如图像。我们相信开发支持用户使用手机图像来搜索互联网信息的移动搜索服务是非常重要的。我们目前正在开发一个能够将查询图像与数据库中数以百万计的图像进行匹配的大规模移动图像搜索引擎。另外,我们试图加入地理知识以更好地获取与地理位置相关的信息,并建议使用地理相关的方式来组织信息。
互联网是一个分布式、大规模、动态的,包含大量非结构化、异构的、及隐藏的数据的信息源。这些特点使得面向互联网的数据管理面临独特的挑战。互联网数据管理组的目标是构建系统和算法来应对这些挑战及更好地满足用户的信息需求。我们采用”数据+平台+工具“的基本研究方法来使得互联网数据管理像数据库系统一样有效,同时像信息检索系统一样灵活。
WebStudio构建互联网数据管理的基础平台
针对互联网数据的分布式、大规模和动态性的特点,我们构建了WebStudio平台以提供大规模互联网数据管理和处理能力。WebStudio是一个集成开发环境(IDE),可以用来快速构建应用原型以及进行Web级别的大规模实验。WebStudio也是一个互联网数据管理系统,可以使用户更方便地存储、访问、操纵互联网数据。基于WebStudio,我们正在探索构建以数据为中心的新型搜索引擎的可能性。
对象级别的搜索
当前常规的搜索引擎可以视为是页面级别的,但是互联网中蕴含着大量的关于现实世界对象的结构化信息,我们在探索一种新的范例,抽取、集成网页上各式各样的对象信息,进行对象级别的搜索。对象级别的搜索引擎的一个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询。对象级别搜索的核心技术已经应用在多个系统中:Libra学术搜索(http://libra.msra.cn)、WindowsLive产品搜索(http://products.live.com)以及对象间关系的搜索引擎GuanXi。
网络搜索的评价
我们的网络搜索评价研究有两个连续的目标。首先,我们寻找一种可以测量用户认同感的评价方法。网络搜索在很多方面与传统的信息检索不同,因此,网络搜索就需要新的实验方法、测试数据集和评价指标来量化用户对网络搜索的认同度。第二,我们要设计出专门的评价方法用来诊断搜索引擎中的问题。为了实现以上的目标,我们正在研究诸如查询分类、标注方法、评价方法和实验设计等方面的技术。
深层互联网搜索
研究目标是处理大量网络中“隐藏的”数据,因为目前网络上有大量数据被存放在许多站点的后端数据库中。我们通过研究获取、抽取和集成这些数据的技术,来提高当前搜索引擎中数据的覆盖率和质量。
信息检索与挖掘组致力于开发前瞻性的技术,帮助网络用户从浩如烟海的互联网中准确、快捷而方便地定位所需的信息。我们对机器学习、信息检索、数据挖掘和自然语言处理进行深入研究,并将其应用于互联网搜索,企业网搜索和网络社区搜索等诸多领域。具体研究项目包括:排序模型学习、链接分析和网络数据挖掘、反网页排名欺诈、文本信息检索等等。
排序模型学习 对网页进行相关性排序是网络搜索中的核心问题。近年来,研究人员开始采用机器学习的方法来训练排序模型,并取得了可喜的成果。我们对这一领域进行了深入研究,提出“列表级别的排序模型”,以及与此相关的新的损失函数、评价准则、排序函数、以及训练方法,并对相应算法的理论性质和经验性能给出了全面的分析。
链接分析和互联网数据挖掘 互联网由亿万个网页相互链接而成,它可以看成是一张以网页为节点以超级链接为边的超大规模有向图。然而如何高效而准确地对如此超大规模的图数据进行处理是很大的挑战。我们致力于研发一套用于处理超大规模图数据的分布式平台,它具有分布式图数据存储、渐进式图索引、并行计算、作业优化调度、超强容错等功能。该平台为在超大规模图数据上进行链接分析和其他信息挖掘铺平了道路。
文档信息抽取 在诸多网络应用中,我们需要利用元数据对文档进行结构化存储和处理。然而由于种种原因,网络上存在大量没有可靠元数据信息的文档。对于这些文档,如何自动抽取有效的元数据变得十分重要。我们利用机器学习的方法对文档的题目、作者、关键词、类型等信息进行自动抽取,相关的研究成果已经发表在SIGIR等国际会议上,并被应用到微软的产品之中,取得了很好的效果。
- A Probabilistic Model for Retrospective News Event
Zhiwei Li, Bin Wang, Mingjing Li, Wei-Ying Ma. A Probabilistic Model for Retrospective News Event. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - A Study of Relevance Propagation for Web Search
Tao Qin, Tie-Yan Liu, Xu-Dong Zhang, Zheng Chen, Wei-Ying Ma. A Study of Relevance Propagation for Web Search. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Detecting Dominant Locations from Search Queries
Lee Wang, Chuang Wang, Xing Xie, Josh Forman, Yansheng Lu, Wei-Ying Ma, Ying Li. Detecting Dominant Locations from Search Queries. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Improving Web Search Results Using Affinity Graph
Benyu Zhang, Hua Li, Yi Liu, Lei Ji, Wensi Xi, Weiguo Fan,
Zheng Chen, Wei-Ying Ma. Improving Web Search Results Using Affinity Graph. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Scalable Collaborative Filtering Using Cluster-based Smoothing*
Gui-Rong Xue, Chenxi Lin, Qiang Yang, WenSi Xi, Hua-Jun Zeng, Yong Yu, Zheng Chen. Scalable Collaborative Filtering Using Cluster-based Smoothing*. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Exploiting the Hierarchical Structure for Link Analysis*
Gui-Rong Xue, Qiang Yang, Hua-Jun Zeng, Yong Yu, Zheng Chen. Exploiting the Hierarchical Structure for Link Analysis*. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Gravitation-Based Model for Information Retrieval
Shuming Shi, Ji-Rong Wen, Qing Yu, Ruihua Song, Wei-Ying Ma. Gravitation-Based Model for Information Retrieval. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval
Yunhua Hu, Guomao Xin, Ruihua Song, Guoping Hu, Shuming Shi, Yunbo Cao, and Hang Li. Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Linear Discriminant Model for Information Retrieval
Jianfeng Gao, Haoliang Qi, Xinsong Xia, Jian-Yun Nie. Linear Discriminant Model for Information Retrieval. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization
Jun Yan, Ning Liu, Benyu Zhang, Shuicheng Yan, Zheng Chen, Qiansheng Cheng, Weiguo Fan, Wei-Ying Ma. OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - SimFusion: Measuring Similarity using Unified Relationship Matrix
Wensi Xi, Edward A. Fox, Weiguo Fan, Benyu Zhang, Zheng Chen, Jun Yan, Dong Zhuang. SimFusion: Measuring Similarity using Unified Relationship Matrix. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - Web-Page Summarization Using Clickthrough Data
Jian-Tao Sun, Dou Shen, HuaJun Zeng, Qiang Yang, Yuchang Lu, Zheng Chen. Web-Page Summarization Using Clickthrough Data. The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005. - 使用保局投影对图像数据库聚类
Xin Zheng, Deng Cai, Xiaofei He, Wei-Ying Ma and Xueyin Lin. Locality Preserving Clustering for Image Database. 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004 - Collapse –to-zoom: 通过交互删除无关内容的方式在小屏幕设备上浏览网页
Patrick Baudisch, Xing Xie, Chong Wang, Wei-Ying Ma, Collapse-to-Zoom: Viewing Web Pages on Small Screen Devices by Interactively Removing Irrelevant Content, 17th Annual ACM Symposium on User Interface Software and Technology (UIST 2004), TechNote, Sante - 多模式相似度传播及其在互联网图像检索中的应用
Xin-Jing Wang, Wei-Ying Ma, Gui-Rong Xue, and Xing Li, "Multi-Model Similarity Propagation and its Application for Web Image Retrieval", 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004. - 针对WWW图像搜索引擎直观有效的界面设计
Zhiwei Li, Xing Xie, Hao Liu, Xiao-Ou Tang, Mingjing Li, Wei-Ying Ma, Intuitive and Effective Interfaces for WWW Image Search Engines, 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004, demo. - 使用视觉,文本和链接分析对互联网图像搜索结果进行层次化聚类
Deng Cai, Xiaofei He, Zhiwei Li, Wei-Ying Ma and Ji-Rong Wen, Hierarchical Clustering of WWW Image Search Results Using Visual, Textual and Link Analysis, 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004 - 互联网图像搜索结果的归类显示
Xin-Jing Wang, Wei-Ying Ma, Qi-Cai He, and Xing Li, "Grouping Web Image Search Result", 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004, poster - 通过学习图像流形进行图像检索
Xiaofei He, Wei-Ying Ma, Hong-Jiang Zhang. Learning an Image Manifold for Retrieval, 12th ACM International Conference on Multimedia, New York City, USA, Oct. 2004. - 使用特定领域查询探测的基于实例的互联网数据库模式匹配
Jiying Wang, Ji-Rong Wen, Fred Lochovsky and Wei-Ying Ma, Instance-based Schema Matching for Web Databases by Domain-specific Query Probing, The 30th International Conference on Very Large Data Bases (VLDB 2004), Toronto, Ontario, Canada, August 2004.
更多论文……
|
|
|