扬's profileZeddius StudioPhotosBlogListsMore Tools Help
    10/31/2007

    搜狗实验室发布国内第一个互联网搜索评测集合

     
    名称: 搜索评测集合1.0
    关键词: Web页面、网络信息检索
    摘要: 互联网语料库(SogouT1.0,SogouT2.0)产品推出以来,已向不同用户和单位分发了几百份相关数据。不少用户和相关研究人员指出,为了推动中文信息处理的发展,应该利用公开评测的手段,扎扎实实地研究新理论,加快新技术、新系统的发展。因此,为了进一步推动利用互联网语料库数据进行的中文互联网信息处理研究,实验室推出与SogouT2.0互联网语料库对应的搜索评测集合。希望这个产品能够为各种从事中文互联网信息处理的研究人员更好的服务。
    介绍:

    搜索评测集合1.0是一个与互联网语料库2.0版本协同使用的信息检索评测集合,共包括196个查询,以及搜狗实验室利用用户行为分析技术从互联网语料库中筛选出的对应查询的答案页面。查询词覆盖不同频度的用户实际需求,所标注的答案也经过了搜狗实验室工程师的手工验证。
    评测集合的意义:提供一个规模合适、内容较准确、反映中文信息检索用户实际需求的标准评测集合
    应用案例:基于互联网语料的信息检索

    说明:

    评测数据以如下格式组织在文本格式文件中:
    查询\t标准答案1\t标准答案2...\t标准答案n
    数据下载声明见“SogouLab 数据使用许可证