1.抓取技术产生的背景 面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够提供高质量和高效运作的信息采集解决方案。 随着政府信息化建设的一步步深入,政府门户网站已成为展现政府形象的一个重要窗口,在这样一个需求的背景条件下,抓取技术得到了长足的发展。 2.常见的几种抓取方式及其优缺点分析 业界主要的抓取方式通常分为两种,其一:关键字检索,其二:定向抓取,各自应用的侧重点都有所不同。 1)关键字检索 这一类抓取技术主要采用链接分析技术和网页智能分析技术,实现对目标网站信息的监控和智能采集。可以通过设置采集关键字从浩瀚的网络站点中准确高效获取有价值的信息,同时提供对信息的加工处理,通过分发处理可直接将信息转入内容管理系统和其他信息平台,成为信息的来源。 优点:智能基于视觉的内容抽取技术,支持采集关键字,分类别、多站点采集,支持多 种文档资料格式,采集信息管理,多线程并发、采集速度快,增量采集和自动采集,开放数据接口,采集性能。 缺点:可以把此类抓取方法称之为海量抓取,说到海量,让人很自然就会想到信息的准确度和效能,这两点也是此类抓取方法的主要问题,解决了这两点问题,此类抓取方法大有发展前途。 2)定向抓取 用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。 优点:精确度高、易用性好、灵活性强、实施部署容易、采集内容全面、抓取速度快、 性能指标优。 缺点:此抓取方法由于采用的是定向的方式,所以信息的来源,首先是可知的,这样就 给信息来源的全面性有了很大的制约。 3.抓取技术产品实例分析 目前,市场上抓取产品品牌繁多,相对都比较成熟,采用定向抓取这一方式的产品在政府信息化建设应用上占有相对比较多的比率,那么我就选择一款由南京大汉网络公司开发的信息抓取系统做一下分析。 大汉信息抓取系统针对不同行业用户的应用需求,以监测抓取Internet信息为目的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过接口发送至其他系统,用于内部使用或外网发布,实现信息及时全面的共享。 易用性好:系统参数设置简单,一次设置多次使用。采用精确抓取时针对不同用户应用要求,可设定“所见即所得”的拖拽选取信息内容方式。设置过程直观、便捷。系统能将收集的信息进行精确的自动分类与整理,按照用户要求进行快速推送。 灵活性强:系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从而实现由用户上网找信息转变为信息自动流向用户的方式。 实施部署容易:系统用户界面友好,抓取服务器在Windows平台下运行,实施部署过程简单,即装即用。系统稳定性很高,可以在“7天×24小时”运行模式下长时间地运行。 采集内容全面:适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99% 以上。 抓取速度快:系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。 性能指标:每分钟可以抓取上百个最新网页,每小时可以同时监控5万个以上的网页(受网络带宽的限制),支持上千个网站的并发采集。与大汉内容管理系统无缝集成,同时提供标准的第三方应用系统接口,方便进行二次开发。 4.抓取技术的发展展望 就个人观点来,谈一个技术的发展趋势,势必要和具体的市场需求联系到一起来谈,就目前市场上主要的应用需求来看,主要发展方向两个,其一:通过关键字进行抓取,其二:定向抓取,这两个相互矛盾相互制约,个人分析判断当关键字抓取发展到一个极致的时候,定向抓取将被关键字抓取所取代。 就目前的情况来看,两种技术各其有其生存发展的土壤,相互竞争的势态还将保持很长一段时间。就政府门户这一应用的特点来看,定向抓取确好地满足了其在信息采集这一块的需求。 与之相关的也很重要的一点就是,与其它应用的整合,比如与检索系统、内容管理系统等系统整合形成的情报系统、知识门户系统等,就是一个相好的应用方向。