启超垂直搜索引擎
一、系统架构
整个垂直搜索引擎分为3个子系统:采集系统,处理系统,查询系统。其中查询系统是面向最终网站用户的,采集系统是采集所有网站数据的。
二、采集系统
启超垂直搜索引擎的信息采集系统是国内最领先的网络信息采集系统。与传统的网络爬虫技术采集到的是整体的网页不同,它采集的是每个网页内部的所有精确的记录数据与图片,是建设垂直搜索引擎的理想采集工具。
1. 自定义URL来源及采集频率
用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
2. 支持多种网页格式
可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片、TXT/DOC/PPT/XLS/RTF/PDF等文档格式信息。
3. 支持多种字符集编码
采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
4. 支持元搜索模式采集
元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。
三、处理系统
利用专门的工具对下载的信息进行结构处理和格式处理.
1. 内容抽取
系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
2. 信息归类
支持按采集栏目设置分类,并为分类设置相应属性,只要属于该栏目的信息即送到相应分类中。
3. 自动去重
通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
四、查询系统
1. 支持简单和复杂的搜索语法
2. 支持布尔运算符
3. 搜索结果可以按日期、相关度、字母顺序来排序
4. 高亮显示关键字
5. 限定搜索的范围
五、软件的功能
本系统最大的特点是:灵活、准确、
灵活性:任何复杂的查询与页面布局都可以灵活处理
准确性:结果数据高度准确(99%-100%)
1. 从采集内容来说:
采集国内外新闻
采集技术文章
采集论坛帖子
采集商品价格
采集博客文章
采集供求信息
采集客户资料
采集产品资料
采集商品信息
采集国外期刊
采集国外论文
采集票务信息
采集电影信息
采集IC信息
采集各种行业的信息....
支持建立对外的行业门户网站或者对内的企业竞争情报网站。
2. 从技术特性来说:
支持静态网页网站(.htm, .html, .shtml)
支持动态网页网站(ASP,ASP.NET, PHP,JSP, CFM, CGI…)
支持采用了防盗链措施的网站
支持采用了HTTPS通信加密的网站
支持对查询次数限制作了限制的网站
对目标网站进行信息自动抓取,支持各种数据的采集,如文本,图片,数字
可以下载图片与各类文件,自动修改源代码中图片的路径
支持用户名与密码自动登录
支持命令行格式,可以Windows任务计划器配合,定期抽取目标网站
支持记录唯一索引,避免相同信息重复入库
支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除
支持多页面文章内容自动抽取与合并
支持下一页自动浏览功能
支持直接提交表单
支持模拟提交表单
支持动作脚本
支持从一个页面中抽取多个数据表,多条记录
支持数据的多种后期处理方式
数据直接进入数据库而不是文件中,与利用数据的程序间没有任何耦合
支持数据库表结构完全自定义,充分利用现有系统
支持多个栏目的信息采集可用同一配置一对多处理
支持大批量文件多线程下载
保证信息的完整性与准确性,绝不会出现乱码
支持所有主流关系型数据库(MS SQL, MySQL, Oracle, DB2, Access…)
支持多种字符集编码,采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
支持元搜索模式采集,元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。
从采集对象来说,本系统可以深度采集全球信息,针对任意网站任意网页任意数据,看得到就能采得到。
六、产品优势
采用先进的数学模型和算法建立一个安全、稳定、准确、及时的信息智能采集系统。系统在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。
1. 低耦合性:检索系统与门户网站及发布系统彼此间相对独立,直接采用XML进行数据交换,保证整体系统的底耦合性,系统彼此之间不会受到较大影响。
2. 先进性:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水平。
3. 高效性:采集分类系统对系统的效率要求较高,本系统在底层的技术实现上采用C语言,运行效率卓越。同时对发布管理系统在数据处理和网络的稳定性上没有任何影响。
4. 经济性:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。
5. 易维护性:整套系统的数据维护简单,容易操作,完全通过WEB方式完成,降低维护的技术难度,也减少了人为隐患的发生。
七、应用领域
1. 党、政、军应用
实时跟踪、采集与业务工作相关的信息来源。
全面满足内部工作人员对互联网信息的阅读需求。
及时解决政务外网、政务内网的信息源问题,实现动态发布。
快速解决主网站对各地级子网站的信息获取需求。
全面整合信息,实现内部跨地区、跨部门信息资源共享与有效沟通。
节约信息采集的人力、物力、时间,提高办公效率。
2. 企业应用
实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
解决集团企业用户内网信息资源的整合与利用、建立集团网站群信息资源共享平台。
3. 新闻媒体行业应用
快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采编速度。
支持每天对百万条新闻进行有效抓取。监控范围的深度、频率可以自行设定。
支持对所需内容智能抽取、关键词的自动提取。
实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
八、报价与服务支持
1. 报价
软件名称:启超垂直搜索引擎
单价: 3.8万元
指定目标网站购买配置文件:200元每个配置文件
2. 服务支持:
免费mail,QQ,MSN技术支持服务
免费技术论坛支持服务
免费5x8小时电话支持服务
v