新闻资讯
搜索引擎本质VS商业智能工作原理?
发布时间:2014-01-19 00:00:00 来源:畅享网

商业智能已经在实现着三个转变:从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效。而搜索引擎本质上是业务驱动和关注应用的(实时的用户需求响应),因此本人认为商业智能和搜索引擎二者有探讨的空间。这或许有助于理解技术的分分合合,或能为完善二者提供些参考。

1、搜索引擎本质是(商业)智能的一种体现。

企业或集团的历年数据累积甚为庞大,但信息过量,难以消化,且信息形式不一致,难以统一处理。“要学会抛弃信息”,人们开始考虑:“如何才能不被信息淹没,而是从中及时利用数据资产找到需要的信息、发现有用的知识、辅助自己分析和决策以提高信息利用率?”商业智能应运而生。

网上信息浩如烟海,网络资源飞速狂增。如何才能不被信息淹没,而是从中及时利用网上数据找到需要的信息?搜索引擎应用得风生水起。

可见,搜索引擎和(商业)智能都在解决同样问题,都是需要自主地或交互地执行各种拟人任务,都是与人的思维、决策、问题求解和学习等有关活动的自动化,是拟人思维(智能)的体现。

2、搜索引擎和商业智能的工作原理一致

我们先看看搜索引擎的工作原理。搜索引擎有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的搜索引擎都有自己的网页抓取程序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的搜索引擎界面,即第三提供检索服务 。用户输入关键词进行搜索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

再看看组成:搜索引擎的组成部分一般由搜索器、索引器、检索器和用户接口四个部分。搜索器的功能是在互联网中漫游,发现和搜集信息,主要是讲spider;索引器功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;第四用户接口,作用是接纳用户查询、显示查询结果、提供个性化查询项。

这四个组成部分,搜索器是收集数据,索引器是处理数据,检索器和用户接口是数据展示。检索器是数据展示的提取过程,用户接口是个性化展示用户的数据需求。

收集数据的方法一般有人工录入、机器抓取、人工录入机器抓取同步。人工维护数据的搜索引擎分类目录由人工整理维护,如Yahoo、新浪分类目录搜索,机器抓取自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。现在人工整理维护和机器抓取都在融合之中。

数据获取方面,需求满足第一,效率第二。机器抓取体现了高效率,高稳定,低成本,但原创性和信息的编辑性不够,人工录入如果做到高质量原创性、较低成本则更能体现信息对于用户需求的满足,效率则是排在第二位。比如走群众路线的通通网,以产权私有为基础,发动大量的学生录入经学生自己编辑过、且符合学生群体特征的原创性信息(通通网那里是“线路”),成本非常低,但更能满足学生群体的搜索需求。

我们知道,商业智能(BI)的主要工作原理在“数据抽取、数据加工存储、数据分析和数据展现”这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前数据库环节的厂家已将其它环节的厂家收购得差不多了。搜索引擎抓取网页过程和数据抽取ETL过程一样,实质是获取数据。处理网页实际是对获取数据的清洗和整理,这是数据加工存储,是数据仓库内容。提供检索服务实际上是数据分析和数据展现。

可见搜索引擎和商业智能的工作原理一致。基于商业智能的四个环节中各有强者的认识,在“抓取网页、处理网页、提供检索服务”三个环节上不同的搜索引擎也是各有千秋。如Lycos搜索引擎即是关注提供检索服务,它只租用其他搜索引擎的数据库,并按自定的格式排列搜索结果。