搜索引擎本质VS商业智能工作原理？ - 睿思BI

欢迎进入睿思BI官方网站

产品咨询：黄经理 (185-1136-4730, 微信同号)

新闻资讯

主页 > 新闻资讯 > 搜索引擎本质VS商业智能工作原理？

搜索引擎本质VS商业智能工作原理？

发布时间：2014-01-19 14:00:00 来源：畅享网

商业智能已经在实现着三个转变：从数据驱动转向业务驱动、从关注技术转向关注应用、从关注工具转向关注工具产生的绩效。而搜索引擎本质上是业务驱动和关注应用的(实时的用户需求响应)，因此本人认为商业智能和搜索引擎二者有探讨的空间。这或许有助于理解技术的分分合合，或能为完善二者提供些参考。

1、搜索引擎本质是(商业)智能的一种体现。

企业或集团的历年数据累积甚为庞大，但信息过量，难以消化，且信息形式不一致，难以统一处理。“要学会抛弃信息”，人们开始考虑：“如何才能不被信息淹没，而是从中及时利用数据资产找到需要的信息、发现有用的知识、辅助自己分析和决策以提高信息利用率？”商业智能应运而生。

网上信息浩如烟海，网络资源飞速狂增。如何才能不被信息淹没，而是从中及时利用网上数据找到需要的信息？搜索引擎应用得风生水起。

可见，搜索引擎和(商业)智能都在解决同样问题，都是需要自主地或交互地执行各种拟人任务，都是与人的思维、决策、问题求解和学习等有关活动的自动化，是拟人思维(智能)的体现。

2、搜索引擎和商业智能的工作原理一致

我们先看看搜索引擎的工作原理。搜索引擎有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的搜索引擎都有自己的网页抓取程序(spider)。Spider以超链接为顺序，连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。准备工作完成后，即是浏览者所见到的搜索引擎界面，即第三提供检索服务。用户输入关键词进行搜索，搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

再看看组成：搜索引擎的组成部分一般由搜索器、索引器、检索器和用户接口四个部分。搜索器的功能是在互联网中漫游，发现和搜集信息，主要是讲spider;索引器功能是理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表;第三个是检索器，其功能是根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果排序，并能按用户的查询需求合理反馈信息;第四用户接口，作用是接纳用户查询、显示查询结果、提供个性化查询项。

这四个组成部分，搜索器是收集数据，索引器是处理数据，检索器和用户接口是数据展示。检索器是数据展示的提取过程，用户接口是个性化展示用户的数据需求。

收集数据的方法一般有人工录入、机器抓取、人工录入机器抓取同步。人工维护数据的搜索引擎分类目录由人工整理维护，如Yahoo、新浪分类目录搜索，机器抓取自建网页数据库，搜索结果直接从自身的数据库中调用，Google和百度就属于此类。现在人工整理维护和机器抓取都在融合之中。

数据获取方面，需求满足第一，效率第二。机器抓取体现了高效率，高稳定，低成本，但原创性和信息的编辑性不够，人工录入如果做到高质量原创性、较低成本则更能体现信息对于用户需求的满足，效率则是排在第二位。比如走群众路线的通通网，以产权私有为基础，发动大量的学生录入经学生自己编辑过、且符合学生群体特征的原创性信息(通通网那里是“线路”)，成本非常低，但更能满足学生群体的搜索需求。

我们知道，商业智能(BI)的主要工作原理在“数据抽取、数据加工存储、数据分析和数据展现”这四个环节体现，这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家，但是整合基本完成，当前数据库环节的厂家已将其它环节的厂家收购得差不多了。搜索引擎抓取网页过程和数据抽取ETL过程一样，实质是获取数据。处理网页实际是对获取数据的清洗和整理，这是数据加工存储，是数据仓库内容。提供检索服务实际上是数据分析和数据展现。

可见搜索引擎和商业智能的工作原理一致。基于商业智能的四个环节中各有强者的认识，在“抓取网页、处理网页、提供检索服务”三个环节上不同的搜索引擎也是各有千秋。如Lycos搜索引擎即是关注提供检索服务，它只租用其他搜索引擎的数据库，并按自定的格式排列搜索结果。

Copyright 2020 成都睿思商智科技有限公司版权所有蜀ICP备17009280号-2

关注我们

微信公众号

X