作为一名就业于SEO行业的员工,我们都知道SEO是基于搜索引擎去展示排名的。那在这里,各位有没有想过,搜索引擎是什么?有人回答说:我知道啊,百度、360、搜狗、搜狐、谷歌等等这些就是搜索引擎啊。
那我们再追加一个问题:那我们SEO的排名是通过什么原理展示在搜索引擎上的呢?当然,这个问题大部分seoer都懂的,但是今天云无限网站优化公司给刚入行的新人做一下搜索引擎的基础知识普及。
对于SEO,网上的说法众说纷纭,但是当我们还不了解搜索引擎的时候,我们对于SEO知识的吸纳也显得那么空泛,就像小孩学跑步,他还不会站立还不会走,那他跑起来家长会放心吗?我现在来说说搜索引擎是什么?
搜索引擎,它是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎的定义很短,但是它包含的信息量还是非常大的,从它的定义里面我们也可以看出它是先搜集互联网上的信息,再通过整理检索,展现给搜索客户。那具体的,它的工作原理又是怎么样的呢?
****步:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。
搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。
搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
1、提取文字:搜索引擎进入网站进行文字内容的提取,但是它所停留的时间也是有限的,所以抓取的内容也是有限的,一般搜索引擎Z先进入的页面是首页,所以我们在建站的时候会更加强调首页关键词的一个布局情况。
2、中文分词:搜索引擎会自动对提取的文字进行切词,比如“矿泉水厂家批发”,它会自动切成矿泉水、矿泉水厂家、矿泉水批发。
我们优化人员在做关键词布局和索引的时候,要尽量把我们要的词语让搜索引擎去进行抓取和自动切词
3、去停止词:比如的、地、得、等类似这样的词,于网站意义不大的词;
4、消除噪音:搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……
5、正向索引:即通过一个网址去对应一个关键词的访问;
6、倒排索引:通过一个关键词去对应一个网址的访问;
7、链接关系计算:通过网站权重、用户体验度等方面去对网站进行评分;
8、特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。
我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。
第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的(根据用户的搜索习惯、地域等不同也会造成部分排名结果的不同)。
但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。