网站HTML结构SEO要求说明(含移动站)

文章转载于:网站HTML结构SEO要求说明(含移动站)

网页结构

一、网页中主体结构标签一一对应。

网页头部区域 <header>
网页底部区域 <footer>
网页边框区域 <aside>
网页导航区域 <nav>
网页章节、页眉、页脚 <section>
详情页文章区域 <article>
详情页作者信息 <address>
详情页中文章的发布日期 <time>
列表页中文章列表区域 <ul>

Read more “网站HTML结构SEO要求说明(含移动站)”

AngularJS框架的网站进行SEO的基本原理

使用AngularJS框架的网站,网页详细内容都是浏览器通过XHR方式动态获取再渲染出来的,用户可以看到渲染后的完整网页,搜索引擎却看不到——如果不做特殊处理的话,目前的搜索引擎只会抓取到一个AngularJS的基本HTML框架。那么,如何SEO呢?

基本原理其实很简单:对于正常用户的访问,服务器响应AngularJS应用框架;对于搜索引擎的访问,则响应专门针对SEO的HTML页面(而不是AngularJS应用)。也就是说,SEO还是像普通网站那样,在服务器端处理的。

以jsGen为例,jsGen服务器端使用的是node.js,node.js通过分析HTTP请求头的User Agent,来判断访问请求是正常用户还是搜索引擎。jsGen中相应判断代码位于根目录的app.js中,代码如下:

...
} else if (jsGen.robot.reg.test(req.useragent)) {
    jsGen.api.article.robot(req, res, dm);
} else {
...

jsGen默认配置的搜索引擎User Agent标识符有:

'Baiduspider|Googlebot|BingBot|Slurp!|MSNBot|YoudaoBot|JikeSpider|Sosospider' +
'|360Spider|Sogou web spider|Sogou inst spider'

这个可以在管理后台中配置。

比如访问 http://angularjs.cn/A001,node.js判断是正常用户,则直接响应index.html——AngularJS应用的入口文件,用户浏览器装载完AngularJS后会自动分析请求网址,然后根据路由表做相应处理——这里,就是切换到文章详情页并获取文章A001的详细内容,获取到后即渲染出来呈现给用户。

如果node.js判断是搜索引擎访问,则用jsGen.api.article.robot()函数处理。该函数使用ejs模板引擎,把文章A001的数据填充到SEO专用ejs模板中,再响应给搜索引擎。目前jsGen的SEO模板很简单:当搜索引擎访问首页时,响应最新文章列表、热门文章列表和热门标签;搜索引擎访问某文章时,则响应该文章的详细信息,包括评论、作者信息等。当然,网页meta中的title、keywords和description是少不了的。至于其它SEO技巧,就看各位如何发挥了。

想看SEO页面效果的朋友,可以查看http://angularjs.cn/的百度快照。


原文/AngularJS框架的网站进行SEO的基本原理

姜东栋:HTML5中SEO可以用那些代码来做优化

虽然HTML5还没有最终确认,但是我们做SEO的还是应该提前了解一下。

头部代码

1、标题标签(title标签)

在HTML5中标题标签依然存在,其仍然具有不可替代的作用;不过我们看到还有更多的可供搜索引擎识别的代码,我们将改代码的等级微降。

2、元标签(meta标签)

字符集编码声明标签

该标签原本就是搜索引擎必看且首先要看的标签,其他属性都省略唯独留下charset属性能看到google公司用心良苦。

网页描述标签

该标签虽然没有什么提示,但是该区域的内容将会在SERP显示,其重要性不应该被忽略。

HTML5布局

   正文代码

1、头部标签(header标签)

这块区域之前以logo居多,而从目前的情况来看,很多资料都建议在这类使用标题1或2标签,即H1或H2标签。我们认为未来每个网页只会出现一个H1标签,而他的位置就是位于header标签内。该区域我们不建议使用strong标签,不要使用b标签。

2、导航标签(nav标签)

nav标签内基本上都是a标签,而HTML5中不应该靠添加title标签来进行优化,我们建议是用strong标签。

3、文章标签(article标签)

article标签区域,我们可以使用h2标签,而不建议使用h1标签。基本上有多少个article标签就可以使用多少个h2标签。PS:可把SEO乐死了,估计黑帽又找到作弊的地方了。

而article标签区域的section标签将会替代h2标签链接过去的URL的title属性,这块区域的文字有可能将成为目标URL的description内容,即有可能会影响目标URL在SERP中的描述。

4、左或右侧标签(aside标签)

aside标签的文字信息与article标签区域的文字信息需要匹配,如果关联程度不大,可能会影响到该页面以及目标页面的排名。这是在HTML4中很多SEO忽视的一块区域,而这块区域的关键词对本页面可能影响不是很大。因为aside标签的内容基本上都属于公共内容,即会有N多的页面都有该内容。

 

5、底部标签(footer标签)

footer标签区域的内容对首页的排名将会增加,而对于内页来说搜索引擎将有可能会视而不见。不建议每个web的footer信息都是独立的,这或许意味着新的黑帽手段将会出现。

6、其他标签等

video标签中间区域的文字信息将会让搜索引擎读懂视频,这是一次飞跃。不过也为黑帽SEO节约了一笔不菲的时间。

audio标签作为类似img一样的单标签来处理感觉的确有点过分,这样对于音乐可能会有很多障碍,不过音乐里面基本上没有几个关键词,也就不再网页搜索引擎优化的研究范围了。注意下该标签上下文的关键词即可。

time标签可能会作为一个来判断网页文字源,也就是能够通过time标签来识别那篇文章是原创的。而time标签可能将是成为HTML5时代SEO们整理不休的一个标签。

noscript标签将会被大量使用,因为HTML5时代将会是一个富媒体时代。传统的文字、图片、链接、视频、音频可能已经满足不了用户的需求,大量的脚本能够编辑出丰富的信息,包括游戏、个性化设计等等。

总之,一个新的时代即将到来,SEO们将会有大量的工作要去处理。

PS:原创的文章,请不要删除掉版权信息,加个链接不会怀孕也不会破产。——姜东栋语^_^


HTML5 对 SEO 有哪些影响?

HTML5与搜索引擎优化

HTML5中SEO可以用那些代码来做优化

感谢南哥的邀请,不过说实在的,我对HTML5还真不是很了解。于是特地的去补习了下。
上面几位已经说的很好了,我把我看过的一些文章整理下。举百家之长补充下。我把HTML5代码都看了下,新增了不少新元素,整理了下,这些标签应该对SEO还是比较有影响的,适当运用,也许对SEO优化是有很大好处的!

结构上的

  1. <header>定义了站点的头部信息,也就是页眉,一般放置网站的站点名称以及LOGO和导航栏。搜索引擎更容易识别站点的类型。
  2. <nav>定义导航链接,也就是栏目或者频道的链接。搜索引擎可以更好了解网站的信息架构,分类等。良好的信息架构,更有利于蜘蛛的爬行和权重的分布。
  3. <footer>定义了底部信息,也就是页脚。放置页脚导航,一些比如公司介绍,联系我们之类的信息。一般来说对网站比较不重要,有可能搜索引擎会降低其位置的权重。
  4. <section>该元素用来表示网页中不同的分区。优势体现在每个部分都可以有其独立的HTML标题。这可以让搜索引擎更好的了解网页的结构是如何划分的。搜索引擎可能会根据网页中的<section>标签找出其信息架构。(同左撇子)
  5. <article> 定义文章区域,可以更有利于搜索引擎识别网页的内容以及判断相关性。,
  6. <aside>定义页面内容之外的内容,在左侧或右侧边栏。比如知乎右侧的“相关问题”就属于<aside>区域。aside标签的文字信息与article标签区域的文字信息最好是相关。可能会影响到该页面和目标页面的排名。

这些结构元素有些在HTML4时代,一般是用div来定义。如<div id=”header”>、<div id=”nav”>和<div id=”footer”>,但是难免有些网站会采用其它的命名方式。而HTML就把这些都标准化了,规范化了,简洁明了。更有利于搜索引擎衡量网页上的内容和相关性,甚至分配权重的流向。


块元素

  1. <figure>定义媒介内容的分组,以及它们的标题,<figcaption>定义 figure 元素的标题。这两个元素可以说非常好的使媒介和文字说明联系在了一起。有利于搜索引擎理解内容。文字说明是可见的。
  2. <time>定义日期/时间,time标签可能会作为一个来判断网页文字源,也就是能够通过time标签来识别哪篇文章是原创的。
  3. <audio>定义音频
  4. <video>定义视频

这两个元素区域中间的文字信息将会让搜索引擎读懂视频和音频。据说很多国外社交网站都开始试用HTML5,就是因为搜索引擎可以更好识别社交网站更多出现的音视频。

另外目前搜索引擎可能还不能很好支持的HTML5,毕竟现在还没有更好的推广和运用。但我相信这是未来的趋势。


HTML5与搜索引擎优化
姜东栋:HTML5中SEO可以用那些代码来做优化
 

【大拿分析】SEO的系统化策略

百度站长学院作为站长们汲取运营知识平台,已经零零散散发布了上千篇关于网站运营优化的内容,知识点覆盖较广。但是很多同学也反馈说知识点很详细,但是不够成体系,希望能够看到更加系统性的知识梳理,今天我们请到了1号店 SEO负责人  刘苏分享系统的SEO方面的策略,全文如下:

进入1号店以后,领导说,SEO这个事情没人做,你做吧,然后就莫名其妙进入这个行业了。悟性不高,也不擅交际,有赖于公司能容忍我试错,也承蒙各位同行抬爱,如今也算初窥门径。特别谢谢Zero,虽小我十岁,却因为你的培训,了解了SEO是怎么回事,认识了很多人现在写写自己这几年的一点心得,也算回馈SEO这个社群。

概要

SEO说到底是一种营销方式,基本的游戏规则包括三点,1.在搜索用户中发现自己的目标用户,2.将搜索用户拉到自己网站来,3.将搜索用户变成自己的用户。这个套路依稀让我想到了怎么把大象装进冰箱 🙂

【在搜索用户中发现自己的目标用户】

目标用户的界定,实际上是一种匹配。搜索用户信息检索需求表现为搜索用的词,而作为网站可以提供什么信息服务,则由自身的业务和内容生产能力来决定。这个匹配过程,其实就是了解自身,用自身的特性,去框搜索用户的过程。最终的产出将是一个符合自己业务的搜索关键词库。

那么,这个关键词库如何来? 基本的关键词获取方式大家都知道,无非是自身,搜索引擎,竞品。包括但不限于以下方式:

1.自身商品或者服务相关的名词,品牌词,属性词等等;
2.站内搜索词;
3.自己的网站在搜索引擎获得曝光和流量的词;
4.百度相关搜索词;
5.百度凤巢扩词接口扩出来的词;
6.百度指数中的相关词;
7.竞品站点上结构化的数据;
8.上述关键词切词后获得的词;

关键词的导入与数理是一个繁杂的工作,也会伴随着对于自身业务的理解,对于搜索用户的了解,而不断完善。最终的产出,将是一个持续流入的关键词库,关键词有明确的词性界定,关键词之间有多维的关系。另外,最好还需要有关键词搜索量与竞争难度等信息。关键词的整理也是一件有趣的事情,一切有效的商业行为都是为了满足人的需求,而研究关键词,就是在研究需求。了解需求,满足需求,是一个小的闭环。

关于关键词特征,举个简单的例子(来自于百度)

实质上,百度大搜召回的模板,就对应着搜索的行为模式。

不同行业的模板,需要自己在大量领域内关键词的基础上去提取特征。

关键词库的整理有些可以通过系统化的方式来实现,比如站内搜索词的导入,百度相关搜索词的抓取,利用凤巢接口获得凤巢扩词,以及切词,词性定义等等。由于与业务紧密耦合,还是有很多非结构化的事情,需要结合人工处理。慢工出细活,在关键词上花再多时间也是值得的,就像商店想卖东西,需要琢磨客户需求,再去迎合客户类似。

实际上,对于用户需求的挖掘,可以从很多地方找到应用。比如广告投放中,DMP公司从事的就是用户特征提取分析的工作,数据用来供广告投放做到精准营销;再如站内的精准化推荐,根据系统track到的用户行为,给用户做相关推荐,等等。

更好的了解目标用户的需求是成功的第一步,对于SEO而言,就是建一个好的词库。有了词库,才能明确需要推动什么信息的生产,来满足搜索用户的检索需求,有了词的关系,才能更好的构建页面内的信息维度,才能更好的布局内链,集聚相关语义的权重。

在搜索结果页中触达用户

很多SEO的初学者会问,学好SEO需要看什么书? 我经常回答,搜索结果页(SERPSearchEngine Result Page)就是学习SEO最好的资源。由于搜索引擎的算法持续更新,所以搜索结果页才能告诉你当前什么样的做法更能获得好的排名,哪类词商业化很严重,靠纯SEO很难获得流量,等等。毕竟事实胜于一切。

SEO的基本套路无非是对搜索引擎的程序更加友好,满足搜索用户的信息检索需求,给搜索用户更好的体验。

当然也不乏一些黑帽或者擦边的做法,比如利用搜素引擎的一些规则漏洞快速提升排名,最典型的是贻害无穷的点击器;或者利用与搜索引擎的关系做些阿拉丁投放,阿拉丁的特征很明显,搜索结果条目的样式有result-op字样,电商行业曾经与百度合作过的百度微购也属于阿拉丁的范畴;再或者与百度进行换量之类,不过这需要关系和渠道。

抛开上述这些资源和渠道的影响外,回归到SEO的基本套路上来,目标就是要尽可能多的占到搜索结果页的前几位,这样才能实现触达用户的目标。那么问题就变成了如何更多的接近我们的用户呢?

简单介绍一下搜索引擎的工作原理,

搜索引擎的工作分为离线部分和在线部分,离线部分负责抓取网页,构建倒排索引,在线部分负责提供前台搜索接口,根据用户query的词取倒排索引,计算排名,进行一些本地化/个性化的处理,最后返回10条结果的搜索结果页。整个信息流自左向右流动。

根据上面说到的原理,触达用户的目标就变成了:

1.站内存在跟用户query词相关的页面,这一步是内容与页面的覆盖
2.这个页面被搜索引擎抓取,索引,并且在参与排名的索引库中
3.这个页面获得好的排名
4.这个页面的title,description,缩略图这个小的广告创意能吸引用户点击
5.这个页面能满足用户需求,而不是很快跳出,去访问别的搜索结果条目
6.这个页面能帮助网站达到品牌曝光,或者转化的目标

对应到漏斗模型,如下图所示:

上面的漏斗模型也表征了SEO业务层面上的数据链路,而从系统上支持上述链路的数据监控,可以清楚的知道目标,产出,和中间过程的每一步细节,从而可以更好的利用数据驱动SEO工作。对于漏斗模型优化的一般做法是,找漏斗中的瓶颈,并针对性的优化,并根据后续节点的效果反馈,进行策略或者实施的调优,形成闭环。

下面简单说说漏斗中各步的数据处理。

内容与页面

内容是是原材料,有了原材料,才能保证厨子是用武之地。一般情况下,内容生产以业务目标为导向,对于重度依赖SEO流量的领域,SEO对于内容生产会有较大的发言权。总的来说,内容生产要能覆盖目标用户的搜索需求,比如用户搜索了孕妇吃芹菜好不好这样的长尾,如果站内都没有相关的内容,那就没办法做相应的页面,拿到SEO流量也就无从谈起了。如何根据搜索用户需求更好的组织内容生成,一般需要公司上层的支持。如果自己没有编辑团队,也可以考虑建立一支兼职团队。3C/女性时尚/医药电商一般都有很强大的编辑团队,比较典型的是太平洋(在香港上市了); 据我所知,途牛维护着一支很好的兼职团队。

除了编辑之外,站内搜索聚合,采集外站再处理加工,也是经常使用的内容生成方式。

很多以业务目标为导向的公司,并未能从公司战略层面上给予内容生产足够的重视,没有意识到信息资产的价值,从而造成SEO人员巧妇难为无米之炊。站内大量优质的领域内的内容,以及内容生产的能力,是超越SEO的,即便SEO不再存在,或者换成别的形式,内容也可以对自身用户带来很大的价值。

从关键词,到内容和页面,完成了需求分析和生产。内容在页面上如何布局,如果处理好内容的结构化,从而更符合搜索引擎的口味,还有很多细致的工作要做,这里不展开。

抓取与收录

搜索结果页是站点之间竞争用户的战场,要想在竞争中获胜,首先你得站到战场上去。根据之前说到的搜索引擎的原理,我们知道,要在搜索结果页中出现,首先生产的页面要被搜索引擎的蜘蛛抓取。蜘蛛发现网页,正常情况下是通过站内的链接,和站外的链接,按照广度优先的原则,提取页面中导出的URL。一般来说,站长还可以通过提交SitemapPing通知蜘蛛,手动提交等方式,帮助蜘蛛发现有效的URL

前面说到,通过链接抓取网页,按照广度优先的原则。一般的小站,搜索引擎从起点页抓取三四层的深度也就不错了,一般这个起点页都是网站首页。所以SEO要将网站整体设计成扁平的结构,有些时候需要为蜘蛛搭一些梯子,帮助它在较短路径上接触到更多的URL。举个例子,

一般情况下,一个页面内导出链接不能过多,超过某个值蜘蛛就不抓了。之前的经验是100,但是这个数值还是跟网站和具体页面有关。在网站层级和单页导出链接总量两个约束条件下,还有一点文章可做,那就是时间。单个页面导出链接最多是100,如果我每天换掉其中的50个呢? 一个最简单的实现方式是借助于缓存机制,固定的取50个,另外再在全集中随机取50个,这50个设置缓存时间1天,1天后失效,再随机取50个,这样可以最大化导出链接的时效性,就像广告的分时段轮播一样。这里的数字可以根据实效进行调整。站内如此,对于批量交换的外链,也可以按照类似的方式实现。

对于移动页面,有两种主要的机制通知到蜘蛛PC页与移动页的对应关系,一是在PC页头部加上mobile-agentmeta属性,二是在站长工具提交PC/移动页对应关系的正则(也可以提交全量的URL地址对)

抓取这个环节至关重要,站长平台的抓取频次,和通过accesslog分析得到的抓取明细,都需要时刻监控。小站的log文件,市面上有些一些日志分析工具,自己写也OK。对于大站的log,很多都存储于hadoop这样的分布式存储上,一般需要定制程序去分析处理。为了即时分析处理,快速反馈,可能需要接入流式计算框架(kafka+storm)

对于蜘蛛抓取行为数据的使用,可以用来评估蜘蛛对于站内页面价值的评定,可以用来反馈辅助抓取所做的一些优化的效果,可以预估新生成页面被搜索引擎接受的程度,等等。没有使用价值的数据是没用的,数据跟具体的应用场景结合起来,才能体现其价值。

对于抓取的页面,蜘蛛建立倒排索引后,会进行价值判定,按照价值高低,存储在分级索引库中。高级别的索引库才会参与最终的搜索排序。

一般SEO开始学的时候,都会接触到site语法,基本上所有常见的搜索引擎也都支持site语法去查询域名或者目录级的收录量查询。在site查询语句的后面加上一个词,可以查询得到该域名与这个词相关的页面。比较有价值的是,site语法查出来的结果,按照网页的价值倒序排列。这个特征便使得依据相关性内链,提升第二页/第三页落地页的排名成为可能。

排名与流量

对于有搜索量的词,获得好的排名,几乎确定了能获得流量。这里说几乎,因为还有一个点展比(点击量除以曝光量)的概念。按照谷歌的规律,PC搜索结果中,前四位获得点击的几率是42%12%9%6%

先说排名。说到搜索排序,有很多场景下可以用到,比如在搜索结果页中的推广链接区域有个排序;在淘宝里面搜索,商品返回的结果列表有个默认的排序;App Store中搜索也会按照一定的规则返回结果列表;同样的,在广告投放中候选广告创意去竞争一个展示机会时也有一个排序。这些排序与自然搜索的排序有一个共同点,即为了用户体验,将最好的,最符合用户需求的排在前面,从而提升用户体验。

影响自然搜索排序的因子应该很多,众所周知的,如网站自身的权威性与价值,网页的导入链接权重,网页结构/速度,网页内容的原创性,以及最重要的,用户搜索词的出现频次,页面TitleH标签中出现搜索词的频次,等等。这是事前的因素。

有一点特别要提及的,搜索引擎为了构建良好的搜索竞争生态,对新站有个补偿机制。这也是实际有效的排序因子。

还有一点事后的因素,获得排名,用户点击,之后是否还点击了别的搜索结果。如果你的页面排在某个词的搜索结果第一位,搜索用户点击了你以后,还总会点击第二位的结果,那显然第二位的结果更符合用户需求,排序如何变化可想而知。这点可以从百度公开的专利中找到依据,点击器也是利用这个原理来实现的。

获得排名的搜索结果,展现给用户的信息包括,页面TitleDescription或者页面内提取的信息摘要,缩略图,首页的子链接。后面两者可能有,也可能没有。还有一个相对次要的因素,搜索结果的域名/链接摘要。如何在获得曝光的情况下,吸引用户点击? 除了让自己的排名尽量靠前外,可以做的事情还包括,优化Title/Description的文案,在页面主体区域提供合适尺寸的图片增加被作为缩略图的几率等。搜索结果条目示例如下:

百度自己的产品虽然有被提权的嫌疑,但是从SEO的角度看,仍然有很多值得学习的地方。对于一些如果不确定,可以研究百度自己的产品,看具体的实现方式。

经过了关键词,内容,页面,抓取,索引/收录,排名,流量,这个漫长的链条,我们再回头来看封面上的漏斗模型,可以从中反思,我们的短板在哪里,机会又在哪里。如果将这些数据汇集在一起,随时利用这个数据链去监控网站的SEO状况,利用数据对一些优化操作进行效果监控,甚至通过定义一些自动化的策略,使得系统自己可以实施一些优化操作,并利用数据反馈,再调整,再优化,实现智能优化,真正发挥数据的威力。

流量到转化

SEO流量获取的问题解决以后,就要考虑怎么去承接这些流量了。与广告类似,流量的目的一般是两个,品牌曝光,直接效果。品牌曝光一般难于做效果监控,所以本篇主要聊直接效果。

实际上,承接的效果如何,对于获取流量的能力又有很大的影响。外部来说,内容不满足搜索用户的需求,跳出率高,搜索引擎里面的排名会掉。内部来说,老板看的是最终目标,曝光量大,转化多,成单多,可以让老板更重视SEO,给更多资源,有了资源,就可以更好的做SEO,从而形成一个良性循环。

以直接效果为目标的流量,转化可能受到四个因素的影响,

1.流量的质量,或者说流量背后的用户跟自身需要服务的用户的重叠程度,把不相干的流量引来,可能是做无用功,用术语说,就是要做到精准营销;
2.用户触达站点时对于有几分信任,有信任作为背书,往往转化也会高些,比如知名品牌的官网往往转化会高,搜索一般的商品品牌/店铺名的流量,本身对目标有认知,转化也会高一些;
3.自身提供的产品或者服务本身的特性,有些情况下用户决策很快,比如单价较低的,标准化的东西的购买,这种比较容易形成转化;
4.给用户第一眼看到的内容,就电商这个行业来说,页面上展现相关的促销信息,或者提供给用户更多的选择机会,则会有更高的概率转化,比如列表页优于单页。

不同的行业/不同的承载方式(网站/APP/微信/淘宝店/自媒体等),有不同的流量获取渠道和方式,不同渠道的流量占比也会各有不同。比如京东的网站,应该包括但不限于如下一些渠道,直接访问,搜索引擎(PPC/品专/SEO),导航站,返利站,导购站,输入法弹框,网盟(自有/第三方),广告,微信入口等,具体到SEO,两年前听到一个未经证实的数据,京东SEO流量占总流量的比例大概11%。作为对比,某知名在线旅游网站,SEO流量占比达到了30%。对于垃圾站群推的文学/影视类网站,SEO流量的占比应该不低于90%吧。不同渠道的流量,转化率也会有所差异。对于电商来说,直接访问的流量,返利/导购网站来的流量,一般都有相对明确的目的,也有一定的认知,所以决策曲线短,成单的概率大。下面画了一幅很假的饼图充数🙂

                 

整站的整合营销,考虑的是整体的ROI,有些时候为了配合大规模的促销活动,也会放低ROI的标准,因为高转化的优质流量毕竟是有限的。当然,调节的细部手段还有提高网盟CPS结算的返点,与搜索引擎等流量入口达成临时合作等等。可能有些未尝试过的流量,可以少量测试,总的策略是确保总量的前提下,提高总体ROI,可以用CPA或者CPS的方式做内部衡量。

流量跟踪

最后简单说说Track。我们一般统计流量,会用GA,百度统计,CNZZ51.la之类的统计工具,或者模仿这些工具,自己做个流量track系统。对于外投的流量渠道,往往根据链接参数中的track码来区分来路,相对常见的是GA中定义的一套,

当然,如果你不喜欢,你可以自己搞一套,比如tracker_u这样奇怪的东东。

对于用户进入站内以后的行为,会根据用户session存活周期,或者cookie埋的guid之类来监控。页面上埋js代码,用户页面跳转或者点击页面内元素的动作,都会被js发送到后台数据库,作为后续分析的依据。对于效果类流量的效果反馈,最直接的就是比如下载,订阅,或者加购物车,成单之类。

数据驱动的决策是科学的,拍脑袋依靠经验做的决策是耍流氓。所以说,流量之后,用户进入站点以后的行为的数据采集,不仅仅对于流量效果是个反馈,同时在站内进行精准推荐,或者在不违反用户隐私的前提下,将数据加工后,以类似于DMP的方式放到ADX中进行售卖,也是变现的一种方式。

全文完,谢谢观赏。

1号店刘苏,微信号/QQ: 6109851,欢迎勾搭。

关于ajax影响网站SEO的四个解决方法(不一定适用你们当前情况)

1):History API 方案

History API,指的是不刷新页面的情况下,改变浏览器地址栏显示的URL(准确说,是改变网页的当前状态)。

2):Prerender.io方案

Prerender.io是一个开源服务,通过引导爬虫到prerender建立的代理页面服务器,相当于给爬虫单独建立了一个单独的通道,将网页快照喂给爬虫。这种方式麻烦在于需要建立一个prerender服务器,需要给页面建立快照。

3):PhantomJS方案

判断如果是蜘蛛爬虫来的请求,则通过phantomjs动态渲染出页面,并在本地缓存副本

4):判断 UserAgent方案

对于正常用户的访问,服务器响应AngularJS应用框架;对于搜索引擎的访问,则响应专门针对SEO的HTML页面(而不是AngularJS应用)。


今天跟一个朋友聊网站抓取问题的时候,他整理的这几个方案,我看了一下,不一定适用于他们网站的情况的呢,建议大家使用这些方法的时候,请仔细研究自己网站的问题哦。

绝对路径和相对路径与SEO的影响

转载于/zac博客

原文:绝对路径和相对路径与SEO

(6月18号注: 昨天很多读者大概没看到这篇帖子,而且整天忙着处理不可抗力造成的问题很累,今天就不更新了。)

TU1


经常看到有人在论坛里问URL的绝对路径和相对路径问题,在网站中应该使用哪种?对SEO有什么影响?这实际上没有绝对的答案,两者各有优缺点。Google员工JohnMu前几天在Google Groups中做了一个挺全面的总结。下面半翻译半解释评论。

绝对路径URL优点是:

+)如果有人抄袭采集你的内容,里面的链接还会指向你的网站。有些抄袭的比较懒,连里面的链接一起抄了过去。

+)如果站长不能做301转向,因而有网址规范化的问题,使用绝对路径有助于链接指向选定的URL版本。假设站长不能从URL

http://domain.com

做301到

http://www.domain.com

站长希望被收录的版本是第二个,带www的。所有网页中的链接直接使用绝对路径如:

http://www.domain.com/article.html
http://www.domain.com

链接URL硬编码入HTML文件。这样就算有蜘蛛或用户进入了 http://domain.com 版本,如:

http://domain.com/article.html

这个页面上的链接使用绝对路径的话就会链接向:

http://www.domain.com/article.html
http://www.domain.com

用户点击这些已经硬编码的链接后,还是会回到带有www的版本。这也有助于搜索引擎蜘蛛识别到底哪个版本是你想要的。

+)就算你把网页移动位置,里面的链接还是指向正确的URL。

-)缺点是,除非链接是动态插入的,不然没办法在测试服务器上进行测试。因为里面的链接将直接指向真正的域名URL,而不是测试服务器中的URL。

-)除非链接是动态插入的,不然移动内容页面将很困难。因为内容页面位置发生变化,在其他页面上的链接却可能无法跟着变化,还指向原来的已经硬编码的绝对路径。

相对路径优缺点正好相反。优点是:

+)移动内容比较容易。

+)在测试服务器上进行测试也比较容易。

-)缺点,内容页面换了位置时,链接容易失效。

-)更容易被抄袭和采集。

不过很多采集软件其实是可以自动鉴别绝对路径和相对路径。所以使用绝对路径有助于把自己的链接也被抄到采集网站上,只在某些情况下是有效的。

所以通常我是建议,除非不能做301转向,因而产生了严重的网址规范化问题时,还是使用相对路径比较简单。在正常情况下,相对路径不会对网站SEO有什么副作用,绝对路径也不会有多少特殊好处。而出错的可能性,比如搜索引擎错误判断URL,是非常非常低的。

搜索引擎优化(Search engine optimization,简称SEO)

搜索引擎优化(Search engine optimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现形象。而SEM(Search engine marketing,搜索引擎营销), 则既包括了SEO,也包括了付费的商业推广优化。

SEO自从1997年左右出现以来,逐渐分化成两类SEO行为:一类被称为”白帽SEO”,这类SEO起到了改良和规范网站设计的作用,使之对搜索引擎和用户更加友好,并从中获取更多合理的流量。搜索引擎鼓励和支持”白帽SEO”。另一类被称为”黑帽SEO”,这类SEO行为利用和放大搜索引擎的策略缺陷(实际上完美的系统是不存在的)获取更多用户访问量,而这些更多的访问量,是以伤害用户体验为代价的,所以,面对后一种SEO行为,搜索引擎会通 过一些策略进行遏制。

搜索引擎与SEO行为间是一种良性的共生关系,比如很多优质的网站是用Flash或者Ajax做的,搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后,可以通过对网站的合理优化,使这些优质资源更好的发挥其检索效果,改善用户的搜索体验。同时,对于中国这样的新兴市场,传统的中小企业对于如何触网,如何做互联网营销,并无多少经验,在广大的互联网创业者中,对于如何SEO也充斥着矛盾的舆论和猜想。

让更多人了解搜索引擎的工作机制,引导广泛合理的SEO行为,让认真做原创优质内容的创业者得到更多流量,令抄袭抓取别人内容的建站行为得到警惕,是百度作为中文搜索领域的领导者应有的责任和义务,只有这样才能有效支持互联网创新力量,使互联网生态圈得到更加健康有序的发展。

【SEO】专门帮人刷百度排名 两男子被判刑

在网络时代,遇到什么问题“百度”一下,已经成为人们的生活习惯,有人从中嗅到了“商机”。1991年出生的李洋,2010年与几个朋友成立了一家公司,专门代理销售软件,没过多久,其他几个合伙人都离开了公司。之后,李洋招了6个业务员和1个客服,并聘请黄少伟作为总经理,负责管理业务员。

李洋公司销售的软件,功能是提升企业在百度搜索中的排名,作为代理,李洋能拿到30%的销售款。时间长了,李洋觉得成本太高赚得太少,萌生了自己开发类似软件的想法,连名字都想好了叫“第一名”。

通过网络,李洋请软件编程员王杰开发了这款软件,并支付了20000元的开发费,每个月5000元的软件维护费。这款名为“第一名”的软件,是将客户的关键词放到百度搜索引擎里,然后提升到百度首页,提高客户的浏览量。实际上,这款软件就相当于一个作弊器,模拟点击,使客户的点击量增大,从而提高客户的百度搜索排名。软件分为免费版、个人版、专业版和企业版,价格从1000到6000元不等,并可以充值延长服务期限。

之后,李洋将前期做代理时的客户都转移到“第一名”软件中,声称原来的软件免费升级,需要客户当时的注册用户名和密码,等客户切实体会到好处再进行销售。

业务员是没有底薪的,按照业绩提成。李洋提成40%,黄少伟提成30%,业务员提成30%。业务员一般是进行电话销售和网络销售。在百度上随意输入一个关键词,只看前三页的搜索结果,找到潜在客户的联系方式,然后通过电话或者QQ与对方联系推销软件,如果对方有需求,就会免费将客户的百度搜索的排名提升,能排在首页甚至第一位,让客户看到实实在在的效果后再签订合同购买软件。

通过影响百度搜索结果的方式,李洋为自己创收,影响了其他用户的百度搜索体验,给百度公司也造成了直接的经济损失,损害了百度的品牌形象,对整个搜索引擎市场、互联网生态产生了恶劣影响。

近日,秦淮区检察院以涉嫌破坏计算机信息系统罪对李洋、黄少伟提起公诉,李洋被判处有期徒刑3年,缓刑3年6个月,黄少伟被判处有期徒刑2年6个月,缓刑3年,两人的违法所得予以没收。(文中人物为化名)

HTTrack 在SEO上的应用

【国平的博客里面的一篇文章】主要是模拟搜索引擎爬虫的,我转载过来了哈。

这纯粹是一条个人喜好,我经常拿HTTrack模拟搜索引擎爬虫用。

HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是我发现它的爬虫特性和搜索引擎爬虫非常的像,逐渐应用到了自己的SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(搜索引擎的网页快照就是被存储下来的内容)。以下是这个软件的界面:

HTTrack界面

HTTrack界面

 

软件的官方网站是:http://www.httrack.com/ 软件安装后可以换成中文界面。

一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。

软件的使用方法非常简单,在“Web地址”里填上URL就可以了。然后点“选项”,

先看“扫描规则”
扫描规则

扫描规则

这样的扫描规则搜索引擎也一定会有的,比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接, 如 ad.doubleclick.net 。你需要把一些搜索引擎爬虫不收录的特征加进去。

然后在“搜寻”里面,很多的特征都是现在搜索引擎爬虫的特征:

搜寻

搜寻

搜索引擎不会接受cookie,所以取消“接收cookie”。

至于“解析java文件”,google 爬虫也会去解析java文件的。这是一个像HTTrack这样的通用爬虫都可以做到的事情。可能很多人还不知道,google会去试图解析javascript代码。如果你的页面上放很多javascript代码,就会使爬虫的停留时间增加,进而影响爬虫效率。这也可以算是为什么要把javascript代码外调的另一个原因。

还有,有些javascript代码里面的URL,google爬虫是可以收录的,原因不明。这样做可能是因为有些内容很好的网站,很多链接就是喜欢用javascript来做的缘故吧。但是不代表你的链接可以用javascript来做。

HTTrack也同样能识别并遵守robots.txt文件。

至于url hacks ,就是让那种带 www和不带www的网址,如www.***.com和 ***.com。以及有斜杠和无斜杠的网址,如http://www.***.com 和 www.***.com  能统一。

这种网站上URL不统一的状况爬虫程序其实能很简单的处理好。至于google为什么要网站所有者在webmaster tool 后台指定一下“首选域”,是因为有些网站 www.***.com 和***.com 指向不同的内容。所以google不能那么武断的就认为www.***.com 和***.com是同一个网站。

至于“流量控制”和“限制”,

流量控制

流量控制

限制

限制

里面可以设置“连接数”和“深度”什么的。我相信google也有这些设置,不然,google的《网站质量指南》里不会这么写“如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。”
至于深度,有报告说,google抓取的最大深度是12。超时时间可以设为10秒。

还有其他“浏览器标识”和“预存区”也和搜索引擎爬虫一样的。

其他设置

其他设置

下面用它来抓取一个网站,看看会有什么样的情况。

首先爬虫会去网站根目录下访问 robots.txt文件,如果碰到该网站的二级域名,还会去二级域名下访问robots.txt文件。这个和搜索引擎是一样的。

在抓取的时候,是多线程的,你可以实时的看到哪些URL正在被抓取以及速度怎么样。

很多人用它抓取完一个网站后会惊讶的发现有很多没什么SEO价值的页面在被抓取。而这些“垃圾链接”竟然还是最先被抓取到的。可惜这个爬虫不支持nofollow属性,不然更加能模拟google爬虫。你还会用它发现很多死链接和超时的页面。

要是经常使用,你还会发现这个软件的一个规律,就是在抓取那些动态URL的时候,经常会产生重复抓取的现象,抓取URL类似www.***.com/index.asp?=12345  这样页面会陷入到死循环当中。这个和早期的google爬虫又是一样的。由此判断,这应该是爬虫天生的一个弱点,可能它没办法实时的比较多个页面的内容,如果加上网页程序在处理URL ID的上遇到什么问题,就会重复抓取。也由此得出为什么要有URL静态化了。 URL的静态化与其叫静态化不如叫唯一化,其实只要给网页内容一个唯一的、结构不容易陷入死循环的URL即可,这就是静态化的本质。

google最新的声明不要静态化,是不希望爬虫从一种重复抓取陷入到另一种重复抓取才这样说的。其实google举例的那几种不好的静态化一般是不会发生的。只要你明白那些URL中的参数代表什么,还有不要把很多个参数直接rewrite到静态化的URL里即可。

用这个软件,能让你直观的感受一个爬虫是怎么工作的。对于让一个新手正确认识爬虫有帮助。

这个软件的功能也差不多就这么多,要逼真的模拟搜索引擎爬虫,就要用《google网站质量指南》里提到的Lynx。但是Lynx是一个页面一个页面检查的。以后会写一篇应用Lynx的文章。

更好的模拟google爬虫就要用GSA了。不应该说是模拟,而应该说它就是google爬虫。

用HTTrack、Lynx和GSA,再配合服务器LOG日志里面的爬虫分析,会让你对爬虫的了解到达一个更高的水平。分析爬虫会让你得益很多的。很多都以后再讲。

【原文地址;http://www.semyj.com/archives/123】

【百度站长】SEO工具新入口:SITE特型上线

来百度搜索引擎site自己的站点是站长经常要做的事情之一,最近站长site站点后眼前一亮:site结果展现升级啦!新的site特型中有四大部分内容与百度站长平台相关,为站长使用百度站长平台工具提供了更便捷的入口:

  • 站长最关心的收录问题

         收录是流量的基础。之前site查询出的结果是个大概数字,目前特型为站长展现了准确数字。同时优先展示了4个影响收录的主要因素,让站长更便捷地发现问题,及时解决。

      

         如上图所示,网站有2个重要页面死链了,站长可以点击“到站长平台分析收录量”,使用抓取异常工具查看是哪些重要页面出了问题,选择提交死链还是设置301重定向。

  • 站长最关心的安全问题

         安全问题近年在互联网界显得尤为突出,且有恶化的趋势,及时发现网站的安全隐患成为保证网站正常运营的重要工作之一。特型将百度站长平台提供的安全检测结果直接展示给站长,帮助站长及时定位问题。

        【重要提示】上述提到的收录问题和安全问题,都可以通过点击相关链接进入百度站长平台,通过平台提供的详细数据进行仔细观察。由于详细数据仅对网站拥有者开放,所以百度站长平台要求站长登录平台后进行网站验证,以证明站长与站点之间的所属关系。

  • 更便捷地使用百度站长平台工具

         百度站长平台截至目前提供了二十余款工具,在特型中将站长常用的6款工具罗列出来,向站长提供了一个更方便的入口。

          其中放置于第一位的“异常消息提醒”为重中之重。站长完成验证网站且填写真实有效的联系方式后,不仅可以获得网站被黑、抓取异常、内容建设异常、外链建设异常、新闻源异常五大消息提醒外,还可以与百度进行互动,如由于服务器不稳定造成的抓取失败,可以邀请Baiduspider重新抓取等。

          各工具使用帮助详见http://zhanzhang.baidu.com/wiki/60

  • 获取百度最新资讯

         右侧就是资讯区啦,千万不要小看这里,这里全是站长用得上的最新信息!包括:百度搜索引擎动态,百度站长平台最新活动,以及专门针对站长问题撰写的建站指南,篇篇干货哦!

【SEO】SEO是什么意思呢?

时不时的就有朋友问我;“你是干什么工作的啊?

我回答;“SEO”

她问;“SEO是什么啊?说中文好吗?”

今天我就在这里解释一下吧。


SEO的中文意思是搜索引擎优化。

通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻理解是:通过SEO这样一套基于搜索引擎的营销思想,为网站提供生态式的自我营销解决方案,让网站在行业内占据更多曝光机会,从而获得品牌影响力扩大和询单机会。

从搜素引擎上,我们可以看到很多客户案例,因采用了SEO理论里的群站思想,布局了行业绝大部分的长尾关键词,让行业用户在进行搜素行为时随处可见其企业品牌产品。

参考爱站培训页面SEO是什么意思


SEO(Search Engine Optimization),汉译为搜索引擎优化。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。SEO目的理解是:为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益;SEO包含站外SEO和站内SEO两方面;SEO是指为了从搜索引擎中获得更多的免费流量,从网站结构、内容建设方案、用户互动传播、页面等角度进行合理规划,使网站更适合搜索引擎的检索原则的行为;使网站更适合搜索引擎的检索原则又被称为对搜索引擎友好,对搜索引擎友好不仅能够提高SEO的效果,还会使搜索引擎中显示的网站相关信息对用户来说更具有吸引力。

参考百度百科;SEO


【百度站长】如何将改版后的收录损失降到最低

为了改变站点运营效果,部分站长会选择对网站进行改版,包括更换域名和目录规则等。网站任何一个改版变动都意味着人力与财力的大量投入,如何做才能避免改版带来的收录和流量损失,是站长最关心的内容之一。百度站长平台站在搜索引擎的角度给站长朋友一些建议。

 

第一步:确认新旧内容跳转完毕

无论是更换域名还是目录、url pattern修改,都要保证整体内容跳转完毕且有规律可循。

 

第二步:设置301跳转

使用301跳转对页面进行重定向,百度搜索引擎会自动进行处理

提醒:301跳转要保持一段时间,直至新网页的抓取、收录、排序达到预期后再解除。

 

第三步:使用百度站长平台工具

使用百度站长平台工具,可加速百度搜索引擎对301跳转的处理,尽快完成新旧内容的衔接。那么如何充分利用这些工具、这些工具的使用顺序又是怎样的呢?在这里做一个简单的介绍:

 

1,网站改版工具http://zhanzhang.baidu.com/rewrite/index

网站改版工具提供三种改版方式的转换:域名更换、复杂改版(除域名更换外,有规律可循的改版)、新旧URL更换(批量提交无规律可循的新旧URL)。

具体使用方法可参考百度站长平台已有的文章《网站改版工具帮助》(http://zhanzhang.baidu.com/wiki/106

 

2,抓取异常工具 http://zhanzhang.baidu.com/crawl/index

已在改版工具中提交改版规则后,随时关注新内容的抓取情况。如果不符合预期,可使用抓取异常工具查找原因。

影响百度spider抓取的因素很多,具体可参考百度站长平台已有文章《抓取异常工具帮助》,里面对每项因素都有详细说明和解决办法。(http://zhanzhang.baidu.com/wiki/96

 

3,压力反馈工具 http://zhanzhang.baidu.com/pressure/index

该工具提供站点在百度近一个月的天级抓取量曲线图,如果新内容抓取量不符合预期可在工具中进行反馈。但是,建议您使用百度默认的站点抓取压力,仅当抓取压力出现问题时再进行反馈,百度搜索引擎会综合考虑是否调整压力,并不保证完全按照您的反馈进行调整。

具体使用方法可参考百度站长平台已有文章《压力反馈工具帮助》(http://zhanzhang.baidu.com/wiki/77

 

4,百度索引量工具 http://zhanzhang.baidu.com/indexs/index

一个站点的被抓取量多与少并不是重点,重点是索引量,只有被建为索引的页面才有可能展现在用户面前。站长可以通过百度索引量工具来对比新旧内容被建索引的数量,来确认改版后站点在百度搜索引擎的收录是否已恢复正常。

该工具使用起来非常简单,可参考百度站长平台之前的文章《百度索引量工具帮助》(http://zhanzhang.baidu.com/wiki/94

【SEO】常用搜索引擎高级命令

一些常用的高级搜索引擎命令,包括以下:

1.Site

这个是最常见的高级搜索命令,作用是查询网站的收录情况,并且这个命令在所有的搜索引擎里是通用的。

用法:site:www.lonelypeople.com.cn

2.Domain
查询网站的反向链接情况,这个命令只适用于百度,并且结果并不是那么的让人满意。

因为他查出来的结果不是反链,效果还不如双引号(“”),

domain用法:domain:www.lonelypeople.com.cn

3.Inurl/allinurl

inurl查询url中包含关键词的页面,这个命令会经常用到。

比如我们可以批量查找博客:inurl:blog。Allinurl则是url中完全包含关键词的页面,

相对于inurl来说更精准些。这两个命令适用于大多数搜索引擎。用法:inurl:seo 

4.intitle/allintitle
Intitle查询标题中包含关键词的页面,allintitle则是查询标题中完全包含关键词的页面。

这两个命令百度支持的都不是很好,反而谷歌支持的很好。用法:intitle:seo培训。

5,双引号“”
查询完整匹配引号中的内容的页面。这个命令是大多数的搜索引擎都只是的高级命令,

用法是:“seo是什么东西”

6.Filetype
查询指定格式的文件,这个命令对于查询资料的人来说很有用。大多数搜索引擎支持filetype命令,

用法:filetype:doc

7.通配符*
当你记不住搜索词的全称的时候可以用到这个命令,比如“搜索引擎*”,

会出现很多与搜索引擎相关的结果。

8.减号—
查询不包含减号后面内容的页面,这个命令百度支持的不是很好,谷歌完全支持,

用法:关键词1 -关键词2以上是常用的高级搜索引擎命令,

在做seo的过程中会经常使用到,欢迎大家补充。