【百度站长】HTTPS建设全解析

调研中发现,大多数人对HTTPS持观望态度,他们对HTTPS安全性是认可的,但是从各个层面进行考虑后,做出了目前不做HTTPS网站的决定,主要有以下两种观点:

正方观点

1、HTTPS具有更好的加密性能,避免用户信息泄露;
2、HTTPS复杂的传输方式,降低网站被劫持的风险;
3、搜索引擎已经全面支持HTTPS抓取、收录,并且会优先展示HTTPS结果;
4、从安全角度来说个人觉得要做HTTPS,不过HTTPS可以采用登录后展示;
5、HTTPS绿锁表示可以提升用户对网站信任程度;
6、基础成本可控,证书及服务器已经有了成型的支持方案;
7、网站加载速度可以通过cdn等方式进行弥补,但是安全不能忽略;
8、HTTPS是网络的发展趋势,早晚都要做;
9、可以有效防止山寨、镜像网站;

反方观点

1、HTTPS会降低用户访问速度,增加网站服务器的计算资源消耗;
2、目前搜索引擎只是收录了小部分HTTPS内容,应该保持观望制度;
3、HTTPS需要申请加密协议,增加了运营成本;
4、百度目前对HTTPS的优先展现效果不明显,谷歌较为明显;
5、技术门槛较高,无从下手;
6、目前站点不涉及私密信息,无需HTTPS;
7、兼容性有待提升,如robots不支持/联盟广告不支持等;
8、HTTPS网站的安全程度有限,该被黑还是被黑;
9、HTTPS维护比较麻烦,在搜索引擎支持HTTP的情况,没必要做HTTPS;

Read more “【百度站长】HTTPS建设全解析”

网站HTML结构SEO要求说明(含移动站)

文章转载于:网站HTML结构SEO要求说明(含移动站)

网页结构

一、网页中主体结构标签一一对应。

网页头部区域 <header>
网页底部区域 <footer>
网页边框区域 <aside>
网页导航区域 <nav>
网页章节、页眉、页脚 <section>
详情页文章区域 <article>
详情页作者信息 <address>
详情页中文章的发布日期 <time>
列表页中文章列表区域 <ul>

Read more “网站HTML结构SEO要求说明(含移动站)”

【百度】新闻源取消,VIP申请升级公告

因百度对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。原新闻源库中的最优质站点将邀请入驻站长平台VIP俱乐部,站点有机会优先展现在时效性检索结果中,同时享受VIP俱乐部提供的更多服务;无法入驻VIP俱乐部的站点,也仍然有机会在时效性结果中展示。

同时VIP俱乐部提供的服务也全面升级,首先开放原创优质时效性站点申请入口,符合要求原创优质时效性要求的站点可通过平台首页右下方入口进行提交申请。VIP服务升级详情可点击。

需要注意的是,本次仅开放原创优质时效性站点的VIP俱乐部申请,其他类站点后续才会逐步开放,请大家不要任性提交。

截至32017时,已申请新闻源站点,将按照VIP俱乐部标准进行审核,30天之内会回复审核结果,感谢各位对百度站长平台的支持。

文章来源:http://zhanzhang.baidu.com/wiki/984

百度移动搜索,落地页体验广告白皮书发布公告

手机百度是一款有6亿用户在使用的手机搜索客户端,在中文用户信息获取上发挥了不可替代的作用。优质合理的广告作为信息的补充,广受用户喜欢。在不久前,百度用户体验部针对用户进行了满意度调研,发现很多恶意低质的广告严重破坏着用户的搜索体验。为了让用户顺利地完成整个搜索行为,百度工程师、产品经理、用户体验专家每天设计迭代策略,坚决与低劣广告作战。同时,为了让百度搜索的重要合作伙伴——优质内容站点免遭流量损失,特发布这份广告规范,希望与各位携手为搜索用户提供一个健康安全高效的搜索环境

目录:

1、百度捍卫移动搜索用户体验

2、规范常见名词解释

2.1 广告

2.2 APP引导

2.3 主体内容

2.4 首屏

2.5 一屏

3、广告内容

3.1、低俗违禁内容

3.2、虚假广告

4、广告样式

4.1、面积原则

4.2、不允许的广告展示形式

4.3、广告抖动

4.4、广告重叠

4.5、广告自动播放

4.6、广告自动下载

5、广告位置

5.1、首页&列表页

5.2、主体内容之间

5.3、页面顶部

6、综合注意事项

1、百度坚决捍卫移动搜索用户体验

手机百度是一款有6亿用户在使用的手机搜索客户端,在中文用户信息获取上发挥了不可替代的作用。优质合理的广告作为信息的补充,广受用户喜欢。在不久前,百度用户体验部针对用户进行了满意度调研,发现很多恶意低质的广告严重破坏着用户的搜索体验。为了让用户顺利地完成整个搜索行为,百度工程师、产品经理、用户体验专家每天设计迭代策略,坚决与低劣广告作战。同时,为了让百度搜索的重要合作伙伴——优质内容站点免遭流量损失,特发布这份广告规范,希望与各位携手为搜索用户提供一个健康安全高效的搜索环境。

2、名词解释

为了让站长更好地理解广告规范内容,先将常见的名词给予解释。

2.1、广告:指为了某种特定的需要,通过一定形式的媒体,公开而广泛地向公众传递信息的宣传手段,白皮书中的广告泛指所有在落地页中出现的用户传播行为。

 2.2APP引导:刻意引导用户下载安装或激活调起APP的行为

2.3、主体内容:对于内容详情页来说,主体内容指从标题开始至正文内容结束,翻页键也被视为主体内容,文章后的评论、分享、推荐等不视为主体内容。对于首页&列表页来说,主体内容略宽泛,可以认为是页面最想表达的内容总和。

2.4、首屏:用户点击搜索结果后进入到移动页面,不滑动屏幕即看到的所有内容,称为首屏

2.5、一屏:用户滑动屏幕至主体内容展现结束之前,任意停留时看到的所有内容,称为一屏

3、广告内容

3.1、低俗违禁内容

在用户正常浏览页面时,低俗违禁广告无论是图片还是文字链都对用户产生极大干扰,百度对此将严厉打击。对低俗违禁广告(包括但不限于色情、赌博、法律规定的违禁品或服务)更是从重从严。

http://zhanzhang.baidu.com/college/documentinfo?id=978

【百度站长】百度站点子链审核标准

一、页面内容的审核标准

1  欺骗或对用户无意义的网站不能通过审核,如:低质采集、非法、反动、虚假等

2,若子链内容为目录页/索引页,则要求其主体内容必须丰富,同时页面内容与页面主极度相关

3,登陆页、注册页、客服页、搜索框页、软件下载页可通过,但登陆页和注册页只能通过一个,搜索结果页无法通过审核

4,站点子链中不应有移动页面

5,会员账号分享类网站存在涉及隐私风险无法通过审核

6,外文网站暂不开放站点子链

 二、主/子链的审核标准

1、从属关系审核标准

1)从属关系主要指内容从属,即内容连贯符合从属关系,而不会单一考虑URL的从属关系。例如以下情况,可以通过从属主/子链审核:

主链http://www.abc.com/z/gta5/  (游戏专题页)

子链http://www.abc.com/Soft/201309/296115.shtml   (游戏下载页)

 2)子链与主链、子链与子链之间不能重复,不能是相同或内容高度相似的页面

 2、标题摘要的审核标准

1)相关性

页面内容上,主链和网站主题内容相关,子链和主链相关;标题摘要上,标题摘要和对应的页面内容相关,能精准概括页面主题内容,符合事实。

 2)标题摘要

• 标题摘要应该语句通顺,不得出现错误、乱码、杂质符号、语意不连贯、关键词堆砌等现象,分句或截断不影响阅读,内容容易引起歧义无法通过审核。

 • 标题摘要中不能带有具有法律风险或极具诱导性的词语。包括但不仅限于:第一、极至、登峰造极、唯一、前所未有、绝无仅有、无可比拟、一次付费终生使用等用语。

 • 标题摘要带有承诺性,由于百度不能保证其准确性,无法通过审核。包括但不仅限于:“绿色免安装的游戏,没捆绑,安全”、“帮助用户获取安全稳定的收益”等

 • 如果站点是可以按ip地域切换的,如城市分类信息站点首页,标题摘要中不能含有“北京二手车”“上海租房”等地域信息。

 • 子链中标题摘要相同或极度相似,无法通过审核。如:

子链摘要1: 提供好听的玄幻武侠类有声小说在…

子链摘要2: 提供好听的都市言情类有声小说在…

 • 涉及版权的类别(如图片、影视、小说、漫画、软件等方面)标题或摘要中带有官网字样的,一定要保证真实才能被通过审核。

 • 标题摘要中带有电话号码、QQ、微信号、通讯地址等联系方式的,无法通过审核。

 • 标题摘要带有时效性的无法通过审核,如:“中国婚博会(北京)时间:36-8日…..

 • 网页内容或标题摘要中含有贬低同类产品,涉及侮辱或者诽谤他人、贬低竞争对手/产品,侵害他人合法权益的,无法通过审核

三、展现顺序

子链排序要符合用户需求,按照从热门程度降序排列,不能将冷门子链排到热门子链前。

网站漏洞检测用语、漏洞危害及漏洞解决方案【百度站长】

漏洞检测工具用语说明
一,高危漏洞
高危漏洞包括SQL注入漏洞、XSS跨站脚本漏洞、页面存在源代码泄露、网站存在备份文件、网站存在包含SVN信息的文件、网站存在Resin任意文件读取漏洞。
SQL注入漏洞:网站程序忽略了对输入字符串中包含的SQL语句的检查,使得包含的SQL语句被数据库误认为是合法的SQL指令而运行,导致数据库中各种敏感数据被盗取、更改或删除。
XSS跨站脚本漏洞:网站程序忽略了对输入字符串中特殊字符与字符串(如<>'”<script><iframe>onload)的检查,使得攻击者可以欺骗用户访问包含恶意JavaScript代码的页面,使得恶意代码在用户浏览器中执行,从而导致目标用户权限被盗取或数据被篡改。
页面存在源代码泄露:页面存在源代码泄露,可能导致网站服务的关键逻辑、配置的账号密码泄露,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在备份文件:网站存在备份文件,例如数据库备份文件、网站源码备份文件等,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在包含SVN信息的文件:网站存在包含SVN信息的文件,这是网站源码的版本控制器私有文件,里面包含SVN服务的地址、提交的私有文件名、SVN用户名等信息,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在Resin任意文件读取漏洞:安装某些版本Resin服务器的网站存在可读取任意文件的漏洞,攻击者利用该漏洞可以读取网站服务器的任意文件内容,导致网站被黑。

二,中危漏洞
中危漏洞包括网站存在目录浏览漏洞、网站存在PHPINFO文件、网站存在服务器环境探针文件、网站存在日志信息文件、网站存在JSP示例文件。
网站存在目录浏览漏洞:网站存在配置缺陷,存在目录可浏览漏洞,这会导致网站很多隐私文件与目录泄露,比如数据库备份文件、配置文件等,攻击者利用该信息可以更容易得到网站权限,导致网站被黑。
网站存在PHPINFO文件:网站存在PHPINFO文件,这个是PHP特有的信息文件,会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在服务器环境探针文件:网站存在服务器环境探针文件,该文件会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在日志信息文件:网站存在日志信息文件,该文件包含的错误信息会导致网站的一些架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在JSP示例文件:网站存在JSP示例文件,该文件的弱口令会导致网站的大量架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。

三、低危漏洞
低危漏洞包括页面上存在网站程序的调试信息、网站存在后台登录地址、网站存在服务端统计信息文件、网站存在敏感目录。
页面上存在网站程序的调试信息:页面上存在数据库信息,例如数据库名、数据库管理员名,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在后台登录地址:网站存在后台登录地址,攻击者经常使用这个地址进行网站的后台登陆,比如弱密码、表单绕过、暴力破解等,从而得到网站的权限。
网站存在服务端统计信息文件:网站存在服务端统计信息文件,该文件会导致网站的一些架构信息泄露,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。
网站存在敏感目录:网站存在敏感目录,例如 /upload /database /bak,该信息有助于攻击者更全面了解网站的架构,为攻击者入侵网站提供帮助。

漏洞的危害有哪些
SQL注入漏洞的危害不仅体现在数据库层面,还有可能危及承载数据库的操作系统;如果SQL注入被用来挂马,还可能用来传播恶意软件等,这些危害包括但不限于:
• 数据库信息泄漏:数据库中存储的用户隐私信息泄露。
• 网页篡改:通过操作数据库对特定网页进行篡改。
• 网站被挂马,传播恶意软件:修改数据库一些字段的值,嵌入网马链接,进行挂马攻击。
• 数据库被恶意操作:数据库服务器被攻击,数据库的系统管理员帐户被窜改。
• 服务器被远程控制,被安装后门:经由数据库服务器提供的操作系统支持,让黑客得以修改或控制操作系统。
• 破坏硬盘数据,瘫痪全系统。

XSS跨站脚本漏洞的危害包括但不限于:
• 钓鱼欺骗:最典型的就是利用目标网站的反射型跨站脚本漏洞将目标网站重定向到钓鱼网站,或者注入钓鱼JavaScript以监控目标网站的表单输入,甚至发起基于DHTML更高级的钓鱼攻击方式。
• 网站挂马:跨站后利用IFrame嵌入隐藏的恶意网站或者将被攻击者定向到恶意网站上,或者弹出恶意网站窗口等方式都可以进行挂马攻击。
• 身份盗用:Cookie是用户对于特定网站的身份验证标志,XSS可以盗取用户的Cookie,从而利用该Cookie获取用户对该网站的操作权限。如果一个网站管理员用户Cookie被窃取,将会对网站引发巨大的危害。
• 盗取网站用户信息:当能够窃取到用户Cookie从而获取到用户身份时,攻击者可以获取到用户对网站的操作权限,从而查看用户隐私信息。
• 垃圾信息发送:比如在SNS社区中,利用XSS漏洞借用被攻击者的身份发送大量的垃圾信息给特定的目标群体。
• 劫持用户Web行为:一些高级的XSS攻击甚至可以劫持用户的Web行为,监视用户的浏览历史,发送与接收的数据等等。
• XSS蠕虫:XSS 蠕虫可以用来打广告、刷流量、挂马、恶作剧、破坏网上数据、实施DDoS攻击等。

信息泄露漏洞的危害
CGI漏洞大多分为以下几种类型:信息泄露、命令执行和溢出,因此危害的严重程度不一。信息泄露会暴露服务器的敏感信息,使攻击者能够通过泄露的信息进行进一步入侵;命令执行会对服务器的安全造成直接的影响,如执行任意系统命令;溢出往往能够让攻击者直接控制目标服务器,危害重大。

内容泄露漏洞:会被攻击者利用导致其它类型的攻击,危害包括但不局限于:
• 内网ip泄露:可能会使攻击者渗透进入内网产生更大危害。
• 数据库信息泄露:让攻击者知道数据库类型,会降低攻击难度。
• 网站调试信息泄露:可能让攻击者知道网站使用的编程语言,使用的框架等,降低攻击难度。
• 网站目录结构泄露:攻击者容易发现敏感文件。
• 绝对路径泄露:某些攻击手段依赖网站的绝对路径,比如用SQL注入写webshell。
• 电子邮件泄露:邮件泄露可能会被垃圾邮件骚扰,还可能被攻击者利用社会工程学手段获取更多信息,扩大危害。

文件泄露漏洞:可能会导致重要信息的泄露,进而扩大安全威胁,这些危害包括但不局限于:
• 帐号密码泄漏:可能导致攻击者直接操作网站后台或数据库,进行一些可能有危害的操作。
• 源码泄露:可能会让攻击者从源码中分析出更多其它的漏洞,如SQL注入,文件上传,代码执行等。
• 系统用户泄露:可能会方便暴力破解系统密码。

漏洞解决方案
SQL注入漏洞解决方案:
1.解决SQL注入漏洞的关键是对所有来自用户输入的数据进行严格检查、对数据库配置使用最小权限原则
2.所有的查询语句都使用数据库提供的参数化查询接口,参数化的语句使用参数而不是将用户输入变量嵌入到SQL语句中。
3.对进入数据库的特殊字符('”\<>&*;等)进行转义处理,或编码转换。
4.确认每种数据的类型,比如数字型的数据就必须是数字,数据库中的存储字段必须对应为int型。
5.数据长度应该严格规定,能在一定程度上防止比较长的SQL注入语句无法正确执行。
6.网站每个数据层的编码统一,建议全部使用UTF-8编码,上下层编码不一致有可能导致一些过滤模型被绕过。
7.严格限制网站用户的数据库的操作权限,给此用户提供仅仅能够满足其工作的权限,从而最大限度的减少注入攻击对数据库的危害。
8.避免网站显示SQL错误信息,比如类型错误、字段不匹配等,防止攻击者利用这些错误信息进行一些判断。
9.在网站发布之前建议使用一些专业的SQL注入检测工具进行检测,及时修补这些SQL注入漏洞。

XSS跨站脚本漏洞解决方案:
1.假定所有输入都是可疑的,必须对所有输入中的script、iframe等字样进行严格的检查。这里的输入不仅仅是用户可以直接交互的输入接口,也包括HTTP请求中的Cookie中的变量,HTTP请求头部中的变量等。
2.不要仅仅验证数据的类型,还要验证其格式、长度、范围和内容。
3.不要仅仅在客户端做数据的验证与过滤,关键的过滤步骤在服务端进行。
4.对输出的数据也要检查,数据库里的值有可能会在一个大网站的多处都有输出,即使在输入做了编码等操作,在各处的输出点时也要进行安全检查。
5.在网站发布之前建议测试所有已知的威胁。

页面存在源代码泄露解决方案:
1. 配置好服务端语言解析,防止解析失败而导致源码泄露;
2. 关闭网站错误调试机制,防止因为报错而导致源码泄露。

网站存在备份文件解决方案:删除检测出的备份文件,或者将这类文件从网站目录下移走。

网站存在包含SVN信息的文件解决方案:删除网站目录下的SVN信息,不要使用SVN目录作为网站的目录。

网站存在Resin任意文件读取漏洞解决方案:删除resin_doc相关目录与文件。

网站存在目录浏览漏洞:关闭Web容器(如IIS/Apache等)的目录浏览功能,比如:
1.IIS中关闭目录浏览功能:在IIS的网站属性中,勾去“目录浏览”选项,重启IIS;
2.Apache中关闭目录浏览功能:打开Apache配置文件httpd.conf,查找 “Options Indexes FollowSymLinks”,修改为“ Options -Indexes”(减号表示取消),保存退出,重启Apache。

网站存在PHPINFO文件解决方案:删除检测出的PHPINFO文件。

网站存在服务器环境探针文件解决方案:删除检测出的探针文件,比如:iprober.php、phpcheck.php、jspcheck.jsp、DotNetInfo.aspx、aspcheck.asp等。

网站存在日志信息文件解决方案:删除检测出的日志信息文件。

网站存在JSP示例文件解决方案:删除JSP示例文件。

页面上存在数据库信息解决方案:关闭数据库的错误调试机制,防止因为SQL语句错误导致数据库报错信息显示到页面上。

页面上存在网站程序的调试信息解决方案:关闭网站程序的调试机制,这个机制经常被用于网站的测试调试,该机制能显示出很详细的网站报错信息。

网站存在后台登录地址解决方案:
1.将后台登录地址隐藏,改个不容易猜到的路径;
2.配置好后台登录地址的访问权限,比如只允许某个IP或IP段的用户访问。

网站存在服务端统计信息文件解决方案:删除检测出的服务端统计信息文件。

网站存在敏感目录解决方案:这些目录经常用于存放敏感的文件,可以考虑从网站目录中分离出,或改个不易猜测到的路径,并配置好访问权限。


来源/漏洞检测工具用语说明

百度站长平台:什么是关键词影响力? (暂时在移动端上线)

关键词影响力,是百度站长平台针对站点对于关键词数据分析的需求,推出的全新概念。涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百度搜索流量、展现量等。在H5版本的站长平台工具中首发的关键词影响力工具检测数值有:整体影响力、最大影响力、站点影响力。

什么是关键词影响力? (暂时在移动端上线)

关键词影响力,是百度站长平台针对站点对于关键词数据分析的需求,推出的全新概念。

站点关键词影响力:在具体关键词下,站点获得的收益对应的关键词影响力;

最大关键词影响力:在具体关键词下,获得收益最高的站点影响力;

整体关键词影响力:在具体关键词下,百度为全部站点带来的全部收益产生的影响力总值;

关键词影响力算法复杂,涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百度搜索流量、展现量等。

关键词影响力三个数值如何分析? 

通过查看自身站点关键词影响力、最大关键词影响力和全盘关键词影响力,可以得到自身站点与行业标杆之间的差距,自身站点在具体关键词下的全盘占比,自身站点对具体关键词的优化上升空间及优化性价比。

对站长SEO工作的收益和效果进行量化,对上升空间、行业差距,全盘情况及变化趋势等信息一目了然。

搜索关键词工具里出现的展现量、导流量、点击率、排名都是什么?

展现量:搜索用户在百度搜索引擎查询某关键词时,看到您网站的次数;

导流量:仅统计从百度搜索结果页点击进入您网站的次数;

点击率:导流量和展现量的比值,在一定程度上表征了网站的优化空间,点击率越小,网站的优化空间越大;

排名:在热门关键词和热门页面列表中给出的排名是平均排名,表征在相应时间段内,搜索用户在查询某关键词时,落地页在百度搜索结果页的平均排名,是统计数据。

热门关键词和热门页面分别指什么

热门关键词:用户在百度搜索引擎中进行查询时,您网站获得流量(点击量)较多的关键词。工具最多可以提供5W个关键词,默认按点击量降序排序。您可以通过热门关键词,查看用户通过相应的关键词访问了哪些页面。

热门页面:用户在百度搜索引擎中进行查询时,您网站中获得流量(点击量)较多的URL。工具最多可以提供5W个热门页面,默认按点击量降序排序。您可以通过热门页面,查看到达相应页面的关键词。

使用搜索关键词工具能给您带来什么

搜索关键词工具不仅能够提供网站天级、周级及月度展现量、点击量数据,还能够提供站点的热门关键词在百度搜索结果中的展现及点击量数据,及网站热门关键词在今天(有大约5小时的数据延迟)、昨天、最近7天、最近30天、30天内自定义时间段等不同时间维度的展现量及点击量数据,最高可展现5W条关键词数据。工具旨在全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。

社交媒体信号是否影响搜索排名?

上星期的英文SEO排名因素相关度统计中,最引人注目的恐怕是社交媒体互动元素与搜索排名的高相关度了,包括Google自己的Google+,以及Facebook、Twitter、Pinterest的分享、点赞等数字。其中,Google+和Facebook数据是所有排名因素中与排名最相关的,超过页面因素,也超过外链因素。

社交媒体参与、互动数据与搜索排名的高相关度不仅仅在Searchmetrics的统计中体现出来,在近几年的其它不同公司的排名因素统计中都有体现,如Moz的统计。而有些吊诡的是,Google一直以来明确否认社交媒体数据是排名算法中的一个直接因素。

社交媒体信号是否影响搜索排名?

那么,社交媒体信号是否影响搜索排名?或者说,社交媒体信号是否是搜索引擎排名算法中的一个因素?

应该相信,至少目前为止,Google排名算法中,社交媒体信号不大可能成为重要的考虑因素,因为除了Google+,别的社交媒体网站数据,Google并不能轻易拿到。数年前,Twitter和Google曾经有个协议,利用后台端口直接把Twiiter数据推送给Google,后来协议到期并没有延长。所以Google要想取得社交媒体数据,只能像抓普通网站一样的去抓,考虑到社交媒体海量实时更新,能抓到的恐怕只占很小一部分。

这还没有考虑到也许哪天Facebook或Twitter用robots文件禁止搜索引擎抓取。无法想象,Google排名算法的重要部分依靠随时可能失去、自己不能控制的信号,这风险太大了。

不过,有意思的是,Google的说法一直是比较严谨的,社交媒体信号不是排名算法的”直接“因素,但是否有间接作用,Google从来没有明确说过,也没有否定过。可以想象,要说间接影响,那可能性就太多了。

前几天,searchengineland报道,Google刚刚获得批准了一项专利,就是关于社交媒体数据与搜索排名算法的。从中SEO们可以看到一些搜索引擎可能会在排名算法中应用社交媒体数据的角度。

当然,专利中的内容和技术不一定在使用中,也可能永远不会使用,只是说明他们有过这种考虑。

下面是专利中几个有意思的点:

  • 简单说,Google会索引社交媒体网站内容,鉴别出重要账号,找出用户之间的关联。当一个用户搜索时,Google会根据与搜索用户相关联的其他用户的行为(分享、创作、发帖、评论等)调整搜索结果。调整范围、幅度与关联距离、互动频率等有关。
  • 社交媒体上的重要账号,Google会根据社交圈、粉丝数等给出一个分数。即使不是大V,每个用户也都会有一个社交网络图像。
  • 那些与搜索用户有社交关联的(经常互动,或者关注了对方账号)的用户分享过的、创作的、或者产生过互动的内容,排名会得到提升。
  • 算法可能考虑一个社交媒体,也可能考虑多个社交媒体。既可能考虑直接关联的用户,也可能考虑隔了层的关联用户。在多个社交媒体账号用户名不同时,Google会尝试鉴别并连接在一起。
  • 所谓社交关联,不仅仅包含传统意义上的社交媒体网站,还可以包括邮件、聊天软件(微信之类的)、博客帖子、点评类网站等。
  • Google会给关联用户赋予一个密切程度的值,共同朋友越多,密切程度越高,搜索结果被影响的可能性越大。
  • 因为社交关联而被提升排名的页面,可能被放在一起,标志出来,也可能和普通结果混在一起。

百度是否在排名算法中考虑了社交媒体信号?在不同的会议、座谈中,我和其他SEO都问过,一般官方的回答是,百度会考虑所有能表现页面质量以及用户喜好程度的因素。可惜,最流行的中文社交媒体,微信,搜索引擎目前并不能获得其内容。

原本地址/社交媒体信号是否影响搜索排名

英文SEO排名因素相关度统计报告

近几年,Searchmetrics每年都会发表一份英文SEO排名因素与排名结果之间的相关度统计报告。其数据来自于1万个关键词,前3页Google排名结果。

下面是2015年报告的统计数字。感兴趣的建议到Searchmetrics官网下载完整报告,最新的报告(现在是2015年的)在这里。完整统计报告里,每一项排名因素都包含单独图表、说明文字,我这里只是列出了相关度这一个数字,供快速参考。

排名因素相关度的几点说明

首先,相关不等于因果。相关只是说,从统计数字看,两个现象(排名因素和排名结果)经常一起出现,但不能说明一个是另一个出现的原因。

第二,相关系数低不等于不重要。尤其是“有/无”性质的因素,比如“页面是否有H1标签”与排名的相关系数只有0.02,但不一定说明H1没什么用,也可能是因为排名好的网站都有H1。统计的是前3页排名结果与排名因素的关系,如果前3页结果都有H1,H1的相关度就大大降低了,没有区分度。

同样,相关系数高也不一定意味着特别重要。比如点击率与排名的相关度高达0.67,但不能说明点击率就是作用远远高于其它所有因素的那个因素,也可能仅仅是因为排在前面,点击率自然就是高。

相关度既然不能说明因果关系,也不代表重要程度,那还关注这种排名因素相关度统计干嘛呢?因为不一定有因果关系,但也不一定就没有因果关系。两种现象总是一起出现,一般来说,还是有它的原因的。

排名因素的几点结论

  • 内容很重要,越来越重要。内容主题,相关词、支持词、图片视频的使用,内容长度,等等。
  • 页面技术性优化是基本要求。打开速度越来越重要。Title、H标签、可读性等成为标配,虽然相关度不高。
  • 社交媒体分享数据依然有最高相关性。但Google一直是否认排名算法中使用了社交媒体数据。
  • 外链依然是排名重要因素。虽然重要性一直在下降,但到目前为止,还是最重要元素。数量及质量。引用重要性在增加。
  • 用户体验数据越来越重要。网站架构、点击率、互动元素、广告等等。

下面是统计数据。

因素 相关度 说明
技术因素
有说明标签 0.04
有H1标签 0.02
有H2标签 0.08
域名包含关键词 -0.02 显然只适用于英文
使用 HTTPS 0.05
域名被搜索次数 016
域名SEO能见度 0.26 SEO能见度是Searchmetrics的一个衡量整个域名能见度的数值
首页比例 0.01
子域名比例 -0.00
子目录比例 -0.05
域名是.com的 -0.04 很可能是被维基百科的强大排名干扰了
文件大小 0.15 前10名平均文件大小为25K
使用Flash -0.01
网站速度(桌面版) 0.04
网站速度(移动版) 0.08
URL长度 0.13 短URL排名好
用户体验
内部链接数量 0.09
图片数量 0.04
使用视频 0.07
响应式设计 0.06
字体尺寸(第一屏) -0.12 前10名第一屏平均字体为14pts
字体尺寸(第一屏以下) 0.05 前10名第一屏以下平均字体为12pts
互动元素 0.10
使用无序列表 0.07
列表中的元素数 0.05 列表越大,排名越好
出现Adsense等广告 -0.03
点击率 0.67
网站停留时间 0.09
跳出率 0.04
内容
页面字数 0.07 字数越多,排名越好
说明标签出现关键词 -0.01
页面出现关键词 0.07
内链出现关键词 0.08
外链出现关键词 0.03 指向其它网站的外链
可读性 0.02
验证性词汇 0.03 支持性的词
相关词汇 0.15 语义相关的词
社交媒体信号
Facebook总数 0.28 点赞、分享等的总数
Google+总数 0.31
Twitter 0.23
Pinterest 0.23
反向链接
反向链接总数 0.28
外链总域名数 0.22
以关键词为锚文字的反向链接 0.17
以域名为锚文字 0.16
来自新闻网站的链接 0.22
反向链接年龄 0.19
指向首页的链接比例 -0.06
Nofollow链接比例 0.20

10个国外常用的SEO优化工具

工欲善其事,必利其器,卢松松曾经介绍过不少SEO优化工具,在工具性能上来说国内外的SEO优化工具总是有少许差别,尽管对于大部分网站优化工作还得靠人工去做,但SEO工具作为辅助工具,是站长都应该必须了解的。

本文就将介绍10款国外站长常用的SEO优化工具,对于国内站长来说,通过这些工具可以了解国外搜索引擎优化的思路、技巧,同时对于做英文站、外贸站的站长也有参考价值,最重要的是:它们是免费的。 Read more “10个国外常用的SEO优化工具”

谷歌搜索史上最大调整:网页索引移动优先

谷歌搜索史上最大调整:网页索引移动优先

腾讯科技讯 谷歌(微博)是全世界最大的网页搜索引擎,也是搜索引擎市场的鼻祖。移动互联网时代的到来,也促使谷歌对于搜索业务进行调整。本周四,谷歌宣布了搜索业务有史以来最重大的一项调整,谷歌表示将会优先抓取移动版网站的网页,媒体称,这意味着未来在手机端和电脑端使用谷歌搜索,也将会得到不同的结果。

据多家科技媒体报道,在周四的一个大会上,谷歌负责搜索业务的一名高管宣布,未来几个月内,谷歌将会实施之前宣布的一个重大计划:那就是移动版网站和网页的抓取,将和电脑版完全独立进行。

在网页抓取和索引方面,谷歌将会执行移动版第一的策略。其中移动网页抓取的频率、更新的时效性,将会超过电脑版网站。科技媒体指出,这意味着用户未来在用手机或是电脑搜索谷歌时,将会获得不同的结果。

传统的网站都是面向电脑浏览器设计的,不过伴随着智能手机流行,许多企业和互联网公司推出了手机版网站,网页更小,各种要素更加简单。在此之前,谷歌一直在鼓励外部网站制作“移动端友好”的网站,这些网页也能够获得更好的抓取和搜索排序。

过去,谷歌在进行搜索排序时,并未区分一家网站的电脑版或是手机版,谷歌主要根据传统电脑版网站来进行算法计算,即使用户使用智能手机搜索,谷歌仍然采用电脑版网站的算法结果。不过未来这种方式将会进行改革。

在移动互联网时代,智能手机已经取代了个人电脑,成为最重要的上网工具,普通家庭的电脑开机率和使用率已经大大下降。而在网页搜索市场,移动搜索的份额也在快速增加。

根据美国科技新闻网站Thesempost报道,目前移动端网页搜索的年度增长率超过了50%,人气远远超过了桌面搜索,因此谷歌作出上述的调整,并不出乎意外。

对于企业或者互联网公司来说,谷歌此番调整意味着网站运营将需要重新思考。过去电脑版网站一直占据主导地位,移动版网站仅仅是作为一个简化版或是轻量版本。未来,网站运营企业需要在移动版网站上投入更多的心思。

据分析,如果电脑版网站的内容或者要素并未及时体现在移动版网站中,未来意味着谷歌搜索结果的排序将直接受到影响。

实际上,移动互联网时代下,APP取代了网站和网页,成为信息和服务提供的重要媒介,因此谷歌的网页搜索正在陷入某种前途危机当中。有数据显示,网页搜索的数量出现了缓慢下滑,而谷歌也开始了各种调整动作。

不久前,谷歌推出了名为“加速移动网页”(AMP)的服务。在移动搜索中,谷歌将会保存新闻网站的网页,以更快的速度提供给读者,提高手机端新闻阅读体验,而谷歌也将和新闻媒体共同分享由此产生的广告收入。(综合/晨曦)

AngularJS框架的网站进行SEO的基本原理

使用AngularJS框架的网站,网页详细内容都是浏览器通过XHR方式动态获取再渲染出来的,用户可以看到渲染后的完整网页,搜索引擎却看不到——如果不做特殊处理的话,目前的搜索引擎只会抓取到一个AngularJS的基本HTML框架。那么,如何SEO呢?

基本原理其实很简单:对于正常用户的访问,服务器响应AngularJS应用框架;对于搜索引擎的访问,则响应专门针对SEO的HTML页面(而不是AngularJS应用)。也就是说,SEO还是像普通网站那样,在服务器端处理的。

以jsGen为例,jsGen服务器端使用的是node.js,node.js通过分析HTTP请求头的User Agent,来判断访问请求是正常用户还是搜索引擎。jsGen中相应判断代码位于根目录的app.js中,代码如下:

...
} else if (jsGen.robot.reg.test(req.useragent)) {
    jsGen.api.article.robot(req, res, dm);
} else {
...

jsGen默认配置的搜索引擎User Agent标识符有:

'Baiduspider|Googlebot|BingBot|Slurp!|MSNBot|YoudaoBot|JikeSpider|Sosospider' +
'|360Spider|Sogou web spider|Sogou inst spider'

这个可以在管理后台中配置。

比如访问 http://angularjs.cn/A001,node.js判断是正常用户,则直接响应index.html——AngularJS应用的入口文件,用户浏览器装载完AngularJS后会自动分析请求网址,然后根据路由表做相应处理——这里,就是切换到文章详情页并获取文章A001的详细内容,获取到后即渲染出来呈现给用户。

如果node.js判断是搜索引擎访问,则用jsGen.api.article.robot()函数处理。该函数使用ejs模板引擎,把文章A001的数据填充到SEO专用ejs模板中,再响应给搜索引擎。目前jsGen的SEO模板很简单:当搜索引擎访问首页时,响应最新文章列表、热门文章列表和热门标签;搜索引擎访问某文章时,则响应该文章的详细信息,包括评论、作者信息等。当然,网页meta中的title、keywords和description是少不了的。至于其它SEO技巧,就看各位如何发挥了。

想看SEO页面效果的朋友,可以查看http://angularjs.cn/的百度快照。


原文/AngularJS框架的网站进行SEO的基本原理

Google的AMP-加速移动页面

作者: Zac@SEO每天一贴

上星期在第6届SEO排行榜上做了一个演讲,分享了一些国际上SEO行业的最新情况。其中一个内容是Google的AMP项目,也在这里聊一下。

AMP,Accelerated Mobile Pages,译意大致是”加速的移动页面”,是Google去年10月份推出的一个提高移动页面访问速度的技术,具体技术细节可以在项目官网看到,有简单的中文版

简单而不一定准确地说,AMP页面是大大简化了的移动页面,因此加载更快。AMP有几个特点:

  • AMP的HTML代码是标准HTML的一个子集,某些代码不让用了,如table, frame等
  • CSS代码也简化,而且要写在HTML中,不能调用外部CSS文件
  • JS大部分不能用了,当然就快了,但很多互动功能也就没了
  • 资源控制,比如图片、视频等用户下拉到图片时再加载
  • 高度缓存,Google将页面缓存在自己服务器了

AMP具体应用是今年2月份才上线的,仅仅使用在新闻结果中,支持了AMP的新闻页面显示在顶部图片轮播中,用户点击其中的新闻时,缓存在Google服务器上的极为简化的AMP版本确实是秒开。

目前AMP新闻页面只在10多个国家显示,不包括中国,也不包括新加坡。

如果仅限于新闻网站,我也就不那么关心了。不过8月2号Google又公布,AMP将应用于所有类型的移动页面。其实在这之前,除了BBC、纽约时报等新闻网站,连ebay这种网站也已经上线了AMP版本。所有移动页面都支持AMP的话,更多网站将有动力加上AMP版本了。

普通页面的AMP现在还没有出现在正常Google搜索结果中,只在这个地址的demo中可以看到:https://g.co/ampdemo

我也赶紧实验了一下AMP,信息类网站,如博客,还是很适合AMP的。WordPress实现AMP很简单,下载、启用AMP插件就行了。插件会给帖子页面创建AMP版本(首页、分类、翻页等页面没有)。比如本帖子的URL是:

http://www.seozac.com/gg/google-amp/

AMP页面就是在原页面后加个 /amp/ :

http://www.seozac.com/gg/google-amp/amp/

在原帖子 HTML代码中,需要用amphtml标签指明AMP版本地址:

<link rel=”amphtmlhref=”http://www.seozac.com/gg/google-amp/amp/” />

AMP版本的HTML代码中也要用canonical标签指明原页面地址:

<link rel=”canonicalhref=”http://www.seozac.com/gg/google-amp/” />

这样,Google就知道谁对应谁了。

在Google搜索结果中是这样展现的(如上所说,从demo地址可以看到):

amp页面搜索结果

页面描述最前面有个闪电标记和AMP字样。用户点击后页面秒开,显示的是Google服务器上的缓存:

https://www.google.com.sg/amp/www.seozac.com/baidu/aureum-algorithm/amp/

AMP页面打开是这个样子:

amp页面

点击本帖的AMP地址就可以看到AMP版本的样子,桌面电脑也一样能正常访问。目前WordPress的AMP插件把导航、留言等等都去掉了,只剩下帖子内容本身,确实是简化到家了,HTML文件只有10几K。如果自己开发AMP版本的话,还是可以多少加上点东西的,比如重要导航。

AMP的目的没别的,就是快,也确实是快了,但不一定适合必须有交互功能的页面,如电子商务网站。即使像博客帖子这种页面,拿掉评论功能是否真的用户友好也还要观察。纯信息类页面确实很适合。

Google最近在大力推AMP,很可能AMP会变成国际上信息类网站移动页面的主流。采用AMP的页面是否对排名有帮助呢?目前是没有,Google明确表示,AMP不在排名算法中,但谁知道以后呢。SEO们,尤其是做英文网站的,还是要密切关注。

百度会不会支持AMP呢?短时间应该不会,倒不是百度愿意不愿意,而是AMP页面需要调用官网的JS库,貌似是控制资源之类的功能(如图片延迟)的:

<script src=”https://cdn.ampproject.org/v0.js” async></script>

任何国外的东西,说qiang就qiang,百度想支持也危险,中文网站没法用啊。呵呵,呵呵。

百度MIP-移动网页加速器

作者: Zac@SEO每天一贴

上星期发了谷歌AMP的帖子后,很快有读者告诉我,百度8月初也刚刚推出了百度MIP-移动页面加速器,并且把介绍链接加在了百度站长平台账号的导航里,SEO们一登录就会看到。

百度MIP移动网页加速器

我月初就忙开会等事情,发Google AMP帖子时完全不知道百度有这么个项目。读者提醒后赶紧看了一下,然后发现,百度MIP和Google AMP完全就是一回事。

MIP英文全称是Mobile Instant Page,翻译为“移动极速页面”好像更合适。官网是mipengine.org,今年6月20号刚注册的域名,肯定不是什么预谋已久的项目,而是因应Google AMP。简单说,这两个都是为极快速移动页面制定的标准。

百度MIP无论是目的(在搜索结果中返回极快速移动页面),还是原理(简化HTML、CSS、禁用大部分JS、资源控制、缓存等,参考上篇 Google AMP内容),还是推出步骤(先新闻,再一般页面),还有原页面与MIP页面的互相引用方法(加标签),都和Google AMP一样,甚至连官网的页面布局、菜单安排、技术说明里的内容,几乎都是一样的。

唯一的区别是,要调用的封装JS库改到百度自己的域名上了。具体细节看百度MIP官网吧,还是挺容易看懂的。

不过我没看到百度在搜索结果中怎样标注MIP页面,也没看到返回MIP页面的例子,也不知道哪些网站已经支持了 MIP,所以还不知道MIP结果是什么样子。知道的朋友告诉我一下。

我以前多次说过,很多SEO问,讲Google SEO对百度SEO有什么帮助?首先,我就不觉得这两者有本质区别。第二,近几年,Google有什么新算法,百度基本上很快会跟上。Google有Panda, Penguin,百度其后就有了石榴绿萝,Google推出针对广告过多的惩罚,百度也随即推出。关注研究Google算法和优化,就是研究不久之后的百度算法,就算只做中文网站SEO,能提前准备,何乐而不为呢。

看来,百度MIP的推出,是以实际行动为我这个说法点了个赞。

8月22号晚更新:

下午百度站长平台的朋友发微信给我,提供了MIP的实例。在手机搜索“里约奥运会”就能看到MIP效果,排在最前面的应该都是MIP页面,虽然没有标记。速度不错。从URL看,显示的页面内容应该是百度服务器上的缓存。如下图:

百度MIP实例

姜东栋:HTML5中SEO可以用那些代码来做优化

虽然HTML5还没有最终确认,但是我们做SEO的还是应该提前了解一下。

头部代码

1、标题标签(title标签)

在HTML5中标题标签依然存在,其仍然具有不可替代的作用;不过我们看到还有更多的可供搜索引擎识别的代码,我们将改代码的等级微降。

2、元标签(meta标签)

字符集编码声明标签

该标签原本就是搜索引擎必看且首先要看的标签,其他属性都省略唯独留下charset属性能看到google公司用心良苦。

网页描述标签

该标签虽然没有什么提示,但是该区域的内容将会在SERP显示,其重要性不应该被忽略。

HTML5布局

   正文代码

1、头部标签(header标签)

这块区域之前以logo居多,而从目前的情况来看,很多资料都建议在这类使用标题1或2标签,即H1或H2标签。我们认为未来每个网页只会出现一个H1标签,而他的位置就是位于header标签内。该区域我们不建议使用strong标签,不要使用b标签。

2、导航标签(nav标签)

nav标签内基本上都是a标签,而HTML5中不应该靠添加title标签来进行优化,我们建议是用strong标签。

3、文章标签(article标签)

article标签区域,我们可以使用h2标签,而不建议使用h1标签。基本上有多少个article标签就可以使用多少个h2标签。PS:可把SEO乐死了,估计黑帽又找到作弊的地方了。

而article标签区域的section标签将会替代h2标签链接过去的URL的title属性,这块区域的文字有可能将成为目标URL的description内容,即有可能会影响目标URL在SERP中的描述。

4、左或右侧标签(aside标签)

aside标签的文字信息与article标签区域的文字信息需要匹配,如果关联程度不大,可能会影响到该页面以及目标页面的排名。这是在HTML4中很多SEO忽视的一块区域,而这块区域的关键词对本页面可能影响不是很大。因为aside标签的内容基本上都属于公共内容,即会有N多的页面都有该内容。

 

5、底部标签(footer标签)

footer标签区域的内容对首页的排名将会增加,而对于内页来说搜索引擎将有可能会视而不见。不建议每个web的footer信息都是独立的,这或许意味着新的黑帽手段将会出现。

6、其他标签等

video标签中间区域的文字信息将会让搜索引擎读懂视频,这是一次飞跃。不过也为黑帽SEO节约了一笔不菲的时间。

audio标签作为类似img一样的单标签来处理感觉的确有点过分,这样对于音乐可能会有很多障碍,不过音乐里面基本上没有几个关键词,也就不再网页搜索引擎优化的研究范围了。注意下该标签上下文的关键词即可。

time标签可能会作为一个来判断网页文字源,也就是能够通过time标签来识别那篇文章是原创的。而time标签可能将是成为HTML5时代SEO们整理不休的一个标签。

noscript标签将会被大量使用,因为HTML5时代将会是一个富媒体时代。传统的文字、图片、链接、视频、音频可能已经满足不了用户的需求,大量的脚本能够编辑出丰富的信息,包括游戏、个性化设计等等。

总之,一个新的时代即将到来,SEO们将会有大量的工作要去处理。

PS:原创的文章,请不要删除掉版权信息,加个链接不会怀孕也不会破产。——姜东栋语^_^


HTML5 对 SEO 有哪些影响?

HTML5与搜索引擎优化