谷歌(Google)改写搜索引擎规则以打击黑帽SEO的机器智能是如何实现的?

[复制链接]
1356 0
fk520 发表于 2017-5-26 20:57:25 | 只看该作者 |阅读模式 打印 上一主题 下一主题
问题描述如下:

In the past couple of years, Google has deployed a wave of algorithm updates, including Panda and Panda 2, Penguin, as well as updates to existing mechanisms such as Quality Deserved Freshness. In addition, Google made it harder to figure out what keywords people are using when they search. The onslaught of algorithm updates has effectively made it increasingly more difficult for a host of black hat SEO techniques — such as duplicative content, link farming and keyword stuffing — to work. This doesn’t mean those techniques won’t work.  via In Mastering Machine Intelligence, Google Rewrites Search Engine Rules
中文翻译:谷歌掌握“机器智能”:改写搜索引擎规则
这项技术的实现意味着什么?

参考答案如下:

谢邀!最近一直在研究搜索引擎的内部架构以及具体实现,对这个问题有一点发言权,仅供个人参考。
Google的每一个算法更新都是有针对性的,比如说Panda主要针对低质量的内容,Penguin主要针对垃圾外链。为什么谷歌要更新算法,因为有太多的人利用技术的漏洞来获利,使得搜索结果质量变差,长此以往,用户肯定会转向其他搜索引擎。 额,貌似有点扯远了,咱言归正传。

所谓的机器智能,其实就是谷歌利用其掌握的大量原始统计数据(GA/GWT),通过数据挖掘和机器学习算法,找到黑帽(spamming)网站一些通用的特点(大量的垃圾评论,论坛灌水,隐藏链接,跳转等等),形成一个模型,如果你的网站符合某个模型(filter),那谷歌就可以判断你的网站违反了它的某些规定,然后给你网站相应的惩罚(-6,-30,-50,-1000, deindexed)。

刚开始某个算法出来的时候,其实误伤率是很高的,因为数据量还不够。随着时间的发展,这些模型通过不断的训练,准确率逐渐提高,基本上你只要违法了它的算法,离被惩罚也不远了,所以新的算法出来之后,一定要及时的调整,不要有侥幸心理。

以上讲都是些皮毛,有兴趣的话,可以从以下几个方面去了解这方面的详细信息:
搜索引擎的架构,原理及实现
概率论与数理统计
机器学习原理

参考答案如下:

谷歌(Google)改写搜索引擎规则以打击黑帽SEO的机器智能是如何实现的?,三色源码网 谷歌(Google)改写搜索引擎规则以打击黑帽SEO的机器智能是如何实现的?,三色源码网
这是万维网的蝴蝶型结构图

(1)蝴蝶的中部(SCC,Strongly connected component)

   这种类型的网站,就算网页被砍掉一些,他们的网站的页面,也能够被搜索引擎检索到,不会造成一些页面永远不会被搜索引擎检索。

(2)蝴蝶的左部(IN)

   这种网站就是类似于http://hao123.com类型的目录型网站,又叫做导航站。

(3)蝴蝶的右部(OUT)

   这种网站是非常权威性的站点,例如163、新浪等……

(4)蝴蝶的须脚(tendrils)

   这种类型的网站结构十分的脆弱,一旦某个网站节点被删除,那么整个网站就出现了一种断层,搜索引擎就无法遍历整个网站的页面。

好了,现在我们了解了,网页大致被分为权威性的网页和目录型的网页。

如何解释panda、等反黑帽算法呢?

这个就要我们从搜索引擎的工蜂,也就是我们简单所说的爬虫。

爬虫是如何工作的?(网络爬虫基本原理(一))

首先我们理解了,爬虫是将万维网上得内容,抓取到索引库。

那么关于内容的分析和处理,到底是在抓取之前就完成了?还是再抓取到索引库以后完成的呢?

1.索引库资源分析。


如果给爬虫下达指令,叫爬虫(老子不管你什么内容,你全给我抓进来,我索引库进行分析处理。)
那么就会造成一种情况,导致索引库日分析数据量非常庞大,占据大量硬件资源,所以如果我作为一个搜索引擎工程师,我绝不会将内容放到索引库进行分析。


1.爬虫资源分析


爬虫会根据上图的万维网结构理论,将它抓取到得网站,进行归类,例如它在抓新浪网的时候,会以一种模式,这种模式就叫“权威网站抓取模式”来抓取新浪网,所以这种类型的网站,他不管你内容有没有问题,爬虫都不会进行分析和处理,直接丢进索引库。

那么你会想问:“那改天新浪网也出现垃圾内容怎么办?”

我会说:“他娘的还能怎么办,google的索引库管理员会人为的干预,干掉新浪网,这就是所谓的人为投诉。。。”

所以,当爬虫发现新网站的时候,也会遍历一次新网站的目录,然后将新网站丢入万维网蝴蝶结结构中得某一个部分。

然后爬虫又换了一种模式,比如说叫做“检测模式”,这个模式下,google的反作弊分析程序和垃圾内容分析程序,才会启用,这样才能节省google自身的爬虫分析资源。


3.垃圾内容检测

google分析伪原创,原理可能非常简单,例如说利用标点符号比如说用文章的句号,来遍历搜索索引库中得其他文章,是否匹配句号、逗号的匹配度。

4.总结

  搜索引擎的爬虫通过网站的类型启用相应的反作弊程序,以节省资源,这个程序,说白了,就是以人工智能的方式来读取文章、内容,但是这个人工智能算法…………

  搜索引擎永远不会告诉你!!!!!!!!!

  因为搜索引擎也在赌博。。。。

  赌什么?!

  例如一开始,百度就靠文章中又“本文章内容首发于XXXX,如有转载,请注明原创。”

  例如一开始,靠分析<b>标签和<keyword>标签来判定网站的主要内容。

  但是自从这个算法被发现以后,所有人都他娘的去作弊了!!啊,尼玛啊!!

  搜索引擎一直在用算法和你们这群贱人在赌博,你们饶了他好吗?!

  百度是中国的企业,小气吧啦的,哪有那么多算法工程师和你们干仗啊?!

  希望大家不要作弊了…………好好做正规站……

  google不一样,他娘的数据中心遍布全世界各个角落,连撒哈拉沙漠都有。

  他们的爬虫的计算速度,和抓取速度和我们不是一个档次的啊!尼玛。

  有种去草google,别草百度好吗?!

另外,搜索引擎根本不是用算法来识别是否作弊的。

是通过特征来识别作弊的,例如杀毒软件查询一个文件是否是木马病毒文件的时候。

他会通过某个文件的一个JMP或者花指令来识别一个文件是否是木马或者是病毒。

这一点360显然做得更高科技。

360看到病毒和木马,首先将文件的md5哈希值加入到特征代码库,来判断是否是病毒,以启用到马上灭杀的效果。

但是一旦这个木马进行了md5哈希值自动更改,自动排序,那360的病毒分析师就会进行二次分析。

并且!!!

并且这个木马、病毒的感染量到达了一定级别的时候,360就会进行二次分析。

第二次分析就是分析这个木马的执行特征,加入某个注册表,注册了哪几个dll。

还要对木马文件进行特征码定位。所以虽然说360误杀的几率是比较高的。

搜索引擎识别一个页面是否是作弊,也是通过网站HTML、JS、css代码的特征代码来识别的。

所以……

哪里算是什么鸟JB人工智能?!

浮躁的人扯出的蛋而已。。。

8月12号增加的回答
--------------------------------------
(抱歉,我之所以用360做例子,因为我想要表达的更生动一些。)

1.机器智能学习

你要说到搜索引擎爬虫的检测作弊模块,是否有自我学习并且自动增加判断条件的功能?

当初本人研究杀毒软件查杀和木马查杀的时候就有思考过这个问题。

其实你要说到自我学习,很多大企业其实都掌握的,但是不可能像你说的那么夸张,那么唬人。

例如说苹果的siri,他能够根据你个人的口音,来判断递归你说的含义。

例如说360安全卫士的主动防御,和检测钓鱼欺诈的网站,其实也是一个原理。

我就举一个最最最简单的例子,360如何鉴别一个网站是钓鱼页面。

首先,他会通过域名,和页面的title,desc来判断你的描述信息和标题是否和相似站是否一致。

如果你做一个qq钓鱼页面,你会怎样设计?我相信你肯定是写成http://aq.qq.password.com类似这样。

其实你的主域名是http://password.com

如果说这个站点知识title和描述和http://qq.com一样,那么他只会友好的提示这个是钓鱼网站。

如果这个网站确实有人受骗过,通过QQ聊天窗口的举报,或者是通过其他途径的举报。

(这些大公司的数据都是共享的,但是QQ貌似已经有QQ管家了)

然后360会确认这个网站是钓鱼站点,他将这个站点的信息提交给百度,百度会在搜索引擎的检索结果里面提示这个是(钓鱼网站,危险!)

搜索引擎合作策略

明白了吗,其实看你网站是不是作弊,搜索引擎他不一定要结合爬虫抓取的数据来检测你的网站。

他们更多的是通过一些综合性的数据,例如和360、qq、豆瓣、新浪微博等客户端的软件,或者是社会化媒体的力量,来鉴别你的网站是否是作弊。

你一个网站外链发了几千几万条?你说会不会被k掉?

而这些个外链,很可能是正常的外链,搜索引擎就这么武断的K掉你的站?

不可能,他们一定、并且,是通过一些手段(你不可能知道的技巧。)

结合数据分析(这个数据分析当然交给机器去做了。)

一系列的流程判断(非常严谨、非常正规)来决定你的网站是否应该不应该被k掉。

结束语:在这个黑暗的年代,管你的站是不是正规,是不是作弊,只要你的站涉及了某些权贵的利益、呵呵呵…………

google说:“我们绝不使坏。”

老子信.
温馨提示:资源转载网络个人收藏,如有侵权或下载链接失效或密码不对请联系站长

1、在论坛里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、论坛的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,论坛均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,论坛不负任何责任。
5、注册会员通过任何手段和方法针对论坛进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。
收藏
收藏0
回复

使用道具 举报

*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

专注源码资源免费分享
只要有下载币全站均可下

私人收藏网站非买卖网站

周一至周日9:00-23:00

反馈建议

282865654@qq.com 在线QQ咨询

赞助我们享尊贵分享

Powered by X3.3© 2019-2029 3se.cc Inc.( 京ICP备14050279号-2