首页 --> 网站优化
成功案例分类
自助网站型    更多案例

一点通案例

手工定制网站

WAP手机网站

行业门户网站

商城网站案例

联系我们

电话:010-64681504 010-64684094

传真:010-64673024

邮箱:888@edo2008.com

24小时值班热线

手 机: 013693193565


搜索引擎如何抓到抄袭的数据

最近受到IEEE的国际研讨会之邀,替他们审核稿件,看这些投稿的问斩是否符合国际水准以在研讨会发表。看了这些来自各国的所谓高级知识份子的文章后,赫然发现了一般学生常发生的“COPY-PASTE”竟然也在这些教授学者间发生了。

 

当个审稿者最头痛的就是无法精通各种领域,就算是在某个领域精通,当你看到一篇应该是你精通领域的文章,但你竟然看不太懂某篇看似很有调理的文章时,你会有点迟疑:这篇文章到底是超乎水准,所以才看不懂?还是真的是狗屁不通才让你看不懂?有时真的会很怕误人前途,把别人呕心沥血之作退稿,更怕的是把粗略的问斩流传出去,让后面可怜的博硕士生去看这些垃圾内容。

曾经看到一篇旁征博引的问斩,里面的数学公式更是证明详细,但是看完之后总觉得数学式表示得怪怪的,并且谈的内容似乎应该是五六年前的东西,但是因为论文的格式是在四平八稳,因此卡在退与不退之间徘徊,就这样迟疑了一个星期。后来实在难以决定,因此使用了docoloc。

 

Docoloc主要是用来判断文章是否为剽窃之作,它可以与网络中上百万篇文章作比较,计算出剽窃的比例。笔者把审查中的论文通过docoloc检查,发现该论文果然是抄袭别人多年前的论文,剽窃比例竟然高达50%以上,而数学公式的上下标因为COPY-PASTE的关系,没有正确呈现上下标的格式,难怪总觉得怪怪的。

 

再使用docoloc来检查其他各篇的论文,虽然不算是完全剽窃,但竟然也出现许多是整段文字的COPY-PASTE,大概是引用别人观点时,懒得自己再叙述,不敢置信的是一般学生常发生的“COPY-PASTE”竟然也在这些教授学者间发生。

 

技术日新月异,不管是学术论文还是网络上的创作。不要以为抄得神不知鬼不觉,现在的模糊搜索、相似度检查等技术,已经让抄袭不再像以前一样那么容易了,应引以为戒,停止COPY-PASTE的习惯吧。

 

标准链接元素

搜索引擎最不喜欢的事情就是浪费效能,因为要让全球的使用者能够快速地利用搜索引擎来寻找到数据,已经需要太多的资源,如果把资源用在重复的内容上,更是不可原谅的事情。为了不让搜索引擎白做工,google、yahoo!、maicrosoft live在2009年2月12日宣布支持标准链接元素,目的就在就绝内容重复的问题。

 

什么是标准链接元素?标准链接元素就是告诉搜索引擎,众多不同的链接请当成同一个入口,进入到一个相同的网页。

 

例如:
http://www.domain.com/index.html
http://www.domain.com
http://domain.com
http://www.domain.com/index.html?sessionid=hfjsklahdf7678234681

对于搜索引擎来说,以上网址可能都被视为不同的URL。造成这种情况,可能是无意的也可能是故意的,但是这样会造成搜索引擎浪费时间与空间在做同样的事情,标准链接元素就是要解决这个问题。

 

如果这些URL内有一下这个宣告,也就是canoniaal link element。

它告诉所有由不同URL进入的搜索引擎,http://www.domain.com/index.html是这个URL的统一标准进入点。如此一来,搜索引擎就只需索引一份数据。但是这个标准链接元素宣告,对于一般使用BSP的博客的博主来说,并没有太大意义,因为博主可能无法自己去宣告,这个完全控制在blogger framework或CMS上,所幸这些系统陆续会把标准链接元素加入它们的系统中。

 

关于标准链接元素,搜索引擎的公告;
http://googlewebmastercentral.blogspot.com/2009/02/specify-your-can-onical.html
http://www.ysearghblog.com/2009/02/12/fighting-duplication-adding-more-arrows=to-your-quiver/
http://blogs.msdn.com/webmaster/archive/2009/02/12/partnering-to-he-lp-solve-duplicate-content-issues.aspx

其他关于标准链接元素的信息:
http://www.mattcutts.com/blog/canonical-link-tag/