企业网站建设

建站知识

今日已发布信息: 239202
累计注册用户: 48690820

网站权重始终提升不上去

一个网站 搜索引擎

概述: 获得一个不错的权重。   我们都知道,搜索引擎越来越注重网站的内容质量,然而你却发布着那些敷衍了事的翻译内容来提交给用户和搜索引擎看,你觉得用户都是傻子吗?你觉得搜索引擎蜘蛛查看的用户行为都是摆设吗?所以伪原创内容可以,但是一定要保证内容的质量和可读性,否则的话你的行为,只会给你的网站日后留下祸根。

  我们都知道,一个网站的成败取决区在搜索引擎中的排名,而一个网站如果没有权重就根本不可能会有排名。
所以对于我们站长而言,不能够只是单单的从表面工作而去优化我们的网站,而是需要多多去注重优化中的细节性工作。
那么为什么你的网站权重一直上不去呢,小编在这里分享几点原因供大家参考。
  如果你的网站是新站,那么不用担心,搜索引擎对于一个新网站,都是有一个考核期的,通常在考核期中是不会有什么权重,更谈不上会有排名,所以在这个阶段,大家请勿着急,一步一个脚印的用心维护我们的网站,只有这样才能够早日度过考核期,获得一个不错的权重。
  我们都知道,搜索引擎越来越注重网站的内容质量,然而你却发布着那些敷衍了事的翻译内容来提交给用户和搜索引擎看,你觉得用户都是傻子吗?你觉得搜索引擎蜘蛛查看的用户行为都是摆设吗?所以伪原创内容可以,但是一定要保证内容的质量和可读性,否则的话你的行为,只会给你的网站日后留下祸根。

 

  上海中小企业建站  管道支吊架   今日推荐免费建站   分类信息   新密网站建设公司

 


  外链对于一个网站的权重提升,不得不说,确实有非常大的帮助。
但是外链,也是分质量的,一个优质的外链会给我们的网站带来帮助和权重,然而一个垃圾的外链相反的也会给我们的网站带来危害。
蜘蛛通过这些不信任的网站访问你的网站,相信它也不会给你好脸色看的。
所以做外链对于一个网站权重的提升固然重要,但是一定要做优质外链。
例如说在同行业的优秀网站投稿,一些博客的维护,这些都是不错的,切勿只为追求外链数量而做大量的垃圾外链。
  很多站长为了多多给自己网站挖掘流量,而大量的做一些与自身主题不相符的内容,例如说你是做游戏类网站的,却天天在网站发布一些药品相关的文章和咨询,这样对网站来说是不行的。
所以,你的网站想要做行业的领头者,必须要明白,一定要做与自己主题相关的文章,否则一些都是白扯。
  适当的优化有助于我们网站权重的提升,但是如果优化过度了反而会起到反效果。
不管任何事情,都是有一个度的。
例如一些美文类型的网站,因为TAG标签分类的众多,很多站长就会在发布文章的时候,利用自动内链插件,大量的添加一些TAG标签的锚文本,以为这样做内链,可以提升TAG栏目的权重。
但是事实恰恰相反,俗话说的好,物以稀为贵,你这样大量的添加,不但不会让搜索引擎觉得稀罕,反而会认为你是在作弊,大量的堆积内链,导致网站内部优化过度。

 

返利网站再受重创:不能显示返的佣金多少了

10月底执行,回收淘客conver接口,统一用淘点金实现,并且items.get 商品接口不返回佣金数据了,返利网站也倒霉了,用户确认订单前无法得到商品的佣金数据,不能显示返多少了。看这架势围绕着淘宝赚钱的基本都要死了。

@鲁振旺: 淘宝小而成长,导购为淘宝做贡献,淘宝大而增长慢,淘宝为导购做贡献,导购为对手做贡献,所以长期趋势必杀之,不要侥幸。

以下是公告原文:

亲爱的淘宝客:您好!

为了进一步提升商家和消费者的购物体验,即日起阿里妈妈将和大家一起共建健康、安全的淘宝客开放体系。我们将对淘宝客(含买家应用)API开放政策进行整体升级,从用户数据和交易安全方面,全方位保障消费者的购物环境。

同时,阿里巴巴集团将开放淘宝优站、爱淘宝等购物分享平台,全面配合我们淘宝客开放体系建设,并成立5亿美元规模的阿里合作伙伴开放基金,通过资金和数据帮助大家共同成长,为消费者找到真正的“小而美”商品和商家,让好的商品和诚信的商家浮现出来。

阿里妈妈期待和大家一起携手共建一个开放、透明、分享的电子商务营销生态圈!

若有任何疑问,请联系阿里妈妈客服 ,感谢各位的支持!

阿里妈妈(原文地址)

六个快速寻找长尾词的技巧

  在一个网站的内页中,每个页面都是有自己的标题,而这些标题就是网站首页关键字的衍生,就是我们常说的网站长尾关键字,这些长尾关键字在网站中起到很大的作用,当你确定网站首页关键字后,就可以通过这些关键字进行长尾关键字的衍生了,网站需要有文章的支撑,而这些文章标题的选择就是长尾关键字进一步优化得来。一个网站的长尾关键字成百上千的,我们在寻找网站长尾关键字的途径有哪些呢,现在笔者就给大家介绍下六个快速寻找长尾关键字的方法。

  一:百度竞价后台,百度竞价是比较费钱的,有的公司可以进行百度竞价的推广,当你有机会进入百度竞价的后台,你会发现在百度竞价后台管理数据库中可以得到很多跟自己网站关键字相关的长尾关键字,我们可以把这些关键字进行收集整理,进一步筛选适合自己的关键字,通过这些关键字来编辑文章等等。

  二:浏览页面找长尾关键字。我们在上网浏览网页的时候,当你在浏览网页之前有在百度搜索中搜索关键字,你会发现自己看的网页左右上下弹出的广告栏目中会出现跟自己刚刚搜索关键字有关的广告,有的广告是以图片链接形式出现,有的广告是以文字链接形式出现的,你可以注意看下这些文字,一般都是字数比较长的,有的还是带疑问形式出现,事实上这些也是长尾关键字,这是因为在百度竞价中有网盟竞价这一栏目,当用户在百度搜索引擎中搜索关键字的时候会记录用户搜索的信息,在接下来用户打开的页面中不管页面主题有没有跟之前搜索关键字相关都会出现参与之前搜索该关键字的广告投放者投放的广告,这些文字形式的广告也是我们收集网站长尾关键字的一个方法。

  三:研究竞争对手的网站,我们可以通过研究和自己网站主题相关对手网站,通过一些站长工具分析他们的网站大致情况,也可以得到一个不小的数据,对这些数据进行整理,一份长尾关键字就这样诞生了。

  四:通过一些站长工具。现在网上有很多站长使用的工具,通过这些站长工具可以获得一些长尾关键字,通过输入一个简单的关键字就可以帮你收集到很多相关的长尾关键字,有的在搜索结果中只能看到搜索结果第一页,需要注册才可以看到或是下载全部数据,这个难度不大的。

  五:各大论坛贴吧问答平台的收集整理,在论坛,在贴吧,在问答平台中都可以找到很多网友提问的问题,在这些问题中也会出现一些包含关键字的标题,这个也是长尾关键字,在问答平台中收集的问题都比较精准,也有不少网站优化者自己做上去的,这个要会判断。

  六:通过百度等等搜索引擎下拉栏获取,在搜索引擎中搜索关键字会出现近30天内和该搜索有关的关键字,这些关键字也可以作为长尾关键字,由于在搜索引擎中关键字是可以通过刷出来,所以要学会判断,具体方法可以通过百度指数查看这个关键字近期起伏情况,如果这个关键字在近期数据暴涨,那就有可能是通过刷出来的,这个时候就可以放弃这个关键字了。

  以上是笔者经常使用的寻找长尾关键字手法,当然在寻找长尾关键字中还有其他方法,比如通过在主要关键字上加上一些疑问词,比如怎么样,哪里好等等,这样也可以创造出长尾关键字,但是这样的方法找的长尾关键字比较少,有局限性,所以笔者不常用,在以后的网站优化中如果碰到更好的办法再和大家一起分享。

怎样更好的利用Baidu产品推广本人的网站

  首先百度自己旗下的百度知道、百度帖吧、百度文库、百度百科、百度词条、百度空间等产品自从推出后就受到了广大站长的喜爱与欢迎,很多Seo提到对于百度的平台推广有些疑问,是否会造成网站降权,中网团队告诉您,我们经过实战测验,无任何副作用。效果非常好。百度,世界第一大中文搜索引擎,为中国1.5-2.5亿网民服务。是互联网界的龙头大哥。我们今天就教站长如何利用百度自身的资源推广我们自己的小站。

  首先是百度帖吧。现在根据国家法律法规已经和谐要求注册后才可以加入一个热门的帖吧。我们可以从一些审核比较松的地方下手,一般游戏界的帖吧管理的比较松一些。我们在百度帖吧注册十至二十个帐号来养号,平时发帖,引起关注。等养到一定程度后,你发一些外链帖就不会被删了。也会更高的引起关注度,从而带来IP。

  百度知道,做百度知道自问自答已经有四个月了,效果一直很好,之前有些Seo的高手们曾探讨说,做百度知道挂连接会被K站,我们实战四个月,并不是如此。排名已经节节升,每天百度知道回来访300IP以上,尽管这不是很多,但是我们依然觉得小有成就。在做百度知道前,准备八个帐号,平时积极回答别人的问题,最初不要带连接地址,等到养号级别高后,回答符合中心思想的问题。然后带上一个文章页的连接,切记不可带首页整站连接。否则是会有降权的迹象。

  百度文库,这是百度最新开发的一套程序。里面的内容丰富多彩,这个比较适合做关键词。我们可以从文章中重点的阐述一下自己网站的关键词,前提条件是我们的网站必须是该关键词排名第一的站,否则无任何效果。

  百度百科,实战四个月,效果显著。首先我们说下什么是百度百科,百度百科就是一些资料的简介。例如人,电影,明星等,或是其他的一些产品等等的介绍页面。我们可以从新编辑百度百科然后在相关连接中加入我们的网站地址,百度的PR是非常高的,能为我们做一个外链,对排名也是有所帮助的。

  百度词条和百度空间。首先百度词条我们目前做了三四个月,目前没有特别好的效果,等待有好效果了,再拿到今日推荐网站长网与大家分享,我们来说下百度空间,百度空间可以经常发一些日志,养到一定的访问量后,可以在文章页中插入广告,也可以在百度空间中挂其他的广告。要求非常高,容易被K号。注意安全。

  百度并不是老虎屁股摸不得,而是要掌握真正的技巧。本文中提到了几种关于百度推广方式的技巧与手法。希望可以给新手站长一些帮助。

怎样让Baidu快速收录新发布内容

  首先我在谈百度对站点新发布内容快速收录问题上,给大家说下百度对站点收录抓取原理,方便大家更好的理解下面的列举的实例。

  关于百度的收录问题

  很多朋友在论坛里发帖说自己的网站看了IIS日志后有被百度蜘蛛爬过但是没有收录的问题,这跟百度的搜索引擎的原理是有关系的

  首先,搜索引擎会建立一个网页地图(Webmap),记录互联网的链接结构,再使用网页抓取程序(Robot)根据网页地图来抓取(Crawl)质量好的网页,存储到网页快照数据库中。然后,索引程序(Indexer)会将快照数据库中的网页编号存储到网页索引数据库中,在这个过程中,会利用相关技术去掉作弊网页(Spam)。当用户输入一个查询词搜索时,查询程序会使用这个查询词到索引数据库中比较,经过相关性计算后,按照相关程度对网页进行排序,相关性越高的排得越靠前。相关性的计算是包括各种因素的综合结果,例如:网站标题或网页内容对查询词的匹配、网页被链接的次数等。所以大家只要耐心等待搜索引擎的下次更新就可以看到自己的页了

  同时百度对新内容收录问题还出现这样情况:“如果之前做了竞价的,现在不做了。但是不做了以后,百度就没有收录了”。

  这个问题曾经有SEOer问过百度的工作人员,他们是这样说的:

  1、如果你之前做过,但如果用作弊行为,即使在做竟价也不会被百度收录了。

  2、如果你做竟价,停掉后,收录也没有了,说明你做的时间短,他们说如果做半年以上是一定可以收录的,但我不相信他们这样说。还要看你自己站点的情况,是新站,还是老站,是一直都没收录,还是收录过,根据具体情况做分析。

  以上是遇到的一些SEOer问题进行总结,希望给大家参考学习。

  下面我针对个别案例分析下“如何让baidu快速收录新发布内容”:

  首先看下58生活服务导航站点生活指南部分内容,09年高考刚结束,想到面临高考分数查询的朋友很多,所以就新开了一个高考分数查询栏目类别:

  下午花了半个小时的左右时间把这个栏目的类容填补了进去,然后推荐到北京导航首页,右侧看台位置,大约时间是在下午3点左右,半个小时后,我在百度site:010.58.com/gaokao/发现已经百度收录了将近33篇文章,机会是90%的收录率。

  大家一定很疑惑吧!为什么这短时间会被百度收录,同时收录率是相当高的,下面看看我通过这个百度快速收录的问题总结如下几点提供参考:

  1,首先我是在生活导航首页推荐了这个新开的栏目,北京生活导航首页,pr5,alexa从08年的1120提升到659位相信这个首页的权重是相当的可观的,我把新开的栏目推荐到首页得到高权重的外链支持,会被百度快速收录。这点我觉得没有疑问,大家在今后发布新内容可以拿自己站首页推荐试试效果。

  2,然后具体看我推荐和发布的时间,大家看看我推荐的时间是在下午3点左右,具发现百度一般更新时间有在下午3到4点左右对数据库更新,我这个点正好是他们更新数据库就吧我刚发布的内容收录并显示出来了。

  曾经我也怀疑过我判断的这个时间点有错误,特意做了一个实践,我不在他们更新的时间内我推荐了一个页面到北京生活导航首页,半个小时候后我查看过,但是没有被百度收录,这点我不敢100%根据这一个时间就肯定说百度数据库更新时间在下午4点左右这个点,因为任何事物不能一篇概全,就如我说半个小时收录了90%,但是其中还有10%的没有被收录一样,或许我实践的这个页面正好是那个10%之中的一个呢!所以我判断的这个百度数据库更新时间点只能提供大家参考,希望大家也多实践来证明这点存在准确性。

  3,最后是我另做了一个小的实践,证明我第一点的判断,我在做生活指南中医疗这个栏目的内容的时候:“北京301医院地址电话乘车路线一览”

这些年,这些挖掘机算法,这些反思

  写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较的就是,由于boss不在,我们讨论讨论着就成了吐槽大会,倒是有一半时间在吐槽产品以及业务部门了~~不过这也算是一件可喜可贺的事情了,这也可以看做是我们数据部门,已经由开轻型挖掘机向深挖阶段迈步了。

  

 

  因此,借此机会,也对自己接触过的,了解过的,或者做过的一些勉强称得上算法的东西做一个梳理。其实,就个人来说,本身就不是做算法出身的,在大学时代,学习的反倒是网络方面多一些,更不知数据挖掘算法为何物。

  其实,就所谓算法而言,个人认为,我有个同事说的很对:所谓算法,并不是说那些复杂的数学模型才是算法,哪怕是你写的一个简单的计算公式,只要能够解决现有业务的痛点,有了自己的模型思路,它就是一个算法,只是它可能不够通用,只能解决特定业务需求而已。

  在大规模的数据前提下,其实很多复杂的算法过程,反而效果没有这么好,或者说,我们会想方设法去简化其过程。

  举个简单栗子:假设有一批大规模数据集,就以近千万篇博文为例。如果提供一篇博文,让你去查询与其相似度最高的top N,那我们的通常思路是什么?通常的做法是计算这篇博文与其他博文的相似度,至于相似度的计算方法就很多了,最简单的就是计算其向量夹角,根据向量夹角判定相似程度。OK,就算你用最简单的计算过程,你试想一下,运算近千万次需要多久?或许,有的人说,俺使用hadoop,利用分布式的计算能力来完成这个任务,但如果实际操作起来,你就会发现这是一个多么蛋疼的事情。

  再举一个简单栗子(好吧,多吃点栗子):比如SVM,这是一种难以收敛的算法,在大数据的前提下,有些人希望使用它,但又希望使用更多的数据来训练模型,毕竟手里数据量太大,很多人还是希望使用尽量多的数据训练的,以达到模型更准确的目的。但是,随着训练数据量的增大,像SVM这种难以收敛的算法,其耗费的计算资源还是很巨大的。

  东拉西扯说了这么多,自个的梳理工作还没有完成呢!

  一、这些年,我开过的挖掘机

  (1)最早接触的应该是贝叶斯的分类了

  贝叶斯算是分类算法中最简单的算法了,初学挖掘机算法的人十有八九第一个爱上的绝对是它。其实,贝叶斯的原理真的很简单,就是依据统计学的最大概率原理。这么简单,但是就是尼玛这么好用,多年依然屹立不倒。

  训练过程就缺乏可陈了,基本上贝叶斯的都这样,由于是文本,所以一套流程下来,分词,去停词,作为最基本的知识点向量,然后就计算模型概率了。不过比较有趣的是,分类过程是放在Storm里头做的,相当于这是一个实时的分类业务。

  (2)说到了文本,自然少不了分词算法了

  其实说到分词算法,反倒没啥可说的。如今互联网上各种开源的分词工具,都已经做的很好了,效果也差不了多少,想进一步改进的话也够呛。至于说深入到分词算法的内部,涉及上下文法分析,隐含马尔科夫模型等东西,如果是个人出于兴趣去研究,那我没话说;如果是小公司,花费人力物力去优化分词效果,我只能说他们闲着蛋疼;如果是大公司,人家金多任性也是可以理解的。

  所以,至今来说,个人对于分词方面的东西,也仅限于初步了解分词算法的衍变,内部大概涉及的算法,以及几种分词工具的使用。

  其实,在文本挖掘方面,仅仅针对于文本的分词是不够的,因为我们使用分词拆分出来的单词,往往很多跟业务都是没有关系的,通常做法是,建立对应业务字典,至于字典的建立,当然也是需要分词的,再进行进一步的加工,甚至可能会加上一些人工的工作。

  (3)下一个就是实时热点分析了

  我也不知道这算不算是算法,说到实时,自然跟Storm又有关系了(好吧,我承认我是搞这个之后开始接触数据的)。说到实时热点,可能大伙儿都摸不着头脑,举个简单栗子就明了了。

  玩hadoop的童鞋都知道WordCount这个经典栗子,MapReduce在Map到Reduce的过程中,自动将相同的Key通过类似hash的方法聚合到一起了,所以,统计单词这个需求通过MR来做是辣么的简单。

  那Storm的实时WordCount呢?好吧,这也是一个能够记录到实时技术领域史书上的经典案例(好吧,其实它就是一个Storm的HelloWorld)。Storm虽然没有类似MR那种自动Hash的功能,不过它也提供了一种数据分组流策略,也能达到类似的效果,并且它不像MR那样是批量的,它是实时的、流式的,也就是说你能动态的获取到当前变换的单词词频。

  实时热点分析,如果我们把热点映射成单词,那我们是不是就可以实时的获取到当前Top N的热点了。这个方向可是有很大的研究价值的,实时地掌握了用户的热点导向,我们就可以动态的调整业务策略,从而衍生更大的数据价值。

  不过,总体来说,这个数据模型更多依靠的是Storm这个实时工具的本身功能,模型设计上的东西反倒是少了。至于说算不算是算法模型,就跟前面所说的那样,看个人看法吧,你说是就是了~~

  (4)国内很成熟的一种建模--推荐

  就目前在国内做数据挖掘的来说,可能分类与推荐是做的最多的两种方向。分类就不多说了,就比如刚才所说的贝叶斯,简直就是分类中的鼻祖算法了。

  可能一说到推荐算法,有人脑海里立马就闪现出关联规则、协同过滤、余弦相似性等这些词。这是没错的,但我要说的不是这个。其实个人想说的是推荐就两个方向:基于用户,基于内容。

  我们需要注意两点,我们推荐的对象是用户,或者说是类似用户这种有动作行为的实体;而推荐的东西则就是内容,他没有动作行为,但是他有不同的属性,或者用更砖业说法描述就是他必然有知识点。

  基于用户推荐,我们看重的不是内容这个实体,而是用户本身的行为,我们认为用户的行为必然隐含着一些信息,比如,人的兴趣导向,那么既然你有了相关的行为,那么我按照你的行为去给你推荐一些东西,这总是有一定道理的。

  基于内容的推荐,我们的侧重点则是内容,这就跟用户的历史行为无关了。我们潜意识的认为,既然你会看这个内容,那么跟这个内容有关系的内容,你是不是也感兴趣呢?或许这样说有失偏颇,但是大体方向是对的。

  至于之前说的那些关联规则也好,协同过滤也好,余弦相似性也好,其实就是研究知识点与知识点之间关系所建立的模型。

  针对于基于内容推荐,其知识点就是内容之中的各种属性,比如影片推荐,其知识点可能就是各种评论数据、点播数据、顶踩数据、影片类型、演员、导演以及其中的一些情感分析等等;又比如博文,其知识点可能就是一个个带权的词,至于这个词就涉及到词的抽取了,再说到词的权重,可能就会涉及到TFIDF模型、LDA模型了。

  而针对基于用户,其知识点最直接的体现就是用户的行为了,就是用户与内容之间的关系,不过深究下去,又会发现,其实跟内容的知识点也紧密联系,只不过这可能不止一个内容实体,而是多个内容实体的集合。

  (5)文本单词的加权模型

  前面正好提到了TFIDF以及LDA模型,所以顺带也就讲讲文本单词相关的加权模型吧。

  说到文本挖掘,可能大部分人都熟悉TFIDF模型,既然涉及到了,那就简单的说一说。我们知道,文本的知识点就是一个个的单词,虽然都是单词,但也总有哪个词重要程度高一点,哪些词重要程度会低一点吧。

  或许有人会说,出现多的词就重要。没错,那就是词频,简单的来想,这种思路并没有错,并且,早期的文本挖掘模型就是这么做的。当然,效果肯定是一般般的。因为那些经常出现的词往往都是一些没用的常用词,对文章的作用并不大。

  直到TFIDF模型的出现,才根本性地解决了文本挖掘知识点建模的问题。如何判断一个词的重要程度,或者专业点的说法就是判断其对文章的贡献度?TFIDF通过词的词频来加大词在文章中的权重,然后通过其在多个文章中的文档频率来降低其在文章中的权重。说白了就是降低了那些公共词的权重,把真正贡献度大的词给暴露出来。这基本就是TFIDF的基本思路了,至于词频权重怎么加大,文档频的权重怎么降低,这就涉及到具体的模型公式了,根据不同的需求进行调整就OK了。

  关于文章知识点主题建模的另外一种很重要的模型,那就是LDA模型了。它是一种比较通用的文章主题模型,它通过概率学原理,说白了就是贝叶斯,建立起知识点(也就是词),主题和文章的三层关系结构。词到主题有一个概率矩阵,主题到文章也有一个概率矩阵的映射关系。

  好吧,LDA不能再说下去了,再说下去就露馅了。因为,俺也不是很懂啊。对于LDA,虽然部门内部有在使用,但是我没有做过具体的模型,只是和同事讨论过它,或者更确切的说向同事请教过它的一些原理以及一些设计思路。

  (6)相似度计算

  相似度计算,比如文本的相似度计算。它是一个很基础的建模,很多地方就用的到它,比如刚才我们说到的推荐,其内部关联的时候,有时候就会涉及到计算实体间的相似度。

  关于文本的相似度,其实方法有很多。通常会涉及到TFIDF模型,拿到文本的知识点,也就是带权的词,然后通过这些带权的词去做一些相似度的计算。

  比如,余弦相似模型,就是计算两个文本的余弦夹角,其向量自然就是那些带权的词了;又比如,各种算距离的方法,最著名的欧式距离,其向量也依然是这些词。还有很多诸如最长公共子串、最长公共子序列之类的模型,个人就不是很清楚了。

  总之,方法很多,也都不是很复杂,原理都很像。至于哪个合适,就得看具体的业务场景了。

  (7)文本主题程度--信息熵

  曾经和同事尝试对数百万的博文进行领域划分,把技术博文划分成不同的领域,比如大数据领域、移动互联网领域、安全领域等等,其实说白了还是分类。

  一开始我们使用贝叶斯进行分类,效果还行,不过最终还是使用SVM去建模了。这都不是重点,重点是我们想对划分到某一领域下的技术博文进行领域程度判断。

  我们想了很多办法,尝试建立了数据模型,但效果都不是很理想,最终回归到了一个最本质的方法,那就是使用文本的信息熵去尝试描述程度,最终结果还是不错。这又让我再一次想到同事说过的那句话:简单的东西不一定不好用!

  信息熵描述的是一个实体的信息量,通俗一点说就是它能够描述一个实体的信息混乱程度。在某一个领域内,知识点都是相似的,都是那些TFIDF权重的词,因此,是不是可以认为,一个文本其信息熵越小,其主题越集中越明显,信息的混乱度越低,反过来说,有些文本主题很杂乱,可能包含了多种领域的一些东西,其领域的程度就会降低。

  最起码表面上,这种说法是行得通的,并且实际的效果还不错。

  (8)用户画像

  用户画像这个方向可能是近两年比较火的方向了。近年来,各大互联网公司,各大IT企业,都有意识的开始从传统的推荐到个性化推荐的道路衍变,有些可能做的深一些,有些可能浅一些。

  商业价值的核心是用户,这自然不用多说。那么如何结合用户进行推荐呢,那就是用户的属性,那关键是用户的属性也不是一开始就有的,我们所有的只是少量用户的固有属性以及用户的各种行为记录。我们连用户是啥子里情况都不清楚,推个毛啊!

  所以,我们需要了解用户,于是对用户进行用户画像分析就很有必要了,其实就是把用户标签化,把用户标记成一个个属性标签,这样,我们就知道每一个用户大概是什么情况了。一些商业行为,也就有了目的性。

  至于说如何对用户的每一个画像属性进行填充,这就看具体的情况了。简单的,用几个简单模型抽取到一些信息填充进去;复杂的,使用复杂的算法,通过一些复杂的转换,给用户打上标签。

  (9)文章热度计算

  给你一大坨文章,你如何判断哪篇文章比较热,哪篇文章比较矬,换个说法就是,我进入一个文章列表页,你能给我提供一个热文章的排序列表吗?

  可能大部分的思路都很直接,拿到文章能够体现热度的属性,比如点击率、评论情感分析、文章的顶踩情况,弄个简单加权计算模型,咔咔就出来了。

  本质上这没错,简单的模型在实际的情况中不一定不好使,部分属性也的确能够体现出一篇文章的热度,通过加权计算的方式也是对的,具体的权重就需要看具体情况了。

  但如果这么做的话,实际上会出现什么情况?今天我来了,看见了这个热度推荐列表,明天我来了,还是看到这个列表,后天我来了,依然是这个列表。

  尼玛,这是啥情况,咋天天都是这个破列表,你要我看几遍?!不错,这就是现实情况,造成的结果就是,越热的文章越来越热,越冷的文章越冷,永远的沉底了,而热的文章永远在前头。

  如何解决这个问题?我们把时间也加入参考,我们要把老文章通过降权的方式,把他人为的沉下去,让新文章有出头的机会。这就是说,需要我们把创建时间也加入权重中,并且随着时间推移,衰减其热度权重,这样,就不会出现热的一直热,冷的一直冷了。至于衰减的曲线,就需要看具体业务了。

  这样就能解决根本问题了吗?如果文章本身信息量就不够呢,比如,本身大部分就是新文章,没有顶踩,没有评论,甚至连点击曝光都很少,那用之前的模型就行不通了。

  那是不是就无解了呢?方法还是有的,比如,我们寻找到一个相似的站点,他也提供了类似最热文章推荐的功能,并且效果还很不错。那么,我们是不是就可以借助它的热度呢?我们通过计算文章相似度的方法,复刻出一个最热列表出来,如果站点性质相似,用户性质相似,文章质量不错,相似度计算够准确,相信这个热度列表的效果也是会不错滴(这方法太猥琐了~~)。

  (10)Google的PageRank

  首先,别误会,我真心没有写过这个模型,我也没有条件去写这个模型。

  认识它了解它,缘自于跟几个老同学合伙搞网站。既然搞网站吧,作为IT人猿,一些基本的SEO的技术还是需要了解的。于是,我了解到:想要增大网站的权重,外链是不可缺少的。

  我跟我几个老同学说,你们去做外链吧,就是逮住网站就放咱网站的链接。他们问到:一个网站放的链接越多越好吗?放的网站越多越好吗?啥网站放比较好?这都不是重点,关键是他们问:为毛啊?

  把我问的那个是哑口无言啊,于是我一怒之下就去研究PageRank了。PageRank具体的推演过程我就不说了(况且凭借我这半吊子的水平也不一定能说清楚),其核心思想有几个:当一个网页被引用的次数越多时,其权重越大;当一个网页的权重越大时,其引用的网页权重也随之增大;当一个网页引用的次数越多时,它引用的网页给它带来的权重越低。

  当我们反复迭代路上过程时,我们会发现某个网页的的排名基本就固定了,这就是PageRank的基本思路。当然也有个问题需要解决,比如,初始网页如何给定其初始权重,高计算迭代过程如何简化其计算过程等等。这些问题,在Google的实际操作中,都做了比较好的优化。

  (11)从互联网上定向抓取数据

  其实我估摸着这跟算法没很大关系了,不过既然有数据的获取设计流程,也勉强算是吧。

  之所以有这个需求,是那段时间搞网站搞嗨了,给自己整了个工作室网站,想给别人尤其是一些小企业搭建包括轻度定制企业网站(是不是挺瞎折腾的-_-),也确实是做了几个案例。

  于是乎,俺就想啊,如何给自己找客户?工作室的客户应该是那些小企业的老板,并且还必须是目前没有企业门户的。作为一个搞数据的程序猿,并且还是开挖掘机的,虽然是半路出身非蓝翔毕业且无证上岗,但好歹是挖过几座山头的呀。

  如今是互联网横行的时代,他们总会在互联网上留下一些蛛丝马迹,我要把它给逮出来!我的目标很明确,我要拿到那些无企业网站的企业邮箱,然后做自己EDM营销(电子邮件营销)。

  1)我先从智联检索页面,抓取了企业规模小于40人的企业名称,事实证明智联招聘的页面还是很好解析的,都是静态的,并且格式很规整,所以很容易就分析出一批小企业的企业名来了;

  2)拿到了企业名,我如何判断这个企业已经有了独立的企业官网?通过分析,我发现通过搜索引擎检索这个企业名的时候,如果有企业官网的话,一定是在首页。并且其页面地址也是有一定规律的,那就是:独立官网的开头通常是www开头的,长度一般不会太长,收尾通常是index.html、index.php以及index.asp等等。

  通过这些规则,我就可以将那些有企业官网的企业名给pass掉了。其中遇到了两个难点,一个就是搜索引擎的很多页面源码都是动态加载的,于是我模拟了浏览器访问的过程,把页面源码给抓取下来了,这也是爬虫的通用做法;第二个就是,一开始我尝试的是通过百度去获取,结果百度貌似是有放结果抓取的一些措施,导致结果不如人意,于是我换了目的,使用的是360的检索,问题就解决了(事实证明百度在搜索引擎方面比360还是强了不少的),并且效果也差不多。

  3)解决了排除的问题,那根本的问题就来了,我如何拿到企业的企业邮箱?通过分析搜索引擎的返回结果,我发现很多小企业喜欢用第三方网站提供的一些公司黄页,里头包含了企业联系邮箱;还有部分公司发布的招聘信息上会带有企业邮箱。

  通过数据解析,终于拿到了这部分数据,最后还做了一些类似邮箱是否有效的基本解析等等。最终拿到了大概3000多个企业邮箱,有效率达到了80%以上。

  问题是解决了,但还是有些地方需要优化的:首先就是效率问题,我整整跑了近12个小时,才把这3000多个邮箱给跑出来,太多需要解析的地方,并且模拟的浏览器在效率上不高;其次就是对邮箱的有效不是很好判断,有些邮箱根本就是人为瞎写的;还有就是部分网站对邮箱进行了图片化混杂处理,即做成了类似的验证码的东西,防抓取,我没有对图片类的邮箱数据进行解析,其实这个问题也是有解决办法的,我们拿到一些样本图片,进行图片字母识别的训练,这样就能解析出其中的邮箱了。

  总体来说,这次体验还是挺有成就感的,毕竟在业余的时间解决了自己实际中的一些痛点,熟练了一些所学到的东西,或者说实施的过程中学到了很多东西。

  ps:github上检索webmite就是这个项目了,我把代码托管到了github上,或者从我的博客上进入。

  二、对自己做一个总结吧

  其实个人的缺点很明显,首先就是没有经过系统的数据挖掘学习(没去过蓝翔,挖掘机自学的),也就是野路子出身。因此对很多算法的原理不够清楚,这样的话,对于有些业务场景,可能就提不出有建设性的意见了。并且,对于很多算法库的使用,还是不够了解的。

  其次就是在数学功底上有所欠缺。我们知道,一些复杂的算法,是需要有强大的数学基础的。算法模型,其本质就是数学模型。因此,这方面也是我的短板吧。

  由于个人是由做大数据偏向挖掘的,基于大数据模式下的数据挖掘过程,可能跟传统的数据过程有很大的不一样。比如,数据的预处理过程,大数据挖掘的预处理很多依赖的是目前比较流行的分布式的一些开源系统,比如实时处理系统Storm、消息队列Kafka、分布式数据收集系统Flume、数据离线批处理Hadoop等等,在数据分析存储上可能依赖的Hive以及一些Nosql会多一些。反倒对于传统的一些挖掘工具,比如SAS、SPSS、Excel等工具,个人还是比较陌生的。不过这也说不上是缺点吧,侧重点不一样。总体而言,大规模数据的挖掘将会是趋势。

  三、给小伙伴们的一些建议

  说了这么多,前面的那些东西可能对大伙儿的用处并不是很大,当然对于开挖掘机的朋友还是有一定帮助的。现在我想表达的东西可能跟挖掘就没有直接的关系了,更多的给动物园动物(程序猿,攻城狮)的学习以及自我进化的建议。

  (1)为了学到东西,脸皮是毛玩意儿?

  对于这点,个人可是深有体会。想当年(好吧,这个词还是很蛋疼的),大学那会儿专业是信息安全,偏向于网络多一点,因此在语言方面更多的是c和c++,对于java可是连课都没有开的,说白了就是用java写个HelloWorld都不会。

  刚毕业那会儿,兴冲冲地跑去公司写c,结果不到一个月,新项目来了,需求变了(尼玛,开发最怕的就是这句话),变了就变了吧,尼玛要研究大数据,用c能干毛啊!一些个开源系统工具,十个倒是有九个是java写的。当时我就哭了!

  于是就纠缠着一个同组的伙伴,逮住时间就问他问题,有些问题在熟悉java的人看来,绝对是白痴又白痴的。但是对于初学者来说,绝对是金玉良言,人家一句话的事,如果自己去查找,可能是几个小时都搞不定。一个月之后,总算入门了,后面就轻松多了。

  往后的一些日子里,遇到了一些问题,总是会厚着脸皮缠着交流群中的一些大拿们死问,慢慢地就进步了。近段时间,开始学习scala,幸好旁边有个scala小高手,哈哈,可苦了他了~~

  所以,遇到自己不懂的东西,不要怕自己的问题简单不好意思问,一定要脸皮厚!你连这么简单的问题都不懂,你还有资格担心自己的脸皮?!

  (2)交流与分享

  对于交流与分享这点感想,缘自于2012年末研究Storm的那段时间。Storm在2012年那会儿,并不像今天这样火,研究的人也不多,无处交流,可用的资料就更少了,所以解决起问题来很费事。

  当然其中有几个博客给我的帮助还是很大的,包括了“大园那些事儿”、“庄周梦蝶”等几个博客,都是早期研究Storm并且分享经验技术的博客。当时我就萌生了写博客的想法。

  在往后的时间里,我花费了很大一部分精力,将我学到的Storm相关的东西整理了出来,并且由于当时感叹没有一个很好的交流平台,创建了“Storm-分布式-IT”技术群(群号191321336,主要搞Storm以及大数据方面的,有兴趣的可以进来),并把整理的资料、代码、经验分享到了平台以及博客中。

  由于我一直主张“进步始于交流,收获源于分享”这个理念,不断有搞技术的朋友加入到这个大家庭中,并且不断的把一些经验技术反馈到群贡献中,达到了一个良性的循环。 短短不到两年的时间,群已经发展到了千人,并且无论是技术氛围还是群员素质,在IT技术群中绝对可以算的上名列前茅的。

  就个人从中的收获来看,这种交流是能够学到很多的东西的,你要相信三人行必有我师,这句话是有道理的。而分享则是促进交流的基石,只有让大家意识到自己所收获的东西是源自于别人的分享,这样才能让更多的人参与进来。

  两年多来,我也一直坚持自己写博客,分享一些自己的经验技术,或者没有这么高大上,哪怕是对自己涉及到的一些技术做一个备份也好啊。我的个人博客站博客虫如今也有不少文章了,其他人能用到就最好,用不到,权当自己做的一个技术文档的备份。

  其实说了这么多,想表达的意思就两点:多多与他人交流,听取他人的意见;至于分享自己的所得,这就是

http://sh.kvov.com.cn/jzxx19128.html

消化不良的梦,预示性与情方面的事。
啊!春天我真是为你感到骄傲啊,你仿佛是一位年轻的妈妈用她那双沾满爱的双手去扶摸着她的孩子,春天你给大地披上了美丽的衣裳还给了大地希望。长言说的好一年之季在于春嘛。
教育如阳光,补充知识给养。
梦见交换,预示不论何种交易都有利可图。
”球员有自己的生活,每个观众也有自己的生活,当大家的生活交汇在这一刻,就形成了历史的节点。在这里,我们既是别人眼中的风景,别人也是我们眼中的风景。“