Life or Data
RSS地址:
http://www.wespoke.com/index.rdf共有9篇文章被收藏推荐
鲜果类别:
IT.科技
鲜果标签:
seo
搜索引擎
web2.0
google
网络营销
收录于2007-04-05
认领
报错
推荐
624
最新文章
精华文章
624位订阅者
搜索引擎早已经成为互联网上的最大的应用之一了,可是新闻媒体已经研究人员很难拿到相关的数据来对它进行深入的研究。之所以不知庐山真面目,只缘看不到真正的有价值的数据及其分析。...
搜索引擎早已经成为互联网上的最大的应用之一了,可是新闻媒体已经研究人员很难拿到相关的数据来对它进行深入的研究。之所以不知庐山真面目,只缘看不到真正的有价值的数据及其分析。 在搜索引擎领域,用户的搜索意图分析是一个关键领域,主要研究的方向是用户输入的关键词的真正意图。就拿最常见的搜索关键词:木乃伊3 下载,这个搜索的意图非常明显,用户就是要找到能下载木乃伊3的一个网址。另外例如像n73这样的搜索词,就是一个手机的型号,可以补全到nokia n73。 用户的搜索意图的分析的方法相对不固定,比较成功的有中心词分析、历史搜索关键词、语义分析、语境分析、点击统计分析等手段。那么互联网上的用户在搜索引擎上到底的意图是干什么呢?下面给出一个详细的分析结果,供相关人士参考: 32% 直接搜索网站31% 资源和下载型16% 信息型4% 财经股票类4% 商业相关(B2C,C2C,以及有可能产生消费的流量)13% 色情类 这个结果可能令人意外,最大的两类竟然是直接搜索网站的!对,是的,大量的用户在搜索引擎里直接输入一个网站的名字,例如“校内网”、“优酷”等。也有用户更直接,输入:vagaa等英文缩写,甚至还有会在搜索引擎里输入这个搜索引擎的名字这样的情况。 然而这个一点也不意外,能记住超过10个以上域名的网民的数量还属于少数,而且以后也会是少数,在这样的情况下,搜索引擎的第一大的作用就是“搜索导航”。 关于资源下载类,也许你会理解为什么xunlei和vagaa这样的网站的市场会这么大,也怪不得迅雷的流量实际上超过了任何一家门户网站。 关于信息类,资讯,新闻,问答等为主,这部分并非传统我们想像的那么大,但是像百度这样的搜索引擎+社区内容就很容易将这部分的流量留在百度,因为可以丰富这部分的内容后增强搜索的体验,从而形成一个搜索质量改善的闭环。 其他的几类无需多说,不过随着股市热潮的推却,金融相关的搜索也在迅速降温,但是一定会有新的社会热点替代这块。 ...
云计算这个新名词最近甚嚣尘上,最近周围不少朋友都在谈,有必要写一个关于云计算的科普了。 ...
云计算这个新名词最近甚嚣尘上,最近周围不少朋友都在谈,有必要写一个关于云计算的科普了。 一般的业界比较喜欢用一些新名词来体现自己的战略眼光和与对手的区隔。当几个月前google提出云计算的概念的时候,amazon说自己做的事情就是云计算,IBM、intel、sun都声称自己在云计算领域有深刻的计划。只可惜大家听了半天仍然不知道什么是云计算,依旧云里雾里知道这个与计算有关,干脆就叫“云计算”吧。 到底云计算是什么呢? 这个问题不好回答,专业一点的回答是:云计算是依靠强大的计算能力,使得成千上万的终端用户不担心所使用的计算技术和接入的方式等都能够进行有效的依靠网络连接起来的硬件平台的计算能力来实施多种应用。 非专业一点的回答就是,一堆你不需要搞清楚的硬件、软件在服务你。这堆硬件和软件构成的东东大的像朵云彩,又拥有极强的计算能力,这就叫云计算。 那么云计算是怎么来的?我们为什么又需要云计算? 1. 云计算的前身是grid computing ,说起grid computing 可能知道的人就很多了,就是传统的网格计算。网格计算就是将一个计算分割成片段,提交到网络系统上的各个计算机上(格点),工作做好进行汇总完成。比较流行的软件例如globe bus + afs(提供存储映射服务)。不过grid一般都是用在学术界,例如cern的几个实验都采用了大规模的grid计算,例如进行新粒子的发现,需要处理t级别的数据,单台计算机的运算和存储显然是不可能完成的,因此就必须使用网格计算了。 2. 云计算有实实在在的例子么?很幸运,我们还可以找到几个:google appengine,Amazon的S3+EC2系统都是云计算的雏形。 3. 云计算的基础是什么?最基本的需求:存储+处理器,当然,要支持无数的应用请求并负责保证存储和计算的性能,这两方面都是挑战。 4. 我自己能够搭建一个云计算环境么?当然可以,我们可以利用开源的项目来搭建一个云计算环境:你可以利用hadoop+hbase+php(包装API)也许就实现一个简单的云计算环境。 5. 有没有更简单的例子?也许一个分布式的邮件系统就是一个云计算的雏形:计算分布在各个节点上,应用(邮件收发)通过一个统一的平台来处理,也算是符合云计算的定义了,不过只能支持最简单的一种固定应用。 6. 有没有复杂一点的例子?google的云计算的逻辑关系:gfs 实现存储,bigtable 实现结构化、半结构化数据存储,map/reduce 实现将分布在各个节点上的计算和merage起来,剩下的就是进行job的管理器,管理工作的提交和触发,然后就是我们看到的appengine了。 7. 应该关注哪些软件?hadoop 项目应该是一个比较有前途的一个,当然powerset在hadoop之上的Hbase应该是一个更接近能够替代简单database的应用。 8.我们为什么需要云计算?很简单,企业的雄心+个人电脑性能进展缓慢+我们处在数据指数膨胀的年代。当我们在google上提交一个搜索的时候,会有成千上万的计算机被卷入这一个简单的一个查询过程中,未来的计算越来越庞大,到了我们干脆说“云”来替代其中的一切细节的时候。 9. 云计算平台的下一步呢?云计算api的标准化也许是一个最需要进行竞争的,可惜基础的技术平台的完善还需要时日,而且云计算未来也许会是免费的,这个遵从“竞争导致利润下降”的原则,难度不是么?当更多的云计算平台出现的时候,然而跑在云上的应用却没有那么多,当然免费的午餐就会来。 10. 还有更有趣的么?当然,你可以提供一个云计算,利用google,amazon的云计算包含在你自己的云计算里,然后提供一个统一的api,或者也许未来的云计算会整合在一个,云里雾里,成为一个超大的云计算平台,那个时候,也许自己家的电脑也可以接入云计算平台成为其中的一个计算的提供者。这个听起来很有意思,不过13年前就已经存在了,那个分布在全球电脑上的寻找外星et的屏保就是一个云计算的平台,如果他们该行做云计算的话,估计能够盖过google和amazon。...
最近行色匆匆,春天的杭州无比的绿。 很久没有参加会议了,这次www2008刚好在北京召开,忍不住要去看看,毕竟我去年没有怎么关注技术,需要补课的时候到了。 参加周四和周五的会议,周四主要集中在多媒体和数据挖掘,周五集中在移动和新技术上。...
最近行色匆匆,春天的杭州无比的绿。 很久没有参加会议了,这次www2008刚好在北京召开,忍不住要去看看,毕竟我去年没有怎么关注技术,需要补课的时候到了。 参加周四和周五的会议,周四主要集中在多媒体和数据挖掘,周五集中在移动和新技术上。 没有参加周三的社区为主的会议是因为国外的社区和中国的社区差别太大,也许意义不大。 会议的安排虽然很丰富,可惜一个人只能物理上出现在一个会场,怀念当年和文心在美国参加South by Southwest 时候分别到不同的会场听会议,晚上再各自交流的年代。...
从北京来杭州已经3个月了,在淘宝网的短短的三个月里,见证了淘宝的高速成长,在这样一个安静和绿色的城市里,淘宝网和它的5000万的会员迎来了2008。 这里在发生这什么呢? 1. 搜索...
从北京来杭州已经3个月了,在淘宝网的短短的三个月里,见证了淘宝的高速成长,在这样一个安静和绿色的城市里,淘宝网和它的5000万的会员迎来了2008。 这里在发生这什么呢? 1. 搜索 也许很少的人知道淘宝是中文网站里面除了百度最大的搜索引擎,而实际上淘宝的搜索却是要求更高,更加准确的搜索。数以亿计的商品在货架上,而这些商品每时每刻都在上架、下架、价格在调整。这一切要求淘宝的搜索要及时和准确,每一次搜索和后一秒的同样的搜索的结果都会因为商品的价格和上下架而不一样。淘宝的搜索每天处理着大约3亿次以上的请求,创造着数亿的交易额。 2. 分布式计算 这是一个交易型网站,每天处理着数百万级别的商品图片和商品信息,每天处理着数百万级别的订单,这一切都要求安全、稳定、快速。数千台服务器在有条不紊的处理着各种信息,这些海量的数据还在以惊人的速度在增加,每天处理日志的服务器已经接近百台。 3. 数据挖掘 你也许知道,你在淘宝上的每一个页面上都有推荐商品,这些商品是根据你的过往行为实时分析后进行商品推荐的。在一个每天有2~3亿访问量的网站上,每天数百万订单和数亿的交易额的基础上,数据挖掘已经不是教科书上的算法,而是实实在在的能够引导顾客消费的一个重要来源。 2008,淘宝面临更大的挑战,因为在这里,网络购物的规模会超过1000亿,在这里,新的B2C将诞生,我们希望能够与你一起走过2008: 以下借用淘宝UED团队的话: 但是,我们很诚实,所以我们要先告诉你: 我们没有两台并列的24′专业显示器,但我们有刚换上的17′液晶和会员喜欢的网页设计;我们没有Google那种可以躺着开会的椅子,但我们的会议室有走时特准的大挂钟;我们没有微软那种比我们会议室还大的厨房,但我们有难吃的盒饭和吃了三年还最开心的午饭时间;我们没有外企那种比学生时代还长的假期,但我们有每晚在楼下等到凌晨的杭州“的哥”;我们没有出国旅游的福利,但我们有不用掏钱只要爬得筋疲力尽就能看到西湖的老和山;我们没有让人口水满地的薪水报酬,但我们有全中国最被期待上市的阿里巴巴的工牌;…… 我们最想告诉你的是: 在这里,工作早已不是我们考虑的问题,我们挥洒青春为之奋斗的,是我们的事业,一件让中国人自豪的事业! 所以,来加入我们吧!如果你接受我们的苦和乐,如果你想战斗而不是糊口,如果你和我们的要求有那么一点像。 申请以上岗位请发简历到:sixwings # gmail.com 或者 mayu # taobao.com,主题注明“应聘”。谢谢 Java开发工程师(急招) 职位描述: 你的每一行代码将会影响中国网络购物80%的交易额,每天数亿。 你的每一行代码将会表现在淘宝每天2~3亿的PV上。 职位要求: 1. 精通jsp,servlet,java bean,Jdbc开发,精通J2EE技术及原理,熟练使用Java、HTML、Java Script、JSP、XML2.至少具备Struts、Spring、Hibernate、Ibatis中两种以上开发经验,熟悉MVC编程模式 3.精通Oracle,Sql Server等大型关系数据库,有一定的数据库设计经验,能够指导数据库程序的开发及测试工作 4.熟练操作linux、tomcat、jboss等服务器工具5.良好的分析问题及解决问题的能力6.有良好的软件工程知识和质量意识 C++ 底层/搜索/算法 工程师...
我们这代人很幸运,也很无奈,幸运在于我们处在一个知识大爆炸的年代,新的知识层出不穷,我们每个人的知识可能能够跟那些历史的伟人像牛顿、伽利略等比肩,无奈的是正是因为知识大爆炸,这些知识的更新的速度也加快,知识的更新速度有时已经不是用年来计算了,而是以月来计算了。记得...
我们这代人很幸运,也很无奈,幸运在于我们处在一个知识大爆炸的年代,新的知识层出不穷,我们每个人的知识可能能够跟那些历史的伟人像牛顿、伽利略等比肩,无奈的是正是因为知识大爆炸,这些知识的更新的速度也加快,知识的更新速度有时已经不是用年来计算了,而是以月来计算了。记得我大学的时候学习的高级计算机语言是pascal,上机实习用的是IMB的PC/xt,几年后这种计算机就销声匿迹了。等到我本科毕业开始做论文的时候,已经用上了486,至于之前准备的一堆的5寸盘,都已经成了历史的证据。在最近的几年这种趋势呈加速发展的趋势,新的互联网应用和互联网产品每时每刻都在更新,每天都有新的应用产生。这些新的知识和新的应用有些能够很快成为流行,被大众接受,有些却昙花一现,没有成功,这里面到底有哪些共同点呢? 互联网一方面使得信息的流通变得特别的容易,使得知识的获取变得比以往快速得多,也使得知识的分享真正脱离了传统的图书馆和课堂。同时,互联网使得很多的商业可以依靠这个看似简单的工具极其有效的运转起来。很多原本很难实施的商业模式都被搬到了互联网上。例如拍卖就是一个非常好的例子,传统的拍卖很难在一个物理的地方上集中数以万计的商品和卖家,因此规模也就变得有限了。有了互联网,物理上的约束被彻底解放了,数以万计的卖家和买家可以在一个平台上针对不同的商品进行交易,一个虚拟的市场就很容易形成,也很容易形成规模。原来我们关于商业的一些认识在互联网时代就被彻底的改变了。 从过去的10年里,我们看到了一系列成功的案例,例如netscape、kazza等,无疑开创了网络时代的创新。这些应用一方面利用了互联网的最本质的特征,另外一方面在技术上的创新使得这些应用风靡一时。这里面最为杰出的就是我们熟知的搜索引擎了。与其说是搜索引擎的杰出,倒不如说是google带来的革命。 在google之前有相当多的搜索引擎,都有过短暂的辉煌,在google之前,所有的搜索引擎里关于相关度计算的最重要的部分是被广泛了解的TF*IDF算法,然而当google使用page rank来计算网页的重要度的时候,良莠就显现出来了。page rank来自于一个假设:重要的网页会被链接的次数更多。一个简单的假设再加上一个简单的迭代公式,作为page rank的原型,google的搜索明显优于其它的搜索引擎了。虽然接下来的几年里google又调整了page rank算法和加上了hilltop算法,但都是锦上添花,而不是革命性的变革。 我们能从google的模式上学到什么呢?google的创新模式有什么规律可循? 1. 对网络社会的认识,设定一个假设2. 针对假设进行一个数学建模3. 对建立的模型进行实际数据的对比,以简化或可计算化4. 将实际收集的数据进行实际运算 例如就拿page rank为例,我们对网络社会的假设就是“重要的网页会被链接的次数更多”。这个假设是建立在我们认为好的网页、有用的网页往往会被别人收录,或者通过链接的方式连接起来。针对这个认识,建立一个数学模型。在这个数学模型里有几个核心:第一,每一张网页都有一个重要度、第二,被其他网页链接会提高重要度、第三,链出会降低重要度。整个模型就像一个一个水池,每个池子的水量就是重要度,池子之间的管道就是链接。 数学模型建立起来了,这个数学模型更像是解一个多元方程组,其中的变量可能高达数千万甚至上亿,要对整个互联网的全部的网页进行计算,规模巨大。解这样一个方程组显然是不可能的,因此简化算法,采用迭代的计算方法。首先将网页的重要度设定一下初始值,然后进行多次迭代,在迭代的过程中找到稳定的结果,也就是最终这个多元方程组的最后的答案。 实际收集到的数据网页进行分析,获得链出和链入的链接,然后根据简化的计算模型进行迭代计算,就获得了最后每张网页的page rank。 记得以前看过google的中午blog,里面有一片谈到数学之美的文章,我想这大概应该是google的一个理念的体现。一切皆有可循之因,一切皆有可简之美。...
收录该频道的主题秀
-
搜索不到您的频道?
>立即加入 -
想与您的读者互动?快来认领您的频道
>立即认领 -
想知道您的博客详细订阅数据么?
>到FeedSky查看 -
想体验专业的博客托管服务么?
>注册BlogBus


