澎湃Logo
下载客户端

登录

无障碍
  • +1

我们用12520个热词测试了百度搜索,发现了这些规律

2019-01-26 10:57
来源:澎湃新闻·澎湃号·湃客
字号

本文经上观新闻授权转载,未经许可请勿转载。

作者|肖书瑶 脱崯

引言:搜索引擎到底是按照什么规则来排序?

百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从1月24日(周四)中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。

例如,对于关键词“特朗普”,同样的搜索结果与位置,前一天还显示域名,昨天已经显示“环球时报评论”。我们也注意到,只有新闻资讯类网址才会变成这种形式。

修改后:

 

你可能以为“环球时报评论”会跳转到“环球时报”,但其实指向是环球时报百家号。自媒体还是机构媒体,是“百家号”还是“网站”?傻傻分不清。

修改前:

模糊的界限

从“信息来源”来看,就像身份证一样,“域名”是唯一的。类似gov, edu,org的后缀更有着严格的注册标准。 

这次式样改动,一是模糊了信息来源,背后是谁在挑选信息,谁来为真实性把关?二是模糊了百家“号”与“网站”的差别。 

这不是百度第一次模糊界限。曾经的百度导航栏有“新闻”选项,2017年上半年,“新闻”悄悄变成了“资讯”。 

百家号“霸屏”? 

两天前,自媒体“新闻实验室”指责百度第一页搜索结果一半以上会指向百度自家产品,尤其是百家号。 

面对指责百度觉得很冤,声明称百家号全站占比小于10%。“问心无愧。”副总裁沈抖接受采访的时候说。

按“全站占比”统计有没有意义?

上海交通大学媒体与传播学院魏武挥写道:“这种回应有那么点逃避问题的诡辩感觉:方可成批评的是第一页结果,百度回应是说“搜索结果”——其实可以理解为全部结果。但问题是,除非具有特殊目的,很少有用户会对三页之后的内容感兴趣。”

搜索引擎用户行为研究显示,92%的用户在搜索时会点击前5个位置。点击次数到第三页急剧下降,第五页以后几乎没有人点击。这和我们的真实体验一致。所以说,比“占比”更重要的概念是“排序”。10%的内容在前10%的位置展示和在后10%的位置展示,效果天壤之别。

12520个热词背后

因此,我们用12520个搜索热词在百度搜索上进行了测试,看百家号或其他百度号——包括百科、贴吧、文库等网站在搜索结果第一页占多少比例,用数据来看,百度到底冤不冤? 

结果显示,50.3%关键词在第一页有一半以上的结果指向了百度自家的网站,这其中有59.3%指向了百家号。也就是说,如果第一页有10个链接是百度自己的网站,6个都是百家号。如果再把范围扩大一点,89.8%的关键词在第一页结果中包含百度自己的网站,84.5%有百家号。 

百家号不仅作为独立的搜索结果散落在页面上,还有一级链接+5个副链接的整块显示。作为中文互联网搜索最大的流量入口,2018年第一季度百度的市场份额占比达到80.09%。

什么样的关键词容易出现百家号结果?

根据我们的热词搜索结果,百家号占比排在前1%位置的关键词是:

百家号占比排在前1%位置的关键词(百家号占比在60%以上),人名(尤其是明星)、娱乐、健康、体育、生活知识等类别的关键词最容易出现百家号。搜索准确的网站名、查询工具类的关键词出现百家号的几率较低。

在百度改变了搜索结果中百家号的样式后。原有的测试方法连计算机都无法从首页源代码中获取真实的链接,必须点击进去,才能知道到底是什么网站。我们改变方法后重新进行测试,结果和第一次测试保持一致。虽然样式变了,但排序算法依旧和原来一样。

搜索引擎的“把关”逻辑

搜索引擎就像我们在互联网时代的眼睛,很大程度上决定了我们将看到什么样的内容、产生什么样的思考。有了互联网以后,“信息平等”看似触手可及,但“把关人”一直存在,只是在搜索引擎上,从人变成了机器。

搜索引擎到底是按照什么规则来排序?

回归本源,这其实一个“大家都在看什么”的数学问题。 

上个世纪90年代,最原始的排序方法是——关键词出现次数越多越排在前面。显然,排在前面的很可能是重复关键词的垃圾网页。 

谷歌主导互联网搜索后,一个新的排序方法产生了——链接流行度(PageRank),一个网页被其他网页链接得越多,排序就越靠前。

此后排序算法不断升级,纳入了关键词突出程度、网页点击量、停留时间、相似关键词等因素综合考量。排序算法至今都是各公司的“核心机密”,“大家在看什么”的朴素算法依然是排序的核心与基础。 

在信息流出现以后,排序算法又有了一次革新。决定什么在排在前面的不再是“大家都在看什么”,而是“你想要看什么”。算法会根据你的互联网使用行为来猜测你的喜好,将你爱看的相似内容自动排在前面推荐给你。百度如此,谷歌如此,几乎所有的搜索引擎都在做这件事。 

在百度这一模式被称为“搜索引擎+信息流”的双引擎分发战略。这个战略2018年为百度带来了超过1000亿元的收入,第二季度移动端净营收占比从去年的5%提至77%。信息流及AI业务占到百度核心(BaiduCore,即搜索服务与交易服务的组合)近20%收入,同比增长则超过150%。 

如此高额的盈利能力,其中一个重要的基础就在于利用百家号实现了用户的最终停留。

主动搜索行为和信息流推荐同时掌控分发渠道,190多万个百家号则是百度建立的庞大内容池。自家的引擎推荐自家的内容,流量从百度搜索来,到百度号去。

“把用户留在自己的网站上”,本没有问题。根据搜索引擎专家Rand Fishkin的统计,在谷歌上,12.6%的点击去了排名前100的大型网站,剩下87.4%的点击去了普通站点,这其中又有11%的点击去了谷歌自己的网站——包括地图、邮箱、图书等。

2016年的魏则西事件也许让百度意识到搜索引擎需要承担更大社会责任。不过,从竞价排名、贴吧广告、信息流推荐,再到百家号“霸屏”来看,百度对搜索引擎的“排序”逻辑似乎没有改变。

栏目主编:刘璐  文字编辑:刘璐

本文经上观新闻授权转载,未经许可请勿转载。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

    代开银行存款证明公司巴彦淖尔办企业资信证明济宁资信证明多少钱宝鸡代开留学存款证明湘潭企业资信证明代开宜昌资信证明哪家比较好漯河银行存款证明费用河池订做出国留学资金证明眉山资信证明多少钱廊坊企业资信证明模板南宁存款证明价格淮安留学存款证明怎么打太原资信证明服务商崇左企业资金证明样本鸡西定制出国留学资金证明辽阳企业资金证明制作蚌埠出国留学存款证明定做锦州代做银行存款证明昌都留学存款证明用途朝阳开具银行定期存单威海留学存款证明费用克拉玛依资信证明三亚出国留学存款证明代办昆明银行定期存单供应商济宁企业资金证明办理开封本地定期存单石家庄定期存单哪里有合肥银行存款证明哪里有衢州留学存款证明打印常州留学存款证明办理酒泉查银行定期存单香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声汪小菲曝离婚始末卫健委通报少年有偿捐血浆16次猝死单亲妈妈陷入热恋 14岁儿子报警雅江山火三名扑火人员牺牲系谣言手机成瘾是影响睡眠质量重要因素男子被猫抓伤后确诊“猫抓病”中国拥有亿元资产的家庭达13.3万户高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了男孩8年未见母亲被告知被遗忘张家界的山上“长”满了韩国人?倪萍分享减重40斤方法许家印被限制高消费网友洛杉矶偶遇贾玲何赛飞追着代拍打小米汽车超级工厂正式揭幕男子被流浪猫绊倒 投喂者赔24万沉迷短剧的人就像掉进了杀猪盘特朗普无法缴纳4.54亿美元罚金周杰伦一审败诉网易杨倩无缘巴黎奥运专访95后高颜值猪保姆德国打算提及普京时仅用姓名西双版纳热带植物园回应蜉蝣大爆发七年后宇文玥被薅头发捞上岸房客欠租失踪 房东直发愁“重生之我在北大当嫡校长”校方回应护栏损坏小学生课间坠楼当地回应沈阳致3死车祸车主疑毒驾事业单位女子向同事水杯投不明物质路边卖淀粉肠阿姨主动出示声明书黑马情侣提车了奥巴马现身唐宁街 黑色着装引猜测老人退休金被冒领16年 金额超20万张立群任西安交通大学校长王树国卸任西安交大校长 师生送别西藏招商引资投资者子女可当地高考胖东来员工每周单休无小长假兔狲“狲大娘”因病死亡外国人感慨凌晨的中国很安全恒大被罚41.75亿到底怎么缴考生莫言也上北大硕士复试名单了专家建议不必谈骨泥色变“开封王婆”爆火:促成四五十对测试车高速逃费 小米:已补缴天水麻辣烫把捣辣椒大爷累坏了

    代开银行存款证明公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化