众所周知,成为一名合格的侦探需要足够的好奇心、敏锐的洞察力和准确的记忆力。 同时,大量的线索需要梳理、总结、推导,最终揭开隐藏在表面之下的秘密! 而这一切与极客有什么关系呢? 两个看似毫不相关的群体,却因为这样的竞争而有着千丝万缕的联系。
10月16日,百度与西安交通大学联合发起的“大数据大赛”在西安交通大学圆满落幕。 本次比赛吸引了来自全国数十所一流大学的近900名选手组队。 经过五个月的激烈角逐后,冠军队伍凭借精确清晰的程序结构和高质量完整的算法,最终通过评审获得冠军。 第二名和第三名分别由来自不同大学的六支参赛队的选手获得。
至于本次比赛的主题设置,也让人感觉花了很多心思。 通过给出50个名人和与其相关的10亿个语料库,参赛者将从这些语料库中挖掘出这50个名人的立方关系。 本次竞赛题目选择真实数据和实际问题。 要完成比赛嘉兴私家侦探电话 百度抛出海量数据包,大数据竞赛极客变身“名侦探”,需要涉及数据建模、数据挖掘、机器学习等多个领域的知识……如此之高的技术要求,在国内外同类比赛中都是前所未有的。 这在他们当中并不少见! 也让近900名选手体验了一把“侦探”瘾!
10亿条语料是什么概念? 我们假设一个人每天阅读20页A4纸。 粗略估计一张A4纸的字数是1000字,1000*20*365=7.300000字。 按平均每句话15个字来计算嘉兴请侦探,就是150亿个字。 那么一个人需要 2650 年才能读完整个语料库。 通过使用“自然语言识别”和“三重提取”两项技术,我们的参赛者可以在每次搜索后为我们挖掘出更多相关的隐藏信息! 基于大数据的原材料不仅限于文本,还可以是网页。 这次选择用知识挖掘来做赛题也是一个非常重要的考虑。 使用知识挖掘构建知识图谱。 有了知识图谱,你可以进一步将其应用到搜索结果中,比如机器对问题的准确回答以及更多的可能性。
让我们举个例子。 例如,如果我们输入一号是谁中国侦探网,系统会给出一号的父亲是刘烨,刘烨的前女友是谢娜,谢娜是快乐大本营的主持人,何炅是谢娜的搭档...等一下 系列相关结果。 现阶段图产品的主要目的是满足人类对信息的需求,而百度正在探索如何基于知识图谱连接各种服务,以及如何通过基于大数据的知识图谱技术让人们更加平等和便捷。 轻松获取信息并找到您想要的内容。 从某种意义上说,极客“侦探”时代的开启,为万千执着于转型发展的爱好者提供了千载难逢的机会和当今最优越、最开放的交流平台。
作为中国聚合互联网信息最多的平台,百度始终致力于从大数据中开发更大的价值。 大数据的创新应用将推动各行业升级、改变生活; 在搜索领域,知识实体之间错综复杂的关系正在被知识图谱解读。 百度根据网友需求推出知识图谱。 同时,通过校企合作办赛,深度挖掘大数据领域人才,为未来构建三维知识网络打下优质基础。