海量资讯 定时更新

为您提供最前沿、最专业的行业技术资讯和技术分析。

搜索引擎就是一种大数据应用

发布时间:2013-10-14 09:09:20来源: 浏览次数:4653

谈到大数据,必然会说到大数据四个特点:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。

不知道外界怎么看4个V,我总是记不住,也还是没有清楚何为大数据。其实,举一个例子就明白了,搜索引擎就是典型的大数据应用。与传统行业相比,互联网在大数据应用上的确领先,如电商,以及互联网广告等,都是典型的大数据应用,推动了互联网业务向精细化发展。互联网大数据应用技术细节披露甚少,而且多局限在行业内部,因此了解互联网行业大数据应用方式,将有助于我们把握问题的方向。

搜索引擎从本质上看,就是一种典型的大数据应用。

搜索引擎通过建立索引来对外提服务,核心就是汉语词法分析系统(ICTCLAS),通过对自然语言、数字、日期、字符串等进行检索,建立索引。当用户进行检索时,基于索引,搜索引擎将这些数据聚合,提供给用户,从而构建了搜索引擎的服务。传统搜索引擎,通过蜘蛛爬虫获取互联网Web网页的内容,构建索引库。借助类似Map/Reduce这样工具,搜索引擎可以对爬虫数据进行并行的处理。搜索引擎的内容是爬虫“扒窃”来的,这也是为什么,Google被网站称为“寄生虫”和“吸血鬼”的原因,搜索引擎不创造任何内容,而是寄生在别人(网站)所创造的原创,内容上。“我们痛恨Google、百度,但另外一方面,我们又求助他们来抓取我们的内容,这是我们的悲哀。”网站CEO表示。

搜索引擎符合大数据的4个A:1、数据量大,每时每刻抓取网站原创内容(包括我现在写的,上线就会被抓取);2、类型多样,包括文本、图片、声音和视频;3、价值密度低(相对于财务、销售等结构化数据),需要挖掘才能够产生价值;4、处理速度快,对这些数据进行处理,可以采用大量廉价的X86服务器并行处理,也就是Map的过程;检索的结果,通过Reduce聚合后提供读者,由于大量机器并行,且通常检索索引,因此速度可以满足需求。

搜索引擎通过聚焦“眼球”,构建了以眼球货币为主的商业模式。而对于传统行业用户来说,如何利用和挖掘大数据的价值,这是一个值得探索的话题。

免费开通产品体验功能,在线试用30天!