|
二:Ucloo的核心竞争力是她的数据库[视频]
于立娟:在美国的大市场下可能也给中国市场一定的信心了。那么Ucloo发展了两年半时间了,那么您认为她的核心竞争力是什么呢?
丁国平:核心竞争力就是她的数据库。因为在近三年的时间内,使用我们的技术和算法,我们的数据基本函盖整个中国,我们搜索大量信息进行匹配,我们的数据都是来自网上,都是公开的。所以我们的核心竞争力在数据库和我们的算法技术。
于立娟:我想很多互联网公司都会提到,他们的核心竞争力在于海量数据库,象网易网聚人的力量,象社区有很多注册用户。那么您的这个数据库和他们的有什么不同么?
丁国平:我感觉到很大的一个不同是,一个被动一个主动。比如说一些特别的网站如同学录,交友网如SNS,他们的数据其实是一种被动形式的。就是说是用户上传的,时间久了积累久了就有一定的量的数据,而我们的数据是海量的是从整个互联网上面去获取的。主动的获取以后,进行匹配,建立的一个个人信息。比如说A先生在一个网站登记他的一个信息,在另外的网站登记他另外的信息。我们会把他匹配起来进行他一个专门的档案的主页,而且不断地予以更新。
于立娟:刚才RANDY提到的数据获取的过程是通过网上的抓取,并经过复杂的匹配获得的。那么是怎么保证这个数据的精准程度呢?
丁国平:我们有三四个方法进行匹配。比如个人的联系方式,个人的自述,第三者的陈述,上网者的IP还有网站的一个精准度,通过一个我们叫做People rank的算法来定位,还有对每一个人的TAG的权重的算法来确定他的精准度的。
于立娟:互联网上的信息多种多样,有的信息是真实身份发布,有的信息会有笔名或其他的信息去发布,那么你们怎么样去把这种不同的信息匹配到一起呢?
丁国平:比如说有时候相同的人会用相同的名字注册在一个网站,用另一个名字注册在另一个网站,我们会通过IP或个人的一个唯一性的标志来进行匹配,比如说电子邮箱,QQ号码,MSN,IP进行匹配,工作经验,教育背景等也是作为匹配的依据。
于立娟:您认为这个数据库还是相当准确的么?丁国平:相当准确于立娟:这样一个数据库的价值和他们注册的这个数据库的价值会有什么不同么?
丁国平:因为交友网站或者SNS网站,他的注册信息只是个人上传的信息,他想怎么写或者写的过程中有个意识就是想我在交友我要讲我自己的特点,可是我们在抓取的过程中,有一个第三者的评价,或者是单位学校的一个评价过程,这样就很客观,不仅仅是你一个主体对这个网站的讲话,还包括你在社会上在不同网站上的讲话,包括在BBS中的在BLOG中的,朋友对你的评价等,我们都会收入。
于立娟:听起来是很庞大的数据库,那么现在这个数据库有什么样的规模了?
丁国平:我们的个人数据已经超过了一亿三千万,其中有些信息是国外的,因为我们在抓取的时候会自动跳转到国外的信息,比如有一些在国外的中国人。
于立娟:那么在中国的用户是怎么样一个存在状态。
丁国平:中国的用户信息应该是在一亿左右。并且在不断的增长过程中。
于立娟:这么大量的数据库,我觉得更新是一个很困难的问题,那么UCLOO是怎么保证数据的一个新鲜程度呢。
丁国平:更新是一个问题。第一是在spider某个信息的时候,我们会有一个权重TAG的算法。一个人的TAG权重决定多久回去更新信息。比如说明星类的,我们会更新得快一点,普通人我们会更新得慢一点,还有一个就是根据我们的带宽和服务器的承受力来进行的.
于立娟:这样复杂的技术,肯定背后有一个强大的技术团队,那么请您给我介绍一下这个团队有什么特点?能完成这么复杂的工作.
丁国平:我们技术团队基本上是50个人左右,有一些数据专家还有一些spider方面的专家。这个团队有中国、美国和印度三个部分的人组成的。主要来讲,我们对整个算法和数据库的运行这个部分在垂直搜索引擎力我们还是领先的
于立娟:这样一个技术队伍还是比较复杂的,那么怎么去管理这个技术队伍让我们准时的按质量的完成任务。
丁国平:我们是在整个框架下面,要做什么样的事情,每个工作每个部门细分再细分到个人头上,每个人在进行分配工作,从上面到下面进行整合。这个管理过程是满复杂的,其复杂性不小于数据的复杂性。我们通过不同的实践过程来优化团队,而且这个管理团队是相当的稳定。
于立娟:是什么使这个团队这么稳定呢?
丁国平:这个商业模式,和他们对这个UCLOO的信心,他们觉得Business的价值,他们对公司相当热情,每天工作12个小时以上。
于立娟:要注意劳动法规定啊丁国平:他们有时候是在家里工作的,公司也组织很多活动降低他们的压力.
|