未来的图象搜索是怎样的?

论坛:IT江湖作者:青梅发表时间:2008-05-30 08:06
  昨天有人看我博客后问我:让用户输入图象来搜索太远离用户习惯了,你们的图象搜索让用户输入什么呢?我说,当然是文本了,不同的是输出的结果,现在输入一个物品名称可能出来一个和物品完全无关的明星脸,只是因为明星图象所在网页有这个物品名称。而我的搜索引擎,用户同样输入文本,但因为我的图象引擎是基于图象搜索的,是根据图象搜索的情况反向添加文本标签的,所以不会出来和用户目的无关的结果。
  分解一下是这样:
  1.收集大量规范素材(比如店主实拍的商品图片,图象尺寸大达几兆,物品更清晰,且被嵌入网页上有较格式化的描述信息);
  2.雇大量人工对素材进行清洗整理(做模式识别的都知道这是不可缺少的步骤哈);
  3.使用统计分析的方法训练引擎,使引擎健康成长;
  4.爬虫到处去取图片,使用实验室训练出来的引擎对图片进行分类标签;
  5.将引擎无法识别的图片使用人工进行标签;
  6.将人工标签后的图片再送给引擎,训练引擎。
  经过这样的循环,使引擎不断成长,把网络图片世界连接起来。
  这样的引擎训练好以后,用户不仅可以输入文本查询,还可以输入图片查询,比如我看到一个很眼熟的面孔,我直接鼠标拷贝图片网址,把网址粘贴到搜索引擎里,就出现该面孔挂钩的其他信息,而且用户为了方便,会主动把我的服务装到他的右键菜单里,这样,直接右键菜单上就可以执行图象搜索,搜和那张面孔有关的视频什么的,是不是很酷呢?所以说输入图象搜索离用户习惯远是不正确的说法,用户习惯是你强加给他的,有更简单的方法,而且能为用户带来方便和好处,用户会欣然接纳的。
  昨天那人又说:你们不会有足够的钱做这件事的。
  真的吗?不过那人连模式识别都没听说过,我很同情他,所以,就不和他计较了。
  做这件事,最贵的是人工,模式识别专家团队,素材清洗整理,不能识别的图象进行人工标签,这些,都是很花钱的,至于一般人认为的服务器和带宽费用,在这个项目里倒是毛毛雨了,300T的素材(网店商品图片),200T的无效图象(加起来500T,但是是随时间增长的,而硬件价格下降很快),三年的带宽费用,加起来不会超过800万,加客服工资什么的也不会超过1000万,等于每年要收入400万到500万(含运营费用),这还是支持得起的,关键还是研发的人工费用太高了,最好是有什么基金支持一哈,这么酷的项目……
  目前google的图象搜索量大约占总搜索量10%以上,而我的搜索,将来是要让用户直接右键菜单里搜,比如看到一个手机,直接右键菜单搜这个图象,连一些信息不规范的网页(比如店主用了很多夸张词的商品页面)也可以被搜到,而且给我分门别类,那些是经销商信息哪些是资讯等,不比文本关键字搜图象方便啊?而且更具商用价值,不比google的图象搜索强?
  现在我已经开始商品图片的素材收集了,做了一个免费的商品图片站(ppseek.com)鼓励店主存实拍大图,估计过段时间服务器和带宽会有些吃紧,有没这方面资源可以共享一哈哈?我们可以共享图象识别引擎研究成果的。
标签: 添加标签

0 / 0

发表回复
 
  • 标题
  • 作者
  • 时间
  • 长度
  • 点击
  • 评价

京ICP备14028770号-1