计算机视觉取得突破 微软CaptionBot能“看懂图片”
- +1 你赞过了
5月21日,2018微软人工智能大会(AI Innovate)在北京拉开帷幕。作为首个以AI为主题的盛会,微软发布了18项核心技术,涉及云计算、物联网、边缘安全到认知服务等。
同时,微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士宣布,微软将充分发挥其在人工智能领域的全部优势技术和资源,与中国产、学、研各界展开全方位合作,为科研教育打造一流平台、为企业创新开发先进方案、为全民AI提供免费培训。
在18项核心技术中,有关计算机视觉的CaptionBot尤为引人关注。
据悉,微软CaptionBot能理解任何图片的内容,并且像人类一样来描述它。同时,该服务也明确到“你的图片只用于分析,不会被保存或发布。”
根据现场展示,上传一张比尔·盖茨的图片,CaptionBot描述为“我认为,这张图片描述的是比尔·盖茨在网球场手握一支网球拍,并且还在笑。”
目前,微信上也可以使用CaptionBot功能,用户可以从相册里上传,也可以把图片的链接贴上去。CaptionBot就会启动,描述你上传的图片。
根据介绍,CaptionBot.ai使用机器学习技术来识别和描述你的图片。当你上传一张图片,它会被发送给Microsoft进行分析,然后返回一句话的描述。据悉,CaptionBot的构成,包括Computer Vision API(计算机视觉应用程序编程接口)、Emotion API(情感应用程序编程接口)和Bing Image API(Bing图片搜索应用程序编程接口)。
根据笔者的亲自测试,CaptionBot对人物、现实照片可能会有更好的描述,但是对一些抽象化或者电影里的人物仍然无法描述出来。
比如,笔者上传了一张穿靴子的猫,CaptionBot描述为“我无法完全理解这副图片,但是我看到了书、文字、穿着”,而上传的央视新大楼,该服务描述为“我觉得这是建筑的摆设布局”。很显然,这种描述无法让人满意。
事实上,CaptionBot依靠机器学习,背后是模型和数据的大量训练。模型本身与输入数据的类型会影响到它对图片的识别,最后的描述也会千差万别。举个简单的例子,如果你让它训练大量的任务照,但是突然给它一个建筑物的图片,它也无法识别出来。
如果想要达到人类的程度,计算机视觉还有很长的一段路要走。
附:扫描下方二维码,你可以直接体验CaptionBot功能
最新资讯
热门视频
新品评测