滚动新闻
当前位置: > >文章详情

微软的新图像字幕算法,准确性或超人类 原创

2020-10-18 09:46:38      钉科技     

[钉科技编译] 综合《thesouthafrican》和《theverge》消息:微软开发了一种新的图像字幕算法,该算法在某些有限的测试中准确性超过了人类,据称其将被合并到该公司用于视力障碍者的应用程序“Seeing AI”及其更大的Office产品系列中。

image.png

图像字幕技术满足了诸如为图像创建替换文本的任务,该功能对于增加可访问性特别重要。微软AI团队的软件工程经理Saqib Shaikh在新闻发布会上说:“理想情况下,每个人都将在文档、网络、社交媒体中为所有图像添加替代文本,因为这使盲人可以访问内容并参与互动。但是,人们没有。因此,有一些应用程序使用图像标题作为替代文本的方式”。

微软表示,新算法效果是当前算法的两倍,对于使用诸如微软 Seeing AI之类的应用的用户来说,这将意味着极大改善用户体验。

Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。微软算法不仅能够识别人和物体,还能够识别物体之间的关系,这意味着该算法能够将某人描述为“坐在椅子上或读书”。

在9月份的一篇论文中,新算法在一个被称为 "nocaps "的图像字幕基准测试上取得了有史以来最高的分数。nocaps基准测试由超过166000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15100张图片,这些图片涵盖了从运动到假日抓拍,再到美食摄影等等的一系列场景。 (钉科技综合《thesouthafrican》和《theverge》消息编译)


文章详情:微软的新图像字幕算法,准确性或超人类

钉科技(微信号:dingkeji2015),专注TMT领域创新研究报道,第一批今日头条“百群计划”签约媒体和入驻头条号创作空间的科技新媒体,荣获腾讯2015年度最佳新锐自媒体,2016年腾讯企鹅号年度新媒体,2017年UC量子计划获奖新媒体,被中国科技信息评为“影响中国科技行业自媒体50人”,是2015-2016连续两年工信部手机与应用创新大赛专家评审媒体。商务合作请发邮件:BD@dingkeji.com

声明:本站原创文章文字版权归钉科技所有,转载务必注明作者和出处;本站转载的文章仅出于传递更多信息的目的,仅代表原作者观点,不代表钉科技立场,图文版权归原作者所有,如有侵权问题,请联系我们删除,邮箱:BD@dingkeji.com


钉科技技微信公众号二维码

关于我们

微信扫一扫,加关注

商务合作

  • 010-62592560
  • 61149512