微软的新图像字幕算法,准确性或超人类
[钉科技编译] 综合《thesouthafrican》和《theverge》消息:微软开发了一种新的图像字幕算法,该算法在某些有限的测试中准确性超过了人类,据称其将被合并到该公司用于视力障碍者的应用程序“Seeing AI”及其更大的Office产品系列中。图像字幕技术满足了诸如为图像创建替换文本的任务,该功能对于增加可访问性特别重要。微软AI团队的软件工程经理Saqib Shaikh在新闻发布会
原创
2020-10-18 09:46:38
来源:钉科技  

[钉科技编译] 综合《thesouthafrican》和《theverge》消息:微软开发了一种新的图像字幕算法,该算法在某些有限的测试中准确性超过了人类,据称其将被合并到该公司用于视力障碍者的应用程序“Seeing AI”及其更大的Office产品系列中。

image.png

图像字幕技术满足了诸如为图像创建替换文本的任务,该功能对于增加可访问性特别重要。微软AI团队的软件工程经理Saqib Shaikh在新闻发布会上说:“理想情况下,每个人都将在文档、网络、社交媒体中为所有图像添加替代文本,因为这使盲人可以访问内容并参与互动。但是,人们没有。因此,有一些应用程序使用图像标题作为替代文本的方式”。

微软表示,新算法效果是当前算法的两倍,对于使用诸如微软 Seeing AI之类的应用的用户来说,这将意味着极大改善用户体验。

Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。微软算法不仅能够识别人和物体,还能够识别物体之间的关系,这意味着该算法能够将某人描述为“坐在椅子上或读书”。

在9月份的一篇论文中,新算法在一个被称为 "nocaps "的图像字幕基准测试上取得了有史以来最高的分数。nocaps基准测试由超过166000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15100张图片,这些图片涵盖了从运动到假日抓拍,再到美食摄影等等的一系列场景。 (钉科技综合《thesouthafrican》和《theverge》消息编译)

最新文章
1
十大面板厂2025财报:四家增长、三家扭亏,一液晶大厂利润降97%
2
从“被动操作”到“主动服务”,国补下的家电行业智能化提速
3
从流量到Token:运营商能否打破“管道化”宿命?
4
2月全球液晶面板市场出货同比下降11.2%,涨价幅度小
5
从“被动操作”到“主动服务”,国补下的家电行业智能化提速
6
京东方回购、TCL重组,显示面板行业将走向何方?
7
安卓终端涨价潮来袭 老品新品手机平板均受波及
8
机圈专业V单来了!vivo X300 Ultra正式开售:6999元起
9
阿里云位居中国金融智能体市场第一 32.4%市场份额断层领先
10
TCL领跑酒店电视市场,行业“老大”重塑智慧客房数智化体验
11
从易点天下与亚马逊云科技的深度协同,看出海营销的AI解法
12
BOE(京东方)2025年营收重回2000亿级 持续分红回购加大股东回报
13
华帝用三大“品牌特质”,拿下了“用户心智”
14
快手商家38上新季生意爆发,多维拆解增长解法
15
你的青春又有歌了!周杰伦《太阳之子》上线,多重限定玩法快手同步开启
16
快手千人共跳五禽戏,为南宁三月三注入非遗力量
17
透视美的海尔TCL海信创维2025财报,穿越波动周期靠这三点
18
37.81亿港元!TCL控股索尼家庭娱乐业务,电视王座之争向中国倾斜
19
行业洞察 | TMIC×Flywheel飞未联合发布《2026天猫音箱音响行业白皮书》
20
华帝潘叶钊:中国文化与时尚美学,品牌价值升维的新路径
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512