助力AI研究人员,微软推出大规模高精度AI训练数据集

∮仗剑ノ天涯 UID.437137
2016-12-17 发表

本帖最后由 ∮仗剑ノ天涯 于 2016-12-17 22:14 编辑

对人工智能技术比较熟悉的用户应该知道,这项技术基础就是神经网络理论。在真正运用神经网络之前,我们需要对其进行训练。训练集的规模越大,最终生成的网络的性能一般而言也就越好。

近日,微软放出了一项包含 10 万问题和人工生成的答案的大规模数据库,来帮助 AI 研究人员训练他们的网络,最终实现对网站信息的更好挖掘,并让网络更加自然地响应用户的问题。

***附件停止解析***

这项名为”微软机器阅读理解”(Microsoft Machine Reading Comprehension,MS MARCO)的数据库按照一份开源的协议推出,包含来自 Bing 查询的 10 万个问题,和 20 万个人工从真实文档或者网站总结出来的答案。

微软表示:

Quote我们的团队基于那些我们认为对于研究者来说可能感兴趣的查询选择了匿名的问题。此外,基于真实的网页我们人工给出了答案,并验证了正确性。

上述开源的数据集旨在帮助数字助理更好地提供合适的答案,甚至在复杂的问题下也能表现良好,而不是仅仅提供一系列网页链接。

MS MARCO 针对非商业用途免费推出,对此感兴趣的用户,***链接停止解析***。

标签: Microsoft

敬告:
为防止不可控的内容风险,本站已关闭新用户注册,新贴的发表及评论;
你现在看到的内容只是互联网用户曾经发表的言论快照,仅用于老用户留存纪念,且仅与科技行业相关,全部内容不代表本站观点及立场;
本站重新开放前已针对包括用户隐私、版权保护、信息安全、国家政策在内的各种互联网法律法规要求,执行了隐患内容的自查、屏蔽和删除;
本站目前所属个人主体,未有任何盈利安排与计划,且与原WFUN.COM所属公司不存在任何关联关系;
如果本帖内容或者相关资源侵犯到您的合法权益,或者您认为存在问题,那么请您务必点此举报或投诉!
全部回复:
鱼蛋bb UID.73864
2016-12-18 使用 Lumia 640 回复

这个可以,最近大企业都在放数据哎

本站使用Golang构建,点击此处申请开源鄂ICP备18029942号-4联系站长投诉/举报