人工智能，“抛弃”真实数据集？

2022-04-02 13:42:30 来源：科普中国

当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。

比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。

而且，使用已有数据生成数据集，也会花费数百万美元。

另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。

那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？

近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能更好。

相关研究论文以“Generative models as a data source for multiview representation learning”为题，以会议论文的形式发表在 ICLR 2022 上。

不输于真实数据

这种特殊的机器学习模型被称为生成模型（generative model），相比于数据集，存储或共享所需的内存要少得多，不仅可以避免一些关于隐私和使用权的问题，也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述，在训练过程中，生成模型首先会获取数百万张包含特定对象（比如汽车或猫咪）的图像，然后学习汽车或猫咪的外观，最后生成类似的对象。

简单来说就是，研究人员使用一个预先训练的生成模型，参照模型训练数据集上的图像，输出大量独特的、真实的图像流。

（来源：Pixabay）

研究人员表示，一旦生成模型在真实数据上进行训练，就可以生成几乎与真实数据无法区分的合成数据。

另外，生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的，它就可以“想象”出汽车在不同情况下是什么样的，然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点，其中之一便是，它在理论上可以创建无限数量的样本。

基于此，研究人员试图搞清楚样本数量如何影响模型性能。结果显示，在某些情况下，大量的独特样本确实会带来额外的改进。

而且，在他们看来，生成模式最酷的一点在于，我们可以在在线资料库中找到并使用它们，而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如，在某些情况下，生成模型可能会揭示源数据，从而带来隐私风险，如果没有进行适当的审计，可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋？

有效数据的稀缺性，以及采样偏差，已经成为机器学习发展的关键瓶颈。

近年来，为解决这一问题，生成式 AI（Generative AI）成为了人工智能领域的热议话题之一，被业内给予了足够高的期待。

去年底，Gartner 发布了 2022 年重要战略技术趋势，将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前这一比例还不到 1%。

图｜Gartner 2022 年重要战略技术趋势（来源：Gartner 官网）

2020 年，生成式 AI 作为一个新增技术热点，在 Gartner 发布的“Hype Cycle for Artificial Intelligence，2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence，2021”报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

（来源：Gartner Hype Cycle for Artificial Intelligence, 2021）

生成式 AI 的突破在于，它可以从现有数据（图像、文本等）中学习，并生成全新、相似的原始数据。也就是说，它不仅可以做出判断，还能够进行创造，可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是，生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等，比如经常产生各种负面新闻的 Deepfake。

那么问题来了，如果我们有足够好的生成模型，还需要真实的数据集吗？

原文链接：

https://openreview.net/pdf?id=qhAeZjs7dCL

https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

https://www.gartner.com/en/documents/4004183

学术头条

关键词：机器学习研究人员人工智能

精彩放送

头顶上的“南水北调”，能一劳永逸解决90后们的“头等大事”吗？

科普云
荣耀CEO赵明：蔚来造手机仍处于调研阶段

今日下午，荣耀 CEO 赵明在接受媒体采访时，表达了他对传统车企进入手机行业的看法。他表示，荣耀从不...
人工智能，“抛弃”真实数据集？

科普云
你也喜欢吃臭的？太有“猿粪”了！

科普云
注意，无缘无故总觉得累可能是疾病信号！

科普云
清明假期健康提示

科普云
“从阅读中探索我们时代的科幻写作”主题沙龙举办

科普云
赶紧换浏览器吧！升级Win 11出现Bug：IE的数据会丢失

4月2日消息，微软官方表示，Win10升级到Win11时，InternetExplorer中的数据会丢失。值得一提的是，微软...
存在起火自燃风险！大众召回10万辆插混电车：电池绝缘有问题

4月2日消息，据路透社报道，大众集团一名发言人表示，大众集团旗下一部分车型可能存在起火自燃风险，即...
清明节快到了，来尝一口春天的味道！

科普云
朋友圈疯传"某品牌方便面中含农药"？别让爸妈被这些谣言骗了！

科普云
员工是果粉？微软宣传Windows时闹乌龙，配图竟是iMac

4月2日消息，据9To5Mac报道，近日微软官方在Twitter宣传Windows系统时，配图用的竟是苹果iMac照片。如果...
她是真正的“追光者”，让阳光下的魔法在生活中大放异彩

科普云
联想智联质量生态“六大环节”严控护航冬奥0故障

近日，联想举办了“0故障冬奥点燃联想时刻”联想冬奥技术服务创新主题沙龙，并首次公开了本次冬奥会0故...
头发也是蛋白质，为啥不能吃？

科普云
神秘生物“水猴子”到底是个啥？

科普云
为了完成研究，他拿走了女儿从海滩捡回来的蛤蜊

科普云
每10年就少1000克！补充胶原蛋白到底有没有用？

科普云
没想到，不会动的河蚌，原来是个会钓鱼的大骗子！

科普云
暴涨125%！理想汽车最新销量公布：居然没有哪吒多

4月1日消息，今日理想官宣，3月共交付11034辆理想ONE，同比增长125 2%，今年第一季度共交付31716辆，同...
比iPhone强？索尼旗舰机皇获红点设计奖：颜值的确高

4月1日消息，索尼Xperia官方在推特上宣布，XperiaPRO-I荣获2022年产品设计红点奖。参赛作品依据创新程度...
脚踝扭伤的正确处置

科普云
马斯克差点都要信了！特斯拉首款婴幼儿车型曝光：非官方恶搞

4月1日，有网友曝光了一款疑似特斯拉婴儿车“BabyX”的宣传海报，海报显示，特斯拉BabyX婴儿车限时发售...
预防类风湿关节炎，这些因素应避免

科普云
离谱！周杰伦持有的NFT被盗：转手价格超过300万元

4月1日消息，周杰伦在ins上发文，自己所持有的NFT（Non-FungibleTokens，非同质化代币）被钓鱼网站偷了...
碾压日韩厂！全球电池出货量数据公布：宁德时代第一，比亚迪第三

4月1日消息，韩国市场调研机构SNEResearch发布数据显示，2022年1~2月份全球动力电池出货量53 5GWh，相...
穿心红萝卜提纯复壮及有机栽培技术

科普云
池塘工程化循环流水养殖技术

科普云
习惯性崴脚严重吗？怎么预防呢？

科普云
复姓在古代很常见，现如今为何很那再看到复姓名字了？

科普云
一双“慧眼”识沙尘

科普云
爷青回！愤怒的小鸟重回苹果应用商店：采用全新引擎打造

4月1日消息，芬兰游戏开发商宣布，将以全新引擎和无内购的方式将《愤怒的小鸟》上架应用商店，包括苹果A...
言传身教、求是传承——访竺可桢之子、中科院化学研究所研究员竺安

科普云
被忽视的眼底检查，到底可以发现哪些问题呢？

科普云
别再跟着网红盲目学抗糖了，你真的了解糖化么？

科普云
全球首款苹果充电口安卓手机来了！大神逆天操作：真不是开玩笑？

4月1日消息，继去年制造出全球首款Type-C口iPhone后，工程师KenPillonel最近又整出了新活，他造出了全球...
皮卡界的全能王——中国重汽VGV VX7

在国家发补贴,以旧换新，放宽限购等汽车促销政策的总基调下，皮卡车型的三包政策、路权政策实现了对皮卡...
特斯拉的劲敌！宝马3系纯电版来了：526公里续航，中国专供

3月31日消息，宝马官方公布宝马i3纯电车的官方图。该车由华晨宝马工厂生产，预计5月份上市，初期将推出i...
下个月发售！知名动作冒险游戏将登陆Switch：联机玩是亮点

3月31日，科雷娱乐（Klei）官方宣布，《饥荒联机版》将于2022年4月12日登陆NintendoSwitch平台，抱怨这...
提车时间更晚了？特斯拉：上海工厂推迟复工

3月31日消息，市场内部消息称，特斯拉上海超级工厂推迟复工时间，暂未确定何时才能复工。受到上海疫情影...
听说你也开始种菜了？推荐这些菜......

科普云
适合腰肌劳损的康复运动有哪些？

科普云
轰炸机靠什么来瞄准？诺顿瞄准器，不过这个东西有点坑

科普云
淘宝、微信上榜！台湾人最爱用的十款大陆App公布：第一是它

3月31日消息，台湾中时新闻网公布了当地居民最喜欢的十款大陆App，其中抖音以1215532的热度荣登榜首，比...
喝茶真的能“刮油”吗？来看看科学的解释

科普云
得答100道题！B站“硬核会员”认证来了：通过后获得大量权益

3月31日消息，B站官方宣布，LV6会员新增“硬核会员”认证，用户需要在120分钟内回答100道题，通过后ID旁...
老用户才是真爱！iOS 15.4续航实测：新机变差，旧机增强

3月31日消息，苹果在前阵子推送了iOS15 4版本更新，支持戴口罩解锁FaceID功能，并上线新表情符号，修复...
科普要闻 | 安徽省明光市三界镇科协开展2022年节水宣传周科普宣传活动

科普云
出二手大赚一笔？i茅台申购首日运行顺利：超600万人次申购

3月31日消息，茅台官方宣布，“i茅台”App试运行首日预约申购顺利，申购结果将于今日18时公布。3月29日...
还消费者自由！微信确认：扫码点餐强制关注整改已完成95%

3月31日消息，微信官方确认，“扫码点餐过度索权”问题整改已达到95%，早前网友们厌恶的扫码点餐必须关...
不跟苹果三星竞争？蔚来李斌：做手机不考虑商业化，更看车主体验

3月31日，蔚来汽车创始人、董事长兼CEO李斌在参加一档访谈节目时，回应了蔚来造手机的传闻，他表示，智...
苹果不用吗？三星笔记本OLED拿到莱茵认证：终于解决频闪问题

3月31日消息，三星半导体和显示官方宣布，三星推出了可用于IT产品的大尺寸OLED屏幕，拥有13 3 "、13 ...
不挨打就不听话？苹果不堪忍受荷兰重罚：同意解除“苹果税”限制

3月31日消息，据外媒MacRumors报道，苹果已经同意，荷兰运行iOS和iPadOS的设备，可以选择第三方渠道充值...
中药半月谈 | 虎掌南星

科普云
这次不会崩了？陕西一码通正式上线：整合陕西健康码和西安一码通

3月31日消息，@陕西发布官方宣布，陕西一码通于今日正式上线。它是由陕西健康码和西安一码通两者整合升...
不用拿手机了！微信Mac内测版新功能有点厉害：能识别二维码

3月31日，微信Mac内测版迎来了3 4 0 2版本更新，新版本终于支持软件内识别二维码图片，以及将公众号...
性能是英特尔的两倍！世界最快模拟量子计算机诞生：富士通打造

3月31日消息，日本富士通宣布，它开发出了世界上最快的模拟量子计算机，其模拟器可以实现IBM和英特尔等...
油轮130余年发展史（四）

科普云
警惕!——儿童药物性肝损伤

科普云
想趁疫情发财？上海多家超市高价收费被处罚：配送费高达188元

3月31日消息，据北京头条报道，上海市场监管局收到市民反映，上海多家世纪华联特许经营门店恶意抬高起送...
隐藏起来的疾病--药物性肝损伤

科普云
国家体育总局运动医学研究所主任医师厉彦虎：脊柱健康从正确姿态开始

科普云
患者超过500万，被忽视的中小学生脊柱侧弯

科普云
防龋英雄——窝沟封闭

科普云
欧龙马口服滴剂需注意的二三事

科普云
这个小药片是怎么一步一步让男人沦陷的？

科普云
“糖宝宝”能服用乳果糖口服液吗？

科普云
CHINA ROCK 2022第十八次中国岩石力学与工程学术年会分会场筹备会第一次会议召开

科普云
头部主播的天价罚单，背后暴露的直播乱象

3月30日，国家互联网信息办公室、国家税务总局、国家市场监督管理总局联合发文，规范网络直播营利行为促...
仙气飘飘，“南天门”三期通地铁了？网友：西游记拍得还是太保守了

科普云
蚯蚓的入侵导致北美森林中的昆虫种群减少

科普云
2025年深圳宽带用户接入速率达10倍以上

光纤宽带速率(网速)指的是技术上所能达到的最大理论速率值，一般是上传和下载的速度，速率越高，上传和...
为什么越不动就越不想动？可能不是懒！"罪魁祸首"终于找到了

科普云
掐指算一算，过安检的辐射量有多大？

科普云
95%的人类悄无声息被感染：这种可能导致绝症的病毒，至今没有疫苗

科普云
募资35.12亿！龙芯中科科创板IPO注册

同意了龙芯中科技术股份有限公司科创板IPO注册，这意味着这家国产CPU公司上市之路定了。3月29日晚，来自...
海淀区完成五个商圈改造升级，将引入山姆会员店、万象汇

海淀区似乎要在北京商圈中打一场翻身仗。3月29日，北京商报记者从海淀区商务局了解到，目前海淀区已完成...
“非洲手机之王”传音控股：传统手机出货量占比高达40%

在中国手机制造商中，有一个在国内市场几乎没有存在感的玩家——传音控股(688036 SH)，这家企业在国内...
线下店拼不过线上交易平台华强北二手旗舰机卖不动了？

你或许买过二手手机，也可能出售过自己的旧手机。正是这一买一换之间，撑起了二手机市场近万亿规模的巨...
追赶特斯拉！蔚来ES7发布时间确定：用上高精度激光雷达

3月30日消息，蔚来联合创始人秦力洪表示，蔚来ES7将于5月底发布。蔚来ES7是其第二代技术平台的NT2 0的...
更花里胡哨了！B站重新上线特型弹幕：动画效果炫酷无比

3月30日消息，据新浪科技报道，B站在近期上线“特型弹幕”产品，分为普通特型弹幕和高级特型弹幕。弹幕...
mini-LED太贵了！苹果要用OLED屏幕：iPad先上？

3月30日，研究机构Omdia发布报告称，对MacBook来说，mini-LED和OLED之间的成本差距可能会更小。报告显示...
黑匣子为什么难成为“云匣子”？

科普云
人类会灭绝吗？如果会，导致灭绝的原因会是什么？

科普云
血检报告该怎么看？

科普云
堵死主播逃税漏洞？三部委联合规范网络直播：平台要代扣税款

3月30日消息，三部委联合印发了《关于进一步规范网络直播营利行为促进行业健康发展的意见》，网络直播平...
比苹果环保！日产汽车确认：淘汰的废旧电池将有新作用

3月30日消息，日前日产汽车确认，正在扩大废旧电池回收和再利用的范围，打算将其合并成一套供电系统，并...
食用油售价暴涨超20%，家里吃的油买哪种便宜又健康？

科普云
艾瑞联合Aqara绿米发布国内首个全屋智能行业白皮书

3月30日，国内权威数据调研机构艾瑞咨询联合IoT行业独角兽Aqara绿米共同发布了中国首个全屋智能行业白皮...
2022年抖音电商家电行业洞察报告：创作者数量同比增长54%

日前，抖音电商发布 2022 抖音电商家电行业洞察报告。报告称，在过去一年，抖音电商作为家电企业在抖...
终端提价20-30元电子烟刮起涨价“风”

终端涨价营销，企业装聋作哑，电子烟行业正在上演最后的疯狂。北京商报记者走访发现，《电子烟管理办法...
靠阳台种菜实现蔬菜自由，有谱吗？

科普云
350亿元！苹果再次面临天价罚单：苹果税何时才能结束？

3月30日消息，据美国彭博社报道，因AppStore的苹果税问题，苹果在荷兰再次遭到新的集体诉讼。据消费者竞...
超标电动自行车将被淘汰！新国标车型价格要上涨了：涨幅超过千元

3月30日，据央视财经报道，根据现有政策，到今年底之前，在浙江、陕西等五个省份，佛山、西安、天津等数...
盗图者盗的图片糊成一片！肯德基看不下去：直接开放高清图库

3月30日消息，鉴于很多商家盗用肯德基的图片，往往还用的截屏等方式盗图，导致图片分辨率很低，肯德基干...
私人无线公司Celona完成6000万美元融资，加速全球扩张

专门为企业提供5G局域网 (LAN) 系统的私人无线公司Celona日前宣布已经完成6000万美元的融资，这笔资金...
苹果iPhone14Pro高清渲染图曝光屏幕边框进一步收窄

荷兰科技媒体 Let& 39;sGoDigital 近日邀请平面设计师 Parvez Khan(油管频道 Technizo Concept)...
魔法世界都是骗人的，护树罗锅能护树才怪！

科普云
仅存30头的苏门答腊犀，最近迎来了新生儿！

科普云
耳机+空气净化器！戴森的新品有点奇葩：出门都不用戴口罩了？

3月30日，戴森官方公布了一款全新的概念产品Dysonzone，其采用了史无前例的“耳机+空气净化器”创新设计...

创投更多》

海淀区完成五个商圈改造升级，将引入山姆会员店、万象汇

海淀区似乎要在北京商圈中打一场翻身仗...
海淀区完成五个商圈改造升级，将引入山姆会员店、万象汇

海淀区似乎要在北京商圈中打一场翻身仗...
线下店拼不过线上交易平台华强北二手旗舰机卖不动了？

你或许买过二手手机，也可能出售过自己...
苹果iPhone14Pro高清渲染图曝光屏幕边框进一步收窄

荷兰科技媒体 Let& 39;sGoDigital 近...
技嘉在600系主板率先取消驱动光盘连光驱都没用了

很多DIY玩家买到心仪的主板之后，可能没...