设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 热点新闻 国内资讯 查看内容

TikTok乱拳打死老师傅:硅谷大厂还在发论文,它产物曾经上线了

2022-8-17 17:35| 发布者: wdb| 查看: 89| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: TikTok乱拳打死老师傅:硅谷大厂还在发论文,它产物曾经上线了,更多关于国内新闻关注我们。

文/杜晨

来自/硅星人(ID:guixingren123)

忽然间,AI文字转相片成为了全世界科技业的一大盛行技艺趋向。

几周前咱们报导了“新一代梗图之王”DALL·Emini,一种脑洞非常清奇的文字转相片AI小用具。那时咱们也提到,包括google、OpenAI等大企业和高级探讨机构全在开发相干模子,就连时髦杂志《COSMO》都采纳AI来设置杂志封面。

相片来自:COSMO杂志

然则令众多人没料到是:

就在各家硅谷大厂斥巨资研发、砸了没有数的人工、发了没有数的论文,却还在测试相干技艺的时刻,TikTok竟然异军突起,起首把AI文字转相片做到了产物里,况且干脆交到了全世界十亿使用者的手上……

乱拳打死老师傅,华夏速度太快了

在TikTok的特效菜单下,最近增添了一种名叫“AI绿幕”(AIGreenscreen)的新选择。

敲击这种选择,接下来在屏幕当中的对话框里输入一段文字描画,只用不到5秒的时间,TikTok就能依据文字描画生成一张竖版画作,用作短视频的背景:

相片来自:硅星人截图

TikTok用的这种文字转相片模子,仍是十分容易的。硅星人测试了几个含义大相径庭的提醒,生成的相片可行说都非常的“迷幻",无全部写实色彩。

但这其实不是缺点缺点——正相反,生成结果具备十分强的水彩/油画感受,作风迁移(styletransfer)的踪迹显著,况且用的颜色也全鲜亮明快,让人一个耳目一新的感触。

相片来自:TechCrunch截图

咱特别想单独说一下咱本人生成的两张相片:

下图左边的提醒字段是知名游戏“最终生还者”。生成结果的辨识度太高了,这不正是游戏主角Ellie被泥浆血水浸湿的头发吗?

右图更有意思,提醒是“轰炸”:咱十足无料到如许“不和谐”的字段,TikTok的模子竟然生成的结果却差不多的“自洽”,特别是图中的“轰炸机”反而看起来像是代表和平的“白鸽”——能否你也能读出一丝讽刺的意指?

相片来自:硅星人截图

自然话说回来,这点不过咱本人的解读和感触,绝不可能是模子的“本意”。可是有趣的艺术作品不正应当是这样嘛,使人能够发觉少许巧妙的“彩蛋”,甚而浮想联翩,解读出此外的含义。

从这一方位,咱仍是十分认可TikTok日前部署的这种模子的。

模子的品质也值得一提。TheVerge、TechCrunch等美国媒体测试了少许特殊的感性字段,AI绿幕生成结果愈加抽象了,显现出字节部署的模子在争议字段上可能曾经做出了提早规避。

要晓得AI文字生成相片原本就非是容易的技艺,幸免争议/道德风险愈是一项差不多繁杂的事业。

相片来自:TheVerge截图

正如文章前面提到,google、OpenAI等巨头企业和知名机构开发的AI文字生成相片模子,日前都处于刚刚发表或许小范畴测试,还在“纸上谈兵”的阶段。

这里TikTok不但很快跟踪公布了同类模子,更厉害的是曾经将其投放在全世界十亿使用者量等级的产物里了。

原本认为AI艺术创作的潮流仍是几个硅谷大厂在引领,没料到字节跳动竟然“乱拳打死老师傅”——必需给华夏互联网科技企业的事业速度和品质点赞了。

AI创作成潮流,硅谷大厂挤破头

早在2020年,全世界知名的人力智能根基科研机构OpenAI发表了一种名为GPT-3言语模子。那时OpenAI的论文题为“LanguageModelsareFew-ShotLearners”,干脆点出了超大范围言语模子在多个非训练人物上具有强盛、迅速的学习和掌握能力。

GPT-3也十足没令人没有期望,在小范畴开放测试API以后,外界人员用它开发出了各式各类神奇的demo,展现了写段子、翻译公式、解数学题、达成使用者界面设置、生成财务报表等能力。

“AI文字生成相片”也是这点能力的此中一项。

相片来自:硅星人

包括OpenAI、google、Midjourney、StabilityAI等一众尺寸企业,曾经开发出了若干文字转相片生成模子,展现出神经网站模子具有令人惊讶的艺术创作能力。

从AI文字转相片生成技艺最初获得公众关心,到今日各路大厂和小企业挤破头也要掺和,各式不开放的、开放的、收费和无偿的模子层出不穷……也就往日了一年左右的时间。

在这点模子中间,OpenAI的DALL·E是最著名的一款。该模子一代于2021年公布,本年刚刚革新到了二代。使用者只要提供当然言语描画,模子就可以够生成十分写实(photorealisitic)的相片。

相片来自:OpenAI

除了从零最初生成最新照片,DALL·E2另有更多功效,符合现实中多个艺术事业情景。

例如它的编辑能力,可行在一张曾经存留的照片中,在使用者任选的位子“删除”或许“添加”物体,而且编辑后的成果依然很写实:

图示:在照片的不同位子添加“火烈鸟”。相片来自:OpenAI

再例如DALL·E2还具有“启发”的能力,能够依据一张曾经给定的相片,生成作风近相同的新照片:

相片来自:OpenAI

顺便一提:有一个跟OpenAI没关连的第三方开发者,本人仿着DALL·E做了一种相片生成模子,还给无偿开放了,取名为DALL·Emini。

结果这种“仿制品”比正品还受欢迎,在社交网站Twitter上专门搬运这种模子生成的奇怪相片的账号,fans量都破了百万。甚而逼得OpenAI专门出去澄清跟它没关连,请求开发者做出改变。此刻这种无偿小用具曾经改名为Craiyon了。

(听说此事以后,fans们还做了一张梗图,嘲笑OpenAI那里还在操控测试权限,这里DALL·Emini早就给全网玩嗨了……)

相片来自:FALSEKNEES

而在硅谷大厂的行列中间,此刻google是已知动作最快的,在DALL·E2出去一会儿后也发表了本人的模子,名为Imagen。

就像DALL·E的根源是言语超大模子GPT-3,Imagen的根源也是google开发的泛用型超大言语模子T5。至于Imagen的这种命名,本来是相片(image)+生成(generate)的混成词。

相片来自:GoogleResearch

尽管做的比DALL·E晚,同样作为硅谷知名AI探讨型企业的google,仍是十分不服OpenAI的,宣称找人做了许多同类模子的盲测,结果是受试者更喜爱Imagen生成的结果,以为其在“生成品质”和“文字描画还原度”上都更胜一筹。

——自然,究竟是DALL·E2和Imagen谁的生成结果更好,仍是一种很主观的,见仁见智的事宜。在技艺实现上,这两家本来大同小异,皆是用了Diffusion(分散)模子生成,接下来再用Super-Resolution(超分辨率)技艺来让生成结果愈加清楚。

相片来自:GoogleResearch

另有更多范围更小的新创企业也在做AI相片生成和艺术创作这件事。

此中全家相比有意思的企业便是Midjourney,其创始人是原知名动作感应技艺企业LeapMotion创始人DavidHolz;企业的投资人和顾问团队愈是差不多强盛,皆是苹果、特斯拉、AMD、GitHub等知名企业的焦点人物。

Midjourney跟OpenAI、google的写实方向背道而驰,却是在抽象、艺术性、特异作风之中寻求某种巧妙的联合点,这也是这家企业和其模子相比特别之处。此外Midjourney开放模子技艺的做法也很“年青化”,非是发表API和文档,却是把效劳接口做到了聊天软件Discord里。

相片来自:Midjourney

说完这点相比知名的企业,再来看全家名不见经传,可是和TikTok一样出手极快的美国企业:StabilityAI。

这家企业总部位于硅谷LosAltos,在上周刚刚发表了一种可行无偿运用的AI相片生成产物StableDiffusion。

相片来自:StabilityAI

StableDiffusion和前面推荐的几个写实派模子无很大不同。可是和产物、企业名称里的“稳固”正相反,这种模子在有害/争议字段的料理上,可行说十足无全部作为。而又由于产物是十足无偿提供应公众的,曾经有好多使用者用它制作deepfake、暴力、恐怖主义、虚假新闻相片等有害的内容了……

最近大半年,AI相片生成曾经成为了一种名副本来的科技产业“热词”,不过没料到,OpenAI和google做了那么好几年,却被TikTok给悄没有声息地跑赢了。然后,应当会有更多的科技企业也参加此中,不少全民利用背后的大厂预计又要忙活着把这项技艺加到产物中了。

最新评论

登录之后发表您得观点!