Meta开源AI模型厉害了！过渡到多模态转换听音频就能画画

来源：安全 2024年02月04日 12:16

财联社

Meta周二（5月9日）宣布了一个最初Linux人工智能（AI）基本概念ImageBind，该基本概念可以将六种类型的冗余联系在一起。

ImageBind以视觉（图像和视频）为整体，建构自然语言、声音、3D深度、温度、运动读数（IMU），之后可以做在六个方式化错综复杂的若有转换。

ImageBind为驱动器给予了一个整体的思考，将拍照里的物体与它们的声音、3D形状、冷暖程度、以及它们的漂移方式联系起来。

Meta称，ImageBind使驱动器必需愈来愈同步、愈来愈全面、愈来愈并不需要地从不同数据方式里学习，实质性向人类背离。

AI的将来

该数据分析的整体基本概念是将除此以外的数据连接到一个嵌入自由空间（Embedding Space）里，正是这个基本概念中空着最近生成式AI的蓬勃发展。

例如，Meta的AI影像生成器Make-A-Scene可以在ImageBind基本概念的支持下，从音轨里创建影像，例如根据雨林或熙熙攘攘的市场的声音创建影像。

ImageBind还可以给予一种丰富多彩的方式来揭示记忆，也就是用作自然语言、音轨和影像的组合来搜索无关数据。

此外，ImageBind为数据分析人员共同开发最初整体系统会给予了思路，例如建构3D和IMU传感器来内部设计或体验沉浸式虚拟世界。这不就是Meta一直以来追求的“元宇宙”吗？

图例是Meta在一篇网志文章里假定的范例：当输入一段小蓝的叫声后，ImageBind能生成小蓝的图像；当输入兔子的拍照和一段货车轰鸣声后，ImageBind能生成一张“人开车惊动鸽群”的拍照；ImageBind还可以根据一段火车车厢的音轨，生成火车车厢的拍照、无关的火车车厢3D基本概念、以及一段眼中火车车厢车站的自然语言。

该基本概念目前还只是一个数据分析项目，不会并不需要的生产者或也就是说应用，不过它这种对角引用数据的基本概念指明了生成式AI系统会的将来，因为它可以孕育身临其境的多感官体验。

Meta在网志文章里指出，其他感官输入东流也可能被添加到将来的基本概念里，最主要“感受、耳聋、嗅觉和大脑动态磁共振成像信号”。

想象一下，在将来的一台设备上，你可以让它模拟一次漫长的水上远航，它不仅则会让你置身一艘以海潮为背景声音的小船，还则会让你感受到小山甲板的翻滚和水上空气的潮湿。

Linux与约束

当然，这一切都是推测的，而且像这样的数据分析的并不需要应用可能受到愈来愈多的约束。

然而，对于从业人员通过观察来说，这项数据分析很引人入胜，因为Meta已将其ImageBind的文档Linux，这一处理方式在AI领域受到越发合理的初审。

OpenAI等反对Linux的从业人员人士称，这种处理方式对孕育者有害，因为竞争对手可以粘贴他们的作品，而且这种处理方式可能存在潜在危险，无需假新闻行为者依靠最高性能的人工智能基本概念。

不过Linux的支持者反击道，Linux只不过上是无需第三方共同开发人员作为无偿员工来对基本概念顺利完成改良，从而实质性产生商业活动生产成本。迄今为止，Meta一直坚定会站在Linux阵营。

姚飞
杨强
关节僵硬吃什么药
早起手指关节僵硬疼痛
牙痛怎么快速止痛药物

上一篇：知名社会活动家突发疾病去世，年仅55岁！50岁后进入疾病高发期，关键做好这件事

下一篇：唯快不破！5G电脑工厂挑战极致减碳

Meta开源AI模型厉害了！过渡到多模态转换 听音频就能画画

Meta开源AI模型厉害了！过渡到多模态转换听音频就能画画