为知名品牌客户提供礼品包定制服务
股票代码:837115
您的位置: 首页 > 产品中心

8天狂收6100颗星可商用!东京工业、麻省理工等开源Stream Diffusion

时间: 2024-01-05 16:57:03 |   作者: 产品中心

立即定制

  加州大学伯克利分校、东洋大学、东京工业大学、麻省理工学院和筑波大学等研究人员,联合开源了一款创新性实时交互图像生成框架——Stream Diffusion。

  Stream Diffusion的技术创新点在于,将传统的顺序去噪变成流批处理去噪,消除了漫长的等待、交互生成方式,实现了流畅且吞吐量超高的图像生成方法。

  同时引入了“残差无分类器指导”方法,逐步提升了流批处理的效率和图像质量。

  根据Stream Diffusion在Github上的项目提交历史记录显示,仅用了8天的时间就收到6100颗星成为霸榜开源产品,其性能和欢迎程度可见一斑。允许开发者商用。

  目前,扩散模型在图像生成方面获得了广泛应用并成功实现商业化落地,例如,该领域的标杆产品Midjourney。

  但在实时交互方面表现不佳需要漫长的等待,尤其是涉及连续输入的场景中尤为明显。

  为了解决这一些难题,研究人员设计了一种新颖的输出、输入方法,就是将原始的顺序去噪转化为批处理去噪过程。

  简单来说,Stream Diffusion相当于大模型领域的机械化流水作业,将单一、繁琐的去噪、推理流程改成批量处理。

  流批式去噪是Stream Diffusion的核心功能之一,也是实现实时交互的关键所在。

  传统的交互式扩散模型都是顺序执行:一次输入一张图片,走完全部的去噪步骤后,再输出一张结果图像。然后不断重复这样的一个过程,生成完成更多的图像处理。

  这样就造成一个很大的问题速度和质量难以同时得到保证。为了生成高质量的图像,需要设置较多的去噪步骤,导致生成图像的效率较慢,没办法做到“鱼与熊掌”兼得。

  流批式去噪的核心思想是:当输入第一张图像开始去噪步时,不必等待它完成,就可以接收第二张图像,以实现批量方式处理。

  这样,U-Net只要一直调用,处理一个批量的特征,就可以高效实现图像生成流水线的批量推进。

  此外,流批式去噪方法的好处在于,每次调用U-Net就可以使多个图像同时推进一步,而U-Net的批量运算很适合GPU并行计算,所以整体运算效率非常高。

  为了强化提示条件对结果的影响,扩散模型通常使用一种叫“无分类器指导”的策略。

  在传统方法中,计算负条件向量时需要对每个输入潜向量配对负条件嵌入,每次推理都要调用U-Net算力消耗巨大。

  为了解决这一个问题,研究人员提出了“残差无分类器指导”方法。其核心方法是,假定存在一个“虚拟残差噪声”向量,用来逼近负条件向量。

  首先计算“正条件”向量,再用正条件向量反推这个虚拟负条件向量。这样就避免了每次都要额外调用U-Net来计算真实的负条件向量,从而大幅度减少了算力。

  简单来说,就是用原始的输入图像编码作为负样本,无需调用U-Net就可以计算。稍微复杂一点的“一次负条件”,是在第一步使用U-Net计算一次负向量,然后重复使用这个向量近似后面的所有负向量。

  该模块的功能是使总系统的瓶颈不再是数据格式的转换,而是基于模型本身的推理时间。

  通常,输入的图片需要缩放、转换格式等预处理才能成为模型可用的张量;输出的张量也需要后处理恢复为图片格式,整一个流程消耗大量时间和算力。

  流水线作业将预/后处理与模型推理完全分离开来,置于不同的线程中并行执行。输入图像经过预处理进入输入队列缓存;

  输出张量从输出队列发出,再后处理为图片。这样两者就可以不互相等待,从而优化了整体流程速度。

  此外,该方法还起到平滑数据流的作用。当输入源故障或通信错误导致暂时没法传入新图像时,队列能够继续提供之前缓存的图像,保证模型的流畅运行。

  该模块的功能是显著减少GPU算力消耗。当输入的图片连续相同或高度相似时,反复推理是没有一点意义的。

  所以,相似度过滤模块计算输入图片与历史参考帧的相似度。如果高于设定阈值,则以一定概率跳过后续的模型推理;

  如果低于阈值,则正常进行模型推理并更新参考帧。这种概率采样机制使得过滤策略可以平滑自然地对系统进行节流,降低平均GPU使用率。

  在静态输入下过滤效果明显,动态变化大时自动降低过滤率,系统能自适应场景动态性。

  这样,复杂度动态变化的连续流输入下也可以自动调节系统推理负载,节约GPU算力消耗。

  效率方面,实现了超过91FPS的生成帧率,是当前最先进的AutoPipeline的近60倍,并极大减少去噪步骤。

  功耗方面,静态输入下,RTX3060和RTX4090的平均功率分别降低了2.39倍和1.99倍。

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,稳定性很高,让您的云端之旅更加畅享。快来腾讯云选购吧!

  腾讯云AI绘画推出SaaS版本,成为国内首批通过中国信通院评估的AIGC绘画平台,提供API和在线工具,支持智能图生成、文生成图等多种能力。AI生成视频工具AssistiveVideo输入描述即可生成视频AssistiveVideo是一款AI生成视频工具,用户通过输入描述或上传图片即可轻松生成高质量4秒视频,为各领域带来方便快捷的视频制作体验。该模型在T3Bench数据集上的测试表现出色,展现了在

  StreamDiffusion是一个开源项目,最近在推特上引起了热烈讨论。这一个项目基于LCM和SDXLTurbo技术,每秒能够生成110张图像,为想要开发实时图像生成产品的人提供了一个需要我们来关注的资源。对于对图像生成感兴趣的人来说,这一个项目值得一试。

  单目深度估计一直是计算机视觉领域的难点。仅凭一张RGB图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性引入的深度估计误差。

  最新功能支持将多个Gen2生成的视频合成到一个场景中,用户可轻松创造丰富的场景内容视频,类似于Photoshop的图层功能。地址:能生成文字了Midjourney发布V6版本,图像更真实、文字生成功能问世,创始人表示是团队从头开始训练的第三个模型,更新包括图像优化、文字处理等5大升级。模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4Tv2和Seamle

  LogoDiffusion是一款利用人工智能技术快速创建独特和定制标志的工具。它不但可以创建品牌资产可以创建3D徽标。无需使用Photoshop或Illustrator,您能够正常的使用他们的编辑软件来发展您的徽标设计想法。

  文生图平台Playground宣布开源PlaygroundV2版本,允许商业化,用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片,同时无偿提供在线体验。PlaygroundV2是基于StableDiffusionXL开发成从Midjourney搜集了10个类别,每个类别包含3000个样本的高质量图片用于图文对齐。本文素材来源Playground官网灰色的外星人,呈现出不同色调的蛇皮纹理,融合了机器人颈部特征,超大迷

  小米商场上架了一款新机Redmi13R,售价为999元。小米Redmi13R正面采用一块6.74英寸水滴屏,分辨率为1600*720,90Hz刷新率,屏幕亮度为450nit,支持全程DC调光,获得双重莱茵护眼认证。该机配备5000mAh电池,最高支持18W快充,出厂搭载MIUI14。

  2015年,周信静通过专升本来到杭电,随后考上浙江大学的计算机科学与技术专业硕士,并拿下MIT计算机系的PhDoffer。这件事被报道后引发关注,有老师引用周信静的求学历程勉励学子主动追求知识和进步,勇于接受新的挑战和机遇,不断锤炼自己的能力和品质,成为有实力、有担当的青年。通过挑战自己、改变思维方法、追求卓越、寻求支持、不断学习和成长,不给自己设限,激发自己的潜力,创造更多的可能性。

  麻省理工大学的科学家们利用人工智能技术取得了突破性的发现,发现了一种新的抗生素类别,用于对抗耐药性金黄色葡萄球菌。60年来的抗生素研究已经有60多年没取得重要的进展了,这是60年来发现的首个新型抗生素。针对MRSA的新抗生素的发现对于医学领域来说是一个重要的进步,因为它提供了一个新的工具来对抗这种难以治疗的细菌。

  麻省理工学院的一组领导者和学者组成的临时委员会发布了一系列关于人工智能治理的政策文件,旨在为美国政策制定者提供资源,制定更好的人工智能监管框架。主要政策文件名为《美国人工智能治理框架:打造安全繁荣的AI行业》,建议能够最终靠扩展现有的美国政府机构来监管AI工具,并强调了定义AI工具目的的重要性,以便制定相应的监管规定。委员会希望弥合对人工智能持激进态度和持担忧态度的人之间的鸿沟,通过倡导技术的进步伴随着适当的监管,推动AI行业的健康发展。

  Lampi 是一款由 AI 驱动的安全平台,可在您完全控制的前提下进行广泛的搜索,并生成基于知识的内容。Lampi 旨在确保您的数据保持私密和在您的控制之下。产品定价和详情信息请访问官方网站。

  AnyChat是一款AI助手应用,利用AI达成目标和回答问题来提升工作效率。用户都能够通过AnyChat执行各种任务,如搜索、生成文档、回答问题等。通过AnyChat,用户可以优化工作流程,提高工作效率。

  Kin是您私人生活的AI助手。它具有无限的耐心、同情心和专业知识,并全天候为您提供支持。Kin建立在语义和情节记忆之上,能够深入了解您,同时注重隐私和安全。它通过本地存储、自主数据控制以及边缘机器学习等技术,保障您的数据安全。Kin还提供任务管理、优先级组织、时间优化等功能,可帮助您更好地利用时间。Kin目前处于测试阶段,正在接受早期访问请求。

  FreeInit是一个简单有效的方法,用于提高视频生成模型的时间一致性。它不需要额外的训练,也不引入可学习的参数,可以很容易地在任意视频生成模型的推理时集成使用。

  Discoze是一个通过AI孪生模型实现社交发现和交流的APP。用户可以创建自己的AI孪生,使其学习并模仿自己的语音、照片和个性。其他用户能够最终靠AI孪生模型进行交流,从而快速发现共同语言的朋友。Discoze实现了零等待时间的社交,用户都能够随时通过AI孪生开始交流。

  ODIN(Omni-Dimensional INstance segmentation)是一个模型,可以使用转换器架构在2D RGB图像和3D点云上进行分割和标记。它通过在2D视图内和3D视图之间交替融合信息来区分2D和3D特征操作。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能,并在ScanNet、S3DIS和COCO上实现了竞争性能。当使用来自3D网格的采样点云代替感知的3D点云时,它超过了以往所有的作品。作为可指导的具体化代理架构中的3D感知引擎时,它在TEACh对话动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到。

  LLM Augmented LLMs通过将现有基础模型与更具体的模型进行组合,实现新的能力。CALM(Composition to Augment Language Models)引入模型之间的交叉注意力,以组合它们的表示并实现新的能力。其显著特点包括:(i)通过“重用”现有LLMs以及少量额外参数和数据,在新任务上扩展LLMs的规模;(ii)保持现有模型权重不变,因此保留现有的能力;(iii)适用于不同的领域和设置。实验证明,将PaLM2-S与在低资源语言上训练的较小模型进行增强,在诸如翻译成英语和低资源语言的算术推理等任务上,结果绝对改善了高达13%。类似地,当PaLM2-S与特定于代码的模型进行增强时,在代码生成和解释任务上,相对于基础模型,我们看到了高达40%的改进,与完全微调的对应模型不相上下。

  这款产品是一种3D GAN技术,通过学习基于神经体积渲染的方法,能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器,加速3D GAN训练,使用更少的深度采样,实现在训练和推断过程中直接渲染完整分辨率图像的每个像素,同时学习高质量的表面几何,合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量,为3D GAN中的无监督学习建立了新的标准。

  Dreamy.ai是一个人工智能驱动的虚拟聊天平台。用户都能够与逼真的虚拟角色进行沉浸式对话,实现角色扮演和交流。平台提供自定义人工智能女友、选择不同人物形象与个性,打造独一无二的虚拟伴侣。核心功能有自然语言处理、情感计算等AI技术,可实现自主对话和互动。优势是个性化体验强,可提升用户想象力与情感联系。定位虚拟娱乐、陪伴市场。

  3D Fauna是一个通过学习 2D 网络图片来构建三维动物模的方法。它通过引入语义相关的模型集合来解决模型泛化的挑战,并提供了一个新的大规模数据集。在推理过程中,给定一张任意四足动物的图片,我们的模型可以在几秒内通过前馈方式重建出一个有关联的三维网格模型。

  LLaMA Pro 是一种用于大规模自然语言处理的模型。通过使用 Transformer 模块的扩展,该模型可以在不遗忘旧知识的情况下,高效而有效地利用新语料库来提升模型的知识。LLaMA Pro 具有出色的性能,在通用任务、编程和数学方面都表现出色。它是基于 LLaMA2-7B 进行初始化的通用模型。LLaMA Pro 和其指导类模型(LLaMA Pro-Instruct)在各种基准测试中均取得了先进的性能,展示了在智能代理中进行推理和处理各种任务的巨大潜力。该模型为将自然语言和编程语言进行整合提供了宝贵的见解,为在各种环境中有效运作的先进语言代理的开发奠定了坚实的基础。

  QAnything是一个支持任意文件格式和数据库的本地知识问答系统,可以简单地导入任意本地存储的各种格式的文件,并得到准确、快速、可靠的问答。目前支持的格式包括:PDF、Word(doc/docx)、PPT、Markdown、Eml、TXT、图片(jpg、png等)、网页链接等,后续会持续新增支持的格式。QAnything具有数据安全性,支持断网安装使用;支持中英文跨语言问答;支持海量数据问答,解决大规模数据检索退化问题;直接可用于企业应用的高性能产品级系统;一键安装部署,开箱即用的用户友好体验;支持多知识库问答等功能。

  Instruct-Imagen是一个多模态图像生成模型,通过引入多模态指令,实现对异构图像生成任务的处理,并在未知任务中实现泛化。该模型利用自然语言整合不同的模态(如文本、边缘、风格、主题等),标准化丰富的生成意图。通过在预训练文本到图像扩散模型上进行两阶段框架的微调,采用检索增强训练和多样的图像生成任务微调,使得该模型在各种图像生成数据集上的人工评估结果表明,其在领域内与先前的任务特定模型相匹配或超越,并展现出对未知和更复杂任务的有希望的泛化能力。

  rasa.io 是一款个性化的电子邮件通讯工具,无论您的邮件列表有 100 人还是 10 万人,每个人都会收到一组专为他们选择的文章。您可以定期为邮件列表中的每个人提供真正的福利,而且不仅是定期,而且是相关的。

  Better Headshots一款专业的头像AI摄影工具,通过上传照片,用户都能够在两小时内获得专业的头像照片。用户都能够选择不同风格的拍摄,包括个性化和公司风格。产品定价灵活,覆盖个人和企业用户,提供不同套餐选择。AI摄影师能够生成高质量的头像照片,并经过人工审核,确保专业性和质量。

  juucy 是一个为您提供高质量技术人才的平台,通过连接独立招聘人才的网络,为您提供高素质的应聘者,解决难以招聘的职位需求。

  Mentalyc 是第一个符合 HIPAA 标准的 AI 心理治疗进展记录生成软件,专为心理治疗师、心理学家和心理咨询师打造。它可以帮助用户节省时间,提高护理质量,并确保合规性。支持录音、口述和直接文字输入等多种方式,支持自定义术语和模板,能够快速生成结构化的笔记。定价分为基本、专业和超级三个版本,功能覆盖个体提供者和团队实践的不同需求。

  Assignmentgpt AI是一个出色的 AI 平台,提供多种选项,如作业生成、自动写作、作业 AI 助手,学生能够正常的使用。

  MotionGPT是一个基于Hugging Face Spaces打造的开源机器学习应用社区。用户都能够在这里发现许多由社区成员开发的非常酷的机器学习项目和应用。所有项目都是开源的,用户都能够查看代码、进行创造性的二次开发。MotionGPT致力于向用户提供一个高质量的机器学习应用和代码资源库,并邀请更多开发者加入这个创造性的社区。

  DL3DV-10K是一个包含超过10000个高质量视频的大规模实景数据集,每个视频都经过人工标注场景关键点和复杂程度,并提供相机姿态、NeRF估计深度、点云和3D网格等。该数据集可用于通用NeRF研究、场景一致性跟踪、视觉语言模型等计算机视觉研究。