“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
2023年,我们看到了扩散模型推理速度方面的一些重大理论改进,例如Song等人的原始一致性模型论文,以及最近的LCM。(另外,对抗扩散蒸馏。)我们已经开始看到使用这些想法的项目,例如Dan Wood的Art Spew(每秒77512×512图像,在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。
作为这个项目的创建者,我的评估可能有点偏颇。虽然它并不完美并且总有改进的空间,但我坚信 ScriptGPT 可以成为开发人员工具包的宝贵补充。尝试一下,看看它如何提高生产力!Github 存储库:ScriptGPT
针对成果发布问题,《指引》强调,公布突破性研究成果和重大研究进展应经所在科研单位同意。未经科学验证或同行评议的研究成果,科研人员不得向公众传播;不得将已发表的论文或其中的数据、图片等再次发表,不得将多篇已发表论文各取一部分拼凑出“新成果”后发表。
Paint3D 的技术实现主要分为两个阶段:粗糙纹理生成和纹理细化。在粗糙阶段,通过预训练的2D图像生成模型获取输入的引导信息,然后将这些信息反投影到3D模型的表面上,生成初始纹理贴图。