如何安装用于文本到音乐生成的 Meta AI Audiocraft

MusicGen-image-1-750x422-1

AudiocraftMusicGen 提供代码和模型,这是一种简单且适应性强的音乐生成方法。MusicGen 采用单级自回归 Transformer 模型,该模型使用 32kHz EnCodec 分词器和 4 个以 50 Hz 采样的码本进行训练。与 MusicLM 等先前的方法不同,MusicGen 不依赖于自我监督的语义表示,并且可以一次生成所有四个码本。

我们展示了通过在它们之间添加微小延迟来并行预测它们的能力,从而导致每秒音频仅 50 个自回归步骤。在本文中,我将逐步向您展示如何安装用于文本到音乐生成的 Meta AI Audiocraft

什么是 MusicGen 及其工作原理

  1. Meta AI 创建了 MusicGen,一种文本到音乐生成模型。它是一种单级变换器语言范例,作用于多个压缩的、离散的音乐表示流,称为标记。这使 MusicGen 能够生成高质量的音乐样本,同时以口头描述或旋律元素为条件,从而更好地控制生成的输出。
  2. MusicGen 仍在开发中,但它已被用于生成广泛的音乐风格,如流行、摇滚、古典和爵士乐。它还被用于为视频游戏、电影和电视节目创作音乐。
  3. MusicGen 是一个强大的工具,有可能改变音乐的制作方式。它可以被艺术家、作曲家和制作人用来创作新鲜和有创意的音乐。

MusicGen的特点

  • 它具有创作各种流派音乐的能力,包括流行、摇滚、古典和爵士乐。它可以根据特定的描述或音乐成分生成音乐。
  • 虽然仍在开发中,但它已经被用于为视频游戏、电影和电视节目等一系列媒体创作音乐。
  • 这个非凡的工具具有彻底改变音乐生成过程的巨大潜力。

MusicGen 用法

Meta 创造的 MusicGen 不仅仅是一个理论概念;它也是作曲的工作工具。以下是充分利用其强大功能的三种方法:

  • 演示:试用 MusicGen 的演示版本,亲眼看看它的强大程度。这个交互式演示允许您使用基本功能并根据简单的说明制作音乐。参与演示将使您了解 MusicGen 提供的创造性可能性。如果您对使用 MusicGen 的文字感兴趣,请阅读使用 Meta AI Audiocraft 的 MusicGen 文本转音乐
  • 协作:使用 MusicGen 作为协作工具与他人协作。无论您是从事音乐项目还是只是想享受与他人一起制作音乐的过程,MusicGen 都可以提供帮助。它促进团队合作并鼓励团队成员创造性地协作。
  • 代码:对于那些具有技术知识的人,MusicGen 提供了开放源代码,可以查看和更新​​以满足您的需要。您可以探索代码、进行更改并创作您自己的交响曲。这种定制量使您能够根据自己的特定音乐品味和需求定制 MusicGen。

MusicGen 是一款出色的音乐生成工具,无论您是初学者还是经验丰富的音乐家。它使用简单、适应性强且功能强大。您可以使用 MusicGen 将您的音乐想法变为现实。在本文中,我们可以了解如何安装和运行 musicGen。

先决条件

  • Audiocraft 需要 Python 3.9、PyTorch 2.0.0
  • 具有至少 16 GB 内存的 GPU

安装

要安装Audiocraft,请确保您已安装 Python 3.9 和 PyTorch 1.9.0 或更高版本。此外,请确保您可以使用内存至少为 16 GB 的 GPU,特别是如果您打算使用中型型号。

最好先安装 torch,尤其是在安装 xformers 之前。# 如果您已经安装了 PyTorch,请不要执行此操作。

pip install 'torch>=2.0'

然后继续执行以下操作之一,

pip install -U audiocraft  # stable releas

按照用于出血边缘的命令,

pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft 

如果您在本地克隆了 repo,

pip install -e 

用于生成音乐的 API

MusicGen 提供了一个简单的 API,用于从文本生成音乐。有四种预训练模型可供选择:

  1. 小:该模型有 300M 参数,只能从文本生成音乐。它是最快的模型,但可能不会产生最佳结果。
  2. Medium:该模型有 1.5B 参数,也可以从文本生成音乐。它比小模型慢,但产生更好的结果。
  3. 旋律:这个 1.5B 参数模型可以从文本和旋律中生成音乐。它是最慢的模型,但它产生最好的结果。
  4. Large:这个模型有3.3B参数,只能从文本生成音乐。它是最慢的模型,但它产生最好的结果。

本地使用 MusicGen 需要至少 16GB 内存的 GPU。使用微型模型,较小的 GPU 可能能够生成较短的序列或较长的序列。

注意:请确保在使用较新版本的 torchaudio 时安装了 ffmpeg。要安装 ffmpeg,您可以根据您的操作系统按照以下说明进行操作:

apt-get install ffmpeg

API 使用示例

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8)  # generate 8 seconds.
wav = model.generate_unconditional(4)    # generates 4 unconditional audio samples
descriptions = ['happy rock', 'energetic EDM', 'sad jazz']
wav = model.generate(descriptions)  # generates 3 samples.

melody, sr = torchaudio.load('./assets/bach.mp3')
# generates using the melody from the given audio and the provided descriptions.
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):

    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True) # Will save under {idx}.wav, with loudness normalization at -14 db LUFS.

结论

安装用于文本到音乐生成的 Meta AI Audiocraft 是一个相当简单的过程。如果您按照本文中提供的步骤进行操作,您可能会立即启动并运行。安装 Audiocraft 后,您可以使用它来创作自己独特的音乐或探索其他类型和流派。只需一点想象力,您就可以使用 Audiocraft 制作出令人难以置信的独特且动人的音乐。请随时在下面的评论部分分享您的想法和反馈。

原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/how-to-install-meta-ai-audiocraft-for-text-to-music-generation

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

error: Content is protected !!