如何安装用于文本到音乐生成的 Meta AI Audiocraft

Audiocraft 为 MusicGen 提供代码和模型，这是一种简单且适应性强的音乐生成方法。MusicGen 采用单级自回归 Transformer 模型，该模型使用 32kHz EnCodec 分词器和 4 个以 50 Hz 采样的码本进行训练。与 MusicLM 等先前的方法不同，MusicGen 不依赖于自我监督的语义表示，并且可以一次生成所有四个码本。

我们展示了通过在它们之间添加微小延迟来并行预测它们的能力，从而导致每秒音频仅 50 个自回归步骤。在本文中，我将逐步向您展示如何安装用于文本到音乐生成的 Meta AI Audiocraft。

什么是 MusicGen 及其工作原理

Meta AI 创建了 MusicGen，一种文本到音乐生成模型。它是一种单级变换器语言范例，作用于多个压缩的、离散的音乐表示流，称为标记。这使 MusicGen 能够生成高质量的音乐样本，同时以口头描述或旋律元素为条件，从而更好地控制生成的输出。
MusicGen 仍在开发中，但它已被用于生成广泛的音乐风格，如流行、摇滚、古典和爵士乐。它还被用于为视频游戏、电影和电视节目创作音乐。
MusicGen 是一个强大的工具，有可能改变音乐的制作方式。它可以被艺术家、作曲家和制作人用来创作新鲜和有创意的音乐。

MusicGen的特点

它具有创作各种流派音乐的能力，包括流行、摇滚、古典和爵士乐。它可以根据特定的描述或音乐成分生成音乐。
虽然仍在开发中，但它已经被用于为视频游戏、电影和电视节目等一系列媒体创作音乐。
这个非凡的工具具有彻底改变音乐生成过程的巨大潜力。

MusicGen 用法

Meta 创造的 MusicGen 不仅仅是一个理论概念；它也是作曲的工作工具。以下是充分利用其强大功能的三种方法：

演示：试用 MusicGen 的演示版本，亲眼看看它的强大程度。这个交互式演示允许您使用基本功能并根据简单的说明制作音乐。参与演示将使您了解 MusicGen 提供的创造性可能性。如果您对使用 MusicGen 的文字感兴趣，请阅读使用 Meta AI Audiocraft 的 MusicGen 文本转音乐。
协作：使用 MusicGen 作为协作工具与他人协作。无论您是从事音乐项目还是只是想享受与他人一起制作音乐的过程，MusicGen 都可以提供帮助。它促进团队合作并鼓励团队成员创造性地协作。
代码：对于那些具有技术知识的人，MusicGen 提供了开放源代码，可以查看和更新以满足您的需要。您可以探索代码、进行更改并创作您自己的交响曲。这种定制量使您能够根据自己的特定音乐品味和需求定制 MusicGen。

MusicGen 是一款出色的音乐生成工具，无论您是初学者还是经验丰富的音乐家。它使用简单、适应性强且功能强大。您可以使用 MusicGen 将您的音乐想法变为现实。在本文中，我们可以了解如何安装和运行 musicGen。

先决条件

Audiocraft 需要 Python 3.9、PyTorch 2.0.0
具有至少 16 GB 内存的 GPU

安装

要安装Audiocraft，请确保您已安装 Python 3.9 和 PyTorch 1.9.0 或更高版本。此外，请确保您可以使用内存至少为 16 GB 的 GPU，特别是如果您打算使用中型型号。

最好先安装 torch，尤其是在安装 xformers 之前。# 如果您已经安装了 PyTorch，请不要执行此操作。

pip install 'torch>=2.0'

然后继续执行以下操作之一，

pip install -U audiocraft  # stable releas

按照用于出血边缘的命令，

pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft

如果您在本地克隆了 repo，

pip install -e

用于生成音乐的 API

MusicGen 提供了一个简单的 API，用于从文本生成音乐。有四种预训练模型可供选择：

小：该模型有 300M 参数，只能从文本生成音乐。它是最快的模型，但可能不会产生最佳结果。
Medium：该模型有 1.5B 参数，也可以从文本生成音乐。它比小模型慢，但产生更好的结果。
旋律：这个 1.5B 参数模型可以从文本和旋律中生成音乐。它是最慢的模型，但它产生最好的结果。
Large：这个模型有3.3B参数，只能从文本生成音乐。它是最慢的模型，但它产生最好的结果。

本地使用 MusicGen 需要至少 16GB 内存的 GPU。使用微型模型，较小的 GPU 可能能够生成较短的序列或较长的序列。

注意：请确保在使用较新版本的 torchaudio 时安装了 ffmpeg。要安装 ffmpeg，您可以根据您的操作系统按照以下说明进行操作：

apt-get install ffmpeg

API 使用示例

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8)  # generate 8 seconds.
wav = model.generate_unconditional(4)    # generates 4 unconditional audio samples
descriptions = ['happy rock', 'energetic EDM', 'sad jazz']
wav = model.generate(descriptions)  # generates 3 samples.

melody, sr = torchaudio.load('./assets/bach.mp3')
# generates using the melody from the given audio and the provided descriptions.
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):

    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True) # Will save under {idx}.wav, with loudness normalization at -14 db LUFS.

结论

安装用于文本到音乐生成的 Meta AI Audiocraft 是一个相当简单的过程。如果您按照本文中提供的步骤进行操作，您可能会立即启动并运行。安装 Audiocraft 后，您可以使用它来创作自己独特的音乐或探索其他类型和流派。只需一点想象力，您就可以使用 Audiocraft 制作出令人难以置信的独特且动人的音乐。请随时在下面的评论部分分享您的想法和反馈。

原创文章，作者：网贝WebBay，如若转载，请注明出处：https://www.webbay.cn/how-to-install-meta-ai-audiocraft-for-text-to-music-generation