Skip to Content

创建语音克隆任务

启动一个语音克隆任务。您可以直接上传音频文件,也可以提供现有音频文件的 URL。

请求信息

  • 方法: POST
  • 端点: /api/instant/create-task
  • 内容类型: multipart/form-dataapplication/json

请求参数

参数类型必需描述
audio文件 (二进制)是*用于语音克隆的音频文件。支持的格式包括 WAV、MP3 和 M4A。仅支持 multipart/form-data 格式。您必须提供 audioaudio_url 之一。
audio_urlstring是*用于语音克隆的公开可访问的音频文件 URL (WAV, MP3, M4A)。支持 multipart/form-data 和 application/json 两种格式。您必须提供 audioaudio_url 之一。
textstring您希望以克隆语音合成的文本。
api_keystring您的唯一 API 密钥,用于认证和访问。此密钥用于验证您的请求并将其链接到您的用户帐户。
modelstring语音克隆模型版本。可选值:v1v2v-mul。默认值为 v2。不同模型在音质、处理速度和多语言支持上有所差异。
speed_ratiofloat语速比例,范围 0.5-2.0,默认值为 1.0
pitch_ratiofloat音调偏移,范围 -10 到 10 半音,默认值为 0
volume_ratiofloat音量比例,范围 0.1-2.0,默认值为 1.0
emotion_controlobject情感控制参数(仅 V2 模型支持)。支持多种情感控制模式,详见下方说明

*注意:

  • audioaudio_url 参数二选一,至少提供其中一个
  • 使用 application/json 格式时,只能使用 audio_url 参数
  • 使用 multipart/form-data 格式时,两个参数都支持

响应

成功响应

{ "task_id": "1406bf34-735c-4b21-98ac-a135b2afb1c8", "status": "pending" }

错误响应

  • 400 Bad Request: 缺少必需参数(例如 api_key,或 audio/audio_url 均未提供)

示例请求

使用音频文件

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -F "[email protected]" \ -F "text=这是一段很长的文本,适合使用异步接口处理..." \ -F "api_key=your_api_key_here"

使用音频URL

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -F "audio_url=https://example.com/sample.mp3" \ -F "text=这是一段很长的文本,适合使用异步接口处理..." \ -F "api_key=your_api_key_here"

使用指定模型

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -F "[email protected]" \ -F "text=这是一段很长的文本,适合使用异步接口处理..." \ -F "api_key=your_api_key_here" \ -F "model=v2"

使用音频处理参数

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -F "[email protected]" \ -F "text=这是一段很长的文本,适合使用异步接口处理..." \ -F "api_key=your_api_key_here" \ -F "model=v2" \ -F "speed_ratio=1.2" \ -F "pitch_ratio=2" \ -F "volume_ratio=1.5"

使用 JSON 格式(配合 audio_url)

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -H "Content-Type: application/json" \ -d '{ "audio_url": "https://example.com/sample.mp3", "text": "这是一段很长的文本,适合使用异步接口处理...", "api_key": "your_api_key_here", "model": "v2", "speed_ratio": 1.2, "pitch_ratio": 2, "volume_ratio": 1.5 }'

模型选择说明

API 支持三种语音克隆模型,您可以根据需求选择:

模型描述适用场景
v2第二代模型(默认),平衡音质和处理速度推荐用于大多数场景,提供高质量的语音克隆效果
v1第一代模型,较快的处理速度适合对处理速度有较高要求的场景
v-mul多语言模型,支持跨语言语音克隆适合需要多语言支持的应用场景

注意:如果不指定 model 参数,系统将默认使用 v2 模型。

情感控制参数 (emotion_control)

仅 V2 模型支持情感控制功能,通过 emotion_control 对象传递。可以在 JSON 格式的请求中直接传递。

情感控制模式

模式mode 值说明额外参数
参考音频相同same_as_reference使用参考音频的情绪(默认)
参考音频reference_audio使用指定的参考音频控制情绪reference_audio_url
向量控制vector使用8维情感向量控制情绪vector 对象
文本描述text使用文本描述控制情绪text 字符串
随机情绪random随机生成情绪

8维情感向量 (vector 模式)

使用向量模式时,可以精确控制8种情感的强度,每个值范围为 0.0-1.0:

{ "joy": 0.5, // 喜 (0.0-1.0) "anger": 0.0, // 怒 (0.0-1.0) "sorrow": 0.0, // 哀 (0.0-1.0) "fear": 0.0, // 惧 (0.0-1.0) "excitement": 0.3, // 兴奋 (0.0-1.0) "depression": 0.0, // 低落 (0.0-1.0) "surprise": 0.2, // 惊喜 (0.0-1.0) "calm": 0.0 // 平静 (0.0-1.0) }

情感控制示例

使用向量控制情感(快乐+兴奋)

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -H "Content-Type: application/json" \ -d '{ "audio_url": "https://example.com/sample.mp3", "text": "今天天气真好!", "api_key": "your_api_key_here", "model": "v2", "emotion_control": { "mode": "vector", "vector": { "joy": 0.8, "excitement": 0.6, "surprise": 0.3, "calm": 0.2 } } }'

使用文本描述控制情感

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -H "Content-Type: application/json" \ -d '{ "audio_url": "https://example.com/sample.mp3", "text": "这真是太棒了!", "api_key": "your_api_key_here", "model": "v2", "emotion_control": { "mode": "text", "text": "excited and happy" } }'

使用参考音频控制情感

curl -X POST https://aivoiceclonefree.com/api/instant/create-task \ -H "Content-Type: application/json" \ -d '{ "audio_url": "https://example.com/sample.mp3", "text": "我感到非常开心", "api_key": "your_api_key_here", "model": "v2", "emotion_control": { "mode": "reference_audio", "reference_audio_url": "https://example.com/emotion-ref.wav" } }'

任务状态说明

创建任务后,您会收到一个 task_id 和初始状态 pending。可能的状态值:

状态描述
pending任务已提交,等待处理
processing任务正在处理中
completed任务已完成
failed任务处理失败

下一步

任务创建成功后:

  1. 保存返回的 task_id
  2. 使用 任务状态查询 监控进度
  3. 任务完成后通过 获取任务结果 下载音频

最佳实践

  • 文本长度: 建议单次任务文本长度不超过10000字符
  • 音频质量: 使用高质量的音频样本可以获得更好的克隆效果
  • 请求格式:
    • 使用 multipart/form-data: 可以直接上传音频文件(audio 参数)或使用音频URL(audio_url 参数)
    • 使用 application/json: 只能使用音频URL(audio_url 参数)
  • API限制: 注意API调用频率限制,避免过于频繁的请求
Last updated on