先说明收听场景
先写清楚格式:产品演示、客服通知、播客片头、角色台词、学习旁白或短广告。
音频示例
参考这些示例,在消耗积分生成最终成品前,先明确语速、情绪、停顿、发音和声音设计目标。
建议把要朗读的文字和表演指令分开写。告诉模型谁在说、对谁说、情绪温度是什么,以及哪些词需要特别注意发音。
先写清楚格式:产品演示、客服通知、播客片头、角色台词、学习旁白或短广告。
选择一个核心语气,例如温暖、平静、紧急、俏皮、纪录片感或安抚感,不要堆叠太多互相冲突的情绪。
用短句、逗号、换行,以及 [停顿]、[轻声] 这类标记,让声音像真人一样自然呼吸。
过于模糊
用好听的声音读一下这个产品更新。
更好的请求
风格指令:冷静的产品旁白,自信但不推销,中等语速。 脚本:欢迎查看本周工作区摘要。[停顿] 三个项目有新进展,两张发票等待审核,还有一个截止日期今天需要关注。
改进后的版本说明了角色、语气、语速,以及听众需要感到停顿的位置。
情绪过重
用悲伤的声音道歉。
更好的请求
风格指令:真诚的客服专员,稳定语速,温暖并有责任感。 脚本:很抱歉让你等待。你的请求已经转交给审核团队,我们会在周五下午前发送下一次更新。
声音有同理心但不过度表演,同时脚本提供了明确的下一步。
形容词过多
做得超级兴奋、快乐、高级、搞笑、戏剧化、容易爆。
更好的请求
风格指令:明亮的创作者声音,带一点微笑感,语速快但清楚。 脚本:你的发布视频不需要再重写一遍。放入脚本,选择声音,几分钟内导出干净成品。
一个清晰的表演方向加简短脚本,通常比互相冲突的情绪指令更容易得到干净结果。
过于泛泛
一个好听的英文声音。
更好的请求
声音设计描述:30 多岁的英文女性旁白,温暖的录音棚质感,音高略低,辅音清晰,适合产品教程和新手引导视频。
声音设计更适合描述年龄范围、音高、质感、咬字方式和长期使用场景。
过于平面
把这个故事读得有戏剧感。
更好的请求
风格指令:电影感有声书旁白,开头音量偏低、语速较慢,揭晓后变得更温暖。 脚本:[轻声] 走廊的灯闪了一下。又闪了一下。[停顿] Mira 屏住呼吸。[紧张] 门自己打开了。[停顿] [松一口气] 原来只是她弟弟,双手捧着生日蛋糕。
这种写法给出了表演变化的时间线。提示词说明什么时候转变情绪,而不是只给一个笼统的“戏剧化”。
说话人不清楚
把这段对话读自然:我们迟到了吗?没有,还有时间。
更好的请求
风格指令:轻量广播剧,自然反应,用节奏区分角色,不要夸张变声。 脚本: Ava [担心,语速稍快]:我们迟到了吗? Noah [冷静,带一点笑意]:没有。还有时间。 Ava [松一口气]:太好了。我以为八点就关门。 Noah [安抚]:是八点。现在才七点四十。
说话人名字、情绪标签和换行能让对话更容易理解,同时避免角色声音过度表演。
缺少时间结构
解释一下怎么上传声音样本。
更好的请求
风格指令:耐心的教程旁白,中慢速,每一步之间留出屏幕操作时间。 脚本:首先,打开声音工作室。[停顿 1 秒] 选择创建声音。[停顿 1 秒] 上传一段干净的 MP3 或 WAV 样本。[停顿 1 秒] 仔细阅读授权声明,只有在你拥有使用许可时再确认。
明确的步骤边界和停顿能让音频更适合产品演示或新手引导,不会把旁白挤得太急。
文本有歧义
读:CVX 在 05/06 发布 API v2.5,新增 1200 个声音。
更好的请求
风格指令:清晰的发布公告旁白,发音准确,不夸张。 发音说明:CVX 读作 C V X。API 读作 A P I。v2.5 读作 version two point five。05/06 读作 May sixth。 脚本:C V X 将在 May sixth 发布 A P I version two point five,并新增 twelve hundred 个声音选项。
产品名、版本号和日期最好直接写出希望被读出来的形式,不要完全依赖模型猜测。
缺少呼吸和空间
平静地读这段冥想。
更好的请求
风格指令:温柔的冥想引导师,音量柔和,不急不慢,温暖但不要昏沉。 脚本:放松你的肩膀。[长停顿] 感受双手的重量。[轻声] 此刻没有什么必须解决。[长停顿] 慢慢吸气。[停顿] 呼气,让房间在你周围安静下来。
冥想音频里的安静和语言同样重要。更长的停顿和更少的文字,会形成更好的节奏。
切换生硬
中英文读:欢迎使用 Custom Voices. Create your first voice now.
更好的请求
风格指令:双语产品主持人,中英切换自然,中文为主,英文品牌词发音清楚。 脚本:欢迎使用 Custom Voices。[停顿] 你可以先上传授权样本,创建自己的 voice profile,然后用文本生成自然的英文或中文音频。
请求中说明了如何处理中英混合词,并让双语表达更像真实产品讲解,而不是把两种语言硬贴在一起。
样本要求太随意
上传一段这个人的任意音频。
更好的请求
样本建议:选择 30 到 90 秒干净的单人语音,麦克风距离稳定,没有音乐、没有其他人插话,并包含几句完整句子,体现说话人的日常语气。 使用说明:克隆完成后,再用风格指令控制表演变化,不要指望强提示词修复噪声很重的样本。
克隆声音的质量首先取决于样本。干净、有代表性的片段,会让后续风格控制更稳定。
语气过硬
严肃地读这个警告。
更好的请求
风格指令:专业的合规说明旁白,冷静、有权威感,中性语速,不制造恐慌。 脚本:该声音只能在获得声音所有者许可后使用。[停顿] 不要使用生成音频进行冒充、误导,或在未经同意的情况下暗示背书。
安全和政策类文案通常更适合克制、中性的语气,比夸张严厉更容易建立信任。