logo
当前页

视频数字人采集指南


本文介绍如何获取您的形象和声音样本。

说明

形象和声音采集可以分开进行,不必使用相机录制声音。

前提条件

请提前发送邮件至 aigc@zego.im,开通形象定制或声音克隆服务。

形象采集

形象采集流程分为准备硬件、布置现场、拍摄模特和提交文件,共四个步骤。

1 准备硬件

请根据下列两种参数要求的其中一种要求,配置您的拍摄硬件。

参数要求 1参数要求 2
录制规格
  • PAL 制
  • 4K 50P
  • PAL 制
  • 1080p 50P
录制时长大于 12 min大于 12 min
相机编码格式、码率、采样标准
  • H.264
  • 码率无要求
  • 8bit 及以上色深(建议 10bit 4:2:2)
  • H.264
  • 码率选最大
  • 8bit 及以上色深(建议 10bit 4:2:2)
注意事项-当使用 1080p 分辨率录制时,请尽量让模特占据画面中更多像素点,同时避免人物肢体动作超出画面之外

2 布置现场

采集需要您使用绿幕布置现场,以便后续抠图。请务必保证绿幕平整无明显褶皱,可以使用卷轴纸背景,也可使用绿色幕布。

如果使用幕布,请用多个大力夹尽量扯平幕布,避免因褶皱受光不均致使后期扣图困难,影响最终效果。

3 拍摄模特

拍摄过程中,模特和导演需完成下表事项,以获得最佳效果。

模特要求

注意事项详细说明
造型
  • 服装避免鲜绿色、强反光或透光材质(如:流苏、蕾丝等元素),避免细密条纹或网格的面料,以免拍摄时产生摩尔纹,影响最终观感。
  • 人物造型的边缘应尽量贴合顺滑、清晰不杂乱,避免因头发边缘镂空形成的细小透视区域,导致视线可以穿过头发,看到绿幕背景。
  • 如果配饰(如耳坠、飘带、丝巾、流苏等)超出人物轮廓或随动作摆动,请更换或将其固定。
  • 身上不能出现小面积的高亮绿色物品,如翡翠戒指、手镯、项链等。
开头与结尾在录制开始和结束前,模特都需要保持 10s 的静默姿势(静默姿势由您决定,嘴巴闭合,无静默姿势外的肢体动作,四肢保持静止),此静默姿势也适用于录制中的节奏性停顿
节奏型停顿模特需要在 3-4 句话之间保持约 2s 的停顿,嘴巴闭合,肢体动作回到静默姿势
录音和嘴型
  • 在拍摄全程,语速和音量应保持一致、不出现过大、过快的起伏。
  • 不能出现模特张嘴但不发声的情况。
  • 在说话过程中,模特嘴型变化应当明显,以助 AI 识别不同读音下的嘴型特征,让数字人的效果更加逼真。
  • 当模特出现张嘴未发声或咳嗽、哈欠、打喷嚏等情况,需要终止拍摄,调整后重新采集。
头部动作
  • 在拍摄中,模特应始终面向摄像机镜头,避免左右俯仰角度过大(只能有轻度的左右转头或者点头抬头)。
  • 当模特出现较大幅度的头部偏转动作,需要终止拍摄,调整后重新采集。
肢体动作在拍摄过程中,模特可以使用肢体动作,使整体观感生动、富有表现力。但是,如果违反以下任意一条规则,需要重新采集:
  • 禁止手臂遮挡脸部。
  • 手臂或身体其他部位超出摄像机画面外。
  • 肢体动作也需在节奏性停顿时回到静默姿势,但请注意动作的变化速率应当适中,变化过程自然,避免过快的动作变化。
  • 请使用泛用性的肢体动作,避免带有特征含义的"指向性动作"(如 OK,比数字,交叉胸前表示否定,指方向等)。错误示例:
    • OK:
    • 两指向上:
    • 双臂交叉:
    • 展示手掌:
    • 指向镜头:
    • 指向手臂:

导演注意事项

注意事项详细说明
演员应表现自然、具有表现力
  • 念稿读稿是否流畅自然?若顿挫太多应当暂停拍摄,先熟读文案后再重新采集。
  • 动作衔接是否顺畅?如果肢体语言僵硬,应当先设计好几个手势,让模特练习熟练后再重新采集。
影响绿幕拍摄成片效果的细节
  • 模特衣服如具备强反光、透光性则需要提醒模特更换(如缎面、蕾丝、网纱材质)。
  • 尽量减少片场中不必要的绿幕面积,如:坐姿拍摄时,请撤掉模特脚底的绿幕,避免地面反射绿光到模特身上。
  • 站姿拍摄时,请通过铺设透明亚克力板或者胶带固定绿幕来减少地面的绿幕褶皱。
  • 模特应当距离绿幕至少 2m,条件允许下越远越好。
  • 可以通过侧逆光从人物身后打消表面绿光,同时勾勒人物轮廓。
  • 请至少使用 F6 或更小光圈拍摄,保证人物的眼睛和轮廓边缘均在焦平面内,清晰明朗,人物边缘的虚化将对后期扣绿产生极大影响。
与模特建立基本的默契
  • 用手势提醒模特拍摄进度到第几分钟。
  • 用特定手势或者白板提醒模特保持开头和结尾的 10s 静默状态。
  • 留心模特的演讲习惯,对于出现的语气音、喷麦、张嘴但不发声的问题及时叫停纠正。
注意模特的妆容变化当模特拍摄多次 NG 后,面部出油,镜头中形象开始变化,导演应当及时提醒模特进行补妆或者扑粉。

4 提交文件

录制完毕后,请将影像文件提交给 ZEGO 相关人员,并注明使用的摄像机品牌,以及是否使用 log 模式。

布光方案参考

以下提供一种布光方案以供参考:直播间布光 4步打造高品质绿幕抠像直播间。这种方案,采用双边侧逆光打轮廓的方式,有助于在场地存在限制(人物距离绿幕距离不够远 ≤4m)时消除人物表面的绿色反光。而人物前方的主光、辅光则可以根据拍摄主题进行调整

声音采集

声音采集流程分为准备文稿、准备录音设备、开始录音和录音结束并提交,共四个步骤。

1 准备文稿

声音采集所用文稿需符合以下要求:

  • 字数 6000 字以上。

  • 内容符合数字人的应用行业/场景语境。

  • 请参考如下模板,调整文稿格式,插入停顿和提示说明。

2 准备录音设备

  • 建议使用 Rode/DJI/Sony/猛犸等平台的专业麦克风。
  • 如果使用相机录音,请将相机录音设置为手动模式。
  • 使用电脑连接麦克风录音,请调整麦克风或声卡设置。
  • 调整好与麦克风的距离和位置,确保说话不喷麦即可。

3 开始录音

开始录音后,请确保达成以下要求:

  • 背景无杂音、噪音等。
  • 诵读文稿的情绪符合期望,并保持一致。
  • 发音清晰、吐字清楚、断句清楚,每句之间停顿 2s。

4 录音结束并提交

录音结束后,请完整播放检查一遍,是否满足以下有效音频标准。

标准项目详细说明
音频时长、格式等参数
  • 音频有效时长:20 min 以上。
  • 文件格式:WAV,不建议使用 MP3、AAC 等格式。
  • 采样率:44100Hz 以上。
  • 采样深度:16 bit 以上。
音频音质
  • 人声整体纯净且突出。
  • 人物口播无爆音。
  • 无嘈杂背景音。
  • 无回音混响。
  • 无喷麦情况。
  • 无明显电流音。
人物口播
  • 发音清晰、咬字清楚。
  • 整体口播流畅,较少卡顿。
  • 录制过程中维持音色和情绪一致。
  • 句子之间保持 1s - 2s 停顿。

常见问题

Previous

全局返回码