一张照片就能做数字人？我用即梦+剪映试了试，真香！

当前位置：点晴教程→闲情逸致 →『微信好文』

fangfang

2026年5月21日 15:2 本文热度 3456

大家好，我是小文。我喜欢研究AI，也喜欢分享。今天讲一讲怎么用AI做一个数字人视频，不用真人出镜。

很多人想做视频，但害怕面对镜头，或者一开口就紧张。现在有了AI工具，用一张照片就能合成会说话的数字人。下面是用“即梦”和“剪映”两个工具的具体步骤。

第一步：准备一张正脸照片

找一张五官清晰、光线正常的正面照片。打开即梦或者豆包，点击“图片生成”，上传照片。

即梦为案例：

如果想换背景，可以在提示词里写清楚，例如：上半身特写，面向镜头，背景是暖色书房（背景可以自己更换场景）。生成后挑选一张效果最好的保存。

技巧：如果你看到别人的背景好看，你可以给豆包发生一段指令：“根据这个照片帮我反推这个图片画面表述”

豆包直接会给你段特别详细的指令：

这个“指令”可以直接运用，生成的图片质量越高（指令表述越详细，图片质量越高），也可以加入比例3:4、几张等量词

指令精简版本： 4K高清人像写真，年轻东亚女性，鹅蛋脸，白皙清透皮肤，韩系清透裸妆，杏眼长睫毛，水光蜜桃唇，暖棕色中长发，蓬松颅顶，慵懒低麻花辫垂在左肩，带碎发和胎毛刘海，纯白色一字肩上衣，纯白色极简背景，正面柔和柔光，光影均匀干净，整体风格清新温柔，低饱和高级感，特写人像。比例3:4，生成8张。

看一下生成效果：是不是特别漂亮而且很真实！

第二步：让数字人开口

在即梦里点击“生成视频”，输入提示词：固定镜头，人物面对镜头讲话，嘴巴自然，动作稳定。生成后你会得到一个几秒钟的说话视频，先保存下来。

豆包也可这样操作，输入指令：帮我生成视频，固定镜头，人物面对镜头讲话，嘴巴自然，动作稳定。

如果有水印可以用马力去字幕，链接去字幕

第三步：在剪映中把视频延长

打开剪映，导入刚才的视频。如果想做15秒的视频，就把这个5秒的片段复制三份。

注意：直接拼接可能会卡顿，可以选中中间的那段视频，使用“倒放”功能，这样画面会更连贯。

第四步：对齐口型

回到即梦，找到“数字人口型对齐”功能。上传你拼好的视频，并选择对应的音频（如果你录了音就选录音文件）。点击生成，软件会自动调整口型，让说话看起来更真实。里面有各种海量音色可以选择。

如果你要用自己的声音，自己把稿子念一遍并保存，用手机录制自己的音频。导入即梦。

如果你想用自己的克隆声音，首先我们打开豆包，点击我-设置-声音-克隆声音。

克隆好自己声音之后，把你要说的话发送给豆包输入指令：

“帮我朗读这段话“温柔呵护每一寸肌肤，深层补水锁水，舒缓维稳修护肌底。淡化干燥细纹，改善暗沉粗糙，用完水润透亮、细腻紧致。天然温和配方，敏感肌也能放心用，日常护肤必备，养出通透水光好肤质”。然后点击手机录制功能。

然后也是找到即梦ai，找到数字人，导入音频就完成啦

但是视频有字幕和水印，我分享一个我常用的工具：马力去字幕，速度特别快，关键是自然无痕。

1.点击分享视频，找到绿色图标

2.打开马力去字幕，点击链接去字幕

3.粘贴链接，点击提取就完成啦

第五步：添加字幕和音乐

把处理好的视频再次导入剪映。点击“文本”-“识别字幕”，自动生成字幕。还可以在“音频”里添加一段音量较低的背景音乐。如果音乐比视频长，剪掉多余部分即可。

这样，一个不用真人出镜的数字人视频就做好了。从一张照片开始，按照步骤操作，就能做出自己的作品。希望对你有所帮助。

原文链接：https://mp.weixin.qq.com/s/nz0IiMLGaq7NkpixgNKR0Q

该文章在 2026/5/21 15:02:13 编辑过

关键字查询

数字

照片

数字人

即梦

正在查询...