视频转换或者翻译成对应的文字解决方案

admin · 2024 年8 月 31 日 17:41

我们做任何平台，可能最重要的就是内容了，没有内容，就没有内容去提供营销。内容素材来源有很多，其中一个渠道是视频，想把文字弄下来，然后再优化整合成自己的内容。
总体思路是先将视频转为音频。然后利用开源工具whisper进行翻译。
Whisper 是一种通用的语音识别模型。它在多样化的音频数据集上进行训练，同时也是一个多任务模型，能够执行多语言语音识别、语音翻译和语言识别，输出的文字还能有时间戳。
拿YouTube举例：

将YouTube视频转音频

免费转的工具站很多，比如
https://ytshorts.savetube.me/zh/yt-to-mp3-converter-azhe213^[1]
https://y2mate.tube/^[2]
等等

使用Whisper可视化软件

下载链接：https://github.com/Const-me/Whisper^[3]

提示指定模型，模型有很多种选择，看你显卡的性能，这里我选择的medium。
下载模型 https://huggingface.co/ggerganov/whisper.cpp/tree/main^[4]

使用

使用其实很简单，它可以生成标准的字母格式，这样你做视频的时候就不用卡字母了，很方便。

进阶技巧

直接使用在线的
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax^[5]

结合CHATGPT 将生成文件放给chatGPT直接就能翻译你想要的语言，我估计很多搬运视频的都这个思路，视频脚本文件有了，翻译有了，原视频也有了，剩下的