我们做任何平台,可能最重要的就是内容了,没有内容,就没有内容去提供营销。内容素材来源有很多,其中一个渠道是视频,想把文字弄下来,然后再优化整合成自己的内容。
总体思路是先将视频转为音频。然后利用开源工具whisper进行翻译。
Whisper 是一种通用的语音识别模型。它在多样化的音频数据集上进行训练,同时也是一个多任务模型,能够执行多语言语音识别、语音翻译和语言识别,输出的文字还能有时间戳。
拿YouTube举例:
- 将YouTube视频转音频
https://ytshorts.savetube.me/zh/yt-to-mp3-converter-azhe213[1]
https://y2mate.tube/[2]
等等
- 使用Whisper可视化软件
下载链接:https://github.com/Const-me/Whisper[3]
提示指定模型,模型有很多种选择,看你显卡的性能,这里我选择的medium。
下载模型 https://huggingface.co/ggerganov/whisper.cpp/tree/main[4]
- 使用
使用其实很简单,它可以生成标准的字母格式,这样你做视频的时候就不用卡字母了,很方便。
- 进阶技巧
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax[5]
结合CHATGPT 将生成文件放给chatGPT直接就能翻译你想要的语言,我估计很多搬运视频的都这个思路,视频脚本文件有了,翻译有了,原视频也有了,剩下的