GoForum › 🌐 V2EX

vget v0.12.1 发布，新增 AI 功能，语音转文字，效果极好

guiyumin · 2026-01-07 13:58 · 0 次点赞 · 0 条回复

各位好

vget v0.12.1 发布了

https://github.com/guiyumin/vget

https://vget.io

这一版，有一个重大的更新：语音转文字，英文是 speech to text ，或者是 Automatic Speech Recognition （ ASR ）

首先，你可以用 vget 下载视频，或者播客

然后使用语音转文字功能，转录为带有时间戳的文本

下一步，你可以继续用 openai api 来总结一下，当然，也可以复制粘贴去其他 ai 做一下总结

目前支持的大模型是这些：

whisper-tiny
whisper-small
whisper-medium
whisper-large-v3
whisper-large-v3-turbo (推荐用这个，又快又准）
Parakeet-v3 这个不支持中文，但对其他语言支持良好

命令行使用

在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字：

# 基础用法：转写音频文件，默认输出 Markdown 格式
vget ai transcribe ./recording.mp3

# 指定语言：使用 -l 参数指定音频语言
vget ai transcribe -l zh ./interview.mp3

# 输出字幕文件：使用 -o 参数指定输出为 SRT 格式
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt

# 转写视频文件：自动提取音频后进行转写
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt

Docker Web 界面

在 Docker 部署的 Web 界面中，点击左侧导航栏的 AI 图标即可访问语音转文字功能：

选择文件 - 可以从 /home/vget/downloads 目录选择已下载的文件，也可以直接上传本地文件
设置语言 - 选择音频对应的语言以获得最佳识别效果
选择格式 - 支持 Markdown 文本或 SRT 字幕格式输出
开始转写 - 点击按钮即可开始，转写完成后可直接下载结果

支持的文件格式

类型	支持格式
音频	MP3, WAV, M4A, FLAC, OGG, AAC
视频	MP4, MKV, MOV, AVI, WebM

对于视频文件，vget 会自动提取音频轨道后进行转写，无需手动转换。

0 条回复

添加回复

你还需要登录后发表回复

vget v0.12.1 发布，新增 AI 功能，语音转文字， 效果极好

命令行使用

Docker Web 界面

支持的文件格式

vget v0.12.1 发布，新增 AI 功能，语音转文字，效果极好