release v1.1.0

This commit is contained in:
himeditator
2026-01-10 22:50:57 +08:00
parent 086ea90a5f
commit 0dc70d491e
20 changed files with 207 additions and 114 deletions

View File

@@ -1,6 +1,6 @@
# Auto Caption 用户手册
对应版本v1.0.0
对应版本v1.1.0
## 软件简介
@@ -39,6 +39,10 @@ Auto Caption 是一个跨平台的字幕显示软件,能够实时获取系统
- [获取 API KEY](https://help.aliyun.com/zh/model-studio/get-api-key)
- [将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)
## GLM 引擎使用前准备
需要先获取 API KEY参考[Quick Start](https://docs.bigmodel.cn/en/guide/start/quick-start)。
## Vosk 引擎使用前准备
如果要使用 Vosk 本地字幕引擎,首先需要在 [Vosk Models](https://alphacephei.com/vosk/models) 页面下载你需要的模型。然后将下载的模型安装包解压到本地,并将对应的模型文件夹的路径添加到软件的设置中。
@@ -145,7 +149,7 @@ sudo yum install pulseaudio pavucontrol
#### `-e , --caption_engine`
需要选择的字幕引擎模型,目前有个可用,分别为:`gummy, vosk, sosv`
需要选择的字幕引擎模型,目前有个可用,分别为:`gummy, glm, vosk, sosv`
该项的默认值为 `gummy`
@@ -197,11 +201,13 @@ sudo yum install pulseaudio pavucontrol
但是指定源语言能在一定程度上提高识别准确率,可用使用上面的语言代码指定源语言。
该项适用于 Gummy 和 SOSV 模型。
该项适用于 Gummy、GLM 和 SOSV 模型。
其中 Gummy 模型可用使用上述全部的语言,在加上粤语(`yue`)。
而 SOSV 模型支持指定的语言有:英语、中文、日语、韩语、粤语
GLM 模型支持指定的语言有:英语、中文、日语、韩语。
SOSV 模型支持指定的语言有:英语、中文、日语、韩语、粤语。
#### `-k, --api_key`
@@ -211,6 +217,18 @@ sudo yum install pulseaudio pavucontrol
该项仅适用于 Gummy 模型。
#### `-gkey, --glm_api_key`
指定 `glm` 模型需要使用的 API KEY默认为空。
#### `-gmodel, --glm_model`
指定 `glm` 模型需要使用的模型名称,默认为 `glm-asr-2512`
#### `-gurl, --glm_url`
指定 `glm` 模型需要使用的 API URL默认值为`https://open.bigmodel.cn/api/paas/v4/audio/transcriptions`
#### `-tm, --translation_model`
指定 Vosk 和 SOSV 模型的翻译方式,默认为 `ollama`
@@ -224,13 +242,23 @@ sudo yum install pulseaudio pavucontrol
#### `-omn, --ollama_name`
指定需要调用进行翻译的 Ollama 模型。该项默认值为空
指定要使用的翻译模型名称,可以是 Ollama 本地模型,也可以是 OpenAI API 兼容的云端模型。若未填写 Base URL 字段,则默认调用本地 Ollama 服务,否则会通过 Python OpenAI 库调用该地址指向的 API 服务
建议使用参数量小于 1B 的模型,比如: `qwen2.5:0.5b`, `qwen3:0.6b`
如果使用 Ollama 模型,建议使用参数量小于 1B 的模型,比如: `qwen2.5:0.5b`, `qwen3:0.6b`需要在 Ollama 中下载了对应的模型才能正常使用。
用户需要在 Ollama 中下载了对应的模型才能正常使用
默认值为空,适用于除了 Gummy 外的其他模型
该项仅适用于 Vosk 和 SOSV 模型。
#### `-ourl, --ollama_url`
调用 OpenAI API 的基础请求地址,如果不填写则调用本地默认端口的 Ollama 模型。
默认值为空,适用于除了 Gummy 外的其他模型。
#### `-okey, --ollama_api_key`
指定调用 OpenAI 兼容模型的 API KEY。
默认值为空,适用于除了 Gummy 外的其他模型。
#### `-vosk, --vosk_model`