docs(readme): 更新说明并添加终端使用指南

2026-03-12 08:47:32 +08:00 · 2025-11-02 20:53:56 +08:00
parent e6a65f8362
commit 383e582a2d
8 changed files with 422 additions and 5 deletions
--- a/docs/user-manual/zh.md
+++ b/docs/user-manual/zh.md
@@ -128,3 +128,175 @@ sudo yum install pulseaudio pavucontrol
 注意使用自定义字幕引擎时，前面的字幕引擎的设置将全部不起作用，自定义字幕引擎的配置完全通过引擎指令进行配置。

 如果你是开发者，想开发自定义字幕引擎，请查看[字幕引擎说明文档](../engine-manual/zh.md)。
+
+## 单独使用字幕引擎
+
+### 运行参数说明
+
+> 以下内容默认用户对使用终端运行程序有一定了解。
+
+字幕引擎可用使用的完整的运行参数如下：
+
+![](../img/06.png)
+
+而在单独使用时其中某些参数并不需要使用，或者不适合进行修改。
+
+下面的运行参数说明仅包含必要的参数。
+
+#### `-e , --caption_engine`
+
+需要选择的字幕引擎模型，目前有三个可用，分别为：`gummy, vosk, sosv`。
+
+该项的默认值为 `gummy`。
+
+该项适用于所有模型。
+
+#### `-a, --audio_type`
+
+需要识别的音频类型，其中 `0` 表示系统音频输出，`1` 表示麦克风音频输入。
+
+该项的默认值为 `0`。
+
+该项适用于所有模型。
+
+#### `-d, --display_caption`
+
+是否在控制台显示字幕，`0` 表示不显示，`1` 表示显示。
+
+该项默认值为 `0`，只使用字幕引擎的话建议选 `1`。
+
+该项适用于所有模型。
+
+#### `-t, --target_language`
+
+> 其中 Vosk 和 SOSV 模型分句效果较差，会导致翻译内容难以理解，不太建议这两个模型使用翻译。
+
+需要翻译成的目标语言，所有模型都支持的翻译语言如下：
+
+- `none` 不进行翻译
+- `zh` 简体中文
+- `en` 英语
+- `ja` 日语
+- `ko` 韩语
+
+除此之外 `vosk` 和 `sosv` 模型还支持如下翻译：
+
+- `de` 德语
+- `fr` 法语
+- `ru` 俄语
+- `es` 西班牙语
+- `it` 意大利语
+
+该项的默认值为 `none`。
+
+该项适用于所有模型。
+
+#### `-s, --source_language`
+
+需要识别的语言的源语言，默认值为 `auto`，表示不指定源语言。
+
+但是指定源语言能在一定程度上提高识别准确率，可用使用上面的语言代码指定源语言。
+
+该项仅适用于 Gummy 和 SOSV 模型。
+
+其中 Gummy 模型可用使用上述全部的语言，在加上粤语（`yue`）。
+
+而 SOSV 模型支持指定的语言有：英语、中文、日语、韩语、粤语。
+
+#### `-k, --api_key`
+
+指定 `Gummy` 模型需要使用的阿里云 API KEY。
+
+该项默认值为空。
+
+该项仅适用于 Gummy 模型。
+
+#### `-tm, --translation_model`
+
+指定 Vosk 和 SOSV 模型的翻译方式，默认为 `ollama`。
+
+该项支持的值有：
+
+- `ollama` 使用本地 Ollama 模型进行翻译，需要用户安装 Ollama 软件和对应的模型
+- `google` 使用 Google 翻译 API 进行翻译，无需额外配置，但是需要有能访问 Google 的网络
+
+该项仅适用于 Vosk 和 SOSV 模型。
+
+#### `-omn, --ollama_name`
+
+指定需要调用进行翻译的 Ollama 模型。该项默认值为空。
+
+建议使用参数量小于 1B 的模型，比如： `qwen2.5:0.5b`, `qwen3:0.6b`。
+
+用户需要在 Ollama 中下载了对应的模型才能正常使用。
+
+该项仅适用于 Vosk 和 SOSV 模型。
+
+#### `-vosk, --vosk_model`
+
+指定需要调用的 Vosk 模型的本地文件夹的路径。该项默认值为空。
+
+该项仅适用于 Vosk  模型。
+
+#### `-sosv, --sosv_model`
+
+指定需要调用的 SOSV 模型的本地文件夹的路径。该项默认值为空。
+
+该项仅适用于 SOSV  模型。
+
+### 使用源代码运行字幕引擎
+
+> 以下内容默认使用该方式的用户对 Python 环境配置和使用有所了解。
+
+首先下载项目源代码到本地，其中字幕引擎源代码在项目的 `engine` 目录下。然后配置 Python 环境，其中项目依赖的 Python 包在 `engine` 目录下 `requirements.txt` 文件中。
+
+配置好后进入 `engine` 目录，执行命令进行运行字幕引擎。
+
+比如要使用 Gummy 模型，指定音频类型为系统音频输出，源语言为英语，翻译语言为中文，执行的命令如下：
+
+> 注意：为了更直观，下面的命令写在了多行，如果执行失败，尝试去掉反斜杠，并改换单行命令执行。
+
+```bash
+python main.py \
+-e gummy \
+-k sk-******************************** \
+-a 0 \
+-d 1 \
+-s en \
+-t zh
+```
+
+指定 Vosk 模型，指定音频类型为系统音频输出，翻译语言为英语，使用 Ollama `qwen3:0.6b` 模型进行翻译：
+
+```bash
+python main.py \
+-e vosk \
+-vosk D:\Projects\auto-caption\engine\models\vosk-model-small-cn-0.22 \
+-a 0 \
+-d 1 \
+-t en \
+```
+
+指定 SOSV 模型，指定音频类型为麦克风，自动选择源语言，不翻译，执行的命令如下：
+
+```bash
+python main.py \
+-e sosv \
+-sosv D:\\Projects\\auto-caption\\engine\\models\\sosv-int8 \
+-a 1 \
+-d 1 \
+-s auto \
+-t none
+```
+
+使用 Gummy 模型的运行效果如下：
+
+![](../img/07.png)
+
+### 运行字幕引擎可执行文件
+
+首先在 [GitHub Release](https://github.com/HiMeditator/auto-caption/releases/tag/engine) 中下载对应平台的可执行文件（目前仅提供 Windows 和 Linux 平台的字幕引擎可执行文件）。
+
+然后再字幕引擎可执行文件所在目录打开终端，执行命令进行运行字幕引擎。
+
+只需要将上述指令中的 `python main.py` 替换为可执行文件名称即可（比如：`engine-win.exe`）。