release v0.4.0

- 更新 README 和用户手册，增加 Vosk 引擎的使用说明 - 修改构建配置，支持 Vosk 引擎的打包 - 更新版本号至 0.4.0，准备发布新功能
2026-02-17 14:14:53 +08:00 · 2025-07-11 01:33:04 +08:00
parent d354a6fefa
commit 0b8b823b2e
33 changed files with 283 additions and 93 deletions
--- a/docs/user-manual/zh.md
+++ b/docs/user-manual/zh.md
@@ -1,6 +1,6 @@
 # Auto Caption 用户手册

-对应版本：v0.3.0
+对应版本：v0.4.0

 ## 软件简介

@@ -14,21 +14,17 @@ Auto Caption 是一个跨平台的字幕显示软件，能够实时获取系统

 ### 软件缺点

-要使用默认字幕服务需要获取阿里云的 API KEY。
+要使用默认的 Gummy 字幕引擎需要获取阿里云的 API KEY。

 在 macOS 平台获取音频输出需要额外配置。

 软件使用 Electron 构建，因此软件体积不可避免的较大。

-## 软件使用
-
-### 准备阿里云百炼平台 API KEY
+## Gummy 引擎使用前准备

 要使用软件提供的默认字幕引擎（阿里云 Gummy），需要从阿里云百炼平台获取 API KEY，然后将 API KEY 添加到软件设置中或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY）。

-![](../../assets/media/api_zh.png)
-
-**国际版的阿里云服务并没有提供 Gummy 模型，因此目前非中国用户无法使用默认字幕引擎。我正在开发新的本地字幕引擎，以确保所有用户都有默认字幕引擎可以使用。**
+**国际版的阿里云服务并没有提供 Gummy 模型，因此目前非中国用户无法使用默认字幕引擎。**

 这部分阿里云提供了详细的教程，可参考：

@@ -36,7 +32,13 @@ Auto Caption 是一个跨平台的字幕显示软件，能够实时获取系统

 - [将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)

-### macOS 获取系统音频输出
+## Vosk 引擎使用前准备
+
+如果要使用 Vosk 本地字幕引擎，首先需要在 [Vosk Models](https://alphacephei.com/vosk/models) 页面下载你需要的模型。然后将下载的模型安装包解压到本地，并将对应的模型文件夹的路径添加到软件的设置中。目前 Vosk 字幕引擎还不支持翻译字幕内容。
+
+![](../../assets/media/vosk_zh.png)
+
+## macOS 获取系统音频输出

 > 基于 [Setup Multi-Output Device](https://github.com/ExistentialAudio/BlackHole/wiki/Multi-Output-Device) 教程编写

@@ -60,6 +62,8 @@ brew install blackhole-64ch

 现在字幕引擎就能捕获系统的音频输出并生成字幕了。

+## 软件使用
+
 ### 修改设置

 字幕设置可以分为三类：通用设置、字幕引擎设置、字幕样式设置。需要注意的是，修改通用设置是立即生效的。但是对于其他两类设置，修改后需要点击对应设置模块右上角的“应用”选项，更改才会真正生效。如果点击“取消更改”那么当前修改将不会被保存，而是回退到上次修改的状态。
@@ -80,9 +84,9 @@ brew install blackhole-64ch

 ## 字幕引擎

-所谓的字幕引擎实际上是一个子程序，它会实时获取系统音频输入（录音）或输出（播放声音）的流式数据，并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过 IPC 输出为转换为字符串的 JSON 数据，并返回给主程序。主程序读取字幕数据，处理后显示在窗口上。
+所谓的字幕引擎实际上是一个子程序，它会实时获取系统音频输入（录音）或输出（播放声音）的流式数据，并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过转换为字符串的 JSON 数据，并通过标准输出传递给主程序。主程序读取字幕数据，处理后显示在窗口上。

-软件提供了一个默认的字幕引擎，如果你需要其他的字幕引擎，可以通过打开自定义引擎选项来调用其他字幕引擎（其他引擎需要针对该软件进行开发）。其中引擎路径是自定义字幕引擎在你的电脑上的路径，引擎指令是自定义字幕引擎的运行参数，这部分需要按该字幕引擎的规则进行填写。
+软件提供了两个默认的字幕引擎，如果你需要其他的字幕引擎，可以通过打开自定义引擎选项来调用其他字幕引擎（其他引擎需要针对该软件进行开发）。其中引擎路径是自定义字幕引擎在你的电脑上的路径，引擎指令是自定义字幕引擎的运行参数，这部分需要按该字幕引擎的规则进行填写。

 ![](../img/02_zh.png)