release v1.1.0

2026-02-04 04:14:42 +08:00 · 2026-01-10 22:50:57 +08:00
parent 086ea90a5f
commit 0dc70d491e
20 changed files with 207 additions and 114 deletions
--- a/README.md
+++ b/README.md
@@ -3,7 +3,7 @@
    <h1 align="center">auto-caption</h1>
    <p>Auto Caption 是一个跨平台的实时字幕显示软件。</p>
    <p>
-      <a href="https://github.com/HiMeditator/auto-caption/releases"><img src="https://img.shields.io/badge/release-1.0.0-blue"></a>
+      <a href="https://github.com/HiMeditator/auto-caption/releases"><img src="https://img.shields.io/badge/release-1.1.0-blue"></a>
      <a href="https://github.com/HiMeditator/auto-caption/issues"><img src="https://img.shields.io/github/issues/HiMeditator/auto-caption?color=orange"></a>
      <img src="https://img.shields.io/github/languages/top/HiMeditator/auto-caption?color=royalblue">
      <img src="https://img.shields.io/github/repo-size/HiMeditator/auto-caption?color=green">
@@ -14,7 +14,7 @@
        | <a href="./README_en.md">English</a>
        | <a href="./README_ja.md">日本語</a> |
    </p>
-    <p><i>v1.0.0 版本已经发布，新增 SOSV 本地字幕模型。当前功能已经基本完整，暂无继续开发计划...</i></p>
+    <p><i>v1.1.0 版本已经发布，新增 GLM-ASR 云端字幕模型和 OpenAI 兼容模型翻译...</i></p>
 </div>

 ![](./assets/media/main_zh.png)
@@ -38,7 +38,7 @@ SOSV 模型下载：[ Shepra-ONNX SenseVoice Model](https://github.com/HiMeditat
 ## ✨ 特性

 - 生成音频输出或麦克风输入的字幕
- 支持调用本地 Ollama 模型或云端 Google 翻译 API 进行翻译
+- 支持调用本地 Ollama 模型、云端 OpenAI 兼容模型、或云端 Google 翻译 API 进行翻译
 - 跨平台（Windows、macOS、Linux）、多界面语言（中文、英语、日语）支持
 - 丰富的字幕样式设置（字体、字体大小、字体粗细、字体颜色、背景颜色等）
 - 灵活的字幕引擎选择（阿里云 Gummy 云端模型、GLM-ASR 云端模型、本地 Vosk 模型、本地 SOSV 模型、还可以自己开发模型）
@@ -47,6 +47,8 @@ SOSV 模型下载：[ Shepra-ONNX SenseVoice Model](https://github.com/HiMeditat

 ## 📖 基本使用

+> ⚠️ 注意：目前只维护了 Windows 平台的软件的最新版本，其他平台的最后版本停留在 v1.0.0。
+
 软件已经适配了 Windows、macOS 和 Linux 平台。测试过的主流平台信息如下：

 | 操作系统版本        | 处理器架构 | 获取系统音频输入 | 获取系统音频输出 |
@@ -59,15 +61,15 @@ macOS 平台和 Linux 平台获取系统音频输出需要进行额外设置，

 下载软件后，需要根据自己的需求选择对应的模型，然后配置模型。

-|                                                              | 识别效果 | 部署类型          | 支持语言   | 翻译       | 备注                                                       |
-| ------------------------------------------------------------ | -------- | ------------- | ---------- | ---------- | ---------------------------------------------------------- |
-| [Gummy](https://help.aliyun.com/zh/model-studio/gummy-speech-recognition-translation) | 很好😊    | 云端 / 阿里云 | 10 种      | 自带翻译   | 收费，0.54CNY / 小时                                       |
-| [glm-asr-2512](https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512) | 很好😊 | 云端 / 智谱 AI | 4 种 | 需额外配置 | 收费，约 0.72CNY / 小时 |
-| [Vosk](https://alphacephei.com/vosk)                         | 较差😞    | 本地 / CPU    | 超过 30 种 | 需额外配置 | 支持的语言非常多                                           |
-| [SOSV](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html) | 一般😐    | 本地 / CPU    | 5 种       | 需额外配置 | 仅有一个模型                                               |
-| 自己开发                                                     | 🤔        | 自定义        | 自定义     | 自定义     | 根据[文档](./docs/engine-manual/zh.md)使用 Python 自己开发 |
+|                                                              | 准确率 | 实时性 | 部署类型          | 支持语言   | 翻译       | 备注                                                       |
+| ------------------------------------------------------------ | -------- | ------------- | ---------- | ---------- | ---------------------------------------------------------- | ---------------------------------------------------------- |
+| [Gummy](https://help.aliyun.com/zh/model-studio/gummy-speech-recognition-translation) | 很好😊    | 很好😊 | 云端 / 阿里云 | 10 种      | 自带翻译   | 收费，0.54CNY / 小时                                       |
+| [glm-asr-2512](https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512) | 很好😊 | 较差😞 | 云端 / 智谱 AI | 4 种 | 需额外配置 | 收费，约 0.72CNY / 小时 |
+| [Vosk](https://alphacephei.com/vosk)                         | 较差😞    | 很好😊 | 本地 / CPU    | 超过 30 种 | 需额外配置 | 支持的语言非常多                                           |
+| [SOSV](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html) | 一般😐    | 一般😐 | 本地 / CPU    | 5 种       | 需额外配置 | 仅有一个模型                                               |
+| 自己开发                                                     | 🤔        | 🤔      | 自定义        | 自定义     | 自定义     | 根据[文档](./docs/engine-manual/zh.md)使用 Python 自己开发 |

-如果你选择使用 Vosk 或 SOSV 模型，你还需要配置自己的翻译模型。
+如果你选择的不是 Gummy 模型，你还需要配置自己的翻译模型。

 ### 配置翻译模型

@@ -79,11 +81,22 @@ macOS 平台和 Linux 平台获取系统音频输出需要进行额外设置，

 > 注意：使用参数量过大的模型会导致资源消耗和翻译延迟较大。建议使用参数量小于 1B 的模型，比如： `qwen2.5:0.5b`, `qwen3:0.6b`。

-使用该模型之前你需要确定本机安装了 [Ollama](https://ollama.com/) 软件，并已经下载了需要的大语言模型。只需要将需要调用的大模型名称添加到设置中的 `Ollama` 字段中。
+使用该模型之前你需要确定本机安装了 [Ollama](https://ollama.com/) 软件，并已经下载了需要的大语言模型。只需要将需要调用的大模型名称添加到设置中的 `模型名称` 字段中，并保证 `Base URL` 字段为空。
+
+#### OpenAI 兼容模型
+
+如果觉得本地 Ollama 模型的翻译效果不佳，或者不想在本地安装 Ollama 模型，那么可以使用云端的 OpenAI 兼容模型。
+
+以下是一些模型提供商的 `Base URL`：
+- OpenAI: https://api.openai.com/v1
+- DeepSeek：https://api.deepseek.com
+- 阿里云：https://dashscope.aliyuncs.com/compatible-mode/v1
+
+API Key 需要在对应的模型提供商处获取。

 #### Google 翻译 API

-> 注意：Google 翻译 API 在部分地区无法使用。
+> 注意：Google 翻译 API 在无法访问国际网络的地区无法使用。

 无需任何配置，联网即可使用。

@@ -91,11 +104,17 @@ macOS 平台和 Linux 平台获取系统音频输出需要进行额外设置，

 > 国际版的阿里云服务似乎并没有提供 Gummy 模型，因此目前非中国用户可能无法使用 Gummy 字幕引擎。

-如果要使用默认的 Gummy 字幕引擎（使用云端模型进行语音识别和翻译），首先需要获取阿里云百炼平台的 API KEY，然后将 API KEY 添加到软件设置中或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY），这样才能正常使用该模型。相关教程：
+如果要使用默认的 Gummy 字幕引擎（使用云端模型进行语音识别和翻译），首先需要获取阿里云百炼平台的 API KEY，然后将 API KEY 添加到软件设置中（在字幕引擎设置的更多设置中）或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY），这样才能正常使用该模型。相关教程：

 - [获取 API KEY](https://help.aliyun.com/zh/model-studio/get-api-key)
 - [将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)

+### 使用 GLM-ASR 模型
+
+使用前需要获取智谱 AI 平台的 API KEY，并添加到软件设置中。
+
+API KEY 获取相关链接：[快速开始](https://docs.bigmodel.cn/cn/guide/start/quick-start)。
+
 ### 使用 Vosk 模型

 > Vosk 模型的识别效果较差，请谨慎使用。
@@ -133,7 +152,7 @@ python main.py \

 ## ⚙️ 自带字幕引擎说明

-目前软件自带 3 个字幕引擎，正在规划新的引擎。它们的详细信息如下。
+目前软件自带 4 个字幕引擎。它们的详细信息如下。

 ### Gummy 字幕引擎（云端）

@@ -160,6 +179,10 @@ $$

 而且引擎只会获取到音频流的时候才会上传数据，因此实际上传速率可能更小。模型结果回传流量消耗较小，没有纳入考虑。

+### GLM-ASR 字幕引擎（云端）
+
+https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
+
 ### Vosk 字幕引擎（本地）

 基于 [vosk-api](https://github.com/alphacep/vosk-api) 开发。该字幕引擎的优点是可选的语言模型非常多（超过 30 种），缺点是识别效果比较差，且生成内容没有标点符号。
@@ -169,16 +192,6 @@ $$

 [SOSV](https://github.com/HiMeditator/auto-caption/releases/tag/sosv-model) 是一个整合包，该整合包主要基于 [Shepra-ONNX SenseVoice](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html)，并添加了端点检测模型和标点恢复模型。该模型支持识别的语言有：英语、中文、日语、韩语、粤语。

-### 新规划字幕引擎
-
-以下为备选模型，将根据模型效果和集成难易程度选择。
-
- [faster-whisper](https://github.com/SYSTRAN/faster-whisper)
- [sherpa-onnx](https://github.com/k2-fsa/sherpa-onnx)
- [SenseVoice](https://github.com/FunAudioLLM/SenseVoice)
- [FunASR](https://github.com/modelscope/FunASR)
- [WhisperLiveKit](https://github.com/QuentinFuxa/WhisperLiveKit)
-
 ## 🚀 项目运行

 ![](./assets/media/structure_zh.png)