mirror of
https://github.com/HiMeditator/auto-caption.git
synced 2026-02-04 04:14:42 +08:00
release v1.1.0
This commit is contained in:
@@ -172,4 +172,11 @@
|
||||
|
||||
- 优化部分提示信息显示位置
|
||||
- 替换重采样模型,提高音频重采样质量
|
||||
- 带有额外信息的标签颜色改为与主题色一致
|
||||
- 带有额外信息的标签颜色改为与主题色一致
|
||||
|
||||
## v1.1.0
|
||||
|
||||
### 新增功能
|
||||
|
||||
- 添加基于 GLM-ASR 的字幕引擎
|
||||
- 添加 OpenAI API 兼容模型作为新的翻译模型
|
||||
|
||||
15
docs/TODO.md
15
docs/TODO.md
@@ -23,17 +23,8 @@
|
||||
- [x] 前端页面添加日志内容展示 *2025/08/19*
|
||||
- [x] 添加 Ollama 模型用于本地字幕引擎的翻译 *2025/09/04*
|
||||
- [x] 验证 / 添加基于 sherpa-onnx 的字幕引擎 *2025/09/06*
|
||||
- [x] 添加 GLM-ASR 模型 *2026/01/10*
|
||||
|
||||
## 待完成
|
||||
## TODO
|
||||
|
||||
- [ ] 调研更多的云端模型(火山、OpenAI、Google等)
|
||||
- [ ] 验证 / 添加基于 sherpa-onnx 的字幕引擎
|
||||
|
||||
## 后续计划
|
||||
|
||||
- [ ] 验证 / 添加基于 FunASR 的字幕引擎
|
||||
- [ ] 减小软件不必要的体积
|
||||
|
||||
## 遥远的未来
|
||||
|
||||
- [ ] 使用 Tauri 框架重新开发
|
||||
暂无
|
||||
|
||||
BIN
docs/img/06.png
BIN
docs/img/06.png
Binary file not shown.
|
Before Width: | Height: | Size: 118 KiB After Width: | Height: | Size: 148 KiB |
@@ -1,6 +1,6 @@
|
||||
# Auto Caption User Manual
|
||||
|
||||
Corresponding Version: v1.0.0
|
||||
Corresponding Version: v1.1.0
|
||||
|
||||
**Note: Due to limited personal resources, the English and Japanese documentation files for this project (except for the README document) will no longer be maintained. The content of this document may not be consistent with the latest version of the project. If you are willing to help with translation, please submit relevant Pull Requests.**
|
||||
|
||||
@@ -41,6 +41,11 @@ Alibaba Cloud provides detailed tutorials for this part, which can be referenced
|
||||
- [Obtaining API KEY (Chinese)](https://help.aliyun.com/zh/model-studio/get-api-key)
|
||||
- [Configuring API Key through Environment Variables (Chinese)](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)
|
||||
|
||||
|
||||
## Preparation for GLM Engine
|
||||
|
||||
You need to obtain an API KEY first, refer to: [Quick Start](https://docs.bigmodel.cn/en/guide/start/quick-start).
|
||||
|
||||
## Preparation for Using Vosk Engine
|
||||
|
||||
To use the Vosk local caption engine, first download your required model from the [Vosk Models](https://alphacephei.com/vosk/models) page. Then extract the downloaded model package locally and add the corresponding model folder path to the software settings.
|
||||
@@ -147,7 +152,7 @@ The following parameter descriptions only include necessary parameters.
|
||||
|
||||
#### `-e , --caption_engine`
|
||||
|
||||
The caption engine model to select, currently three options are available: `gummy, vosk, sosv`.
|
||||
The caption engine model to select, currently three options are available: `gummy, glm, vosk, sosv`.
|
||||
|
||||
The default value is `gummy`.
|
||||
|
||||
@@ -199,10 +204,12 @@ Source language for recognition. Default value is `auto`, meaning no specific so
|
||||
|
||||
Specifying the source language can improve recognition accuracy to some extent. You can specify the source language using the language codes above.
|
||||
|
||||
This only applies to Gummy and SOSV models.
|
||||
This applies to Gummy, GLM and SOSV models.
|
||||
|
||||
The Gummy model can use all the languages mentioned above, plus Cantonese (`yue`).
|
||||
|
||||
The GLM model supports specifying the following languages: English, Chinese, Japanese, Korean.
|
||||
|
||||
The SOSV model supports specifying the following languages: English, Chinese, Japanese, Korean, and Cantonese.
|
||||
|
||||
#### `-k, --api_key`
|
||||
@@ -213,6 +220,18 @@ Default value is empty.
|
||||
|
||||
This only applies to the Gummy model.
|
||||
|
||||
#### `-gkey, --glm_api_key`
|
||||
|
||||
Specifies the API KEY required for the `glm` model. The default value is empty.
|
||||
|
||||
#### `-gmodel, --glm_model`
|
||||
|
||||
Specifies the model name to be used for the `glm` model. The default value is `glm-asr-2512`.
|
||||
|
||||
#### `-gurl, --glm_url`
|
||||
|
||||
Specifies the API URL required for the `glm` model. The default value is: `https://open.bigmodel.cn/api/paas/v4/audio/transcriptions`.
|
||||
|
||||
#### `-tm, --translation_model`
|
||||
|
||||
Specify the translation method for Vosk and SOSV models. Default is `ollama`.
|
||||
@@ -226,13 +245,23 @@ This only applies to Vosk and SOSV models.
|
||||
|
||||
#### `-omn, --ollama_name`
|
||||
|
||||
Specify the Ollama model to call for translation. Default value is empty.
|
||||
Specifies the name of the translation model to be used, which can be either a local Ollama model or a cloud model compatible with the OpenAI API. If the Base URL field is not filled in, the local Ollama service will be called by default; otherwise, the API service at the specified address will be invoked via the Python OpenAI library.
|
||||
|
||||
It's recommended to use models with less than 1B parameters, such as: `qwen2.5:0.5b`, `qwen3:0.6b`.
|
||||
If using an Ollama model, it is recommended to use a model with fewer than 1B parameters, such as `qwen2.5:0.5b` or `qwen3:0.6b`. The corresponding model must be downloaded in Ollama for normal use.
|
||||
|
||||
Users need to download the corresponding model in Ollama to use it properly.
|
||||
The default value is empty and applies to models other than Gummy.
|
||||
|
||||
This only applies to Vosk and SOSV models.
|
||||
#### `-ourl, --ollama_url`
|
||||
|
||||
The base request URL for calling the OpenAI API. If left blank, the local Ollama model on the default port will be called.
|
||||
|
||||
The default value is empty and applies to models other than Gummy.
|
||||
|
||||
#### `-okey, --ollama_api_key`
|
||||
|
||||
Specifies the API KEY for calling OpenAI-compatible models.
|
||||
|
||||
The default value is empty and applies to models other than Gummy.
|
||||
|
||||
#### `-vosk, --vosk_model`
|
||||
|
||||
|
||||
@@ -1,6 +1,6 @@
|
||||
# Auto Caption ユーザーマニュアル
|
||||
|
||||
対応バージョン:v1.0.0
|
||||
対応バージョン:v1.1.0
|
||||
|
||||
この文書は大規模モデルを使用して翻訳されていますので、内容に正確でない部分があるかもしれません。
|
||||
|
||||
@@ -41,6 +41,10 @@ macOS プラットフォームでオーディオ出力を取得するには追
|
||||
- [API KEY の取得(中国語)](https://help.aliyun.com/zh/model-studio/get-api-key)
|
||||
- [環境変数を通じて API Key を設定(中国語)](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)
|
||||
|
||||
## GLM エンジン使用前の準備
|
||||
|
||||
まずAPI KEYを取得する必要があります。参考:[クイックスタート](https://docs.bigmodel.cn/en/guide/start/quick-start)。
|
||||
|
||||
## Voskエンジン使用前の準備
|
||||
|
||||
Voskローカル字幕エンジンを使用するには、まず[Vosk Models](https://alphacephei.com/vosk/models)ページから必要なモデルをダウンロードしてください。その後、ダウンロードしたモデルパッケージをローカルに解凍し、対応するモデルフォルダのパスをソフトウェア設定に追加します。
|
||||
|
||||
@@ -1,6 +1,6 @@
|
||||
# Auto Caption 用户手册
|
||||
|
||||
对应版本:v1.0.0
|
||||
对应版本:v1.1.0
|
||||
|
||||
## 软件简介
|
||||
|
||||
@@ -39,6 +39,10 @@ Auto Caption 是一个跨平台的字幕显示软件,能够实时获取系统
|
||||
- [获取 API KEY](https://help.aliyun.com/zh/model-studio/get-api-key)
|
||||
- [将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)
|
||||
|
||||
## GLM 引擎使用前准备
|
||||
|
||||
需要先获取 API KEY,参考:[Quick Start](https://docs.bigmodel.cn/en/guide/start/quick-start)。
|
||||
|
||||
## Vosk 引擎使用前准备
|
||||
|
||||
如果要使用 Vosk 本地字幕引擎,首先需要在 [Vosk Models](https://alphacephei.com/vosk/models) 页面下载你需要的模型。然后将下载的模型安装包解压到本地,并将对应的模型文件夹的路径添加到软件的设置中。
|
||||
@@ -145,7 +149,7 @@ sudo yum install pulseaudio pavucontrol
|
||||
|
||||
#### `-e , --caption_engine`
|
||||
|
||||
需要选择的字幕引擎模型,目前有三个可用,分别为:`gummy, vosk, sosv`。
|
||||
需要选择的字幕引擎模型,目前有四个可用,分别为:`gummy, glm, vosk, sosv`。
|
||||
|
||||
该项的默认值为 `gummy`。
|
||||
|
||||
@@ -197,11 +201,13 @@ sudo yum install pulseaudio pavucontrol
|
||||
|
||||
但是指定源语言能在一定程度上提高识别准确率,可用使用上面的语言代码指定源语言。
|
||||
|
||||
该项仅适用于 Gummy 和 SOSV 模型。
|
||||
该项适用于 Gummy、GLM 和 SOSV 模型。
|
||||
|
||||
其中 Gummy 模型可用使用上述全部的语言,在加上粤语(`yue`)。
|
||||
|
||||
而 SOSV 模型支持指定的语言有:英语、中文、日语、韩语、粤语。
|
||||
GLM 模型支持指定的语言有:英语、中文、日语、韩语。
|
||||
|
||||
SOSV 模型支持指定的语言有:英语、中文、日语、韩语、粤语。
|
||||
|
||||
#### `-k, --api_key`
|
||||
|
||||
@@ -211,6 +217,18 @@ sudo yum install pulseaudio pavucontrol
|
||||
|
||||
该项仅适用于 Gummy 模型。
|
||||
|
||||
#### `-gkey, --glm_api_key`
|
||||
|
||||
指定 `glm` 模型需要使用的 API KEY,默认为空。
|
||||
|
||||
#### `-gmodel, --glm_model`
|
||||
|
||||
指定 `glm` 模型需要使用的模型名称,默认为 `glm-asr-2512`。
|
||||
|
||||
#### `-gurl, --glm_url`
|
||||
|
||||
指定 `glm` 模型需要使用的 API URL,默认值为:`https://open.bigmodel.cn/api/paas/v4/audio/transcriptions`。
|
||||
|
||||
#### `-tm, --translation_model`
|
||||
|
||||
指定 Vosk 和 SOSV 模型的翻译方式,默认为 `ollama`。
|
||||
@@ -224,13 +242,23 @@ sudo yum install pulseaudio pavucontrol
|
||||
|
||||
#### `-omn, --ollama_name`
|
||||
|
||||
指定需要调用进行翻译的 Ollama 模型。该项默认值为空。
|
||||
指定要使用的翻译模型名称,可以是 Ollama 本地模型,也可以是 OpenAI API 兼容的云端模型。若未填写 Base URL 字段,则默认调用本地 Ollama 服务,否则会通过 Python OpenAI 库调用该地址指向的 API 服务。
|
||||
|
||||
建议使用参数量小于 1B 的模型,比如: `qwen2.5:0.5b`, `qwen3:0.6b`。
|
||||
如果使用 Ollama 模型,建议使用参数量小于 1B 的模型,比如: `qwen2.5:0.5b`, `qwen3:0.6b`。需要在 Ollama 中下载了对应的模型才能正常使用。
|
||||
|
||||
用户需要在 Ollama 中下载了对应的模型才能正常使用。
|
||||
默认值为空,适用于除了 Gummy 外的其他模型。
|
||||
|
||||
该项仅适用于 Vosk 和 SOSV 模型。
|
||||
#### `-ourl, --ollama_url`
|
||||
|
||||
调用 OpenAI API 的基础请求地址,如果不填写则调用本地默认端口的 Ollama 模型。
|
||||
|
||||
默认值为空,适用于除了 Gummy 外的其他模型。
|
||||
|
||||
#### `-okey, --ollama_api_key`
|
||||
|
||||
指定调用 OpenAI 兼容模型的 API KEY。
|
||||
|
||||
默认值为空,适用于除了 Gummy 外的其他模型。
|
||||
|
||||
#### `-vosk, --vosk_model`
|
||||
|
||||
|
||||
Reference in New Issue
Block a user