mirror of
https://github.com/HiMeditator/auto-caption.git
synced 2026-02-04 04:14:42 +08:00
release v0.2.0
- 更新和增加文档 - 添加新的图片 - 优化文档结构和内容
This commit is contained in:
49
README.md
49
README.md
@@ -4,42 +4,55 @@
|
||||
<p>Auto Caption 是一个跨平台的实时字幕显示软件。</p>
|
||||
<p>
|
||||
| <b>简体中文</b>
|
||||
| <a href="https://github.com/HiMeditator/auto-caption/blob/main/README_en.md">English</a> |
|
||||
| <a href="./README_en.md">English</a>
|
||||
| <a href="./README_ja.md">日本語</a> |
|
||||
</p>
|
||||
<p><i>v0.2.0版本已经发布。预计将添加本地字幕引擎的v1.0.0版本正在开发中...</i></p>
|
||||
</div>
|
||||
|
||||
<p style="color:red;text-align:center;">新版本的开发正在进行中,新特性包括本地字幕引擎、英日语国际化以及暗色主题,还将修复已知bug和提示使用体验,预计将于本月之内发布。</p>
|
||||
|
||||

|
||||

|
||||
|
||||
## 📥 下载
|
||||
|
||||
[GitHub Releases](https://github.com/HiMeditator/auto-caption/releases)
|
||||
|
||||
## 📚 用户手册
|
||||
## 📚 相关文档
|
||||
|
||||
[Auto Caption 用户手册](./assets/user-manual_zh.md)
|
||||
[Auto Caption 用户手册](./docs/user-manual/zh.md)
|
||||
|
||||
[字幕引擎说明文档](./assets/engine-manual_zh.md)
|
||||
[字幕引擎说明文档](./docs/engine-manual/zh.md)
|
||||
|
||||
[项目 API 文档](./docs/api-docs/electron-ipc.md)
|
||||
|
||||
### 基本使用
|
||||
|
||||
目前仅提供了 Windows 平台的可安装版本。如果使用默认的 Gummy 字幕引擎,需要获取阿里云百炼平台的 API KEY 并配置到环境变量中才能正常使用该模型。相关教程:[获取 API KEY](https://help.aliyun.com/zh/model-studio/get-api-key)、[将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)。
|
||||
目前仅提供了 Windows 平台的可安装版本。如果要使用默认的 Gummy 字幕引擎,首先需要获取阿里云百炼平台的 API KEY 并配置到环境变量中,这样才能正常使用该模型。
|
||||
|
||||
对于开发者,可以自己开发新的字幕引擎,自定义字幕引擎的开发请参考[字幕引擎说明文档](./assets/engine-manual_zh.md)。
|
||||
**国际版的阿里云服务并没有提供 Gummy 模型,因此目前非中国用户无法使用默认字幕引擎。我正在开发新的本地字幕引擎,以确保所有用户都有默认字幕引擎可以使用。**
|
||||
|
||||
相关教程:
|
||||
|
||||
- [获取 API KEY](https://help.aliyun.com/zh/model-studio/get-api-key)
|
||||
- [将 API Key 配置到环境变量](https://help.aliyun.com/zh/model-studio/configure-api-key-through-environment-variables)。
|
||||
|
||||
如果你想了解字幕引擎的工作原理,或者你想开发自己的字幕引擎,请参考[字幕引擎说明文档](./docs/engine-manual/zh.md)。
|
||||
## ✨ 特性
|
||||
|
||||
- 多界面语言支持
|
||||
- 丰富的字幕样式设置
|
||||
- 灵活的字幕引擎选择
|
||||
- 多语言识别与翻译
|
||||
- 字幕记录展示与导出
|
||||
- 生成音频输出和麦克风输入的字幕
|
||||
|
||||
说明:Windows 平台支持生成音频输出和麦克风输入的字幕,Linux 平台仅支持生成麦克风输入的字幕。
|
||||
说明:
|
||||
- Windows 平台支持生成音频输出和麦克风输入的字幕
|
||||
- Linux 平台目前仅支持生成麦克风输入的字幕
|
||||
- 目前还没有适配 macOS 平台
|
||||
|
||||
## 🚀 项目运行
|
||||
|
||||

|
||||

|
||||
|
||||
### 安装依赖
|
||||
|
||||
@@ -49,16 +62,6 @@ npm install
|
||||
|
||||
### 构建字幕引擎
|
||||
|
||||
> #### 背景介绍
|
||||
>
|
||||
> 如果你是开发者,想开发自定义字幕引擎,请查看[字幕引擎说明文档](./assets/engine-manual_zh.md)。
|
||||
>
|
||||
> 所谓的字幕引擎实际上是一个子程序,它会实时获取系统音频输入(录音)或输出(播放声音)的流式数据,并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过 IPC 输出为转换为字符串的 JSON 数据,并返回给主程序。主程序读取字幕数据,处理后显示在窗口上。
|
||||
>
|
||||
>目前项目默认使用[阿里云 Gummy 模型](https://help.aliyun.com/zh/model-studio/gummy-speech-recognition-translation/),需要获取阿里云百炼平台的 API KEY 并配置到环境变量中才能正常使用该模型。
|
||||
>
|
||||
> 本项目的 gummy 字幕引擎是一个 python 子程序,通过 pyinstaller 打包为可执行文件。 运行字幕引擎子程序的代码在 `src\main\utils\engine.ts` 文件中。
|
||||
|
||||
首先进入 `caption-engine` 文件夹,执行如下指令创建虚拟环境:
|
||||
|
||||
```bash
|
||||
@@ -74,7 +77,7 @@ subenv/Scripts/activate
|
||||
source subenv/bin/activate
|
||||
```
|
||||
|
||||
然后安装依赖(注意如果是 Linux 环境,需要注释调 `requirements.txt` 中的 `PyAudioWPatch`,该模块仅适用于 Windows 环境):
|
||||
然后安装依赖(注意如果是 Linux 环境,需要注释掉 `requirements.txt` 中的 `PyAudioWPatch`,该模块仅适用于 Windows 环境):
|
||||
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
@@ -100,7 +103,7 @@ npm run dev
|
||||
```bash
|
||||
# For windows
|
||||
npm run build:win
|
||||
# For macOS
|
||||
# For macOS, not avaliable yet
|
||||
npm run build:mac
|
||||
# For Linux
|
||||
npm run build:linux
|
||||
|
||||
Reference in New Issue
Block a user