mirror of https://github.com/HiMeditator/auto-caption.git synced 2026-02-04 04:14:42 +08:00

Go to file

himeditator e23249bc54 feat: 更新 README 并添加清空字幕记录功能

- 更新 README 中的项目状态和下载链接
- 添加清空字幕记录的功能
- 优化字幕记录的导出和清空界面
- 更新代码以支持跨平台兼容性
- 添加开源协议

2025-06-22 00:17:43 +08:00

.vscode

update build config

2025-06-12 23:03:51 +08:00

assets

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

python-prototype

feat功能): 完善字幕引擎并添加字幕记录导出功能

2025-06-21 20:35:49 +08:00

python-subprocess

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

resources

init repo

2025-05-11 21:41:22 +08:00

src

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

.editorconfig

init repo

2025-05-11 21:41:22 +08:00

.gitignore

feat: 增加了音频输入选项，并优化了字幕引擎的构建和运行流程。

2025-06-21 23:22:19 +08:00

.npmrc

init repo

2025-05-11 21:41:22 +08:00

.prettierignore

init repo

2025-05-11 21:41:22 +08:00

.prettierrc.yaml

init repo

2025-05-11 21:41:22 +08:00

electron-builder.yml

feat: 增加了音频输入选项，并优化了字幕引擎的构建和运行流程。

2025-06-21 23:22:19 +08:00

electron.vite.config.ts

init repo

2025-05-11 21:41:22 +08:00

eslint.config.mjs

feat: 实现简易字幕

2025-05-11 23:50:31 +08:00

LICENSE

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

package-lock.json

feat(renderer): 初步添加字幕显示窗口

2025-06-15 22:59:45 +08:00

package.json

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

README.md

feat: 更新 README 并添加清空字幕记录功能

2025-06-22 00:17:43 +08:00

tsconfig.json

init repo

2025-05-11 21:41:22 +08:00

tsconfig.node.json

init repo

2025-05-11 21:41:22 +08:00

tsconfig.web.json

init repo

2025-05-11 21:41:22 +08:00

README.md

auto-caption

Auto Caption 是一个跨平台的视频播放和字幕显示软件。

项目初版已经开发完毕。

📥 下载

GitHub Releases

📚 用户手册

暂无

基本使用

目前仅提供 Windows 平台的可安装版本。如果使用默认的 Gummy 字幕引擎，需要获取阿里云百炼平台的 API KEY 并配置到环境变量中才能正常使用该模型相关教程：获取API KEY、将API Key配置到环境变量。

对于开发者，可以自己创建新的字幕引擎。具体通信规范请参考源代码。

✨ 特性

丰富的字幕样式设置
灵活的字幕引擎选择
多语言识别与翻译
字幕记录展示与导出
生成音频输出和麦克风输入的字幕

说明：Windows 平台支持生成音频输出和麦克风输入的字幕，Linux 平台仅支持生成麦克风输入的字幕。

🚀 项目运行

安装依赖

npm install

构建字幕引擎

背景介绍

所谓的字幕引擎实际上是一个子程序，它会实时获取系统音频输入（录音）或输出（播放声音）的流式数据，并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过 IPC 输出为转换为字符串的 JSON 数据，并返回给主程序。主程序读取字幕数据，处理后显示在窗口上。

目前项目默认使用阿里云 Gummy 模型，需要获取阿里云百炼平台的 API KEY 并配置到环境变量中才能正常使用该模型，相关教程：获取API KEY、将API Key配置到环境变量。

本项目的 gummy 字幕引擎是一个 python 子程序，通过 pyinstaller 打包为可执行文件。运行字幕引擎子程序的代码在 src\main\utils\engine.ts 文件中。

首先进入 python-subprocess 文件夹，执行如下指令创建虚拟环境：

python -m venv subenv

然后激活虚拟环境：

# Windows
subenv/Scripts/activate
# Linux
source subenv/bin/activate

然后安装依赖（注意如果是 Linux 环境，需要注释调 requirements.txt 中的 PyAudioWPatch，该模块仅适用于 Windows 环境）：

pip install -r requirements.txt

然后使用 pyinstaller 构建项目：

pyinstaller --onefile main-gummy.py

此时项目构建完成，在进入 python-subprocess/dist 文件夹可见对应的可执行文件。即可进行后续操作。

运行项目

npm run dev

构建项目

注意目前软件没有适配 macOS 平台，请使用 Windows 或 Linux 系统进行构建。

# For windows
npm run build:win
# For macOS
npm run build:mac
# For Linux
npm run build:linux

Languages

TypeScript 43.1%

Vue 30.8%

Python 25.2%

JavaScript 0.4%

CSS 0.3%

Other 0.2%

README.md Unescape Escape

auto-caption

📥 下载

📚 用户手册

基本使用

✨ 特性

🚀 项目运行

安装依赖

构建字幕引擎

背景介绍

运行项目

构建项目

README.md