fix: 修复样式载入问题、微调文档

2026-05-14 08:17:32 +08:00 · 2025-06-26 23:04:39 +08:00
parent 301c691f04
commit e30124cb87
7 changed files with 40 additions and 24 deletions
--- a/assets/engine-manual_zh.md
+++ b/assets/engine-manual_zh.md
@@ -4,19 +4,19 @@

 ## 字幕引擎介绍

-所谓的字幕引擎实际上是一个子程序，它会实时获取系统音频输入（录音）或输出（播放声音）的流式数据，并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过 IPC 输出为转换为字符串的 JSON 数据，并返回给主程序。主程序读取字幕数据，处理后显示在窗口上。
+所谓的字幕引擎实际上是一个子程序，它会实时获取系统音频输入（录音）或输出（播放声音）的流式数据，并调用音频转文字的模型生成对应音频的字幕。生成的字幕通过 IPC 输出为转换为 JSON 格式的字符串数据，并返回给主程序。主程序读取字幕数据，处理后显示在窗口上。

 ## 字幕引擎需要实现的功能

 ### 音频获取

-首先，你的字幕引擎需要获取系统音频输入（录音）或输出（播放声音）的流式数据。如果使用 Python 开发，可以使用 PyAudio 模块获取麦克风音频输入数据（全平台通用）。使用 PyAudioWPatch 模块获取音频音频输出（仅适用于 Windows 平台）。
+首先，你的字幕引擎需要获取系统音频输入（录音）或输出（播放声音）的流式数据。如果使用 Python 开发，可以使用 PyAudio 库获取麦克风音频输入数据（全平台通用）。使用 PyAudioWPatch 库获取系统音频输出（仅适用于 Windows 平台）。

-一般获取的音频流数据实际上是一个个时间比较短的音频块，需要根据模型调整音频块的大小。比如阿里云的Gummy 模型使用 0.05 秒大小的音频块识别效果优于使用 0.2 秒大小的音频块。
+一般获取的音频流数据实际上是一个一个的时间比较短的音频块，需要根据模型调整音频块的大小。比如阿里云的 Gummy 模型使用 0.05 秒大小的音频块识别效果优于使用 0.2 秒大小的音频块。

 ### 音频处理

-获取到的音频流在转文字之前可能需要进行预处理。比如阿里云的Gummy模型只能识别单通道的音频流，而收集的音频流一般是双通道的，因此要将双通道音频流转换为单通道。
+获取到的音频流在转文字之前可能需要进行预处理。比如阿里云的 Gummy 模型只能识别单通道的音频流，而收集的音频流一般是双通道的，因此要将双通道音频流转换为单通道。通道数的转换可以使用 NumPy 库中的方法实现。

 ### 音频转文字

@@ -36,7 +36,7 @@ export interface CaptionItem {
 }
 ```

-如果使用 python 语言，可以参考以下方式将数据传递给主程序。
+如果使用 python 语言，可以参考以下方式将数据传递给主程序：

 ```python
 # python-subprocess\audio2text\gummy.py
@@ -84,4 +84,4 @@ export interface CaptionItem {

 ## 参考代码

-本项目 `python-subprocess` 文件夹下的 `main-gummy.py` 文件为默认字幕引擎的入口代码。`src\main\utils\engine.ts` 为服务端获取字幕引擎数据和进行处理的代码。可以根据需要阅读了解字幕引擎的实现细节和完整运行原过程。
+本项目 `python-subprocess` 文件夹下的 `main-gummy.py` 文件为默认字幕引擎的入口代码。`src\main\utils\engine.ts` 为服务端获取字幕引擎数据和进行处理的代码。可以根据需要阅读了解字幕引擎的实现细节和完整运行过程。