release v0.5.0

- 更新了发行说明和用户手册
- 优化了界面显示和功能
- 过滤 Gummy 字幕引擎输出的不完整字幕
This commit is contained in:
himeditator
2025-07-15 18:48:16 +08:00
parent 760c01d79e
commit 25b6ad5ed2
25 changed files with 128 additions and 85 deletions

View File

@@ -1,6 +1,6 @@
# Auto Caption ユーザーマニュアル
対応バージョンv0.4.0
対応バージョンv0.5.0
この文書は大規模モデルを使用して翻訳されていますので、内容に正確でない部分があるかもしれません。
@@ -8,9 +8,16 @@
Auto Caption は、クロスプラットフォームの字幕表示ソフトウェアで、システムの音声入力(録音)または出力(音声再生)のストリーミングデータをリアルタイムで取得し、音声からテキストに変換するモデルを利用して対応する音声の字幕を生成します。このソフトウェアが提供するデフォルトの字幕エンジン(アリババクラウド Gummy モデルを使用は、9つの言語中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、スペイン語、イタリア語の認識と翻訳をサポートしています。
現在、ソフトウェアのデフォルト字幕エンジンは WindowsmacOS プラットフォームでのみ完全な機能を有しています。macOS でシステムオーディオ出力を取得するには追加設定が必要です。
現在のデフォルト字幕エンジンは WindowsmacOS、Linux プラットフォームで完全な機能を有しています。macOSでシステムオーディオ出力を取得するには追加設定が必要です。
Linux プラットフォームでは、オーディオ入力(マイク)からの字幕生成のみ可能で、現在オーディオ出力(再生音)からの字幕生成はサポートしていません。
以下のオペレーティングシステムバージョンで正常動作を確認しています。記載以外の OS での正常動作は保証できません。
| OS バージョン | アーキテクチャ | オーディオ入力取得 | オーディオ出力取得 |
| ------------------- | ------------- | ------------------ | ------------------ |
| Windows 11 24H2 | x64 | ✅ | ✅ |
| macOS Sequoia 15.5 | arm64 | ✅ 追加設定が必要 | ✅ |
| Ubuntu 24.04.2 | x64 | ✅ | ✅ |
| Kali Linux 2022.3 | x64 | ✅ | ✅ |
![](../../assets/media/main_ja.png)
@@ -66,28 +73,28 @@ BlackHoleのインストールが確認できたら、`オーディオ MIDI 設
## Linux でシステムオーディオ出力を取得する
以下のコマンドを実行して `pulseaudio``pavucontrol` をインストールします:
```bash
# Debian や Ubuntu など
sudo apt install pulseaudio pavucontrol
# CentOS など
sudo yum install pulseaudio pavucontrol
```
次に実行:
まずターミナルで以下を実行してください:
```bash
pactl list short sources
```
以下のような出力があれば設定は成功です:
以下のような出力が確認できれば追加設定は不要です:
```bash
220 alsa_output.pci-0000_02_02.0.3.analog-stereo.monitor PipeWire s16le 2ch 48000Hz SUSPENDED
221 alsa_input.pci-0000_02_02.0.3.analog-stereo PipeWire s16le 2ch 48000Hz SUSPENDED
```
それ以外の場合は、以下のコマンドで`pulseaudio``pavucontrol`をインストールしてください:
```bash
# Debian/Ubuntu系の場合
sudo apt install pulseaudio pavucontrol
# CentOS系の場合
sudo yum install pulseaudio pavucontrol
```
## ソフトウェアの使い方
### 設定の変更
@@ -106,7 +113,7 @@ pactl list short sources
### 字幕記録のエクスポート
字幕制御ウィンドウでは、現在収集されたすべての字幕の記録を見ることができます。「字幕記録をエクスポート」ボタンをクリックすると、字幕記録をJSONファイルとしてエクスポートできます。
エクスポート」ボタンをクリックすると、字幕記録を JSON または SRT ファイル形式で出力できます。
## 字幕エンジン