9.8 KiB
auto-caption
Auto Caption はクロスプラットフォームのリアルタイム字幕表示ソフトウェアです。
バージョン v0.5.1 がリリースされました。現在の Vosk ローカル字幕エンジンは性能が低く、翻訳機能も含まれていません。より優れた字幕エンジンを開発中です...
📥 ダウンロード
📚 関連ドキュメント
📖 基本使い方
このソフトウェアはWindows、macOS、Linuxプラットフォームに対応しています。テスト済みのプラットフォーム情報は以下の通りです:
| OS バージョン | アーキテクチャ | システムオーディオ入力 | システムオーディオ出力 |
|---|---|---|---|
| Windows 11 24H2 | x64 | ✅ | ✅ |
| macOS Sequoia 15.5 | arm64 | ✅ 追加設定が必要 | ✅ |
| Ubuntu 24.04.2 | x64 | ✅ | ✅ |
| Kali Linux 2022.3 | x64 | ✅ | ✅ |
| Kylin Server V10 SP3 | x64 | ✅ | ✅ |
macOSおよびLinuxプラットフォームでシステムオーディオ出力を取得するには追加設定が必要です。詳細はAuto Captionユーザーマニュアルをご覧ください。
阿里雲の国際版サービスでは Gummy モデルを提供していないため、現在中国以外のユーザーは Gummy 字幕エンジンを使用できません。
デフォルトの Gummy 字幕エンジン(クラウドベースのモデルを使用した音声認識と翻訳)を使用するには、まず阿里雲百煉プラットフォームから API KEY を取得する必要があります。その後、API KEY をソフトウェア設定に追加するか、環境変数に設定します(Windows プラットフォームのみ環境変数からの API KEY 読み取りをサポート)。関連チュートリアル:
Vosk モデルの認識精度は低いため、注意してご使用ください。
Vosk ローカル字幕エンジンを使用するには、まず Vosk Models ページから必要なモデルをダウンロードし、ローカルに解凍した後、モデルフォルダのパスをソフトウェア設定に追加してください。現在、Vosk 字幕エンジンは字幕の翻訳をサポートしていません。
上記の字幕エンジンがご要望を満たさず、かつ Python の知識をお持ちの場合、独自の字幕エンジンを開発することも可能です。詳細な説明は字幕エンジン説明書をご参照ください。
✨ 特徴
- クロスプラットフォーム、多言語 UI サポート
- 豊富な字幕スタイル設定
- 柔軟な字幕エンジン選択
- 多言語認識と翻訳
- 字幕記録の表示とエクスポート
- オーディオ出力またはマイク入力からの字幕生成
⚙️ 字幕エンジン説明
現在ソフトウェアには2つの字幕エンジンが組み込まれており、1つの新しいエンジンを計画中です。詳細は以下の通りです。
Gummy 字幕エンジン(クラウド)
Tongyi Lab の Gummy 音声翻訳大規模モデルをベースに開発され、Alibaba Cloud Bailian の APIを使用してこのクラウドモデルを呼び出します。
モデル詳細パラメータ:
- サポートするオーディオサンプルレート:16kHz以上
- オーディオサンプルビット深度:16bit
- サポートするオーディオチャンネル:モノラル
- 認識可能な言語:中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、イタリア語、スペイン語
- サポートする翻訳:
- 中国語 → 英語、日本語、韓国語
- 英語 → 中国語、日本語、韓国語
- 日本語、韓国語、ドイツ語、フランス語、ロシア語、イタリア語、スペイン語 → 中国語または英語
ネットワークトラフィック消費量:
字幕エンジンはネイティブサンプルレート(48kHz と仮定)でサンプリングを行い、サンプルビット深度は 16bit、アップロードオーディオはモノラルチャンネルのため、アップロードレートは約:
48000\ \text{samples/second} \times 2\ \text{bytes/sample} \times 1\ \text{channel} = 93.75\ \text{KB/s}
また、エンジンはオーディオストームを取得したときのみデータをアップロードするため、実際のアップロードレートはさらに小さくなる可能性があります。モデル結果の返信トラフィック消費量は小さく、ここでは考慮していません。
Vosk字幕エンジン(ローカル)
vosk-api をベースに開発されています。現在は音声に対応する原文の生成のみをサポートしており、翻訳コンテンツはサポートしていません。
FunASR字幕エンジン(ローカル)
可能であれば、FunASR をベースに開発予定です。まだ調査と実現可能性の検証を行っていません。
🚀 プロジェクト実行
依存関係のインストール
npm install
字幕エンジンの構築
まず caption-engine フォルダに入り、以下のコマンドを実行して仮想環境を作成します:
# ./caption-engine フォルダ内
python -m venv subenv
# または
python3 -m venv subenv
次に仮想環境をアクティブにします:
# Windows
subenv/Scripts/activate
# Linux または macOS
source subenv/bin/activate
次に依存関係をインストールします(このステップは失敗する可能性があります、通常はビルド失敗が原因です - エラーメッセージに基づいて対応するツールパッケージをインストールする必要があります):
# Windows
pip install -r requirements_win.txt
# macOS
pip install -r requirements_darwin.txt
# Linux
pip install -r requirements_linux.txt
Linuxシステムでsamplerateモジュールのインストールに問題が発生した場合、以下のコマンドで個別にインストールを試すことができます:
pip install samplerate --only-binary=:all:
その後、pyinstaller を使用してプロジェクトをビルドします:
pyinstaller ./main-gummy.spec
pyinstaller ./main-vosk.spec
main-vosk.spec ファイル内の vosk ライブラリのパスが正しくない可能性があるため、実際の状況に応じて設定する必要があります。
# Windows
vosk_path = str(Path('./subenv/Lib/site-packages/vosk').resolve())
# LinuxまたはmacOS
vosk_path = str(Path('./subenv/lib/python3.x/site-packages/vosk').resolve())
これでプロジェクトのビルドが完了し、caption-engine/dist フォルダ内に対応する実行可能ファイルが確認できます。その後、次の操作に進むことができます。
プロジェクト実行
npm run dev
プロジェクト構築
現在、ソフトウェアは Windows と macOS プラットフォームでのみ構築とテストが行われており、Linux プラットフォームでの正しい動作は保証できません。
# Windows 用
npm run build:win
# macOS 用
npm run build:mac
# Linux 用
npm run build:linux
注意: プラットフォームに応じて、プロジェクトルートディレクトリにある electron-builder.yml ファイルの設定内容を変更する必要があります:
extraResources:
# Windows用
- from: ./caption-engine/dist/main-gummy.exe
to: ./caption-engine/main-gummy.exe
- from: ./caption-engine/dist/main-vosk.exe
to: ./caption-engine/main-vosk.exe
# macOSとLinux用
# - from: ./caption-engine/dist/main-gummy
# to: ./caption-engine/main-gummy
# - from: ./caption-engine/dist/main-vosk
# to: ./caption-engine/main-vosk


