Ma/auto-caption

Fork 0

mirror of https://github.com/HiMeditator/auto-caption.git synced 2026-02-04 04:14:42 +08:00

Files

himeditator 1b7ff33656 feat(docs): 更新项目文档和图片

2025-07-29 23:20:15 +08:00

9.5 KiB

Raw Permalink Blame History

auto-caption

Auto Caption はクロスプラットフォームのリアルタイム字幕表示ソフトウェアです。

| 简体中文 | English | 日本語 |

v0.6.0 バージョンがリリースされ、字幕エンジンコードが大規模にリファクタリングされ、コードの拡張性が向上しました。より多くの字幕エンジンの開発が試みられています...

📥 ダウンロード

GitHub Releases

📚 関連ドキュメント

Auto Caption ユーザーマニュアル

字幕エンジン説明ドキュメント

プロジェクト API ドキュメント（中国語）

更新履歴

📖 基本使い方

このソフトウェアはWindows、macOS、Linuxプラットフォームに対応しています。テスト済みのプラットフォーム情報は以下の通りです：

OS バージョン	アーキテクチャ	システムオーディオ入力	システムオーディオ出力
Windows 11 24H2	x64	✅	✅
macOS Sequoia 15.5	arm64	✅ 追加設定が必要	✅
Ubuntu 24.04.2	x64	✅	✅
Kali Linux 2022.3	x64	✅	✅
Kylin Server V10 SP3	x64	✅	✅

macOSおよびLinuxプラットフォームでシステムオーディオ出力を取得するには追加設定が必要です。詳細はAuto Captionユーザーマニュアルをご覧ください。

阿里雲の国際版サービスでは Gummy モデルを提供していないため、現在中国以外のユーザーは Gummy 字幕エンジンを使用できません。

デフォルトの Gummy 字幕エンジン（クラウドベースのモデルを使用した音声認識と翻訳）を使用するには、まず阿里雲百煉プラットフォームから API KEY を取得する必要があります。その後、API KEY をソフトウェア設定に追加するか、環境変数に設定します（Windows プラットフォームのみ環境変数からの API KEY 読み取りをサポート）。関連チュートリアル：

Vosk モデルの認識精度は低いため、注意してご使用ください。

Vosk ローカル字幕エンジンを使用するには、まず Vosk Models ページから必要なモデルをダウンロードし、ローカルに解凍した後、モデルフォルダのパスをソフトウェア設定に追加してください。現在、Vosk 字幕エンジンは字幕の翻訳をサポートしていません。

上記の字幕エンジンがご要望を満たさず、かつ Python の知識をお持ちの場合、独自の字幕エンジンを開発することも可能です。詳細な説明は字幕エンジン説明書をご参照ください。

✨ 特徴

クロスプラットフォーム、多言語 UI サポート
豊富な字幕スタイル設定
柔軟な字幕エンジン選択
多言語認識と翻訳
字幕記録の表示とエクスポート
オーディオ出力またはマイク入力からの字幕生成

⚙️ 字幕エンジン説明

現在ソフトウェアには2つの字幕エンジンが組み込まれており、1つの新しいエンジンを計画中です。詳細は以下の通りです。

Gummy 字幕エンジン（クラウド）

Tongyi Lab の Gummy 音声翻訳大規模モデルをベースに開発され、Alibaba Cloud Bailian の APIを使用してこのクラウドモデルを呼び出します。

モデル詳細パラメータ：

サポートするオーディオサンプルレート：16kHz以上
オーディオサンプルビット深度：16bit
サポートするオーディオチャンネル：モノラル
認識可能な言語：中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、イタリア語、スペイン語
サポートする翻訳：
- 中国語 → 英語、日本語、韓国語
- 英語 → 中国語、日本語、韓国語
- 日本語、韓国語、ドイツ語、フランス語、ロシア語、イタリア語、スペイン語 → 中国語または英語

ネットワークトラフィック消費量：

字幕エンジンはネイティブサンプルレート（48kHz と仮定）でサンプリングを行い、サンプルビット深度は 16bit、アップロードオーディオはモノラルチャンネルのため、アップロードレートは約：


48000\ \text{samples/second} \times 2\ \text{bytes/sample} \times 1\ \text{channel}  = 93.75\ \text{KB/s}

また、エンジンはオーディオストームを取得したときのみデータをアップロードするため、実際のアップロードレートはさらに小さくなる可能性があります。モデル結果の返信トラフィック消費量は小さく、ここでは考慮していません。

Vosk字幕エンジン（ローカル）

vosk-api をベースに開発されています。現在は音声に対応する原文の生成のみをサポートしており、翻訳コンテンツはサポートしていません。

FunASR字幕エンジン（ローカル）

可能であれば、FunASR をベースに開発予定です。まだ調査と実現可能性の検証を行っていません。

🚀 プロジェクト実行

依存関係のインストール

npm install

字幕エンジンの構築

まず engine フォルダに入り、以下のコマンドを実行して仮想環境を作成します（Python 3.10 以上が必要で、Python 3.12 が推奨されます）：

# ./engine フォルダ内
python -m venv subenv
# または
python3 -m venv subenv

次に仮想環境をアクティブにします：

# Windows
subenv/Scripts/activate
# Linux または macOS
source subenv/bin/activate

次に依存関係をインストールします（このステップでは macOS と Linux でエラーが発生する可能性があります。通常はビルド失敗によるもので、エラーメッセージに基づいて対処する必要があります）：

# Windows
pip install -r requirements_win.txt
# macOS
pip install -r requirements_darwin.txt
# Linux
pip install -r requirements_linux.txt

Linux システムで samplerate モジュールのインストールに問題が発生した場合、以下のコマンドで個別にインストールを試すことができます：

pip install samplerate --only-binary=:all:

その後、pyinstaller を使用してプロジェクトをビルドします：

pyinstaller ./main.spec

main-vosk.spec ファイル内の vosk ライブラリのパスが正しくない可能性があるため、実際の状況（Python 環境のバージョンに関連）に応じて設定する必要があります。

# Windows
vosk_path = str(Path('./subenv/Lib/site-packages/vosk').resolve())
# Linux または macOS
vosk_path = str(Path('./subenv/lib/python3.x/site-packages/vosk').resolve())

これでプロジェクトのビルドが完了し、engine/dist フォルダ内に対応する実行可能ファイルが確認できます。その後、次の操作に進むことができます。

プロジェクト実行

npm run dev

プロジェクト構築

# Windows 用
npm run build:win
# macOS 用
npm run build:mac
# Linux 用
npm run build:linux

注意: プラットフォームに応じて、プロジェクトルートディレクトリにある electron-builder.yml ファイルの設定内容を変更する必要があります:

extraResources:
  # Windows 用
  - from: ./engine/dist/main.exe
    to: ./engine/main.exe
  # macOS と Linux 用
  # - from: ./engine/dist/main
  #   to: ./engine/main

9.5 KiB Raw Permalink Blame History Unescape Escape