feat(engine): 添加GLM-ASR语音识别引擎支持

- 新增GLM-ASR云端语音识别引擎实现 - 扩展配置界面添加GLM相关参数设置 - Ollama支持自定义域名和Apikey以支持云端和其他LLM - 修改音频处理逻辑以支持新引擎 - 更新依赖项和构建配置 - 修复Ollama翻译功能相关问题
2026-02-04 04:14:42 +08:00 · 2026-01-10 16:02:24 +08:00
parent 383e582a2d
commit 0825e48902
19 changed files with 519 additions and 91 deletions
--- a/engine/main.py
+++ b/engine/main.py
@@ -8,6 +8,7 @@ from utils import merge_chunk_channels, resample_chunk_mono
 from audio2text import GummyRecognizer
 from audio2text import VoskRecognizer
 from audio2text import SosvRecognizer
+from audio2text import GlmRecognizer
 from sysaudio import AudioStream


@@ -74,7 +75,7 @@ def main_gummy(s: str, t: str, a: int, c: int, k: str, r: bool, rp: str):
    engine.stop()


-def main_vosk(a: int, c: int, vosk: str, t: str, tm: str, omn: str, r: bool, rp: str):
+def main_vosk(a: int, c: int, vosk: str, t: str, tm: str, omn: str, ourl: str, okey: str, r: bool, rp: str):
    """
    Parameters:
        a: Audio source: 0 for output, 1 for input
@@ -83,14 +84,16 @@ def main_vosk(a: int, c: int, vosk: str, t: str, tm: str, omn: str, r: bool, rp:
        t: Target language
        tm: Translation model type, ollama or google
        omn: Ollama model name
+        ourl: Ollama Base URL
+        okey: Ollama API Key
        r: Whether to record the audio
        rp: Path to save the recorded audio
    """
    stream = AudioStream(a, c)
    if t == 'none':
-        engine = VoskRecognizer(vosk, None, tm, omn)
+        engine = VoskRecognizer(vosk, None, tm, omn, ourl, okey)
    else:
-        engine = VoskRecognizer(vosk, t, tm, omn)
+        engine = VoskRecognizer(vosk, t, tm, omn, ourl, okey)

    engine.start()
    stream_thread = threading.Thread(
@@ -106,7 +109,7 @@ def main_vosk(a: int, c: int, vosk: str, t: str, tm: str, omn: str, r: bool, rp:
    engine.stop()


-def main_sosv(a: int, c: int, sosv: str, s: str, t: str, tm: str, omn: str, r: bool, rp: str):
+def main_sosv(a: int, c: int, sosv: str, s: str, t: str, tm: str, omn: str, ourl: str, okey: str, r: bool, rp: str):
    """
    Parameters:
        a: Audio source: 0 for output, 1 for input
@@ -116,14 +119,16 @@ def main_sosv(a: int, c: int, sosv: str, s: str, t: str, tm: str, omn: str, r: b
        t: Target language
        tm: Translation model type, ollama or google
        omn: Ollama model name
+        ourl: Ollama API URL
+        okey: Ollama API Key
        r: Whether to record the audio
        rp: Path to save the recorded audio
    """
    stream = AudioStream(a, c)
    if t == 'none':
-        engine = SosvRecognizer(sosv, s, None, tm, omn)
+        engine = SosvRecognizer(sosv, s, None, tm, omn, ourl, okey)
    else:
-        engine = SosvRecognizer(sosv, s, t, tm, omn)
+        engine = SosvRecognizer(sosv, s, t, tm, omn, ourl, okey)

    engine.start()
    stream_thread = threading.Thread(
@@ -139,16 +144,54 @@ def main_sosv(a: int, c: int, sosv: str, s: str, t: str, tm: str, omn: str, r: b
    engine.stop()


+def main_glm(a: int, c: int, url: str, model: str, key: str, s: str, t: str, tm: str, omn: str, ourl: str, okey: str, r: bool, rp: str):
+    """
+    Parameters:
+        a: Audio source
+        c: Chunk rate
+        url: GLM API URL
+        model: GLM Model Name
+        key: GLM API Key
+        s: Source language
+        t: Target language
+        tm: Translation model
+        omn: Ollama model name
+        ourl: Ollama API URL
+        okey: Ollama API Key
+        r: Record
+        rp: Record path
+    """
+    stream = AudioStream(a, c)
+    if t == 'none':
+        engine = GlmRecognizer(url, model, key, s, None, tm, omn, ourl, okey)
+    else:
+        engine = GlmRecognizer(url, model, key, s, t, tm, omn, ourl, okey)
+    
+    engine.start()
+    stream_thread = threading.Thread(
+        target=audio_recording,
+        args=(stream, True, r, rp),
+        daemon=True
+    )
+    stream_thread.start()
+    try:
+        engine.translate()
+    except KeyboardInterrupt:
+        stdout("Keyboard interrupt detected. Exiting...")
+    engine.stop()
+
+
+
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Convert system audio stream to text')
    # all
    parser.add_argument('-e', '--caption_engine', default='gummy', help='Caption engine: gummy or vosk or sosv')
-    parser.add_argument('-a', '--audio_type', default=0, help='Audio stream source: 0 for output, 1 for input')
-    parser.add_argument('-c', '--chunk_rate', default=10, help='Number of audio stream chunks collected per second')
-    parser.add_argument('-p', '--port', default=0, help='The port to run the server on, 0 for no server')
-    parser.add_argument('-d', '--display_caption', default=0, help='Display caption on terminal, 0 for no display, 1 for display')
+    parser.add_argument('-a', '--audio_type', type=int, default=0, help='Audio stream source: 0 for output, 1 for input')
+    parser.add_argument('-c', '--chunk_rate', type=int, default=10, help='Number of audio stream chunks collected per second')
+    parser.add_argument('-p', '--port', type=int, default=0, help='The port to run the server on, 0 for no server')
+    parser.add_argument('-d', '--display_caption', type=int, default=0, help='Display caption on terminal, 0 for no display, 1 for display')
    parser.add_argument('-t', '--target_language', default='none', help='Target language code, "none" for no translation')
-    parser.add_argument('-r', '--record', default=0, help='Whether to record the audio, 0 for no recording, 1 for recording')
+    parser.add_argument('-r', '--record', type=int, default=0, help='Whether to record the audio, 0 for no recording, 1 for recording')
    parser.add_argument('-rp', '--record_path', default='', help='Path to save the recorded audio')
    # gummy and sosv
    parser.add_argument('-s', '--source_language', default='auto', help='Source language code')
@@ -157,20 +200,24 @@ if __name__ == "__main__":
    # vosk and sosv
    parser.add_argument('-tm', '--translation_model', default='ollama', help='Model for translation: ollama or google')
    parser.add_argument('-omn', '--ollama_name', default='', help='Ollama model name for translation')
+    parser.add_argument('-ourl', '--ollama_url', default='', help='Ollama API URL')
+    parser.add_argument('-okey', '--ollama_api_key', default='', help='Ollama API Key')
    # vosk only
    parser.add_argument('-vosk', '--vosk_model', default='', help='The path to the vosk model.')
    # sosv only
    parser.add_argument('-sosv', '--sosv_model', default=None, help='The SenseVoice model path')
+    # glm only
+    parser.add_argument('-gurl', '--glm_url', default='https://open.bigmodel.cn/api/paas/v4/audio/transcriptions', help='GLM API URL')
+    parser.add_argument('-gmodel', '--glm_model', default='glm-asr-2512', help='GLM Model Name')
+    parser.add_argument('-gkey', '--glm_api_key', default='', help='GLM API Key')

    args = parser.parse_args()
-    if int(args.port) == 0:
-        shared_data.status = "running"
-    else:
-        start_server(int(args.port))
-    
-    if int(args.display_caption) != 0:
+
+    if args.port != 0:
+        threading.Thread(target=start_server, args=(args.port,), daemon=True).start()
+
+    if args.display_caption == '1':
        change_caption_display(True)
-        print("Caption will be displayed on terminal")

    if args.caption_engine == 'gummy':
        main_gummy(
@@ -179,7 +226,7 @@ if __name__ == "__main__":
            int(args.audio_type),
            int(args.chunk_rate),
            args.api_key,
-            True if int(args.record) == 1 else False,
+            bool(int(args.record)),
            args.record_path
        )
    elif args.caption_engine == 'vosk':
@@ -190,7 +237,9 @@ if __name__ == "__main__":
            args.target_language,
            args.translation_model,
            args.ollama_name,
-            True if int(args.record) == 1 else False,
+            args.ollama_url,
+            args.ollama_api_key,
+            bool(int(args.record)),
            args.record_path
        )
    elif args.caption_engine == 'sosv':
@@ -202,7 +251,25 @@ if __name__ == "__main__":
            args.target_language,
            args.translation_model,
            args.ollama_name,
-            True if int(args.record) == 1 else False,
+            args.ollama_url,
+            args.ollama_api_key,
+            bool(int(args.record)),
+            args.record_path
+        )
+    elif args.caption_engine == 'glm':
+        main_glm(
+            int(args.audio_type),
+            int(args.chunk_rate),
+            args.glm_url,
+            args.glm_model,
+            args.glm_api_key,
+            args.source_language,
+            args.target_language,
+            args.translation_model,
+            args.ollama_name,
+            args.ollama_url,
+            args.ollama_api_key,
+            bool(int(args.record)),
            args.record_path
        )
    else: