Замена Vosk на Whisper: WebSocket, faster-whisper и другие решения для self-host

Pavel P

12.11.2025 15:32

ChatGPT сказал:

Думал на протяжении 41s

Коротко: «как в Vosk по WebSocket, только на Whisper» делается тремя рабочими путями:

локально через faster-whisper (Python, CTranslate2, есть квазистриминг);

локально через whisper.cpp (есть готовый WS/HTTP сервер);

облачный провайдер со стримингом (если не критичен self-host).

Ниже даю самый практичный способ — WebSocket-сервер на Python + faster-whisper с браузерным PCM-стримом (16 kHz mono, int16). Это максимально похоже на ваш Vosk-сетап.

Вариант A. WebSocket + faster-whisper (self-host)

1) Клиент (браузер): снимаем микрофон → 16 kHz PCM16 → WebSocket

a. Подключаем AudioWorklet, чтобы сразу отдать на сервер «сырые» 16-битные фреймы.

public/pcm16-worklet.js

class PCM16Processor extends AudioWorkletProcessor { constructor() { super(); this.targetRate = 16000; this._resampleBuffer = []; this._srcRate = sampleRate; // системная частота, напр. 48000 this._ratio = this._srcRate / this.targetRate; this._acc = 0; }

process(inputs) { const input = inputs[0]; if (!input || !input[0]) return true;

}}

registerProcessor('pcm16-processor', PCM16Processor);

b. Инициализация в приложении:

const ws = new WebSocket('wss://YOUR_HOST:2700/stt'); // ваш порт/путьws.binaryType = 'arraybuffer';

await audioContext.audioWorklet.addModule('/pcm16-worklet.js');const stream = await navigator.mediaDevices.getUserMedia({ audio: true });const source = audioContext.createMediaStreamSource(stream);const node = new AudioWorkletNode(audioContext, 'pcm16-processor');

node.

port.onmessage = (e) => { if (ws.readyState === 1) ws.send(e.data); // raw PCM16LE};

ws.

onopen = () => { // «приветствие» как в vosk: meta-json перед бинарными фреймами ws.send(JSON.stringify({ op: 'start', format: 'pcm16le', rate: 16000, channels: 1, lang: 'ru' })); source.connect(node).connect(audioContext.destination); // dest можно не подключать, если не нужно эхо};

ws.

onmessage = (e) => { // сервер шлёт JSON с partial/final const msg = JSON.parse(e.data); if (msg.type === 'partial') console.log('PARTIAL:', msg.text); if (msg.type === 'final') console.log('FINAL :', msg.text, msg.ts, msg.te);};

Если у вас уже есть свой AudioWorklet под Vosk — можно оставить его, лишь поменяв частоту/формат на 16 kHz PCM16 и протокол шины.

2) Сервер (Python): WebSocket, буферизация, «квазистриминг» на faster-whisper

Установка:

python -m venv .venv && source .venv/bin/activatepip install faster-whisper websockets numpy webrtcvad uvloop# Для GPU: pip install ctranslate2>=4.0 && поставьте CUDA/cuDNN; faster-whisper сам его использует# Скачайте модель при первом старте: tiny / base / small / medium / large-v3

Сервер server.py:

import asyncio, json, numpy as np, websockets, webrtcvad, timefrom faster_whisper import WhisperModel

MODEL_SIZE =

"small" # баланс: tiny/base/small/medium/large-v3DEVICE = "cuda" # "cpu" или "cuda"COMPUTE_TYPE = "auto" # для GPU: "float16" / "int8_float16"CHUNK_MS = 100 # длина входного фрейма (как на клиенте)WINDOW_SEC = 8.0 # длина скользящего окна для расшифровкиSTEP_SEC = 2.0 # как часто запускать инференсSAMPLE_RATE = 16000

model = WhisperModel(MODEL_SIZE, device=DEVICE, compute_type=COMPUTE_TYPE)vad = webrtcvad.Vad(

2) # 0..3, выше — строже к шуму

async def transcribe_session(ws): buf = np.zeros(0, dtype=np.int16) last_infer = 0.0 started = False

async for msg in ws: # первые сообщения могут быть JSON (метаданные) if isinstance(msg, (str, bytes)) and isinstance(msg, str): try: meta = json.loads(msg) if meta.get("op") == "start": started = True await ws.send(json.dumps({"type":"ready"})) continue except Exception: pass # далее ожидаем бинарные PCM16LE чанки if isinstance(msg, (bytes, bytearray)): pcm = np.frombuffer(msg, dtype=np.int16) # простая VAD-обрезка тишины по краям чанка (опционально) frame_bytes = pcm.tobytes() is_speech = vad.is_speech(frame_bytes[:320*2], SAMPLE_RATE) if len(pcm) >= 320 else True if is_speech: buf = np.concatenate([buf, pcm]) now = time.time() if now - last_infer >= STEP_SEC and buf.size > 0: last_infer = now # ограничим окно max_samples = int(WINDOW_SEC * SAMPLE_RATE) if buf.size > max_samples: buf = buf[-max_samples:] # faster-whisper не «истинно» стримит, но быстро обрабатывает окно segments, info = model.transcribe( buf.astype(np.float32) / 32768.0, language="ru", vad_filter=True, beam_size=1, best_of=1, no_speech_threshold=0.6, condition_on_previous_text=False, word_timestamps=True ) # берём последнюю гипотезу как partial partial_text = "" ts, te = None, None for seg in segments: partial_text += seg.text ts, te = seg.start, seg.end await ws.send(json.dumps({ "type": "partial", "text": partial_text.strip(), "ts": ts, "te": te }))# на закрытие допрожимаем «финал»if buf.size > 0: segments, info = model.transcribe( buf.astype(np.float32) / 32768.0, language="ru", vad_filter=True, beam_size=1, best_of=1, condition_on_previous_text=False, word_timestamps=True ) final_text = "".join(seg.text for seg in segments).strip() if final_text: await ws.send(json.dumps({"type":"final","text":final_text}))

async def main(): async with websockets.serve(transcribe_session, host="0.0.0.0", port=2700, max_size=None): print("WS STT server on ws://0.0.0.0:2700/stt") await asyncio.Future()

if name == "main": try: import uvloop; uvloop.install() except Exception: pass asyncio.run(main())

Что важно знать про «стрим» в Whisper:

У «ванильного» Whisper нет настоящего онлайн-декодера как у Vosk/kaldi. Трюк — крутить скользящее окно (например 6–10 сек) и регулярно пересобирать гипотезу.

Для низкой задержки удерживайте WINDOW_SEC небольшим (6–8 сек), а STEP_SEC — 0.5–2 сек.

faster-whisper на GPU работает существенно быстрее; на CPU берите tiny/base/small и compute_type=int8.

Можно улучшить устойчивость через webrtcvad (как в примере) и/или post-VAD по RMS.

Вариант B. whisper.cpp с готовым сервером

Если нравится C++/без Python:

Сборка:

git clone https://github.com/ggerganov/whisper.cppcd whisper.cpp && make -j

Есть примеры examples/server (HTTP/WS) и examples/stream.Запускаете сервер с вашей моделью ggml/gguf, а браузер шлёт PCM16 по WS.

Плюсы: минимальные зависимости, быстрый запуск; Минусы: меньше гибкости по VAD/постобработке, чем в Python-стеке.

Советы по миграции с Vosk

Формат аудио: оставьте тот же протокол (JSON «start» → бинарные PCM16 чанки → «end»), просто поменяйте серверную часть на Whisper.

Части/partial: у Vosk они «настоящие», у Whisper — «пересобранные» по окну. Для UX покажите «серую» подсказку (partial), а «чёрным» финализируйте по паузе (VAD) или по закрытию utterance (silence ≥ 500–800 мс).

Язык: фиксируйте language="ru" (или autodetect для многоязычия, но это +латентность).

Таймкоды: берите word_timestamps=True в faster-whisper — удобно подсвечивать слова.

Диааризация: при необходимости добавьте pyannote.audio поверх PCM-стрима параллельно.

Если хочется прям «настоящий» realtime (низкая задержка <300 мс)

Это уже не Whisper в чистом виде. Либо используйте провайдеры со streaming ASR (Deepgram, AssemblyAI и т.п.), либо OpenAI-модели с realtime-интерфейсами (нужна отдельная интеграция и иной протокол). Для self-host — пока лучший компромисс именно через faster-whisper со скользящим окном.

Мини-чеклист продакшена

Транспорт: WS ping/pong, авто-reconnect, очереди при backpressure.

Ограничения: max сессий, max битрейт (16 kHz mono достаточно).

Безопасность: JWT в первом JSON (как у вас с Vosk), CORS/origins.

Логи/метрики: время до первого partial, WER/длина фраз, GPU util.

Горячая смена модели: tiny/base/small/medium по настройке комнаты.

Хочешь — адаптирую этот пример под твой текущий Vosk-клиент (у тебя уже есть AudioWorklet и JWT на сокете) и под твой деплой (GPU/CPU, systemd, Nginx proxy, wss).