SpeechToText, S2T - たれぱんのびぼーろく

Google STT library: googleapis/nodejs-speech (npm@google-cloud/speech)
認証は環境変数

types
- 同期認識: content フィールド (base64), ~ 1 min
- 非同期認識: uri フィールド (Google Cloud Storage URI) ~ 480 min
- ストリーミング認識, ~ 5 min

$env:GOOGLE_APPLICATION_CREDENTIALS="path\to\credentials.json"

raw data & preprocessing

元データ: .m4a
GoogleSTT 用に.flac 化

ffmpeg -i input.m4a -f flac output.flac

切り方
原始的だけど、audacity のトラック分離出力を手動.

Google S2Tでも日本語専門用語はこけまくって役に立たなかった.
音源をぶつ切りにしてリスクヘッジすることが必要.