たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

SpeechToText, S2T

Google STT library: googleapis/nodejs-speech (npm@google-cloud/speech)
認証は環境変数

  • types
    • 同期認識: content フィールド (base64), ~ 1 min
    • 非同期認識: uri フィールド (Google Cloud Storage URI) ~ 480 min
    • ストリーミング認識, ~ 5 min
$env:GOOGLE_APPLICATION_CREDENTIALS="path\to\credentials.json"

raw data & preprocessing

元データ: .m4a
GoogleSTT 用に.flac

ffmpeg -i input.m4a -f flac output.flac

切り方
原始的だけど、audacity のトラック分離出力を手動.

practical

Google S2Tでも日本語専門用語はこけまくって役に立たなかった.
音源をぶつ切りにしてリスクヘッジすることが必要.