はじめに
タイトルの通り。
そろそろ AI で字幕作ったりと、YouTuber 活動にも繋がるようなことをしてみたかったので、手始めに Azure の Speech To Text を触ってみました。
お試し程度なので、とりあえず VSCode の拡張機能 REST Client で実験してみました。
コード
とりあえずコードだけ貼ります。
@region =
@subscriptionKey =
@contentUrl =
@transriptionId =
### Create Transcription
POST https://{{region}}.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions
Content-Type: application/json
Ocp-Apim-Subscription-Key: {{subscriptionKey}}
{
"contentUrls": [
"{{contentUrl}}"
],
"locale": "ja-JP",
"displayName": "Transcription Demo",
"model": null
}
### Get Transcription
GET https://{{region}}.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/{{transriptionId}}
Ocp-Apim-Subscription-Key: {{subscriptionKey}}
### Get Transcription Files
GET https://{{region}}.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/{{transriptionId}}/files
Ocp-Apim-Subscription-Key: {{subscriptionKey}}
細かい仕様は ドキュメント に超丁寧に書かれているので今回は割愛します (丸投げw)。
あくまで備忘のためなのでね。
ちなみに音声ファイルは Web に一般公開している URI から指定する方針にしました。
いずれは Azure Blob Service を使った方式に変えて、もう少し実用性のある形にしたいなぁと思ったりしてます。
終わりに
GitHub で公開するのが面倒だったので、備忘という建前のもとブログにコードを貼り付けてしまいました。
無精者ですが許してください。
もうちょっと色々遊べそうなので、何か出来上がれば更新します。
(今度はちゃんと GitHub 使います)