【Word】Speech to Textを使って音声ファイルから英語とその日本語訳の対訳テーブルを作成する方法

Ankiのカードを効率よく作成する方法がないかを模索中です。OCRを使った方法は別記事にまとめていますが、音声ファイル（英語とその日本語訳）からもうまいことAnkiカードが作れないかと色々調べています。無料かつ高精度で音声ファイルをアップロードして使える Speech to Text（以下、STT）がないかを探していたところ、Microsoft Wordの「トランスクリプト」が使えそうだったのでまとめておきます。

ちなみにこの記事では触れませんが、「ディクテーション」という機能もあります。こちらは、音声ファイルをアップロードして文字起こしするのではなく、Wordで直接録音しながら文字起こしする機能です。こちらも便利ですが、今回は音声ファイルを使いたいので割愛します。

Microsoft Wordのトランスクリプト
検証に使用したサンプル音声
STT手順
参考

Microsoft Wordのトランスクリプト

以下が公式サイトのページです。

録音を文字起こしする

上のページには「注: この機能は現在、Word for the web でのみ使用できます。」と記載がありましたが、自分の環境では、デスクトップ版でも利用できました。

ただし、制約が一つあって、「Microsoft 365 サブスクリプションを持つユーザーは、トランスクリプト機能を使用して、アップロードされた音声を無制限にトランスクリプトを作成できるようになりました。」と記載がある通り、Microsoft 365 サブスクリプションを持たないユーザーは、1か月あたり300分の音声ファイルしか処理できないようです。（とはいえ、300分あれば十分な気もします。）

検証に使用したサンプル音声

とりあえず音声ファイルは何でもよいのですが、以下のファイルを使用しました。参考まで。
（本当にこの音声ファイル自体に意味はなく、ネットサーフィンしてたまたま見つけたものです）

語学書音声ダウンロード
にある「今すぐ使えて、会話がはずむ今日のタメ口英語」から「2-21_「～ってこと」のyou mean.mp3」

STT手順

※Word for the webでの手順を示します。Word for the webはブラウザのアドレスバーに「word.new」と書いて実行したら起動します。

Word for the webを起動し、「ディクテーション」にある「トランスクリプト」をクリックします。

ちなみに、デスクトップ版では以下のような表示でした。
トランスクリプトのパネルが表示されるので、言語を「日本語(日本)」にし、「音声をアップロード」ボタンを押下します。
ダイアログが表示されるので、音声ファイルを選択してアップロードします。
音声ファイルからテキストが抽出されます。（時間をクリックすると該当箇所が再生できます。）
「ドキュメントに追加」ボタンを押下します。
「テキストのみ」を選択すると、テキストがページに転記されます。
今度は言語を「英語(米国)」にして実行します。（操作は2～5と同じです）
下記のようにテキストが転記されます。
ChatGPTかBing AIチャットを開き、「これから送るテキストからフルセンテンスの英文とその日本語訳を抜き出して、テーブル形式で出力してください。」みたいに書いてから、7のテキストをペーストします。これで対訳テーブルが得られます。

対訳テーブルは得られましたが、英文、日本語訳ともに完璧ではないと思いますので後はご自分で編集してください。（↑のテーブルにも不要な行が入ってますね。）
回答が途中で切れている場合には、「続けて」と依頼すればよいです。また、余計なテキストが含まれると回答の精度が落ちるので、下記のように不要な行をざっくり削除してからペーストするとよいです。