【Word】Speech to Textを使って音声ファイルから英語とその日本語訳の対訳テーブルを作成する方法

Ankiのカードを効率よく作成する方法がないかを模索中です。OCRを使った方法は別記事にまとめていますが、音声ファイル(英語とその日本語訳)からもうまいことAnkiカードが作れないかと色々調べています。無料かつ高精度で音声ファイルをアップロードして使える Speech to Text(以下、STT)がないかを探していたところ、Microsoft Wordの「トランスクリプト」が使えそうだったのでまとめておきます。

ちなみにこの記事では触れませんが、「ディクテーション」という機能もあります。こちらは、音声ファイルをアップロードして文字起こしするのではなく、Wordで直接録音しながら文字起こしする機能です。こちらも便利ですが、今回は音声ファイルを使いたいので割愛します。

 Microsoft Wordのトランスクリプト

以下が公式サイトのページです。

上のページには「注: この機能は現在、Word for the web でのみ使用できます。」と記載がありましたが、自分の環境では、デスクトップ版でも利用できました。

ただし、制約が一つあって、「Microsoft 365 サブスクリプションを持つユーザーは、トランスクリプト機能を使用して、アップロードされた音声を無制限にトランスクリプトを作成できるようになりました。」と記載がある通り、Microsoft 365 サブスクリプションを持たないユーザーは、1か月あたり300分の音声ファイルしか処理できないようです。(とはいえ、300分あれば十分な気もします。)

検証に使用したサンプル音声

とりあえず音声ファイルは何でもよいのですが、以下のファイルを使用しました。参考まで。
(本当にこの音声ファイル自体に意味はなく、ネットサーフィンしてたまたま見つけたものです)

STT手順

※Word for the webでの手順を示します。Word for the webはブラウザのアドレスバーに「word.new」と書いて実行したら起動します。

  1. Word for the webを起動し、「ディクテーション」にある「トランスクリプト」をクリックします。

    ちなみに、デスクトップ版では以下のような表示でした。
  2. トランスクリプトのパネルが表示されるので、言語を「日本語(日本)」にし、「音声をアップロード」ボタンを押下します。
  3. ダイアログが表示されるので、音声ファイルを選択してアップロードします。
  4. 音声ファイルからテキストが抽出されます。(時間をクリックすると該当箇所が再生できます。)
    ドキュメントに追加」ボタンを押下します。
  5. テキストのみ」を選択すると、テキストがページに転記されます。
  6. 今度は言語を「英語(米国)」にして実行します。(操作は2~5と同じです)
  7. 下記のようにテキストが転記されます。
  8. ChatGPTかBing AIチャットを開き、「これから送るテキストからフルセンテンスの英文とその日本語訳を抜き出して、テーブル形式で出力してください。」みたいに書いてから、7のテキストをペーストします。これで対訳テーブルが得られます。


    対訳テーブルは得られましたが、英文、日本語訳ともに完璧ではないと思いますので後はご自分で編集してください。(↑のテーブルにも不要な行が入ってますね。)
    回答が途中で切れている場合には、「続けて」と依頼すればよいです。また、余計なテキストが含まれると回答の精度が落ちるので、下記のように不要な行をざっくり削除してからペーストするとよいです。

今回は日本語→英語の順で文字起こししましたが、英語→日本語でもよいです(その場合はテーブルの列が逆になるかも)し、AIに依頼する内容もお好みで変えてもらってOKです。今回のはあくまでも例です。

今回は1つの音声ファイルで実行しましたが、複数の音声ファイルを全部くっつけて1つの音声ファイルに結合してからアップロードした方が効率的かもしれません。その場合、AIでの回答は1往復では終わらないと思いますが、あとは試行錯誤あるのみです。

ちなみにアップロードした音声ファイルはOne Driveの「トランスクリプト ファイル」というフォルダに格納されます。

参考

タイトルとURLをコピーしました