![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/pixta_33416818_M-1024x638.jpg)
あわせて読みたい
![](data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/pixta_27284998_M-300x202.jpg)
Googleドキュメントを使って音声データからテキスト自動入力
Googleドキュメントを使うと、パソコンで再生した音声データを使って、テキストを自動入力することができます。MacBook Air A1465のmacOS Catalinaの環境で試します。 …
前回の記事の続きです。Amazon Transcribe を使って音声データからのテキスト変換の精度を確認します。
目次
Amazon S3の設定
- この処理専用のバケットを作成します。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h47_45-1024x657.png)
- バケット名を決めて、それ以外はすべてデフォルトで作成します。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h49_43-1024x647.png)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h49_58-1024x656.png)
- 作成したバケットに音声データをアップロードします。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h50_55-1024x655.png)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h51_33-1024x657.png)
- 2つの音声データをアップロードします。
- 英語(Amazon Transcribeのチュートリアルのサンプルデータ)
- 日本語(先日、利用させていただいた 島田市立図書館様の よむ・きく・ラヂオ の朗読データ)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h55_00-1024x655.png)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h55_57-1024x656.png)
- 音声データのアップロードが完了しました。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h56_23-1024x655.png)
Amazon Transcribe での音声データのテキストデータへの変換作業
- Amazon Transcribe に移動して
- Create job をクリックします。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h56_58-1024x657.png)
- Jobの名前と、言語の種類を English に設定します。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_17h58_05-1024x665.png)
- 先ほど、S3にアップロードした変換対象の音声データを指定します。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h00_21-1024x664.png)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h01_12-1024x649.png)
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h02_19-1024x652.png)
- 音声データの指定が完了したら、Next をクリックします。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h03_01-1024x664.png)
- Option は何も設定せずに、Create job をクリックします。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h03_46-1024x662.png)
- 音声データからテキストデータへの変換作業が始まります。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h04_19-1024x373.png)
- 変換が完了しました。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h05_18-1024x420.png)
- テキストデータを確認します。
- Amazon Transcribeのチュートリアル用のサンプルデータなので、精度は素晴らしいです。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h05_48-1024x665.png)
- 次に日本語音声データを試します。
- 操作方法は、これまでと同様です。言語の種類を Japanese を設定するところが違うくらいです。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h06_51-1024x665.png)
- 変換結果を確認します。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h08_34-1024x440.png)
Googleドキュメントを使った音声入力より、精度は高いようです。
![](https://tech-blog.tomono.jp/wp/wp-content/uploads/2022/02/2022-02-10_18h31_03-1024x654.png)