こんにちは、ソリューション開発の若鶴です。
研究所ではチームコミュニケーションツールとしてMicrosoft Teamsを利用しています。
Microsoft Teamsにて2021年9月に、日本語のトランスクリプションを機能がリリースされました。
トランスクリプションとは文字書き起こしのことで、会議などでの音声を文章化する機能です。
さっそく試してみたので、使い方と精度をレポートしたいと思います。
Microsoft Teamsトランスクリプションの使い方
トランスクリプション機能の使い方を調べるにあたり、こちらの記事を参考にしました。
1. 会議をスケジューリングする
Microsoft teamsの会議をスケジューリングします。
PC、インターネット環境によっては、「今すぐ会議」から会議を始めると、トランスクリプション機能が使用できないこともあるようです。
2. 「トランスクリプションの開始」をクリックする
会議の設定画面で、右上「・・・」から「トランスクリプションの開始する」をクリックします。
クリックしたあとは、「トランスクリプションの開始」が「トランスクリプションの停止」に変更になります。
なお、トランススクリプションが表示されない場合は、「トランスクリプションの開始」の下の「トランスクリプションを表示する」をクリックします。
3. アドミン設定を変更する(「トランスクリプションの開始」がグレーアウトしている場合)
Microsoft teams会議の設定画面で「トランスクリプションの開始」ボタンがグレーアウトされている場合、
Teams Admin > Meeting > Meeting policiesにて”Allow transcriotion”の設定をonに変更します。
PC、インターネット環境によってはグレーアウトされることもあるようで、その際はAdmin権限を持つ人にご相談ください。
設定を変更するにあたり、こちらの記事が参考になると思います。
How to Enable Transcription in Microsoft Teams - All Things How
4. トランスクリプションの言語を変更する
初期設定では英語になっているため、トランスクリプションの設定で日本語に変更します。
5. トランスクリプションが開始されたことを、全員に知らせる
Teamsの上部に、「トランスクリプションが開始されました」と表示されます。
トランスクリプションを使用していることを、会議参加者に知らせましょう。
Microsoft Teamsトランスクリプションの精度判定
ここからは、トランスクリプション(文字書き起こし)の精度を見ていきます。
株式会社クレスコさんが次の3つの精度を測定していたので、同様の方法で測定してみました。
(1)IBM Watson Speech to Text (以下、Watson)
(2)Google Cloud Speech API (以下、Google)
(3)Microsoft Bing Speech API (以下、Bing)
評価1: 音声学に関する学会発表時の音声データを用いた評価
まずは、日本語話し言葉コーパスの模擬講演音声を用いて、単語認識率と単語正解率を算出しました。
【評価結果】
音声認識 サービス |
正解 | 誤り | 単語認識率 | 単語正解率 | ||
---|---|---|---|---|---|---|
脱落 | 置換 | 挿入 | (Correct) | (Accuracy) | ||
Microsoft Teams | 117 | 2 | 6 | 1 | 93.4% | 92.8% |
株式会社クレスコが同じ音声データで測定したところ、Googleの精度がもっともよく、
- 単語認識率 ... 88.80%
- 単語正解率 ... 87.20%
ですので、株式会社クレスコが記事を作成した時点(2017年12月)の他の音声認識ソフトと比べて、精度が高いです。
【認識結果】
テキストの概要 | 認識結果 |
---|---|
音声書き起こし 正解データ |
パラ 言語 情報 という こと な ん です が 簡単 に 最初 に 復習 を し て おき たい と 思い ます まあ あの こう やっ て 話し て おり ます と それ は もちろん あの 言語 的 情報 を 伝える という こと が 一つ の 重要 な 目的 で なん で あり ます が 同時に パラ 言語 情報 そして 非 言語 情報 が 伝わっ て おり ます まっ この 三 分 法 は 藤崎 先生 による もの でし て パラ 言語 情報 という の は 要は 意図 的 に 制御 できる 話者 が ちゃんと コントロール し て 出し てる ん だ けども 言語 情報 と 違っ て 連続 的 に 変化 する から カテゴライズ する こと が やや 難しい そういった 状況 で あり ます |
Microsoft Teams | 言語 情報 という こと な ん です が 簡単 に 最初 に ええ 復習 を し て おき たい と 思い ます まあ あの こう やっ て 話し て おり ます と それ は もちろん あの 言語 的 情報 を 伝える という こと が ひとつ の 重要 な 目的 なん で あり ます が 同時に 多 言語 情報 そして 非 言語 情報 が 伝わっ て おり ます まあ 此の 散 文 方 は 藤崎 先生 による もの でし て パラ 言語 情報 という の は 要は 意図 的 に 制御 できる 話者 が ちゃんと コントロール し て 出し てる ん だ けども 言語 情報 と 違っ て 連続 的 に 変化 する だから カテゴライズ する こと が やや 難しい そういった 状況 で あり ます |
評価2: 模擬講演音声のサンプルによる評価
まずは、日本語話し言葉コーパスの模擬講演音声を用いて、単語認識率と単語正解率を算出しました。
【評価結果】
音声認識 サービス |
正解 | 誤り | 単語認識率 | 単語正解率 | ||
---|---|---|---|---|---|---|
脱落 | 置換 | 挿入 | (Correct) | (Accuracy) | ||
Microsoft Teams | 97 | 9 | 6 | 5 | 86.6% | 82.1% |
株式会社クレスコが同じ音声データで測定したところ、Watsonの精度がもっともよく、
- 単語認識率 ... 83.20%
- 単語正解率 ... 83.06%
ですので、株式会社クレスコが記事を作成した時点(2017年12月)の他の音声認識ソフトと比べて、精度が比較的高めです。
※ 正解データが「まぁ」で音声認識データ「まあ」の場合は、今回は不正解と判定しており、厳しめの判定かと思われます。
【認識結果】
テキストの概要 | 認識結果 |
---|---|
音声書き起こし 正解データ |
それから 最後 に 司法 判断 裁判 の 結果 です ね それ に対する 不信 という もの も 感じ た 記憶 が あり ます それ は どういう こと か って いう と まぁ 先 ほど 言い まし た よう に その 先生 方 対応 さ れ た 先生 方 は 一 人 ぐらい 例外 が あっ た よう な 気 が し ます けども みんな おしなべて 有罪 判決 を 受け た それ は まぁ しょうが ない でしょ う で 送っ た 側 です ね 親 が どう で あっ て も 一 人 も 責任 を 問わ れ なかっ た それ が 非常 に 僕 は 不思議 な 気 が し まし た ね |
Microsoft Teams | それから 最後 に 司法 判断 裁判 の 結果 です ね それ に対する 不信 という もの も 感じ た 記憶 が あり ます それ は どういう こと か と いう と まあ 先 ほど 言い ました よう に その 先生 方 対応 さ れ た ら そういう 方 は 1人 ぐらい 例外 が あっ た よう な 気 が し ます けども みんな 押し並べて 有罪 判決 を 受け た それ は まあ しょうが ない でしょ ドクター 側 です ね 親 は どう だった と1人 も これは 責任 を 寝取ら れ なかっ た それ が 非常 に 僕 は 不思議 な 気 が し まし た ね |
おわりに
いかがだったでしょうか?
Microsoft Teamsでのオンライン会議で議事録を作成する場合、非常に便利なツールです。 皆さんぜひ試してみてください!!
参考リンク
[随時更新]Microsoft Teamsでweb会議中にリアルタイム書き起こし(日本語)機能がリリースされたのでまとめてみた - Qiita
What’s New in Microsoft Teams | August 2021 - Microsoft Tech Community
How to Enable Transcription in Microsoft Teams - All Things How