業績要因の抽出に「ディープラーニング」を活用
──ところで、テキストマイニングはAIの発展によって進化を遂げたといわれますが、「CEES」もAIを活用しているのですか。
私が「CEES」の開発に着手したのは5年くらい前のことですが、元になった技術は10年以上前に開発しました。当時は今ほどAIという言葉は注目されていませんでしたが、研究を重ねる過程で機械学習やブートストラップ手法といった手法を使った部分はあります。
──そもそも、どのような手法で開発したのですか。
決算短信は「短信」といっても何十ページにも及びます。その中から「業績要因を含む文」を特定して抽出しなければならないわけですが、これは一筋縄ではいきません。ひと口に「業績要因を含む文」いってもいろいろな表現がありますから。業績が向上したことを示す表現だけでも「○○が増加した」「○○が前年度を上回った」「○○が伸長した」「○○が堅調に推移した」など無数にあるわけです。
そこで、私は少数のキーワードを入れると、コンピュータがそれに類する言葉を自動的に拾っていくプログラムをつくりました。
最初にまず「○○が好調」という言葉を入力し、コンピュータに「○○」に入る表現を取り出すよう命じるわけです。すると、コンピュータは「売上げ(が好調)」「受注(が好調)」など何十通りもの表現を取り出します。
そして次に、それら、新たに取り出してきた表現を使って、例えば「売上げ(が増加)」のような、さらに新しい表現を取り出します。つまり、「売上げが○○」「受注が○○」の「○○」に入る表現を探し出してくるわけです。コンピュータはこれを延々繰り返します。そうして最終的に業績が向上したことを示す表現を多く取り出すわけです。
──先生は「○○が好調」という表現を入力しただけで、あとはコンピュータが自動的に処理していくと。
そういうことです。その意味ではこれもAIを活用したといえるかもしれません。
──AIを使えば何でも簡単にできてしまいそうですね。
いえいえ、そんなことはありません。このときも試行錯誤を繰り返しました。例えば最初のころは、あまり適切とはいえない表現まで拾ってしまうことが多かったんですね。その表現は業績の要因を意味しないだろうと。そうすると、その表現を手がかりに新しい表現を拾ってくるので、どんどんノイズを拾ってずれていってしまうわけです。
そこで、ノイズ、つまり不適切な表現を除去するフィルターの強度を高め、適切な表現のみ拾うように改善しました。ただ、今度は表現を絞り込み過ぎてしまい、適切な表現をも除去してしまいます。より多くの業績要因を抽出できるように改良する過程で、昨今注目されている「ディープラーニング」を活用しました。
──AIを飛躍的に進化させたといわれる最先端技術ですね。
はい、まずは単に「○○が好調」ではなく、「○○が大変好調」という具合に強い表現にして入力します。これによって業績要因の抽出数は低下しますが、精度が高まります。そうして抽出された業績要因を学習データとし、ディープラーニングを使って学習させ、業績要因文かどうかを判定させたわけです。これによって、業績要因の抽出数がぐんと上がりました。現在、公開してる「CEES」は、このディープラーニングを使って改良されたバージョンになります。