自動抽出ツールを使う

大量のコンテンツがある場合には、一般に「エンティティ抽出」アプリケーションと呼ばれるツールを利用すれば、かなり時間の節約になるでしょう。ソフトウェアベースのソリューションはたいていそうですが、自動抽出ツールを使うと作業の8割までは完了します。ソフトウェアが出力した用語を制限語彙の候補とすることもできますが、それでも多少は人による作業が必要です。出てきた用語が確かなものか確認する必要があるからです。また自動抽出ツールはかなり高額で、使いこなすためのトレーニングと調整も必要です。もう1つの入手によるアプローチは、コンテンツの著作者へのラベル提案の依頼が挙げられます。著作者に接触できるのならこの方法が役に立つでしょう。例えば、テクニカルレポートや白書を作成した企業のリサーチャーや、プレスリリースを執筆した広報の担当者に話を聞きます。しかし、著作者が自分の書いたコンテンツのラベル用に制限語彙から言葉を選んだとしても、注意が必要です。著作者は必ずしも「自分のドキュメントはたくさんあるうちのひとつに過ぎないのだ」と認識していないので、選ばれたラベルは明確さに欠けているかもしれません。それに、著作者はプロのインデクサーではありません。著作者が選んだラベルは割り引いて受け止め、精度は求めないようにしましょう。他の情報源同様、著作者からのラベルもまた「役立つラベル候補」として考えるべきで、それが最終形ではありません。

1月 4, 2021

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です