大量の不満投稿から作成した不満カテゴリーの辞書データを無償提供開始 テキストのカテゴリー分類に特化した容易な機械学習が可能に
株式会社不満買取センター(FKC、代表取締役社長:武石直人、東京都新宿区)と大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII、所長:喜連川 優、東京都千代田区)とは研究コミュニティーへの研究用データの提供で新たに提携(*1)し、NIIは2月27日より、FKCが運営するサービス「不満買取センター」(*2)に投稿された「不満」から作成された「不満カテゴリ辞書データ」の研究コミュニティーへの無償提供を始めました。FKCとNIIは昨年5月から、「不満買取センター」で買い取られた「不満」の投稿と投稿者のデータからなる「不満調査データ」の提供でも提携しており、「不満カテゴリ辞書データ」の提供はこれに続くものとなります。
今回提供するデータは、平成27年(2015年)3月18日から平成28年(2016年)12月1日までの間に投稿された「不満」のうち約300万件を対象に、特定のカテゴリーの不満の投稿に頻出する単語をカテゴリー別にまとめたデータです。「不満カテゴリ辞書データ」のカテゴリー体系は総務省の日本標準産業分類を参考にFKCがカスタマイズした体系で、今回は17カテゴリーのデータを提供します。本データに含まれるのは「カテゴリ」「単語」「単語のカテゴリ所属スコア」のみで、特定の企業や個人につながる情報や投稿者を特定できるような個人情報は一切含んでいません。
「不満カテゴリ辞書データ」は、NIIデータセット共同利用研究開発センター(センター長:NIIコンテンツ科学研究系教授・大山 敬三)の「情報学研究データリポジトリ(IDR)」を通じて提供されます。NIIでは平成22年(2010年)にIDRを設置し、様々な企業や機関が保有する各種データセットを受け入れて情報学分野の研究コミュニティーに提供を行ってきました。平成27年(2015年)4月、情報学研究に有用なデータセットを整備して研究者に提供するとともにデータセットの構築とその活用基盤に関する研究開発を行う同センターを新設。研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいます。
「不満カテゴリ辞書データ」提供の背景
近年、人工知能や機械学習の実務への導入が進んでおり、この動きは今後さらに活発化すると予想されます。テキストデータに対する機械学習の実務応用も進んでおり、その一例として、テキストデータの「自動カテゴリー分類」が挙げられます。しかし、「自動カテゴリー分類」のためには、テキストデータの収集と、個々のテキストの特徴に応じた「学習データ」の抽出を行なう必要があります。「不満カテゴリ辞書データ」を利用することで、テキストデータのカテゴリー分類を実施する機械学習モデルの作成を容易に行なえるようになります。
FKCは不満意見を利用したデータドリブンな意思決定による「不満のない社会の創出」を長期ビジョンにすえ、不満意見の収集により、不満意見を利用した意思決定や製品改善の支援を行なっています。「不満買取センター」サービスは一般生活者から最新の世相を反映した意見を収集しており、FKCでは、こうした特徴のある「不満」から機械学習のための「学習データ」を作成すれば、「自動カテゴリー分類」のための有用なデータになると考え、一般向けの公開を決めました。今回のデータ提供により、人工知能および自然言語処理の研究の発展に寄与できることを願っています。FKCは「不満のない社会の創出」実現のためには社会へのデータ還元が必要不可欠と考え、分析レポートの一般公開をはじめ、分析結果の社会へのデータ還元を実施しています。今後も、社会へのデータ還元の取り組みを一層強化していきます。
以上
(*1)「新たに提携」: 株式会社不満買取センターが情報・システム研究機構と本年2月1日付で「データ提供及び利用に関する契約書」を締結。
(*2)FKCが運営するサービス「不満買取センター」: http://fumankaitori.com/。27(2015年)3月に提供開始。世の中のあらゆる不満を1件1円~50円で買い取り、これまでに買い取られた「不満」の総数は550万件以上、累計会員数は35万人以上(本年2月27日時点)。平成年