ニュース / News
お知らせ
提供中の「不満調査データセット」の辞書データを更新
国立情報学研究所 データセット共同利用研究開発センターの情報学研究データリポジトリ(IDR)では、株式会社Insight Tech(旧社名:株式会社不満買取センター)との提携により2017年2月から提供している「不満調査データセット」の辞書データを更新し、提供を開始しました。
※更新に伴い、データの名称を「不満カテゴリ辞書データ」から「カテゴリ別不満特徴語辞書」に変更いたしました。
今回の更新で、辞書データの作成元となる不満投稿に約8ヶ月分のデータが追加され、また単語を詳細な品詞で区別したことにより、辞書の単語エントリ数が約2倍に増加しました。
[カテゴリ別不満特徴語辞書]
Insight Techが運営しているwebサービス「不満買取センター」に2015年3月18日(サービス開始日)から2017年8月1日までに投稿されたデータのうち、特定カテゴリ下に投稿された約472万件より作成された、カテゴリごとに特徴的な単語を抽出した辞書データです。
本データに含まれるのは「カテゴリ」「単語」「単語の品詞情報」「単語のカテゴリ所属スコア」だけであり、特定の個人につながる情報は一切含まれていません。
提供するカテゴリは不満買取センターで運用されているカテゴリおよびサブカテゴリで、総務省の「日本標準産業分類」を参考に株式会社Insight Techがカスタマイズした体系であり、約190万単語について、TF-IDF、PMI(自己相互情報量)、SOA の3種類の特徴量抽出手法により算出されたスコアがついています。
[前回の提供版]
- 抽出対象期間:2015年3月18日-2016年12月1日
- 対象投稿数:約300万件
- 単語エントリ数:約95万件
[今回の更新版]
- 抽出対象期間:2015年3月18日-2017年8月1日
- 対象投稿数:約470万件
- 単語エントリ数:約190万件
提供データは今後も増やしていく予定です。研究に広くご活用いただければ幸いです。

NII Today No.106
NIIサービスニュース
国立情報学研究所 2025年度 概要
SINET広報サイト
ウェブサイト「軽井沢土曜懇話会アーカイブス」を公開
SINETStream 事例紹介:トレーラー型動物施設 [徳島大学 バイオイノベーション研究所]
情報研シリーズ これからの「ソフトウェアづくり」との向き合い方
学術研究プラットフォーム紹介動画
教育機関DXシンポ
高等教育機関におけるセキュリティポリシー