Webデータレポート

株式会社ルーターのデータレポートブログです

健康食品の「成分ランキング」を作ってみる

私達は日常的にweb上の面白そうなデータを収集、分析しています。なんとなくの想像で思ってることも、実際に集計すると違って見えます。今回は健康食品の「成分ランキング」です。

 

健康食品には成分のブームがあります。コラーゲンとか、プロポリスとか。厳密に成分に分解すると、タンパク質とか脂質とかになるので、消費者がラベルとして認識する粒度の成分のワードがあります。

 

楽天の健康食品ランキングを対象にする

楽天の健康食品ランキングTOP100を対象にします。詳細ページには、成分表示もあるのですが、粒度が細かすぎる。健康食品のショップは当然、成分でSEOをかけようとしますから、検索エンジンに見てもらいたい領域を対象に集計します。

集計に良さそうなタグを選択

可能性としては

  • title
  • keywords
  • discription

の3つの領域がありますが、kyewordはSEOの影響がわかりにくいからか、ビッグワードが多すぎます。discriptionはユーザに読ませる文章なので形態素解析をしっかりしないとダメ。最終的には新語も対象にしたいので、辞書が必要な分析は避けたい。titleタグは、いつの時代も検索エンジンに見てもらうのに大事なので、検索ワードに近い形で、フレーズが分かち書きされています。ここを対象に集計をしていました。

集計結果

キーワード
楽天市場 100
送料無料 29
ノンカフェイン 13
ダイエット 12
健康茶 12
ルイボスティー 11
Healthy 10
Natural 10
Standard 10
たんぽぽ茶 10
楽天24 10
楽天24 10
タンポポ 8
特定保健用食品 8
healthya_sale 7
kao1105 7
あす楽対応 7
ティーライフshop 7
自然食品 7
RCP 6
お茶 6
プラセンタ 6
HLS_DU 5
P27Mar15 5
サントリー 5
たんぽぽ 5
ハーブティー 5
ヘルシア 5
ヘルシア緑茶 5
マタニティー 5
健康食品 5
酵素 5

今回の集計ではたんぽぽ茶の勢いが強いということがわかります。TOP100 のタイトルタグから抽出したので、「楽天市場」が100個あるというランキングになっています。あとはショップ名が入っていることも多いです。店舗名などをストップワードとして、ランキングから排除すれば、新語含めた健康食品のランキングが作れそうです。

今後の展開

タイトルタグから形態素解析を使うことなく特徴語抽出するというのは、まじめにSEOを意識したサイトを対象にする上では十分に使えそうです。