ビックデータを体験する-準備編-Hiroaki's blog

ビックデータブームって

ビックデータブームって、一昔前のデータウェアハウスブームと同じような臭いがする。
で、こういったものは、とにかくデータがないと始まらない。分析しようと思ってからデータを集め始めても、遅いのだ。
とはいうものの、分析対象とするデータをいろいろと集めるのもシンドイ作業。手元にあるデータで手っ取り早く試してみたい。
もう1つの問題は、データをどこに集めるのかということ。集めるための大容量のサーバを用意すべきなんだろうけど、手軽に試すという範疇を超えてしまう。

Treasure Data

こういった問題を解決する方法があった。Hadoop-based Big Data as a Service on the Cloud | Treasure Dataというのがあり、容量の制限はあるものの、試してみることができる。
データは、syslogで収集しているものを使えばよい。とにかくまずは使ってみて、そこから何に適用できるかを考える。

td-agent

Treasure Dataに登録すると、そのままデータ登録・操作のプログラムのインストールとチュートリアルに進むようになっているので、その手順に従う。
td-agentは、乱暴に言うと、fluentdの安定版。従って、td-agentが提供されていないOSでは、fluentdを使う。他にも、fluent-agent-liteというのがあるけど、手軽に試してみる段階では考えなくてよさそう。

td-agent(fluentd)は

データを受け取って
フォーマットの整形とかして
保存先に送信する

ということをやる。今回は

データはsyslog
フォーマットの整形はなし
保存先はTreasure Data

とし、td-agent.conf(fluentd.conf)に設定を記述していく。

syslogからのデータ取得

td-agentは、syslogのようにデータを受け取ることが可能なので、

<source>
type syslog
port 5140
bind 127.0.0.1
tag td
</source>

のように記述しておくと、port 5140で動いているsyslogdのように見える。なので、syslogd.confに


*.*       @127.0.0.1:5140

と書いておくと、今のsyslogが受信している内容をすべてtd-agentに渡すことができる。

Treasure Dataへ保存

<match td.*.*>
  type tdlog
  apikey xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

  auto_create_table
  buffer_type file
  buffer_path /var/log/td-agent/buffer/td
  use_ssl true
  flush_interval 10s
</match>

と記述しておくと、自動でfacility名でデータベースを作り、priority名でテーブルを作ってくれる。

td-agentを起動してエラーが出てなければ、syslogdにシグナルを送ってsyslogd.confの再読み込みをさせて、準備OK。

td

Treasure Dataに保存したデータにアクセスするのが、tdコマンド。これについては、次回。

アフィリエイト

当ブログ「Hiroaki's blog」は、amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイト宣伝プログラムである、Amazonアソシエイト・プログラムの参加者です。
当ブログでは、第三者配信による広告サービスを利用しています。このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報 (氏名、住所、メールアドレス、電話番号は含まれません) を使用することがあります。このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、ここをクリックしてください。
アクセストレードアフィリエイトプログラムに参加しています。
A8.netアフィリエイトプログラムに参加しています。
バリューコマースアフィリエイトプログラムに参加しています。
もしもアフィリエイトプログラムに参加しています。

プライバシーポリシー

当サイトにアクセスされる場合、IPアドレスなどの情報または閲覧状況に関するデータが機械的に生成され、場合によっては個人情報と関連付けられる可能性があります。プライバシー保護に関する適用法に準じて、これらの通信および閲覧に関するデータを収集、処理、および利用することがあります。
当サイトにアクセスされる場合、非個人情報（ブラウザの種類、OSの種類、ドメイン名、訪問数、平均滞在時間、ページ・ビューなど個人を特定できない情報）が自動収集される場合があります。当サイトのパフォーマンスやコンテンツを改善する目的で、これらの情報を利用する場合があります。
アフィリエイトでは成果を把握するためにcookie等を利用しています。それ以外の目的で使用されることはありません。詳しくは各社のページにて確認してください。
本サイトに掲載する情報に関しては、正しいものを提供することを務めていますが、掲載内容から、いかなる損失や損害などの被害が発生しても、当ブログでは責任を追いかねます。

改正電気通信事業法に関する表記

・掲載内容

当サイトでは成果報酬型広告/クリック型広告の効果測定のため、利用者の方のアクセス情報を外部事業者に送信しております。
当該の情報は個人を特定する情報ではございません。また当該の情報が目的外利用される事は一切御座いません。

１．送信される情報の内容

広告の表示日時
広告のクリック日時
広告の計測に必要なクッキー情報
広告表示時及び広告クリック時のIPアドレス
広告表示時及び広告クリック時に使用されたインターネット端末およびインターネットブラウザの種類

２．送信先となる事業者の氏名又は名称

グーグル合同会社
楽天グループ株式会社
アマゾンジャパン合同会社
ヤフー株式会社
株式会社ファンコミュニケーションズ
株式会社もしも

３．利用目的

成果報酬型広告/クリック型広告の効果測定および不正防止のため

ビックデータを体験する-準備編

ビックデータブームって

Treasure Data

td-agent

syslogからのデータ取得

Treasure Dataへ保存

td

人気の投稿

ブログアーカイブ

自己紹介

アフィリエイト

プライバシーポリシー

改正電気通信事業法に関する表記

ビックデータを体験する-準備編

ビックデータブームって

Treasure Data

td-agent

syslogからのデータ取得

Treasure Dataへ保存

td

人気の投稿

ブログ アーカイブ

自己紹介

アフィリエイト

プライバシーポリシー

改正電気通信事業法に関する表記

ブログアーカイブ