Category Archives: Big Data

GoogleのリアルタイムビッグデータツールDremelがオープンソース化してApache Drillへ [ #opencloudjp ]

Googleには、今さら言うまでもなく、大量のデータがあり、それらを扱うためのツールを数多く作ってきた。中でもとくに有力な製品として、MapReduceやGoogleFSはオープンソースのApache Hadoopを生み、BigTableはApache HBaseを孵(かえ)した。でも、それで終わりではない。同社はその後もビッグデータを処理するためのツールを作り続け、それらに関する論文やドキュメントを次々と公開してきた。中でもDremelは、GoogleFSとBigTableに保存されている巨大なデータ集合のクェリを高速化する。Hadoop上のMapReduceのバッチジョブで数時間あるいは数日かかる処理も、Dremelではほとんど一瞬で結果が得られる*。〔*: Dremel, ホビー用の万能電動工具。〕そのDremelをオープンソース化する取り組みが、Apache Drillだ。

link

Advertisements

BigDataの活用動向 その2-データ活用技術- [ #opencloudjp ]

近年BigDataやその活用用途に注目が集まっている要因として、収集したデータを蓄積・処理する技術の進歩が果たした役割は大きい。処理や蓄積を行うCPUや、ハードディスクといったハードウェアがより安価に、より高性能に発達している事に加え、ソフトウェアに関しても、特にMapReduceやHadoopなどの大規模並列分散処理の技術が発達した事で、これまでデータが大きすぎて扱えなかったペタバイトクラスのデータが容易に扱えるようになった。 MapReduceやHadoopについては“分散データセンターとクラウド技術 その3-並列分散処理基盤「Hadoop」について-(2011.06.20)”の回を参照して欲しい。RDB(Relational DataBase)とHadoopの違いについては表を再掲しておく……

http://www.bcm.co.jp/itxp/2012/07/cat04/23000000.php

Facebook が発表した Folly は、宝石のような オープンソース C++ ライブラリなのだ! [ #opencloudjp ]

Facebook の Folly(愚行)って、中年の危機みたいな名前をヨットにつけるようで、なかなかイカしていない? しかし、それは、スピードと使い易さを考慮し、また、既存の C++ ライブラリとのインターオペラビリティも実現する、大規模な C++ ユーティリティーなのである。この、再利用が可能な C++ ライブラリのコレクションは、Facebook エンジニアの要求を満たすために、インハウスで開発されたものである。これまでに、Cassandra/HipHop/Thrift などをオープンソース化してきたように、Facebook のデベロッパーたちは、この Folly をオープンソース・ソフトウェアの領域に置いた。

http://wp.me/pwo1E-4hA

オープンソースの分散データベース「Apache Cassandra 1.1」公開 [ #opencloudjp ]

The Apache Software Foundationは4月24日(米国時間)、分散データベースの最新版となる「Apache Cassandra 1.1」を公開した。Cassandraはきわめて高いスケーラビリティを実現できるキー・バリューストア型のNoSQLデータベース。DynamoとGoogle BigTableの双方の技術を活用しており、大規模サイトで活用されている。

http://news.mynavi.jp/news/2012/04/27/008/

なぜ「キー・バリュー型データストア」が注目されるのか [ #opencloudjp ]

クラウドに欠かせないのがスケーラビリティ、つまり大量の処理への対応です。そのためには、大量のマシンに処理を分散させる「スケールアウト」の方法が使われます。扱うデータの形式も、分散処理にふさわしい「キー・バリュー(key-value)」が主流です。前回で解説した「MapReduce」もkeyとvalue形式でデータを扱いますし、データベースにも「分散キー・バリュー型データストア」(以下単にkey-valueストアと呼ぶ)という技術が採用されるようになりつつあります。Googleの「BigTable」もそうです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384806/

MapR社およびインフォマティカ、ビッグデータの統合と分析に向け、共同サポートを発表 [ #opencloudp ]

米国カリフォルニア州サンノゼおよびレッドウッドシティ発 - 2012年3月5日 - Apache Hadoop の次世代ディストリビューション ベンダーであるMapR Technologies社(本社: 米国カリフォルニア州サンノゼ、以下MapR社)と、データ インテグレーション ソリューションにおける独立系リーディングプロバイダーInformatica Corporation(本社: 米国カリフォルニア州レッドウッドシティ、NASDAQ: INFA、以下「インフォマティカ」)は本日、Informatica PlatformでMapR社のHadoopディストリビューションを共同でサポートすることを発表しました。

http://www.news1st.jp/index.php?s=28&item=2233

MapReduceにチャレンジしよう [ #cbajp ]

今回はいよいよ、MapReduceを使ってデータ処理を実践してみます。その前にまず、MapReduceの仕組みを大まかに理解しておきましょう。 Hadoopの特徴の一つは、「並列処理可能な小さなタスクに分割し、空いたCPUに順次割り当てる」という点です。どんなに台数が多くても、全体の処理を独立した小さなタスクに分割して並行処理することで、CPUなどの資源を効率的に使うことができるというものです。この仕組みを実現しているのが、MapReduceです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384805/