Category Archives: Big Data

GoogleのリアルタイムビッグデータツールDremelがオープンソース化してApache Drillへ [ #opencloudjp ]

Googleには、今さら言うまでもなく、大量のデータがあり、それらを扱うためのツールを数多く作ってきた。中でもとくに有力な製品として、MapReduceやGoogleFSはオープンソースのApache Hadoopを生み、BigTableはApache HBaseを孵(かえ)した。でも、それで終わりではない。同社はその後もビッグデータを処理するためのツールを作り続け、それらに関する論文やドキュメントを次々と公開してきた。中でもDremelは、GoogleFSとBigTableに保存されている巨大なデータ集合のクェリを高速化する。Hadoop上のMapReduceのバッチジョブで数時間あるいは数日かかる処理も、Dremelではほとんど一瞬で結果が得られる*。〔*: Dremel, ホビー用の万能電動工具。〕そのDremelをオープンソース化する取り組みが、Apache Drillだ。

link

BigDataの活用動向 その2-データ活用技術- [ #opencloudjp ]

近年BigDataやその活用用途に注目が集まっている要因として、収集したデータを蓄積・処理する技術の進歩が果たした役割は大きい。処理や蓄積を行うCPUや、ハードディスクといったハードウェアがより安価に、より高性能に発達している事に加え、ソフトウェアに関しても、特にMapReduceやHadoopなどの大規模並列分散処理の技術が発達した事で、これまでデータが大きすぎて扱えなかったペタバイトクラスのデータが容易に扱えるようになった。 MapReduceやHadoopについては“分散データセンターとクラウド技術 その3-並列分散処理基盤「Hadoop」について-(2011.06.20)”の回を参照して欲しい。RDB(Relational DataBase)とHadoopの違いについては表を再掲しておく……

http://www.bcm.co.jp/itxp/2012/07/cat04/23000000.php

Facebook が発表した Folly は、宝石のような オープンソース C++ ライブラリなのだ! [ #opencloudjp ]

Facebook の Folly(愚行)って、中年の危機みたいな名前をヨットにつけるようで、なかなかイカしていない? しかし、それは、スピードと使い易さを考慮し、また、既存の C++ ライブラリとのインターオペラビリティも実現する、大規模な C++ ユーティリティーなのである。この、再利用が可能な C++ ライブラリのコレクションは、Facebook エンジニアの要求を満たすために、インハウスで開発されたものである。これまでに、Cassandra/HipHop/Thrift などをオープンソース化してきたように、Facebook のデベロッパーたちは、この Folly をオープンソース・ソフトウェアの領域に置いた。

http://wp.me/pwo1E-4hA

オープンソースの分散データベース「Apache Cassandra 1.1」公開 [ #opencloudjp ]

The Apache Software Foundationは4月24日(米国時間)、分散データベースの最新版となる「Apache Cassandra 1.1」を公開した。Cassandraはきわめて高いスケーラビリティを実現できるキー・バリューストア型のNoSQLデータベース。DynamoとGoogle BigTableの双方の技術を活用しており、大規模サイトで活用されている。

http://news.mynavi.jp/news/2012/04/27/008/

なぜ「キー・バリュー型データストア」が注目されるのか [ #opencloudjp ]

クラウドに欠かせないのがスケーラビリティ、つまり大量の処理への対応です。そのためには、大量のマシンに処理を分散させる「スケールアウト」の方法が使われます。扱うデータの形式も、分散処理にふさわしい「キー・バリュー(key-value)」が主流です。前回で解説した「MapReduce」もkeyとvalue形式でデータを扱いますし、データベースにも「分散キー・バリュー型データストア」(以下単にkey-valueストアと呼ぶ)という技術が採用されるようになりつつあります。Googleの「BigTable」もそうです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384806/

MapR社およびインフォマティカ、ビッグデータの統合と分析に向け、共同サポートを発表 [ #opencloudp ]

米国カリフォルニア州サンノゼおよびレッドウッドシティ発 - 2012年3月5日 - Apache Hadoop の次世代ディストリビューション ベンダーであるMapR Technologies社(本社: 米国カリフォルニア州サンノゼ、以下MapR社)と、データ インテグレーション ソリューションにおける独立系リーディングプロバイダーInformatica Corporation(本社: 米国カリフォルニア州レッドウッドシティ、NASDAQ: INFA、以下「インフォマティカ」)は本日、Informatica PlatformでMapR社のHadoopディストリビューションを共同でサポートすることを発表しました。

http://www.news1st.jp/index.php?s=28&item=2233

MapReduceにチャレンジしよう [ #cbajp ]

今回はいよいよ、MapReduceを使ってデータ処理を実践してみます。その前にまず、MapReduceの仕組みを大まかに理解しておきましょう。 Hadoopの特徴の一つは、「並列処理可能な小さなタスクに分割し、空いたCPUに順次割り当てる」という点です。どんなに台数が多くても、全体の処理を独立した小さなタスクに分割して並行処理することで、CPUなどの資源を効率的に使うことができるというものです。この仕組みを実現しているのが、MapReduceです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384805/

Hadoopって何がすごいの [ #opencloudjp ]

Hadoopは、普及品のPCサーバーを多数つなげて、莫大な情報を処理できるようにしたオープンソース・ソフトウエアです。Yahoo!やFacebookなどのWebサービスの開発者が多数、Hadoopの開発に参加していて、これらの企業によって実際に活用されています。 本連載ではまず、いま熱い視線を集めているHadoopを実際に触っていくことで、Webサービスを支えている「大規模データ処理」を体験していきます。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384802/

富士通、ビッグデータ向け「Hadoopパッケージ」を販売開始 [ #opencloudjp ]

富士通は2012年2月27日、ビッグデータ活用に向けたパッケージ製品「Interstage Big Data Parallel Processing Server V1.0」を販売開始した。4月末から提供する。オープンソースの分散処理ソフト「Apache Hadoop」を組み込んだバッチ処理基盤であり、「独自の分散ファイルシステムを採用して、性能と信頼性を高めた」(クラウドプラットフォーム開発本部の芳賀豊 DI技術開発室長)。 Hadoopで一般に使われるHDFS(Hadoop Distributed File System)の代わりに、独自の分散ファイルシステムを使用。マスターサーバーからスレーブサーバーに対して効率的にジョブを割り当てることなどで、「HDFSに比べて5~10倍のI/O性能を実現した」(芳賀室長)。

http://itpro.nikkeibp.co.jp/article/NEWS/20120227/383122/?ST=security

とっても ラブラブな Linux と Big Data [ #opencloudjp ]

Big Data のトレンドについて、誰もが束の間の栄光だと思うだろが、それとは反対の、いくつかの新しい証明が出てきた。Linux  Foundation における最新の調査に対して、回答を寄せてきた IT-Pro とデベロッパーの 75% が、この Big Data 現象に注目している。

http://wp.me/pwo1E-3Sb