Category Archives: Big Data

GoogleのリアルタイムビッグデータツールDremelがオープンソース化してApache Drillへ [ #opencloudjp ]

Posted on August 19, 2012 by osnewsj2 | Leave a comment

Googleには、今さら言うまでもなく、大量のデータがあり、それらを扱うためのツールを数多く作ってきた。中でもとくに有力な製品として、MapReduceやGoogleFSはオープンソースのApache Hadoopを生み、BigTableはApache HBaseを孵（かえ）した。でも、それで終わりではない。同社はその後もビッグデータを処理するためのツールを作り続け、それらに関する論文やドキュメントを次々と公開してきた。中でもDremelは、GoogleFSとBigTableに保存されている巨大なデータ集合のクェリを高速化する。Hadoop上のMapReduceのバッチジョブで数時間あるいは数日かかる処理も、Dremelではほとんど一瞬で結果が得られる*。〔*: Dremel, ホビー用の万能電動工具。〕そのDremelをオープンソース化する取り組みが、Apache Drillだ。

link

Leave a comment

Posted in Apache, Big Data, Google, Open Source, Trends

BigDataの活用動向その２－データ活用技術－ [ #opencloudjp ]

Posted on July 23, 2012 by osnewsj2 | Leave a comment

近年BigDataやその活用用途に注目が集まっている要因として、収集したデータを蓄積・処理する技術の進歩が果たした役割は大きい。処理や蓄積を行うCPUや、ハードディスクといったハードウェアがより安価に、より高性能に発達している事に加え、ソフトウェアに関しても、特にMapReduceやHadoopなどの大規模並列分散処理の技術が発達した事で、これまでデータが大きすぎて扱えなかったペタバイトクラスのデータが容易に扱えるようになった。 MapReduceやHadoopについては“分散データセンターとクラウド技術　その３－並列分散処理基盤「Hadoop」について－（2011.06.20）”の回を参照して欲しい。RDB（Relational DataBase）とHadoopの違いについては表を再掲しておく……

http://www.bcm.co.jp/itxp/2012/07/cat04/23000000.php

Leave a comment

Posted in Big Data, Database, Hadoop, Mahout, Open Source, Pentaho, R, RDB

Facebook が発表した Folly は、宝石のようなオープンソース C++ ライブラリなのだ！ [ #opencloudjp ]

Posted on June 6, 2012 by osnewsj2 | Leave a comment

Facebook の Folly（愚行）って、中年の危機みたいな名前をヨットにつけるようで、なかなかイカしていない？しかし、それは、スピードと使い易さを考慮し、また、既存の C++ ライブラリとのインターオペラビリティも実現する、大規模な C++ ユーティリティーなのである。この、再利用が可能な C++ ライブラリのコレクションは、Facebook エンジニアの要求を満たすために、インハウスで開発されたものである。これまでに、Cassandra／HipHop／Thrift などをオープンソース化してきたように、Facebook のデベロッパーたちは、この Folly をオープンソース･ソフトウェアの領域に置いた。

http://wp.me/pwo1E-4hA

Leave a comment

Posted in Big Data, Development, Facebook

オープンソースの分散データベース「Apache Cassandra 1.1」公開 [ #opencloudjp ]

Posted on April 30, 2012 by osnewsj2 | Leave a comment

The Apache Software Foundationは4月24日(米国時間)、分散データベースの最新版となる「Apache Cassandra 1.1」を公開した。Cassandraはきわめて高いスケーラビリティを実現できるキー・バリューストア型のNoSQLデータベース。DynamoとGoogle BigTableの双方の技術を活用しており、大規模サイトで活用されている。

http://news.mynavi.jp/news/2012/04/27/008/

Leave a comment

Posted in Big Data

なぜ「キー・バリュー型データストア」が注目されるのか [ #opencloudjp ]

Posted on March 16, 2012 by osnewsj2 | Leave a comment

クラウドに欠かせないのがスケーラビリティ、つまり大量の処理への対応です。そのためには、大量のマシンに処理を分散させる「スケールアウト」の方法が使われます。扱うデータの形式も、分散処理にふさわしい「キー・バリュー（key-value）」が主流です。前回で解説した「MapReduce」もkeyとvalue形式でデータを扱いますし、データベースにも「分散キー・バリュー型データストア」（以下単にkey-valueストアと呼ぶ）という技術が採用されるようになりつつあります。Googleの「BigTable」もそうです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384806/

Leave a comment

Posted in Big Data

MapR社およびインフォマティカ、ビッグデータの統合と分析に向け、共同サポートを発表 [ #opencloudp ]

Posted on March 15, 2012 by osnewsj2 | Leave a comment

米国カリフォルニア州サンノゼおよびレッドウッドシティ発－ 2012年3月5日－ Apache Hadoop の次世代ディストリビューションベンダーであるMapR Technologies社（本社: 米国カリフォルニア州サンノゼ、以下MapR社）と、データインテグレーションソリューションにおける独立系リーディングプロバイダーInformatica Corporation（本社: 米国カリフォルニア州レッドウッドシティ、NASDAQ: INFA、以下「インフォマティカ」）は本日、Informatica PlatformでMapR社のHadoopディストリビューションを共同でサポートすることを発表しました。

http://www.news1st.jp/index.php?s=28&item=2233

Leave a comment

Posted in Big Data

MapReduceにチャレンジしよう [ #cbajp ]

Posted on March 15, 2012 by osnewsj2 | Leave a comment

今回はいよいよ、MapReduceを使ってデータ処理を実践してみます。その前にまず、MapReduceの仕組みを大まかに理解しておきましょう。　Hadoopの特徴の一つは、「並列処理可能な小さなタスクに分割し、空いたCPUに順次割り当てる」という点です。どんなに台数が多くても、全体の処理を独立した小さなタスクに分割して並行処理することで、CPUなどの資源を効率的に使うことができるというものです。この仕組みを実現しているのが、MapReduceです。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384805/

Leave a comment

Posted in Big Data

Hadoopって何がすごいの [ #opencloudjp ]

Posted on March 12, 2012 by osnewsj2 | Leave a comment

Hadoopは、普及品のPCサーバーを多数つなげて、莫大な情報を処理できるようにしたオープンソース・ソフトウエアです。Yahoo!やFacebookなどのWebサービスの開発者が多数、Hadoopの開発に参加していて、これらの企業によって実際に活用されています。　本連載ではまず、いま熱い視線を集めているHadoopを実際に触っていくことで、Webサービスを支えている「大規模データ処理」を体験していきます。

http://itpro.nikkeibp.co.jp/article/COLUMN/20120306/384802/

Leave a comment

Posted in Big Data

富士通、ビッグデータ向け「Hadoopパッケージ」を販売開始 [ #opencloudjp ]

Posted on February 28, 2012 by osnewsj2 | Leave a comment

富士通は2012年2月27日、ビッグデータ活用に向けたパッケージ製品「Interstage Big Data Parallel Processing Server V1.0」を販売開始した。4月末から提供する。オープンソースの分散処理ソフト「Apache Hadoop」を組み込んだバッチ処理基盤であり、「独自の分散ファイルシステムを採用して、性能と信頼性を高めた」（クラウドプラットフォーム開発本部の芳賀豊 DI技術開発室長）。　Hadoopで一般に使われるHDFS（Hadoop Distributed File System）の代わりに、独自の分散ファイルシステムを使用。マスターサーバーからスレーブサーバーに対して効率的にジョブを割り当てることなどで、「HDFSに比べて5～10倍のI/O性能を実現した」（芳賀室長）。

http://itpro.nikkeibp.co.jp/article/NEWS/20120227/383122/?ST=security

Leave a comment

Posted in Big Data, Fujitsu