2014年05月26日

データ・サイエンティストになるにはどうすべきか?

Big Data、analyticsとデータサイエンスという言葉は大流行だ。その定義も例も良く分からない。昨年analyticsの会社のinfochimps社のCEOのJim Kaskade氏に良く分からない状況をぶつけてみた。あまりにも初歩的、しかし皆が知りたいところを聞いてみた。ところで、infochimps社はこのインタビューの後CSC社によって買収された。元のインタビューは英文でもう少し詳細であるが、日本語版ではデータサイエンスの部分に特化して書き直している。

infochimps-1.jpg

Jim Kaskade氏

Analyticsを活用する前にすること
Infochimps社はBig Dataを収集してそれにanalyticsを適用して有益な情報を引き出すための製品とサービスを提供している。バッチであるHadoopによる解析の上にストリーム解析もStormを使用して行っている。ここで、質問。クライアントは様々な産業でデータの解析を行っている。同じシステムや解析アルゴリズムが普遍的に適用できるのだろうか。それぞれ、全てについて個々に設定しなければならないのではないのだろうか。

しかも、それぞれの産業やそれぞれの会社で必要されるデータや情報を理解するには、専門知識が必要ではないのか。そんなに多くの分野の専門家を抱えているのだろうか。更に、必要なデータを全て収集しているのだろうか。大体どのデータをどの程度集めればよいのか分かっているのだろうか。もし、新たなデータが必要なら、新たなコンピューターのハードやソフトが必要とされるかもしれない。こういったことも、infochimps社はまとめてサービスの中で提供するのであろうか。

これに対して、Kaskade氏 は以下の様に説明してくれた。 実際のサービスの流れは以下の図のようになる。

infochimps-2.gif

Analyticsを活用する際のプロセスの流れ

実際にどのような情報が必要かを話す前に、business discoveryと呼ばれるプロセスを経ることになる。このプロセスではビジネスに関する問題を話合う。これは、実際にカスタマーがビジネス上何をどの様に行うのかを議論して、どのような問題を解決しようとしているのかを話合う。

ビジネスを理解してから、解決しようとしている問題に必要な情報を話し合う。そして最後にこの2つのプロセスを基にアーキテクチャーを決定する。その辺りはBig Dataのインテグレーターが引き受ける。たとえば、新規でこれに特化した以下のインテグレータなどだ。ThinkBig Analytics、 Zaloniや Cloudwickまたは、大手の以下の様なSIだ。 CSC、Wipro、CapegeminiやAccentureだ。こう言ったインテグレーターはそれぞれバーティカルの市場への専門知識があり、広範な産業に適用することができる。更に、新たなコンピューターシステムが必要であればそれを指摘して、調達することも容易となる。

データサイエンティストになるには?
このインタビューの少し前のセッションで、Kaskade氏はD.J. Patil氏をインタビューして、どうしたらデータサイエンティストになれるかを聞いていた。 Patil氏はベンチャーキャピタルのGreylock Partnersのdata scientist in residenceで、Linkedinの以前のHead of Data Products、Chief ScientistとChief Security Officerを兼務していた。2人はデータサイエンティストに必要な資質に関して議論した。 でも、具体的にどうすれば良いのか。

infochimps-3.jpg

D.J. Patil氏 (左) とJim Kaskade氏 (右)

まずは、データサイエンティストになるにはどうすれば良いかと聞いてみた。そうしたら、このセッションで話合われたような具体性のないものであった。つまり、プログラミングの技を磨けとか、どんなことにでも興味を抱けだの、質問を多くしろとか。これでは具体性に欠ける。それで、もっと具体的に答えて貰えるようにお願いした。
そうすると以下の回答を得た。

HadoopとStorm をダウンロードしてインストール、Ironfanをオーケストレーションに使用
MapReduce、 PIG,、Hive,、WukongやTridentを使用して理解を深める
スクリプト言語のPython、 Rubyや PHPをマスターする
以下の簡単なanalyticsのアルゴリズムをマスターする。Naïve Bayes、logistic regression、linear regressionやhierarchical clustering。


大部分のものはオープンソースで無料で入手できる。さあ、もう言い訳はできない。貴方もデータサイエンティストにならないか?
posted by infogreen at 09:30| Comment(0) | ICTとエネルギー

2014年05月25日

サンフランシスコのITのコンシューマライゼーション・コンファレンスでPertinoをインタビューする

新たにビジネスを立ち上げるときは、どうやって名前を付けるだろうか。もちろん一般的には名前よりも、競争力のあるビジネスを構築する方が重要かもしれない。しかし、時としてよい名前はビジネスにとって好印象を与えるかもしれない。Pertinoはうまい具合に名づけられている。Cisco は“San Francisco” から“San Fran”を取り去って名付けられ、大成功を収めた。Pertinoのコファウンダーで以前のPacketeerのCEOのCraig Elliotと彼のチームは新しい会社を“Cupertino”から“Cu”を取って名づけた。ちなみに、Pertinoは以前Packeteer があったカリフォルニア州のCupertino市内で始まった。

筆者は常に面白い会社を求めてレーダーの感度を上げているつもりだが、この会社は見過ごしていた。CITEコンファレンスでインタビューする機会を得た。

pertino-1.jpg

現在まで2,900万ドル(約29億円)のベンチャーキャピタルの投資を受けている。内訳は、 (シリーズAで9億円、シリーズBで20億円). 日本ベースのJafco がシリーズBのリードを行った。このことで、Pertinoは将来インターナショナル規模で展開する用意があることがわかる。現在の人員は全体で60名程度で、そのうち35名程度は技術者という典型的なスタートアップ陣容である。スタートアップとは言え、ベータテストの際には5,000社が参加している。

VP Sales & Marketing のTodd Krautkremer氏がインタビューに応じてくれた。

pertino-2.jpg

Todd Krautkremer氏

手短にいうと、Pertinoの提供する技術はモバイル機器を使用してクラウドを介してオンデマンドでプライベートでセキュリティの度合いが高い(256-bit AES)ネットワークを形成することができる。モバイル機器にはモバイル電話、タブレットやその他を含む。現在はAndroidがサポートされており、iPhoneの版は現在開発中である。その他に以下の機器がサポートされている。

Windows 7/8 PCs
Windows 2008 R2 と2012 Servers
Mac OS X 107 とPCs と Servers
Linux servers
Android 4.3 とsmartphones とtablet


以下のダイアグラムは筆者が説明を受けながら、描いたものだ。現在Pertinoはもっと詳しい技術の説明書を作成しているとのことだ。

pertino-3.jpg

製品は2つのパーツから成り立つ。クライアント側とサーバー側だ。クライアント側のパーツはモバイル機器に搭載される。サーバー側のパーツはIaaSクラウドのプラットフォームに搭載される。Pertino は現在次のクラウド・プラットフォームを使用している。AWS, Rackspace, Digital MotionとLinode. 1つのクラウドに限らず複数のクラウドを利用している。それはカスタマーに近づけ遅延を削減するとか信頼性を増加するとかダイナミックに変化するコスト変化を利用するためだ。

Pertinoの製品は既に開発された製品を基にして成立している。

pertino-4.jpg

その使用方法は簡単であたかもLANスイッチにケーブルを繋ぐかのごときである。サーバー側の製品はsoftware-defined networking (SDN)の機能を含んでいる。SDNの機能があれば帯域やネットワークのルートをダイナミックに変更することができる。PerinoはSDNの機能に関しては Open Networking Foundation のメンバーとなっている。課金の方法は使用されるクライアント機器の数で決まる。

SDNの機能は更に次のように説明された。Pertino のプラットフォームはCloud Network Engine (CNE)と呼ばれ3つのコンポーネントから成立している。Control プレーンは人、機器、ポリシーとネットワーク・トポロジーを制御するもので、Data プレーンはユーザーの近くにありデータを送り出すコンポーネントである。Pertinoアプリはクライアントの機器に載せるソフトウエアであり、Control プレーンによって制御され、アプリに接続しているData プレーンにパケットをフォワードする。

Control プレーン (CNE コントローラー) とData プレーン(CNE vSwitch) は主なクラウド・ベンダー(AWS, Rackspace, Linodeや Digital Ocean)上の標準VM上で動作する。

Pertino はクラウド期の前までは考えられなかったことを成し遂げた。サーバー側のユーティリティを世界中に広く設置することが費用的にも工数的にも可能となった。クラウド期の前は、Pertinoのような製品はハードとソフトから成り立ち、ハードを自分の近郊以外に設置することは(ましてや、海外に)、費用的にみて不可能であった。ある種のハードの保守はオンラインでも可能だが、その他のことは、実際にサイトでなければできない。Pertinoの解は完全にソフトであり、その解はオンラインでどこへでも展開できる。全てはバーチャルなのだ。そのため、負荷やトラフィックの状況に応じてサーバー側のユーティリティは幾らでも、簡単に短時間で増強できる。逆にデマンドが下がれば、ユーティリティの力を下げることができる。つまり、まことに経済的な仕組みとなっている。

Pertinoの解をcapex と opex の観点からもう少し比較してみよう。

クラウド期以前:
自前のハードをそれぞれのデータセンターに設置する。それぞれのハードを今フィギュアー、アップデートし定期的に保守する必要がある。管理はリモートでもできるが、オンサイトでなければできないこともある。

Capex: 選択して必要なハードを購入する必要があり、数年毎に新規のものと取り換える必要がある。
Opex: Opexにはコローケーション(スペースと電力費)リモートで雇う人件費を含む。その上、細かい調整やリモートのスタッフの管理のために出張も必要となる。
拡張とカバー: 高額のcapexとopexのため, サポートする領域を迅速に展開することは困難である。投資家は足腰がしっかりしていないときに拡張するのを喜ぶまい。

クラウド期:
ハードはいらず、ソフトのみの解である。

Capex: ハードを使用しないため、選択も購入も考える必要がない。
Opex: ソフトウエアのユーティリティは必要に応じてvirtual machines (VM)として設置される。コローけしょん費用もリモートのスタッフの費用も掛からない。
拡張とカバー:この解は完全にソフトベースなので簡単に拡張・展開できる。投資家は拡張したら、非常に喜ぶだろう。

対象市場
現在までPertinoは中小企業(SMB)を対象としていたが、大企業市場(enterprise)に参入の予定である。SMBの版では1つのサーバーがプライベートのネットワークを形成する。しかし、enterprise版では大きな信頼性、アベイラビリティと遅延の減少が必要とされる。そのため、enterprise版ではサーバー・ユーティリティを複数のクラウドの箇所に設置する。その様子を以下に示す。

pertino-5.jpg

Pertinoによれば、SMBというのは、従業員数500までをいう、今後は対象企業を大き目の会社に向ける(5 から1000 名)。 このためのネットワークを更に分割する方式が必要となる。

カスタマーのActive Directoryなどの認証システムとの結合
複数のvSwitches (Data Planes)に渡る1つのバーチャル・ネットワークを設置する機能


Enterprise の版は2014の後半に発表の予定である。良いニュースとしては売上が上昇されると見込まれることであるが、悪いニュースはセールスに時間が掛かり、もっと内容に関して精査されることになることだ。

今後の展開
現在AWSなどのIaaSクラウドでは、ネットワーク機器 (ルーターやスイッチ) への直接のアクセスは認められていない。AWSやその他のクラウドがネットワーク機器へのアクセスを認めるようになると、Pertinoはもっと新規の面白い機能を提供することでできるようになる。現在 Openflowや Openflowのような方向がどうなるかわからない。それから枝別れした方向に進むかもしれない。しかし、PertinoがSDN controllerを開発しているので、異なった版へのAPIを開発すればどの版にも対応できる。Pertinoは既にSDN controllerを開発しており、所謂north, south, east and west のAPIを提供している。残っているのは直接OpenFlowへのアクセス や他の3rd party 装置 (Data Plane) のインタフェースをサポートすることだ。


名前
:Pertino  創業されたCalifornia 州Cupertino市からCUを取って命名
本拠地: カリフォルニア州、Los Gatos市(シリコンバレー)
投資: VC投資29億円、最近のシリーズBではJafcoがリード
技術: モバイル機器を繋ぐダイナミックなセキュアなネットワークの形成。SDNによるダイナミックなネットワーク形成
対象市場: 現在まで中小企業、今後大企業、現在米国、日本進出は未定(Jafcoによる展開が予想される)

posted by infogreen at 03:20| Comment(0) | ICTとエネルギー