ノード - みる会図書館

1. UNIX MAGAZINE 2006年10月号

R に管理するデータの移管を行なうノード P が管理しています。そのため情・ Finger Tab を更新する報 X を検索、登録する際には、ノード・ p 「 edecesso 「の存在を確認する ID=Hash(X) となるノード p と通信するという作業をする必要があります。必要があります。ノード P が存在しない successor と predecessor の更新手順は場合は successor (Hash (X) ) となるノードが情報 X を管理します。例えば図 4 以下のとおりです。ノード A は、現在ノード A がおいて Hash ( X ) = 3 となる情報 X はノー手順 1 ド 3 が保有していますが、ノード 3 が存 successor と考えているノ在せずかっノード 4 が存在する場合は、ド B に対して、ノド B の predecessor ( ノード X と呼ぶこノード 4 が情報 X を管理します。とにする ) について質問します。ノードの参加ノード B はノード A にノード X の情報を返答します。この時ノード 1 、 3 が存在して、かっノード 2 ノード B が返答するノード X はが Chord に参加する場合の手順を説明し以下のようになります。ます。ケース 1 : ノード A とノード B のノード 2 は自分の successor とな手順 1 りうるノードにこではノード間にノード S が新たに参加している場合→ 3 ) 情報について、 DHT に参加しているあるノード N に検索依ノード S ケース 2 : ノード A とノード B の頼を行なう。間に新たにノードがノード 2 はノード N からノード 3 参加していない場合のノード情報を入手する。ノード 2 はノード 3 を successor とし →ノード A この手順によってノード A はノードて登録する。 A ~ B 間の新たなノードの確認が以上がノードの参加手順です。できます Chord ネットワークの安定化作業ノード A はノード X の情報を元に successor を更新します参加手順 2 が終わった段階では、ノード 1 ケース 1 の場合ノード S 、ケー ~ ノード 3 における successor と predecessor ス 2 の場合ノード B を successor の状態に不整合が生じています。例えばとします。ノード 1 の successor はノード 3 のままで手順 4 す。また各ノードの Finger TabIe 、管ノード A は successor にノード A の存在を告げます。すなわち理する情報にも不整合が生じています。このようなノード参加、離脱による状ノード A はケース 1 の場合ノード S 、ケース 2 の場合ノード B 態の不整合を解決するため、各ノードはにノード A の存在を通知しま定期的に、す。この作業によりノード A の・ successor と predecessor を更新する successor はノード A の存在を・新しいノード R が参加した場合、ノード SPECIRL B * 17 代表例として OceanStore http://oceanstore.cs.be 「 keley. edu/ PAST http://research.mic 「 os oft.com/-antr/PAST/defauIt. htm が挙げられる。 * 18 Miguel Castro, Pete 「 Druschel, Anne-Marie Kermarrec, Animesh Nandi, Antony Rowstron, and Atul Singh 「 SpIitStream : High- bandwidth multicast in a cooperative envi 「 onment 」 ln Proceedings of (IPTPS ℃ 3) February 2003 * 19 阿部洋丈、加藤和彦「 Ae 「 ie : W WW のための完全分散型プロキシ」情報処理学会論文誌 : コンピューティングシステム、 VOI. 46 、 NO. SIG 3 (ACS 8 ) 、 pp. 51-61 、 2005 年 1 月 * 2 。西谷智広「 P2P と認証、 P2P での SNS 」 ( 「 P2P とは何か ? 基礎から研究紹介まで」から ) http://homepage3.nifty.com/ toremoro/p2p/dhtaaa. html * 21 Taku 」 i limura, Hiroaki Hazeyama, and Youki Kadobayashi 「 Dist 「 ibuted ScalabIe MuIti-pIayer OnIine Game Servers on Peer-to-Peer Netwo 「 ks 」情報処理学会論文誌、 Vol. 46 、 No. 2 、 pp. 376-391 、 Feb 「 uary 2005. * 22 「 P2P - S 旧解説」 http://muziyoshiz.jp/sc2005/ SC2005_yoshiz_P2P_SlP.pdf Skype conference 2005 資料手順 2 手順 2 手順 3 32 UNIX magazine 2006 Autumn

2. UNIX MAGAZINE 2006年10月号

・ predecessor(X) : ハッシュ値 X においてハッシュ値が小さい方向で 1 番近い図 3 においてノード 2 の場合はノード ID=2 ですので、 successor はノード 3 、 predecessor はノード 1 を指します。まず、簡単な Finger TabIe の例を説宛先ノード心明します。各ノードは隣り合うノード情 X=5 報を保有しているとします。この時に 65XW7 ノード 0 がノード 7 にたどりつくまでに 85X ミ 1 1 1 2 5 X S 15 どのような通信が必要か説明します。 OSXS3 答の 1 つは、図 4 のようハッシュ値の表 6 ノード 4 の Finger Table 大きい方向で隣り合うノードに順次ホッりつく場合を考えてみましよう。プしてノード 7 に到達することです。ノード 6 のノード ID は 6 ですから、ノード 0 はの方法では一般的にノード参加数を N Finger TabIe ( 表 4 ) よりノード 4 にホッとすると、情報を検索する上で 0 ( N, ) のプします。ノード 4 は Finger TabIe ( 表ホップが必要となります。そのためノー 6 ) よりノード 6 にホップします。最後ド参加数が大きい場合に到達ホップ数が大きくなりシステムが破綻します。にノード 6 から、ノード 6 の successor であるノード 7 にホップします ( ノード 6 のそれに対し、 Chord はとてもスマート Finger Table は表 7) * 16 。結局ノード 1 はな方法で各ノードへの到達ホップ数を減 3 ホップでノード 6 にたどり着くことが少させています。分かります ( 図 6 ) 図 5 を見てください。ノード 0 はハッシュ値が大きい方向で 2N ( 0 坙 N 坙 3 ) 離れ Finger Table は、自ノードのハッシュ値から近い部分については詳細な情報をたノード情報を保持しています。保有し、ハッシュ値から遠くなるほど粗ノード 0 の Finger TabIe はそれぞれ表 4 い情報しか持ちません。これが Finger のように表わされます。一般にノード A TabIe のサイズが小さくても、少ないの Finger Table は表 5 のように表わされホップ数で目的とするノードに到達できます。る秘訣です。ノード参加数 N に対して、なお、項番 N はハッシュ空間を m ビッあるノードに到達する時に必要なホップト確保した場合、 1 坙 N 坙 m であること数は 0 ( ん g ( N, ) ) 程度です。に注意してください。 Finger Table において次ホップノー情報の検索、登録ドとなるノード ID ( これを ID_R としま情報 X を検索、登録、削除するには、す ) にノードが存在しない場合は、次ホッ Hash (x) を計算する必要があります。情プノードは successor (ID_R) となります。報 x は原則ノード ID が Hash(X) となるもう 1 度、ノード 0 からノード 7 にたど X=A + 1 mod A + 2 mod 2m A + 25 XSA + 3 2m 2 A + 45X5A + 7 2 ” A + 4 mod 3 N A + 2N75X5A + 2N - 1 n10d2n1 A + 2N 表 5 一般的なノード A の Finger Table 項番次ホップノードのノード旧宛先ノー D 項番次ホップノードのノー D 宛先ノード旧 X=I 項番 2 4 8 2 ミ XS3 4 5 X 5 7 8 5 XS 1 5 2 表 4 ノード O の Finger TabIe 宛先ノード心 8 ミ X$9 1 0 ミ X S 13 14 ミ X515 14 OSX ミ 5 表 7 ノード 6 の Finger Table 次ホップノードのノー D 次ホップノードのノー椡 D 項番 5 7 8 6 8 2 2 2 3 4 0 * 16 Cho 「 d では最後の 1 ホップは各ノードの successo 「情報からたどります。 UNIX magazine 2006 Autumn

3. UNIX MAGAZINE 2006年10月号

ノドー 5 SPECIRLB ・ノード 14 ノデ下 13 イデド 13 ノデト 1 2 ノト 1 2 イデト 1 1 ノ—ト 10 みド 10 図 3 ノード 0 ~ 15 が存在する Chord イメージ図ことが可能です。さて、ハッシュ値が取りうる空間をハッシュ空間とします。ハッシュ空間として m ビット確保すると、ハッシュ値空間 H は 0 坙 H 坙 2 。ー 1 となりますが、 Chord のハッシュ空間は 2 。の剰余系 (mod 幻であることに注意してくださいノード ID という概念を導入します。ノード ID はノードと一意に紐付けられたハッシュ空間の値です。ノード ID はインターネットの世界における IP アドレスと類似しています。 DHT の世界ではノード ID を使ってノードを指定します。また、ノード ID はハッシュ空間 H 内の値を取ります ChordT0 はノード ID として IP アドレスのハッシュ値を使います * 15 Chord の Finger Table ノード間の通信を行なうため、ルータにおけるルーティングテープル相当の情報を各ノードで保持します。これを Finger Table と呼びます。図 3 は例としてノード 0 ~ ノード 15 がここで例として 4 ビットのハッシュエすべて存在する状況を図示しています。間による Chord アルゴリズムの動作を説 FingerTabIe を説明する目リに successor 明します。つまりハッシュ空間 H は 0 坙と predecessor について定義しましよう。 H 坙 15 です。このとき 0 坙ノード ID 坙 15 ・ successor(X): ハッシュ値 X においてとなります。ノード ID=Z のノードをノーハッシュ値が大きい方向で 1 番近いド Z と呼ぶことにします。図 4 隣り合うノード情報を保有している場合 2 。 = 1 0 / ト 14 2 ー = 2 みド 13 / デド 12 23 = 8 図 5 ノード O が保有しているノード情報、ノト 1 5 ノド 14 みド 13 み = ド 1 2 ノ・ト 1 0 図 6 ノード O からノード 7 へ辿り着くルート * 15 この手法によって、あるノード R がノード ID を偽装しているかどうか、ノード R の旧アドレスを知ることにより検証できる。また旧アドレスとポート番号を組み合わせた情報の八ッシュ値をノー制 D として利用することも提案されている。 30 UNIX magazine 2006 Autumn

4. UNIX MAGAZINE 2006年10月号

【手順 2 ~ 4 】他ノード情報を仲介サーバから入手【手順 1 】各ノードはノード情報を仲介サーバに登録介 Gnutella 、 Winny は Unstructured タイプに分類されます。両者の違いについては後ほど解説します。ピュア P2P の大きな課題の 1 つは、ほかのノード情報、特にファイル情報や IP アドレスをどのように入手するかということにあります。まずは GnuteIIa を代表とする Unstructured タイプで上記課題を解決する方法を解説します。 Unstructured タイプは、フラッティング ( fl 。 od = 溢れる ) により各種メッセージをほかのノードに伝播させる方式です。フラッディングとは、各種メッセー【手順 3 】ファイルを保有してジを隣接するノードにバケツリレー式に【手順 4 、 5 】いることを回答直接通信してファイル共有次から次へと転送させていく方式です。各種メッセージがネットワーク上に溢れ図 2 ピュア P2P (Unstructured タイプ ) の構成図るような様であることから、をする。このように命名されています。手順 5 1 ノード A はノード G からファイさて図 2 のようにノード A ~ G が接続しル P をダウンロードする。ているとしますこのときノード A がノード Unstructured タイプはフラッティン B—G に、ファイル P の有無について検索グでメッセージ通信を行なうので、ファイルの存在確認などをするたびにネッ依頼する手順を説明しましよう。ここでノードが直接リンクしているノードを、隣接ノートワーク帯域を消耗します。そこで GnuteIIa は次のような対策を行なっていドと呼ぶことにしますノード A は隣接ノード B 、 C にます。手順 1 ・ TTL (Time to Live) を利用して、ファファイル P の有無について検索依頼を出す。イル存在確認が行なえるノードの範囲を限定する。 TTL とはホップ数のノード B は隣接ノード D 、 E にファ手順 2 上限を決める値で、各種メッセージのイル P の有無について検索依頼中に含まれています。メッセージが各を出す同様にノード C は隣接ノーノードにホップするごとに TTL の数ド F 、 G にファイル P の有無について検索依頼を出すを 1 減らし、 TTL が 0 になった時にノードはメッセージの転送を停止しますファイル P が存在した場合、各手順 3 ・メッセージに固有番号を含めることノードは自分の IP アドレスなで、各種メッセージのループが検出でどの情報を検索依頼したノードきるようにする。各ノードは受信時に回答する。にこの固有番号を記録し、その後同一手順 4 ファイル P を有すると回答したのメッセージを受信した場合は、そのノード G とノード A が直接通信ロロロード D 【手順 5 、 6 】仲介サーバの情報を元にー他ノードと直接通信図 1 八イブリッド P2P の構成図【手順 1 】メッセージを送信、ノド D ・ドノ【手順 2 】メッセージを送イ【手順 2 】メッセージを送信一三ロード 0 * 4Gnute 日 a プロトコルは「ネットワーク管理者のための Gnute 日 a 入門」が詳しい。 http://www.atmarkit.co.jp/fwin 2k/experiments/gnutelIa_for admin/gnutella for_admin_l. html * 5 Winny 全般は金子勇著「 Winny の技術」 ( アスキー ) が参考になる。 Winny プロトコルは、オープンソースの Winny クローン「 Poeny 」を調べるとよいだろう。 UNIX magazine 2006 Autumn

5. UNIX MAGAZINE 2006年10月号

信木に参加することになります。各ノーら 10 ノードに対して転送でき、受信可が行なわれます。このルーティングは、ドはどれかただ 1 つの配信木で子を持ち能なノードの数をそれだけ増やすことが該当するキーと値の組を保持しているます。複数配信木を構築する ALM には、できます。ノードに到達するというわけです。ほかに Chunkyspread などがあります。ここで同一の ID を宛先として、複数ここで、配信木を構成する各ノードの上り帯域幅について考えます。子を持つの異なるノードからルーティングを行メッシュべースのデータ転送ノードは、データを子に転送するためになった場合を考えます。各ルーティング上り帯域幅を活用しています。持ち得る木構造には、親が 1 つである、ノードの経路は、最終的には同一の担当ノード間に親・子という方向がある、といった子の数が、上り帯域幅によって制限されに収束します。これら複数の経路の和集いくつかの制約があり、この制約に従っ合は、木構造を構成します ( 図 5 ) 。る点にも注意してください。このことは配信木を構成する際に、各ノードの帯域てデータが流れます。これに対し、よりの木構造を配信木として使おうという緩やかなノード間の関係に基づいてデー幅、特に上り帯域幅を考慮する必要があのが、構造化オーバーレイを使ったマタを転送していくメッシュべースの方式ることを意味します。続いて子を持たなルチキャストの基本的なアイデアです。も提案されています。ここでは、ノードいノード、つまり配信木の葉の場合はど Scribe は、構造化オーバーレイのアルゴうでしよう。ほかのノードに対してデー間に親子関係がなかったり、ノード間のリズムである Pastry を使って配信木をタを転送していないということは、上関係が枝の有無といったゼロ / イチでは構築します。それは配信木の根をランデ定まらなかったりする、比較的ノード間プーポイント (Rendezvous point) とり帯域幅を活用していないことになりまの関係が緩やかな構造を大雑把にメッす。木構造において、葉となるノードのして、そこから葉に向けてデータを転送シュと呼びます数は案外多いものです。各ノードが 2 つしていくという ALM です。メシ上全ノードに対してデーの子を持っバイナリツリーですら、半分上り帯域幅を活用しつくすための複数ツリータを配布する方式として、 flooding とい強のノードが葉となります。各ノードう単純な方式がよく知られています ( 図が 16 の子を持っとしたら、 9 割を超える昨今のインターネットは Web 向きに 6 ) 。 flooding は日本語で「洪水」「氾濫」数のノードが葉となります。 ALM にお設計されており、 P2P ソフトウェアのであり、文字どおり、メッシュ上にデーいて、系全体にとっての貴重な資源であ動作に適さない構造が各所にあります。タを氾濫させます。 P2P 関係では、ファる上り帯域幅を活用しないというのは、アクセス系ネットワークについていえイル共有プロトコル Gnutella で検索クエもったいないことです。ば、 NAT の普及による双方向通信の阻リの拡散に fl 。 oding が使われていることそこで、複数の配信木を構築して、害や、非対称 DSL (ADSL) での上り方が有名です。それぞれの配信木ではデータの一部分向帯域幅の狭さがその例です。特に上り flooding では、各ノードは隣接ノードを流すという手法が考えられました。帯域幅の狭さは、 ALM で非常に大きな SplitStream は、複数の配信問題となります。 ALM では、各ノード木を構築する ALM です。が受信したデータをほかのノードに提供で構築される複数の配信木はするので、受信のための下り帯域幅だけ forest と呼ばれます。それぞれでなく、送信のための上り帯域幅が重要の配信木は Scribe の手法で構となります。上り帯域幅が広いほど、ト築し、データストリームを時間ラフィックをより大きく増幅できると方向に分割したものを、複数いうことです。例えば、 500kbps のトラの配信木に分散して流します。フィックを受信している場合、上り帯域つまり、ノードは必要なデー幅が 500kbps なら 1 ノードに対してしかタを揃えるために、複数の配転送できません。しかし 5Mbps だとしたー②未送信 & 転送 3 未送信 & 転送 2 ②受信済 & 転送せす 3 3 図 6 flooding 37 UNIX magazine 2006 Autumn

6. UNIX MAGAZINE 2006年10月号

す。各隣接ノードとのスルーブットに応ものにシーケンス番号を振り、その番号じて、隣接ノードの選別も行ないます。やビットマップで保持データを表現し、一方、 Chainsaw は、論文で述べられて隣接ノードに通知しておきます。これにいる範囲では、ランダムに選んだ一定数よって各ノードは、隣接ノードがどののノードを隣接ノードとします。両者とデータ片を保持しているかを知ることがも、保持データ情報を隣接ノードとの間でき、データ片を要求できるのです。で交換し、それに基づいてデータを要求この方法はデータ駆動 (data-driven 、するという点は共通しています。 data-centric) と呼ばれます ( 図 7 ) 。ツデータ駆動方式は提案から比較的日がリーベースでは欠かせないノード故障・離脱時の木構造の再構成が不要であること浅く、間題があまり明らかになっていまが長所です。またメッシュべースのブッせん。我々の経験と考察によると、データが各ノードに到達するまでの時間、つシュ型プロトコルで起こりがちな無駄なまり遅延が問題となり得ます。それはデータ転送をなくすこともできます。前単なるプル型ゆえの問題だけではあり者を理由として、ノードの頻繁な出入りません。つまりプッシュ型では必要の (churn) に強い (resilient) という生来ないデータ要求が必要となり遅延が増の性質を持ちます。ただしこれは、隣接すだけではなく、遅延と隣接ノード間ノードの選択・管理アルゴリズム、つまりでの保持データ情報の通知頻度の間にどのノードをどのような基準に基づいてトレードオフがあります。通知の頻度が隣接ノードとするかによります。状況変化への耐性 (resilience) は、ツリーベー低い場合、自分の隣接ノードがデータ片を入手してからそれを自分が知るまでス、データ駆動にかかわらず、特定のアに、時間が空いてしまいます。その時ルゴリズムを想定しての比較が必要です。間間隔が、転送の回数だけかさんでしまデータ駆動方式の ALM には、 Cool うのです。逆に、通知の頻度を高くする Streaming/DONet や Chainsaw がありまと、それだけ通信処理の負担が増えますす。前者はノードの情報、例えば IP ア CoolStreaming/DONet は隣接ノードレスなどを gossip で流通させ、隣接間で継続的に保持データ情報を交換し、ノード数が一定値を切った場合には、ラ Chainsaw はデータ片を受信するや否や、ンダムに選んだノードと接続を持ちま隣接ノードにそのことを通知します。前者は、比較的低頻度、後者は高頻度であ保持テータ情報を交換しておくるといえます。ハイプリッド P2P とピュア P2P データ転送の方式とは独立して、 ALM にもほかの P2P システムと同様に、ハイプリッド P2P かピュア P2P かという分類の観点があります。ピュア P2P では、純粋に役割が対等なピア ( ノード ) ①テータ片を要求 ②テータ片を送信ァータ駆動 (data-driven 、 data-centric) 方式図 7 39 UNIX magazine 2006 Autumn

7. UNIX MAGAZINE 2006年10月号

群だけで機能 ( 例 :ALM) が果たされまノードに対してどのノードの子になるす。それに対してハイプリッド P2P でべきか ( およびどのノードの親になるべは、ピアに対して何らかのサービスを提きか ) を指示するものです。このような供するサーバがあって初めて、機能が果 ALM には、 CoopNet 、 ALMI などがあたされます ( 図 8 ) ります。この方式の利点は、オーバーレ ALM の場合は、大元のデータ配信元イ全体を把握しているコンピュータがトは唯一データを供給する特殊なノードでポロジを決めるため、より良いトボロジあり、ほかのノードと役割が対等ではあを設計し得るという点です。ピュア P2P りません。これを理由として、 ALM はでは一般に、各ノードは全ノードの状況すべてハイプリッド P2P であると分類を把握できないため、良いトボロジの構することもできます。しかし通常はそう築は難しいものとなります。またトボロは考えません。データ配信元ノードが直ジを管理するコンピュータに、全ノード接サービス ( データ ) を提供する対象はの状況とトボロジの情報が集まるため、ごく一部のノードに ALM システムを運用する人がオーバー全ノードではなく、限られるためです。レイ全体を把握できるという利点もあり ALM では、何かしらのサーバがノーます。ピュア P2P の ALM では、オーバードの大多数にサービスし、完全に自律的レイの全体像を把握するには、そのために動作するノードが存在しないかごく少の工夫が別途必要となります。数であるようなものを、ハイプリッドハイプリッド P2P の間題は、 ALM に P2P と分類します。この基準で分類す限らず、負荷の集中と耐故障性にありまると、研究成果として発表されている多す。サーノヾには、最低でもオーバーレくの ALM はピュア P2P です。イに参加しているノードの数に比例すハイプリッド P2P である ALM の例にる処理負荷とネットワーク負荷がかかりツリーベースの方式で、配信木の構造、ます。データ自体はノード間で転送されつまりトボロジを集中的に決めるものがますが、ツリーベース ALM ではトボロあります。これは少数 ( 一般的には 1 台 ) ジ管理のための負荷がサーバに集中しまのサーバが集中的にトボロジを決め、各す。そのため、いかにそこを軽量に作るかが重要となります。また耐故障性としては、サーバの故障などでサービスを提ゝーイ供できなくなると、オーバーレイ全体が機能不全に陥るという問題があります。トボロジ・ノード情報等の問い合わせ ( ) ハイプリッド P2P では、バックアップサーバを用意するなどの可用性向上策が欠かせません。データの符号化 ALM そのものの手法ではありませんが、データ、特に映像・音声ストリーム SPECIRL C 何らかのアクション特殊なビア ( ノード群 ) だけで機能が果たされるピュア P2P ハイプリッド P2P 図 8 八イプリッド P2P とピュア P2P 40 UNIX magazine 2006 Autumn

8. UNIX MAGAZINE 2006年10月号

販売価格ノードの情報管理範囲情報 X ハッシュ値 Y=Hash(X) 管理ノードリンゴバナナスイカ 1 OO 円 150 円 1 OOO 円 130 円 300 円 200 円 250 円 400 円 30 円 1 2 5 「 / 0 ミ Y ミ 6 ノード A * 1 。 Sylvia Ratnasamy, Paul Francis, Ma 「 k Handley, Richa 「 d Karp, and Scott Shenke 「「 A Scalable Content-Add 「 essable Network 」旧 P 「 oc. ACM SIGCOMM 2001, August 2001 * 11 Antony Rowstron and Peter DruscheIFastry: Scalable, decentralized object location and routing forlarge-scale peer-to-peer systems 」 Lecture NOtes in Computer Science, VOL2218 pp. 329-350 , 2001. 先に ove 「 view 資料をみた方が理解しやすい。 http://freepastry.org/PAST/ov erview. pdf * 12 Ben Y. Zhao, John Kubiatowicz, and Anthony D. Joseph 「 Tapestry :An lnfrastructure fO 「 Fault- tolerant Wide-area Location and Routing 」 TechnicaI Report UCB/CSD-OI-1141 , Computer Science Division, U. C. BerkeIey, ApriI 2001. 55 Tapest 「 y については日本語関連資料あり。「オーバレイネットワークによる統分散環境」 http://www.wide.ad.jp/ project/document/ 「 eports/pd f2002/part17. pdf * 13 Petar Maymounkov and David Maziéres 「 Kademlia. A Peer-to-peerlnformation System Based on the XOR Metric 」旧 Proceedings Of lPTPS02, Cambridge, USA, Ma 「 ch 2002 日本語関連資料あり。首藤ー幸「 Kademlia 」。 http://www.shudo.net/a 「 ticle/ KademIia-20040727/shud0-Ka demlia. pdf * 14 http: 〃 overlayweaver. sour ceforge. net/index-j. html なしバイナップルももマンゴー 0 5 3 2 3 っ 0 7 SY ミ 17 ノード B ぶどうみかん 18 ミ Y 坙 40 ノード C 表 3 八ッシュテープルの分散管理のイメージ図機能 1 らに分割したテープルはノード A—C でノードの DHT ネットワークへの参加分散管理しています。また各ノードが管理すべき情報 X ( 具機能 2 ノードの DHT ネットワークか体的には X のハッシュ値 Y ) の範囲も管らの離脱理ノード間で自律的に決定します。機能 3 ノードへの情報の登録このようにハッシュテープルを分割機能 4 ノードに登録された情報の取得し、そのハッシュテープルを各ノードが機能 5 他ノードの要求に応じたルーテ分散管理することが、 DHT の基本概念イング機能となります * 8 機能 6 任意のノードとの直接通信それでは DHT の特徴を挙げてみま DHT ネットワークを安定的に機能 7 維持するための機能しよう。 DHT の代表例として Chord * 9 、 CAN*IO ・情報はシステムに参加しているノー Pastry*ll 、 Tapestry*12 、 Kademlia*13 などド群で分散管理されているが挙げられますが、これらの基本機能はほ・各ノードは一意のと第田寸けされるば同じです・各ノードは容易に DHT ネットワークそれでは、 DHT の代表例である Chord へ参加、離脱か可能であるについて解説します。・ネットワークに属する任意の 2 つのノード間で通信可能 DHT の実例・任意のノードに対して、比較的少ない Chord のしくみホップ数でたどり着くことができる・リンク先となれるノードにトボロジ Chord は DHT の中でもしくみがシ的制約があるンプルなため、盛んに研究されている DHT の 1 つです。 DHT ミドルウェアで次に DHT におけるノードの機能を分ある OverIay Weaver*14 でも動作させる類します。 0 29 UNIX magazine 2006 Autumn

9. UNIX MAGAZINE 2006年10月号

に対し強制的にデータを送りつけます。構造を前提としながらもメッシュべースつまりプッシュ型の方式です。データをの手法をとっています。最初は配信木に受信したノードは、そのデータの受信が従ってデータを流しますが、各ノードは初めてであれば、データが来た方向を除すべての子に全データを流すわけではあいて、自分の隣接ノードに対してデータりません。各ノードは木構造に関係なく、を転送します。受信済であれば転送しま足りないデータをほかのノードから入手せん。します。この点がメッシュべースである単純な flooding には、データ転送の総所以です。どのノードがどのデータを保量、それも無駄なデータ転送が多いとい持しているかという情報は、木構造を活う問題があります。例えば図 6 中のある用して流通させます。この手法によりッノードは、同一のデータを 4 回以上受信リーベースよりも高帯域幅のデータを流しています。各ノードの上り帯域幅が貴すことができる、というのが提案者の主重な ALM において、これは大きな問題張です。です。そこで、 ALM に flooding を適用すデータ駆動のデータ転送る場合には、無駄なデータ転送を低減する工夫がとり入れられています。これまで紹介してきたツリーベース、 flooding の良い点、つまり高いデータ浸メッシュべースの方法は、基本的にブッ透率を維持しつつ、なおかっデータ転送シュ (push) 型のプロトコルでした。木の総量を抑える手法として、 1980 年代に構造では、データは単一の親からしか gossip と呼ばれる手法が考え出されましやってこないため、プル (pull) 型のプロた。 gossip は rumor mongering 、 epidemic トコル、つまり親に対するデータの要求 dissemination とも呼ばれます。文字どおは無駄なものでしかありません。しかしり、噂が人づてに伝わっていくような動メッシュべースでは状況が異なります。作をします。 gossip プロトコルには、多くブッシュ型プロトコルである flooding やのノヾリエーションがあります。基本的には gossip では、同一のデータが複数の隣接転送処理として、隣接ノードの中から転ノードからやってきます。この無駄を省送先をランダムに選び転送する、というくためには、プル型のプロトコルが有効動作を繰り返します。そして、例えば受です。つまり、強制的にデータを送りつ信済ノードへの転送を一定回数繰り返しけること (push) はやめ、明示的な要求てしまった時点で、転送を止めます。 (pull) があって初めて転送するのです。この種のプロトコルの ALM への応用かといって、隣接ノードに対してやとしては、構造化オーバーレイ CAN のみくもにデータを要求しても、その隣上で % oding を行なうものがあります。接ノードが当該データを持っていなけれ flooding は ALM 自体よりも、イベントば、要求自体が無駄なものとしかなりま通知 ( 例 :lpbcast) やオーノヾーレイのメせん。そこで、自らが保持しているデーンノヾ管理 ( 例 : CoolStreaming/DONet) タの一覧を、隣接ノードに知らせておくという方法がとられます。具体的には、によく用いられています。 Bullet という ALM は、ノード間の木データストリームを時間方向に分割した SPECIRL C 38 UNIX magazine 2006 Autumn

10. UNIX MAGAZINE 2006年10月号

に CDN ( コンテンツ配信ネットワーク ) を前提とすると、 CDN は ISP 間のトラフィックを減らす効果があるので、 P2P システムを使った方が ISP 間トラフィックは多くなることが予想されます。 ISP の境界をまたぐトラフィックが増えると、ある業者は収入が増え、別の業者は支出が増えます。収入が増える業者は何も言わないでしようが、支出が増える業者は対応を迫られます。ただし、 P2P システムが ISP 間トラフィックを増やすとは限りません。特に CDN を経由しないデータについては、受信者の数だけ ISP 間をまたいでいた分が、 P2P システムにより ISP 内で再配布され、 ISP 間トラフィックが減る効果も期待できます。さらには、 P2P システムが ISP の境界を認識できたなら、 CDN と同等以上の ISP 間トラフィック減効果を得られるかもしれません。いずれにせよ P2P システムの開発者には、インターネット運用側のこのような力学を意識し、システムを設計することが求められます。大規模試験の方法 P2P システムには、下は数十から上は数百万ノードまで、破綻せずに動作することが求められます。では、ノードが増えていった場合にもきちんと動作することを、どのように確認したらよいでしようか。クライアント / サーバ型のシステムであれば、ポトルネックとなるのはサーバ側の処理能力やネットワーク帯域幅です。その負荷は大抵サーバへの問い合わせ数や通信量に比例するので、試験はシンカレです。サーバに対する問い合わせ頻度や通信量を可能な範囲で上げていき、それ以上については負荷の量を外挿します。サーバ側を増強することで性能向上を図れますし、運用の努力で安定性を高めることもできます。 P2P システムでは、利用者側のコンピュータがサーバの役割も果たします。利用者側ノードの安定性や性能は P2P システム提供側の手の及ぶところではなく、運用の努力で向上できるものでもありません。また、ソフトウェアが普及すればするほど、後々での更新も難しくなっていきます。そのため、あらかじめ頻繁な離脱と参加、低性能・狭帯域幅ノードの参加、ノード数の増加を想定し、綿密に設計する必要があります。同時に、どのような状況でも破綻せずに動作することを、事前に確認しておくことが望まれます。確認の手段は、システムのシミュレーションおよび大規模環境のエミュレーションです。シミュレーションでは、 P2P システムの挙動を模したソフトウェアを作り、 1 ~ 数台程度のコンピュータで多数のノードを模します。工ミュレーションでは、 P2P システム側ではなくネットワーク環境を模します。一般に、シミュレーションの方が模すことのできるノード数を多くできます。一方のエミュレーションでは、実際のソフトウェアを動作させることができ、より現実に近い動作を期待できます。どちらの方法でも、最大で数千程度のノードを模擬できているというのが世の中の状況です。試験は、ノード数を多くすればよいというものではありません。例えばノードの頻繁な離脱・参加があった場合にも破綻しないことを確認しておきたいところです。そのためには、シミュレータや工ミュレータに、各ノードにそういった動作をさせるためのしかけが必要となります。それには、パラメータに従い離脱や参加を繰り返す特殊なノードを作る、もしくはシナリオとして記述 ( 生成 ) した動作を各ノードに行なわせるという手があります。しかしながら、試験とはあらかじめ想定し得た項目しか行なうことができないため、実際と同じ状況でできるだけ多くの人に試してもらうことは欠かせません。まとめンジニアの一助となれば幸いです。稿が、分散システムを設計・開発する工に埋もれているというのが現状です。本論文や書籍、発言の中に散らばり、ときた。いまだこの種の知識は、さまざまなめには配慮が欠かせない点を整理しましれがちな、しかし現実環境での動作のたここでは、理論・方式研究では無視さ UNIX magazine 2006 Autumn 47