HDD - みる会図書館


検索対象: UNIX MAGAZINE 2006年3月号
22件見つかりました。

1. UNIX MAGAZINE 2006年3月号

特集 仮想ストレージとしてのファイルシステム [ 1 ] できる。これカ毓み書きの最小単位である。この最小単位 は、一定のバイト数の大きさをもつ。 各セクタには参照番号が割り振られている。 I/O は、開 始セクタの参照番号と、何セクタぶんの I / O をおこなうか で指定する。 NVM には次のような特徴がある。 4 徴 1 : ヘッドは、読出し中は書込みができず、書込み中 は読出しができない HDD の場合、これは簡単に理解できるだろう。 HDD からデータを読み出すには、ヘッドで磁場変化を検出しな くてはならない。この変化は微弱なので、読出し用のヘッ ドはごく細かな磁場変化も検出できるようになっている。 一方、 HDD にデータを書き込むには、ヘッドの電磁石 で磁場変化を起こす必要がある。この磁界は、強力であれ ばあるほど、データをプラッタ上に確実に保存できる。 電磁石で強力な磁場変化を起こしながら、繊細な読出し ヘッドで磁場変化を検出しようとすると、プラッタの情報 ではなく電磁石による磁場変化を検出してしまう。これで はプラッタ上のデータは読み出せない。 特徴 2 : 読み書きは、一定のデータサイズ ( 1 バイトや lbit よりもはるかに大きな ) 単位でしかできない 磁場変化はノイズにさらされやすい。 1 セクタが lbit の ような小さなデータサイズだと、すぐ壊れてしまう。また、 磁場変化カ泛しいパターンが発生するとノイズの影響を受 けやすくなる。そこで、定期的に磁場変化が起こるように 、、 & 12 変換 " などの方式が使われる。さらに、 ECC など を用いて多少のエラーは回復できるようにする。 その結果、 1 セクタの大きさは lbit や 1 バイトなどで はなく、 512 バイトのようなサイズにせざるをえない 3 。 # ギ徴 3 : I/O は、スタートするまでに大きなオーバーヘッ ドがある I / O 対象のアドレスを指定してから、ヘッドか所定のト ラック上に移動し、所定のセクタがヘッドの下に到達する まで、 I / O はスタートできない。これは、往々にして大き なオーバーヘッドになる。 3 数年前の知識だが、 512 バイトでは、小さすぎて " 工ラー訂正という観か らは困るそうだ。 図 1 不軍発性メティアのモテル - ートラック 回転 ・・ - セクタ プラッタ 図 2 ストレージと計算機のモテル メインメモリ デバイスドライバ Controller 1 接続ケーカレ (SATA 、 SCSltc ど ) PC 9 0 Read/Write / ヾッファ NVM ( 不揮発性メティア ) HDD 不キ軍発性メティアのモテル 図 1 はイ寸軍発性メディア (NVM : Non VoIatile Medi- (m) をモデル化したもので、 HDD をベースにしている。 NVM は、記録媒体のプラッタ上に、、トラック " という領 域を用意し、そこになんらかの物理的痕跡 (HDD なら磁 場 ) を残すかたちでデータを保存する。この物理的痕跡を、 、、ヘッド " という部品で読み書き (I/O : Input/Output) する。プラッタは一定方向に回転しており、その回転にと もなってトラック上の読み出せる部分カ畯化する。ヘッド を支えるアームの角度を変更すれば、異なるトラックを読 むことができる。トラックは、、セクタ " という単位に分割 29 UNIX MAGAZINE 2006 . 3

2. UNIX MAGAZINE 2006年3月号

次は、セキュリティ・レベルの設疋です。レベルは、標 準、高い、非常に高い、極度に高いの 4 つで、初期設疋で は図 4 のように、、高い " が選択されています。今回はゲス ト OS を複数のユーザーで使うわけではなく、また NAT 接続を利用するため、仮想ネットワークの外部から直接ア クセスされる心配はありません。そこで、もっとも低いレ ベルの、、標準 " を選びました。 HDD のパーティション故疋 次に進むと、図 5 の画面が表示され、 HDD のパーテ ィション設定方法を訊かれます。初期設定の、、空き領域を ティションを設疋します。これで試してみたところ、 8GB UNIX MAGAZINE 2006 . 3 連載 / Linux のツールたち 図 3 ライセンス条項び )i 砡忍 ラセンフへの料意 使う " を選ぶと、インストール・プログラムが適当にパー ディストリビューシ安ンの様々なコンポーネントが含まれます。住し、これらに限定されるもの一 ング・シュテムに関連するアグラムー式・方法・ルール・ドキュメントと Mand ⅱ va Linux ンーネントを、以下「ソフトウェア製品」と呼びます。ソフトウ乂ア製品には、オレ -- ティ オペしティング・システムと Mandnva L ⅲ ux ディュトリビューシ安ンに含まれる様々なコ 1 使用承認契約 ではありません。 品をインストール・コビまたは使用することはできません。この使用承諸契約の規約に反すす されたものとします。使用承諸契約に少しでも同意できない部分がある場台は、ソフトウまア製 ンストール・コビーまたは使月することによってお宮様は使用承諸契約の規約に従うことに同意 Mandriva 5. A. との問の使用事契約です。方法の知何にかなわらす、ソフトウメア製品をイ この文書をよくお読みくたさい。この文書はソフトウ又ア製品に通用されるお客様と 承第する ヘルア 図 4 セキュリティ・レベルの言又疋 0 セュリティ リリースノト 終了 図 5 HDD 言綻方法の選択 以下の解決法があります き領域を使 ) パーティシンを手動で設定 ヘルア 図 6 パーティションの手動言 セキュリティレベルを選んでください 算準インターネットにクライアントとして拶続するマシンに通した標準的なせキ食リテイしベル です。 高い : いくつかの制限に加え、さらに多くの自動ナックを毎日実行します。 非常に高いシステムをサー - バとして安全に料できるセキュリティレベルです。多くのクライ アントがアクせするサーバマンンに必要十分なせキュリティを確保します。注意お使いのマ ンンが単にクライアントとしてインターネットに城する場合は、これより低いしベルを選んで ください。 セキュリテイしベル 高い ン DiskDrake ファイシステムの物類 50a パーティションをクリック詳物 全てをクリア してください 元にす ヘルプ Swap デバイユ : sda サイズ - 668 白動割り当て エキ以バートモー - ドに切り甘え その他空 完了 詳細 せキュリライ管理者 ( ログイン名なメ、 - ルアドしみ ッセージが日本語で表示されるようになります。 ヘルア されます。初期誌定では、、拒否する " が選択され、 [ 次へ ] が 次の画面では、 mandriva2006 のライセンス条項が表示 クリックできないようになっているので ( 図 3 ) 、 る " を選んで次に進みます。 セキュリティ・レベルの言又疋 、、承諾す の HDD が以下のように分割されました。 ますし 4 、スワップ領域もメモリ容量 ( 256MB ) に対して /home パーティションは仮想 HDD を追加すればすみ /dev/sda6 : /home パーティション ( 約 2.7GB ) ・ /dev/sda5 : スワップ領域 ( 約 894MB ) /dev/sdal : ルート ( / ) パーティション ( 約 4.3GB ) はパーティションの開始セクタや容量カ嗷値で入力できます。 6 図 6 で [ エキスパートモードに切り替え ] をクリックしておくと、図 7 で ンストールせざるをえません。 5 この閥 ; 皆でもとに戻る手段はないので、間違いに気づいたときは、最初からイ HDD ファイルをコピーするだけでよい ) 。 に割り当てておくと、バックアップがたいへん簡単におこなえます ( 仮想 4 VMware では、バックアッフ対・象のパーティションを孑虫立したイ反想 HDD なパーティションを作成します ( 図 7 ) 6 。以前にも書いた 下に [ 作成 ] ボタンカれるので、これをクリックして必要 名前 (sda) の下の部分をクリックします。すると、画面左 態ではパーティションカス疋されていないので、 HDD の 手動設定を選ぶと、図 6 の定画面カ観れます。初期状 設定 " を選びました。 ルしなおして 5 、図 5 の画面でンヾーティションを手動で 大きすぎるように思います。そこで、最初からインストー 137

3. UNIX MAGAZINE 2006年3月号

図 3 同一トラック上のアクセス順序は不定 1 ケース 2 図 4 複数トラックにまたがるテータの I/O 順序は不定 ・ wait ケース 1 9 2 3 4 5 6 7 wait 30 14 29 ケース 2 ケース 1 13 27 28 12 26 10 32 25 9 17 1 24 8 2 3 4 20 23 7 22 6 8 4 畄致 4 : セクタのアクセス順序は不定である 30 などのシリコンディスクでも成立する。 あるが ) あてはまる。とくに、特徴 1 ~ 3 は FlashROM こまでに挙げた性質は、 HDD 以外にも ( 程度の差は 側にある場合、セクタ 1 ~ 16 がさきになる。 一方、ケース 2 のようにヘッドが目的のセクタよりも内 りもさきに書き込まれる。 ラックよりも外側にある場合、セクタ 17 ~ 32 は 1 ~ 16 よ ケース 1 のように、ヘッドが目的とするセクタを含むト おこないたいとする。 今度は、図 4 の状態で、セクタ 1 ~ 32 にすべて書込みを えるからだ。 1 または 3 、 1 、 2 の順で書き込む。そのほうが早く書き終 ったとしよう。この場合、 NVM は効率を重視して、 2 、 3 、 ら、ちょうどセクタ 1 の真ん中あたりがヘッドの直下にな 一方、ケース 2 のようにヘッドをトラック上に移動した のように 1 、 2 、 3 の川頁でセクタに書き込むことになる。 という指示が与えられたとする。多くの場合は、ケース 1 ・セクタ 1 から 3 セクタぶん書き込め たとえば、図 3 のようなセクタ配置に対し、 ック間の順序不定問題である。 ートラック上のアクセス川印不定問題、そして、複数トラ これには 2 つの理由がある。今回のモデルであれば、同 ストレーシ全体のモデル UNIX MAGAZINE 2006.3 PC からストレージにデータを書き込む場合、データの もに失われる。 ロ内されているデータは、電源断 ( リセットも含む ) とと Read/Write バッフアはたんなるメモリである。 つながっており、ストレージ外部との通信制御もおこなう。 ストレージ全体を制御している。また、接続ケープルとも (Read/Write バッファおよび NVM) とつながっており、 アがある。これは、ストレージを構成するすべての要素 ストレージ側には、 Controller 2 というハードウェ で制御することはできない。 このため、データ転送のタイミングを HDD 側の都合だけ ケープルに複数のストレージがつながっていることもある。 量は固定で通信速度は変わらない。ときには、単一の接続 送容量が大きく、遅延 (latency) も大きい。また、輔医容 プルのことである (iSCSI なども含まれる ) 。基本的に、転 接続ケープルとは、 ATA や SATA 、 SCSI などのケー スドライバもある。 データ転送を管理する。 ControIIer 1 を管理するデバイ 接続ケープルを介して HDD とメインメモリとのあいだの 際の言 t 算機では、 ATA コントローラなどである。これは、 PC には、 ControIIer 1 というハードウェアがある。実 る側カ第 t 算機本体、 HDD がストレージである。 NVM 以外の部分についてのモデルだ。 PC と書かれてい 図 2 は、計算機とストレージ、ならびにストレージの

4. UNIX MAGAZINE 2006年3月号

特集 図 5 PC からストレージに書き込む際のテータの不舞カ川頁序 メインメモリ ステップ 1 デバイスドライバ PC HDD / ヾッファ Read/Write ControIIer 1 接続ケーカレ Controller 2 ステップ 2 : NVM ( 不揮発性メディア ) 移動順序は図 5 のように 2 段階になる。 ステップ 1 : データを PC のメインメモリからトレージの Read/Write バッフアへコピーする。 ステップ 2 :Read/Write バッファ上のデータを NVM に書き込む。 メインメモリから NVM へ直接データを書き込むことは できない。 a) 接続ケープル上をデータカ毓れるタイミングは、厳密 には制御できない b) 接続ケープル上をデータが流れる速度は、 NVM に書 き込める速度とは無関係に決まっている c) NVM は、書込み速度に厳密に合わせたかたちでデー タを受け取らなくてはならない という 3 つの要件に合わせるには、 Read/Write バッファ という、、高速な中間バッファ " が必要なのだ。 さきほど述べたとおり、 Read/Write バッフア自体は不 揮発性ではなく、ここに置かれたデータは電源断と同時に 消失する。したがって、データをバッフアに中幻去した段階 では偂醍 1 の要件は満たされていない。 FIush Cache 命令は、 Read/Write バッファ上にあり、 まだ NVM に書き込んでいないデータをすべて NVM に 書き込めという命令である。 UN 工 X MAGAZ 工 NE 2006.3 仮想ストレージとしてのファイルシステム [ 1 ] このモデルでは、、、過去に送ったェ番目のデータだけを 優先して HDD に書き込め " という命令はないので、 Flush cache 命令は上記のステップ 2 を強制できる唯一の方法に なる。また、いったん Read/Write バッフアに到達した 書込み命令は、それ以降、状態を追跡する術はなくなる。 一部の HDD には、 write キャッシュという機能があ る。この機能が ON になっていると、ステップ 1 が完了 した時点で write 命令が終了したことになる。 OFF にな っていると、ステップ 2 が完了するまで write 命令の終 了にはならない。 この機能はその名とは異なり、 write キャッシュを OFF にしても Read/Write バッフアを経由せずにデータを直 接書き込めるわけではない。さらに、最近の HDD には write キャッシュを OFF にできないものも多い。とく に、 ATA 系の廉価なドライプではその傾向か顳著である。 そこで、今回のモデルでは write キャッシュを OFF にす る機能は仮定しない。 Read/Write バッフアの容量は、 NVM 自身の転送速度 や書込み遅延などにより適切なサイズか変化する。今日の HDD では、 16MB ほどにもなる。この容量を効率的に活 用するため、最近のストレージは特徴的な動き方をする。 特徴 5 : Out of Order 読み書き要求のストレージへの到達速度が NVM の I/O 速度を上回ると、いくつもの命令が実行待ち状態にな る。このとき、 PC から与えられた命令の川印ではなく、ス トレージにとって都合のよい川印で読み書きをおこなうと、 ヘッドシークなどのオーバーヘッドによる無駄な時間が減 り、総合的な I/O 性能力痾上する。それには、ストレージ に与えられた命令川印事を Out of Order で処理できなくて はならない。これを、、 NCQ (Native Command Queu- ing)" と呼ぶ。 NCQ はオーバーヘッドを低減するが、 NVM への読み 書き川印茅は予想すらできなくなる。 書込み順序がまったく保証されず、次々に読み書きの命 令カリ着し続けると、永遠に NVM に到達しないデータが 発生するおそれがある 4 。書込みに順序保証を求める場合 4 A 、 B 、 C という 3 つのデータを書き込もうとしたとする。さきに B と C を書き込んだほうカ上糾よよい。そこで、そうする。ところが、そのあい だに新しいデータ D 、 E がやってくる。 A よりも前に D と E を書き込 んだほうカ上がよいので・・・・。こうして、 A は永久に取り残される。 31

5. UNIX MAGAZINE 2006年3月号

Newtech 自開発 RAI ロコントローラによる 独自の RA 旧構成が実現 さりに高いレベルの冗長性 / 信頼 コストパフォーマンス テスクバックアップやレプリケーションに最適 SATA - R D に搭載される HDD はすでに 500GB クラスとなり、数年前とは全く比較にな らないほど大容量 / 高密度化が進んでいます。しかし高密度化の弊害として、 Bad Block の発生が非常に多くなり、システムの安定運用に支障を来たすケースも見受けられるように なってきました。ニューテックは Bad 日 ock による障害の予防機能を RAID コントローラに 3LJ ラックマウントモデル 実装し、 RAID に対し本来最も求められるノンストップ性能を向上させることに成功しました。 ・【 New 】低消費電力モードを実装 ・スペアコンバート 500GB 載モデル スペアのハードディスクが無い時、例えばトリプルミラーなどからドライ Evo 順 ion シリーズでは、低消費電力モードをニ段階に HDD ハーフ実装モデル登場 ! プをスペアとして借りて来てリビルドに使う機能です。日 D ・ 5 + 1 の場 わけて実現させました。一段目では数分間ホストからア 合は、ストライプ内のミラーセットのハードディスクが 2 台とも故障してし クセスが無い場合、ハードディスクを低電力アイド丿ングモー まった時、別のミラーセットからスペアを借りる仕様になってし、ます。 マ HDD ハーフ実装 / ホストインターフェース SC 引モデルマ全て標準価格 ドに移行させます。このモ - ドではホストから命令を受付 ■誤ってディスクを抜かない、安心の電子ロッ 250GBX8 ( 1.75TB / NEV250G8SA3U/LU) Y880 , OOO けても瞬間的に通常モードへ復帰します。ニ段目では ク式ディスクホルダーを採用 数十分間ホストからアクセスが無い場合にハードティス マ HDD フル実装 / ホストインターフェース SC 引モデル ラックマウント 250GBX16 ( 375TB / NEV250G16SA3U/LU) クのスビンドルモータを停止させてスタンバイモードへと YI , 080 , 000 ・七色に光る LED で HDD の詳細なステー モデル 移行します。この場合、ホストから命令を受付けてから復 400GBX16 ( 6. OTB / NEV400G16SA3U/LU) VI , 480 , 000 タスを表示 帰には十数秒掛かります。 500GBX16 ( 7.5TB / NEV500G16SA3U/LU) VI , 680 , 000 ・シリアル ATA Ⅱの HDD を搭載 マ HDD ハーフ実装 / ホストインターフェース 2Gbit FC オプティカルモデル ■【 New 】 64bit LBA のサポート 250GBX8 ( 1.75TB / NEV250G8SA3U/OP2) Y998 , OOO ( 2TB を超えるボリュームサービス ) マ日 AID5 + 1 構成の仕組み マ HDD フル実装 / ホストインターフェース 2Gbit FC オプティカルモデル これまでは SCS ロマンドでサポ - トされるプロックアドレ 250GBX16 ( 3.75TB / NEV250G16SA3U/OP2) YI , 180 , 000 ストライバ スは 32bit だったため、一つのポリュームの最大は 2TB が 400GBX16 ( 6. OTB / NEV400G16SA3U/OP2) YI , 580 , 000 ユニットレイヤ 制限になっていましたが、 LBA64bit 化により 2TB 以上 500GBX16 ( 7.5TB / NEV500G16SA3U/OP2) YI ,780,000 ( 日川 D ・ 0 / 3 / 4 / 5 の構成 ) のポリュ - ムサービスの提供が可能になりました。なお、 64bitLBA は OS や SCS ドライバのサポートに依存します マ HDD ハーフ実装 / ホストインターフェース SC 引モデルマ全て標準価格 ので導入時は弊社にご相談ください。 論理ドライプ 250GBX6 ( 1.25TB / NEV250G6SA2U/LU) Y698 , OOO ・バッドプロックバトロール機能 マ HDD フル実装 / ホストインターフェース SC 引モデル ラックマウント 従来の弊社日 D -5 製品の場合、 HDD の未使用領域に存在する 250GBX12 ( 2.75TB / NEV250G12SA2U/LU) Y880 , OOO ミラーリング Bad BlOCk はバッドプロックスクラブという機能を手動で起動してつふ モデル 400GBX12 ( 4.4TB / NEV400G12SA2U/LU) YI , 180,000 ユニットレイヤ していくしか方法がありませんでした。 Evo ⅳれ on 日 SATA R 川 D に搭 500GBX12 ( 5.5TB / NEV500G12SA2U/LU) YI , 380 , 000 載された R D コントローラは、アクセスの少ないタイミングを自己判断 物理ドライプ しバッドプロックをつふしていく機能が搭載されました。ューザーの手 マ HDD ハーフ実装 / ホストインターフェース 2Gbit FC オプティカルモデル 間を省くと同時にパフォ - マンスの低下を防ぐ事が可能です。 ( 任意の数 / 最大 8 台 ) 250GBX6 ( 1 .25TB / NEV250G6SA2U/OP2) Y798 , 000 = 論理ドライプ ■業界初 ! 日 AID5 + 1 に対応 マ HDD フル実装 / ホストインターフェース 2Gbit FC オプティカルモデル のミラーリング HDD のミラーセットを束ねて R D5 を構成し、 R D5 + 1 を実現してい 250GBX12 ( 2.75TB / NEV250G12SA2U/OP2) Y980 , OOO ます。一般的な R D5 より使用容量は少なくなりますが、さらなる冗長 400GBX12 ( 4.4TB / NEV400G12SA2U/OP2) VI ,280,000 個々の論理ドライブを各々任意の数の物理ドライブで 性を確保できます。 500GBX12 ( 5.5TB / NEV500G12SA2U/OP2) VI ,480,000 構成できます ( 最大 8 台 ) 。例えば、ストライバの設定が ・新構造のマルチミラー対応 日 D -5 で、ミラーリング層でそれぞれの論理ドライブを 2 1 ~ 3 年目オンサイト保守契約 ( 年額 ) NO-NEV Y95 , 000 台の物理ドライブで構成すれば R D -5 + 1 が構成可能 パリティ付きストライバユニットのレイヤとミラーユニットのレイヤに分か 4 ~ 5 年目オンサイト保守契約 ( 部材費込 / 年額 ) NOS-NEV Y260 , 000 れる特殊な構造をしています。ミラーユニットの論理ドライプは、複数の です。また、それぞれの論理ドライプが、各一台の物理ド 4 ~ 5 年目センドバック保守契約 ( 部材費込 / 年額 ) NS-NEV 物理ドライブで構成でき、最大で 8 台のミラー構成も可能です。これに VI 30 , 000 ライブで構成すれば、 - 般的な R D -5 となります。 3 年間オンサイト保守契約 ( 部材費込 ) よりランダム Read の性能が向上しています。 NO-NEV/Y3 VI 80 , 000 0 1.25 ~ 5.5 調 2LJ ラックマウントモデル 1.75 調 ~ 乃調 一三こ 一 = こ三 2 。。 6 年 3 月 1 日発行 ( 毎月 1 回 1 日発行 ) 第巻第 3 号通巻号 R D5 時 最大容量 R D5 時 最大容量 ラックマウント 3U/2U 保守契約 災害対策ストレージご導入キャンペーン 0 Ⅳ印 0 0 5 ⅵ但間 マ遠隔旧非同期レプリケーションモデル 遠隔に配置された 2 台のニューテックストレージ間にて、同一のデータを自動的に保持します。 NRS-NEV2TB-AlM 10 セット限定価格 Y4 , 980 , 000 (EvoIutionII SATA NAS 3U (250GBX 14 ) 十同 (4CX)GBX14 ) 、容量 : 2TB 標準価格 V7 , 690 , 000 ) ※別途、構築・現地調整・保守費が必要になります。 マスナップショット & 仮想ポリューム管理ゲートウェイモデル 既存のニューテックストレージを利用して、ストレージ筺体間のスナップショットコピーを実現するゲー トウェイです。 NMV オプションを追加することにより、仮想ポリューム管理が可能になります。 N RS-SSGW ( ゲートウェイ BOX 標準価格 \2 , , 网 ) 10 セット限定価格 VI , 498 , 000 NRS-NMV-B ( NMV オプション標準価格 Y162 , 000 ) 10 セット限定価格 YI 62 , 000 ※ディスク装置は含まれておりません。お客様お手持ちのニューテックストレージ及び、新規ご購入のニューテックス トレージがご利用いただけます。※ディスク容量は、スナップショット領域も含め、総容量 6TB まで接続可能です ( ソフ トウェアのライセンス上限 ) 。 6TB 以上をご希望の場合はご相談ください。※別途ホストコンピュータ側に FC HBA が 必要です。※別途、構築・現地調整・保守費が必要になります。 iSC 引推進キャンペーン【第一弾】 iSC お試しバック ・ネットワーク経由で SCS げィ スクが接続可能。 EMC2 叫 朝旧をⅲー研 m 誂 i 聞ーⅳ ドライバをインストールするだ けでローカルディスクとして 使えます。 ・複数のマシンで AXIOOi を 共有。 XIO シリーズ ・ 500GB モデルも新登場。 NAXI 00 / 500G ト 12C お試しバック V2 , 280 , 000 ( AX100i デュアルコントローラ 500GB / SATAX12 、 120V - UPS 標準価格 V2 , 703 , 100 ) NAXI OOSC / 160G ト 12C お試しバック Y952 , 000 ( AX100i シングルコントローラ 160GB / SATAX12 標準価格 VI , 127 , 750 ) 限定 10 セット 特別価格 キャンペーン マ遠隔旧非同期レプリケーション Solaris Linux WindOWS AIX WindOWS FC または iSW 接続 本番系ストージ ( ロ - カル ) キャンペーン期間 2006 年 3 月 31 日まで コンピュータ 最大 5 台まで対応 FC または iSCSl 接続 ・ Windows 用のイニシェータ ー皿 FC スイッチ ( 別売 ) ホストコンビュータ 1 台の場合は不要 予備系ストレ ーシ ( 遠 ) い N ′ WAN 経由で、 ディスクのプロック単位 増分データの転送 年度末キャンペーン実施中 ! 詳しくは弊社ホームページをこ覧ください ・製品価格に消費税は含まれておりません。 株式会社ニューテック 〒 105-0012 東京都港区芝大門 1 -7-7 浜松町 K ビル ・一般に、各商品名は各社の登録商標または商標です。 http:uwww.newtech.co.jp/ 新カタログ完成 ! TEL : 03-5777-0852 FAX : 03-5777-0853 e-mail:sales@newtech.co.jp 4 9 1 0 0 8 9 0 1 0 5 6 5 0 1 0 4 8 定価 1 , 100 円一 雑誌 08901-3 株式会社アスキー

6. UNIX MAGAZINE 2006年3月号

は、あいだに FIush Cache 命令を挟んで側を確保する すでに Read/Write バッファ上にあるデータへの読込 必要がある。このような処理を、、 write Barrier" と呼ぶ。 み要求があった場合、ストレージは NVM を参照せずにバ 複数の Write Barrier 間にある書込み命令は、どのよう ッファ上のデータを言 t 算機に返す。これは、 Read/Write な川印で実行してもかまわない。しかし、いったん write バッファ上に存在するが、まだ NVM に書き込まれていな Barrier に到達したら、 Barrier よりも前にあるすべての いデータについても同様である。 ダーテイデータ (dirty data) を書き終えるまで、次のデ たとえば、 HDD に書込み命令を発行したとする。 Flush ータを書込みにいってはいけない。 Cache を実行する前に言囚みリクエストを発行すると、た 読込み順序を保証しなければならない場合は、さきに しかに HDD から同じデータが返ってくるだろう。だが、 実行する必要のある読込み命令カ院了するまで次の命令を この段階ではデータがプラッタに書き込まれたという保証 与えないというかたちで制御する必要がある。これには、 はない。つまり、電源断が生じると、、読み込めたデータで TCP/IP などの場合と同じく、 Sliding Window を使う あっても " 失われる可能性がある。 のが一的である。 仮に Flush Cache 命令を実行し、ストレージ側はデー タが NVM に転送されたと主張したとしよう。ところが、 # ギ徴 6 : Lazy write 実際には NVM カ員しているかもしれない。ここで特 計算機側に、可及的速やかに NVM に中幻医する必要のあ 徴 1 を思い出してもらいたい。書込み中は、 NVM の中身 るデータがある場合は、 Flush Cache などの書込み命令が は確認できないのだ。かといって、計算機側から同一領域 発行されるはずだ。逆にいえば、これがくるまでに電源断 への言囚み要求を発行しても、 Read/Write バッファ上の が発生したら、データカ趺われてもかまわないことになる。 データカ弡ってくるだけで、 NVM の状態は確認できない。 よって、 FIush Cache 命令が発行された場合を除き、ス Read/Write バッファ上からデータがなくなり、 NVM トレージは PC から転送されたデータを即座に NVM に を読みにいかなくてはいけないような読込み命令が発生し 書き込もうとはしない。 ている場合は、メインメモリにも目的のデータはないこと 書込みの遅延には、次のようなメリットがある。 が多い。メインメモリのほうカ溶量が圧倒的に大きく、か っそこに目的のデータがあるあいだは、そもそもストレー ・同一のプロックへの上書き命令があとからやってきて、 ジに言囚み命令など発生しないからだ。この段階で、 NVM NVM への書込み回数を減らせるかもしれない。 カ蔀皮損していて、目的のデータがきちんと書き込まれてい 複数の I/O 命令を蓄えることで NCQ の効果が軍さ なかったことが分かっても手遅れである。 れ、総合的なスルーブットカ可司ーヒするかもしれない。 本来、この問題を回避するには、、 Read after write" 型 ただし、あまりに多くのデータを NVM に書き込まない の書込み命令を使う。つまり、 NVM に書き込んだあと、 まま蓄積してしまうと、次のようなデメリットが生じる。 NVM からデータを再度読み込み、 Read/Write バッファ ・電源断によって失われるデータ量カ社曽大する。 上のデータと比較してエラーがないかを確認する。この方 ・ Read/Write バッフアが書込みデータで一杯になって 法では、 NVM に書き込んだあと、同じセクタを読み出す しまい、 NCQ か読込み処理をさきにおこなおうとした 必要があるぶん、実行時間が長くなる。 とき、 Read / Write バッフアに空き領域がないという状 ところが、話はここで終らない。たいていの NVM は、 態に陥るかもしれない。 売込み時にも物理的破損を起こす危険性がある。 HDD で あれば、ヘッドがプラッタに着地する場合などがそれだ。 これらの長短のバランスをとるには、ストレージ自身の こうなると、 内部情報カ坏可欠になる。このため、 Controller 2 の専任 事項として処理され、ストレージの挙動の予測はますます ・ Read after Write を実行し、読込み時に NVM カ蔀皮 困難になる。 損するリスクを負う 榻徴 7 : 書込みのイ新寉定性 ・ write 十 Flush Cache だけを実行し、 NVM の石員が 一三ロ 32 UN 工 X MAGAZINE 2006 . 3

7. UNIX MAGAZINE 2006年3月号

特集 はじめに 仮想ストレージとしてのファイルシステム [ ] ] 奥山健一 最近、、、仮想化 " というキーワードが大人気である。言 t 算 機のリソースのほとんどが仮想化さ楸複数の実言 t 算機を 渡り歩く機能も実装されつつある。 そのなかで、長い歴史をもちながら、軽視されている仮 想化技術がある。 それが、、ファイルシステム " だ。、、ストレージ " を仮想化 するための技術の 1 つである。 30 年以上もの歴史があるため、ファイルシステムの機 能はまことに多種多様である。とくに、 UNIX やその子孫 たちの場合は、デバイスへのアクセスもセキュリティ機能 も、すべてファイルシステムの機能をベースに作られてい る。その守備範囲は広大だ。 以下では、そのファイルシステムにおける、、ストレージ のイ反想北 " という機能に焦点を絞って説明する。ただし、初 期化や終了処理などの特殊なケースには触れない。 現在のほとんどの OS は、ファイルシステムに強く依存 している。ところが、当り前すぎるからか、ファイルシス テムが満たすべき要件を理解できない人が増えつつあるよ うだ。また、 HDD などの技術の進歩にともない、これま では有効だったいくつかの前提が成り立たなくなってきて もいる。、、ストレージ " のモデル化をやりなおす時期がき ているのだろう。 今回は、ファイルシステムの、、理想論 " についてお話しす る。まず、、、そもそも、何を期待してストレージを使うの か " から始める。次に、最近の HDD などのモデル化を試 みる。そして、それらの上にファイルシステムを作る際の 理想論を駆け足でみていくことにする。 26 理想的なファイルシステム 次回は、 Linux の各種ファイルシステムの評価、 project DOUBT などをとりあげる予定である。 ファイルシステムの必要性 計算機におけるストレージの彳殳割 本誌の読者の多くは、 1 台以上の計算機を日常的に操作 し、それらの保守管理もおこなっているだろう。 PC のハ ードウェア構成についても、ある程度は理解しているにち がいない。 そこで質問を 1 つ。 「手近にある PC に、電源を切っても情報をイ尉寺できる部 品は何個あるだろうか ? 」 じつは 3 種類しかない。 ROM 、 CMOS 、そして外部 記億装置 ( ストレージ ) だけである。 ROM は、電源投入直後に実行される BIOS のような プログラムを十内するために利用される。 CPU が直接ア クセスできるなど、たいへん便利ではあるが、内容の変更 カ攤しいという弱点がある。 CMOS は、チップセットのなかにある。電力がボタン 電池で供給されるため、内容は電源を切ってもイ尉寺される。 ROM と同じく CPU からほば直接に値が参照できるし、 アクセスも高速だ。 ROM とは異なり、内容の変更も可能 である。ただし、容量はたった 256bit しかない。ボタン 電池で内容を何年も保持するため、大容量化は難しい ( そ もそも、 BIOS がすべてのビットを消費している ) 。 大容量で内容の読み書きができ、内容の保持によぶんな エネルギーを必要としない ( 長期間、大容量の情報を保持 UNIX MAGAZINE 2006.3

8. UNIX MAGAZINE 2006年3月号

システムワークスはカスタムマシンのプロフェッショナル。 豊富な取扱いパーツでご希望のシステムを構築します。 高い信頼性と性能を実現するフルカスタマイズ対応サーバシステム AMD Du Core DuaI Core ( ) systemworks Server System IU RackMount Server PC クラスタ構築サーピ次 OS を問わすに利用可能なハードウェア RAIDI コントローラ搭載。 バックアップ用等にさらに 1 台の HDD を追加搭載することも可能です メール通知機能等をサポートする Wind 。 ws / Linux 対応モニタリングソフトウェア付属 POWER MASTER ラックマウントサーバシリーズ DUCe 印 ti 町 4 。 P ¥ 140 700 ~ S7026 旧 t E7210 + ICH5 RAIDI 2 台 lntel E7230 Pentium D) ¥ 211 050 ~ 1 U S8041 RAID5 4 ム SATA ¥ 261 450 ~ lntel E7221 T8351 lntel 945G(Pentium D \ 1 16 550 ~ G8020 RAID 5 8 ム ( SATA) ¥ 497 280 ~ S7072 lntel E7221 ¥ 165 900 ~ T8103 lntel E7320 server RAIDI 2 ¥ 201 600 ~ 1 U T81 14 lntel E7320 server 4 ロ SATA \ 289 , 800 ~ T8390 lntel E7320 server RAID5 6 ロ (SATA) ¥ 414 , 750 ~ lntel E7520 server 2U i8034 RAID6 16 ロ (SATA) ¥ 794 , 745 ~ 3U T8255 lntel E7520 server 2 ¥ 148050 ~ nVIDIA nForce4 T8291 RAID5 4 ム SATA AMD8131 / 8111 2wa ¥ 319 725 ~ 1 U T8273 ¥ 565 950 ~ AMD8131 / 8111 4wa RAID5 W8012 2 ム SCSI ¥ 553 350 ~ AMD 8131 / 8111 4wa 21J T8123 ¥ 107 , 100 ~ lntel 855GME P7026 RAID 1 2 ¥ 144 900 ~ P7036 lntel 855GME ¥ 117 600 ~ M7001 lntel 915GM RAIDI 2 ム \ 155400 ~ lntel 915GM M701 1 ※掲載システム以外にも多くのシステムを販売しております。お気軽にお問合せください。 ※価格は構成のカスタマイズにより変動します。 ※ HDD は最大搭載可能数です。 豊富なラインアップから最適なシステムと専任スタッフによる良質な サポートを提供いたします RAI 0 System AMD Opteron 搭載。 4 台の S—ATAII HDD を RAID5 コントローラに接続。 XEON RackMount Server さ第物第・玉第物も 新〒予ヤ第一 64bit アドレス拡張を実装する新型の旧 tel XEON(FSB800)r プロセッサ搭載。 32bit 環境との完全な互換性を維持しな がら 64 羸◎アカ丿ケ = ションに対応— - ーー ' チップセット 価格 ( 税込 ) HDD RAID モデル RAID6 1 / 2 RackMount Server AMD 0 を第を第第 議貶 3 田 E8 前後両方からキャビネットにマウントすることで 高密度化を実現計算サーバ等に最適です。 ー寰中中中当 : 田当田 : を : 中第第物当当写第第 ショトキャネットで Sing 厄マウント、 標準キャビネットで Dua マウント可能 オフィス等への設置に最適な 21J 静音サバ 高寅度クラスタや静音クラスタサー / ヾなど、ご 希望の 目的に合。尨クラスタシステムを設日第造します。 3 power Master R の Bseries RAlD6 S-ATAII(3Gb/sec) 対応 ! RAID6 対応により高い耐障害性を実現。 ~ 1 6 台の S-ATAII(3Gb/sec) HDD 搭載可能 第 RAID ー 0 / 1 / 3 / 5 / 6 / 30 / 50 / JBOD 対応 静音ファンを採用し、内部の空気の ・ te ト i80331 667Mhz CPU 搭載 ・ DualåUltra320 SCSI / Fibre インターフェース 流れを最適化する事で、冷却性能 ーホットスワップ対応リダンダント電源 / ファン を確保しながら高い静音性を実現 •Linux / FreeBSD / Windows2003 / 2000 / NT 対応 しています。オフィスや研究室内へ HDD トレイや冷却ファン、電源モジュールなどのスペアパーツも各種取扱い中 ! の設置に最諠です。 NAS 1 ' 静 &Rackmount Server RAI 06 Power Master NAS series NAS 専用 OS を搭載し、各種ステータスの監視、ボリューム の共有設定やネットワーク構成など Web べースの GUI から 簡単に行う事が出来ます。またハードウェア構成のカスタ マイズにより、最適なジステムを構築することが出来ます。 低消費電力システム lntel PentiumM プロセッサを搭載 ドライ / や下要のホットワップ対応 R DI コントローラ搭載。 AMD の低電力版のプロセッサ、 AMD Opteron HE / EE 搭載システムも選択いただけます。 最新の DuaI Core PentiumD や AthIon 64X2 搭載システムも選択いただけます。 主要納入実績 ( 研究機関や教育機関のご紹介 ) wwwsystemworks.co•JP イメージ情報料学研究所、字宙開発事業団、字宙料学研究所、 N 放送技術研究所、料学技術興事業団、核融合料学研究所 、京都高度技術研究所、建第研究所、高エネルギー加速器研究機構、国土地理院、国立医薹品食品衛生研究所、国立環境研究 所、国立天文台、産業安全研究所、産業技術総合研究所、水産総合研究センター、総合地球環境学研究所、体質研究会血液研 製品にもサポートにも確かな品質を提供。プロフェッショナル向けカスタムマシン 究所、地震予知総合研究援興会、東京都物神医学総合研究所、東京国立博物館、統計数理研究所、日本気象協会、日本原子 の専門ペンダーとして 14 年の実績。ペーシック pc から高性能ワークステーション / 力研究所、理化学研究所、リモートセンシンク技術センター 愛知大学、愛知技術短期大学、愛知教育大学、愛知工業大学、青山学第大学、秋田大学、期川料大学、石巻専第大学、茨 サーバ / 計測制御用コントローラまでお気軽にこ相談下さい。 大学、者手大学、岩手医科大学、字都宮大学、大分医料大学、大阪大学、大阪市立大学、大仮教育大学、大阪工業大学、大阪 emw 研 国際女子短期大学、大谷女子大学、岡山大学、沖編国際大学、お茶の水女子大学、書川職業能力開発短期大学校、庭児第大 学、神奈川大学、神奈川県立窗生短期大学、金沢大学、金沢工業大学、関西大学、関西学険大学、関東学険大学、北第大学、 北見工業大学、岐阜大学、九州大学、九州芸術工料大学、九州工業大学、京都大学、京都工芸第大学、京都産業大学、京都 市立芸術大学、熊本大学、無本県立大学、群馬大学、慶応義塾大学、光輦女子知期大学、高知大学、神戸大学、神戸女学院大 学、滋買医料大学、静岡大学、静岡理工料大学、自治医料大学、芝濾工業大学、昭和第料大学、白物学園短期大学、仁愛女子 営業時間 システムワークス株式会社 短期大学、成域大学、清泉女子大学、総合研究大学険大学、千第大学、中央大学、中部大学、筑波大学、津田第大学、帝塚山 ( 月 ) ~ ( 金 ) 学院大学島根医科大学、東海大学、東京大学、東京医料歯料大学、東京学芸大学、東京工業大学、東京商船大学、東京女子大 学、東京女子医料大学、東京電機大学、東京都立大学、東京農工大学、東北大学、東洋大学、第島大学、第島文理大学、豊橋 〒 432-8045 静岡県浜松市西浅田 2 丁目 10 ー 22 浜松 S ビル 9 : OOam 技術科学大学、長岡技術科学大学、長第大学、長第線合科学大学、名古屋大学、名古屋工業大学、名古屋市立大学、奈良女子 大学、奈良先端料学技術大学険大学、南山大学、新満大学、日本大学、日本福社大学、 ^ 戸工業大学、広島大学、福井大学、 ~ 7 : OOpm 福岡教育大学、福岡工業大学、藤田保健衛生大学、防衛大学校、法政大学、北蘰先端料学技術大学、北海道大学、北海道情報 大学、明治大学、明治学大学、山形大学、山口大学、積浜国立大学、積浜市立大学、立命館大学、球大学、第谷大学、早種 田大学、官公庁や企業への実複も豊富です、お気軽にこ相談下さいを ProfessionaI Factory Services TEL 053-444-0411 FAX 053-444-0412

9. UNIX MAGAZINE 2006年3月号

図 8 餘されたかを dig で再石忍 $ dig @192 .168 . 1 . 1 nebula . example . com ー >>HEADER< く一 opcode : flags: qr aa rd ra; QUEST 工 ON SECT 工 ON: ;nebula . example . com. AUTHORITY SECT 工 ON: example . com. 問い合わせた名前がみつからない QUERY,: status : NXDOMAIN,E id: 53990 1 ′ ANSWER: 0 ′ AUTHOR 工 TY: 1 ′ ADD 工 TIONAL: 0 QUERY : 8 6 4 0 0 工 N 工 N SOA ANSWER SECTION がない ns . example . com. r00 に . ns . example . com. 2 0 0 6 012109 10 8 0 0 3 6 0 0 6 0 4 8 0 0 8 6 4 0 0 図 9 リソースレコード削除のメッセージ (DNS サーバーイ則 $ named -g ホスト A ( 192.168.10.100 ) から neb ⅵ a. examp 厄.com を . / 削除する処理をおこなった 14 ーこ an ー 2006 21 : 04 : 11.871 running : 14 ー Jan ー 2006 21 : 07 : 04 .124 client 192 .168 . 10 .100 # 54910 : updating zone 'example . com/工 ・ deletina rrset at ー nebula. examele . com' A : 14 ー Jan ー 2006 21 : 07 : 04 .125 journal file example . com. zone . jn1 does no し exist, creating 土し・ 図 10 ジャーナル・ファイルか作成されている $ IS ー 1 /etc/namedb/* . jnl 1 root s erver 19 2 . 16 8 . 1 . 1 図 11 addnebula ファイル r00 に ジャーナル・ファイルを作成した 730 Jan 14 21:07i/etc/namedb/exampIe . com. zone . jnl. 仁 example.com ソーンの ジャーナル・ファイルが作られた DNS サーバーを指定 update add nebula. example . com 86400 A 192 .168 . 1 .105 ・一リソースレコードを登録 send ァイルの作成時刻が一致していますね。 ジャーナル・ファイルについては、あとでもう一度とり あげます。 リソースレコードの登録 クラス、リソースレコードの種類、リソースレコードの値 す。また、用、 class 、 type 、 d 観佖には、それぞれ TTL 、 面 m ルれ佖 me は追加するリソースレコードの名前で update add dom れ - れ佖 me ttl [class] e da います。 は、 nsupdate プログラムの update add コマンドを使 次に、リソースレコードを登録してみましよう。これに 52 を指定します。 DNS サーバーにリクエストを送信 たとえば、さきほと消リ除した nebula.example.com を IP アドレス 192.168.1.105 で登録するには、 update add nebula. example . com 86400 A - 192. 168 . 1 . 105 とします。今回は、 nsupdate のバッチモードを使って登 録してみましよう。 コマンド列を登録したファイル 事前準備として、図 11 に示した、、 addnebula" ファイ ルを用意してください。このファイルには、 nsupdate の コマンド列カ己載されています。 1. server コマンドで Update リクエストを送る DNS サ ー ( 192.168.1.1 ) を指定 2. update add コマンドで nebula.example.com を登録 UNIX MAGAZINE 2006 . 3

10. UNIX MAGAZINE 2006年3月号

もちろん、この 2 点だけではない。ファイルシステムは 、、イ反想 " ストレージだから、提供する個々のファイルが相互 に独立している必要がある。つまり、 ・あるファイルへの操作が、別のファイルの内容に影響を 与えてはいけない のである。 たとえば、どこかの web ページからファイルをダウン ロードしている最中に電源断が起こったとしよう。その結 果、 /etc/passwd カれ、誰もログインできなくなった、 などという事態になっては困る。被害を受けたのが 1 つの ファイルだけならまだしも、ファイルシステム全体力鱇れ、 すべてのファイルを失う事態なと考えたくもないだろう。 ファイルへの操作は、 all or nothing で反映してほしい 中途半端な状態は困る。ファイルヘデータを書き込んでい る最中に電源断が発生したら、すべての更新をなかったこ とにするか、電源断前にすべての更新が終了していたかの ように振る舞うかの、どちらかにしてほしい。 中途半端な状態というのは、、、更新部分の頁から 10 バ イト目までしか反映されていない " といったお行儀のよい 場合ばかりとはかぎらない。 、、 1 バイトおきにしか反映さ れていない " とか、、、最後の 20 バイトだけ反映されてい る " といったこともありうる。 もっとも怖いのは、ファイルサイズを大きくし、そこに データを書き込もうとした際に起こった電源断である。た とえば、それ以前に別のファイルカ駛っていた領域を再利 用し、追加データを格納しようと決め、領域の再初期化を おこなう直前に電源断が生じたとする。この場合、その 領域にオ内されていた旧いデータが見える状態が発生した あるいは、メールの draft を書いている最中に電 源カ駱ち、再起動したところ、その draft に /etc/shadow の旧いデータが入っていたら・・ 。セキュリティ的な観 点からしても、これほど布いことはない。 、、ファイル更新が途中で止まった " と聞くと、ほとんどの人 は、ファイルの先頭から数バイトだけが更新され、その後 は手つかずの状態となる、、シーケンシャル更新の中断 " を 思い浮カべる。しかし、最近の HDD は指定したとおりの 川印茅ではプラッタ 2 に書かない場合が多い。もちろん、シー 2 、ハード " な、ディスク " のゆえんともいうべき、磁場でデータを言できる 板 ( ガラスなとでできている ) 。 28 ケンシャル更新を強制することもできるが、平均的な読み 書きの速度が大きく低下する。それなら、むしろ、、中途半 端なデータ更新 " をいっさい禁止するほうカ率的である。 中途半端なデータ更新を禁止することを、、 Atomic Up- date" という。多くの人はほとんど意識していないと思う が、 Atomic Update はファイルシステムに対する暗黙の 重要な要件である。 上記の要件は、仮想ストレージの基盤となる物理ストレ ージか皸損した場合は、実現されなくてもやむをえない。 仮想ストレージといえど、データ自体は物理ストレージ上 に格納されているが、その故障防止はファイルシステムの 守備範囲ではない。 こまで、仮想ストレージとしての、、実用的 " ファイルシ ステムに求められる最低限の前提をみてきた。一覧にする と、次のようになる。 くてもよい。 前提 6 : 以上は、物理ストレージが壊れた場合は満たせな 前提 5 : Atomic Update をサポートする。 ない。 前提 4 : ファイル操作によるファイルどうしの相互干渉は を指定する。 前提 3 : 各ファイルには名前があり、その名前でファイル 前提 2 : 電源断発生の予測は不可能である。 前提 1 : 電源断があってもデータを保持し続ける。 UN 工 X MAGAZINE 2006 . 3 図 1 から見ていこう。 今回、私がモデル化したストレージを図 1 ~ 2 に示す。 しい。 近の HDD はそういう性質をもっていると思って読んでほ てモデルを作ろう。一部、 j 日感があるかもしれないが、最 ますは、現在よく使われているストレージをベースとし ストレージの性質を考えなくてはならない。 それには、ファイルシステムを作るための、、土台 " である にして実装するかである。 ファイルシステムの前提は分かった。次は、これをいか ストレージのモデル化 に対応すること力外質的な最重要課題である。 の前提もある。ただし、あくまでも上記の 6 つの前提条件 実用上は、 POSIX インターフェイス仕オ、の準拠など