高速化 - みる会図書館

1. 月刊 C MAGAZINE 2001年10月号

特集 1 加殤ムの高速化・最適化ンク , 最終的に実行プログラムのイメージを生成するというプロセスをたどります開発の段階でデバッグの速度と容易性を重要視し , 稼働用のコードをリリースする段階で実行時の速度とサイズが最重要課題となります。最小かっ最高速のコードが必要な場合はアセンプリ言語を用いて書けばよいのですが , 最初からすべてをアセンプリ言語で記述するには , その作業コストとハードルがあまりにも高すぎます。なぜならアセンプリ言語で書かれたプログラムは高級言語で書かれたプログラムよりも複雑でひと目ではなかなか理解しづらく , デバッグ作業も困難になるからです。自分で書いたコードですら「えーっと , これは何をする部分だっけ」ということにもなりかねません。プロジェクトが大きくなるにつれてその傾向も強くなります。付録 CD-ROM<TOKUIYSrc}Sample> ディレクトリに収録されている SampIe. cpp と Sa mple. asm を見比べてみてください。アセンプリ言語がいまひとつわからない読者もいるかもしれませんが , これらはまったく同じ動作をするプログラムです。命令の数などを一般的に見比べた場合 , どちらが理解しやすいでしようか。同じ動きをするプログラムであるにもかかわらず , C 言語で書かれたほうが ( 一部のアセンプリ言語信奉者を除き ) 圧倒的にわかりやすいと思います。もしこのプログラムの結果に 1.47 倍した数値を返すように改造しようとした場合 , 前者は最後の行に " * 1.47 " と記述すればよいものを , 後者は複数の行にわたるアセンプリ言語を追加しなければならなくなります。この差は火を見るよりも明らかで , 作業効率へダイレクトに響きます。また , ショボショボのアルゴリズムをいくらアセンプリ言語で記述したところで , 最近の非常に優れたコンパイラによる強力な最適化処理には遠く及びません。「アセンプリ言語で書いたコードよりも C 言語で普通に書いたほうが高速だった」という最悪の結果を招くことにもなります。したがって , 何でもかんでもアセンプリで圭けばよいというものではありませ「コロロ E ヨん。最初のうちはなるべく高級言語で十分最適化し , よりよいアルゴリズムを導いてそれを実装してからアセンプリ言語で最適化する , という手順を踏むのがもっとも作業効率が高く , プログラム高速化への近道だといえるでしよう。高速化は適切な場所で行うプログラムはただ高速化すればよいか ? というと , 必ずしもそうとは限りません。高速化が必要な場所と必要でない場所をよく選んで高速化するべきです。高速化が必要ない部分としては , たとえばキーストロークを判定するときなどです。毎秒 60 フレームで画面表示されるゲームを作ったとします。このゲームのキーチェックプログラムの部分を高速化して 1 / 600 秒に 1 回チェックできるようになったとしても , ゲームとして画面に表示されるのは 1 / 6 0 秒に 1 回なので , この高速化は何の意味もないことになります。このような場合は速度を最適化するよりも , プログラムサイズを優先した最適化を行うべきで , より少ないコードで同じ処理をすることが大切になります。逆に 3D の座標計算や行列の計算など , プログラムの目的に直接つながる部分で , 通常処理にも比較的時間がかかり , かっ何度も使用されるコードについては実行速度を最優先して最適化するべきなのです。 C 言語での最適化本特集のような内容を文章だけで説明されてもなかなか理解できるものではないし , こからはプロおもしろくもありません。グラム例を用いて解説していきます。 C 言語での最適化にはたくさんの方法がありますが , もっとも一般的なものから順に説明していきます。なお , 補足的な Tips のテキストファイルを付録 CD-ROM<TOKU IYfips> ディレクトリに収録してあります。本文中に第 ps の存在を記しておくので , あわせてご覧ください。メモリアクセスを削減する List1 は , ループの終了条件をチェックする際 , ケース 1 ではカウンタを 1 引いてその結果をメモリと比べるのに対し , ケース 2 ではメモリにアクセスせずカウンタ ( たいていの場合レジスタ ) から 1 を引いてそれが 0 かどうかをチェックするだけです。プログラムサイズでもケース 2 のほうが多少小さくなるでしよう。ただ , この手の最適化は今どきのコンパイラであれば ( ループ内に複雑な計算を含まない限り ) , たいてい自動的に行ってくれるでしよう。理由 : 一般的にメモリアクセスよりレジスタアクセスのほうが高速であるため使用される場所 : メモリアクセスしそうな場所 ( ループ処理中の比較・条件分岐など ) 計算方法の工夫式の中で共通する部分を見つけ , 計算数がなるべく少なくなるようにプログラムを工夫します。 List2 のケース 1 はケース 2 と同じ結果をもたらしますが , ケース 2 のほう fo ヨセ土 = 土く土十十 ) fo て ( int 土 = 新 ) void reduceAccess( int れ ) ・ケース 2 void reduceAccess( セ n ) ・ケース 1 1 IS メモリアクセスを削減する旧 2 計算方法の工夫① ・ケース 1 int deformation( 加セ x, int Y, 土れセ響 , a ) て・に【 n X * ( 物十 a) 十 y * ( 響十 a) 十 z ま ( 響十 a); ・ケース 2 int fo て新は旦 on ( int も int int も蚯にに a ) て・セ u て n (x 十 y 十 2 ) ( 響十 a 特集 1 プログラムの高速化・最適化 21

2. 月刊 C MAGAZINE 2001年10月号

が圧倒的に少ない計算量で解を導いています。さらにそのぶんプログラムサイズも小さくなっているはずです。 List3 に示す例のように , 規則性のある計算の場合にも演算回数を減らしてプログラムを高速化することができます。理由 : ムダな計算をしないように改善すれば高速化が見込めるため使用される場所 : 計算される場所すべて ( とくに複雑な計算が行われる場所 ) ポイント : アルゴリズムに気をつけるループをまとめる List4 はかなり強引な例ですが , ケース 1 はケース 2 のようにまとめることができます。これはループの終了条件をチェックする際に分岐が起こるため , チェック回数 ( 分岐回数 ) の少ないケース 2 のほうが速く計算方法の工夫② 十 5*x*x*x*x 十 4*x*x*x 十 3*x*x 十 2 1 x*5 ( x * 4 十 ( x * 3 十 ( x * 2 十て・ tu てれ ( 1 十 int defo て新 a 0n2 ( int x ・ケース 2 てれ ( int d ・ fo ェ ma 0n2 ( に x ・ケース 1 3 ループをまとめる lSt fo て ( int 土 = 土 < 丐土十十 = ⅵ幻 + 新 fo て ( int 土第・ケース 1 4 void mma 工臧ル 00P ( int *x, 加セ *y, int n ) 土十十なります。また変数 i が配列のインデックスとして用いられているため , データを参照する回数も減らすことができます。ただし , こういったケースでは計算順序を間違えないように注意しなければなりません。理由 : 条件分岐やデータの参照回数を減らすため使用される場所 : 同じ条件でループするような場所命令の優先順位 ( その 1 ) 浮動小数点の計算では , 除算ではなくなるべく乗算を使います。世の中にあるほとんどのプロセッサでは除算は乗算に比べてきわめて低速に動作します。つまり List5 はケース 2 のほうが高速ということになります。 List6 のような場合は , 乗算を加算で置き換えたケース 2 のほうが速くなります。加算は乗算よりも高速に動作します。実行にかかる時間は「加算く乗算く除算」の順であると覚えておいてください [ 1 い 01 ] 。理由 : プロセッサの作業効率を上げるため使用される場所 : ループ中繰り返し実行される計算が含まれる場所命令の優先順位 ( 乗算・除算 ) void Array1( double *x, double d ) ・ケース 2 x[il / = の fO て ( int 土 = く 1000 十十 void Array1( do 地 *x, double d ) ・ケース 1 5 fo て ( 土れし i = 土《 1000 土十十 float rd = 1. Of / 命令の優先順位 ( 加算・乗算 ) List xti * 引 = fO て ( int = 1 く void Array2( int , int 日 , int れ ) ・ケース 1 6 命令の優先順位 ( その 2 ) 先ほどの優先順位の補足的な形になってしまいますが , データのシフトをうまく利用して計算方法を工夫することもできます。説明するまでもありませんが , データはバイナリレベルで左にシフトされると値は 2 倍 , 4 倍 , 8 倍・・・・・・と増えていき , 右にシフトすると値は 1 / 2 , 1 / 4 , ・・・となります。・ケース 2 void gumma 2 ・石 00P ( int *x, int *y, fO て ( int = 土く土十十 ) = x は = x は = ⅵ幻 * 新 int n VOid て ay2 ( え n セ社 , int 町 int n ) ・ケース 2 fO て ( 土れセ 1 = 土十十 ) = く土十十 , ゴ十 = 8 この性質をうまく使えば , List 7 のような乗算も , シフトと足し算の命令に置き換えることができます。理由 : プロセッサの作業効率を考えるため使用される場所 : 簡単な計算が実行されるところ条件分岐の順序条件分岐 ( if 文 ) を使うときは発生しそうな条件から順番に並べます。 List8 のように発生する確率が高いほうからチェックするようにしておけば , 余分な条件分岐をしなくて済みます。また同じ分岐先であるのなら , 論理演算を使ってそれぞれのフラグをひとまとめにしてから分岐するというテクニックもあります理由 : 条件分岐をなるべく減らすため使用される場所 : 条件が重なるような分岐ポイント条件分岐を減らす最近の長いパイプラインを備えたプロセッサでは , 条件分岐がポトルネックになります。なぜかというと , プロセッサは実行されるコードが命令プリフェッチによって実行前にあらかじめパイプラインに読み込まれてから処理される仕組みだからですこのときプロセッサは条件分岐を予測するのですが , 読み込まれた命令はプロセッサが命令ストリームを正しく予測できるときにのみ機能することになります。実行時 , どこに分岐するかという予測をプロセッサ 0 0 ラインはいったんフラッシュされ , 正しいが誤った場合 , プリフェッチされたパイプ 22 c MAGAZINE 2001 10

3. 月刊 C MAGAZINE 2001年10月号

特集工加殤ムの高速化・最適化てください。せつかく用意されている便利で高速な計算手段を利用しない手はありません。また筆者がユーザからいただく反応や , 世の中にあふれるソフトの様子を見ていると「 MN Ⅸ対応ソフト」「 SSE 向けにカスタマイズされたソフト」など , そういった表示自体が一種のステータスにもなっているようです。もちろん実際に対応していないと何の意味もないので , もしこれらのことに触れたことのない人 , 触れてみたいと思っている方や , 少しでも関心のあるプログラマ諸氏は , これを機にチャレンジして , あなたのプログラムをさらにすばらしいものにしてみてはいかがでしようか。アセンプリ言語 , 拡張命令など , なかなかとつつきにくい分野かもしれませんがしかし実際に始めてみるとそれほど難しいものではなく , 必ず興味がわく ( おもしろくなってくる ) 分野でもあると思います。まとめ初級編で主に C 言語レベルでの高速化手法を , 中級編からアセンプリ言語にターゲットを絞って解説してきました。しかし何度も何度も , しつこく口うるさく言いますが , プログラムは単にアセンプリ言語で記述するよりも , アルゴリズムを工夫することがもっとも大切なポイントとなります。ただやみくもにプログラムをアセンプリ言語化するのではなく , アセンプリ言語にする前にまずはアルゴリズムを研究することから始めることがプログラム高速化の基礎になるということだけは覚えておいてください。そのうえでアセンプリ言語化することを考え , そして MMX テクノロジや SSE , SSE2 などの持つ特殊な命令を使うことで得られる利益を考えたプログラムの組み方をすると , すばらしく高速なプログラムを書くことができるでしよう ( もちろん最初からそれらを考慮した設計ができればベストです ! ) 。実は , M 、Ⅸテクノロジと SSE2 のサンプルとして紹介した画像の合成プログラムは , アルゴリズムをほんの少し工夫することでプログラムをさらに高速化することができます。 C 言語レベルでも ( 実行環境にもよってしまいますが ) おそらくオリジナルの 10 ~ 20 % くらいは高速化が期待できるのではないでしようかヒントは次の式です。 / 256 ページ数の都合もあり詳しくは紹介しませんが , とくに難しいことではないので , このあたりはみなさんへの課題ということにしておきましよう。答えは付録 CD-ROM に収録してあるので , 興味を持たれた方は探してみてください。最後にかなり基本的なところから最新の SSE2 命令を使ったサンカレ紹介まで , プログラムの高速化方法について幅広く解説しました。筆者は本業で「プログラマ」という肩書きを持っている人間ですが , いたらない点が数多くあり完璧ではありません。それにもかかわらず「プログラムの高速化」などと偉そうなタイトルが付いた記事を書かせてもらいました。ですから今回の特集に不満を持たれる方もきっといらっしやることでしよう。しかし , これをきっかけにプログラムの高速化に 1 人でも多く興味を持たれる方が出てきてくれれば筆者としては非常に喜ばしく思います。今回紹介したものよりももっと ( 全然 ? ) 優れたアルゴリズムがあるぞ ! という方は筆者までメールいただけると幸いです。次の機会があれば筆者のホームページなどでぜひ取り上げてご紹介させていただきたいと考えております。 Homepage: http://www din. or. jprch3/ mailto : ch3@mail.g00.ne.jp ・謝辞本特集を執筆するにあたり , インテル株式会社 , マイクロソフト株式会社から参考資料などのご提供をはじめとした惜しみないご協力を賜りましたことを心から感謝いたします。とくにインテル株式会社・小林様からは直接的なご協力を何度もいただきまして誠にありがとうございました。この場を借りてお礼申し上げます。・免責・本特集で紹介している技術 , プログラムによって生じたいかなる損害も保証いたしません。・本特集で紹介しているサンプルプログラムはあらゆる環境のもとで期待どおりに動作するという保証はまったくありません。・本特集に掲載されている記事 , プログラム , 映像 , および付録 CD - ROM 収録ファイルを含むすべてのコンテンツを CMAG AZINE 編集部と筆者の許可なく転載することはできません。ご要望 , ご質問などにはできるだけ対処していくつもりですが , 必ずしもそれが C MAGAZINE 編集部または筆者の責任においてなされるという保証はありません。・そのほか , 本特集に関する詳細についてはメールで ch3@mail.g00.ne.jp までお問い合わせください。 [ 参考文献 ] ・ -32 lntel architecture software develope rs manual. ・ lntel Pentium 4 Processor optimization re ference manual. WHITE PAPER: Enhanced 3DNow! Tech nologyfor the AMD Athlon Processor. ・ Micro so れ V1sual C + + Processor Pack doc ument. ・ MSDN library 2001 , 7 release. ・資料 (IntelPentium4 プロセッサにおける特集 1 プログラムの高速化・最適化ット表 ) 。付録 CD-ROM に収録鳳 -32 命令セット・レイテンシとスループイ 9

4. 月刊 C MAGAZINE 2001年10月号

特集工加ムの高速化・最適化高速に , かっそれなりの精度を保った除算ビットしか精度のなかったものが 22 ビット sqrtps / sq ホ s を実行したのと同じくらい時を実行することができます ( List46 ) 。 (y* 精度の値を得ることができるようになりま間がかかってしまいます。これではまった (l/x)) を計算することで , 除算命令を使うす。このコードも rcpps/rcpss と同じく ss 部く意味がありません。ことなしに除算の近似値を得ることができ分を ps にすると 4 つ同時にパックド演算すそこで , 最初の計算過程に少しだけ手をました。しかしやはりもっと正確でより確ることができます。せつかくなので中級編加えて逆数平方根から精度の高い平方根を実な値を得たい場合は素直に d 師 s / divss 命で説明した FPU 正規化べクターのプログラ求めることにします (List 49 ) 。難しそうで令を使用したほうがよいでしよう。なぜなムを SSE 命令を用いたものに移植してみますが , 実は前の逆数の項ですでに使っていら精度が上がったとはいえ , 近似はやはりした (Fig. 15 ) 。 List 48 のように SSE の命る方法です。ポイントは灰色になっている近似でしかないのです。近似値の精度向上令で簡単に逆数平方根の近似値を求めるこ 2 行です。おそらくほとんどの方は説明すや計算方法は時と場合によるので , それぞとができるので , FPU のときと比べてプロるまでもなくおわかりいただけたと思いまれの場面に応じて ( 使用箇所をうまく判断すが , よくわからない方は逆数の項の最後グラムがとてもシンプルになりました。まして ) 使い分けることが大切です。に出てきた計算式を , レジスタの動きを見た 128 ビットの XMM レジスタをフルに使っまた同じくニュートン・ラフソン法を用て x, y, z, w の 4 つのべクトルをいっぺんながらもう一度ご覧ください。これで高速いれば , 逆数平方根の精度も向上させるこかつ高精度に平方根の値を求めることがでに計算しています。とができます。 SSE 命令にある逆数平方根ところで , SSE のことを説明している We きるようになりました。 b サイトや資料にはよく「 sqrtps/sqrtss ではを求める命令 rsqrtss/rsqrtps もまた精度が分岐を除去する別の方法なく rsqrtps/rsqrtss を使って平方根を求めよくありません。この命令の精度を上げるためには , 中級編の正規化べクターで行ったほうがよい」と書かれています。それはこれまでさんざん話題にしてきた条件分たのと同様の方法をとります。この方法になぜかというと , sqrtps/sqrtss 命令はそれを実行するのに divps/divss と同じかそれ以岐の話をまた蒸し返すようで心苦しいのでついては次の項で解説しましよう。すが , Pentium Ⅲからサポートされた命令上のレイテンシがかかってしまうからです最適化と精度のバランスを利用することでも分岐を除去できます (Li しかし , 逆数平方根の値を求めることができるのなら , さらにその逆数をとれば平方 st50)0 具体的には , cmov, setcc を使うという方法です ( 浮動小数点比較命令では fc 。根の値を求めることもできるのでは ? そさて , 中級編の正規化べクターサンプルのとおり。逆数の平方根から平方根の値を mi , fcmov で代用する ) [ 15 ] では逆数平方根の近似値を自力で計算しま得ることができます。このように逆数の値したが , SSE 命令には rsqrtss/rsqrtps といデータ構造のレイアウトからさらに逆数を求めることを「反逆数」とう 1 つの命令で逆数平方根の近似値を求められる命令があるので話は簡単です。あといいます。しかしそう説明すると一瞬 , 逆はニュートン・ラフソン法を用いて逆数平数平方根→逆数というステップを踏むのか 3D 変換や照明計算などのアルゴリズムに方根の精度を上げてしまえばよいだけです。な ? と思われるかもしれませんが , 単純は , 頂点のデータを編集する基本的な方法にその順序をたどっていたのでは , 普通にとして , それぞれの頂点を 1 つの構造体で List 47 の方法を使うと rsqrtps/rsqrtss で 11 List Pentium Ⅲからサポートされた命令で分岐を除去 Fig. 16 構造体配列と配列構造体ポ構造体配列 (Array of Structures) 配列構造体 (Structure of A 「「 ays) SoA → Y Y Y . キャッシュミスの回避 , スルーブットの向上 ! 特集 1 プログラムの高速化・最適化 41

5. 月刊 C MAGAZINE 2001年10月号

特集 1 加殤ムの高速化・最適化 Fig. 1 級数展開 sin(x) → x - ( 1 / 6 ) * xA3 十 ( 1 / 120 ) * ゞ 5 ー ( 1 / 5040 ) * ゞ 7 十 ( 1 / 362880 ) * 9 cos(x) → 1 ー ( 1 / 2 ) * ゞ 2 十 ( 1 / 24 ) * ゞ 4 ー ( 1 / 720 ) * x% 十 ( 1 / 40320 ) * 8 tan(x) → x 十 ( 1 / 3 ) * ゞ 3 + ( 2 / 15 ) * ゞ 5 ー ( 17 / 315 ) * ゞ 7 十 ( 62 / 2835 ) * 9 ゞ 3 十 ( 1 / 120 ) * 5 十 ( 1 / 5040 ) * 7 十 ( 1 / 362880 ) * ゞ 9 血 ( x ) → x 十 ( 1 / 6 ) * cosh(x) → 1 十 ( 1 / 2 ) * ゞ 2 十 ( 1 / 24 ) * ゞ 4 十 ( 1 / 720 ) * ゞ 6 十 ( 1 / 40320 ) * ヾ 8 tanh ( x ) → x ー ( 1 / 3 ) * ゞ 3 十 ( 2 / 15 ) * 5 ー ( 17 / 315 ) * x 7 十 ( 62 / 2835 ) * x 9 asin(x) → x 十 ( 1 / 6 ) * ゞ 3 十 ( 3 / 40 ) * ゞ 5 十 ( 5 / 112 ) * ゞ 7 十 ( 35 / 1152 ) * ゞ 9 x ー ( 1 / 6 ) * xA3 ー ( 3 / 40 ) * ヾ 5 - ( 5 / 112 ) * ゞ 7 ー ( 35 / 1152 ) * x 9 acos(x) → PI * ( 1 / 2 ) atan ( x ) → x ー ( 1 / 3 ) * xA3 + ( 1 / 5 ) * ゞ 5 ー ( 1 / 7 ) * ゞ 7 十 ( 1 / 9 ) * ゞ 9 しかしながら多くの場合 , プログラムのログラムを高速化できる場合があります。的にインライン展開してくれるのでとても - 簡単です (List 20 ) 。実行速度を左右する要因はコンパイラによテーブル化理由 : プログラムの速度的なコスト削減る最適化というよりは , むしろ使用されるアルゴリズムや , 先ほど説明したようなプ入力値がある程度限られた範囲であるこのためログラムの書き方にあります。時と場合にとがあらかじめわかっている場合は , それ使用される場所 : 少しでも高速な処理が応じたよりよいアルゴリズムを考え , 工夫らをテープル化しておくことでプログラム求められる場所し , プログラムの書き方にも注意すれば , を高速化できます。 List 19 は theta が 1 度単よりよいアルゴリズムを位 , 0 ~ 360 度の範囲で変化することを前提それだけで十分高速なプログラムを書くこ求めることが重要とができます [ 第 p ] 。としてテープル化しています。プログラムの実行速度を速くする方法はしかし「アルゴリズムは何度も見直した。理由 : 比較的時間のかかる計算を省略すプログラムの書き方にも自信がある。もうこであげたもの以外にもたくさんありまるため限界までチューニングした」というプログす。もっとも手つ取り早い方法は , コンパ使用される場所 : 範囲がある程度決まっイラの最適化オプションを利用することでラマが , それでもまだなおソフト的な最適ていてそれほど正確な値も必要ない場合す。近年 , コンパイラはプロセッサの発展化 , 高速なプログラムを求める場合の最終インライン関数展開とともにだんだんと進化してきており , プ的な手段としてアセンプリ言語があります。ただ , アセンプリ言語はこの章の冒頭で紹ログラムの書き方の違いなどもある程度うインライン関数展開でもサイズを犠牲にまく吸収してくれます。最適化オプション介したとおりソースコードが非常に長く , して速度を改善することができます。インしかも難解です。プログラムが巨大になれは利用するそれぞれのコンパイラによってライン関数展開とは関数本体をそのままコード中に埋め込むことで , 関数の呼び出し異なりますが , マイクロソフトやインテル , ばなるほど把握できなくなります。一度ア GNU など多くのコンパイラでは -0 オプショセンプリ言語にした部分は , そうとう気合命令とそれに伴うパラメータの引き渡しや , スタックの保持 , ジャンプによるオーバへンです [ 第 p 調。そのほか , ターゲットとなるを入れないとプログラムを読み返す気力がッドといった速度的なコストを削減するこプロセッサに合わせて CPU の持っているパなくなってしまうので , そのあたりを覚悟とができます。単純に関数の頭に一 in ⅱ ne とイプラインなども考慮したコードを生成しのうえで , 次の章からアセンプリ言語によいう冠詞を付けるだけでコンパイラが自動てくれるコンパイラもあります。るプログラミングを解説したいと思いますテープル化インライン関数展開 0 ・ケース 1 int DivideAndSurplus( int a, セ b, セ ) ・ケース 2 - はれ 0 int DI 土 d ・ A れ dSu てが ( int 加し b, セ日 ) void yak ・で ( ) 土 n し theta; fO て ( theta 第に h ・に a く 36 theta 十十 ) t ー nco 日 . 日 [ 幻 = sin( theta * / 180.0 し一日 1n00 日 .0 は ] = 日 ( theta 事 PI / 180.0 = a 宅切 return a / b; 日 = a を b; て・ t れ a / 25 プログラムの高速化・最適化特集 1

6. 月刊 C MAGAZINE 2001年10月号

特集 1 プログラムはもっと速くなる高速化・最適化加ムの ch3 近年 , プロセッサ技術の進歩で CPU の速度は飛躍的に向上しました。現在では標準となりつつあるギガヘルツのプロセッサですが , ひと昔前までは夢のまた夢でした。おかげで複雑な計算もずいぶん楽にできるようになりました。プロセッサは十分速く , 日々進化していきます。だからもう高速化の必要はないのではないかと思うこともありますが , 計算は速いにこしたことはありません。速く計算できるということは , 同じ時間でそれだけ多最適化の基本 C 言語での最適化にはたくさんの方法がありますが , くを実行できることになるからです。たとえば 3D ゲームでよりリアリティのある表現をしたり , キャラクタの動きをもっとスムーズにすることもできますし , 長時間かかっていた画像処理がたとえば半分の時間でできるようになれば作業効率も倍になります。また , ごく少数ではありますが , プログラムを高速化することに喜びを覚えるような変人 ( 失礼 ) もいます。現在と同じ実行環境で時間に余裕ができることはとても重要なのです。の章ではもっとも一般的なものから順に説明していきます。なかにはこんなものは当然だと考えられる方もいらっしやると思いますが , そのあたりはプログラミングを再確認するといった感覚で眺めていってください。もちろん , 当然のごとく使われているようなアルゴリズムなどはどんどん読み飛ばしてもらってかまいません。 20 C MAGAZINE 2001 10 最適化の概要プログラマにとって理想的な世界は , プログラマの設定した仕様に従ってソフトウェアが自動的に実行プログラムのサイズを縮小してメモリ消費量を最小限に抑え , ただちにコンパイルが完了し , 完成したソフトウェアが常に最高速で動作する環境です。しかし現実には , 開発者はプログラムを自分で書く必要があります。ほとんどのプログラマは , C 言語などの高級言語を使ってコーティングし , アセンプリ言語にコンパイルして , それぞれをリ

7. 月刊 C MAGAZINE 2001年10月号

ials> ディレクトリに収録されています ) 。計以上の計算精度を得るには自力で精度を向りよくないことになります。たとえば 1.0 の測のため巨大なループを回るので , 実行逆数 , つまり 1.0 / 1.0 を計算すると結果は 1.0 上させなければいけないことになります。 ( 測定 ) が完了するまでしばらく時間がかかとなるはずですが , 実際には 1.0 になってくより精度の高い近似値を得る方法としてれません ( 近い数値だが ) 。たいして計算精る場合があります。もっとも有名なニュートン・ラフソン法を度を必要としないケースでは誤差というこ使って , 計算精度を向上させることにしま精度の問題とで許容できますが , もっと高い精度を求す。しかし , ニュートン・ラフソン法なんめられるケースはよくあることです。て , たいそうな名前を聞くと何だか難しそ SSE 命令には rcpps/rcpss という逆数を求 AMD の K 伝 2 や Athlon に搭載されている 3 うな感じがするし , そんなのを自前で用意めるための命令があります ( rcpps はパック DNow ! テクノロジでは p 仕 cp という命令で逆するなんてイヤだなあ・・などと思ってド形式 , rcpss はスカラ形式の命令 ) 。実行数の近似計算を行うことができますが , やしまいそうですが , 実はとっても簡単な計されたときに比較的時間のかかる除算命令はりこの p 斤 cp 命令も単体ではあまり精度は算で済みます。 List45 をご覧ください。を使わないで , 除算したときに求められるよくありません。ただ , これを補うためにこの計算で逆数の精度を向上させること数値に近い値 , いわゆる近似値を高速に得 3DNow! テクノロジには pfrcpitl , pfrcpit2 とができます。コードの ss 部分を ps にするとることができるので , とても便利でよく利いう逆数の計算精度を向上させる特別な命 4 つ同時にパックド演算することもできま用される命令の 1 つだと思います。しかし , 令が用意されています。このような精度をす。ニュートン・ラフソン法を用いると単この rCPPS/rCPSS 命令には弱点があります。向上させる命令が SSE 命令にも用意されて純に rCPPS/rCPSS 命令を実行した場合と比べその弱点とは計算誤差が 1.5X212 となかなかいれば話は早いのですが , あいにく SSE にて倍近くの精度を得ることができます。蛇大きいことです。要するに計算精度があまそのような命令はありません。つまりこれ足ですが , この逆数の近似値を利用すれば , Fig. 13 期待する結果 Fig. 14 高速化されていることが確認できる z [ 0 ] = y [ 0 Ⅱ 0 ] * x [ 0 ] 十 y [ 0 ] [ 1 ] * x [ 1 ] 十 y [ 0 Ⅱ 2 ] * x [ 2 ] 十 y [ 0 Ⅱ 3 ] * x [ 3 ] 2 [ 1 ] =y [ 1 ] [ の * x [ 0 ] + y [ 1 ] [ 1 ] * x [ 1 ] + y[ 1 Ⅱ 2 ] * x [ 2 ] + y [ 1 ] [ 3 ] * x [ 3 ] z [ 2 ] = y [ 2 ] [ 0 ] * x [ 0 ] 十 y [ 2 ] [ 1 ] * x [ 1 ] 十 y [ 2 ] [ 2 ] * x [ 2 ] 十 y [ 2 ] [ 3 ] * x [ 3 ] Result 朝 ma セⅸ c らに u t Q-Q-a. C• version FPU versm SE v s 1 List 4 St 7 SSE の命令で逆数平方根の近似値を求める void pagtNormalizevector( VæTQ4 *pv, float x ) 00 れ日 t static ALIGNED 日 oa に一 0 ー 5 [ 41 = ( 0.5f , 0.5f , 0.5f , 0.5f 00n8t 日に a セ土 0 ALIGNED float -1-5 [ 4 ] = { 1.5f , 1.5f , 1.5f , 1.5f mov d 響 0 て d ptr[pvl mo 、 8 ー 0 movaps = 2 ー 0 て d ptr[eax] て日 q て tp 日一 1 , ー 0 ;anrox mulps = 0 , 1 0 , ー 1 ー 0 , ー響 0 て d P [ ー 0 ー 5 ] mulps mulpg 1 , 響 0 て d p [ ー 1 ー 5 ] ー 1 , ー 0 引 subps ゆ日 1 , 2 mov 叩日ー響 0 て d ptr[eaxl, ー 1 ニュートン・ラフソン法を用いて逆数平方根の精度を上げる / / ニュートン・ラフソン法による逆数平方根の精度向上逆数平方根から精度の高い平方根を求める〃反逆数を用いて平方根を求めるて gq て t 日日一 1 , ー 0 ;approx -2 / 05 を ck mulgs 冖 0 , ー 1 一日 ta 【に mulss 0 , 1 重 u 一日 8 冖 0 , ー 1 0 , 0 て d pt て [ ー 0 ー 5 ] ー 1 , 。て d pt て [ ー 1 ー引 u 地日 sub 日日 = 1 , 0 ;final 4 Fig. 15 SSE バージョンのほうが高速化されている Result of norm 引に e vector catculatnn SE). 0. 〕 207. -1 . 愈 414. -0. 0 7.0 価 2000 : OPU time = 111253 0.9 207. -1.8 414. -0.9 圓 7.0 旧 0 : OPU time = 197 @22x) verSlOn SSE version イ 0 C MAGAZINE 2 側 1 10

8. 月刊 C MAGAZINE 2001年10月号

BorIand ムへ次世代開発のメインストリー・業界初、 Web サービスのビジュアル開発を実現 B2B をはじめ多くの分野で注目されている XML / SOAP をベースにした Web サービスのビジュアル開発を実現する BizSnap をはじめ、ダイナミックな Web システムを構築できる WebSnap 、多層分散システムを容易に構築できる DataSnap と、 e - business 開発を強力に支援する機能を備えています。・最新の Windows アプリケーションを迅速に開発 Windows 2000 / Me に対応した最新のユーザーインターフェースもビジュアルな操作で開発できます。もちろん、ビジュアル開発とソースコード開発を連携させるユニークな 2Way - T00 や高速なネイティブコードコン ( イラなど、生産性と高速性を両立させる機能が充実しています。・すぐれたデータベーススケーラビリティとインターネット対応 dBASE/Paradox/Access をアクセスする BDE 、 ADO や ODBC による接続 sInterBase/MYSQL/OracIe/DB2 用の dbExpress ドライバなど広範なデータをアクセスできます。また、旧や Apache 対応の Web サーノ←アプリケーションの開発やソースレベルデバッグもサポートします。・ Windows と Linux のクロスプラットフォーム開発を実現クロスプラットフォーム開発を実現するコンボーネントフレームワーク CLX の Windows 版を提供します。 Linux 用のビジュアル開発ツール BO 月 and KYlix と併用すれば、単一のプロジェクトで Windows と Linux の両方のネイティプアプリケーションを開発できます。ホーラント株式会社〒 1 51-0073 東京都渋谷区笹塚 1 - 64-8 笹塚サウスビル TEL. 03-5350-9380 FAX. 03-5350-9369 ・インプライズ株式会社はボーランド株式会社に社名変更いたしました。・ボーランドの商品名は、 B ロ•ia ・ v atim の米国における商標または商標です・その他、記載されている会社名、製品名は、各社の商標または登録商標です。 C 叩ⅵ前 t ◎ 281B ar 8.. Ltd. A t 「日 v . for more information … WWW• bO 可れ d. 00 り p

9. 月刊 C MAGAZINE 2001年10月号

中級編 X86 命令 , X87 命令 , MMX 命令を用いたプログラムの高速化初級編のまとめで , アセンプリ言語についてそうとうおどしてしまいましたが , アセンブリ言語で記述することで得られる利益もたくさんあります。使い方しだいでは , C 言語で高速化したプログラムをさらに高速化できるようにもなります。ともあれ , この中級編ではアセンブリロ語 ( 主に X86 命令 , X87 命令 , MMX 命令 ) を用いたプログラムの高速化について説明していきます。実行環境筆者の開発・実行環境は次のとおりです。・プロセッサ : Pentium 41.7GHz Pentium Ⅲ 500MHz ・メモリ : 256M ノヾイト ( Ⅲ MM -800 ) 128M バイト (DIMM-IOO) ・ソフトウェア : Windows 2000 SPI V1sual C + + 6.0 Professional SP4 V1sual C + + 6.0 Professional Processor pack IntelVTune Performance Analyzer 5.0 この環境が絶対に必要ではありませんが Windows 98 もしくは NT4 (SP4) 以降の環境と , なるべく新しい CPU ( 高速である必要はない ) を用意してください。また , 中級編の最後で説明する MMX 命令を使ったプログラムの実行には Pen ⅱ um MMX 以上が必要です。さらに上級編では SSE 命令を使用できる Pentium Ⅲ ( 新しいタイプの Celero n でも可 ) 以上が必要です。それぞれの命令を実行できる環境かどうかは , 付録 CD-RO M に収録の Cpuid. exe を実行してみてくださこからはインテル系のプロセッなお , 26 C MAGAZINE 2001 10 サがターゲットとなりますが , インテル系以外のプロセッサでマイクロコードを使って最適化する場合にもヒントになることがあるはずです。インラインアセンブラアセンプリ言語を記述するには「アセンプラ」が必要になります。有名なところではマイクロソフトの「 MASM ( マクロアセンプラ ) 」などがあり , ( マニアックな店以外ではあまり見かけることはないかもしれませんが ) パソコンショップなどで販売されています。しかし Visual C + + をはじめ , 多くのコンパイラは「インラインアセンプラ」というモノを使うことができます。「インラインアセンプラ」とは , コンパイラの機能の 1 っとしてアセンプリ言語とほば同等の記述ができるものです。要するに , アセンプラをわざわざ用意しなくてもアセンプリ言語のプログラムを書けることになりますインラインアセンプラの記述は , 一般的に命令の前に —asm のキーワードを付けます。インラインアセンプラは , 一般のアセンプラに慣れたプログラマからすると気がきかない部分が多少あることも事実ですが , ちょっとしたアセンプリ言語のプログラムを書きたいときには非常に便利です。また , マイクロソフトからリリースされている Visual C + + 6.0 Processor pack (http:/ /www.microsoft.com/japan/developer/vstu dio/download/ppack/ から無料で入手できる ) というⅥ sualC + + 6 用の拡張モジュールを導入すると , Pentium Ⅲからサポートされた Streaming SIMD Extension (SSE) , Pe ntium 4 から導入された Streaming SIMD Ex tension 2 (SSE2) と AMD の 3DNow! テクノロジといった拡張命令 [ 第” 06 ] のアセンプリコードが記述できるようになります。ちなみに lntel C + + 5.0 コンパイラであれば同社の命令セットは ( 当然ですが ) すべて標準サポートされており , 拡張命令の組み込み関数も使用することができます。 X86 系プロセッサ ()A -32 ) 「 X86 」という言葉を知らなくても「 Pen ⅱ u m 4 」はおそらくご存じでしよう。インテルが誇る優れたアーキテクチャを備え持つパソコン用のプロセッサです。 Pentium4 も x8 6 系のプロセッサです。正式には「 32 ( 32 ビットインテルアーキテクチャ ) 」と呼びます。インテルは日々 CPU を進化させてきましたが , 命令系統は旧世代のもの ( 80X86 ) と互換性を保っています。つまり昔作られたプログラムの資産を今日でも利用することができます。それが X86 系のプロセッサと呼ばれるゆえんです。 X86 は厳密にいうと整数演算の処理を担当するコアを指します。浮動小数点の演算は X87 というコプロセッサが担当します。「 x 86 系」 , 「 X87 」 , 「い 32 」など , 書き方がコロコロ変わるとややこしいので , 便宜上これ以降は基本的にこれらのプロセッサのことを総称して X86 と呼びます。浮動小数点を説明する部分では X87 と記述します。本特集は , これよりこの X86 系列のプロセッサをターゲットとします。

10. 月刊 C MAGAZINE 2001年10月号

特集 1 加殤ムの高速化・最適化分岐から再度読み込む必要が出てくることある条件のもとでは List 10 に示したようにになってしまいます。この動作は命令を実条件分岐をまったくなくすこともできます。行する際 , 非常に大きなへナルティとなりまた , List 11 の例では AND の論理演算を利用して条件分岐をなくしています。ここでます。行っている , 変数 i を 1 増やして 16 ( 2 の X 乗 ) したがって最近のプロセッサを実行のタ以上になったときに 0 に戻るような計算のーゲットとする場合は , なるべく条件分岐場合には , 1111b ( 16-1 ) でビットマスクしてをさせない工夫を凝らします。やれば値は 16 ( 10000b ) を超えることはあり List 9 のような場合 , 最小の数値が 0 になるような数を足し , 符号なしの型にキャスません。理由 : 条件分岐をなるべく減らすためトすると , 2 回必要だった条件分岐が 1 回で使用される場所 : マスク処理などの計算済みます。整数を比較するときに使うこうによって条件を満たすことができる分岐いったケースのキャストにペナルティはないので , うまく利用すればプログラムの高処理速化に直接つながります [ 1 い 2 ] 。バック演算理由 : 条件分岐をなるべく減らすため通常であれば 1 バイトずつ処理するとこ使用される場所 : 条件の範囲がある程度ろを , 複数バイト同時に処理することでパ特定されている分岐フォーマンスを向上させることができます 0 条件分岐をなくす List 12 では long ( 32 ビット ) 型を使って 4 ノヾイト同時に計算しています。ただしループ先ほどの応用といえなくもありませんがの数を 4 で割り切ることができる場合にの命令の優先順位 ( データのシフト ) み使用できるという条件が付きます。ループ数が 4 で割り切れない場合は , なるべく 4 バイトずつまとめて処理した後 , 余りを 2 バイトまたは 1 バイト単位で処理すればよいでしよう。この手の最適化は配列の数が大きければ大きいほど効果があがります。理由 : 複数の要素を同時に計算して高速化させるため使用される場所 : 比較的少ないビット数で同じ計算が繰り返されるようなところ。ただし計算結果がオーパフローまたはアンダーフローするような場合は使用できない lSt 条件分岐をなくす① 2 ススケ oB て anchl ( ) return (x = 100 ) ? true : falge; 引 0h1 ( ) return ! ( (l) (x - 100 リ List 条件分岐をなくす② 2 ススケケ unsigned int 製 OB て anch2 ( ー日土 61 ・ d int 土 ) 土十 if ( 土》 = 16 ) 土 = のェてれ新新 gned 加に 8 て 50h2 ( int 土 ) て e 加工 n & ( 16 - 1St バック演算 1 ・ケース 1 void char ね [ 256 ] ) ・ケース 2 void packed( char ta [ 256 ] ) ng *lp = い 0n9 * ) data; fo で ( int 土 = 土く 256 / of い ong 土十十 ) ゆ [ 幻 & = 0X7f7f7f7 新 List 7 ・ケース 1 int de て Of io て土 ty ( int n ) return n * 32 ・ケース 2 int de て Of 土 or 址 y ( int n ) return ((n« 8 ) 十 ( れ 6 ) fo て ( int 土 = 土く 25 研土十十 ) data[il & = 0X7 新 List 不変式のループ外移動① 条件分岐の順序 8 ・ケース 1 void Out deO れ 00P ( に社第 int a, セ b ) fo て ( int = 土く 1000 土十十 ) て [ 幻 = a 十・ケース 2 void Outs 土 deO れ 00P ( int 社 , int int b ) int t = a 十 b; fO て ( れヒ土 = 土く 1000 土十十 ) ・ケース 1 void Branch( int seldom, int frequently ) ・ケース 2 void Branch( int se 0 叫 int ) 迂 ( frequently & & 日引 dom ) 不変式のループ外移動何度も繰り返される List13 のようなループ内のコードには , ループ中に値が変化し変数はレジスタに格納されます。一般的にないこともよくあります。こういった式のレジスタへのアクセススピードはメモリへことを「不変式」といいます。このような不のアクセススピードよりも高速なので , か変式はループの実行前に 1 度だけ計算されなり効果があります [ 1 い 3 ] 。また List 14 のよるようにしておくことで高速化することがうなケースもループ外に移動することがでできます。この例では t という一時変数を使っていますが , ほとんどの場合こういったきます。て [ 幻 = IS 9 条件分岐を減らす・ケ - ス 1 void 土 n ヒ x if ( x く = 2 & & x -1 ・ケース 2 void Decreageranch( int x if ( ( int) (x 十 1 ) ← ( 2 + 1 ) 特集 1 プログラムの高速化・最適化 23