最適化 - みる会図書館

1. 月刊 C MAGAZINE 1990年9月号

特・集コーイラしてもよいのか ? 」という疑問に対する解答 movcl, 8 ; 6 バイト長て、 44 クロックをえる一助になる。さらにコードの最適化 shl y, 80286 は革命的なものて、はなく , 漸進的な向上を shl y, 8 提供するものとして分類することにもなる。 ; 5 バイト長て、 8 クロックこのレビューは , コンパイラが一般的なこのクラスの最適化は改良余地部分を小さなコードシーケンスにかぎっているため , 方法により , サイズまたはコードの最適化ー連の最適化テスドヒ。ープホール ( のぞき穴 ) 最適化とも呼ばれ能力の解析を目的としている。各低レベルテストは , 指定の最適化をテストするためる。そのほかには 8088 , 80286 , 80386 などのインストラクションタイミングや外部デに設計したコードを含んて、いる。各テストコンパイラの最適化能力テストは本当にをコンパイルしオプジェクトコードを検査ータバスサイズの違いを考慮し , コードサ困難て、あり , しばしばフラストレーションイズまたは実行時間が最高になるようにコし , 最適化されたかどうかを割り出す。もの元凶となる。なぜなら , 注意深く作成さード生成を調節する最適化が考えられる。し最適化されていたら効果の程度をコンパれたコードが簡単に捨てられてしまうから最適化の余地は極めて大きく , 単純なもイラ間て、比較する。このように人工的な環だ。最適化とその結果の測定の間には確か境て、あり , しかもテストの範囲がかぎられのからインプリメントが困難なものまて、いな相互関係があるのて、 , フラストレーショろいろある。 386 や DOS 工クステンダなどのている以上 , この初期結果を問題に対するンは二者の関係を測る重要なものさしにな最終結果て、あると盲目的に考えないて、ほし最新技術によって , これまての想定は役にる。またコンパイラの一部には , 条件しだ立たなくなり , まったく異なった視点が求いて、 , ある種の最適化を認識するものもあい加えて , 大型アプリケーションの作成にめられ , 事態はさらに複雑化する。しかもるため , 結果が完全だとは断言て、きないも各コンパイラを使用した。このアプリケそれは , コンパイラだけにとどまらないこのテストケースはわかりやすいものからーションは 25 のソースモジュールから構成 TopSpeed と Microsoft リンカて、はさらに時開始し , 徐々に困難なものへと発展させた。され , ランタイムライプラリとオペレーテ間とスペースの最適化が可能だ ( Table 1 ) 。単純なケースを満足に最適化て、きなければ , コラム 1 「 386 / 486 コード生成と最適化リンイングシステムをかなり使用している。現そのコンパイラ能力の限界を示す十分な証力」て、は 386 と最適化リンカに焦点をあて実のアプリケーションを検査することて、 , 「コ拠となる。ンパイラ X を使ってアプリケーションを出荷また , ほとんどのテストには主観的な解、 0 結果の計測ーー Lattice C XX XX Aztec C XX High C Zortech C X ( 注 2 ) Turbo C XX XX TopSpeed C XX XX XX Microsoft C XXX XX Ecosoft C Watcom C X ( 注 1 ) X X XXX XXX XX XX XXX XX XXX XXX XXX XX XX X ( 注 3 ) XX XX XX XX( 注 4) XX XX 1 4 2 5 ( 注 1 ) Watcom C は変数か含まれていると定数式をフォールドしない ( 注 3 ) TopSpeed C は無用な場所に条件 NOP を差し込む 7 1 1 6 1 6 ( 注 2 ) Zortech C は多忙式を認識するが全バスからのコードをホストしない ( 注 4 ) Watcom C はバイトテータをバックしないのでムダな空間を生ずる特集米国コンバイラ事情 41

2. 月刊 C MAGAZINE 1990年9月号

特・集コイラつのアプリケーションを 7 つのコンパイラて、 (TabIe 5 「パフォーマンス早見表」て、行っチマークを盲信したとしても結果を報告す実行するのは骨が折れるが , 努力のかいあたような ) の合成べンチマークなら実行する価値がある。 sieve of Eratosthenes て、はる結果の期待て、きる作業て、はある。るのは楽だが , 結果をねじ曲げてしまう危 Microsoft が Lattice を上回り , Watcom がわ sieve Of Eratosthenes や Dhrystone べン険が伴う。 ANSI C をガイドとしても , ひとずかの差て、 3 位につけた。これ以上詳細な結されることはない。スマートリンクとは死んだ関数の削除以外のなにものでもない。関数ひとつひとつを別のソースモジュールで定義すればよいと思うかもしれないが , モードでははるかに貴重な改善をもたらす時問と空間の最適化は , 必すしも . OBJ フそれでは問題の包み直しにすぎない。ソー (Table E)O ァイルを書くことだけでは終わらない。コスモジュール数はあっという間に増加し , セグメントレジスタのリロードをプロテンバイラは , ひとつのソースモジュール内 MS-C 5 コのランタイムライプラリでは 400 本の未参照のスタティック関数の最適化 , 削クトモードで行うたびに , 複雑なマイクロを超えるソースファイルになってしまう。除が可能だが , グローバルスコープをもっコードシーケンスが起動され , 新しいディコードとデータの共用が困難になり , 効率スクリプタをロードし有効化する。コードた関数がそれ以降に参照されるかどうかはは悪化し , 大幅なメンテナンス問題を引きを同じセグメントに置いて near コールをわからない。コンバイラは過去のコンバイ起こす。このような問題は , コードとデー使えば高価なオーバヘッドを避けられる。ルとは関係なく , 一度にひとつのモジュータの定義が自然なインテリジェントリンカしかしコードセグメントをバックしただけルをスキャンするので , 80X86 セグメントアが生成する , 最小サイズのロードモジューでは問題の半分しか解決しない。後続の fa 「ーキテクチャの特性によるワーストケースルが可能なスマートリンクによって避けらリターンは最適化されておらず , まだオーを想定せざるえない。る。 J 曰社によれば , TopSpeed では 20 以下のバヘッドが残る。プロテクトモードアプリ最初の MS-DOS リンカによる最適化は , MS ソースモジュールですんでいるそうである。ケーションの設計ではこの点を考慮すべき Microsoft でのインプリメントとは比較になら -C 5.1 付属のリンカで最初に収録され , 現在の Lattice リンカにも見られる fa 「コールのだ。ない改善である。スマートリンクの時期は到来したが , ま変換である。 fa 「コールの変換とは fa 「コール C では TopSpeed C だけがスマートリンクをだ一般化にはいたっていない。リンカのコを相当する高速かっ同等な nea 「コールで置実現している。しかし , Turbo Pascal や Top ンセプトは , あるモジュールでの外部参照き換えることだ。 speed Mod a ー 2 ではスマートリンクが実現とほかのモジュールの定義を突き合わせる最適化前最適化後されてから久しい。コードサイズの点ではだけだ。そうすることで MS-DOS リンカは実スマートリンクは重要だが , これが一般的 call fa 「 p 「 OC_X nop 行ファイルのコンポーネントとしてオプジになるかどうかは疑わしい。なぜなら時間 push cs ェクトモジュール全部を取り込むわけだの最適化が注目されているからだ。実行時 call near proc X これはなんの論争も起こさない。通常この最適化はひとつのモジュール内問に向けられる関心がスペースの最適化へ外部参照を満たすことに無関係な関数を含向けられるまでは , スマートリンクは標準の関数コールで見られ , コードジェネレーんだモジュール内の全関数までを取り込むタによって行われる。リンカの /PACKMODE 的なリンカの最適化とはならないだろう。のは別問題だ。未参照関数は決してコールオプションによって , モジュール間での最適化がオンになる。ー連のコードセグメン TabIe E トをひとつのグループにまとめるのがバッキングである。実質的に複数セグメントをひとつの共用セグメントに分解することになる。コードセグメントをバックすると , リアルモードでは fa 「コールよりクロック数をいくつか削減するだけだが , プロテクト最適化リンカプロテクトモード 286 386 リアルモード 386 286 「 / っム冖 0 CALL fa 「 CALL nea 「削減クロック数 ( 0 CO っ t) っ乙 4 ー 3 3 0 4 2 っ 4 一 1 ーっ 4 特集米国コンバイラ事情 47

3. 月刊 C MAGAZINE 1990年9月号

TabIe 1 リンカによる最適化 Aztec C Ecosoft C High C Lattice C Mic 「 osoft C TopSpeed C Turbo C Watcom C Zortech C スマートリンク Fa 「コール変換 Fa 「コール変換は Mic 「 osoft または Latt ℃ e に付属のリンカを使えばほかのコンパイラでも使用可能 ( 広域 ) 」と「最適化」というホットな形容詞が現在の C コンパイラ事情を表している。最適化コンパイラは例外というより当然となっており , どのコード最適化をコンパイラがサポートしているかを見極めることに意義がある。さらに重要なのは , 最適化がプログラムに及ばす影響を計測することだ。世界レベルのアプリケーションを作成する際には , その挑戦の半分は最適て、ないものを発見することにある。コンヒ。ュータブログラムは時間とスペースの 2 次元世界に生息している。定義上の最適化とは , コードのトランスフォーメーション以外のなにものて、もなく , 通常は ( 必ずしもそうて、はないが ) 最適化されていないもとのコードに対して改善されている。もちろん時間とスペースを同時に短縮する最適化がベストだが , この両者は本質的に相容れないこのレビューて、は , 4 つのクラスのコード最適化をチェックする。アルゴリズム , ソース , 中間形式 , ターゲットに区分けし , 各コンパイラがどの程度の最適化を行うかを検証する。アルゴリズムの最適化はコンパイラとは無関係て、あり , キーポードに触れるはるか以前に頭の中て、行われるべきことて、ある。ほとんどのコンヒ。ュータソフトウェア同様 , 最局の最適化コンパイラさえご存じのガーベージイン , ガーベージアウト ( ごみが入ればごみが出る ) の原理にしたがっている。厳密にいえば出力の質は入力 40 CMAGAZINE 19 囲 9 適化コンパイラは十分にうまく書いたコーこそ最重要視すべきだ。なぜなら良質の最これを念頭におけば , ベストな設計判断データ関数の質て、ある。ドに対して 5 % から 15 % 程度の向上をもたらすが , 良質なアルゴリズムによっては数倍の向上につながるからだアルゴリズムの最適化を除くとソース , 中間形式 , ターゲットの最適化がコンパイラの認識するところとになる。最適化がソースに割り付けられるのは , マシンのアーキテクチャに依存することなく , 最適化が上手に設計されたコンパイラ ( または十分に知識が豊富な人間の手 ) によって可能な場合だ。このような最適化て、はソースコードの読みやすさと保守のしやすさは向上する。ただし , 式や文の追加が必要になる。定数の折り返し (constant folding) の例を見よう。 #define dim(x) (sizeof(x)/sizeof(xC0])) 配列境界をつねに覚えておかなくてもこのマクロ中のふたつの定数は , マクロを使用した時点て、相当する定数て、置き換え可能だ。そのほかのソースの最適化にはループのアンローリング , インラインコード展開 , コードホイスティングなどがある。コンノヾイラによってはソースコードが中間形式に変換されてからまったく新種の最適化が適応される。中間最適化はひとつのシーケンスプロック ( ローカル ) 内と , 複数プロックにわたるグローバルスコープをもったものに大別される。ローカルな最適化は MS-C 5.1 や WatcomC 6.5 などの PC コンパイラの時代から存在し , 共通部分式 , コヒ。ー伝達 , 死変数の最適化に分かれる。今年の新規な最適化において重要なのは Lattice, Microsoft, Zortech などて、のグローバル最適化コンパイラて、ある。グローバル最適化コンパイラは改善の余地のあるコードを丹念にかっ細部にわたって探求するが , 余地の拡大によってコンパイラ自体の仕事は極端に複雑化し , 処理時間が増大する。コードジェネレータによる最終最適化はターゲットプロセッサの特性 , すなわちこの場合インテル 80 x 86 のセグメントアーキテクチャをうまく利用する。たとえばターゲットプロセッサが 80286 て、あるとの指定があれば , すべてのコンパイラは多少なりとも良質なコードの生成が可能だ。複数ビットシフトを行う以下の文を考えてみよう。 y くく 8 ; X アセンプリ言語に変換された以下のコードインストラクションセットにはかなりの違いが見られる。 8086 / 88 TabIe 2 テストした最適化定数フォールティングコードホイスティングインライン関数内部関数共通部分式削除帰納変数削除工イリアス最適化多重文字列のマージテールマージ強さの削減インストラクションアライメントテータアラインメントレジスタバラメータコード生成計

4. 月刊 C MAGAZINE 1990年9月号

特・集コーイラ果のレポートをあえてしないのは , わすか 9 行のコードを最適化する能力と , 300 から 300 , 000 行のコードを使ったプロジェクトとは何の関係もないと考えたからだ。べンチマークを進めていくと Dhrystone が sieve of Eratosthenes より , よい結果となった ( 現実のアプリケーション結果に近づいた ) 。 Wat- com と Microsoft のデッドヒートになり Top- Speed がこれにつづいて 3 位となった合成べンチマークについてはもう十分だろう。 Table 6 は compact と large 各モデルの組み込みシステム用のツールを作成したテスト結果て、ある。商用製品て、あることに加えて , このアプリケーションのコードサイズが compact モデルの 64K ノヾイトのリミットに近づいている点に興味がある。すべてのコンパイラが , large モデルて、は成功したのて、 large を結果のサマリーに使用した。 Watcom が最小かっ最速コードを生成し , わずかの差て、 Microsoft と Zortech がつづいた。すべてのコンパイラが好結果を出してトップと最下位との差は 21 % だ。おり , コンパイラ間の差は興味深い。プログラムを詳細に解析するとアプリケーションて、 2 / 3 の時間を , 残りの時間をファイルのリードライトに消費している。この状況下て、はラインタイムライプラリ , ダイナミックメモリ管理ルーチンのインプリメントが順位を決定づけている。 Table 6 実物のプログラムの作成 Turbo C が 4 位に終わっている。タイミング解析をすると ,malloc( ) に TurboC は 270 ミリ秒 , Watcom C て、は 50 ミリ秒を要しており , 差の大部分を占めている。 Microsoft と Watcom が高速なアロケーションを指向しているのに対し , BorIand のアプローチは実行時間を犠牲にしてもヒープの細切れを防止している。省メモリアプリケーションて、はこれはすばらしいことだが , 時間計測をしているかぎり不利になるというわけだ。残念ながら BorIand の節約にはポイントを与えられないしかし , これは別のところて、効力を発揮する。 qsort( ) の実行時間て、は , BorIand(91 ミリ秒 ) は Watcom(190 ミリ秒 ) より 2 倍 , Mi crosoft(258 ミリ秒 ) に対しては約 3 倍近く速くなっている。コンノヾイラベンダの暗黙の設計判断が , アプリケーションに直接インパクトを与えたポイントだ。それぞれの状況に応じてユーザがランタイムライプラリのアルゴリズムがどう設計されているかを判断しなければならないことになる。これて、は買い手が危険を負担することになる。評価に対する判断トップと最下位の差が開く。待ちに待ったチェックが質量ともに大きくなるに従い MS-C 6.0 コンパイラが最高の最適化コンパイラて、ある。 Lattice と TopSpeed と Wat com, この 3 者が Microsoft に並ぶにはアップデートが必要だ。さらなる飛躍をもってレドモンド ( 訳注 : シアトル東部の Microsoft 社の所在地 ) の挑戦に各コンパイラメーカーが応じることを期待したいコンパイル時間については Turbo C がリーダーだ。楽勝て、ある。次いて、 MetaWare と Zortech コンパイラが良好な成績をおさめ , そのほかのコンパイラと同様にランクされる。この両者は 386 と C 十十環境て、はライバルたちを凌駕している。 C マーケット初登場の JPI はとくに注目に値する 0TopSpeed はユニークな特長をもったすばらしい最適化コンパイラて、あるが , 荒削りなところに成熟不足が見え隠れする。 Aztec と Ecosoft はそのほかのコンパイラと競争するだけの力をもち合わせていない。それなりの長所はあるのだが (Ecosoft の lint は目を見開かせてくれる ) , 互換性のなさが機能を制限してる。パフォーマンスを基礎にしてコンパイラを選択すると , 「木を見て森を見す」のごとくになりかねない。だがしかし , ひとっしかコンパイラを所有て、きないなんて誰がいうのだろうか ? コードサイズ (compact モテル ) コードサイズ ()a 「 ge モテル ) 作成時間 ( 秒 ) 実行時間 (compact モテル ) 実行時間 ()a 「 ge モテル ) パフォーマンス比 ()a 「 ge モテル ) High C 十 86K 十 3.694 Lattice C 68K 7 1 K 640 3.294 3.553 M ℃「 osoft C 58K 60K 425 2.894 2.965 1 .01 TopSpeed C 十 70K 235 十 3.470 Tu 「 bo C 59K 62K 92 3.152 3.248 Watcom C 54K 55K 468 2.91 5 2.936 1 . OO Zortech C 60K 6 3 K 281 2.992 3.036 1 .03 ( 注 ) 十は compact モデルてのコードサイズか 64K を超えたためにテスト不可全テストを ! / O に日 AM ティスクを使った De Ⅱ 310 ( 20MHz 386 ) で行った * は大型モジュールのコンバイルにティスクキャッシュをティスエープルしたので時間計測不可特集米国コンバイラ事情 49

5. 月刊 C MAGAZINE 1990年9月号

1990 年 9 月 1 日発行 ( 毎月 1 回 1 日発行 ) 第 2 巻第 9 号通巻 12 号 1990 年 2 月 2 日第 3 種郵便物認可提携・米国。 L G E 。誌 / 監修・石田晴久 C マカシンすへての C 言語プロクラマのための技術情報誌 SEP. 198 VOI. 2 NO. 9 980Y 。。定価 SOFT 日 K 新連載・プロクラミンク添削 C MAGA セミナ—J レームソフトバンク特集米国 C コンラ事肩 I ・プロローグⅡ・ ANS 圓準拠度チェッグⅢ・最適化チェック Ⅳ・ライフラリチェッグ V ・ MS - C 6.0 をみる超高速グラフィックライプラリ 2 改良・最適化提携記事・ Sp ⅱ t Buffers, Patched Links, and HaIf-Transpositions C 言語入門講座・ポインタと構造体のまとめレゴリズムとテータ構造入門循環・双方向・多重最新 GNU 移植レポートⅡ ・ GNU MAKE (PC-9801) ・ GCC(FM-TOWNS) 0

6. 月刊 C MAGAZINE 1990年9月号

マ自身なのだ。新しいマシンやオペレーテイングシステムに対する学習曲線は , プラットフォームの奇妙な癖や強みに矮小化されている。性能および最適化これまて、一貫して , 効率のよさが C の強みて、あった。最適化は , 技て、はなく , アートて、あり , それほど科学的なことて、はないすぐれたアセンプリ言語のプログラマは , 調子のよい日には , 最適化されたコンパイラよりもよい成績をあげ , 最適化されたコンパイラは平均的なアセンプリ言語のプログラマよりもよい成績を上げるというのは事実だが , 最適化されたコンパイラには調子の悪い日はない。しかし , 不正確な最適化は , 最適化を行わないよりもはるかに始末が悪いのて、 , 本格的な開発者は , 彼らのコンパイラが実際どれくらい賢いかを知る必要があるのだ。べンダライプラリライプラリの質は , アプリケーションの性能におけるもっとも重要な要素て、ある場合が多い。プログラムが大きいほど , 手作業て、コード化されたアセンプリルーチンのスピードに依存する可能性が大きくなる。ほとんどのプログラマはコンパおそらく , イラの最適化能力における , 取るに足りない違いを心配すべきて、はない。むしろ彼らは , 1000 回ぐらいは呼び出すことになるライプラリルーチンの性能について心配すべきて、あろう。提供されるライプラリの範囲は価格 / 性能比率における重要な要素て、ある。私たちは北米における 4 つの評論者グループの協力を得た。各グループはすべての製品のコヒ。ーを受け取り , これらの主要な側面のひとつを詳細に検討した ( もっともすべての評論者はすべての側面に関しコメント 26 CMAGAZINE 19 9 を行うよう要請された ) 。評論者はすべての製品を検討対象にしたわけて、はないえば , リック・ナローはインタブリタの検討を行っておらず , テイム・パーカーはコマンドライン専門のコンパイラの開発環境を批評してはいない論評は 1 か月におよぶ業界のスナップ写真だ。比較論評て、は , 論評された製品のひとつ以上が段階的または大幅な改定を通してアップグレードされたようだ。絶えず新製品が登場しつつあるが ( コラム「 1990 十十」参照 ) , 非常に動きの激しい私たちの業界て、は , 出荷中のソフトウェアだけを検討するという方針を打ち立てることが賢明だ。とはいえ , 本特集て、は , 私たちは Microsoft の CVer. 6.0 を検討する。私たちの検討は「第 1 回リリースの候補」て、あるべータ版に基づいている。私たちはこの製品が非常に意義深いものて、あると考えている。これが業界のリーダーによる数年ぶりの主要な改訂て、あるからだけて、はなく , 開発ツールの設計に関する Micr 。 soft の考えを根本的に変更するための彼らの確固たる取り組みを示しているからだ。 C の全体像を見渡す Microsoft の大物 ,CVer. 6.0 リリースから驚くほど低価格な PowerC , Novell の 32 ビットのネットワークコンノヾイラから Aztec の ROM 化対応コンパイラと , C コンパイラの選択が現在ほど容易なことはかってなかった。さらに初の DOS 向け C 十十ネイテイプコードコンパイラて、ある ZortechC 十十が加わる。これは C プログラマにとってオプジェクトについて学ぶ最善の方法て、ある。て、検討されたツールのすべては , ひとつ以上の分野において確固たる足場を築いている。 lntel のチップて、大きなアプリケーションを作る場合 , ふたつのオプションがある。数種類のコンパイラが OS / 2 をサポートしているが , OS / 2 は必ず普及するだろう。もうひとつのオプションは DOS に固執し , ハードウェアの仮説を立てることだ。 640K バイトの障害はプログラミングにおけるべルリンの壁て、ある。 80386 チップの圧倒的な人気により , 開発者たちは拡張 DOS の受容が高まっていることを知っている ( スコット・ラッド「 MS-DOS を拡張する 4 つの製品」 ( ITCOMPUTER LANGUAGE 』誌 1989 年 11 月号 ) を参照 ) 。コンパイラのべンダはこの市場に取り組んて、おり , 本特集て、検討されたコンパイラのなかて、 , すて、に 3 っが 80386 の強みを利用する方向に向けられて MetaWare や NoveII, Watcom の各社は非常に大規模なプロジェクトを扱う能力をもつ咼性能製品を抱えている。もうひとつのべンダ Microway は , たんに 80386 や DOS 工クステンダのみならず , ードウェアマスコプロセッサを必要とする製品を打ち出している。私たちの論評者のすべてがこうした要件に応じられたわけて、はないのて、 , 「 COM PUTER LANGUAGE 』誌は近いうちに NDP C ー 386 の個別検討を行う予定だ。 C を称賛するのか。いや , 埋めてしまおう冒頭て、述べたように , 現在 C は絶項期にある。したがって , それは終焉のはじまりて、もあるのだ。 C は現在のような人気のある言語にはならなかったはずのものだ。それはすぐれた言語て、あり , おそらく偉大な言語て、さえあるのだろうが , 私ほど暴走するポインタのクラッシュを享受したものはほかにいないはずだ ( 私はこうした楽しみを「ほかの者が生きられるよう私のオペレーティングシステムを死滅させてくれ」といった原型的な宗教的かっ神話的なモチーフに辿ってみたいという誘惑にかられている ) 。しか

7. 月刊 C MAGAZINE 1990年9月号

特・集コイラ mov dx, di mov cx, 0ffffH XO 「 ax, ax repne scasb dec di lodsw 0 「 al, stosw 0 「 ah, ah loopne L3 jmp L5 stosb L5 mov ax, dx るかに良質なインプリメントになっている。 MS ー C て、はパイプラインプレークを避け , はう意味をほとんど失ってしまうことだろう。フローが破壊され , インラインコードを使件プランチを使ったがためにパイプライン TopSpeed インプリメントの問題点は , 条 repe movsb adC CX, CX 「 epne movsw shr cx, 1 mov CX, bX dec di 「 epne scasb mov cs, 0ffffH xchg di, si mov bX, CX sub di, cx not CX 「 epne scasb mov cx, 0ffffH mov si, offset buf mov di, bx mov bx, s2 strcat(buf, s2) mmov SI, push ds POP es N=2 N=4 N = 7 帰納変数の削除コンパイラによっては , ループ変数を別の変数て、の置き換えが可能て、ある。以下のコードを考えてみよう。ループから X を削除し , その代わりに配列の開始と終了条件の決定にループレンジを使う。非最適化版 ( ポインタとインデックス両方を維持している ) と比較してみよう。 for(x = 0 ; x く 10 : x 十十 ) arrayCx] dummy( ) ; Zortech C ( 最適化 ) LI mov si, offset L5 call dummy mov csi], ax add si, 0002H cmp si, Offset L6 Lattice C ( 非最適化 ) a 十 5 ) は配列のインデックスたとえば a の計算をポインタに置き換え , レジスタをループインデックスの追跡から開放するのが有用て、ある。ループアンローリング Fortran コンパイラて、は当然のように行われていながら , レビューしたどの C コンパイラて、も行われていない最適化のひとつにループアンローリング ( 訳注 : ループの展開。ループ内の実行コードを必要な回数だけ繰り返し記述する。当然コードサイズは展開の回数分だけ増加する。以下の例て、は , 1 回しか展開していないのて、少しわかりにくい ) がある。ループアンローリングはいずれインプリメントされるて、あろう。パフォーマンスに対する影響の検証は十分に時間と労力を注ぐに値する。同時に sieve of Eratosthenes べンチマークを引き出す格好の理由にもなる。なぜなら , インナーループ ( 訳注 : 自分自身の内部にループをもたないループ ) はアンローリングの最適候補だか LI XO 「 SI, 引 mov di, Offset L5 call dummy mov [di], ax lnc 引 add di, 0002H cmp si, 000aH fO 「 (k k く = FALSE ; flagsCk] 引 Z E ・帰納変数 ( 訳注 : induction varible ループ中にあって自分自身て定義可能な変数。 Table 3 ループのアンロール以下の例は , 1 度だけアンローリングを行った上記と同様のコードてある。たんにアンロールした部分を希望の回数だけ繰り返すだけて、実行バイプラインを最高度に使用することになるのてパフォーマンスが向上 % チェンジバージョンオリジナル時間 ( ミリ秒 ) 30.023 30.622 27.397 26.522 25.477 26.91 1 特集 O.OO ー 1 .96 9.58 13.20 17.84 1 1 .56 米国コンバイラ事情 45

8. 月刊 C MAGAZINE 1990年9月号

「最適化チェック」コン′イラ特・集より速く , より小さなコードを求めてリック・ナロー / 野口修男訳くない驚きもある。最適化とパフォーマンないことが多いコードジェネレータに関しても同じことスはェモーショナルな問題て、あり , プログがいえるが , 各コンノヾイラに付属のツール , ラマによっては妥協て、きない議論になっている。誰しも自分なりの意見があり , 反対ライプラリおよびプログラミング環境については当てはまらない。ソフトウェア開発意見に対して直感的に疑いを抱いてしまう。昨年の「 C 特集」から久しい (C L 誌 1989 プロジェクトのデバッグ , 特長づけと管理こに取り上げた最新コンパイラ群がこの年 2 月号 ) 。そろそろ見直しの時期にさしか厄介な問題に対して , いくらかても光を当のよいツール要求を満たすべく , コンパイかっている。昨年の C を取り巻く情勢は , ラベンダーは躍起になっている。他社製品てることになれば幸いて、ある。 Microsoft や Lattice などの中心的べンダーがとの差別化を図っているだけかもしれない解析範囲をこのレビューのように絞ったコンパイラのアップデートを行っていた場合には , 勝者が誰かをはっきりと宣言すが , 全体を見ることによってコンパイラの方て、 , BorIand はデバッガのツールセットとコード生成機能の重要度が低下し , パッケることなどは不可能て , べンチマークだけ TurboC の新バーションのリリースに懸命ージ全体としての価値を重要視することにてコンパイラを選ぶのは大きな危険を伴う。になっていた ( 訳注 : 翻訳時点て、はすて、になる。全体像を見れば , ソフトウェア開発コンパイラの全体像を見られなくなってし Turbo C 十十として出荷中 ) 。ワークステー計画に重要なツールが何かをインテリジェまうからだ。 ' こて、レビューしたトップクションとメインフレームからの比較的新しラスのコンパイラは , 最適化に関しては同ントに決定て、きる。い参入組 (MetaWare と Watcom) とヤングス様の機能をもつ。これらのコンパイラ間て , タ—(JPI と Zortech) が DOS, Windows, おあるコンパイラがつねにほかの挑戦者を 30 % よび OS / 2 環境用の C または C 十十を販売し挑以上も上回るようなことは , 合成的なべン戦を開始した。チマークを除いてはありえない。実世界てこれだけ多くのコンパイラがあると , な , こ数年て広まったファッショナプルなはスルーブットに影響を与えるほかの要件かにはどうしても驚かされるものがある。オプジェクト指向方法と同様 , 「グローバルが多くあり , プログラマにはどうしようももちろん , 嬉しい驚きもあればあまり嬉し特集米国コンバイラ事情 39 はじめに実践前の理論

9. 月刊 C MAGAZINE 1990年9月号

析を加味した。最適化の質がコンパイラごとに統一されていないためだ。 Table 2 て、は最適化がされていればポイントを与えたが , 抜きん出た最適化を行った一部のコンパイラには意図的に加点した 0Microsoft の高得 Watcom C mov ax, sub ax, mov CX, ループ化したときだ。 0039H mov y, ax add ax, cx sub cx, 0030H Turbo C add ax, add ax, mov ax, mov _y, else else 最適化後 X Y 1 1 占がその好例だて指摘する。この点は比較結果によっ 0ff97H スペースの関係て、詳細な最適化チェックがて、きない。スルーブットまたはコーディングスタイルにもっとも影響のあるものだけに限定した。 Table 2 はコンパイラがサポートする最適化の完全リストて、ある。定数フォールティング定数フォールディング (constant folding) とは , コンパイラが複数の定数を含む式をひとつの値へ削減する処理て、ある。単純な式はすべてのコンパイラて、ごく普通にフォールドされるが , 複雑な式になるとコンパイラによっては最適化て、きないことがある。以下に挙げた実例て、は固定フィールドと可変フィールドのふたつを含んだレコードサイズを計算している。読みやすくするために計算項目をレコードフィールドの順番どおりに配置する。普通は定数 4 を計算ずみのレングスに加算すればすむのだが , Watcom C と Turbo C のインプリメントを比較してみ Z sizeof(BYTE) 十 sizeof(WORD) 十 y 十 sizeof(BYTE) ; Watcom C mov ax, om3H mov Z, lnc ax add ax, Turbo C mov ax, _y add ax, 0004H mov Z, ax コンパイラをチェックし , もし必要ならソースコードをアレンジするとよくなるかもしれない。この最適化をしない理由はどこにもないコードの移動ループの中て、変化しないコードはコード移動 , すなわちホイスティング (hoisting: tmp ; 計算は , すべてループ外へ引き出し , 一度巻き上げ ) の候補だ。ループ内て、変化しない while(x > tmp 最適化後 while(x > 最適化前に計算可能だ。同様のテクニックが多忙式 (very busy 路にわたり , 計算される同一のコードにも expression), すなわち条件文のすべての経最適化前あてはまる。不思議なことに Watcom は変数 Y を st 目 en ( ) へのコールて、置き換えると正しく最適 44 CMAGAZINE 19 9 のはカッコを使って定数のある部分式をグ化した。これに関連したケースが発生したループ中て、一定のコードは削減量がループの繰り返し回数て、掛け算されるのて、重要て、ある。多忙式は時間には無関係だが , スペースの削減に役立つのて、重要だ。ヒントをひとっさしあげよう。このような最適化は自分て、なさい。どのコンパイラも抜きん出たものはないし , このようにコーディンの展開インラインコードグしない理由が私には思いあたらない mov ax, S2 mov di, offset buf strcat(buf, s2) 数 st 「 cat( ) の例て、ある。は大きく異なる。以下は TopSpeedC て、の関るコンパイラは少ないし , インプリメント内部関数 (intrinsic function) をサポートすて、 , レジスタ利用も改善される。スタへのベストな変数割り付けを行えるの適利用することになる。コンパイラはレジプラインとインストラクションキューを最かまわなければコールをなくし , 実行バイ換えたくなる。コードサイズが増加してもにつれて , コールをインライン展開に置きグの比だ。コールオーバヘッドが増加する全体に対するコールのプロローグ / 工ヒ。ローコールオーバヘッドは , 関数の実行時間

10. 月刊 C MAGAZINE 1990年9月号

の仮定 ( —0a) が抜けている。これは , 工リアスがあるのにも関わらず , Ver. 5.1 て、一 Oa を指定しコンパイルして動いたプログラムが , Ver. 6.0 て、一 Oa を指定すると動かなくなる可能性があるためらしい。また , ノレーフ。最適化 ( ー (I) も安全な最適化のみを行うようになった。そのため Ver. 5.1 にあった On, 安全てないループ最適化は行わないというオプションはなくなっている。デフォルトの最適化は今まて、同様、、一 0t" て、ある。安全て、ない最適化も含め , とにかくプログラムを高速化したい場合は一 Ozax ー G 「〃とやるとよい。ー G 「については後述するが , 関数の呼び出し手順を fastcall にするオプションて、ある。いくっかのプログラムをコンパイルし , MS-CVer. 5.1 の生成するオプジェクトと比較してみると , Ver. 6.0 のオプティマイザがかなり賢くなっているのがわかる。例として ,getnum という 10 進数の文字列を LiSt getnum ルーチン (getnum. c) 整数に変換する簡単なルーチンを使い , 生 1 : getnum(char *s) TabIe 2 Ver. 6.0 のオプティマイズオプション *s くニオプション —Oa —Ow —Oz —Oe ー 09 —Oc —Op —Ox —Od —Oi —Ot —Os 内工リアスがないことを仮定関数の呼び出し時以外はエリアスがないことを仮定ループ最適化積極的な最適化グローバルレジスタアロケーショングローノヾルな共通式のくくりだしプロックレベルの共通式のくくりだし浮動小数点演算の一貫性を保証最大限の最適化 ( ー Oegc ⅱ t ) 最適化しない埋めこみ関数インラインリターンを使わないサイズ優先スピード優先成コードの比較をしてみた (List 1 , 2 , 3 ) 。この結果から , Ver. 6.0 は Ver. 5.1 に比べムダなレジスタへの代入が減っているのがわかる。これもグローバルレジスタアロケーションの効き目だろうか。 MS ー C は以前から C 言語流と Pascal 流の , ふたつの関数呼び出し手順をサポートしていた。 C 言語流に比べ Pascal 流は , 引数可変個の関数が作れなくなるという制約がある反面 , コードサイズや実行速度の点て、は有利て、ある。 fastcall は PascaI 流の発展形て、 , はじめのいくつかの引数をレジスタて、渡す呼び出し手順て、ある。レジスタて、渡せる引数は , char, short, int, near ポインタなら 3 つ , long ならひとつまて、て、 , それ以上の引数は今まて、どおりスタックに積まれて渡さ -f stcall ソースコれるようになる。ード中て、 fastcall というキーワー 3 : 4 : 5 : 6 : int num ニ 0 : while (*s while ()S > = ' 0 ' return(num) : Ⅱ *s num = num*10 ' ) S 十十いまさら何て、 , と思うが tiny モデル .COM モデル ) が追加された。ー AT オプションて、モデル指定すると COM ファイルが生成される。不要メモリの解放などは COM モデル用のランタイムルーチン側て、やってくれるようて、 , EXE モデルと同様に子プロセスの起動などがて、きる。ただし , far ポインタを使っているプログラムは tiny モデルにはて、きないようて、ある。インラインアセンプラインラインアセンプラは QuickCVer. 2.0 に実装されたものとコンパチプルて、ある。オペランドには C 言語て、使っているラベル , 変数 , 関数名などが使える。常駐型 ( TSR ) プログラムや割り込みハンドラを書くときには非常に便利て、ある。例として int 25h を使って物理的にディスクを読むルーチンの例をあげよう (List 6 ) 。なお , Ver. 6.0 からは cl コマンドて、アセンプラを呼び出せるようになった ( 与えたファイルの拡張子が . ASM だと自動的にアセンプラを実行する ) のて、 , 本当のアセンプラを使ったとしても , 以前よりは簡単にコンパイル , アセンプル , リンクて、きる。 basedfi インタ based'* インタは near, far, huge ポインドを使ってレジスタて、引数を渡す関数が記述て、きる。また—Gr というオプションて、デフォルトの関数呼び出し手順をレジスタ渡し ( fastcall) にすることもて、きる。なお Ver. 6.0 から , nea 「 , far, cdecl, pascal などのマイクロソフトが独自に定義するキーワードには , その頭にアンダースコアがつくようになったのて、注意してほしい。コード実例を List 4 , 5 に示す。メモリモテル 58 CMAGAZINE 19 9