プロセッサ - みる会図書館

1. 月刊 C MAGAZINE 2001年10月号

Pentium4 では , 丸めモードの変更や中級編で紹介した丸めモードの影響を受けないアルゴリズムを使用するよりも SSE , SSE2 の切り捨てを使用して浮動小数点を整数に返還するコストは大幅に小さくなります。プロセッサの判別 MMX, SSE , SSE2 , 3DNow! などの拡張インストラクションは比較的新しい命令で Fig. 11 バージョン情報のフォーマット 1413 12 1 1 す。これらの命令は昔のプロセッサで利用することができないため , まずはプロセッサ自体が拡張インストラクションに対応しているかどうかをチェックしなければなりません。利用できないプロセッサで拡張インストラクションを含むコードを実行しようとすると確実にエラーが発生します。もし , 拡張命令を利用したソフトをあなたのアプリケーションに組み込みたい場合は , アプリケーション起動時などにプロセッサの判別を行うようにします。 31 プロセッサ・タイプ EAX モデル ( 0001B から始まる ) ファミリ (Pentium P 「 0 プロセッサ・ファミリの場合は 0110B ) Fig. 12 cpuid. exe の実行結果 0 P U Vender: Genu inehte に Fa m i レ : 6 ModeI: 8 Stepp ID: 6 Supported 0 P UID: Yes S 叩 ported M MX Yes Supported SS E: Yes S 叩 ported SS E2: NO S 叩 ported 3DN0 : NO S 叩 ported Enhanced 3 D Now! : NO 8 7 4 3 0 ファミリモテルステッピング ID 36 31 30 29 28 27 26 25 24 23 22 21 20 19 1 8 17 16 1 5 14 13 12 1 1 10 9 8 7 6 5 4 3 2 1 0 ・■亜聞 0 側 0 則聞則 SSE2—ストリーミング MD 拡張命令 2 SLFSNP—セルフ・スヌープ AMD Enhanced 3DNow! AMD 3DNow! Technology EDX CMOV 一条件付き転送および比較命令 PAT ーベージ属性テーブ丿レ PSE—ページ・サイズ拡張 PSN ープロセッサ・シリアル番号 CLFSH—CFLUSH 命令予約済み DTES—デバッグ・トレース / イベント・モニタ AC 曰ープロセッサ・パフォーム監視 MMX—MMX テクノロジ FXSR—FXSAVE/FXRSTO 日 SSE—ストリーミング MD 拡張命令 MCA—マシン・チェック・アーキテクチャ C MAGAZINE 2g1 10 FPU—オンチップ FPU VME ー仮想 8086 モード強化 D E ーデバッグ拡張 PSE—ページ・サイズ拡張 TSC—タイム・スタンプ・カウンタ MS 日一日 DMS 日および W 日 MS 日サポート PAE—物理アドレス拡張 MCE—マシン・チェック例外 CXB—CMPXCHG8B 命令 AP ℃ーオンチップ AP ℃ 予約済み SEP—SYSENTER および SYSEXIT MTRR—メモリ・タイプ範囲レジスタ PGE—PTE グローバル・ビット

2. 月刊 C MAGAZINE 2001年10月号

中級編 X86 命令 , X87 命令 , MMX 命令を用いたプログラムの高速化初級編のまとめで , アセンプリ言語についてそうとうおどしてしまいましたが , アセンブリ言語で記述することで得られる利益もたくさんあります。使い方しだいでは , C 言語で高速化したプログラムをさらに高速化できるようにもなります。ともあれ , この中級編ではアセンブリロ語 ( 主に X86 命令 , X87 命令 , MMX 命令 ) を用いたプログラムの高速化について説明していきます。実行環境筆者の開発・実行環境は次のとおりです。・プロセッサ : Pentium 41.7GHz Pentium Ⅲ 500MHz ・メモリ : 256M ノヾイト ( Ⅲ MM -800 ) 128M バイト (DIMM-IOO) ・ソフトウェア : Windows 2000 SPI V1sual C + + 6.0 Professional SP4 V1sual C + + 6.0 Professional Processor pack IntelVTune Performance Analyzer 5.0 この環境が絶対に必要ではありませんが Windows 98 もしくは NT4 (SP4) 以降の環境と , なるべく新しい CPU ( 高速である必要はない ) を用意してください。また , 中級編の最後で説明する MMX 命令を使ったプログラムの実行には Pen ⅱ um MMX 以上が必要です。さらに上級編では SSE 命令を使用できる Pentium Ⅲ ( 新しいタイプの Celero n でも可 ) 以上が必要です。それぞれの命令を実行できる環境かどうかは , 付録 CD-RO M に収録の Cpuid. exe を実行してみてくださこからはインテル系のプロセッなお , 26 C MAGAZINE 2001 10 サがターゲットとなりますが , インテル系以外のプロセッサでマイクロコードを使って最適化する場合にもヒントになることがあるはずです。インラインアセンブラアセンプリ言語を記述するには「アセンプラ」が必要になります。有名なところではマイクロソフトの「 MASM ( マクロアセンプラ ) 」などがあり , ( マニアックな店以外ではあまり見かけることはないかもしれませんが ) パソコンショップなどで販売されています。しかし Visual C + + をはじめ , 多くのコンパイラは「インラインアセンプラ」というモノを使うことができます。「インラインアセンプラ」とは , コンパイラの機能の 1 っとしてアセンプリ言語とほば同等の記述ができるものです。要するに , アセンプラをわざわざ用意しなくてもアセンプリ言語のプログラムを書けることになりますインラインアセンプラの記述は , 一般的に命令の前に —asm のキーワードを付けます。インラインアセンプラは , 一般のアセンプラに慣れたプログラマからすると気がきかない部分が多少あることも事実ですが , ちょっとしたアセンプリ言語のプログラムを書きたいときには非常に便利です。また , マイクロソフトからリリースされている Visual C + + 6.0 Processor pack (http:/ /www.microsoft.com/japan/developer/vstu dio/download/ppack/ から無料で入手できる ) というⅥ sualC + + 6 用の拡張モジュールを導入すると , Pentium Ⅲからサポートされた Streaming SIMD Extension (SSE) , Pe ntium 4 から導入された Streaming SIMD Ex tension 2 (SSE2) と AMD の 3DNow! テクノロジといった拡張命令 [ 第” 06 ] のアセンプリコードが記述できるようになります。ちなみに lntel C + + 5.0 コンパイラであれば同社の命令セットは ( 当然ですが ) すべて標準サポートされており , 拡張命令の組み込み関数も使用することができます。 X86 系プロセッサ ()A -32 ) 「 X86 」という言葉を知らなくても「 Pen ⅱ u m 4 」はおそらくご存じでしよう。インテルが誇る優れたアーキテクチャを備え持つパソコン用のプロセッサです。 Pentium4 も x8 6 系のプロセッサです。正式には「 32 ( 32 ビットインテルアーキテクチャ ) 」と呼びます。インテルは日々 CPU を進化させてきましたが , 命令系統は旧世代のもの ( 80X86 ) と互換性を保っています。つまり昔作られたプログラムの資産を今日でも利用することができます。それが X86 系のプロセッサと呼ばれるゆえんです。 X86 は厳密にいうと整数演算の処理を担当するコアを指します。浮動小数点の演算は X87 というコプロセッサが担当します。「 x 86 系」 , 「 X87 」 , 「い 32 」など , 書き方がコロコロ変わるとややこしいので , 便宜上これ以降は基本的にこれらのプロセッサのことを総称して X86 と呼びます。浮動小数点を説明する部分では X87 と記述します。本特集は , これよりこの X86 系列のプロセッサをターゲットとします。

3. 月刊 C MAGAZINE 2001年10月号

特集工加殤ムの高速化・最適化またプロセッサ以外に OS がそれらの命していても , OS がそれに対応していない可ません。令に対応しているかどうかも調べなければ能性があるからです。たとえはⅲ dows95 プロセッサの判別は難しくありません。なりません。プロセッサが拡張命令に対応では通常 SSE の命令を実行することができプログラムを順番に眺めていくとわかりますが , まず CPU の ID をチェックする命令で CPUID 機能が使えるかユーザが使用している環境で利用できるかどうかを調べます。プロセッサの種類は基本的に CPU の ID で判別しますが , この命令自体 Pen ⅱ um から正式にサポートされた命令なのでそれより古いプロセッサでは利用できない可能性があります。 List39 の関数を呼んで戻ってきた値が TR UE の場合は , CPUID 命令が利用できることになります。 CPUID 命令の機能を Table 1 に示します。拡張命令が使用できるかどうかの判別で使うのは e を 0 に設定したときと 1 に設定したときです。 e の値を 1 に設定して CPUID 命令を実行したとき戻ってくるバージョン情報のフォーマットは Fig. 11 のとおりです。この図の機能情報レジスタの拡張インストラクションに関するビット (MMX , SSE , SSE2 , 3DNow! , Enhanc ed3DNow ! ) をチェックしてプロセッサが拡張インストラクションを使用できるかどうかを判別します。次に各命令をユーザが使用している OS で利用できるかどうかを調べます。これは実際にプロセッサの拡張命令を実行することでチェックします。 List 40 は , 拡張インストラクションそれぞれの小さな命令を実行するコードです。付録 CD-ROM に収録されている Cpuid. ex e を実行すると Fig. 12 のようなダイアログが表示されます。ダイアログに表示されている CPUVender はプロセッサのべンダによって変わり , インテル製であれば 'GenuineI ntel' と表示されます。 Family はプロセッサのファミリを表し , 5 は Pentium ファミリ , 6 は Pentium PRO ファミリ (Pentium Ⅱ , Ce leron , Pentium Ⅲなどがこのファミリ ) です。 ModeI はプロセッサのモデル番号です。これでプロセッサの種類がわかります。 Ste ppingID はプロセッサがいつごろの時期のものかを区別します。アプリケーションはユーザがどんな実行特集 1 プログラムの高速化・最適イヒ 3 / 〃 CPUID 命令がサポートされているかどうか調べます。 / / 一応 pentium から正式サポートというかたちですが、一部の土 486 プロセッサでも動作します。 OSCheckCPUID() XO て eX, cpuid —except( c 取嘛 ON ー 30 E 一日 ANDL 新 . ) if ( ) = = ) return FALSE; return RUE; 拡張インストラクションそれぞれの小さな命令を実行 / / テクノロジ命令を OS がサポートしているかどうかを調べます。 / / 日はテクノロジの命令です。無事に実行できれば礪が戻ります。〃 streaming SIMD 取に on ( SSE ) 命令を OS がサポートしているかどうかを調べます。〃聞日は S 駆の命令です。この場合も無事に実行できれば礪が戻ります。も OSCheckSSE ( ) —try { —asm andps ー 0 , ー 0 ) —except( c 取 TION - 駆 E 一日 D 新 . ) if ( —exception—code() = = ) return FALSE; 〃 streaming SI と日 ion 2 ( s 覊 2 ) 命令をがサポートしているかどうかを調べます。 / / は SSE2 の命令です。実行できれば駅が戻ります。も OSCheckSSE2() —try ( —asm 聞 d 図 = 0 , 0 } —except( EXCEPTIONÄW.JTE—HANDI. 駅 ) if ( exception—code() = = STATUS—ILIANAL—INSTRUCTION ) return FALSE; return 1 沢 UE ・〃 AD 社の 3 ow ! テクノロジ命令をがサポートしているかどうかを調べます。〃 femg は 3DNow! テクノロジの命令です。実行できればが戻ります。も OSCheck3DNow() . —try ( -agm femmg } —except( c TIO ー衂 E ー L 、 ) —try { —asm emms ) —except( c 取嘛 ON ー新居 c [ 居ー H DL 駅 . ) if ( exception-code() = STATtJS—ILInAL—INSTRUCTION ) て e 加て n FALSE; return 沢 U を一て e に u てれ TRUE; if ( —exception—code( ) = STATtJS. *. -INSTRUCTION ) return PALSE; return NUE; / / A 社の新 h 聞 0 3 0 ⅵ命令をがサポートしているかどうかを調べます。 / / 〆は新 n 。 3 ow ーテクノロジの命令です。実行できれば TRUE が戻ります。 OSCheckE3DNow() —try ( -asm pswagd m0, mmO ) —except( 皿 c 取 TI ー 80 衂 E ー地 L 駅つ妊 ( = ) return FALSE; return RUE ・

4. 月刊 C MAGAZINE 2001年10月号

環境で動作するかわかりません。賢いプロリックス演算なので , 期待する結果は Fig. 度浮動小数点が主な計算なので , X87 FPU グラムは , アプリケーションの起動時にこ 13 のようになります。普通に C 言語で , 最命令を用いて最適化されたプログラムも実れらの ID をあらかじめチェックしておいて , 適化を意識せず記述すると List 42 のような行してみます ( List43 ) 。命令をすべてアセ使用できる拡張インストラクションによっプログラムになります。また , 今回は単精ンプリ言語で書いている点と , 普通にルーて最適化されたプログラムを自動的に選択プのアンロールを行っている点で高速化を 4 回反復される簡単なループしたり , 手動で切り替えたりということが図っています。 FPU レジスタの動きはコメできるようにしているようです。ント以降を見てください。配列それぞれの void add( float ね , 日 oat 物を日 oat * 0 ) 乗算・加算を繰り返し , 1 つずっ順番に結 SSE 命令と XMM レジスタの果を求めています。このあたりの最適化方簡単な使用例法については初級編・中級編をご覧くださこの章の最初のほうで , SSE, SSE2 命令は 128 ビットの新しいレジスタを 8 本使うここれを SSE で最適化すると , List 44 のよとができると紹介しました。うになります。 SSE で最適化されたプログこではその 128 ビットレジスタ (XMM レジスタ ) を用いラムのレジスタの動きはコメント以降の状た簡単な例を紹介します。態になります。プログラムの流れをレジス List41 は , 4 回反復される簡単なループタの動きとともに見るとおおよそ理解できです。ポインタは 16 バイトにアライメント TabIe 1 CPU 旧命令の機能されているものとします。最初に 3 つある m eax = 0 ov 命令は X86 命令でそれぞれのアドレスを初期値レジスタに格納しているだけなのでとりあえず無視するとして , 4 ~ 6 番目の命令が SS E 命令です。意味ー灯 able2 のようになります。出力値 SSE 最適化の具体例 ( 行列演算・パフォーマンステスト ) eax = 1 プロセッサの判別ができて , SSE 命令の初期値使い方が何となくわかったところで , 次は実際のコードを書いてみることにしましょ出力値っこでは SSE 命令を利用したサンプルとして , 単純な 4X1 マトリックス ( 行列 ) 演 eax = 2 算を使ったテストを紹介します。残念なが初期値ら SSE 命令を利用できない環境のほうは , P 出力値 entium Ⅲ以降のプロセッサを持っている友 eax = 3 人などに協力してもらってください。初期値付録 CD - ROM 収録のサンプルプログラム出力値 Ma ⅵ x をご覧ください。 4X1 の単純なマト TabIe 2 SSE 命令 4 void add( float ね , 日 oat め , float *c ) fo て ( = i く十十 ) ctil = a[i] 十 b は ↓ : 三 eax = 0 eax = CPU 旧命令の入力値で渡せる値の最大値 ebx, edx, ecx = プロセッサのべンダ名。たとえばインテル製のプロセッサだった場合は次の値が入る ebx = Genu edx = 'inel' ecx = ntel' = 1 eax = バージョン情報 ( プロセッサのタイプ , ファミリ , モデル , ステッピング D ) eax ebx = ブランドインデックスと CLFUSH のラインサイズ = 予約済み eCX edx = 機能情報 = 2 eax = キャッシュおよび TLB 情報 ebx, edx, ecx eax, = 3 eax ebx = 予約済み eax, = プロセッサシリアルナンバー ( Pentium Ⅲプロセッサ ) edx, ecx 意味 movaps xmmO , xmmword ptr[eax] xmmO ( 128 ビット ) レジスタにアドレス eax の内容を 128 ビット ( 32 ビットの値を 4 つ同時に ) コピーする addps xmmO, xmmword pt 「 [edx] xmmO レジスタとアドレス edx の内容を 128 ビット ( 32 ビットの値を 4 つ同時に ) 加算するアドレス ecx に xmmO レジスタの内容を 128 ビット ( 32 ビットの値を 4 つ同時に ) コピーする movaps xmmword ptrCecx] , xmmO 38 C MAGAZINE 2001 10

5. 月刊 C MAGAZINE 2001年10月号

インテルソフトウェア開発ツール高速化今開発されているアプリケーションの実行速度は、 Pentium4 プロセッサで最高のスピードを出していますか ? これからもユーサーに喜んでいただくソフトを開発するには、最新プロセッサ上で最高のパフォーマンスを発揮できるものでなければなりません。そこで、 Pentium4 プロセッサについて一番詳しいインテルが、アプリケーションの高速化を支援します。アプリ % 分析 ' ー凹 0 5.0 パフォー 1 性能アナライザ「 10 つ、旧回 Pentium4 をはじめとする、各種旧回プロセッサ上でアプリケーションを ( 10 ・ 3 ) し地た“ 実行させた場合のパフォーマンスを分析し、実行速度に悪影響を及ぼしている部分 8 について最適化のアドバイスを提供します。 ( 1 0 ・ーい一工可れ 1 ・タイムペースまたはイベントペースにてシステム全体をサンプリング・モジュール、クラス、関数単位で CPU を多く使用している部分を特定・ソース行ごとにパフォーマンスデータを表示・ソースレベル (C ℃ + + /Fortran/Java) にて最適化アドバイスを提供・関数の呼び出し関係に依存するパフォーマンスをツリー形式で表示・複数のイベントサンプリングセッション結果を統合して表示可能 Microsoft Windows 98 、 Windows NT (SP4 以降 ) 、 Windows ME 、 Windows 2000 (Build 2195 以降 ) 予 [ トトしととい引ーに准第′・ 1 と 5 、一しれに当、′ ( を′ ( 、を - す ~ ′ 3 第 : 破測英語または日本語 Windows に対応システム全体レベルからソースコード、そしてアセンプリ命令レベルまでパフォーマンスを分析します。 VTune performance Analyzer 5.0 : Web 価格 \ 72 OOO 提示される最適化アドバイスには、さらにサンプルを使ったコード記述例も用意されています。 ( 標準価格 \ 88 , 000 ) ~ 0000 れ最適された 0 而愈⑧ーコン′イラーツー A ト F12 。 Pentium4 を含む、各種回プロセッサに最適化されたアプリケーションを生成します。旧回コンバイラは MicrosoftVisuaI : トスフうウナ万イルを閂しる ( Studio 総合開発環境へ組み込まれるので、普段より操作し慣れている環境で使用できます。また、 32 ビットべースの開発醴ールの登録 0 テ検索 ( K) マシン上で、 ltanium プラット・ MicrOSOft VisuaI StudiO 開発環境へ統合・ Mic 「 0S0 れ Visual C + + または Compaq Visual Fortran とソース互換。み“ x ールテストテナ・浮動小数点命令で優れたスルーブットを提供・データブリフェッチ機能・プロシージャ間の最適化フォームを対象とした [ 声 50L ØM わラ・ト乙ーア・プロファイルに基づく最適化・ストリーミング S 隔 D 拡張命令 2 の完全サポートアプリケーションがビルドできる、・新しい機械語命令の使用を簡易化する組み込み関数一 1 MFC TI ′等・自動べクトライザ・各種旧回プロセッサのランタイムサポート ( プロセッサディスパッチ機能 ) ltanium プラットフォーム用のクロスコンパイラも添付されてカスタマイス。 0.- います。オフン 0 … : : マ知旧 t 引コンパイラは Mic 「 09 れ Visual うイマ知録⑧ C ⅳト新 + R StudiolDE に統合され、簡単にクイカマ知の実行 Ctrl+Shift+P メニューから選択できます。アプリケーションの物・ 0 ” 0 ーを支援します。 Centet Performance Libraries intel intel 1 ト丘 1 冫を一ー 03C0 」・主な特長 1 印幻を司上まい : 対応 OS 価格 ( 税別 ) 1 主な特長 3 已房い 00 Ⅲ川体験版無料タウンロードサービス実施中 ! www.xlsoft.com 対応 OS 価格 ( 税別 ) Microsoft Windows 98 、 Windows NT (SP4 以降 ) 、 Windows ME 、 Windows 2000 (Build 2195 以降 ) 回 C + + Compiler 5.0 : Web 価格 \ 58 OOO ( 標準価格 \ 68 , 000 ) 回 Fortran CompiIer 5.0 : Web イ面格 \ 66 OOO ( 標準価格 \ 75 , 000 ) * 製品の仕様及びパッケージ内容、価格は予告なく変更することがありますのでご了承ください。開発元 lntel Corporation i ntel 販売元工クセルソフト株式会社〒 108-0014 東京都港区芝 5-1 -9 プゼンヤビル 4F TE L : 03-5440-7875 FAX : 03-5440-7876 E-mail : xlsoftkk@剌 so 化 com Wune ハンズオントレーニング随時開催中。詳しくは www.xlsoft.com まで。 ◎ソフトバンクバブリッシング凸版印刷 Printed in Japan T 1 1 1 4 5 2 5 1 0 1 2 0 1 雑誌 14325-10

6. 月刊 C MAGAZINE 2001年10月号

特集 1 プログラムはもっと速くなる高速化・最適化加ムの ch3 近年 , プロセッサ技術の進歩で CPU の速度は飛躍的に向上しました。現在では標準となりつつあるギガヘルツのプロセッサですが , ひと昔前までは夢のまた夢でした。おかげで複雑な計算もずいぶん楽にできるようになりました。プロセッサは十分速く , 日々進化していきます。だからもう高速化の必要はないのではないかと思うこともありますが , 計算は速いにこしたことはありません。速く計算できるということは , 同じ時間でそれだけ多最適化の基本 C 言語での最適化にはたくさんの方法がありますが , くを実行できることになるからです。たとえば 3D ゲームでよりリアリティのある表現をしたり , キャラクタの動きをもっとスムーズにすることもできますし , 長時間かかっていた画像処理がたとえば半分の時間でできるようになれば作業効率も倍になります。また , ごく少数ではありますが , プログラムを高速化することに喜びを覚えるような変人 ( 失礼 ) もいます。現在と同じ実行環境で時間に余裕ができることはとても重要なのです。の章ではもっとも一般的なものから順に説明していきます。なかにはこんなものは当然だと考えられる方もいらっしやると思いますが , そのあたりはプログラミングを再確認するといった感覚で眺めていってください。もちろん , 当然のごとく使われているようなアルゴリズムなどはどんどん読み飛ばしてもらってかまいません。 20 C MAGAZINE 2001 10 最適化の概要プログラマにとって理想的な世界は , プログラマの設定した仕様に従ってソフトウェアが自動的に実行プログラムのサイズを縮小してメモリ消費量を最小限に抑え , ただちにコンパイルが完了し , 完成したソフトウェアが常に最高速で動作する環境です。しかし現実には , 開発者はプログラムを自分で書く必要があります。ほとんどのプログラマは , C 言語などの高級言語を使ってコーティングし , アセンプリ言語にコンパイルして , それぞれをリ

7. 月刊 C MAGAZINE 2001年10月号

が圧倒的に少ない計算量で解を導いています。さらにそのぶんプログラムサイズも小さくなっているはずです。 List3 に示す例のように , 規則性のある計算の場合にも演算回数を減らしてプログラムを高速化することができます。理由 : ムダな計算をしないように改善すれば高速化が見込めるため使用される場所 : 計算される場所すべて ( とくに複雑な計算が行われる場所 ) ポイント : アルゴリズムに気をつけるループをまとめる List4 はかなり強引な例ですが , ケース 1 はケース 2 のようにまとめることができます。これはループの終了条件をチェックする際に分岐が起こるため , チェック回数 ( 分岐回数 ) の少ないケース 2 のほうが速く計算方法の工夫② 十 5*x*x*x*x 十 4*x*x*x 十 3*x*x 十 2 1 x*5 ( x * 4 十 ( x * 3 十 ( x * 2 十て・ tu てれ ( 1 十 int defo て新 a 0n2 ( int x ・ケース 2 てれ ( int d ・ fo ェ ma 0n2 ( に x ・ケース 1 3 ループをまとめる lSt fo て ( int 土 = 土 < 丐土十十 = ⅵ幻 + 新 fo て ( int 土第・ケース 1 4 void mma 工臧ル 00P ( int *x, 加セ *y, int n ) 土十十なります。また変数 i が配列のインデックスとして用いられているため , データを参照する回数も減らすことができます。ただし , こういったケースでは計算順序を間違えないように注意しなければなりません。理由 : 条件分岐やデータの参照回数を減らすため使用される場所 : 同じ条件でループするような場所命令の優先順位 ( その 1 ) 浮動小数点の計算では , 除算ではなくなるべく乗算を使います。世の中にあるほとんどのプロセッサでは除算は乗算に比べてきわめて低速に動作します。つまり List5 はケース 2 のほうが高速ということになります。 List6 のような場合は , 乗算を加算で置き換えたケース 2 のほうが速くなります。加算は乗算よりも高速に動作します。実行にかかる時間は「加算く乗算く除算」の順であると覚えておいてください [ 1 い 01 ] 。理由 : プロセッサの作業効率を上げるため使用される場所 : ループ中繰り返し実行される計算が含まれる場所命令の優先順位 ( 乗算・除算 ) void Array1( double *x, double d ) ・ケース 2 x[il / = の fO て ( int 土 = く 1000 十十 void Array1( do 地 *x, double d ) ・ケース 1 5 fo て ( 土れし i = 土《 1000 土十十 float rd = 1. Of / 命令の優先順位 ( 加算・乗算 ) List xti * 引 = fO て ( int = 1 く void Array2( int , int 日 , int れ ) ・ケース 1 6 命令の優先順位 ( その 2 ) 先ほどの優先順位の補足的な形になってしまいますが , データのシフトをうまく利用して計算方法を工夫することもできます。説明するまでもありませんが , データはバイナリレベルで左にシフトされると値は 2 倍 , 4 倍 , 8 倍・・・・・・と増えていき , 右にシフトすると値は 1 / 2 , 1 / 4 , ・・・となります。・ケース 2 void gumma 2 ・石 00P ( int *x, int *y, fO て ( int = 土く土十十 ) = x は = x は = ⅵ幻 * 新 int n VOid て ay2 ( え n セ社 , int 町 int n ) ・ケース 2 fO て ( 土れセ 1 = 土十十 ) = く土十十 , ゴ十 = 8 この性質をうまく使えば , List 7 のような乗算も , シフトと足し算の命令に置き換えることができます。理由 : プロセッサの作業効率を考えるため使用される場所 : 簡単な計算が実行されるところ条件分岐の順序条件分岐 ( if 文 ) を使うときは発生しそうな条件から順番に並べます。 List8 のように発生する確率が高いほうからチェックするようにしておけば , 余分な条件分岐をしなくて済みます。また同じ分岐先であるのなら , 論理演算を使ってそれぞれのフラグをひとまとめにしてから分岐するというテクニックもあります理由 : 条件分岐をなるべく減らすため使用される場所 : 条件が重なるような分岐ポイント条件分岐を減らす最近の長いパイプラインを備えたプロセッサでは , 条件分岐がポトルネックになります。なぜかというと , プロセッサは実行されるコードが命令プリフェッチによって実行前にあらかじめパイプラインに読み込まれてから処理される仕組みだからですこのときプロセッサは条件分岐を予測するのですが , 読み込まれた命令はプロセッサが命令ストリームを正しく予測できるときにのみ機能することになります。実行時 , どこに分岐するかという予測をプロセッサ 0 0 ラインはいったんフラッシュされ , 正しいが誤った場合 , プリフェッチされたパイプ 22 c MAGAZINE 2001 10

8. 月刊 C MAGAZINE 2001年10月号

特集工加殤ムの高速化・最適化 m Ⅲでのコードのパフォーマンスが多少低下することがあります。・アライメントと , コードのサイズが大きくなります。非常に大きいループをアンロールする・必要以上にアンロールを使用したり , ループアンロールによるコストません。ープを 5 回以上アンロールしてはいけ Pentium Ⅱまたは Pentium Ⅲでは , ルアンロールするようにします。ただし , 数が 16 以下になるまで , 内側ループを回数がわかっている場合は , 反復の回プ本体のサイズが大きすぎず , 反復のが存在しない場合 ) 。したがってルー可能であり , ループ内に条件付き分岐正確に予測できます ( 反復回数が予測れより少ない内側ループの終了分岐を・ Pentium4 は , 反復回数が 16 またはそます。イン化 ) して , レイテンシを隠蔽できにスケジューリング ( またはパイプラ・アンロールによって , ループを積極的されます。れるため , 分岐のオーバヘッドが軽減管理するためのコードの一部が除去さ・アンロールによって分岐と誘導変数をループアンロールによる利点紹介します。よる利点と特徴について , そのポイントをサ ( とくに Pentium 4 ) ループアンロールに解説しました。こでは , 最近のプロセッループのアンロールについては初級編でループアンロールによる利点バイト単位で行われます。です。キャッシュラインへの読み込みは 64 ン当たり 2 セクタ , セクタ当たり 64 バイト ) ャッシュのラインサイズは 128 バイト ( ライントを合わせなければいけません。 2 次キ SIMD コードは 16 バイト境界にアライメアンロールされたループがトレースキャッシュの容量を超えると , パフォーマンスが低下することがあります。・ループの本体に分岐が含まれる場合 , それらのループをアンロールすると , 必要な分岐予測の容量が増えます。アンロールされたループの反復の回数が 16 またはそれより少ない場合 , 分岐プレディクタは , ループ本体内の分岐を正確に予測できるはずです。キャッシュ利用の最適化この 10 年でプロセッサの速度はおよそ 10 倍以上に向上しました。しかしメモリのアクセス速度はわずか 2 倍程度になったにすぎません。このパフォーマンスの差を埋めるため , アプリケーションをうまくチューニングしてデータアクセスの多くをプロセッサのキャッシュで実行させることが重要な課題となっています。必要なデータをメインメモリからフェッチするのではなく , プロセッサのキャッシュからフェッチできれば , ほとんどのアプリケーションでパフォーマンスが格段に向上するはずです。これらの一般的なガイドラインとして以下のようなことが考えられます。・最新のコンパイラを使用する・コンパイラの最適化を容易にするために次の点に気をつけるーグローバル変数およびグローバルポインタの使用を最小限に抑えるー複雑な制御フローの使用を最小限に抑えるー con 修飾子を使用するーテータタイプの選択には注意し , タイプキャストはなるべく避ける・プリフェッチのスケジューリング距離を最適化する・プリフェッチ連結を使用する・プリフェッチの回数を最小限に抑える ( プリフェッチ命令は , バスサイクル , マシンサイクル , およびリソースといった観点から見た場合 , 必ずしも完全に自由に使用できるわけではなく , アプリケーションのパフォーマンスに悪影響を与えることもある ) ・プリフェッチ命令の間に演算命令をいくつか挿入する・ストリッブマイニングなど , キャッシュプロッキング手法を使用する・シングルバス実行とマルチパス実行の釣り合いを図る ( シングルバス実行とは計算パイプラインの 1 つの全長を経由してデータ要素を 1 つだけ通過させるもの , マルチパス実行とは複数のデータ要素からなる 1 つのデータ群を対象にしてパイプラインのステージを 1 段階実行してから , そのテータ群を次のステージに渡す方法のこと ) ・メモリバンクの競合問題を解決する ( 連続使用データをまとめてグループ化するか , 4K バイトのメモリページに収まるようにテータを割り当てる ) ・キャッシュ管理の問題を解決する ( プロセッサのキャッシュに書き込まれているテンボラルなデータの乱れをできるかぎり抑えるため , ストリーミングストア命令を必要に応じて使用する ) プリフェッチプリフェッチ命令でデータのキャッシュラインにアクセスすることで , データアクセスに要するレイテンシが生じなくなります。プリフェッチ命令を使用しても , ユーザから見たプログラムの機能は変わりませんが , プログラムのパフォーマンスに影響することがあります。プリフェッチ命令はハードウェアにヒントを与えるにすぎないため , それによって例外や障害の発生することはありません (Fig. 18 ) 。プリフェッチ命令には Table4 の 4 種類があり , これらはプログラマまたはコンパイラによって挿入されます。ただし , プリフェッチ命令を使いすぎるとメモリ大域幅が浪費され , その結果リソース上の制約を受けてパフォーマンスが低下する可能性があります。それで特集 1 プログラムの高速化・最適化イ 5

9. 月刊 C MAGAZINE 2001年10月号

特集 1 加殤ムの高速化・最適化て MMX テクノロジのプログラミングに慣れたプログラマであれば比較的楽に 3DNow ! テクノロジの世界に入っていくことができます。残念なことに 3DNow ! テクノロジ向けにチューニングされたプログラムは , 通常はインテルのプロセッサで動作させることができません。すばらしいテクノロジではありますが , プロセッサの互換性という点で少々不利になってくることが残念です。しかし , 現在の AMD 製のプロセッサでは逆にインテルの SSE2 命令を利用することができないので , AMD プロセッサユーザのためのコードを組むというのも 1 つのアイデアです。 3DNow ! テクノロジについては , 本特集ではこの程度にとどめさせていただきたいと思います。 X87 コードと S D 浮動小数点コードのトレードオフ X87 浮動小数点コードと SSE, SSE2 あるいはその両方を使用したスカラ浮動小数点コードの間には多くの違いがあります。れらの違いを考慮に入れて , どのレジスタアライメントされていないデータをアライメントが必要な命令でアクセスした Microsoft Visual 0 + + ルドルされていない例外はト brmalizeVectorSSE.exe にあります 96 : Priyileged lnstn-rtvono Fig. 10 SSE コードを使用するまでの流れ浮動小数点浮動小数点かなぜいいえ範囲または精度整数に変換できるか単精度にいいえ変換できるかはいはいコード内のホットスポットを設定するコードに MD によるメリットがあるかはい整数か浮動小数点かパフォーマンス S Ⅳ D 整数を使用するように変更する単精度を使用するように変更する整数可能な場合は , テータを再配置して S Ⅳ D 処理の効率を上げるデータ構造のアライメントを合わせる S Ⅳ D 変換を使用するようにコードを変換する一般的なコーディンクのガイドラインと SIMD コーディングのガイドラインに従う必要に応じて , メモリの最適化とプリフェッチを使用する命令をスケジューリングしてパフォーマンスを最適化するいいえ終了およびそれに付随する命令を使用するかを決定することができます ( Fig. 10 ) 。 SIMD 浮動小数点命令の入力オペランドに , そのデータタイプで表現可能な範囲より小さい値が含まれている場合は , デノーマル例外が発生し , パフォーマンスが大きく低下します。ところで SIMD 浮動小数点操作には , ゼロフラッシュモードがあります。ゼロフラッシュモードでは , 結果のアンダーフローは発生しません。したがって , それ以降の計算に , デノーマル人力オペランドの処理によるパフォーマンスの低下は生じません。たとえば , 一般的な 3D アプリケーションのライティング処理などで多数のアンダーフローが発生する場合 , ゼロフラッシュモードを利用すると , パフォーマンスは約 50 % 向上します。スカラ浮動小数点のほうがレイテンシが小さくて済みます。ただしリソースの利用率が低い場合 , 通常これはそれほど大きな問題ではありません。特集 1 プログラムの高速化・最適イヒ 35 することができます。タスタックと XMM レジスタを同時に使用ェアが使用されますが , 浮動小数点レジス m 4 では , どちらの命令にも同じハードウアクセスすることができます。さらに Pentiu とトッブオプスタックの制限なしに , 直接スカラ浮動小数点レジスタは , fxch 命令コードを使用するほうがよいでしよう。 dd の数が多いアプリケーションでは , X87 たがって , 浮動小数点の mul の数に対して a 場合もパイプライン化されていません。していません。浮動小数点乗算は , いずれのラ浮動小数点コードはパイプライン化されではパイプライン化されていますが , スカ Pentium 4 で浮動小数点加算は X87 コードサポートしています。 SIMD 拡張命令 2 は , 最大 64 ビットの精度を度をサポートしています。ストリーミングング SIMD 拡張命令は , 最大 32 ビットの精小数点をサポートしています。ストリー X87 命令は , 80 ビットの拡張倍精度浮動います。 X87 だけが超越関数命令をサポートして

10. 月刊 C MAGAZINE 2001年10月号

特集 1 加殤ムの高速化・最適化レジスタ X86 系のプロセッサには複数のレジスタがあります。レジスタとは簡単にいうとテータを保持する器のことで , 基本的にはこのレジスタを介してデータのやりとりを行うことになります。現在の X86 系プロセッサでは , 1 つのレジスタは 32 ビットのデータを持っています。このうちもっともよく使われるレジスタは eax , ecx , edx ebx , esp , ebp , esi , edi の 8 つの汎用レジスタでしよう。ちなみに x 87 は X86 のような汎用レジスタを持っておらず , FPU レジスタスタックという古典的なスタックベースによってデータを管理します。 FPU レジスタは 80 ビットの幅があり , 主に浮動小数点数の演算に利用されます。しかし FPU レジスタスタックは基本的に最上位にある「トッブオプスタック」にしかメモリとの直接アクセスが許されていません。後ほど詳しく説明しますが , Pentium M MX 以降のプロセッサはこのほかに mm0— mm7 という 64 ビットの汎用レジスタを持っています。ただし , このレジスタは内部で FPU レジスタと交互に切り替えながら使用されます。また Pentium Ⅲ以降では xmmO —xmm7 という 128 ビットレジスタを持っています。このレジスタはほかのレジスタと除算の結果で商と剰余を算出する ( C 言語 ) DWORD d 土 v 土 ( DWORD x, DWORD y ) DWORD a, b; a = x / b = x 宅 y; List 1 はまったく独立して存在しています。アセンブリ言語の基礎高級言語と呼ばれる C 言語などに対し , アセンプリ言語は俗に低級言語と呼ばれます。アセンプリ言語はプロセッサが直接理解できる ( 正確には専用のデコーダを介す ) マシン語と 1 対 1 で対話する形式だからです。アセンプリ言語は一般的にニモニックとオペランドで構成されています。ニモニックとはアセンプリ言語の命令のことをいいます。オペランドにはニモニックで指定した命令のパラメータが入ります。ニモニックによってはオペランドが必要ないものや複数のオペランドを指定するものがあります。たとえば , 次の例は e レジスタの値に 2 を足して結果を eax レジスタに格納しなさいという命令です。 —asm add eax, 2 ちょっと極端な例ですが , 次のように C 言語で書くよりもアセンプリ言語で書いたほうがシンプルな場合もあります。 —asm mov eax, d1234 —asm bswap eax —asm mov d4321 , eax bsw 叩はデータバイトの上下を入れ替える命令です。工ンティアンを変更する場合などに使用されます。 C 言語では次のようになるでしよう。 ( d1234 ” 24 ) ー d4321 = ( ( d1234 8 ) & 0xff00) ー ( ( d1234 & 0xff00) くく 8 ) ー ( d1234 くく 24 なお , 本特集の目的は「プログラミングの高速化」であり , アセンプリ言語を解説するものではないのでこれ以上の説明はしませんが , 内容をよく理解するにはアセンプリ言語に関する書籍などを読むほうがいいでしよう。 X86 の特徴とアセンブリレベルでの最適化 X86 の特徴を生かすと , C 言語では表現が難しかった最適化も簡単にできることもあります。たとえば整数の除算の結果で商と剰余の値が必要なことがあります。 C 言語では List21 のように除算を 2 度実行することになりますが , アセンプリ言語で書くと List 22 のように 1 度の除算で済みます。これは x 86 命令がもともと整数の除算の結果を商と剰余で出しているからです d ⅳ命令は , edx に上位 32 ビットを , eax に下位 32 ビットを格納して実行すると , オペランドの値で除算した結果を e , edx レジスタに返します。ちなみに xor は排他的論理和 , mov は移動の命令です。インライ 0 サインとコサインを使った座標計算 ( C 言語 ) void n003 ( float x, float * 0 , 日 oa に * 日 ) List * 0 = 00 日 ( x * 3 = 日加 ( x ist 4 サインとコサインを使った座標計算 ( アセンブリ言語 ) IS 2 除算の結果で商と剰余を算出する ( アセンブリ言語 ) divide( DWORD x, DWORD y ) DWORD a, b; xoredx, dx レジスタを 0 にする。題 0 eax, x ー eax レジスタに x を格納 div y 経 / y 重 0 a, eax = x / y 新 0 b, edx = x 物 y void 日 inco 日 ( float も float * 0 , oa し * 日 ) も dvordptr[cl cx にコサインの値を格納するアドレスをロードー浮動小数点の計算はスタックベースで行うため。を F 部レジスタスタックに積む。 fld x fs 加 00 日 fstp fstp 0 て d pt て [ 幻ーコサインの値をロードと 0 。 9 を計算も d ェ dp い ] にサインの値を格納するアドレスをロード dvord ptrteax) ーサインの値をロード特集 1 プログラムの高速化・最適化 2 /