文字列 - みる会図書館

1. 月刊 C MAGAZINE 2000年4月号

List pe 「でコマンドラインから入力された引数を表示するが , 正規表現のメタ文字として使われていす。ひとつはシフト JIS コードを使わずにる記号が検索文字列に含まれているときに日本語 EUC コードを使うことです。日本は注意が必要です。たとえば C 言語の配列語 EUC の文字コードは最上位ビットが立 (a [i] のようなもの ) を検索するため " [ " をっているので , 1 バイトの英記号で使われ含む行を表示しようとしたとします。ている範囲と重なることがありません。でたとえば , もうひとつの方法は日本語対応になって print grep(/[/, く FILE>) ; いる JPerI を使うことです。 JPerI では日本 # 誤りのようにすると , プログラムは , 語の文字を 1 文字として認識するので 2 ノヾ / [ / : unmatched [ ] in regexp . イト目がほかの文字と誤解されてしまうとというエラーメッセージを出して終了していう心配がなくなります。しまいます。このエラーメッセージは「正・コマンドラインの引数規表現 ( regexp ) のなかで " [ ] " が対応していません」という意味です。実は " [ " と " ] " 検索する文字列をプログラムのなかに埋は正規表現のなかで文字クラスというものめ込んでしまうと , 検索文字列を変更するを表現するためのメタ文字で , 必ず " [ " と " ] " 必要が生じたときにいちいちプログラムをと書くことができます。配列@ARGV を数が対になっていなくてはなりません ( 文字修正しなくてはなりません。これを避ける値比較である = = 演算子で使っていますね。クラスというのは , 正規表現のなかで " [ a ーには , コマンドラインから検索文字列を入このとき , 配列@ARGV は要素の個数を返 z ] " で英小文字 1 文字を表したり , " [ 13579 ] " 力することです。コマンドラインで perl スすことになります。 C 言語ではコマンドラで奇数の数字 1 文字を表したりするためのクリプトに与えられた引数は , 特殊な配列 , インの引数は , もの ) 。 " [ " のメタ文字としての効果をな / * C 言語 * / @ARGV くすためには前に " \ " を置いて次のようにに格納されています ( ARGV の部分は大文 main (int argc, char * argv[] ) します。字 ) 。これは引数列 (argument vector) を表の argc と ar のふたつの仮引数で知ること print grep(M/, く FILE>] ; しています。個々の引数は順に # 正しいができました。 Perl では配列@ARGV だけたとえば , [i] という文字列を探すには $ARGV [ 0 ] で知ることができます。ちなみに Java 言語次のように書きます。 $ARGV[I ] の配列も自分の長さを知っているので , print grep(/%[i%]/, <FILE>) ; # 正しい $ARGV[2] 三五 * / / * Java= ⅱロ個々の記号の前に \ を置く代わりに全体 $ARGV[3] main (String [ ] args) を }Q—YE でくくることもできます。 }Q— の args というひとつの仮引数でコマンドラ \ E の範囲にあるメタ文字は自動的に \ が付としてアクセスできます。何個の引数が与インからの引数を知ることができます。配えられたかは , 別の特殊な変数 $ ARGC でいたのと同じように扱われます。列の要素数は args. len h で得られます。与えられま・・・・・・いいえ , 違います。 perl の print grep(/YQ[i]YE/, <FILE>) ; # 正しいコマンドラインから入力された引数を表配列は自分の大きさを知っています。 perl 示するプログラムを上記の 3 種類の言語で・日本語を扱ううえでの注意点の配列をスカラコンテキストで評価すれ書いてみましよう ( List4 ~ 6 ) 。比較してみ日本語を扱う場合には注意が必要です。ば , 配列の要素数を得ることができます。てください。ただし , 0 番目の引数の意味 2 バイト文字のなかに検索する文字がたまつまり , 引数がないときの if 文は , は C 言語だけ異なります。 C 言語だけ 0 番目たま含まれてしまう場合があるからです。 if (@ARGV = = 0 ) { の引数はコマンド名になるからです。 Perl たとえば Windows で使われている文字コ die ”引数がありません¥ n ” で $ ARGV [ 0 ] はコマンドではなく引数です。ード ( シフト JIS) では , 「データ」や「コンピ List Java でコマンドラインから入力された引数を表示するュータ」で使われている「一」の 2 バイト目が [ と同じ値になります ( 16 進数で 5B ) 。つまり , / \ [ / を使って検索すると , 「データ」や「コンピュータ」にマッチしてしまうことになるのです。これを避ける方法は大きくふたつありま 92 C MAGAZINE 2000 4 1 foreach $arg (@ARGV) { print ” $arg%nn; 2 List c 言語でコマンドラインから ) 功された引数を表示する 1 : #include <stdio. h> 2 : 3 : void main(int argc, char * a て [ J) int 新 5 : 6 : 7 : 8 : for ( 土 = i く argc; i 十十 ) { printf("%s%n", argv[i] 1 : class Test { public static void main(String[ ] args) { 2 : f0 て (int 土 = i く args.length; 土十十 ) { 3 : System. out. println(args[i] 4 : 5 : 6 :

2. 月刊 C MAGAZINE 2000年4月号

Java フロクラミングリファレンス詳説ル K 解体新斟 Fig. 3 0. 0.0 0d OF 0. D 0d 0. OD 0. F 0. OF 0e1 0e + 1 0e -1 0e1d 0e + If .0 浮動小数リテラルの例 ″ double リテラル〃 double リテラル //double リテラル / / double リテラル ″ float リテラル //double リテラル ″ double リテラル //double リテラル〃 float リテラル ″ float リテラル ″ float リテラル / / double リテラル //double リテラル / / double リテラル ″ double リテラル //float リテラル TabIe 1 型 int long TabIe 2 型 float double TabIe 3 整数リテラルの値の範囲幅 32 64 範囲 -2147483648 ~ 2147483647 -9223372036854775808 ~ 9223372036854775807 浮動小数リテラルの範囲内部形式旧 EE754 単精度旧 EE754 倍精度ビット範囲 32 士 ( 1 .40239846e -45 ~ 3.40282347e + 38 ) 64 士 ( 4.94065645841246544e -324 ~ 1 .79769313486231570e + 308 ) Unicode 工スケープ以外のエスケープシーケンスもっとも簡単な浮動小数リテラルである。もちろんフルコースの「数字 + 小数点 + 数字 + 指数 + サフィックス」という形式であってもかまわない。浮動小数リテラルは意外にバリエーションが豊富で , 形式定義や言葉による説明だけではわかりづらいので , いくつかの例を Fig. 3 に示した。たとえば「 ld 」とか「 OF 」などは一見すると 16 進リテラルを記そうとして , 先頭に「阪」を書き忘れたのかと誤解するかもしれないが , これらはれつきとした浮動小数リテラルであるから注意が必要である。また , 浮動小数として許容される値は , Table2 に示した範囲になる ( この場合も符号を付けると厳密には単項式になる ) 。 double の値は , 指数が正負で対称になっていない点に注意が必要である。「論理リテラル」は true か false のいずれかであって , boolean 型である。文法上はこれ 3.14159e + 304 ″ double リテラル 3.14159e + 304d / / double リテラル 3.14159e + 304f / / float リテラル Fig. 4 8 進工スケープの構文 8 進工スケープ : ¥ 8 進数字 ¥ 8 進数字 8 進数字 ¥ 0 から 3 8 進数字 8 進数字 8 進数字 : one of 0 1 2 3 4 5 6 7 0 から 3 : one of 0 1 2 3 工スケープシーケンス ¥ b ¥ t ¥ n vf 8 進工スケープ Vu0008 : バックスペース水平タブ改行 ( ソース中に・¥ uOOOa ・と記すことはできない ) Vu000c . フォームフィード ( 改ページ ) 復帰 Vu0022 . ダブルクオート「 " 」 %u0027 . シングルクオート「・」 Vu005c . バックスラッシュ「¥」 ¥¥ u00ff : 該当する 8 進値意味 Vu000d Vu000a Vu0009 らのトークンはキーワードではないが , 予約語である。したがって , プログラマが tr ue, false という綴りの識別子を利用することはできない。「文字リテラル」は , シングルクオート円で囲まれた 1 文字であり , char 型になる。ただしこの「 1 文字」には , バックスラッシュ「 \ 」およびシングルクオート円を除く任意の入力文字 ( すなわち行末文字以外の Uni code 文字 ) か , あるいはエスケープシーケンスを指定することができる。シングルクオートやバックスラッシュ自身 , あるいは行末文字を指定する場合には , ェスケープシーケンスを用いる必要がある。代表的なエスケープシーケンスは Unico de 工スケープと呼ばれるもので , 「 \ u 」のあとに 4 桁の 16 進数字を用いて指定する。たとえば卩 \ u0041 リは「 'A' 」と同じである ( 特別な形式として , 「 \ 」のあとには「 u 」を複数指定してもかまわない ) 。こで , 工スケープシーケンスとしては Unicode 工スケープ以外に Table 3 の最後に示すような 8 進表記のエスケープシーケンスも許す。この詳しい構文規則は Fig. 4 に示すとおりであり , 最大 8 桁までの 8 進数で文字コードを指定するもので , C の同様の構文とよく似ている。これまた正確にいえば , Java では 8 進 3 桁で指定する場合 , 最初の数字は 0 ~ 3 でなければならないとなっているが , C の場合任意の 8 進数字でよい。たとえば , 「判 56 リという文字定数は C では ( いちおう ) 正しい文字定数と認識されるが , Java ではエラーである。ちょっと話が先走るが , 文字リテラルではなく文字列リテラルでもこの点は同じで , 「 " \ 456 " 」といった 8 進工スケープを用いた場合には「 " \ 4 " + " 56 " 」とか「 " \ 45 " + " 6 " 」のように解釈するのではなく , 工ラーになる ( 少なくとも JDK 系の処理系ではそうである ) 。また ANSI C が許す卩 la リといった形式の 16 進表記によるエスケープは Java には用意されていない。 Unicode 工スケープがあればこれは不要だからである。なお Unicode 工スケープで注意すべきは , この表現形式はコンパイルフェーズのきわめて早い段階で展開され , それが表している本来の文字に置き換えられるということである。たとえば卩 \ u0041 リは早い段階で Java プログラミングリファレンス詳説 JDK 解体新書 111

3. 月刊 C MAGAZINE 2000年4月号

if( Character. isspaceChar( ch ) ) { / / スペース文字 if ( cur_chnum 《 1 ) { て e セⅡて n ( gotSpace = false ) ー 3 : 7 : 9 : 10 : 11 : 12 : 13 : 15 : 16 : 17 : 18 : Fig. 2 List 1 候補語の直後の 1 文字を調べる 1 : 日セ at 土 0 final string 。 = " がはをだでもとにや、 ( ) / ′ ( ) 物 / / 直後の 1 文字 2 : boolean isVa1idPostfixChar( char postCh ) { “など”だけ Korn シェル・・・これは OK 4 : if( gotNO = = true ) return true; / / , の , を含む語は無条件に OK とする return( vpc. indexOf ( ( 土 nt ) PO 日セ C れ ) ! = -1 ) ー List 2 語の直後の複数文字を調べる 1 : boolean isVa1idpostfixStr( String po 日し S にて ) { return( po 日 ts セて . BtartSWith( 。など " ) / / 今は List 3 索引候補語を構成する文字なら t 「 ue を返す 1 : boolean 土 sVa1 idForrndex ( char c れ′ int cur—chnum ) { } / / 冒頭のスペース } / / 連続しているスペース else if ( gotSpace ) { return false; else{ return( gotspace = true ) / / それ以外のスペースは true / / ↑スペースを拾ったよ ! gotSpace = fal 日 e ー / / スペースは拾っていません ! if( 土日 NO ( 0 ) & & cur—chnum 》 0 & & gotNO = = false ) { return( gotN0 = true / / 語間の ' の ' は一つだけ拾います }else if( isKatakana( ch ) Ⅱ土日 Ran 」土 ( ch ) Ⅱ iBA1phaOrDigit ( ch ) ) { return true ー }else if( isSpecia1Symb01 ( c れ . cur—chnum ) ) { return tru 町 / / アンダスコア文字などプログラミングで使う特殊文字 }else{ return false; 一部の重要語句を拾えない場合 (a) パラグラフ ( 行 ) のサンプルシェルの設定ファイル」 ogin は C シェル , . P 「 Of ⅱ e は KO 「 n シェルのものであり , 前者は bash でもそのままの名で使用できる。それでは java. text バッケージと java. swint. text バッケージを見てみよう。ところで私は , JDK 1 . O をあまり使い込んだことがない。 (b) 上の例文から拾われる語句 [ 拾いたい語句 ] 」 ogin C シェル p 「 OfiI e Ko 「 n シェル bash java. text)t ッケージ java. swing. text ノヾッケージ JDK 1 . O [ 実際に拾われる語句 ] シェルの設定ファイル私 -NA- text)t ッケージ使用名 bash 前者 p 「 OfiIe C シェル login ・これは O K ・・これは O K " ばかり " とか " から " , " より " などなど , もっと多くの文字列を調べたいでしよう。ックの開始です。今後スペースに出会ったは , スペース文字以外の文字に関するチェ isVaIidForIndex ( ) メソッドの 7 行目以降ほど説明します。ッド adjustCharTraiIer ( ) については , のち語から , 要らない末尾文字を取り去るメソのちほど , それを取り去る処理をします。字は語の末尾にあることになりますから , ただしそのような場合に拾ったスペース文字とみなされ , そこで語を終結させます。そのスペース文字は 4 行目により非有効文ペースの直後にさらにスペースがあると , ペースーっだけを拾います。その拾ったスペースは拾いません。 5 行目で , 最初のスす。語頭のスペースと二つ以上連続するスでは拾うべきスペース文字を拾っていま分は説明が必要かもしれません。 1 ~ 6 行目 ( 10 行目以降 ) は単純明快ですが , 前半部この isVaIidForIndex ( ) メソッドの後半 ( ) を見ましよう (List3)0 文字種を判定するメソッド isVaIidForIndex えましたから , 次は候補語本体を構成する文字 ~ 文字列に関する判定部分の説明を終以上で , 候補語本体ではなくその直後のックする必要はありません。ッドで ue になりますから , こちらでチェ初の文字が上の isValidPostfixChar ( ) メソただし " だから " とか " によって " などは最 C 言語フォーラム 139 いないために , 一部の重要語句を拾えないリオド文字・ . ' を候補語構成文字とみなして上の文字種判定メソッドでは ASCII のピ OK をだしています。する特殊文字 ( アンダスコア文字など ) に英数字 , および Java や C プログラムで使用部分 ( 10 ~ 14 行目 ) では , 片仮名 , 漢字 , isVaIidForIndex ( ) メソッドのそれ以降のて OK をだします。語中で初めて出会ったーっの・の ' に対します。そして 8 , 9 行目では , 語頭ではなくてないよ " というフラグをセットしておきときのために , " スペース文字はまだ拾っ

4. 月刊 C MAGAZINE 2000年4月号

特 : 別 : 記 ! 事インターネットをはじめとするネットワーも注目されている技術のひとつである。こクを利用する際に , 悪意のある不正なアクの記事では , カシオ計算機 ( 株 ) より提供さセスからデータを保護する方法のひとっとれた資料を元に , 同社が開発した多次元べして「暗号」の利用がある。日音号は , 今後のクトル回転を利用する最新の暗号技術「 M 「 e - 」ビジネスの発展とともにさらに重要な DSR 」の技術内容や特性について紹介す技術となることが予想され , いま , もっとる。多次元べク N レ回転による暗号化技術 M ロ SR 太田純だ。情報が守られるべき財産とみなされる速に進む。 14 世紀ごろイタリアで使われはじめにようになったころから , 人間はさまざまなるようになった隠語表による暗号は , その暗号化手法を作り出し , 活用してきた。後フランスで高度に発達し , コードブック近年になってさまざまな企業が暗号技術現代はインターネットに代表される情報暗号として結実した。これは暗号化の途中メディアが高度に発達し , さまざまな情報で換字表をつぎつぎに取り替えていくものに参入しているが , カシオ計算機からも M DSR(MuIti-Dimensional Space Ro ねⅱ on ) とが開かれたパイプラインのなかを日々流れで , “多表式”と呼ばれることもある。この呼ばれる暗号化手法が発表されている。ている。このため暗号の利用はきわめて重手法はその後何世紀にもわたって使われ , 暗号の用途も外交暗号から軍事暗号 , 商業れは多次元べクトル回転によって生成され要で切実なものとなり , これを実現するための暗号化手法も多種多様なものが開発さ暗号へと広がっていく。る乱数列を利用したもので , 暗号化と復号れている (TabIe 1 ) 。 20 世紀になると無線通信の発達によりに一般的なハードウェアが利用できるので暗号の必要性が高まり , 暗号化を自動的に応用範囲が広い。同社ではとくに携帯情報暗号の歴史行う暗号機の開発が盛んになる。第二次大機器分野での応用に期待しているようだ。暗号の歴史は遠く古代エジプトやギリシ戦でドイツが軍事・外交用に使ったェニグこの記事では MDSR の中核となる多次元マ暗号機は多表式暗号を機械化した暗号機アの時代にまでさかのばる。べクトル回転の実現方法とそれを用いた暗古典的な暗号としては , 平文 ( 暗号化さとしてよく知られている。号化手順について解説する。また , カシオバーナム暗号はテレタイプで平文と乱数計算機の提供による Windows 用のサンプれる前の文。人が読んでそのまま理解できルプログラムが付録 CD - ROM に収録され列のさん孔テープを同時に流すことによる文 ) 中の文字を規則的に別の文字で置きり , ビット単位の排他的論理和による暗号ているので , 暗号化のようすを実際に確認換えて暗号化する“換字式暗号”や一定の手化を行う手法だ。電子化も容易であり , 平することも可能だ。続きに従って文字位置の交換を行う“転置暗号技術を理解するにはその背景をある文と同じ長さの乱数列を使い , 同じ乱数列式暗号”が有名だ。程度知っておく必要がある。そのため , スパルタではスキュターレと呼ばれる棒を二度と使わないかぎり , 原理的に解読不こではまず暗号一般についての仕組みと性可能という特徴を持つ。その後 , 計算機のを用いた転置式暗号が使われた。ジュリア質を概観し , その後 MDSR の技術的詳細や利用によって短い鍵からきわめて長い擬似スシーザーが発明したといわれるシーザー特性に触れることにしよう。暗号は , アルファベットを 4 文字シフトし乱数列を作ることが可能になり , 現在ではて別の文字に置き換える。また , 日本ではこれを利用したさまざまな暗号化手法が開戦国時代に換字表を用いた「字変四十八の発されている。法」が使われていた。ポーの小説「黄金虫」ストリーム暗号とプロック暗号暗号とは簡単にいえば情報を秘匿したりに出てくるのも換字式の暗号だ。特定の相手に伝達したりするための技法暗号の利用は近代外交の発達とともに急 “ストリーム暗号”は平文を一定ビット特別記事最新暗号イヒ技術「 MDSR 」 99 暗号とは

5. 月刊 C MAGAZINE 2000年4月号

ァイルハンドル FILE に関連付けられているファイルのすべての行を要素に持っリストになります。結局 , grep(/CVS/, <FIL E > ) という式は , FILE に関連付けられているファイルの内容をすべて読み込み , パターン " / CVS / " にマッチする行のみからなるリストを作り出すことになります。 print はそのリストを受け取ってすべての要素を表示します。 grep のこの使い方を理解すると , リストや配列のなかから目的のパターンを見つけ出すことができるようになります。たとえば , 次の文は # で始まる行のみを表示します。 print grep(/A#/, <FILE>) ; 記号 ^ は「文字列の始め」を表す正規表現のメタ文字です。次の文は , # で始まる行「以外」を表示します。 print grep(!/A#/, <FILE>) ; 表示するのではなく別の配列に代入してもかまいません。次は , Copyright を含んでいる ( らしき ) 行を集めて配列@list に代人しています。 @list = grep (/copyright/i, く FILE>) ; /copyright/ の後ろに付いている "i" は , 大文字小文字の違いを無視する (ignore) というオプションです。さらに 2000 年の COPY ⅱ ght を含んでいる行を得るために @ⅱ St2000 = grep ( / 2000 / , @list) ; のようにすることもできるでしよう。次のようにもできます。 @ⅱ St2000 = grep ( / 2000 / , grep (/copyright/i, <FILE>) ) ; CVS の検索をするときに , 工ラー処理をやらず , とにかく短く書くため close や clos edir もやめてしまうと , List3 のように書くこともできます。 for は foreach と同じ処理を行います。「ところで , 正規表現や "/i" って , どうやって調べるの ? 」もっともな質間です。私は Perl のマニュアルで調べています。本になっているものとしては「プログラミン・ perldoc List カレントディレクトリ中のファイルから CVS を見つけ出す例 2 ( g 「 epl. pl) つ 0 て die "opendir:$!%nn; 1 : opendir(DIR, 2 : foreach $filename (readdir(DIR) ) ( 3 : 4 : 5 : 6 : 7 : if ()f $filename) { open(FILE, $filename) 0 て die "$filename:$!*n" ・ print grep(/cvs/, ぐ I > リ close(FILE); Fig. 2 perldoc で正規表現を調べる C ・ WVORK> perldoc perlre NAME perlre ー Perl regular expressions DESCRIPTION This page describes the syntax Of regular expressions in Perl. FO 「 a description Of hOW tO * use * regula 「 expressions in matching ope 「 ations. plus va 「 ious examples Of the same, see discussion Of 、 m / / ・ , 、 s / / / し q 「が and 、 ? ? ・ in the section on "Regexp Quote-Like Operators"in the perlop manpage. ( 以下略 ) 9 : closedir(DIR); List カレントディレクトリ中のファイルから CVS を見つけ出す例 3 ( g 「 ep2. pl) 1 : opendir(DIR, 2 : for (readdir(DIR) ) { print grep(/cvs/, <FILE>) if $-); 3 : Fig. 3 perldoc で使えるセクション名を調べる C ・ YWORK> perldoc perl ( 中略 ) perl perldelta per15004deIta perlfaq pe 「は0C perldata perlsyn perlop ( 以下略 ) Perl overview (this section) Perl changes since previous version Perl changes in version 5.004 Perl frequently asked questions Perl documentation table Of contents Perl data st 「 uctures Perl syntax Perl ope 「 ators and precedence グ perl 』 ( オライリー・ジャパン ) を読みます。ほかにも , たとえば正規表現について知りたかったら , コマンドラインから , perldoc perlre と入力すると , 説明が表示されます ( Fig. 2 ) 。 perlre の re というのは正規表現 (Regular Ex pression) の頭文字をとったものです。 perl re 以外に何を調べることができるかは , perldoc perl と人力しましよう。すると , perldoc の後ろに書くことができるセクション名が表示されます ( Fig. 3 ) 。ご想像のとおり , perld oc perldoc と入力すれば , perldoc そのものの説明が読めます。・記号を検索するときの注意点さて , CVS のような英文字のみから成る単語を検索する場合には問題はないのです perl プログラミングの楽しみ 91

6. 月刊 C MAGAZINE 2000年4月号

の解答です。こでは JPerI を使い , また暗黙のうちに while ( ◇ ) にコでくくってくれるオプション -n を使っています List 12 ではパターン全体を ( ) でくくって $ 1 で受けるのではなく , 特殊変数 $ & ( マッチしたパターン全体を表現 ) を使っています。つまり , 以下はすべて同等です。もっとも , このように汎用な重複文字にした場合 , テキスト中の「ここ」や「Ⅵ」などにも全部マッチしてしまうので , 必ずしもテキストの編集ミスを見つける目的には向きません。文書のアウトライン表示・記号に応じたインデント数 $file に指定したファイルをオープンしこの応用として , http : や : から始まる長い文章をテキストエデイタで書いてかて , その各行をスキャンしつつパターンマ行にマッチさせるには , ら , 全体のアウトラインや目次を作りたい $line /A(http:lftp:)/ ッチを行います。ときも文字列検索は便利です。大項目 ( 章 ) Fig. 7 は拙著『 Java 言語プログラミングレという式を使います。いまあなたが持ってや小項目 ( 節 ) のタイトルの前に , 自分でッスン』の文書ファイルのアウトラインをいるテキストファイルにはどういう特徴が決めた記号を書いておくと簡単に文章の全表示したものです。ありますか。あとで検索をかけるときに便利な記号を埋め込んでおくのもよいです体像を把握できます。こで使われているパターンマッチは , ね。たとえば「ここはまだ未完成 , あとで $line = ~ / ^ ◎ / です。この連載のための用の原稿を書くと再考する」ということを示すために , 「 ? ? ? 」というものです。これは変数 $ line が◎ときにも , これらの記号を使って見出しにしいう記号で始まっているときに真になる式や「※」という文字列を入れておけば有益です。パターンのなかの ^ は「文字列の始ています。でしよう。 List 14(outline0. (l) はこのような記号をめ」にマッチするメタ文字です。この ^ が C 言語をやっている人は , PerI の elsif のないと , 行の途中に◎が出てきたときにも検索し , その記号に応じて字下げ ( インデつづりに注意してください。 else if でも els ント ) を行うスクリプトです。こでは変マッチしてしまいます。 eif でもなく elsif です。 List 記号に応じてインテントを行うスクリプト (outIine0. pl) out ⅱ neO をシンプルにしたもの ( out ⅱ nel . pl) 14 Fig. 7 List 14 の実行例 C:\WORK> perl outline0. ■この章では・ ■例題 1 . HeIIo! を表示する Java プログラム ◎ List(He110. java) ・画面に Hello! と表示して終了するプログラム・コンバイルして実行してみよう ◎ Fig : He Ⅱ 0. java のコンパイルと実行・例題 1 のプログラムを読んでみよう 1 行目 . public class HeIIo ー ◎まるごと覚えよう : クラスの名前は大文字ではじめる習慣になっている 2 行目 . public static void main(String[l a 「 gs){ ◎まること覚えよう : プログラムは main メソッドから開始する ◎ちょっと一言 . アプレットは init メソッドから開始する 3 行目 . System. out. println("HeIlo!"); ◎ちょっと一 System. out. println 4 行目 : } 5 行目 : } ・全体をもう一度つかんでみよう ◎ちょっと一言 : 字下げ・例題 2 : こんにちは。を表示する Java プログラム ◎ List(Aisatsu. java) 画面にあいさつを表示して終了するプログラム似下省略 ) ◆◆◆◆◆ 私がよく使うのは , ■・◆◎などの記号 List 15 $file 'yourfile. txt' 1 : 2 : open(FILE, $file) 0 て d 土 3 : while (defined($line = <FILE>)) { print 引土 n } elsif ($line = ~ 6 : 7 : print 引土 n } e lsif ( 引 ine = 8 : print ' 9 : , 引土 n } elsif ($line = ~ ◎ / ) ( 10 : print 11 : , 引 i れ 12 : 13 : } 14 : cIose(FILE); $file = 'yourfile. txt' ・ 1 : 2 : open(FILE, $file) 0 て d 土 3 : while (<FILE>) 4 : print ー ) elsif ( だ・ 6 : print 7 : } 引 sif ( 广◆ / ) { 8 : print 9 : } elsif ( だ◎ / ) { 10 : 11 : print 12 : 13 : } 14 : close(FILE); 96 C MAGAZINE 2000 4

7. 月刊 C MAGAZINE 2000年4月号

ロの List ハッシュを使う ( out ⅱ ne2. pl) List 同じ動作をする謎のプログラム ( out ⅱ ne3. pl) $file = yourfile. txt' 1 : 2 : 3 : 4 : 5 : 6 : 8 : open(FILE, $file) 0 て die; 9 : while ( く FILE>) { foreach $regex (keys %prefix) { 10 : if ( /$regex/) ( 11 : print $prefix{$regex) , $ 12 : 13 : last ー 14 : 15 : 16 : ) 17 : close(FlLE); $file = yourfile. txt' 1 : 2 : 8prefix = ( 3 : ' ◆ 5 : 6 : . join( ' ) Ⅱ ' , keys(%prefix)) 8 : $pattern = ( ( ' 9 : open(FILE, $file) or die; 10 : while (<FILE>) { print($prefix{$ 十 ), (-) if ( /*$pattern/); 11 : 12 : ) 13 : close(FILE); ハッシュの添え字のことを「キー」と呼び , 短く書けばよい , というものではないです・シンプルにそれに対応する要素を「値」と呼びます。ね。 List 14(outline0. (l) は正しく動作するプ List 16(outline2. (l) では , ハッシュ %pre 同じ動作をするもっとよいプログラムがログラムですが , 特殊な変数 $ ーを使うと f ⅸのキーは「 ^ ◆」のような文字列で値は「」ありましたら , ぜひ結城浩くhyuki@hyuki.c もっとシンプルに書くことができます。 Li のような空白文字の列です。ハッシュ % om > までご連絡ください。 st 15 ( outl ⅲ el. (l) はいちいち $ ⅱ ne に代入せ prefix を初期化するときにはコンマ区切り次回は「ネットワーキング」ず , 暗黙のうちに仮定される変数 $ ーを活の代わりに = > が使え , 対応関係をわかり用しています。これだとムダな記述がないやすく書くことができます。またこれだと , ぶん , どういうパターンにマッチさせていインデントを空白ではなく「 > 」にしたり今回はテキスト処理のいくつかの例を示るかが読みやすくなりますが , その反面「→」にしたりするときでも修正が楽になりしました。いかがでしたか。次回は「ネッ Perl に慣れていない人には何をやっているます。トワーキングの楽しみ」と題して , Perl で List 16 (outline2. (l) では foreach を使ってかわかりにくいと思われる危険性もありまネットワークプログラミングを行ってみましよう。どうぞご期待ください。す。ハッシュ %prefix のキ—$regex に関するループを作り , 現在対象になっている行 $ ーもしも , ご意見やご質問がありましたら , ・ハッシュ ( 連想配列 ) を使うが $ regex にマッチするかどうかを調べて本誌綴じ込みの編集部へのハガキでお知らせくだされば幸いです。また , ご遠慮なく List 15(outline1. (l) は慣れてくればわかいます。マッチした場合には , $prefixl$r egex Ⅱすなわちその正規表現に対応した結城浩くhyuki@hyuki.com/ へメールをお送りやすいプログラムですが , 記号とインデりください。本連載に関するメールには表ントの関係をさらにはっきりと表すためにインデント ) を現在行の前に置いて表示し書き換えてみましよう。 perl のハッシュ題に [MP] という文字を含めてくださるとます。 last というのは C 言語の break に似て ( 連想配列 ) と呼ばれるデータ構造を使いまこでは foreach を中断する助かります。本連載に関する U 糺は , いるもので , す。のに使います。 http://www hyuki.com/mp/ List 16 (outline2. (l) は , 「 ^ ◆」のような正 foreach をなくして List 17 (outline3. (l) のです。規表現と , インデントの対応を % pre ⅱ x とようなプログラムを書くこともできます。参考文献等いうハッシュで表現したものです。これも不思議なことに List 16(outIine2. pl) ハッシュというデータ構造は , ひとことと同じ動作をします。 [ 1 ] 『 Effective Perl 』 , Joseph N. HaII , RandaI でいえば「文字列が添え字になっているよ変数 $ pa れ ern は「 ^ ( ( ◎月 ( ・月 ( ◆月 ( ◎ ) ) 」 L. Schwarts 著 , 吉川邦夫訳 , アスキーうな配列」です。通常の配列は , 数字が添という正規表現になり , これとマッチさせ出版局ると特殊な変数 $ + に「最後にマッチしたカえ字になっており , 配列@array の 0 番目の http://www effectiveperl.com/ 要素は $ array [ 0 ] で表されます。一方ハッッコの内容」が格納されます。そのため , [ 2 ] 『詳説正規表現』 , Jeffrey E. F. Friedl 著 , $prefix 月で目的のインデントが取り出シュは文字列が添え字の役目を果たし , ハ歌代和正監訳 , オライリー・ジャパンッシュ %hash の 'key' という文字列に対応 [ 3 ] メールマガジン「 perl クイズ』せるのです。こまでやると読みにくく感する要素は $ hash ド key Ⅱで表されます。じる人は多くなるでしよう。プログラムは http://www.hyuki.com/pq/ Pe 日プログラミングの楽しみ 97

8. 月刊 C MAGAZINE 2000年4月号

= 編のングラムの保守や改造の段階で「あれ ? 」となターン ) として , のように答えます。ところが「 " ABC " の代「 NULL 」と「数値のゼロ」と「 ' ¥ 0 ' 」と「””」るパターンです。筆者の経験では , あるひわりに空つばの文字列をセットするには ? 」とりのプログラマが勘違いしている場合と質問を変えると , 経験不足だったり勉強の違いがわからない同じ会社のほかのメンバも , やはり同じよというのもあります。不足なプログラマはとたんにポロを出しまうに誤解をし , 一種の「文化」となっているたとえば List 1 のようなプログラムでは , す。場合があります。 fl ~ f4 のうちどれが正しい処理かわかりま答えとして意味的に正しいのは「 f4 」だけ [ 原因 ] すか ? で , ほかはみんな間違いです。おそらくプ C 言語の仕様に対する勉強不足 , あるい s 仕 cpy という関数は文字列をセットするログラムが停止したり , 意味不明な文字列は K & R を始めとする参考書の説明不足です。ための関数だということは , 初心者プログがセットされたり , 暴走するでしよう。簡 [ 対策 / 予防 ] 単にいえば「 NU 比は無効なポインタ」「数ラマでもよく知っていますし , わりあいに有名な関数です。だから「 e 対に ABC" と値のゼロは単なるゼロ」「 ' \ 0 ' は文字列の文勉強するしか , しようがありません。し末コード ( つまり単なるゼロ ) 」「 " " は空っ , こういう症状を呈する人たちって , いう文字列をセットするにはどうしたらいたいてい不勉強なんですよね ( 苦笑 ) 。いか ? 」という質問をしたら , 誰もが List 2 ばな文字列」です。 [ 例外 ] Fig. 1 空っぽの文字列をセットなし。「事情がわかっていて , わざとやる場合はいいじゃないか」と反論したい人もいるだろうけど , あなた以外のプログラマが , あなた並みに優秀である保証などないことをどうかお忘れなく。 [ 備考 ] この変形パターン ( というよりも同種パ空っぽの文字列をセットするつもり 0 で、日 128 vo れ ( ) ー鴕て 0 ( も = リ void ぼ 2 いて 0 ( 0 レ ~ void モ 3 ( ) 日 t て 0 ( gT 、 0 ' ) い void f4() て 0 ( ex ”わアドレス 00000000 00000001 00000002 gText ー NULL 領域→ strcpy(gText, NULL): を実行すると XXXXXXX 1 ◆◆◆◆◆◆・ gText ー凵 st アドレス NULL 領域のデータ (XX,YY,ZZ など ) をそのままコピーするか , あるいは例外でプログラムが落とされる gText ー XX YY XXXXXXXO XXXXXXX 1 アドレス 00000000 00000001 00000002 NULL 領域→ XX ZZ strcpy(gText, " ) : を実行すると ◆◆◆◆◆◆・ ◆◆◆◆ LISt strc py の使用例アドレスきちんと空っぽの文字列がコピーされる void f0( ) て c ( ex らな BC を gText - XXXXXXXO XXXXXXX 1 プログラミングの禁じ手 25 特集 1

9. 月刊 C MAGAZINE 2000年4月号

真紀俊男のローテク講座れば , 常識が非常識に , 非常識が常識に P IntN Buf いとも簡単にすり替わるのが現実だということを忘れないでほしい。困るのは , プロ P_Char_Buf は単に 1 文字をバッフアに加下請け関数 P-IntN_Buf は " 数値→文字列 " グラムを趣味的にやってきて , こういう現変換の関数である。単純に考えれば , n 進えるだけでよいので比較的 , 簡単に実現で実を認めたがらない者たちの反論である。きる (List 1) 。ただし文字として読めるか数の各桁の分解になるので , n で割っていこういう反論は , たおもしろいことにった剰余から 1 文字ずつを取り出せばよいいていダメなプログラムと同様 , 「長文」にどうかの判断が必要になるので isp 日 nt を使が , 実は上の桁から文字が決定するのではって判断をする。 isprint のような , ある文なっていて , どれが焦点なのかハッキリせなく , 下の桁から決定するプログラムのほ字の特性を判断するマクロは c . h にいくずポヤけていて説得力がない。加えて , たうが楽である。ということは逆さまに文字つか定義されている [ 2 ] 。いていの人間にとって , 自分にとって当面が決定するので , ある種のスタック構造役に立ちそうもないもの , 興味を引かない ( つまり最初に入れたものがあとから出てものが「長文」だと , それだけでひいてしまくる構造 ) を利用すると , すっきりしたプうので , せつかく努力して長文を書いたとログラムになる。というわけで逆さまに文 P-Text-Buf は文字列をコピーするだけしても最初から読んでもらえないというこなので , これも簡単に実現できる ( List2 ) 。字列を決定する下請け関数 P IntN-Buf-Sub とをこの人たちは計算に入れていない。を別途に用意し , P-IntN Buf は文字列の逆 P_Int Buf と P Hex_Buf 取り出しを行うことにする。 List 5 の P_Int N_Buf は最初に inNum がマイナスであるかどうか判断し , マイナスならリ記号をバ P Int_Buf と P_Hex_Buf は数値を文字列化ッフアに置く。次に下請け関数 P IntN-Bu するだけである。ただし片方は 10 進数 , 片 f_Sub で逆さの文字列変換を行い , その次方は 16 進数という違いがある。似たようなの行で文字列の逆取り出しをする (List6)0 処理になると思われるので , ともに共通の下請け関数 P 」 n ー Buf を使うようにコーデ下請け関数 P_IntN_Buf_Sub では inNum を inRadix( つまり n 進数の n の値 ) でつぎっイングする (List 3 , 4 ) 。 P_Char_Buf P—Text_Buf 前回の続き下請け関数として・ P_Char Buf(1 文字を処理 ) ・ P Text Buf( 文字列を処理 ) ・ P 」 nt ー Buf ( 10 進数整数を処理 ) ・ P ー Hex ー Buf ( 16 進数整数を処理 ) が残っていたので , これらを片付ける。 P 」 nt_Buf lSt P 」 ntN_Buf_Sub static char *P—IntN—Buf-Sub(char *i0Buf,int inNum,int inRadix) static char theN[ ] = ” 0123456789ABCDEF ″ while(inNum >= inRadix) { * 土 oBuf 十十 = theN[inNum 宅 inRadixl; inNum / = inRadix; *ioBuf 十十 = theN[inNum]; return ioBuf; static char *P—Int—Buf(char *ioBuf,int inl ) return P-IntN-Buf(i0Buf,inI,10); P_Hex_Buf static char *P—Hex—Buf(char *ioBuf,int inH) return P—IntN—Buf(ioBuf,inH,16); P 」 ntN_Buf 固定配列を使わない P 」 ntN_Buf-Sub static char *P—IntN-Buf—Sub(char *ioBuf,int inNum,int inRadix) if(inNum く 10 ) { thec = ' 0 ' 十 inNum ・ )else{ theC = 'A' 十 (inNum - 10 *ioBuf 十十 = theC; return ioBuf static char *P—IntN—Buf(char *i0Buf,int inNum,int inRadix) char theBuf[16]; char *thePtr; if(inNum くの { *ioBuf 十十 = inNum * = - thePtr = P—IntN—Buf-Sub(theBuf,inNum,inRadix); while(--theptr > = theBuf) { * 土 OBuf 十十 = *thePtr; return ioBuf; 真紀俊男のローテク講座 135

10. 月刊 C MAGAZINE 2000年4月号

0 の標準規格の改訂版 Revised [ 血機能のほとんどは数値計算プログラムで利用するためのものだ。実際には 1990 年に ISO が C89 を国際標準として承認した直後からおそらくそれは , C89 が承認されたあとのもっとも活動的なグ始まった。それは国際委員会のメンバが , C89 のなかで適切にループが Numerical C Extensions Group (NCEG) という組織で扱われていないと感じた問題点を処理するために計画されたもあったためである。彼らはすぐれた標準を言語の形にまとめるのだ。結局 , Amendment 1 は標準の C ライプラリへの大きな追ために必要な技術を開発し , 広く公開した。彼らは C99 のため加という形になり , 言語そのものへの本質的な変更を伴わないの作業に役立つように予定どおりにそれを行ったのだ。ものになった。しかしまた , 数値計算のプログラミングは C というプログラ nendmentl では次の三つのヘッダが追加された。ミング言語にとって重要な , 成長しつつある分野であるという・く iS0646. h > のも事実である。 Fo 市 an から C へ移行中のプログラマは数値計算処理においていくつかの機能の欠落を痛切に感じた。 NCEG ある特定の文字について伝統的な ASCII 文字を使わないようはこれらの機能を補充するためにけんめいに働いた。だから C な実装において , ある演算子をより読みやすくするために設計 99 が数値演算プログラミングにとって大幅に好都合になっていされたほんの一握りのマクロ定義から構成される。たとえば , ても , それはおそらくまったく妥当で常識的な感覚だといえる縦棒冂」はそのような文字のひとつだ。だろう。このヘッダをインクルードすることで演算子「ト」の代わりに C99 を作る際に C89 から除外されたふたつの大きな事柄につい「 bit-or 」と書くことができる。これらのマクロ名はすべて , 標てはすでに話した。残りのほとんどは機能の追加である。最低準 C + + で同じ意味のキーワードとなっているものだ。 1990 年代限 , 何らかの構造を提供するためにこでそれらを五つに分初頭に存在していた , このヘッダのわずかな使い道はどんどん類して示そう。消滅しつつある。・ 1995 年までに行われた正式な変更・ <wchar.h> ・おもにコードを読みやすくするための , 言語そのものへの細かい変更 ( 少なくとも私の意見としては ) これは非常に大きいへッダだ。これは C89 内の実質すべての 1 ・新しい言語機能を追加するための比較的大きな変更バイト文字操作関数と等価なワイド文字版の関数を提供する。・既存のライブラリへッダへの細かい変更すなわち , 「 s 国 en 」がヌル終端の「 ch 記の要素列の長さを調・まったく新しいライブラリへッダという形をとった比較的べるのと同様に , 「 wcslen 」関数はヌル終端の「 wchar ー t 」要素列大きな変更の長さを調べるものだ。おそらくもっとも大がかりな変更は「ワイド入出力ストリー初期の変更点ム」の追加であろう。たとえば , 「 p ⅱ n 田関数の振る舞いは「 f p ⅱ n 田とたいへんよく似ているが , ワイド文字の書式文字列を正規の C の標準規格は , 実は 1990 年代の初期に数回変更され受け取って , 出力としてワイド文字の列を生成する。ワイド文た。それらの変更のうちふたつが Technical corrigenda( 技術正字出力ストリームをファイルに書き込むのに適したバイト列に誤表 ) の形式をとった。変換する処理はライプラリに任されている。同様に , ワイド入それらは最初の C の標準規格への「バグ修正」をまとめたドキカストリームからデータを読んでそれらを入力でのワイド文字ュメントだ。 Technical Corrigendum は何らかの新しい機能を取列に変換する処理もライプラリに任されている。たとえば , すり入れたり , 機能を取り除いたりするためのものではない。単べてのファイルが UTF ー 8 形式のマルチバイト文字の列で格納さに C の委員会がそれによって C の標準規格の表現を明確にしたれていた場合でも , すっかり UNICODE 文字に置き替えてプロり , あいまいな点をなくしたりするためためのものだ。重要なグラムできるような実装も可能だ。問題はすべてこのふたつの Technical Co ⅲ genda だけで処理でき・ <wctype. h> た。委員会はそれ以降の変更をすべて C99 まで保留することで合意した。く c pe. h > で宣言されている 1 バイト文字を類別する関数と等三つ目の変更は 1995 年の nendment 1 の採択で , これは最初価なワイド文字版の関数を提供する。く wch . h > とともにの C の標準規格への唯一の改訂だった。 Amendment 1 の作業はれはワイド文字版の関数の一式を提供する。特別記事 C の標準規格の改訂版 17