UTF-8とルーン文字
Plan9の内部文字コードはUTF-8(Universal Character Set Transformation Format, 8 bits wide)である.UTF-8自体はWebの世界でマルチバイトを扱うエンコーディング方式としてデファクトになっているが,そもそもUTF-8はASCIIとの親和性を保ちつつ,ファイルシステムで安全にマルチバイト文字コードを扱うために,Ken Thompson氏らが考案したものだ(当初はUTF-2とかFSS-UTFと呼ばれており,X/Open Groupで標準化された).Plan9はUTF-8を内部コードに採用した最初のシステムだろう.
Plan9ではchar型はUTF-8になるが,1文字=16ビットにエンコーディングされるRuneというデータ型も使われている.Runeはunsigned shortとして定義されているらしい.これってUCS-2なのかな? 4.4BSDにはPlan9にインスパイアされたrune(3)が入っているんだけど,使われているの?
- Hello World or Καλημέρα κόσμε or こんにちは 世界 (Winter 1993 USENIX Conf., pp. 43-50, 1993)
- UTF-8 history
- man utf(6)
- The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) (Joel on Software 2003-10-08)
- ソフトウェア開発者が最低限知っておくべきこと.