UJP - ユニコード

Life is fun and easy!

不正IP報告数

Okan Sensor
 
メイン
ログイン
ブログ カテゴリ一覧

  • カテゴリ 情報システム の最新配信
  • RSS
  • RDF
  • ATOM

ブログ - ユニコード

ユニコード

カテゴリ : 
情報システム
ブロガー : 
ujpblog 2019/3/12 23:00
 社会人になった時はIBM汎用機でCOBOLプログラマーだったので,文字コードなんて気にしたことはなかったけれど,日本語を扱う時にはSO/SI(Shift Out / Shift In)というものがあった.そ例外はデフォルトでEBCDIC.
 世の中がオープンシステムだ!と言い出した頃に,認識したのはSJIS/EUCでした.当時はUNIXではEUCが普通に使われていたけれど,パソコンはSJISだったりAIXがSJIS優先だったりして,EUCでプログラムを組んでいる時は一覧表の「表」の文字に¥を入れたりしていました.

 富士通の汎用機にはJEF漢字コードがあったりと,色々と面倒だったけれど,将来ユニコードが解決してくれるということだったと思う.
 自分がUnicodeに実際に触れることになったのは,Windows NT 3.51から.でもまぁ,ふだん使いでは意識することは無いけれど.

 話は長くなったけれど,今回言いたかったのはユニコードにもバージョンがあるということ.もっというとUTF-8とかUTF-16とかUCS2とかあるけれど,バージョンが大事だと,今回よくわかった.

 ユニコードなんて,比較的新しいというか最新の考え方に基づきて整備されてきた・・・と思っていたけれど,実際には酷い扱いだった模様.

 たとえば入力された文字が漢字の指定した範囲かどうかを調べるための方法で,日本語文字がアサインされているコードの単一のエリアを指定すれば良いのかと思っていたけれど,実際には複数のエリアにまたがっていて,もっというとマッピングされているアドレス帯の中でも飛び地になっているなんて.

 そして,バージョンが異なれば新しい文字が追加されていくので,そういう影響範囲を限定しようとするとバージョンを明示するというのが解決策になるんだな.

 ユニコードの現在の最新バージョンは2018年1月リリースの10.0.1です.

参考:Unicodeで「漢字」の正規表現
https://tama-san.com/kanji-regex/

トラックバック


広告スペース
Google