UJP - UCS-2とUTF-8

UJP - UCS-2とUTF-8

Life is fun and easy!	不正IP報告数	Okan Sensor

メイン

ログイン

パスワード再発行手続き |無料会員入会手続へ...

ブログ　カテゴリ一覧

雑記(248)
投資で凍死(352)
時事(537)
テレビ・ドラマ(444)
映画(933)
- 007シリーズ(33)
- 刑事コロンボ(63)
災害(218)
スキルチャージ(49)
- 放送大学(23)
- Python(10)
- 検定・試験(32)
セキュリティ(5)
- ニュース・徒然(328)
- 事故・事件(106)
- スパム・フィッシング(734)
- ツール(132)
- 脆弱性情報／注意喚起(110)
- 攻撃／ブルートフォース(24)
- ベンダ・サービス(3)
- 文献・統計・参考資料(130)
- 事故被害者記録(49)
あとで確認(1)
システム障害事故(55)
サイト構築(74)
Apple(20)
- MacBook Pro(0)
  - 2007 15inch(1)
  - 2011 13inch(31)
  - 2008 17inch(20)
  - 2015 15inch(6)
- Mac Pro 2013(13)
- Apple Watch(87)
- mac mini(0)
  - 2018(1)
  - 2011 server(7)
  - 2010 server(5)
  - 2014(15)
  - 2010(38)
  - 2005(8)
- MacBook(0)
  - 2017 12inch(11)
  - 2008 late(46)
- MacBook Air(0)
  - 2011 13inch(8)
  - 2011 11inch(31)
  - 2013 13inch/US(5)
  - 2011 13inch/BCP(9)
- Macソフト(136)
- Mac周辺機器(40)
- PowerBook(5)
- iPod touch/iOS(59)
- iPhone(176)
- iPad(78)
- Macintosh(1)
ガジェット(124)
- fire tv(1)
- 文房具(24)
- HUAWEI Watch FIT(10)
- カメラ／デジカメ(42)
  - タイムラプス(6)
- ネットワーク機器(18)
  - ネットワークケーブル(4)
  - ネットワークその他(8)
  - ネットワークスピード(14)
  - YAMAHA／ヤマハ(1)
    - FWX120(2)
    - RTX1200(14)
    - RTX1100/RTX1000(10)
    - RT107e(2)
  - NETGEAR WAC510(11)
  - NERGEAR Orbi(1)
  - Panasonic MNOseries(3)
- マウス＆キーボード(61)
- AV機器・レグザ(101)
- 電球(12)
ハウツー(117)
GPS/地図(70)
ビジネス(170)
- 新規ビジネス(19)
- お仕事(63)
- ケータイビジネス(42)
PC(11)
- Raspberry Pi(59)
- ML110 G5(20)
- LIFEBOOK(11)
- Surface(57)
- ThinkPad R61(5)
- CF-LX4(9)
- CF-RZ6(7)
- DynabookPT45(8)
- PN-ZP30(5)
- EndeavorTN40(4)
- Intel NUC6CAYS(4)
モバイル(16)
- スマホアプリ(73)
- ケータイスマホ機種(34)
- データ通信・契約(84)
- EMONSTER(5)
- IDEOS(12)
- Galaxy Note/A25(41)
- Windows Phone(20)
- Nexus(22)
コンピュータ(11)
- Windows(90)
- クライアントソフト(81)
- サーバソフト(32)
  - Db2(16)
インターネット(70)
- Google(123)
- ネットサービス(163)
ハードウェア(19)
- ディスプレイ(14)
- ストレージ(8)
- プリンタ(10)
情報システム(95)
趣味(3)
- ポケモンGO(657)
- 寝台特急カシオペア/カシオペア紀行(34)
- TOKYO2020(85)
- 雑草雑木伐採防草族(61)
- 食べた(210)
  - たべた（駅弁）(30)
  - 飲んだ(33)
  - 調理した(25)
  - ラーメン・麺類(202)
- 鉄道(241)
- 農園(173)
- アクアリウム(165)
- 書評(45)
- ホテル・旅館(44)
- 演劇(23)
- 車・バイク(79)
- 自然・星(37)
- 散策・近代建築(18)
- 神社・寺(50)
- 高層ビル(24)
- 現代建築(15)
- 建築物(6)
- 観光・名所(89)
- イベント(82)
- 散策：城(34)
- ディズニー(24)
- モーターショー(16)
- 鳥(9)
- 美術館(28)
- コンサート/ライブ(85)
- 船(3)
- スポーツ(124)
- 音楽(81)
- ミニカー(4)
- Nゲージダイキャスト(8)
- Nゲージ(0)
- サマリ(6)
- ピンバッチ(3)
サイト運営(39)
人生(73)
- 監視/防犯/みまもり/遠隔(117)
- お金の話(97)
- 体・病気(127)
- 相続・土地売買(35)
コンテンツ更新情報(2)

カテゴリハウツーの最新配信
RSS
RDF
ATOM

ブログ - UCS-2とUTF-8

UCS-2とUTF-8

カテゴリ :: ハウツー

ブロガー :: ujpblog 2016/8/2 22:39

　MacのExcel 2011で文字列カウントしていて気付いたのだけれど．VBAやワークシート関数で文字列長を調べるLenとLenBがある．LenBはByte単位．２バイト文字を１文字入れるとLenだと1だがLenBだと2となる．
　半角1文字を設定しても，戻り値が2になるので調べてみたら，WindowsNT/2000/XP、Office2000以降は，UNICODEでもUCS-2エンコードを採用しているとの事．
　このUCS-2だと，半角英数字１文字でも2バイト．なんだかむかし，JIS,EUC,SJISと混沌としていた時代，Unicodeになると文字コード問題を解決するための夢の規格がユニコードで，全ての文字が2バイトで表現される．．．と大雑把に教えてもらった事がある．それがUCS-2だったのか．

　ちなみに，今一般的になっているUTF-8だと思うけれど，それだと全角文字は3バイトで，半角英数は1文字．
　検証してみる．まずはLANG設定を確認．

MBA13:~ ujpadmin $ env|grep LANG
NLS_LANG=Japanese_Japan.AL32UTF8
LANG=ja_JP.UTF-8
MBA13:~ ujpadmin $

　バイト数をカウント．

MBA13:~ ujpadmin$ echo a > a.txt
MBA13:~ ujpadmin$ wc -c a.txt
2 a.txt
MBA13:~ ujpadmin$

　2バイト．これは改行コードが最後に入っているから．16進数でダンプしてみれば確認出来る．

MBA13:~ ujpadmin$ hexdump a.txt
0000000 61 0a
0000002
MBA13:~ ujpadmin$

　LF(LineFeed)の0aが入っている．次に日本語．

MBA13:~ ujpadmin$ echo あ > あ.txt
MBA13:~ ujpadmin$ wc -c あ.txt
4 あ.txt
MBA13:~ ujpadmin$

　4バイトなので改行コードの1文字を引いて3byteとわかる．

SJISの独自拡張のCP932とか，いろいろな事があったけれど，統一規格としてのユニコード．いまはメーカプラットホーム毎に絵文字を拡張しているから，結局整理すると個性を発揮できないというデメリットを解消するため？差別化するために独自に進むしか無いという所もあるなぁ．

ujpblogさんのブログを読む
トラックバック (0)
閲覧 (2470)

トラックバック

広告スペース