ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録
■ このスレッドは過去ログ倉庫に格納されています
コンピューターで全漢字使用可に 6万字コード化
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
■漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。
■企業や自治体も一苦労
(略)
■IT企業でも…
(略)
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html ( `ハ´)<丶`∀´> 搭載もインストールもさせないアルニダw それ以前に常用漢字とかいう糞制度を根本的に考えなおせ >渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類
これ漢字を簡単なやつに統一したらいいじゃん
無駄なことを
漢字も時代とともに変遷してきて多様性ができてしまったのに
そのうちの一つにこだわるようなクソみたいなアイデンティティなんかステさせろ >>10
当然といえば当然だけど総数自体はたいして変わらん Unicodeのユの字も出てないけどバカが書いた記事かな? >>1
戸籍を簡単な漢字に直せば良いだろwww
サイトーとかワタナベとか面倒臭すぎ
コイツラが変な拘り捨てりゃ良いんだよ 漢検一級に出てくるような漢字は廃止しろよ
変換したくても読めねーから面倒くせーよ >>19
フォントはIPAフォントってのがすでに作成済みだったはず。 どうせデータ連携で化けるんだから余計な事しなくても
なきゃないで終わりなのに >>14
シューティングのキャラでしょ
これが3つずつヒューって落ちて攻めてくるんだよね? >>16
おいおい言ってることがメチャメチャだな
変遷してきた多様性の結果がそういう表記違いだろ
統一しろってのは多様性の否定だけどお前の主張はどっちだよ こんなバカげた文字に付き合わされる欧米人も大変だな 最近認印で正しい苗字のものが見当たらなくなってきた 山のくねくね道って意味で峠があるので、山へんの代わりに金にして、金上下の漢字を作って欲しい。
当然読みはギャンブル。って意味で >>32
貴重な天下り先だからな。
半年で終わらせたら儲けられない。
これからも日本のITは各駅停車だぜ! よし、次はプログラムが認識してくれる1バイトの半角漢字を搭載してくれ
なおかつ見た目は細長くなくて、全角と同じように表示される奴な! 山形にいたころ、「玉」の上の棒を取って「つち」と読む
苗字があったんだが、そんなのにも対応してんのかね。 え?
これ既存データどうすんの?
やるの?
ヤダよヤダヤダヤダ >>7
用意してるだろ。
じゃなきゃ、さすがにコード割り振りだけで6万語に15年もかからん。 >>41
問題はそれだよな
SJIS外字領域で作った外字全部を
コード割り当てしなきゃいけないの気が遠くなるわ それより半角カナとかいう人類悪を早く根絶して欲しい。
あんなものは人道に反する罪で裁かれるレベルだ >>46
もちろん、コンバートライブラリも作っただろ。15年も税金使ったんだぜ? >>25
漢字の多様性なんて使用者が間違って書いたりわざと変えて書いたものが
元は同じものなんだから統一しろって話
エントロピーは増大するんだから仕事によって元に戻す必要がある >>20
コンピュータに人間が合わせろというのは昭和50年代の思想だぞw やったぜ!名前も常用漢字以外も付けられるようにして 4万文字格納している第4水準に+2万字?
第5水準になるの? 中国は漢字を簡略化する方向に進んでいるのに日本は逆行するのか?
姓は全部旧字で書く動きになって余計ややこしくなりそう。
元号と一緒、害悪でしかない。 >>49
だ、騙されないぞ!!
それにどうせコンバーター使ったって検証作業で泣くんだから… 常用漢字とか人名漢字とかの制限の方をきつくしてくれればそんな大事業は要らなかったんじゃないのか そもそもIMEが対応していないと変換できないに一票
コードの中にあっても候補として呼び出されないよね >>44
6万人のデザイナー雇えば数ヶ月で終わったんじゃ? 結局JIS第一、第二以外を使うと読めないので迷惑でしかない >>71
それは第4水準までを使えないフォントを使ってるバカが悪い
MSゴシック、游ゴシック、メイリオ、ヒラギノはJIS X 0213に対応してんだよバカ これは簡単な方に統一すべきでは?
高と梯子高、浜と濱と賓と眉浜とか斉藤とか種類がありすぎて困るから簡単なのにしろよ
でなきゃ手間が掛かりすぎて困る そういや漢字って新しい奴増えないの?
略字とかじゃなくて マイナンバーとか推進する前にこれ終わらせとけよ無能 >>81
渡辺は漢字の組み合わせも多いうえ、わたなべ、わたべ、わたのべ、わたりべとか読み方も数種類あって本当に迷惑 一方ユニコードコンソーシアムはどうでもいい絵文字を増やしていた >>69
出来がバラバラになるぞ
デザイナーに免許とかないから >>83
江戸時代でもアクロバットな読み方は続々考え出されたけど新しい漢字は数えるほどだな
必要に応じて作られてきたもんだから外来語をそのまま表記するようになった今
新しい熟語はできても字は滅多なことじゃできないだろ >>25
戸籍を登録する際に記述人が適当に書いて増えちまったものがある
年金記録と逆のパターンだな 漢字は94x94=8836文字で全てと思って生活すれば問題なし ■ このスレッドは過去ログ倉庫に格納されています