ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録
■ このスレッドは過去ログ倉庫に格納されています
コンピューターで全漢字使用可に 6万字コード化
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
■漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。
■企業や自治体も一苦労
(略)
■IT企業でも…
(略)
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html >>14
それコピペして書き込もうとしたら空白だってエラーが出たわ >>80
過去に遡る、データベース化した史料を出してくるときの一致性とかね
「ネ司」とかは、戸籍統一文字、住民基本台帳、入管管理あたりでは使えるけど、一般標準の環境にはない
こないだは「ユ藤」ってのを見た、まぁ「工藤」なんだけど
公文書や資料レベルでは安易に置き換えてしまうと、見えなくなってしまう情報が含まれてる
該当文字に変更があったら、それがいつ変わったのか? つーのも、大事な情報なの
江戸や明治の過去帳に目を通してたら、「絶対こんな文字ねーだろw」ってのが出てくるよ
まぁこっちは活字じゃなくて筆で描くから、まだ字画トレースできるけどさ 「俺はこんな字じゃねぇ!」とかって郵便物を受け取らないアホのせいで
数千万かけて外字を使えるようにするんだぜ?アホくさい >>107
むう、出ないな。
たたずむ チョなんだけど。 >>1
>「斉藤」や「斎藤」の「サイ」は
>「斉」「斎」「齊」「齋」などおよそ60種類
きちがいすぎる・・・ 旧字もちゃんと全部あるの
「月」の旧字とかレアだよ 斉は種類多いなとは思ってたけど60種類もあるんかよ… 虋饠戇齽钁㠨䤙鸚虌饡欞龞钂䭩鸛驨欟钄麢豔
驩㿜䖅爧䯬黸躨鱹䖆飌䶨䯀雧鼺 Microsoft IMEが対応しないと意味がない ヒラギノ対応版が出たら久しぶりにフォント弄るか
ベースはヒラギノ角ゴ、英数にFutura、AA対応パッチで幅調整して携帯絵文字の追加・・・
懐かしすぎる隔離スレ息してんのか┌(_Д_┌ )┐ こうだな
何のためにマイナンバーがあるのか
数字でええやん
被る問題とか解消する 斎藤さんのサイの字だけで100種類くらいあるけどできたのか
明治期の戸籍掛吏員のせいだけどさ >>37
各駅停車どころか、スイッチバックで下って行く一方 >>20
それ人権侵害だから 無理
朝鮮人から名前を奪われたのは史実って材料にされるから それよりも「ユーロ記号」を早く表示できるようにしろよ こんなアホなことに労力をかけてどうする
それより意味もなく増やした人名漢字を常用漢字まで減らせば済む話だろ >>17
>>98
向こうの漢字は全部使えるのかな。
しかしこれって凄く地味な作業なんやろうね >>14
wiki見たらちゃんとunicodeで今後出る予定になってて、超漢字だとすでに登録済みってのに驚いた JIS漢字があまりにも糞すぎた。
勝手に字体を変更しやがった事。 醤油の「醤」とか(この「醤」はいんちき字体) ばかじゃねぇのIPA、こんなつかわねー漢字は数減らしてまとめろよ。 全部の公的機関は不動産登記みたいに使用できる漢字を制限すりゃいいのに >>142
おれ岡島なんだけど電話とかで簡単なほうの島ですか?って聞かれるといらっとする >>30
無駄な配慮だね。だから隣のバ韓国にもITで抜かれる。 確かUTF8じゃ足りないんだっけ
文字コードどれになるの? >>149 字数に制限が有るんじゃutf-8の存在価値が無く為るだろ アルファベット1,2文字で元素を表記するという同音異義語だらけ(アルファベットの紛らわしい表現用いるのと、
元素の数だけの漢字を独自に作って同音異義語が無い表現を作るのとどっちがいいのかねぇ
前者だとアルファベットが元素を示すというのをわからせるための前置き等が必要だけど、
後者だとその漢字は特定の元素を表しているから文中でそのまま使用できるからね そんなに使わねえよ
宋の時代だって漢字すげえ増やしたけど殆ど使わなかっただろ IPAや経済産業省のプレスリリース見てきたけどどういうことなのかわからんな
写ってるコード表に U とあるからUNICODEの新しい規格に
6万字の登録が完了した、ということなんだろうが CJKV漢字ていうけど、KとかVはもうやる気ねーだろ >>149
utf8は「1文字」だけで最大20億文字以上入るから余裕。
( U+7FFFFFFF - U+4000000) >>47
今でもあるぞ
Windows上で動くものにされちまったらしいけど
(Windows10でも動くのかな…) >>158
自己レス
IPAや経産省にはこの件に関するプレスリリースが見つからなかったのでよくわからない と書いた とうとうぴゅう太にも漢字でプログラムする時代が来たか! >>16
じゃあ名前捨てて世界総背番号でいいじゃん、てのはやっぱ違うっしょ >>146
韓国のIT界では、漢字の扱いってどうなってるのかな
「漢字使わなくなったからいらない」で放置なのかな
それならハングルだけになるから楽なんだろうけど 漢字なんかでプログラミングしたら宮崎と宮アの違いみたいので簡単にバグの原因になるよね そこまで拘らなくても簡単な字体でいいじゃんって思うけど
なんかあるんだろうなぁ >>16
基地外のわたなべ
いかれたさいとう
昔から悩まされた字だな 例えば「龍」を2×2、「興」を2×2に積んだ恐ろしく画数が多い漢字が存在するが、それもちゃんと表示でけるんか? >>1
外字をなくすチャンスだったのに
IPAとか技術馬鹿しかいねえ
本当無能
制度を変えて効率化するべきなのに
こんな外字こだわってるやつなんてごくごく少数だろうに この新たに登録完了した6万字コードっていつから確認できて
winにも実装されるのだろうか?
俺の名字も外字だから入ってるか確認したいわ ところで、店舗の「舗」のWin⇔Mac(鋪)問題は解決したの? unicode 10.0がこの6月に公開されたけど、wikipediaによると変体仮名の追加となってるから
次のunicode 11.0あたりに追加されるという話なのかな
技術ニュースでソースにリンク張らないからよくわからんな >>182
winでの最新のOSであるwindows 10ならばサポートされるんじゃないの
unicodeのバージョンアップに合わせて更新されているわけだし 名字でも昔は吉の上が短いやつだったけど
役所で登録できないから仕方なしに上が長いのに変えたみたいなこと聞いたな マンション名にVが入ってる。
通販の住所入力で入らない事が有る。 こんなんやるんだったら、戸籍登録のとき元の異体字を簡便な表記に変えちゃったのを元に戻させてくれよ マイクロソフトのOSで標準装備されたフォントに採用されるのいつ? 無駄なことしやがって
国民の半分が読めない漢字は廃止にしろよ
国民の半分が書けない漢字は常用するな ■ このスレッドは過去ログ倉庫に格納されています