X



ついにコンピュータで日本語の漢字すべてを使用可能に 15年かけてコード化、国際規格に登録
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@涙目です。(宮城県) [US]
垢版 |
NGNG?PLT(13121)

コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。

■企業や自治体も一苦労

(略)

■IT企業でも…

(略)

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
0103名無しさん@涙目です。(西日本) [US]
垢版 |
2017/12/24(日) 20:32:10.27ID:TEJGrfiL0
>>80
過去に遡る、データベース化した史料を出してくるときの一致性とかね
「ネ司」とかは、戸籍統一文字、住民基本台帳、入管管理あたりでは使えるけど、一般標準の環境にはない

こないだは「ユ藤」ってのを見た、まぁ「工藤」なんだけど
公文書や資料レベルでは安易に置き換えてしまうと、見えなくなってしまう情報が含まれてる
該当文字に変更があったら、それがいつ変わったのか? つーのも、大事な情報なの

江戸や明治の過去帳に目を通してたら、「絶対こんな文字ねーだろw」ってのが出てくるよ
まぁこっちは活字じゃなくて筆で描くから、まだ字画トレースできるけどさ
0104名無しさん@涙目です。(宮城県) [FR]
垢版 |
2017/12/24(日) 20:34:31.00ID:e3HOAcWG0
フォントがねぇから結局使えないだろ
0105名無しさん@涙目です。(dion軍) [ニダ]
垢版 |
2017/12/24(日) 20:34:32.52ID:S+6UHG/Y0
これはIPAの岡ちゃんグッジョブだね
0106名無しさん@涙目です。(宮城県) [FR]
垢版 |
2017/12/24(日) 20:36:34.23ID:e3HOAcWG0
「俺はこんな字じゃねぇ!」とかって郵便物を受け取らないアホのせいで
数千万かけて外字を使えるようにするんだぜ?アホくさい
0110名無しさん@涙目です。(dion軍) [ニダ]
垢版 |
2017/12/24(日) 20:38:16.84ID:6j3Nd4SZ0
>>1
>「斉藤」や「斎藤」の「サイ」は
>「斉」「斎」「齊」「齋」などおよそ60種類
きちがいすぎる・・・
0112名無しさん@涙目です。(東京都) [CN]
垢版 |
2017/12/24(日) 20:39:14.31ID:Vwa6tTMb0
旧字もちゃんと全部あるの
「月」の旧字とかレアだよ
0117名無しさん@涙目です。(東京都) [US]
垢版 |
2017/12/24(日) 20:44:41.75ID:31hrXN1Q0
>>112
横棒が、になってる奴?
0119名無しさん@涙目です。(やわらか銀行) [US]
垢版 |
2017/12/24(日) 20:44:55.55ID:KVVjtAjv0
ヒラギノ対応版が出たら久しぶりにフォント弄るか
ベースはヒラギノ角ゴ、英数にFutura、AA対応パッチで幅調整して携帯絵文字の追加・・・
懐かしすぎる隔離スレ息してんのか┌(_Д_┌ )┐
0120名無しさん@涙目です。(大阪府) [CN]
垢版 |
2017/12/24(日) 20:45:55.47ID:u2bHZ85P0
15年www
0122名無しさん@涙目です。(西日本) [US]
垢版 |
2017/12/24(日) 20:48:36.28ID:TEJGrfiL0
こうだな
0126名無しさん@涙目です。(東京都) [IE]
垢版 |
2017/12/24(日) 20:50:29.68ID:Q9my7Rhh0
ビャンビャン麺とかいうのは入力できるのかな
0127名無しさん@涙目です。(東京都) [ヌコ]
垢版 |
2017/12/24(日) 20:55:19.51ID:YzMKcICS0
葉書ソフトなんかのフォントも対応出来るのかね?
0129名無しさん@涙目です。(千葉県) [US]
垢版 |
2017/12/24(日) 20:56:14.78ID:X71YMgCj0
斎藤さんのサイの字だけで100種類くらいあるけどできたのか
明治期の戸籍掛吏員のせいだけどさ
0132名無しさん@涙目です。(千葉県) [US]
垢版 |
2017/12/24(日) 20:57:26.24ID:X71YMgCj0
>>20
それ人権侵害だから 無理
朝鮮人から名前を奪われたのは史実って材料にされるから
0134名無しさん@涙目です。(北海道) [ニダ]
垢版 |
2017/12/24(日) 20:58:22.74ID:wBJ9xk8a0
それよりも「ユーロ記号」を早く表示できるようにしろよ
0136名無しさん@涙目です。(滋賀県) [US]
垢版 |
2017/12/24(日) 21:00:12.72ID:ghtmL6NB0
こんなアホなことに労力をかけてどうする
それより意味もなく増やした人名漢字を常用漢字まで減らせば済む話だろ
0144名無しさん@涙目です。(群馬県) [US]
垢版 |
2017/12/24(日) 21:17:44.35ID:3xIqssS00
>>142
おれ岡島なんだけど電話とかで簡単なほうの島ですか?って聞かれるといらっとする
0145名無しさん@涙目です。(西日本) [US]
垢版 |
2017/12/24(日) 21:20:56.89ID:TEJGrfiL0
>>144
横シマですか、下シマですか
0146名無しさん@涙目です。(福岡県) [US]
垢版 |
2017/12/24(日) 21:21:57.41ID:aCOeN9MG0
>>30
無駄な配慮だね。だから隣のバ韓国にもITで抜かれる。
0149名無しさん@涙目です。(玉音放送) [FI]
垢版 |
2017/12/24(日) 21:29:19.24ID:2kfbf26x0
確かUTF8じゃ足りないんだっけ
文字コードどれになるの?
0152名無しさん@涙目です。(愛知県) [ニダ]
垢版 |
2017/12/24(日) 21:35:57.27ID:eA8uJCVK0
>>61
中国も元素増えるたびに創字してるぞ
元素番号118の漢字は未登録
https://zh.wikipedia.org/wiki/Og
0153名無しさん@涙目です。(やわらか銀行) [US]
垢版 |
2017/12/24(日) 21:38:21.32ID:mx8EXtCF0
>>149 字数に制限が有るんじゃutf-8の存在価値が無く為るだろ
0154名無しさん@涙目です。(やわらか銀行) [US]
垢版 |
2017/12/24(日) 21:39:49.91ID:/apNXCN00
アルファベット1,2文字で元素を表記するという同音異義語だらけ(アルファベットの紛らわしい表現用いるのと、
元素の数だけの漢字を独自に作って同音異義語が無い表現を作るのとどっちがいいのかねぇ
前者だとアルファベットが元素を示すというのをわからせるための前置き等が必要だけど、
後者だとその漢字は特定の元素を表しているから文中でそのまま使用できるからね
0156名無しさん@涙目です。(奈良県) [US]
垢版 |
2017/12/24(日) 21:40:47.87ID:zDLpoq660
それで、吉田問題は解決したのか?
0158名無しさん@涙目です。(大阪府) [US]
垢版 |
2017/12/24(日) 21:43:29.28ID:IXxF8dTz0
IPAや経済産業省のプレスリリース見てきたけどどういうことなのかわからんな
写ってるコード表に U とあるからUNICODEの新しい規格に
6万字の登録が完了した、ということなんだろうが
0169名無しさん@涙目です。(福岡県) [US]
垢版 |
2017/12/24(日) 21:56:08.32ID:aCOeN9MG0
ええい写研は何をやっておる
0175名無しさん@涙目です。(空) [US]
垢版 |
2017/12/24(日) 22:03:17.47ID:524Q+s380
>>99
ギャラガじゃない?
0180名無しさん@涙目です。(長野県) [IT]
垢版 |
2017/12/24(日) 22:09:30.96ID:MBMAIa9k0
例えば「龍」を2×2、「興」を2×2に積んだ恐ろしく画数が多い漢字が存在するが、それもちゃんと表示でけるんか?
0181名無しさん@涙目です。(SB-iPhone) [ニダ]
垢版 |
2017/12/24(日) 22:11:32.82ID:z26yjk070
>>1

外字をなくすチャンスだったのに
IPAとか技術馬鹿しかいねえ
本当無能
制度を変えて効率化するべきなのに
こんな外字こだわってるやつなんてごくごく少数だろうに
0182名無しさん@涙目です。(兵庫県) [DE]
垢版 |
2017/12/24(日) 22:11:42.82ID:93bGwnZR0
この新たに登録完了した6万字コードっていつから確認できて
winにも実装されるのだろうか?
俺の名字も外字だから入ってるか確認したいわ
0183名無しさん@涙目です。(東京都) [NP]
垢版 |
2017/12/24(日) 22:11:58.32ID:hL5zcwVn0
ところで、店舗の「舗」のWin⇔Mac(鋪)問題は解決したの?
0184名無しさん@涙目です。(大阪府) [US]
垢版 |
2017/12/24(日) 22:13:09.06ID:IXxF8dTz0
unicode 10.0がこの6月に公開されたけど、wikipediaによると変体仮名の追加となってるから
次のunicode 11.0あたりに追加されるという話なのかな

技術ニュースでソースにリンク張らないからよくわからんな
0185名無しさん@涙目です。(SB-iPhone) [ニダ]
垢版 |
2017/12/24(日) 22:14:49.25ID:z26yjk070
>>132

無理で終わらすから馬鹿なんだよ
0188名無しさん@涙目です。(東京都) [US]
垢版 |
2017/12/24(日) 22:20:24.15ID:i3clrBNU0
いらない漢字はもう廃止でいいだろ
0190名無しさん@涙目です。(千葉県) [GR]
垢版 |
2017/12/24(日) 22:25:52.45ID:vY2aafKk0
2バイト文字やめろよ文字化けするんだよ
0191名無しさん@涙目です。(大阪府) [DE]
垢版 |
2017/12/24(日) 22:39:12.47ID:qeEmlGmM0
同音異義語が大量発生
0192名無しさん@涙目です。(滋賀県) [KR]
垢版 |
2017/12/24(日) 22:42:52.36ID:0OxcbgYo0
名字でも昔は吉の上が短いやつだったけど
役所で登録できないから仕方なしに上が長いのに変えたみたいなこと聞いたな
0193名無しさん@涙目です。(北海道) [US]
垢版 |
2017/12/24(日) 22:43:03.22ID:80nWLlXO0
木崎ゆりあのさきもな
0194名無しさん@涙目です。(東京都) [US]
垢版 |
2017/12/24(日) 22:45:04.75ID:31hrXN1Q0
マンション名にVが入ってる。
通販の住所入力で入らない事が有る。
0195名無しさん@涙目です。(東京都) [CN]
垢版 |
2017/12/24(日) 22:45:43.55ID:LmE5wGv10
こんなんやるんだったら、戸籍登録のとき元の異体字を簡便な表記に変えちゃったのを元に戻させてくれよ
0197名無しさん@涙目です。(catv?) [ニダ]
垢版 |
2017/12/24(日) 22:46:43.58ID:DebC7O290
超漢字を今頃復活?
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況