こういうの全部対応しようとするから問題になるんであって、対応漏れする自治体は自治体側でなんとかしてねって投げるのがいいと思うんだよ。細かい大量の例外のために全体がコスト払ってる。歴史もあるんだろうけど
番地は全角指定と半角指定のテキストボックスがあって、中にはハイフンだけ違うキャラを容認するパターンがあるのでややこしい。後でどれ使ったかわからなくなって、本人確認のために住所を入力しろと言われて詰む。
''よく「住所をハイフンで正規化」って聞くけど、 浦安市舞浜2丁目27 と 浦安市舞浜2番地27 が別パターンってケースもあって''/デジタルアドレスが普及すれば、無理に正規化させる必要はなくなるのかな
今は郵便番号で丁目までは決まるから、その下の部分だけの対応でいいのかも。
舞浜に似たケースをぶち込んどこう。八潮市には八潮市二丁目(小字)と八潮市八潮2丁目が別々にある
Excel関数でも正規表現使えるようになったからだいぶ楽。ただ住所は安易に置換すると死ぬのがねぇ。丁目やハイフンのつく地名やマンション名がすぐ思いつくし
マイナンバーの次はマイアドレス制度を発足させ、丁目や小字あたりまでは一意に指定できるようにしよう。登記はねぇ… 一坪地主とかどうするんだよ。
TextSplitが配列を受け取れるのは盲点だった
常に正確な住所を書いてると詐欺に巻き込まれる可能性あるので、正式住所(公文書用)と郵便住所(届けるため)を分けてるケースもある。本籍も似た用途。あと配達に偽名使う人も最近は増えてる。すべて詐欺対策。
地方自治体に地名を直させるように国が働きかけろよ
丁目・番地・号を数字で書かせたらある程度は解決する
行政の効率化とか言って是正していけないんだろうか
アメリカだと州名→町名→道名→数字(表記の順番は逆) とかで超見つけやすいんよな。日本はオンライン地図による恩恵が世界で一番大きい国の一つかもしれん。
国が進めている不動産IDで表記ゆれは解決するかな? https://www.nikkei.com/article/DGXZQOUA041M10U4A101C2000000/
これがあるからリスクヘッジのためにユーザーの入力は一切加工しない方針になりがち。全角半角などを自動変換しないシステムがまだ存在する一因。
住所の正規化は頭の体操程度に嗜むのが健康的でよろしい
365以降限定関数、けっこう色々増えてるおね
(「日本の住所のヤバさは、ダッシュとハイフンと「0」と「0」と「〇」の混交だけでなかった」問題。 )
エクセルはWEBSERVICE関数とFILTERXML関数が標準実装されている。郵便番号デジタルアドレスがAPIで使えるようになるとこれが標準になるのかも。https://lp-api.da.pf.japanpost.jp/
郵便局の新しいAPIに頼るのが正しい気がする。
住所の表記ゆれって統一したいか?触らずにそっとしておきたい。ソートとかの処理用に正確性を犠牲にした別カラムとして追加するなら良いかも知れない。
「舞浜二丁目」は「舞浜二丁目」と言う文字列の地名であって順番につけてる地名ではあるけど番や号のようなナンバリングではないのよね。「◯番地」と「◯番」も同じではない。99%は気にしなくていいけど
元底辺SESからするとそんなんレベルで気付いた…とか言える感じでお仕事して給料貰えてるんや…羨ましいなあといったところ(リプに群がる皆様も同様)
レアケースでマウント取られるの見てると可哀想だなと思う。それで8割OKとするのも業務効率化だと思うんだけな。それで文句言ってくる人たちを相手にする技術者には受け入れられないわなぁ
住所表記のカオスさは置いといて、正規表現で置換とかできないの?REGEXREPLACEという関数あるみたいだけど
そこは郵便番号とマッチングして、、
なんでこんなぐちゃぐちゃになったんだろう。まぁ電源すら西と東で違うとかあるけどさ。明治政府が突貫でしたせい?
住所はいろいろ鬼門。市町村名を分けるかで「市」をキーにして失敗したり。郵便番号で丁目まで確定するんだけど事業所番号だったり、そもそも郵便番号間違ってたり。変更があったり。
はてなーだったら「その実装には漏れガー」とか、もっと強い口調でマサカリ投げるかと思ったら、オマイラ丸くなったな
例外が多すぎてトゥギャッたん泣いちゃいそうだよ…。
勘違いしている人が多そう。問題は、市町村の登録上の表記の揺れではなく、各個人の表記の揺れだろう。同じ場所に複数の表記が存在することが問題。丁目とか番地の有無なんか問題では無いと思う。
7桁のデジタルアドレスができたら、こんな職人作業は不要になるのだろうか
登記もよろしくな!
個人表記の揺れを正規化するというなら、住所は〇丁目×番表記が正規化なのではないだろうか(データとしての使いやすさは無視して)
トランプ氏なら全国の町名の丁目を廃止するのに!
いつものやつ "とにかく日本の住所のヤバさをもっと知るべきだと思います" https://b.hatena.ne.jp/entry/s/note.com/inuro/n/n7ec7cf15cf9c
いまURLかけないけど、誰かが死ぬ思いで作ったライブラリがあったと思う。
字が支配する地域に住んでる(徳島県は市の一部地域以外は全部そう)ので、「n丁目」は「字のようなもの」という認識で、数字+ハイフンに出来ると気づいてなかった。言われてみればそうなのか(そこから?
例外は例外処理を挟もう(でも住所、例外多すぎる!!!)
間違って使われているーをーへ変換したいな、くらいにしておくのが丁度良いやつ。
あぁ、ブコメで気づいたけどデジタルアドレスだと紐付けできればDB的な管理がやりやすくなるメリットはあるのか
住所正規化ネタ好き。いつまでもあーでもないこーでもないできそう。
もう入力側を制御するしかない。それがいつ来るか知らんけど
住所は配達のためにあるものなので、多少の表記揺れがあっても郵便局や配達業者には影響ない。触る必要はないんだ。
1の3 5の6 というのが正式住所な地名もあるんだなこれが
⬇郵便番号で~と言ってる人はKEN_ALLで検索だ!
住所の表記ゆれを半角ハイフンに統一したいとき、TEXTJOIN関数でまとめて置き換えできる→日本の住所はヤバい定期
こういうの全部対応しようとするから問題になるんであって、対応漏れする自治体は自治体側でなんとかしてねって投げるのがいいと思うんだよ。細かい大量の例外のために全体がコスト払ってる。歴史もあるんだろうけど
番地は全角指定と半角指定のテキストボックスがあって、中にはハイフンだけ違うキャラを容認するパターンがあるのでややこしい。後でどれ使ったかわからなくなって、本人確認のために住所を入力しろと言われて詰む。
''よく「住所をハイフンで正規化」って聞くけど、 浦安市舞浜2丁目27 と 浦安市舞浜2番地27 が別パターンってケースもあって''/デジタルアドレスが普及すれば、無理に正規化させる必要はなくなるのかな
今は郵便番号で丁目までは決まるから、その下の部分だけの対応でいいのかも。
舞浜に似たケースをぶち込んどこう。八潮市には八潮市二丁目(小字)と八潮市八潮2丁目が別々にある
Excel関数でも正規表現使えるようになったからだいぶ楽。ただ住所は安易に置換すると死ぬのがねぇ。丁目やハイフンのつく地名やマンション名がすぐ思いつくし
マイナンバーの次はマイアドレス制度を発足させ、丁目や小字あたりまでは一意に指定できるようにしよう。登記はねぇ… 一坪地主とかどうするんだよ。
TextSplitが配列を受け取れるのは盲点だった
常に正確な住所を書いてると詐欺に巻き込まれる可能性あるので、正式住所(公文書用)と郵便住所(届けるため)を分けてるケースもある。本籍も似た用途。あと配達に偽名使う人も最近は増えてる。すべて詐欺対策。
地方自治体に地名を直させるように国が働きかけろよ
丁目・番地・号を数字で書かせたらある程度は解決する
行政の効率化とか言って是正していけないんだろうか
アメリカだと州名→町名→道名→数字(表記の順番は逆) とかで超見つけやすいんよな。日本はオンライン地図による恩恵が世界で一番大きい国の一つかもしれん。
国が進めている不動産IDで表記ゆれは解決するかな? https://www.nikkei.com/article/DGXZQOUA041M10U4A101C2000000/
これがあるからリスクヘッジのためにユーザーの入力は一切加工しない方針になりがち。全角半角などを自動変換しないシステムがまだ存在する一因。
住所の正規化は頭の体操程度に嗜むのが健康的でよろしい
365以降限定関数、けっこう色々増えてるおね
(「日本の住所のヤバさは、ダッシュとハイフンと「0」と「0」と「〇」の混交だけでなかった」問題。 )
エクセルはWEBSERVICE関数とFILTERXML関数が標準実装されている。郵便番号デジタルアドレスがAPIで使えるようになるとこれが標準になるのかも。https://lp-api.da.pf.japanpost.jp/
郵便局の新しいAPIに頼るのが正しい気がする。
住所の表記ゆれって統一したいか?触らずにそっとしておきたい。ソートとかの処理用に正確性を犠牲にした別カラムとして追加するなら良いかも知れない。
「舞浜二丁目」は「舞浜二丁目」と言う文字列の地名であって順番につけてる地名ではあるけど番や号のようなナンバリングではないのよね。「◯番地」と「◯番」も同じではない。99%は気にしなくていいけど
元底辺SESからするとそんなんレベルで気付いた…とか言える感じでお仕事して給料貰えてるんや…羨ましいなあといったところ(リプに群がる皆様も同様)
レアケースでマウント取られるの見てると可哀想だなと思う。それで8割OKとするのも業務効率化だと思うんだけな。それで文句言ってくる人たちを相手にする技術者には受け入れられないわなぁ
住所表記のカオスさは置いといて、正規表現で置換とかできないの?REGEXREPLACEという関数あるみたいだけど
そこは郵便番号とマッチングして、、
なんでこんなぐちゃぐちゃになったんだろう。まぁ電源すら西と東で違うとかあるけどさ。明治政府が突貫でしたせい?
住所はいろいろ鬼門。市町村名を分けるかで「市」をキーにして失敗したり。郵便番号で丁目まで確定するんだけど事業所番号だったり、そもそも郵便番号間違ってたり。変更があったり。
はてなーだったら「その実装には漏れガー」とか、もっと強い口調でマサカリ投げるかと思ったら、オマイラ丸くなったな
例外が多すぎてトゥギャッたん泣いちゃいそうだよ…。
勘違いしている人が多そう。問題は、市町村の登録上の表記の揺れではなく、各個人の表記の揺れだろう。同じ場所に複数の表記が存在することが問題。丁目とか番地の有無なんか問題では無いと思う。
7桁のデジタルアドレスができたら、こんな職人作業は不要になるのだろうか
登記もよろしくな!
個人表記の揺れを正規化するというなら、住所は〇丁目×番表記が正規化なのではないだろうか(データとしての使いやすさは無視して)
トランプ氏なら全国の町名の丁目を廃止するのに!
いつものやつ "とにかく日本の住所のヤバさをもっと知るべきだと思います" https://b.hatena.ne.jp/entry/s/note.com/inuro/n/n7ec7cf15cf9c
いまURLかけないけど、誰かが死ぬ思いで作ったライブラリがあったと思う。
字が支配する地域に住んでる(徳島県は市の一部地域以外は全部そう)ので、「n丁目」は「字のようなもの」という認識で、数字+ハイフンに出来ると気づいてなかった。言われてみればそうなのか(そこから?
例外は例外処理を挟もう(でも住所、例外多すぎる!!!)
間違って使われているーをーへ変換したいな、くらいにしておくのが丁度良いやつ。
あぁ、ブコメで気づいたけどデジタルアドレスだと紐付けできればDB的な管理がやりやすくなるメリットはあるのか
住所正規化ネタ好き。いつまでもあーでもないこーでもないできそう。
もう入力側を制御するしかない。それがいつ来るか知らんけど
住所は配達のためにあるものなので、多少の表記揺れがあっても郵便局や配達業者には影響ない。触る必要はないんだ。
1の3 5の6 というのが正式住所な地名もあるんだなこれが
⬇郵便番号で~と言ってる人はKEN_ALLで検索だ!