2019/07/11 12:19
AQM
すげえ
2019/07/11 12:38
YaSuYuKi
素晴らしい。昔、常山紀談や可観小説(いずれも、江戸時代に記された伝記本で、前田慶次郎利益に関する逸話が載っている)のPDFを買おうとしたが、サンプルの文字が読めず断念した。これなら読める
2019/07/11 12:47
cj3029412
いや、まだ信じられないw 繋がったり跳ねたり飛んだり戻ったり、微妙に違ったり略したり、点を余計に打ってみたり、なんだぜ。
2019/07/11 12:47
rizenback000
くずし字翻訳に専門家の出番がなくなる日が来てしまうのだろうか
2019/07/11 12:51
quabbin
研究者は読めるんだろうけど、ファンくらいの立ち位置の人たちは読めない人が多いと思われる。私も読めないし。そういう層には嬉しい。
2019/07/11 12:51
cho45
すごい
2019/07/11 12:52
masapguin
Googleがきたぞー
2019/07/11 12:58
mouki0911
すごい。だけど、それより現代人の手書きを先にお願いしたいところ。
2019/07/11 13:08
BigHopeClasic
人によって崩し方も違えば音に当てる字も違ったのになんであれで文書として通用できたのか本当に謎。
2019/07/11 13:20
delphinus35
素晴らしい/しかし識字率も考えると、これを読める人の比率なんて昔も今も変わってないんじゃないかな。
2019/07/11 13:30
holholchan
芸能人のサインも解析して欲しい
2019/07/11 13:38
stealthinu
江戸時代以前の日本のくずし字を現代文字化してくれる。今まだ85%くらいの認識率らしい。もっと精度あげてけそうな感じ。
2019/07/11 13:39
mobile_neko
これはすごいな
2019/07/11 13:44
longroof
やるなぁヽ(=´▽`=)ノ…
2019/07/11 13:45
narukami
これは助かる
2019/07/11 13:49
dominion525
これねー。たしかに文字の認識はできて素晴らしいんだけど、文字を分割してタグ付けするのは人間が必要だし、ある程度整った文書じゃないと厳しい的な話をポスターセッションで聞いた気がする。
2019/07/11 13:53
Lhankor_Mhy
すげー
2019/07/11 13:55
knok
U-Netってことはくずし字を現代楷書みたいに変換するのかな
2019/07/11 13:58
quwachy
99%でもイラつくのに85%で使えるのか
2019/07/11 14:02
moonbeam44
googleすげーという感情と結局googleかという思いと。
2019/07/11 14:13
rain-tree
これは需要あるのでは
2019/07/11 14:17
Hazel
素晴らしい技術の使いみち。
2019/07/11 14:19
imakita_corp
南アジアの人っぽいし経歴調べたら日本文学の出身らしいから悔しいやら納得やらwAIの出身ならまだましだったのにw悔し紛れに外国語だと分からない単語が5%あると文意を掴めないから85%だと…とケチを付けてみるw
2019/07/11 14:23
deep_one
読めない理由の一つは明治政府が変体仮名を廃止して仮名を単純化したからだろう。まぁそのおかげで識字率自体が上がったのではないかとも思う。
2019/07/11 14:27
keint
この手の研究はAIのアルゴリズムよりも学習データ(写真の古文書)をディジタル化して使いやすい形式などに変換するほうが大変だと思う
2019/07/11 14:34
gogatsu26
源氏物語が好きすぎてタイから早稲田に留学して来たというタリンさん
2019/07/11 14:42
santec1949
この先生のTwitter面白いよ。天才感すごい。
2019/07/11 14:45
diveintounlimit
“くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない”
2019/07/11 14:47
laranjeiras
わが家にも地区の成り立ちや当時の出来事を記した古文書がある。こういった私蔵古文書をスマホで撮ってアップするだけでデジタル可読化されて、日本中からアクセスできるようになったら「日本史」が変わりそう。
2019/07/11 14:49
BIFF
癖の強い人の手書きは難しそうだけど、江戸時代の木版とかならかなりの精度で読んでくれそう。今後に期待。。
2019/07/11 14:49
tskk
めちゃいい
2019/07/11 15:01
call_me_nots
“国文学研究資料館が主催する「くずし字認識 : 千年におよぶ日本の文字文化への扉を開く」というKaggle(機械学習を研究している研究者などが参加するコミュニティ)で行なわれるコンペも計画”
2019/07/11 15:25
hs233
85%変換してくれればとてもありがたい。あとは人力でどうにかなる。英作文と一緒。
2019/07/11 15:25
codingalone
@tkasasagi さんだ
2019/07/11 15:28
makou
すごい。AIが給料求めるレベル。
2019/07/11 15:36
fujibay1975
そのうち「かまわぬ」みたいな判じ物も読めるようになったりして
2019/07/11 15:39
ayumun
これはすごい
2019/07/11 15:42
n_y_a_n_t_a
手書き文字のOCRって途方もない事してるわけだがしかも古典の崩し文字って意味わからん
2019/07/11 15:49
guru_guru
勉強しかけだけどやめるか。
2019/07/11 15:50
kowa
実家の蔵にある謎の掛け軸とか、家系図のメモ書きとか、ちょっと読めるだけでも嬉しいって用途が無数にあると思う。期待。
2019/07/11 15:52
blueboy
情報が古い。くずし字のコンペは前出。www.nii.ac.jp くずし字のソフトは以前からある。 news.mynavi.jp newswitch.jp  記事を書く前に調べろ。ググレカス。
2019/07/11 15:55
YukeSkywalker
すごい。現代語の手書きでも解読に苦労するのに。
2019/07/11 15:58
cupeytan
これ機械学習の勉強終わったら作りたかったやつや・・・
2019/07/11 15:58
Shinwiki
なぜ外人にやられる
2019/07/11 15:58
amamiya1224
すご
2019/07/11 16:02
hammam
ロゼッタストーンをAI がやっちゃう時代、しゅごい(*´з`)
2019/07/11 16:05
table
自称○○発祥の地の石碑を1000年後に残さないために、地方の寺に伝わる古文書の解析頼む。
2019/07/11 16:09
kz78
次はロシア語の筆記体に挑戦だ
2019/07/11 16:30
atsushimissingl
逆もできれば、和モノの同人誌で捗りそう
2019/07/11 16:40
syouko66y
翻訳って本当に便利な機能だよね
2019/07/11 16:43
htnmiki
私の字もお願いしたい。あまりに汚くて見返すと読めないことが多々ありまして……
2019/07/11 16:48
kaiton
そのうち制度は上がっていくのだろう、英語の筆記体はどうなっているのか気になる
2019/07/11 16:48
natu3kan
百数十年前は皆が読めたっていうけど、くずし字って個人差は大きくなりやすいから、可読性を上げる為に規格化され共通化されただろうしなあ。
2019/07/11 16:55
goldhead
自らの文化の歴史、蓄積へのアクセスが大切というなら、くずし字読めなきゃなとか思ってたけど、AIで乗り越えちゃうのかな。
2019/07/11 16:57
timetrain
昔はみんな読めたから、読めるはずだと言われればそうなんだけど、すげー
2019/07/11 16:59
Pasta-K
えースゴい
2019/07/11 17:02
c_shiika
江戸時代のエロ本が読めるようになったと聞いて
2019/07/11 17:02
lenore
すごい。日本人は完璧主義だから、自分で読めるようにならないとダメだとか間違いがあると役に立たないとか言うけど、実際1人が100%読めるのと1万人が85%読めるのは意義が違うよね。裾野が広がって良い
2019/07/11 17:06
gundesignstudio
英語圏も脱筆記体進んでるもんね
2019/07/11 17:13
bokukanochat
これは超嬉しい。昔の人の戸籍が読めなくて困ってた
2019/07/11 17:20
hotu_ta
さすが先生
2019/07/11 17:36
ichbin
この成果を逆に使えば、現代の文字で書いたものを「くずし字」に置き換えることもできるのだろうな。
2019/07/11 17:37
atoh
博物館で展示されてる古文書もところどころ読めることがある程度なんで、こういうあればすごいいいな。
2019/07/11 17:38
uunfo
「百数十年前までは皆が読めていた」は嘘でしょ。識字率いくらの時代だよ/「が開発」みたいな意味不明のタイトルやめてほしい/関連リンクがなぜGoogleトップ?/@tkasasagi
2019/07/11 17:40
atauky
記事を読むとOCR部分(くずし字を現代の文字に当てはめる)の正確さが85%ということで「現代語への翻訳」に至るまではまだ少しかかりそうだけど、できたらうれしいな。
2019/07/11 17:41
tonaxi
割と誤字や表記揺れが多いからなぁ。個人的には嵯峨本とか木版系だけでも嬉しい。
2019/07/11 17:48
softboild
変体仮名を「くずし字」って言うのやめなよ。現代のかなを崩して書いただけみたいに誤解する人がいるから。昔の仮名は今より文字の数がめちゃ多いんだよ。
2019/07/11 17:55
orange_putting
やってみたい
2019/07/11 17:55
aceraceae
くずし字辞典買おうかと思ってたんだけど、とりあえずこれは嬉しい。
2019/07/11 17:58
jhmh
タリン・カラーヌワットさん、すごすぎるやろ…!!!!
2019/07/11 17:58
NOW2000
絶対無理やと思ってた分野が…wwwすごいww
2019/07/11 18:02
amnesia4646
死ぬまでに読みたくなるものが増えてしまったじゃないのw素敵w
2019/07/11 18:06
bouseiz
ここの写真で見られるのは、読みやすいものだけだな。刊本は商品だから売るために読みやすく作っている。
2019/07/11 18:06
kuracom
古文をある程度分かる人がサクサク読み進めるためのツールとしては最高だと思う
2019/07/11 18:26
kenjou
これからデータが増えれば精度は上がっていくと書いてあるのに、今の精度にかみつく意味がわからない。
2019/07/11 18:33
shigekixs
技術の力。これで万が一、紙が失われても知識は残る。最高。
2019/07/11 18:35
Nyoho
くずし字 twitter.com
2019/07/11 18:42
sisidovski
"くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない" これは自分の中でずっと課題だった
2019/07/11 18:43
udongerge
色々はかどる予感がする。
2019/07/11 18:50
ryu-site
写真撮って翻訳してくれるアプリに期待
2019/07/11 19:07
kurosiosadakiti
人口の0.01%って結構多いな読める人。以下とは書いてあるが。10万人につき10人位か。
2019/07/11 19:12
kamezo
「現代語」という呼び方に違和感があり、ブコメを見れば正解がわかるかと思ったがそもそも気にされてなさげ/「現代楷書体」か? 「くずし字」は「変体仮名」が正しい模様/訂正がきてたbit.ly
2019/07/11 19:13
Cujo
原本と写本での思わぬ違いも発見されたりする?
2019/07/11 19:15
synonymous
文献扱う素人さんが事故を起こす予感……
2019/07/11 19:17
mangakoji
すげえ、まじすげえよ。もう20年くらい折りに触れ勉強してるけど、それでも8割くらいしか読めてない。
2019/07/11 19:24
hazlitt
これ史料編纂所でやってなかったっけ
2019/07/11 19:26
go_kuma
読めない資料たくさんあるから助かるけど、現代文字にしたからって意味がわかるかどうかは別の話。違いは文字だけじゃないからな。
2019/07/11 19:27
honeybe
おぉ。これで素人でも国会図書館デジタルで公開されている文書を読むことが出来るかも。
2019/07/11 19:30
ysfm
ブラタモリでタモリさんが解読してるあれか!
2019/07/11 19:30
puy
くずし字OCR(AIくずし字認識)「(KuroNetは)将来的にくずし字解読サービスとしてリリースする予定」 codh.rois.ac.jp
2019/07/11 19:34
guavage95
取り敢えず
2019/07/11 19:39
atohiro
初級古文書講座に1年通って思ったのは、読みが同じの適当な漢字が充てられている事例がとても多いこと。例えば、英治さん、栄治さん、栄次さんが同じ人を指すことが多々ある。だから、前後の文脈を読まないと躓く。
2019/07/11 19:42
kincity
すごい。少し読み方習ったけど、かわら版とか読むとめちゃくちゃ面白いんだよね。
2019/07/11 19:43
Hagalaz
でも素人が苦労するのは結局残りの読めない部分だったりするからなあ /いやすごいよね
2019/07/11 19:44
domimimisoso
井沢元彦もこれ使って一次資料読めばよい。/古書を買い漁ってたという司馬遼太郎はくずし字が読めたのかなあ。読めたんだろうなあ。
2019/07/11 19:51
neko2bo
すごいなぁ。もう100年も待たずに記述された古今のあらゆるドキュメントを誰もが読むことが出来る時代になるんじゃないかしら。(ヴォイニッチ手稿は???)
2019/07/11 19:51
securecat
えー すごい。うれしい。
2019/07/11 19:55
worris
国語で古文を学んでも、ここがネックになってるんだよね。
2019/07/11 20:01
filinion
おおおおお。くずし字をAIで読めないか、というのはわりと以前から言われていたことではあるけど、とうとう実現するのか…。すごい。
2019/07/11 20:02
sukeroc
助かった
2019/07/11 20:03
glider101
素敵。古典好きが技術に興味なかったり技術者が古典に興味なかったりすることが多いのでこういう取り組みがあることが嬉しい。
2019/07/11 20:04
hisawooo
タリンさんの笑顔、嬉しそうで和む
2019/07/11 20:12
alonelife
くずし字翻刻系の研究はテーマとしては割とポピュラーな方だと思うけど、先行研究とどれくらい差異が出るんだろう
2019/07/11 20:12
mshota
「LINEリサーチ」を使った、大規模アンケート調査(15~59歳の男女、有効回答数は22万8613人)によると、「いまスマホで音楽を楽しむとき、最もよく使っているものは?」という質問に対し、10代全体に絞ると32%
2019/07/11 20:18
bauchi13
おおスゴイ。超期待。
2019/07/11 20:21
kjin
皆読めてたのかのソース知りたい“百数十年前までは皆が読めていた「くずし字」”
2019/07/11 20:25
nekoashicable
春画の詞書きなんかはすごく気になって、読みたくて必死になるんだけど!読めなくて悔しい思いをしてきましたー (^^;
2019/07/11 20:26
chintaro3
すばらしい
2019/07/11 20:30
Galaxy42
がんがん読んでくれー。
2019/07/11 20:55
tastasto
くずし字多少読むけど当然書く人それぞれ崩し方が違い、癖が強かったり悪筆だったりすると大変苦労する…。そこも勘案して文字起こししてたけど、半分でもAIが助けてくれれば有り難すぎるぞ。
2019/07/11 20:58
kyrina
これは期待。 喪われていく文化をなんとかとどめよう。 政権側がせっせと司書を減らし郷土史料を焼き払い、歴史の無い国にしようと努めている今は特に。
2019/07/11 20:59
camellow
現代日本語と比較したら暗号みたいな文字だけど人間が読み書きしてたんだからそりゃOCRぐらいかけられるわなって、そんな単純な話ではない?
2019/07/11 21:05
NEXTAltair
自分ちにある古い本の解読とかさせてみたいわ
2019/07/11 21:09
yahiroyoshikazu2000
すげえなあ……
2019/07/11 21:09
agrisearch
「情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏」☆
2019/07/11 21:18
ko-ya-ma
あれ本当に読めないからなあ。素敵
2019/07/11 21:24
motnao
Googleが本気出せば人力でやってる作業員皆終わり説を裏付ける成果。これ見てると今の時代、通訳とか言語で食ってく未来がどんなにリスキーか思い知らされる。。。
2019/07/11 21:27
harumomo2006
「読める、読めるぞ!」
2019/07/11 21:29
arihoshino
いとすばらしき。
2019/07/11 21:31
NAT
千年に渡り使われてきた「くずし字」で書かれた数百万の古文書や古書が現存するが、現代では人口の0.01%以下の人しか読めない。くずし字のデータを学習させて現代語に推論できるシステムを作った。
2019/07/11 21:33
jarmusch
スゲエ!昔の登記簿や戸籍読むのにも便利そう!役人も狂喜乱舞☆
2019/07/11 21:35
Cru
おお、北斎の蛸と海女のセリフもスラスラと読めるようになるのか
2019/07/11 21:37
behuckleberry02
研究者の目に触れることのない文書は日本中に腐るほどあるので、それらがピックアップされる可能性が格段にアップするのは素晴らしい。是非使いたい。
2019/07/11 21:42
kazgeo
掛け軸、短冊、色紙!イイぞ!
2019/07/11 21:43
lastresortan
「くずし字認識の開発にGoogleは関わっていません。今回Googleイベントで発表しただけです。 - 「翻訳」ではなく「翻刻」です。 - くずし字データセットは、国文学研究資料館が作成したものです」
2019/07/11 21:58
xxgushaunxx
すげぇ〜。
2019/07/11 22:05
rider250
我々は漢字を捨てた半島人を「古典や古い文章記録が読めなくなって歴史を忘れた愚かな国民」と嘲るが日本人も同じだってことか。当然俺も崩し字は読めないがまさか0.01%しか読めないとはね、半島人を嗤えない。
2019/07/11 22:05
kno
まじか、色々捗りそう
2019/07/11 22:08
ArtSalt
タリン・カラーヌワット氏という女性
2019/07/11 22:17
LM-7
多少精度が悪くても活字にさえなれば現代語訳は比較的容易なのだろう。
2019/07/11 22:18
alt-native
自分は学科でくずし字習ったが、研究者でさえ解読できていない文書は多い。それは時間が足りないから。読みやすい部分だけでも自動読解してくれたら 研究者は難読部だけに集中すればいい。
2019/07/11 22:20
ringtaro
“情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏” 肩書き長っ!白鳥さん並やん
2019/07/11 22:22
zorio
研究者の方の笑顔が素晴らしい。
2019/07/11 22:30
sotokichi
すごいな。
2019/07/11 22:33
natsume_sanshir
これはすごい
2019/07/11 22:35
eriko315
凄い!
2019/07/11 22:40
Dr_Shibaitaroka
2019/07/11 22:43
unagiga
AIはかしこいな
2019/07/11 23:14
tegi
これで全部解決みたいな記事の書き方はどうかと思うけどまあありがたいものですね。
2019/07/11 23:14
yz_s
「読める……読めるぞ……!」
2019/07/11 23:15
fujihiro0
2019/07/11 23:20
TequilaBancho
なんと!素晴らしい
2019/07/11 23:33
Makots
これはいいAI
2019/07/11 23:41
adsty
くずし字を自動で読み取って現代文字に翻訳するOCR「KuroNet」を開発。
2019/07/11 23:58
leiqunni
文字であるなら万人に判別できる特徴点があるのだから、日本人がタイ語やヒンディー語が読めない、欧米人が漢字読めないだけで、読み解くのに時代的な経験や知識が必要とかでないのね。人工知能の本領発揮は映画字幕
2019/07/12 00:19
atsushifx
古文書が(誰にでも)読めるかたちで電子化、というのも素晴らしい。テキストマイニングなどの手法で新たな発見が出てくるはず
2019/07/12 00:20
YoshiCiv
江戸時代の本もこれで読めないかな。
2019/07/12 00:31
kakei
翻刻のバイトがこれで減るのかな
2019/07/12 01:56
shibuiku
ちょうど実家にある過去帳をテキスト化したかったところだった
2019/07/12 02:20
sirocco
素晴らしい。古文を現代文になおしてくれると、過去を現在の心が繋がる。
2019/07/12 03:56
mintpo
ここまで来たか、5年後の職業難民はさらに増えるな。
2019/07/12 04:43
rjj
さんざん研究されてる分野なので既存研究くらい触れてくれてもいいんではないか:www.tuat.ac.jp mojizo.nabunken.go.jp tech.nikkeibp.co.jp
2019/07/12 04:49
fy-natule
くずし字なんて読めないと思ったら、AIの翻訳ツールができた!?
2019/07/12 04:58
aaaaiyaaaa
タリンさんいい表情。本当に好きなんだろうなあ
2019/07/12 05:39
yoshihiroueda
アラレちゃん可愛い。
2019/07/12 05:43
shinichikudoh
【お詫びと訂正】がある。「本AIにはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます」「正確には翻訳ではなく翻刻と呼ぶのが正しい」
2019/07/12 05:58
tanayuki00
素敵。「くずし字の本は東京の神保町などにある中古書店に行けば、数千円から購入することができ、入手は容易」「デジタル化しても読めなければ意味がない。そこで、AIを活用することを考えた」
2019/07/12 06:14
kita-tuba
ゴイスー
2019/07/12 06:21
ueshin
頼りすぎても、ちゃんと翻訳できているかのチェック能力がなければね。
2019/07/12 06:58
cyber_bob
そんなことより、“狂喜乱舞する”という表現が気になった。読めても意味がわからないとね。
2019/07/12 06:58
fubar_foo
(今回は分からないけど)この方の過去論文読むと、学習データとテストデータを同じ本からサンプリングして評価してるんだよな。 未知の本では精度でない可能性も考えられる。
2019/07/12 07:17
at5u
ただただ凄いとしか言いようがない
2019/07/12 07:19
godmother
へえ!これはすごい。自分でくずし字を書くのに、他人のは読めないという苦境から脱出できるね。
2019/07/12 08:21
co8co8
いいね。次は現代語訳に変換するところも期待(ぇ
2019/07/12 08:26
younari
すげぇわ
2019/07/12 08:41
ultimate-ez
85%だとちょっと厳しいけど、1文字単位の画像認識で85%なら、前後の文字や文脈で予想するアルゴリズムと組み合わせれば、もっと精度上がりそう。
2019/07/12 09:13
kiku72
2019/07/12 09:14
richard_raw
あ、お詫びと訂正が入ってる。タイトルも変えればいいのに。
2019/07/12 09:14
oguratesu
Googleのこういうとこ好き。
2019/07/12 09:25
sai0ias
すごいなこれ。くずし字はまじで魔境だから…(古文書の授業で死ぬかと思った)
2019/07/12 09:48
usurausura
何度も書くけど、古典を味わう際に難読字を誰かが現在の活字に戻したコンテンツが無問題なら、誰かが現代語訳した内容でも無問題なはず。古文漢文をセンターの選択ではなく必修科目にする根拠ってないよね
2019/07/12 10:11
kochizufan
奈良の地誌類で活字化されてないのもこれで読めるようになっていくといいな。というかこれを使って活字化が進んで欲しい。
2019/07/12 10:35
kamemoge
正しい技術の使い方
2019/07/12 10:48
archivist_kyoto
訂正が2回入っている面白い記事。1.内容がもともと世間は理解しにくい、2.リリースに一層の工夫が必要、3.記者さんが微妙にミスった。ともかく記者さんの要請もあったかもですが古典籍(資料)を掲げない、と
2019/07/12 11:36
attyan7639
人間が読めない文字まで読めるとは!!
2019/07/12 12:04
asakura-t
タイトルからGoogleが外れたから、ブクマも直したいところだけど(はてなに申請する必要があるんだっけ?)/つか、みんなGoogleに幻想を持ちすぎである(ライターが間違えたのもそれだからでしょ)
2019/07/12 12:13
Katharine_15
“国文学研究資料館が持つくずし字のデータ(日本古典籍くずし字データセット)を学習させて、くずし字を現代語に推論できるシステムだ。”
2019/07/12 15:13
PSV
わたしゃ、大学時代、#手書き文字認識 の研究室だったんだけど、#複素数 #フーリエ変換 使った特徴抽出アルゴリズムと(画数や筆順等で)各種最適化をゴリゴリ手作業してたあの時代の苦労は何だったんだ!?って感じや。
2019/07/12 18:51
sumida
Googleは関係なかったか。あとは、どれだけサンプルを取り込んで精度を上げられるかですかね。現状のパーセンテージはあまり参考にならない。
2019/07/12 21:12
balanco
タリンさんだ!
2019/07/12 21:18
sho
訂正多すぎワロタ
2019/07/14 21:11
ankoro
ディープラーニング(深層学習)の手法(U-Net)を活用し、国文学研究資料館が持つくずし字のデータ(日本古典籍くずし字データセット)を学習させて、くずし字を現代語に推論できるシステムだ。