熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築
2024/07/29 15:04
mizukemuri
良い使い方
2024/07/29 15:09
nmcli
鬼すげぇ
2024/07/29 15:15
sjack
口頭で言われたものを書き取ったり書状のコピーだったりだから読みやすさより速記性が優先されたってことかな。
2024/07/29 15:17
toaruR
おおおーーー
2024/07/29 15:20
stack00
誤差の程度次第だろうけど研究が捗るだろうなぁ。
2024/07/29 15:24
bonogurashi
カメラかざしたら翻訳されるアプリにならないかな
2024/07/29 15:27
tasknow
きっったねぇ字!
2024/07/29 15:29
strawberryhunter
まだ解読されていない文書っていっぱいあるのかな。昔はまだ読めたけど、その時の現代語訳として資料を残していないとか。
2024/07/29 15:41
mur2
汚い字の医者とかもこれで安心。(実際には電子カルテの普及ですでに手書きの方が少数派らしいが)
2024/07/29 15:42
Windfola
藩内部の行政文書の類でかつ難読とか、手間かかるわりに一つ一つは内容薄くて大きな発見とか期待しにくそうだし、こういうシステムないとなかなか手がつかないんだろうなあ。
2024/07/29 15:46
iwasi8107
くずし字AI有能すぎる
2024/07/29 16:20
nori__3
未解読ってのがあったんだな…古文書とか書道の専門家が見ればだいたいわかるもんだと思っていた
2024/07/29 16:30
washi-mizok
AIが学習する先生いるんでしょ?
2024/07/29 16:41
mutsugi
詳しくないから単純に良い悪いが判断できないんだけど、「こういう風に読むかも」という先入観あったうえで改めて文書解読に取り組んでもいいもん?
2024/07/29 16:47
spark7
そもそもOCRは形を読むだけだけでなく推論がセットなのよな。じゃないと0とOを光学だけでは区別できん。
2024/07/29 16:48
call_me_nots
除籍謄本をOCR読み出来る時代頼む
2024/07/29 17:01
wosamu
インド人を右に
2024/07/29 17:03
cvtbgspuda
これは素晴らしい。適切な成果で今後も頑張っていただきたい。
2024/07/29 17:49
netafull
“これらは、専門家でも解読が困難な、難易度の高いくずし字で書かれたものだという。”
2024/07/29 17:53
napsucks
くずし字AIでさえ解読できなかった文書をどうにかして解読したのか?タイトルに美しき水車小屋の乙女問題が発生している。
2024/07/29 17:55
otchy210
未だに電子カルテに移行しようとしない/出来ない老人医師達の手書きカルテに悩む医院に導入してあげて欲しい。
2024/07/29 18:06
hateshinaiz
青空文庫の旧仮名遣いを現代仮名遣いに直せたりするのは知ってたけど、くずし字を読めるのは凄い
2024/07/29 18:25
akymrk
“江戸時代前期の細川藩領国の、約90年間にわたる社会的事件や統治制度についての記述を含んだ資料を、即時に検索収集できるように”"いままで知られていなかった自然災害、疫病流行や飢饉など、未知の重要な記述も"
2024/07/29 18:53
blueboy
誰が買うのか……と思ったが、個人でなく大学が買ってくれるのか。
2024/07/29 18:57
mozzer
江戸時代史料多すぎて翻刻されてるの氷山の一角って言うし
2024/07/29 19:06
eagleyama
そんなロゼッタストーンみたいなものがまだ残っていたのか
2024/07/29 19:09
lejay4405
かな書道習っててお手本を少しは読めるようにはなってきたけど言い回しも今と違うから原本見るとちんぷんかんぷんだよ
2024/07/29 19:11
behuckleberry02
「みお」は試してみたけど使い物になるレベルでは無かったな。AI解読気になりますね。
2024/07/29 19:14
kaikeiya
公文書でも200年すると読めなくなるんか。200年後に方眼紙エクセルの公文書の解読とかするようになるんかな。
2024/07/29 19:19
yamuchagold
くずし字、当時の人は読めたのだろうか?
2024/07/29 19:22
kichine
TOPPANの古文書カメラ、個人用になかなか便利です。その機能のプロ版?
2024/07/29 19:28
stabucky
立川文庫を電子化してくれ。そっちの方が簡単だろう。猿飛佐助とか読みたい。綺麗な字で。
2024/07/29 19:30
Insite
形と文脈からもっともそれっぽいものを選ぶのはDLにぴったり。でもそれをverifyする人間の責任は大きいような
2024/07/29 19:31
kamezo
特定の編集者や校正者しか読めない作家の肉筆原稿を読み取れる癖字AI-OCRも開発を、と思ったけど、もう需要ないか。いや、実業界には何人かそういう達筆の人が存命かもしれん。でもあかんか。
2024/07/29 20:05
kazuhix
縦書きを横書きで検索なんて地獄のUIなのにマンガや週刊誌を読みなれてるから平気なのかな。
2024/07/29 20:34
hozho
“TOPPANが開発したくずし字AI-OCRを用いて解読し、約950万文字のテキストデータの生成に成功した。さらに、くずし字AI-OCRによる解読と連動するキーワード検索システムを構築した。”
2024/07/29 20:59
bfoj
専門性の民主化
2024/07/29 21:45
honma200
専門家でも読めてない資料がいっぱいあるのかあ
2024/07/29 22:00
pechiyon
x.com 真贋不明ながら、文字が読めるからというだけで書道家を雇って人文系解雇したという話もありますしお寿司🍣AIはその文脈まで汲んで訳してくれるか問題はあるわなぁ
2024/07/29 23:00
brusky
前後の文字と合わせて推定するんだろうけどすごいなぁ
2024/07/29 23:35
no-cool
素晴らしい。
2024/07/30 01:26
ET777
肥後細川家は忠興がめちゃくちゃ筆まめであれこれ言ってくるから忠利がいい加減にしてくれ的ニュアンスの返信してた話が好き
2024/07/30 02:41
uehaj
すごすき。専門家でも解読困難というのがすごい。人類の能力を越えた。AI-OCRは無料ダウンロードできるアプリ内課金付きのiOSアプリらしい。読めない字は集合知で学習させて賢くなる
2024/07/30 03:53
scipio1031
崩し字って、なんじゃこりゃって思ってたけど、読めないの結構あったんだ
2024/07/30 06:01
nanako-robi
AI大活躍
2024/07/30 06:11
Hagalaz
すげー
2024/07/30 06:56
kenchan3
熊本の細川だから元総理のところか。
2024/07/30 07:09
lanlanrooooo
俺の楔形文字も読めるようになるんで!?
2024/07/30 07:26
koroha-a
歴史資料5万枚残ってるのもすごいな、と思ったら "5万点以上、約288万枚の歴史資料群" のうちの5万枚なのね。凄まじい量だ・・・。
2024/07/30 08:55
BoogieClicker
すっご
2024/07/30 09:04
khatsalano
江戸時代の古文書は厖大で,全量の把握すら難しい。活字化してるのはおそらく数%に満たない。時代による書体の違いもあって,俺も江戸までなら読めるが,近代の書翰はかなり自信がない。これでお役御免だな。
2024/07/30 09:09
nainy
知られてなかった災害や疫病の流行が知れる可能性があるのは大きな功績になりそう
2024/07/30 10:10
kaos2009
“即時に検索収集”
2024/07/30 14:32
tach
AIの正しい使い方