熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築

2024/07/29 15:04

mizukemuri

良い使い方

2024/07/29 15:09

nmcli

鬼すげぇ

2024/07/29 15:15

sjack

口頭で言われたものを書き取ったり書状のコピーだったりだから読みやすさより速記性が優先されたってことかな。

2024/07/29 15:17

toaruR

おおおーーー

2024/07/29 15:20

stack00

誤差の程度次第だろうけど研究が捗るだろうなぁ。

2024/07/29 15:24

bonogurashi

カメラかざしたら翻訳されるアプリにならないかな

2024/07/29 15:27

tasknow

きっったねぇ字！

2024/07/29 15:29

strawberryhunter

まだ解読されていない文書っていっぱいあるのかな。昔はまだ読めたけど、その時の現代語訳として資料を残していないとか。

2024/07/29 15:41

mur2

汚い字の医者とかもこれで安心。(実際には電子カルテの普及ですでに手書きの方が少数派らしいが)

2024/07/29 15:42

Windfola

藩内部の行政文書の類でかつ難読とか、手間かかるわりに一つ一つは内容薄くて大きな発見とか期待しにくそうだし、こういうシステムないとなかなか手がつかないんだろうなあ。

2024/07/29 15:46

iwasi8107

くずし字AI有能すぎる

2024/07/29 16:20

nori__3

未解読ってのがあったんだな…古文書とか書道の専門家が見ればだいたいわかるもんだと思っていた

2024/07/29 16:30

washi-mizok

AIが学習する先生いるんでしょ？

2024/07/29 16:41

mutsugi

詳しくないから単純に良い悪いが判断できないんだけど、「こういう風に読むかも」という先入観あったうえで改めて文書解読に取り組んでもいいもん？

2024/07/29 16:47

spark7

そもそもOCRは形を読むだけだけでなく推論がセットなのよな。じゃないと0とOを光学だけでは区別できん。

2024/07/29 16:48

call_me_nots

除籍謄本をOCR読み出来る時代頼む

2024/07/29 17:01

wosamu

インド人を右に

2024/07/29 17:03

cvtbgspuda

これは素晴らしい。適切な成果で今後も頑張っていただきたい。

2024/07/29 17:49

netafull

“これらは、専門家でも解読が困難な、難易度の高いくずし字で書かれたものだという。”

2024/07/29 17:53

napsucks

くずし字AIでさえ解読できなかった文書をどうにかして解読したのか？タイトルに美しき水車小屋の乙女問題が発生している。

2024/07/29 17:55

otchy210

未だに電子カルテに移行しようとしない/出来ない老人医師達の手書きカルテに悩む医院に導入してあげて欲しい。

2024/07/29 18:06

hateshinaiz

青空文庫の旧仮名遣いを現代仮名遣いに直せたりするのは知ってたけど、くずし字を読めるのは凄い

2024/07/29 18:25

akymrk

“江戸時代前期の細川藩領国の、約90年間にわたる社会的事件や統治制度についての記述を含んだ資料を、即時に検索収集できるように”"いままで知られていなかった自然災害、疫病流行や飢饉など、未知の重要な記述も"

2024/07/29 18:53

blueboy

　誰が買うのか……と思ったが、個人でなく大学が買ってくれるのか。

2024/07/29 18:57

mozzer

江戸時代史料多すぎて翻刻されてるの氷山の一角って言うし

2024/07/29 19:06

eagleyama

そんなロゼッタストーンみたいなものがまだ残っていたのか

2024/07/29 19:09

lejay4405

かな書道習っててお手本を少しは読めるようにはなってきたけど言い回しも今と違うから原本見るとちんぷんかんぷんだよ

2024/07/29 19:11

behuckleberry02

「みお」は試してみたけど使い物になるレベルでは無かったな。AI解読気になりますね。

2024/07/29 19:14

kaikeiya

公文書でも200年すると読めなくなるんか。200年後に方眼紙エクセルの公文書の解読とかするようになるんかな。

2024/07/29 19:19

yamuchagold

くずし字、当時の人は読めたのだろうか？

2024/07/29 19:22

kichine

TOPPANの古文書カメラ、個人用になかなか便利です。その機能のプロ版？

2024/07/29 19:28

stabucky

立川文庫を電子化してくれ。そっちの方が簡単だろう。猿飛佐助とか読みたい。綺麗な字で。

2024/07/29 19:30

Insite

形と文脈からもっともそれっぽいものを選ぶのはDLにぴったり。でもそれをverifyする人間の責任は大きいような

2024/07/29 19:31

kamezo

特定の編集者や校正者しか読めない作家の肉筆原稿を読み取れる癖字AI-OCRも開発を、と思ったけど、もう需要ないか。いや、実業界には何人かそういう達筆の人が存命かもしれん。でもあかんか。

2024/07/29 20:05

kazuhix

縦書きを横書きで検索なんて地獄のUIなのにマンガや週刊誌を読みなれてるから平気なのかな。

2024/07/29 20:34

hozho

“TOPPANが開発したくずし字AI-OCRを用いて解読し、約950万文字のテキストデータの生成に成功した。さらに、くずし字AI-OCRによる解読と連動するキーワード検索システムを構築した。”

2024/07/29 20:59

bfoj

専門性の民主化

2024/07/29 21:45

honma200

専門家でも読めてない資料がいっぱいあるのかあ

2024/07/29 22:00

pechiyon

x.com 真贋不明ながら、文字が読めるからというだけで書道家を雇って人文系解雇したという話もありますしお寿司🍣AIはその文脈まで汲んで訳してくれるか問題はあるわなぁ

2024/07/29 23:00

brusky

前後の文字と合わせて推定するんだろうけどすごいなぁ

2024/07/29 23:35

no-cool

素晴らしい。

2024/07/30 01:26

ET777

肥後細川家は忠興がめちゃくちゃ筆まめであれこれ言ってくるから忠利がいい加減にしてくれ的ニュアンスの返信してた話が好き

2024/07/30 02:41

uehaj

すごすき。専門家でも解読困難というのがすごい。人類の能力を越えた。AI-OCRは無料ダウンロードできるアプリ内課金付きのiOSアプリらしい。読めない字は集合知で学習させて賢くなる

2024/07/30 03:53

scipio1031

崩し字って、なんじゃこりゃって思ってたけど、読めないの結構あったんだ

2024/07/30 06:01

nanako-robi

AI大活躍

2024/07/30 06:11

Hagalaz

すげー

2024/07/30 06:56

kenchan3

熊本の細川だから元総理のところか。

2024/07/30 07:09

lanlanrooooo

俺の楔形文字も読めるようになるんで！？

2024/07/30 07:26

koroha-a

歴史資料5万枚残ってるのもすごいな、と思ったら "5万点以上、約288万枚の歴史資料群" のうちの5万枚なのね。凄まじい量だ・・・。

2024/07/30 08:08

aox

www.youtube.com

2024/07/30 08:55

BoogieClicker

すっご

2024/07/30 09:04

khatsalano

江戸時代の古文書は厖大で，全量の把握すら難しい。活字化してるのはおそらく数%に満たない。時代による書体の違いもあって，俺も江戸までなら読めるが，近代の書翰はかなり自信がない。これでお役御免だな。

2024/07/30 09:09

nainy

知られてなかった災害や疫病の流行が知れる可能性があるのは大きな功績になりそう

2024/07/30 10:10

kaos2009

“即時に検索収集”

2024/07/30 14:32

tach

AIの正しい使い方