引用元の資料まちがってない?確かpdfはUnicodeで文字データを持ってて、cmapは文字コード->GID変換テーブルでしかない。もしGIDで入ってたならそれはWindowsの実装の問題だと思う。
CMapが存在しない場合やってることはOCRと同じだからそんな文字コード同一を求めること自体が間違い PDFを一次情報にするなとしか PDF側よりUnicode側が変態すぎる
“ActualText というUnicodeコードポイント列を陽に書いておくことができる仕組みがあり,これにより問題が回避できるが,わざわざこれを出力してくれるプログラムはおそらく多くない”
Macの印刷時のPDF保存ならどうなのか知りたい。印刷の領収書は全部これで保存してるから改変されてたら困る…
なんかコピペすると「「「「「なになにこれこれ??」」」」」みたいになることない?
Adobe製品を使ってフォントをエンベッドしたPDFを生成すれば回避できる奴? (Adobe製品に限らんかもしれん)
もはやOCRで読んだ方がマシ説
Microsoft Print to PDFは仮想プリンタで,文字化けどうこうはアプリ側の問題.例えばAdobe Acrobatなんかは,ラスタ化して出力するので,PDFにも文字情報は残らない.そもそもPDFコンバータとして期待するのが間違い
むつかしい
それでわざわざApacheFOPにモンキーパッチ当てて使ってるわ
長って三種類あんねん
グリフベースの管理だからあんなことになってんのか。元々データ交換用でなくて印刷用の規格だからなのかな。読み上げとかどうしてるんだろう。
“PDFヴューワ”←この書き方なんかヤダ
“『長』ってUnicodeだと実は3種類”まじかよ
詳しく解説してくれてる人、ありがたい。
CubePDFで印刷した方が良い。ブラウザの機能で出力したPDFはなぜかOCRもうまくできない事がある
知らなかった。utf8より仕様古いはずだもんな。印刷に耐えれるフォーマットがPDFしかないけど、そろそろ新しいフォーマットが欲しくもなる。
Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは?
引用元の資料まちがってない?確かpdfはUnicodeで文字データを持ってて、cmapは文字コード->GID変換テーブルでしかない。もしGIDで入ってたならそれはWindowsの実装の問題だと思う。
CMapが存在しない場合やってることはOCRと同じだからそんな文字コード同一を求めること自体が間違い PDFを一次情報にするなとしか PDF側よりUnicode側が変態すぎる
“ActualText というUnicodeコードポイント列を陽に書いておくことができる仕組みがあり,これにより問題が回避できるが,わざわざこれを出力してくれるプログラムはおそらく多くない”
Macの印刷時のPDF保存ならどうなのか知りたい。印刷の領収書は全部これで保存してるから改変されてたら困る…
なんかコピペすると「「「「「なになにこれこれ??」」」」」みたいになることない?
Adobe製品を使ってフォントをエンベッドしたPDFを生成すれば回避できる奴? (Adobe製品に限らんかもしれん)
もはやOCRで読んだ方がマシ説
Microsoft Print to PDFは仮想プリンタで,文字化けどうこうはアプリ側の問題.例えばAdobe Acrobatなんかは,ラスタ化して出力するので,PDFにも文字情報は残らない.そもそもPDFコンバータとして期待するのが間違い
むつかしい
それでわざわざApacheFOPにモンキーパッチ当てて使ってるわ
長って三種類あんねん
グリフベースの管理だからあんなことになってんのか。元々データ交換用でなくて印刷用の規格だからなのかな。読み上げとかどうしてるんだろう。
“PDFヴューワ”←この書き方なんかヤダ
“『長』ってUnicodeだと実は3種類”まじかよ
詳しく解説してくれてる人、ありがたい。
CubePDFで印刷した方が良い。ブラウザの機能で出力したPDFはなぜかOCRもうまくできない事がある
知らなかった。utf8より仕様古いはずだもんな。印刷に耐えれるフォーマットがPDFしかないけど、そろそろ新しいフォーマットが欲しくもなる。