webinar register page

PDFからテキストを取り出したい!使えるテクニックをご紹介
PDFからテキストを取り出したい!使えるテクニックをご紹介
●概要
――――――――――
データはPDFファイルしかないのに、その中のテキストデータをどうしても取り出したいことがあります。

・同じようなPDFファイルが沢山あるので、手動でテキストコピーせずにまとめて取り出したい。
・毎月の定型業務でレポートから数値を取り出さないといけないが、これを自動化したい。

まったくテキストの位置がかわらない固定のフォーマットであれば、ツールを使えば比較的簡単ですが、実際には、データのあるページが変わったり、レイアウトがかわったりして、自動化したいがどうしたらいいかわからない、といったことはありませんか?

本ウェビナーでは、そんなときに使えるテクニックをご紹介します。

--<<こんな方にお薦め!>>--
・PDFを扱うシステムを企画・設計する人
・PDFを扱うシステム開発者(プログラマー)


●アジェンダ
――――――――――
1.テキストを取り出すなんて簡単では?

<<難しいケース>>
 ・抽出対象となるテキストを含むページが変わる
 ・ページ中のテキストの位置がかわる
 ・テキストが複数ページにまたがる
 ・データの個数がかわる
 ・余計なデータが紛れ込む


2.テキスト抽出の仕方

次のステップで行います。
 (1)ページを特定
 (2)ページ中のテキストの位置を特定
 (3)テキスト抽出
 (4)必要な情報だけフィルタ

<<使う機能>>
 ・テキスト抽出(領域指定)
 ・テキスト抽出(ページ全体)
 ・テキスト検索
 ・正規表現でのパターンマッチ


3.ページを調べる工夫

4.ページ内のテキスト位置を調べる工夫

5.必要なテキストを取り出す工夫


【視聴方法について】
本ウェビナーは無料です。
こちらで登録したメールアドレス宛に、Zoomウェビナーへのご招待メールをお送りします。 当日、メールに記載されたURLをクリックしていただくと、ウェビナーを視聴いただけます。

Jul 27, 2021 04:00 PM in Osaka, Sapporo, Tokyo

アンテナハウス株式会社
* Required information
Loading