コンテンツにスキップ

GetText

GetText コンポーネントを使用すると、PDFファイルからテキストを抽出できます。
screenshot

サポートされている機能

GetText コンポーネントのタイトルバーをダブルクリックして、EXTRACTOR SETTINGSウィンドウを開きます。
screenshot

  1. 抽出するには、use OCR のチェックボックスをクリックします。
    1. リストから、OCRエンジンを選択できます。
    2. 商用OCRエンジンが一覧から選択されている場合は、資格情報を指定する必要があります。
      (例:アクセスキー、シークレットキー、Apiキー、アプリケーションID、クラウドパスワード、ライセンスキーなど)

ポート

GetText コンポーネントは、デフォルトでコントロール入力、コントロール出力、データ入力ポート、およびデータ出力ポートを公開します。

ポート 説明
Control In 1つ以上のコンポーネントのコントロール出力ポートに接続する必要があります。
Control Out 他のコンポーネントのコントロール入力ポート、または既定のエンドコンポーネントのコントロール入力ポートに接続できます。
Data In GetText コンポーネントは、既定で次のデータ入力ポートを公開します。
PdfFilepath: PDFファイルの場所を指定します。
PageNumber: PDFファイルのページ番号を指定します。
Data Out PDFドキュメントのコンテンツを返します。

プロパティ

GetTextコンポーネントのプロパティを編集するには、Properties ウィンドウでプロパティを変更します。次のプロパティを編集できます。

プロパティ 説明
Search それぞれのプロパティを検索します。
Delay After Execution アクションが実行された後の待機時間(秒単位)を指定します。
Delay Before Execution アクションが実行されるまでの待機時間(秒単位)を指定します。

例を見てみましょう。
screenshot
PDFファイルからデータを抽出するには、次の手順を実行します。

  1. ツールボックスで、Utilitiesを展開し、次に PDF を展開します。
  2. GetText コンポーネントをドラッグし、デザインサーフェイスにドロップします。
  3. PdfFilepath ボックスをダブルクリックし、パスを入力します。
  4. ページ指定での抽出用にPDFファイルのページ番号を指定できます。
  5. 既存のデータソースを上書きするには、PdfFilePath を右クリックします。
  6. override をクリックし、データソースを変更します。

    Note

    データポートのデータソースの上書きについての詳細については、オーバーライドセクションを参照してください。

  7. GetText タイトルバーをダブルクリックすると、EXTRACTOR SETTINGSウィンドウが開きます。
    screenshot

  8. チェックボックスをクリックし、OCRエンジンをリストから選択します。
    商用OCRエンジンを使用する場合は、必要な資格情報を提供する必要があります。
    (この例では、OCRエンジンの種類として "Windows" を選択しています)。
  9. OK をクリックします。
  10. メッセージボックス Show コンポーネントをドラッグし、デザインサーフェイスにドロップします。
  11. アクティビティでコントロールポートとデータポートを接続します。
  12. ツールバーで、Run をクリックします。
    screenshot