この記事では、docutize OCRを使い始めるための帳票セットアップの手順をご案内します。
【docutize OCR セットアップガイド(1)】初期設定 に記載の初期設定が完了している前提の手順になります。
このガイドで分かること
帳票セットアップ手順
0.転記先オブジェクトの準備
docutize OCRは、読み取ったデータを、任意のオブジェクトに格納していくことが可能です。既存のオブジェクトでも新しく作成したオブジェクトでも構いません。ただ、docutize OCRを使用するにあたり、最低限必要な項目・設定がありますので、下記の通りご案内します。必要に応じてご設定ください。
- 転記先オブジェクトの作成
- OCR箇所(読み取りフィールド)の数だけ、項目の作成
- その後の設定にて、ここで作成した各項目とSmartReadで作成した読み取りフィールドの対応付け(マッピング)を行いますので、基本的には同じ数、同じ名称でご作成ください。
- 下記の表の2つの項目の作成
- 作成したオブジェクト・項目の編集・参照権限をdocutize OCRを使用するユーザに付与
| 表示ラベル | 項目名(API参照名) | 型 | 数式の内容 |
|---|---|---|---|
| OCR入力 | ocr_InputData | 参照関係(入力データ) | - |
| OCR入力状況 | ocr_InputDataStatus | 数式 | TEXT( ocr_InputData__r.docutizeocr01__Status__c ) |
設定例)
例では、転記先オブジェクトとして「AI-OCR取込」というオブジェクトを作成しています。
1.SmartReadにてテンプレート作成
SmartReadにて、フォーム上の各項目の文字を読み取る範囲(読取フィールド)を画像ファイル上に定義します。
この定義を「テンプレート」と呼び、テンプレートで設定した読取フィールドが読み取り対象となります。
1.SmartReadログインします。
・ログインURL
https://app.smartread.jp/login
2.[テンプレート一覧]を開き、[テンプレートを新規作成]ボタンより、未記入文書の画像ファイルをアップロードします。
******************************************************************************************
Point:アップロードする画像ファイルについて
- アップロードする画像ファイルは未記入のものにしてください。
- 対応している拡張子は、PDF、TIFF、JPG、PNGです。
- 1度にアップロードするファイルは、1ページ5MB以下、合計100ページ、200MB以下にしてください。
******************************************************************************************
3.すべての読み取り位置にフィールドを設定します。なお、フィールド種別は、下記の4種類あります。適宜使い分けてください。
| フィールド種別 | 用途 |
|---|---|
| シングルライン | 1行で書かれた文字や文章に対して設定するフィールドです。 例:品名、姓名、住所 |
| ボックスキャラクター | 2行以上で書かれた文章に対して設定するフィールドです。 例:アンケートなどの自由記述欄、住所 |
| チェックボックス | 等間隔に並んだボックスに対して設定するフィールドです。 例:品番、郵便番号 |
| マルチライン | チェックマークをつけたり丸で囲んだりする選択肢に対して設定するフィールドです。 例:チェックマークをつける選択肢、住所欄の都道府県の選択肢 |
読取フィールドの設定について、詳しくは、本記事最下部に添付しておりますSmartRead操作マニュアル(smartread-manual-ja.pdf)(株式会社Cogent Labs)をご参照ください。p.47「読取フィールドの設定」 が該当箇所になります。
******************************************************************************************
Point:読取フィールドの編集操作
- ショートカットキーを使用可能です。
- Ctrl + Zキー:操作を取り消して元に戻す
- Shift+Ctrl + Zキー:元に戻した操作をやり直す
- 画像上部にあるアイコン
でも操作を元に戻したり、やり直したりできます。
******************************************************************************************
******************************************************************************************
Point:読取フィールドを設定できる最大数
- 1つのテンプレートに最大500個の読取フィールドを設定できます。
- テンプレートで使用されているフィールドの数は、テンプレート作成画面の右上に表示されます。
- マルチラインの読取フィールドは10フィールド分として計算されます。
- チェックボックスの数は、カッコの前の数字で、カッコ内はチェックボックスグループの数です。
- 以下の例では、フィールド数の計算は、12+(2×10)+1+5で、38個になります。
******************************************************************************************
4.下部のフィールド設定ウィンドウを開き、出力カラム名を分かりやすい名前に変更します。
※フィールド設定ウィンドウが隠れている場合は、画面右端の▲をドラッグして広げます。
******************************************************************************************
Point:出力カラム名は分かりやすい名前に!
出力カラム名は、後ほどdocutize OCR側の設定でも用いますので、一目で分かるような名前を付けます。
○ 氏名、生年月日、性別
× text1、text2、text3
******************************************************************************************
5.[保存]をクリックします。
6.テンプレート名、説明を入力し、[保存]をクリックします。
2.D3Worker設定
ここでは、サンプル設定をインポートして、そちらを元に適宜編集する手順をご案内します。また、ここで例に挙げるのは、読み取るページが1ページのみの場合の設定です。
1.本記事最下部に添付してあるファイル(docutizeOCRサンプル設定.d3w)をダウンロードします。
2.D3Workerにログインします。
・ログインURL
https://d3w.ap.oproarts.com/d3w/a/{お客様用テナント名}/
3.[インポート]をクリックし、1でダウンロードしたファイルを選択し、[実行]をクリックします。
なお、インポートしたサンプルは下記の構成となっております。1回の実行に対して、2つのワークが順に動作します。
- ワーク①「docutizeOCR_[帳票名]_1周目」
- エンベロープ「docutize OCR_[帳票名]_1周目」
- 文書化サービス: 「Salesforce Files文書化_docutizeOCR_[帳票名]」
- 配送サービス: 「ワーク実行_PDF分割_docutizeOCR_[帳票名]」
- エンベロープ「docutize OCR_[帳票名]_1周目」
- ワーク②「docutizeOCR_[帳票名]_2周目」
- エンベロープ「docutizeOCR_[帳票名]_2周目」
- 文書化サービス: 「アップロード文書_docutizeOCR_[帳票名]」
- 配送サービス: 「docutizeOCR/実行_SmartRead_docutizeOCR_[帳票名]」
- 配送サービス: 「docutizeOCR/結果登録__docutizeOCR_[帳票名]」
- エンベロープ「docutizeOCR_[帳票名]_2周目」
ワーク①の設定
4.[サービス]タブを開き、[検索]をクリックします。
5.「Salesforce Files文書化_docutizeOCR_[帳票名]」を開きます。
6.名称の[帳票名]の箇所に対象帳票名をご入力ください。なお、名称とメモは動作には関わりませんので、自由に変更していただいて構いません。※以降すべてのD3Workerの設定で同様です。
7.[接続]をクリックし、Salesforceにログインします。「アクセスを許可しますか?」という画面が出たら、[許可]をクリックします。
8.[保存]をクリックし、ブラウザタブを閉じます。
9.「ワーク実行_PDF分割_docutizeOCR_[帳票名]」を開きます。
10.変更箇所はありません。必要に応じて名称とメモを変更して保存します。ブラウザタブを閉じます。
11.[エンベロープ]タブを開き、[検索]をクリックします。
12.「docutizeOCR_[帳票名]_1周目」を開きます。必要に応じて名称とメモを変更します。
13.[配送サービス]タブを開き、[実行するワーク]の名称を変更します。
14.[保存]をクリックし、ブラウザタブを閉じます。
15.[ワーク]タブを開き、[検索]をクリックします。
16.「docutizeOCR_[帳票名]_1周目」を開きます。
17.変更箇所はありません。必要に応じて名称とメモを変更して保存します。
ワーク②の設定
18.[サービス]タブを開き、「アップロード文書_docutizeOCR_[帳票名]」を開きます。
19.変更箇所はありません。必要に応じて名称とメモを変更して保存します。ブラウザタブを閉じます。
20.「docutizeOCR/実行_SmartRead_docutizeOCR_[帳票名]」を開きます。必要に応じて名称とメモを変更します。
21.[APIキー]を入力し、[接続の確認]をクリックします。
APIキーは、SmartReadのマイページからコピーします。
22.[SmartReadテンプレート]をアップロードします。
SmartReadテンプレートは、SmartReadのテンプレート詳細画面にて、「JSONをダウンロード」ボタンをクリックすると取得できます。
23.下記を参考に設定します。[保存]をクリックして、ブラウザタブを閉じます。
| 設定箇所 | 説明 | 設定例 |
|---|---|---|
| 画像の解像度 | SmartReadにてテンプレートに使用した画像の解像度を指定します。スキャンで用意した画像の場合、300dpiほどです。 | 300 |
| 画像の色 | 入力データレコードで表示される画像の色を指定します。 | グレースケール |
| PDFのページ | OCR処理の対象とするページ番号を指定します。 | 1 |
******************************************************************************************
Point:複数ページのOCR処理
OCR処理を複数ページ行う場合は、このサービス(docutizeOCR/実行)をページ数分作成します。
******************************************************************************************
24.「docutizeOCR/結果登録__docutizeOCR_[帳票名]」を開きます。必要に応じて名称とメモを変更します。
25.[接続]をクリックし、Salesforceにログインします。「アクセスを許可しますか?」という画面が出たら、[許可]をクリックします。
26.[保存]をクリックして、ブラウザタブを閉じます。
27.[エンベロープ]タブを開き、「docutizeOCR_[帳票名]_2周目」を開きます。
28.変更箇所はありません。必要に応じて名称とメモを変更して保存します。
29.[ワーク]タブを開き、「docutizeOCR_[帳票名]_2周目」を開きます。
30.変更箇所はありません。必要に応じて名称とメモを変更して保存します。
以上でD3Workerの設定が完了です。[ワーク]タブにて「検査」をクリックし、「実行可能な状態です」と表示されるか確認します。
3.docutize OCR設定
ここでは、「OCRマッピング」レコードと、その子レコード「OCR項目マッピング」を作成します。
「OCRマッピング」レコードは1つの帳票に対して1レコード作成し、「OCR項目マッピング」レコードはOCR箇所(読み取りフィールド)の数だけ作成します。「OCR項目マッピング」レコードは、OCR箇所(読み取りフィールド)と対象オブジェクトの項目を紐づける役割を持ちます。
1.[OCRマッピング]タブを開き、[新規]をクリックします。
2.下記の通り各項目を入力し、保存します。
| 項目名 | 説明 | 入力例 |
|---|---|---|
| OCRマッピング名 | 任意の名称を付けます。OCR実行時に指定する名称となります。 | 利用申込書 |
| オブジェクト名 | 転記先オブジェクト(手順0で用意したオブジェクト)のAPI参照名を入力します。 | AIOCR_DataImport__c |
| OCRワーク | D3Workerの1周目のワーク名を入力します。 | docutizeOCR_利用申込書_1周目 |
| ページ数 | OCRで読み取る文書のページ番号を入力します。 | 1 |
設定例)
3.作成したレコードの[関連]タブを開き、[OCR項目マッピング]の[新規]をクリックします。
4.下記の通り各項目を入力し、保存します。これをOCR箇所(読み取りフィールド)の数だけ繰り返します。
| 項目名 | 説明 | 入力例 |
|---|---|---|
| 表示順 | 入力データレコードの画面上で表示される順番を入力します。 | 1 |
| ページ番号 | OCRで読み取る文書のページ番号を入力します。 | 1 |
| OCR箇所名 | SmartReadの「出力カラム名」を入力します。 | 氏名 |
| OCR値タイプ | SmartReadの「出力フィールド」に対応したものを選択します。 | 単一行テキスト |
| OCRマッピング | 紐づく親レコードが表示されます。通常、変更不要です。 | 利用申込書 |
| 項目名 | 対象オブジェクトの項目のAPI参照名を入力します。 | fullName__c |
| 項目表示ラベル | 対象オブジェクトの項目の表示ラベルを入力します。空白の場合、項目名の表示ラベルが自動で取得されます。 | 氏名 |
| 変換 | 読み取ったデータを変換します。任意の選択肢を選択します。 | 文字列 |
設定例)
セットアップは以上で完了です。
[OCR実行]タブよりお試しください。