トップ > システム利用手引 > データ登録正規化

データ登録正規化

正規化とは,データ登録(新規登録・修正登録)と,一括登録のデータ登録の際,登録されたデータを整えるために処理をいいます。また,記事検索の場合に,検索キーの揺れを吸収するために,登録されたデータの整形と,検索キーの整形のための処理のことを指します。登録時の正規化,検索時の正規化に分けて解説します。

データ登録正規化仕様

入力された文字列(論文名,著者名等)について,データを書き換えて登録します。その際,以下のような正規化が行われます。

A. 1byteカナ (いわゆる半角カナ) → 2bytesカナ (いわゆる全角カナ)
B. 2bytesかな (いわゆる全角かな) → 2bytesカナ (いわゆる全角カナ)
C. 2bytes英数字 (いわゆる全角英数字) → 1bytes英数字 (いわゆる半角英数字)

正規化を行う項目,データは以下のとおりです。

種類 項目 A B C 備考
記事 論文名(日)
-
-
 
論文名よみ
-
 
論文名(英)
-
英数字以外の2bytes文字が入力されていた場合はそのまま登録
著者名(日)
-
-
 
著者名よみ
-
 
著者名(英)
-
英数字以外の2bytes文字が入力されていた場合はそのまま登録
著者所属(日)
-
-
 
著者所属(英)
-
英数字以外の2bytes文字が入力されていた場合はそのまま登録
抄録(和)
-
-
 
抄録(英)
-
英数字以外の2bytes文字が入力されていた場合はそのまま登録
キーワード(日)
-
-
 
キーワード(英)
-
英数字以外の2bytes文字が入力されていた場合はそのまま登録
表示順
-
-
 
巻号 年月次
-
-
 

また,検索時の漏れを防ぐため,表示される記事データとは別に,検索時の比較対象用のインデクスとして,以下の項目と正規化処理をしています。

A. 1byteカナ (いわゆる半角カナ) → 2bytesカナ (いわゆる全角カナ)
B. 2bytesかな (いわゆる全角かな) → 2bytesカナ (いわゆる全角カナ)
C. 2bytes数字 (いわゆる全角数字) → 1bytes数字 (いわゆる半角数字)
D. 2bytes英大文字 (いわゆる全角英大文字) → 1bytes英大文字 (いわゆる半角英大文字)
E. 2bytes英小文字 (いわゆる全角英小文字) → 1bytes英大文字 (いわゆる半角英大文字)
F. 1bytes英小文字 (いわゆる全角英小文字) → 1bytes英大文字 (いわゆる半角英大文字)

検索用インデクスの正規化を行う項目,データは以下のとおりです。

種類 項目 A B C D E F
巻号
雑誌 アクセション番号 - -

データ検索正規化仕様

検索漏れを防ぐために,検索キー投入時に正規化し,既登録の記事データの検索用インデクスと突き合わせて検索を実行します。
検索時,どの項目でも以下のような正規化を行ってから検索を実行しています。

・1byteカナ (いわゆる半角カナ) → 2bytesカナ (いわゆる全角カナ)
・2bytesかな (いわゆる全角かな) → 2bytesカナ (いわゆる全角カナ)
・2bytes数字 (いわゆる全角数字) → 1bytes数字 (いわゆる半角数字)
・2bytes英大文字 (いわゆる全角英大文字) → 1bytes英大文字 (いわゆる半角英大文字)
・2bytes英小文字 (いわゆる全角英小文字) → 1bytes英大文字 (いわゆる半角英大文字)
・1bytes英小文字 (いわゆる全角英小文字) → 1bytes英大文字 (いわゆる半角英大文字)


ページの先頭へ