お役立ちコラム

Excel
2022/11/15

データクレンジングを効率的に!

目次


  1. データクレンジングとは?
  2. 不備があるデータ
  3. 全角文字・半角文字の混在を統一しよう
  4. 置換機能を使用してみよう
  5. まとめ

多くのシーンで使用するExcelで作成したデータベース。こちらを使用して、並べ替えや抽出、ピボットテーブル、集計など、みなさんも身近に使用する機会が多いのではないでしょうか?ですが、意外と意図した結果が表示されずそこで作業が中断してしまい、思ったように作業が進まないなんてこともあるかと思います。そこで今回は、その前段階として扱いやすいデータに整えていくデータクレンジングと言われる作業について、実際によく使用する置換機能についても操作を確認していきたいと思います。

 

1.データクレンジングとは?

近年、様々なシーンにおいてデータの有効的な活用が求められるようになってきました。また、マーケティングではデータ分析の重要性も広く浸透してきましたが、それ以前に重要なこととしてデータの整理があります。データクレンジングといい、データの中から重複や誤記、表記ゆれなどに対して修正・編集・補正等を行いデータの品質を高めていく工程のことです。分析や業務に適したデータに修正することにより、データベース内のデータが整理・標準化されてスムーズに活用することができるようになります。

 

2.不備があるデータ

【一例として下記のようなものがあげられます】

データの混在:全角文字・半角文字・空白文字・区切り記号

表記の揺れ:法人名の表記(株式会社・(株)の違い等)

データの欠損:アンケートで収集したデータで未記入項目がある

データの重複:同一顧客データの複数登録

データのノイズ:関係ない不要なデータ

データの粒度:月毎と日毎など単位が異なるデータが混在している

データの一貫性:不整合がないか

 

これらを一定の基準となる表記ルールをそれぞれに決めて修正・削除・追加などを行なっていきます。

 

扱うデータが大きなものから小さなものまで、どのデータベースにおいてもこの作業はとても重要になります。Excelにおいてもデータ分析などで使用することもありますので今回はExcelで作成したデータベースをより扱いやすくするための方法としてよく使用するパターンを見ていきたいと思います。

 

3.全角文字・半角文字の混在を統一しよう

データの中によくあるのが全角文字と半角文字の混在です。入力する人によってまちまちになりがちで、ぱっと見すぐに全角文字なのか半角文字なのか判断に迷う場合があります。

中でも代表的なものとして、半角のカッコと全角のカッコが挙げられます。英数字、記号やカタカナにも全角文字と半角文字があります。内容は同じでも全角と半角で異なった表記になると結果を求める時に意図した結果がでてきません。このような場合、一つ一つの修正では非常に時間がかかりますので、置換機能を使って一括で全角から半角、半角から全角に変換してあげると非常に効率的です。

 

4.置換機能を使用してみよう

では、顧客名のフィールドに入力されているデータを見てみましょう。

それぞれ『(株)』と『(株)』で入力されており、半角のカッコと全角のカッコが混在しています。それではこの『(株)』に使用されている半角カッコを全角カッコに置換してみましょう。

 

『置換』機能は対象がシートやブック全体になります。ですが、対象範囲を選択しておくとその部分だけが置換の対象になります。今回は顧客名の入っているフィールドのみを対象としたいので、まず対象となる顧客名フィールドのセル範囲を選択します。レコード数が多い場合は列を選択します。

 

つづいて、『ホーム』タブ『編集』グループの中にある『検索と選択』から『置換』を選択します。

 

 

『検索と置換』ダイアログボックスが表示されるので『置換』タブになっていることを確認したら、『検索する文字列』に統一する前の半角カッコの『(株)』を入力。『置換後の文字列』に統一したい全角カッコの『(株)』を入力します。最後に『すべて置換』をクリック。

 

 

すると、選択範囲にある半角カッコの『(株)』が全角に変更されました。

 

 

置換が完了したメッセージが表示され顧客名フィールド内の半角カッコの『(株)』が全角カッコの『(株)』に置き換えられました。

 

5.まとめ

同じ内容でも半角と全角でそれぞれ入力されていると別の項目として扱われてしまいますので、このように統一が必要になってきます。今回はカッコの置き換えを行いましたが、他にも半角のカタカナと全角のカタカナ、同じ意味なのに違う表現などにもこの置換機能を使用することができます。特に数多くのデータを扱う際はこれらの作業が重要になってきます。意図した結果が出せるように下準備としてまずは確認してみてください。それから、入力後に表記を変更したい時にも効率よく置き換えることができますのでぜひ使用して効率アップを目指してください。

 

この記事の著者:野元 由紀

関連コラム

コラム一覧

Copyright © 2019 by KOHGAKUSHA Co. Ltd All rights reserved.