Excel

データクレンジングに「パワークエリ」を使ってみよう

目次


  1. パワークエリとは
  2. 文字を整える
  3. まとめ

 

パワークエリは、「データクレンジング」に最適なツールです。大量のデータベースから、重複データを取り除いたり、異なるフォーマットを統一したり、一貫性のないデータをきれいに整えることができます。これにより、データが扱いやすくなり分析や集計の作業を大幅に効率化でき、結果の正確性も高めることができます。

定期的なデータ編集の業務に時間がかかって困っている…という方は「パワークエリ」をお勧めします!

 

★データクレンジングとは…データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを検出し、それらを削除、修正または正規化をすることでデータの品質を向上させることをいいます。

 

1.パワークエリとは

それでは、まずパワークエリとは何かを解説します。

パワークエリはETLツールの1つです。データ処理の一環で「Extract(抽出) Transform(変換) Load(取り込み)」の頭文字を集めた略号です。

「様々なところに散らばった情報を集めて、必要な形に整え、共通の場所(Excelブックの中)に取り込む」ということができます。

 

ETLで整えられたデータは以下のように多岐にわたる用途で活用することができます。

・ERP(基幹システム)など他のシステムへのインポート

・データのパターンやトレンドを分析し、ビジネスインサイトに利用

・ExcelやPower BIにインポートして視覚的にわかりやすいレポートの作成

・ピボットテーブルの作成      など

パワークエリはExcelのアドインとして提供されていましたが、現在はExcelに「データの取得と変換」として標準搭載されました。何かを別に購入する必要がないので、始めやすいのもいいですね。

Microsoftが開発したデータ処理ツールなので、ExcelやPower BIに利用できるのも魅力です。

 

2.文字を整える

パワークエリを使ってデータクレンジングするおおまかな流れは次のとおりです。

Power Queryを起動する

データを取り込む

データを整形する

整形したデータを取り込む

 

これがおおまかな流れです。

では、目的別に細かく操作方法を解説していきます。

 

先頭・末尾の余分な空白を取り除く

テキストの先頭や末尾に空白が1つ入っているだけでも、集計するときに同じデータとして扱われません。パワークエリを使って簡単に取り除いていきます。

 

まずは、データを取り込みます。
データタブ→データの取得と変換グループ→データの取得ファイルからExcelブックからをクリック。

ナビゲーターが表示されたら、整形したいシートを選択し、データの変換をクリック。

ExcelのデータがPower Queryエディターで開く。

空白を削除したい列の項目名部分をクリックし、変換タブ→テキストの列グループ→書式トリミングをクリック。

先頭・末尾の空白が除去されました。姓と名の間にある空白は残ります。

整えたデータをExcelに取り込むには、
ホームタブ→閉じるグループ→閉じて読み込むをクリック。

これで、Excelに戻り新しいシートに整形したデータが取り込まれます。

改行文字を取り除く

テキスト内の改行文字を取り除くこともできます。
改行を削除したい列の項目名部分をクリックし、変換タブ→テキストの列グループ→書式クリーンをクリック。

改行が削除され、1行での表示になりました。

アルファベットを整える

アルファベットを、大文字・小文字・各単語の先頭だけ大文字に整形することができます。
整えたい列の項目名部分をクリックし、変換タブ→テキストの列グループ→各単語の先頭文字を大文字にするをクリック。

各単語の先頭文字だけ大文字になりました。

文字位置で抽出

テキストデータの先頭3文字目まで、末尾から3文字分、または2文字目から2文字分といった文字の位置で切り出しをすることができます。
抽出したい項目名部分をクリックし、変換タブ→テキストの列グループにある抽出最初の文字をクリック。

先頭の1文字目だけ取り出したい場合は「1」と入力し、OKをクリック。

先頭の1文字が抽出されました。

※区切り記号を使用して、抽出することも可能です。
抽出したい項目名部分をクリックし、変換タブ→テキストの列グループにある抽出区切り記号の前のテキストをクリック。

ここでは「-(ハイフン)」より後ろの文字を取り出したいので、「-」を入力しOKをクリック。

「-(ハイフン)」より後ろの文字が抽出されます。

文字置換

特定の文字をまとめて置換することができます。
置換したい項目名部分をクリックし、変換タブ→任意の列グループにある値の置換値の置換をクリック。

ここでは「coffee」を「コーヒー」に置換する設定をして、OKをクリック。

「coffee」が「コーヒー」に置換されました。

3.まとめ

いかがでしたでしょうか。空白を削除したり、アルファベットを整えたり、抽出や置換を使えば、データのばらつきをすばやく整えることができました。データが整い、扱いやすくなります。
操作もそこまで難しいことではありませんので、比較的パソコンが初歩の方でも操作することができます。

今回は、データクレンジングに絞り、その機能をご紹介しましたが、他にも表の行列を整えたり、数字の計算をしたり、条件の追加や表の結合など、パワークエリは、データを様々に整形することができます。
パワークエリは、その使いやすさと多彩な機能から、幅広い用途に利用されています。まだ試していない方は、ぜひ一度お試しいただき、その利便性を実感してみてください。
東京パソコンアカデミーでも、教材を作成しましたら、またご案内させていただきます。

 

石田

関連コラム

お役立ちコラム一覧に戻る
#CONTACT

無料体験・資料請求の
お申し込み

お近くの教室で無料体験レッスンを受け付けております。
ぜひお気軽にお申し込みください。

#BUSINESS

東京パソコンアカデミーの法人向け研修

これまでの講師経験・派遣先での講習経験を活かして、
貴社の目的・依頼内容に沿った最適な講習を実施します。

法人向け研修はこちら