Best Practices for Combining Data from Multiple Excel Files

Goodly

26 Jun 202415:36

Summary

TLDRこのビデオでは、複数のExcelファイルからデータを統合する際のベストプラクティスが紹介されています。まず、ファイルをSharePointに保存することで、動的でインクリメンタルな更新が可能になります。また、CSV形式はExcel形式よりも処理が高速です。次に、フォルダ内のファイルのみを処理する方法や、フィルタリングを先に行い、その後に変換を行うことで処理を最適化する方法が説明されます。さらに、無駄なステップを統合して効率化し、不要な列やデータ粒度を削除することで、クエリやモデルのパフォーマンスを向上させるテクニックが強調されています。

Takeaways

📁 SharePointにファイルを保存することで、動的な更新やインクリメンタル更新が可能になる。
🚀 CSVファイルはExcelファイルよりも軽量で、処理速度が速い。
🗂 folder.files関数の代わりにfolder.contents関数を使用することで、フォルダ内のデータのみを取得し、処理速度を向上させる。
🔍 フィルタを先に適用してから変換を行うと、処理が高速化する。
📝 ネイティブ関数引数を使ってクエリ内で直接列の名前を変更することで、余分なステップを省くことができる。
🔄 ステップをバッチ処理してマージすることで、クエリの冗長性を減らし、処理を最適化できる。
⚡ クエリ内で不要なグレインや列を削除することで、モデルのパフォーマンスが向上する。
🧑‍💻 M言語を学ぶことで、より高度で効率的なクエリ作成が可能になる。
🔗 SharePointとPowerBIを連携することで、データ更新の自動化が容易になる。
📊 月次レベルの質問に対応するためには、トランザクションデータを集約してモデルの容量を最適化する必要がある。

Q & A

ファイルをSharePointに保存する利点は何ですか？
-ファイルをSharePointに保存すると、リフレッシュが動的になり、インクリメンタルリフレッシュが可能になります。ローカルドライブに保存する場合はリフレッシュが速くなることがありますが、コンピュータの電源が必要だったり、ゲートウェイのインストールが必要になります。
CSVファイルはExcelファイルよりも優れている理由は何ですか？
-CSVファイルはExcelファイルに比べてファイルサイズが小さく、リフレッシュ時の処理速度が速いです。構造がシンプルなため、特に大量のデータを扱う場合、Excelよりも高速に処理が進みます。
Power Queryでfolder.filesとfolder.contentsの違いは何ですか？
-folder.filesは指定したフォルダー内とそのサブフォルダー内のすべてのファイルを取得しますが、folder.contentsは指定したフォルダー内のファイルのみを取得し、サブフォルダーは含まれません。folder.contentsを使用すると、余計なデータの読み込みが減り、処理速度が向上します。
「フィルタを先に適用してから変換する」理由は何ですか？
-フィルタを適用してデータを短縮した後に変換を行うことで、データ量が減り、処理速度が大幅に向上します。全データに対して変換を行った後にフィルタを適用するよりも効率的です。
ネイティブ関数引数を使用するメリットは何ですか？
-ネイティブ関数引数を使うことで、クエリに新しいステップを追加せずに変換や列のリネームなどの操作を一度に行うことができます。これにより、クエリがシンプルになり、処理が高速化します。
「バッチ処理とステップの統合」を行うべき理由は何ですか？
-クエリの中で冗長なステップがあると、クエリの実行速度が遅くなります。ステップをまとめて一度に処理することで、クエリのパフォーマンスが向上し、不要なステップを減らすことができます。
クエリを高速化するために冗長なステップを削減する方法は？
-クエリの全体が完成したら、各ステップを批判的に見直し、可能な限りステップを一つにまとめます。冗長なステップや同じ操作を何度も繰り返さないようにすることで、クエリの速度を上げることができます。
Power Queryで「粒度を減らす」ことの利点は何ですか？
-粒度を減らす、つまりデータの詳細度を必要なレベルにまで簡略化することで、データの行数が減り、モデルの処理能力と速度が向上します。例えば、月単位での集計が必要な場合、日単位の詳細なデータは不要となるため、簡略化することでモデルの負担が軽減されます。
データモデルのパフォーマンスを向上させるためにはどのような工夫が必要ですか？
-データの粒度を適切に設定し、不要な列を削除することが重要です。データが軽量化されることで、モデルのパフォーマンスが向上し、クエリの処理速度も速くなります。
M言語を学ぶことの利点は何ですか？
-M言語を学ぶことで、Power Query内でのクエリ操作を効率的に行うことができ、より複雑でダイナミックなクエリを作成できるようになります。また、クエリのステップを減らし、ネイティブ関数を活用することで、処理速度が大幅に向上します。