[SK TECH SUMMIT 2023] LLM 적용 방법인 RAG VS PEFT, Domain 적용 승자는?

SK TECH SUMMIT

11 Dec 202323:41

Summary

TLDRこのスクリプトはSKブロードバンドのAI開発とデータ分析に関する技術的なプレゼンテーションです。AI分野における最近の進展を紹介し、特に言語モデル（LLM）の開発と実装に焦点を当てています。語り手である金彦石は、Proof of Concept（PoC）を通じて得られた経験を共有し、モデルのトレーニング、データの準備、および実際の問題解決方法について詳述しています。また、モデルのパフォーマンスと課題、そして最適なデータセットの構築方法についても触れています。

Takeaways

😀 스크립트는 SK 브로드밴드 aidt 테크 팀의 김연석씨가 L&M 도메인 적용 방법에 대해 발표한 내용을 담고 있습니다.
🔍 발표는 LLM(Large Language Model)의 배경과 사내 적용 시 고려해야 할 챌린지 포인트에 대해 설명합니다.
🛠️ POC(Proof of Concept) 진행 중 발견된 문제점들을 제시하며, 이를 극복하기 위한 방법에 대해 논의합니다.
📈 데이터 증강과 모델 훈련에 대한 경험을 공유하며, 이를 통해 모델 성능 향상에 대한 영향을 분석합니다.
🤖 프롬프트 기반의 튜닝 기법과 검색 기반의 레그 기법을 중심으로 한 POC 검증 방법을 소개합니다.
🔧 프롭트(PFT)와 레그(LEG) 아키텍처의 장단점에 대해 비교 분석하며, 이들의 조합이 성능 향상에 어떻게 기여하는지 논의합니다.
📊 실험 결과를 바탕으로 데이터셋 크기, 모델 크기, 훈련 에폭 등이 모델 성능에 어떤 영향을 미치는지에 대한 통찰력을 제공합니다.
📝 정성적 평가 방법을 제시하며, 이를 통해 모델의 답변 품질을 평가하고 개선할 부분을 찾아냅니다.
🌐 보안 및 운영 문제에 대한 고려사항을 다루고, 이를 해결하기 위한 전략을 제안합니다.
💰 비용 문제와 관련된 사용량에 따른 비용 증가 구조에 대해 언급하며, 이를 고려한 비즈니스 모델을探求中입니다.
🚀 발표자는 향후 더 큰 모델 사용과 데이터 품질 개선, 프롬프트 엔지니어링 등을 통한 성능 향상을 계획하고 있습니다.

Q & A

SKブロードバンドaidtテクノロジーチームの代表者は誰ですか？
-SKブロードバンドaidtテクノロジーチームの代表者は金妍錫（キム・ヨンセク）です。
L&Mドメインを適用する方法として、どのような技術が説明されていますか？
-L&Mドメインを適用する方法として、Fine-tuning（ファインチューニング）とRetrieval（レトリーブ）という2つの技術が説明されています。
ファインチューニングとはどのようなプロセスですか？
-ファインチューニングは、既存の大きな言語モデル（LLM）に対して、特定のドメインに合わせたデータを使って更に学習させるプロセスです。
レトリーブアーキテクチャとは何ですか？
-レトリーブアーキテクチャは、ユーザーの質問に最も適合する情報を検索し、それを基に回答を生成するプロセスです。
Poc（Proof of Concept）とは何を意味しますか？
-Poc（Proof of Concept）とは、あるアイデアや技術が実際に機能することを証明するために、小規模なプロジェクトやデモンストレーションを行うことを指します。
AIモデルのトレーニングにかかるコストはどのくらいですか？
-AIモデルのトレーニングにかかるコストは、モデルのサイズやトレーニングに使用するデータの量、インフラの構成などによって異なりますが、通常は非常に高額です。
モデルのパラメータ数が大きい場合、ファインチューニングを行う際の課題は何ですか？
-モデルのパラメータ数が大きい場合、ファインチューニングを行う際の課題は、データの量が十分に必要で、学習コストやインフラの要求が高くなることです。
データ増強とはどのような技術ですか？
-データ増強は、既存のデータセットに対して加工や変形を加えることで、新しいデータを作成し、モデルの学習に使用する技術です。
モデルのパフォーマンスを評価する際に使用される指標は何ですか？
-モデルのパフォーマンスを評価する際に使用される指標には、ロス値の低下、正答率、回答の完結性や正確度などがあります。
レギュラーアーキテクチャとファインチューニングを組み合わせることで得られる利点は何ですか？
-レギュラーアーキテクチャとファインチューニングを組み合わせることで、最新のデータの活用が容易で、ドメイン特化の回答が生成されるため、回答の品質が向上することが期待できます。
このスクリプトで説明されている実験の目的は何ですか？
-このスクリプトで説明されている実験の目的は、ファインチューニングとレギュラーアーキテクチャを組み合わせた場合のパフォーマンスを評価し、モデルの適用可能性を検証することです。