【ひろゆき】今まで知らなかったデータサイエンティスト※まるで落穂拾い…【切り抜き】

ひろゆきメンタル相談室
6 Sept 202103:31

Summary

TLDRこのビデオスクリプトでは、データサイエンティストになるための3つの主要な要素、すなわちデータサイエンスのスキル(数学や統計学)、ビジネススキル、そして時代とともに変化する技術力について語られています。さらに、ビジネススキルの重要性が議論され、一部の人々はそれが必要不可欠だと考えている一方で、他の人々は技術力だけがあれば十分だと考えています。また、データサイエンスの現実についても触れられており、実際にはデータの前処理やエラーの修正など、予想外の課題が多いことが語られています。このスクリプトは、データサイエンティストとしてのキャリアに興味がある人々に向けた、実践的なアドバイスと洞察を提供します。

Takeaways

  • 😊 データの正規化とクレンジングはデータサイエンティストにとって非常に重要
  • 😞 実際のデータは思った通りの形ではないことが多い
  • 🤔 データのエラーや不整合性を手動で修正する必要がある
  • 😮 ビジネススキルは自分で会社を立ち上げる場合に最も必要
  • 😀 営業とエンジニアの良好な連携があれば、データサイエンティストはビジネススキルを必要としない
  • 🤨 データ分析だけでなく、データ前処理が大変な仕事
  • 🧐 データをコンピュータで読み取りやすい形にする作業が肉体労働のようだ
  • 😓 データの問題を見つけて修正することが、データサイエンティストの大切な仕事
  • 😊 データを適切な形に整えるスキルが必要
  • 💪 データ前処理の仕事に頑張ることが、データサイエンティストになる第一歩だ

Q & A

  • データサイエンティストに求められる3つの要素とは何ですか?

    -データサイエンス力(数学や統計)、ビジネス力、時代力の3つが重要だとされています。

  • ビジネス力を鍛えることはなぜ難しいと思われているのでしょうか?

    -データサイエンティスト自身がビジネスを立ち上げ提案書を作成することは稀で、ほとんどの場合は営業部門と協力して業務を行うため、自らビジネス力を鍛えることは難しいと考えられているからです。

  • データの正規化とは何のことを指しますか?

    -コンピュータがデータを読み込みやすい形に整形する作業のことを指します。文字コードの統一や、データの形式の揃える作業などが含まれます。

  • 実際のデータサイエンティストの仕事では、予想外のデータの問題が多い理由は何でしょうか?

    -元データに様々なミスが含まれていることが多く、名前・住所・性別などの情報が不正確だったり、符号や文字化けなどの問題が多発するためです。

  • データのクレンジングで発生する典型的な問題の例を教えてください。

    -住所と電話番号が入れ替わっている、名前の表記揺れ、性別が逆にされている、文字コードが混在しているなどの問題が発生します。

  • なぜデータサイエンティストの仕事は大変とされるのでしょうか?

    -プログラムを組む作業以上に、元データのクレンジングやエラー修正に多くの手間がかかるため、思い通りには仕事が進まないことが多いからです。

  • データを解析する以前の段階で、データサイエンティストに求められる作業とは何でしょうか?

    -元データの精査と、コンピュータが読み取れるよう適切に整形する作業(クレンジング、正規化など)が重要なステップです。

  • データ分析で失敗する代表的な原因は何でしょうか?

    -元データ自体に様々な問題が内在していたり、前処理が不十分だったために、適切な分析ができないことが多いです。

  • データサイエンティストに求められる資質やスキルを教えてください。

    -統計分析力やプログラミング力に加え、データ理解力、論理的思考力、根気強さと忍耐力が必要とされます。ビジネス感覚もある程度求められます。

  • データ分析で成功するポイントを教えてください。

    -適切な元データの選定と前処理、的確な分析手法の選択、結果の考察と解釈が重要です。過度に複雑な分析を行うのではなく、ビジネス目的に照らし合わせ最適な手法を選ぶことが肝心です。

Outlines

00:00

😊データサイエンティストに必要な3つの要素とは

データサイエンティストに必要な3つの要素はデータサイエンス力、ビジネス力、時代力であるとされる。データサイエンス力は統計や数学などのスキルで、ビジネス力を身につけるのは難しい。会社によっては営業とエンジニアの2つのチームに分かれており、営業力のある人がいればエンジニアはビジネス力がなくても良い。データ整形といった肉体労働的な作業も多く、思い通りにはいかないが頑張れば高給取りになれる。

Mindmap

Keywords

💡データサイエンティスト

データサイエンティストとは、大量のデータから有益な情報を抽出し、分析・解釈してビジネスや科学技術などさまざまな分野での意思決定を支援する専門家を指します。このスクリプトでは、データサイエンティストに求められるスキルや、そのキャリア形成について議論されています。

💡データサイエンス力

データサイエンス力は、数学や統計学などの理論を応用してデータを分析し、洞察を得る能力を指します。このスクリプトでは、データサイエンティストに必要な3つの構成要素の一つとして挙げられており、その重要性が強調されています。

💡ビジネス力

ビジネス力とは、データ分析結果をビジネスの意思決定や戦略に活かすための能力を指します。このスクリプトでは、データサイエンティストにとってのビジネス力の重要性が議論されており、その難しさや必要性についても触れられています。

💡資格

このコンテキストでの「資格」とは、データサイエンティストとしての専門性や技能を証明するための公式な認定を指します。スクリプトでは、データサイエンティストの資格を持つことの価値やその認識について言及されています。

💡営業力

営業力とは、製品やサービスを顧客に効果的に提案し、販売する能力を指します。スクリプトでは、営業力とビジネス力が異なる能力として議論され、データサイエンティストにとってのその重要性が問われています。

💡エンジニア

エンジニアとは、技術的な専門知識を用いて問題を解決する専門職を指します。このスクリプトでは、データサイエンティストとエンジニアの役割の違いや、それぞれのチーム内での役割について言及されています。

💡提案書

提案書とは、ビジネスのコンテキストで、ある提案やプランを説明し、相手に承諾を求めるための文書を指します。スクリプトでは、データサイエンティストがデータ分析の結果を基に提案書を作成するシナリオが示されています。

💡正規化

正規化とは、データを一定の形式に整理し、分析しやすくするプロセスを指します。スクリプトでは、データサイエンスの作業の一環として、データを正規化する作業の重要性が語られています。

💡文字化け

文字化けとは、コンピューター上で文字データが正しく表示または処理されない現象を指します。スクリプトでは、データの中に異なる言語が混在していることによる文字化けの問題が挙げられています。

💡エラー

エラーとは、プログラムやシステムが期待された動作をしない状態を指します。このスクリプトでは、データ分析中に発生するエラーを特定し、解決する過程が述べられており、データサイエンティストの作業の一部として描かれています。

Highlights

データサイエンティストの資格を持っている人も、ビジネス力を鍛えるのは難しいと思っている

営業力のある人がいれば、データサイエンティストはビジネス力がいらない

データサイエンスの実際の作業は、データの清掃と正規化が大変な肉体労働的な部分だと感じる

思い通りの美しいデータはめったにない。予想外の文字化けや形式のデータが解析を困難にすることがある

データの細かい清掃とエラー修正こそが、データサイエンティストの大事な仕事である

Transcripts

play00:02

国立大学が価格家引率からデータ

play00:05

サイエンティストにキャリア時にしたも

play00:06

ですデータサイエンティストの3つの構成

play00:08

要素はデータサイエンス力カッコ数学や

play00:09

統計にゃくビジネス力であると言われます

play00:11

がデータサイエンティストの資格を持っ

play00:13

てる行くさんもこの考え方は正しいと思い

play00:15

ますがまたこの考え方でビジネス力を

play00:18

鍛えるのはなかなか難しいなと思ってるん

play00:19

ですがどの行きたいと言うでしょうかまた

play00:20

他に大事な要素がありますか別にビジネス

play00:22

力なんかいらねぇんじゃねって思います

play00:24

けどあのまあ普通の会社ってその営業して

play00:28

くれる人とそのエンジニアっている2

play00:30

チームに分かれているので

play00:31

なのであのちゃんとその営業力のある人が

play00:34

いれば別にビジネス力いらないと思うよの

play00:36

自分自身で会社をつくってそのうちじゃあ

play00:39

こういうあの数字いじってこんな系片瀬

play00:41

ますよーみたいな提案書をつくって提案

play00:43

するとかであればビジネス力はいると思う

play00:44

けど

play00:46

もう素直に

play00:47

園児に歩くさえあればなんとかなるんじゃ

play00:49

ないかなと思ってますけどまぁそのデータ

play00:51

サイエンス力と揃える時代力が何で別れ

play00:54

てるのかわかんですけど

play00:56

ただあの結局その中の騎乗のデータ

play00:59

サイエンスで言われるような作業って

play01:01

そんなにそのあの様はのデータがあります

play01:05

これをうまくなんかあのをいじってみて

play01:07

いい結果を出す形の中の結論を出しが咲い

play01:10

ていうんっていうのがまあのその騎乗では

play01:12

やるんですけど実際問題あの使わなきゃ

play01:15

いけないデータっていうのがそのきれいに

play01:18

機械が読み込めるような状態になってない

play01:20

ことが多いですよねなので結局その正規化

play01:23

といわれるその中データをキレイにして

play01:25

コンピューターが読みやすくする詐欺よっ

play01:27

ていう割とその中の肉体労働と言うかその

play01:31

中おちボビロイに近いような

play01:33

そのままのといえば本提案まあ出版する

play01:36

ときにその後誤字脱字いう一生懸命探す

play01:38

構成さんという仕事があるんだけどって

play01:40

いう感じでそのデータサイエンティスト

play01:41

ですなんかもういろいろな南土塁跡を買っ

play01:44

てそのエンジニアとしてすごい頑張り

play01:47

マースダメ着衣でもらえますみたいな話な

play01:49

んですけど実際問題やってみるとってその

play01:51

必要なデータの中でやこのデータ使えねー

play01:54

だろっていうのを弾くみたいな作業だった

play01:55

んですよ

play01:57

例えばその全部英語だと思ってたらその中

play01:59

に一人だけ中国人が混じってたせいでその

play02:02

文字コードを中国語で認識しまってその

play02:06

文字化け大量に起こるとかだったら全部

play02:09

英語だと思ってたら実はその中に何か

play02:11

ドイツ人が混じっててなんか変な希望が

play02:13

入っちゃってその記号のせいでその中の

play02:16

カンマが読み込めなくなっちゃってなんか

play02:18

データが壊れちゃうみたいななんかの予想

play02:20

しないことって結構あったりそうですよね

play02:22

いやあの普通にじゃあの住所名前電話番号

play02:24

って書いてあると思ったらその住所の欄と

play02:27

でアン番号を間違えて書いちゃった人がい

play02:29

てその中住所としてこう取り扱っていたら

play02:32

なぜか数字だけど謎の住所が出てきて

play02:34

いやいやこれレイヤー1号だったみたいな

play02:36

来てで入れ替えるみたいなでその名前の

play02:38

フリガナだがないとか名前と苗字客にし

play02:41

てるとかなんか男女の性別逆にしてるとか

play02:44

その中だか最近のオシャレ整備済みたので

play02:46

なんか男女答えたくないみたいなことに

play02:50

なってそのそもそもデータとして生物に

play02:52

応えたくないは男として扱うのか女として

play02:54

扱ったが決まってなくてなんか不思議な

play02:56

結果になっちゃったみたいなっていうのが

play02:58

やったらいっぱいあるせよどんな勝手なの

play03:00

であの結局の中あのプログラムを組んで

play03:03

物事をうまく行くよねっていうのだと思っ

play03:05

たらその前のデータをひたすら見て声

play03:08

エラーが出たからこのエラーが出てこの

play03:09

データが間違ってるから子データを治す

play03:11

みたいなっていうあの細かい作業が多いの

play03:13

でなかなかの思い通りにこう簡単な感じに

play03:16

はならないんで高級もらえると思います

play03:18

けど頑張ってください

play03:28

[音楽]

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?