Learning Data Analytics – my journey
Chia sẻ kinh nghiệm học Data Science & Business Analytics
Tháng 12 năm ngoái tôi đã hoàn thành khóa học Post Graduate – Data Science & Business Analytics trong 6 tháng học và làm project miệt mài. Đó là một hành trình với rất nhiều vất vả và khó khăn nhưng lại rất đáng đồng tiền bát gạo mỗi khi nhìn lại.
Trong bài post hôm nay, tôi muốn chia sẻ và lưu lại kinh nghiệm & hành trình của mình khi muốn dấn thân “nâng cấp” bản thân mình trong mảng Data analytics, hy vọng có thể giúp ích hoặc truyền cảm hứng cho ai đó ít nhiều.
Background của tôi
Tôi xuất thân từ dân kinh tế, làm ngân hàng, tài chính, tư vấn (chiến lược và M&A), có nghĩa là hoàn toàn không dính dáng gì đến khối A hay có kinh nghiệm coding.
Thời của tôi ai ai cũng đi làm ngân hàng, chứng khoán, tư vấn M&A. Giờ thì M&A vẫn còn hot, chứng khoán bớt nhiệt và ngân hàng thì không còn là cái đích của nhiều bạn trẻ. Mảng tư vấn vẫn là một mảng khá niche và kén người.
Như tôi có nói trong một post trước, đầu tư vào kĩ năng là cách đầu tư đúng đắn nhất làm tăng vốn con người của chúng ta. Khi tôi qua sinh sống và làm việc ở Canada và cũng đã có vài năm kinh nghiệm làm trong mảng tư vấn , tôi có cơ hội làm việc trong một dự án mà ở đó, chúng tôi phải làm việc với team Data Analytics để trả lời cho khách hàng hai câu đơn giản (trong một bối cảnh xây dựng chiến lược lớn hơn mà ko liên quan nên tôi không trình bày ở đây) :
1- Là một công ty sản xuất office furniture và mới mở một cửa hàng tại Toronto và khá thành công , họ nên mở cửa hàng thứ 2 ở đâu trên Canada?
2- Công ty nên chọn địa điểm nào tại Mỹ để xây dựng một Warehouse? và tại sao?
Thông thường, theo cách truyền thống, (nếu không có sự giúp đỡ của tư vấn), các business owner sẽ có một team đi khám phá thị trường và “ scouting” địa điểm cửa hàng mới dựa theo một số tiêu chí. Tuy nhiên, để chọn thành phố nào trong hàng chục ngàn thành phố tại mỹ để cân nhắc mở nhà xưởng mới thì thật không dễ mà đi chọn theo cách thông thường., trong trường hợp này, chúng tôi muốn sử dụng data để tạo ra data-driven recommendation, dựa theo các dữ liệu kinh tế tài chính, theo phương pháp analytical nhất có thể.
Data Scientist của team chúng tôi phải thu thập dữ liệu từ rất nhiều nguồn và connect tạo thành một bộ dữ liệu tổng hợp về cả Canada và Mỹ. Sau đó, chúng tôi phải cân nhắc các tiêu chí và xây dựng model để prioritize địa điểm nào hợp lý nhất để xây cửa hàng và nhà xưởng. Hai câu hỏi có 2 bộ tiêu chí hoàn toàn khác hẳn nhau.
Đó là lần đầu tiên tôi nhìn thấy ứng dụng của Data Science vào việc giải quyết bài toán trong business nói chung, chiến lược và vận hành nói riêng, và bắt đầu thấy hứng thú từ đó
Data Science & Data Analytics là gì?
Do Data Analytics/Data Science là một mảng khá mới nhưng phát triển rất nhanh, nên có nhiều định nghĩa / buzzwords và cách hiểu khác nhau. Tuy nhiên vẫn có một cách hiểu khá chung về 2 khái niệm này:
Một cách chung nhất, Data Science là một umbrella term rộng lớn bao hàm cả Data Analytics
Data Analytics: có thể hiểu gồm Descriptive Analytics, Predictive Analytics và Prescriptive analytics. Cũng có nguồn định nghĩa Data Analytics là xử lý phân tích dữ liệu quá khứ và chắt lọc các “insights”
Data Science: tập trung nhiều hơn vào máy học “machine learning”, lập mô hình dự đoán trong tương lai. Data Science là một liên ngành trong đó bao gồm việc phát triển các thuật toán, suy luận từ dữ liệu, lập mô hình dự đoán, để xử lý các các hỏi trong các lĩnh vực, từ kinh doanh, y tế, dân số…mọi thứ có liên quan đến data. Nguồn
Tôi cũng đã trình bày kỹ hơn về DATA ANALYTICS – BUSINESS ANALYTICS khác nhau như thế nào? tại một post khác các bạn có thể đọc thêm
Tiềm năng của ngành Data Analytics?
Ngành Data Analytics/Data Science đang rất bùng nổ ở các nước phát triển và ở Việt Nam hiện nhu cầu cho ngành này cũng nhiều, nhưng phần cung thì hiếm và ít. Lý do là các công ty đã nhận ra mình đang có một mỏ vàng dữ liệu, không khai thác thì đúng là lãng phí. Mặc khác cùng với sự phát triển của công nghệ, ngày càng có nhiều data point của customer trong customer journey và của business để từ đó hiểu thêm về “huyết mạch” của công ty. Numbers don’t lie.
Mặc dù các công ty có thể tuyển nhiều title khác nhau, nhưng về cơ bản có hai loại công việc chính:
Data Analyst: chuyên viên phân tích dữ liệu, ứng với mảng Data Analytics như đã nói ở trên, công việc chính là extract dữ liệu từ database, transform, analyze và rút ra insights, sau đó trình bày kết quả với các phòng ban hoặc với lãnh đạo công ty để giúp công ty quyết định hương đi tiếp theo, hoặc chỉ đơn giản là theo dõi tình hình hoạt động (doanh thu, chi phí, KPI của bộ máy vận hành…)
Data Scientist: đòi hỏi nhiều chuyên môn và kiến thức toán / statistic hơn Data Analyst. Data Scientist thường tìm các pattern và xu hướng trong một dataset rất lớn để ra được insights, phát triển/ xây dựng các model để dự đoán các biến số ( giá bán, giá nhà, A/B testing, đánh giá khả năng vay nợ..)
Theo đánh giá của một số nguồn, thị trường lao động cho mảng data analytics trị giá 231 tỷ đô năm 2021 , tăng 10.6% so với năm 2020 và dự đoán sẽ tăng 13.2% mỗi năm đến năm 2028. Lời khuyên của tôi là nếu bạn đang cân nhắc thì ngành mới này rất nhiều tiềm năng và công việc sẽ bùng nổ ở Việt Nam trong vài năm tới, khi cung ít hơn cầu thì bạn sẽ có lợi thế cạnh tranh rất cao trong thị trường lao động. Mà không chỉ tại Việt Nam, tại Mỹ và Canada tiềm năng ngành này cũng rất lớn!
Học thêm về Data Analytics/DS ở đâu?
Các bạn có thể tìm học các khóa học từ cơ bản đến trung cấp đủ các loại skills qua các platform từ free đến có tính phí, tôi lấy ví dụ một số platform tôi biết :
-DataCamp
–DataQuest ($15 giảm giá khi đăng ký với link này – mình đang học và thực hành thêm về Data Science ở đây)
-365DataScience
-Kaggle
–Skillshare (Bạn có 1 tháng dùng thử miễn phí khi đăng ký với link này)
-Coursera
-Udemy
-EDX (có micro master rất thú vị)
Mỗi platform lại có một ưu nhược điểm khác nhau, tôi sẽ review trong một bài khác nhé. Với cá nhân tôi, sau khi trải qua nhiều khóa học tôi nhận thấy nói chung các khóa học self-paced tương đối dễ và thiên về lý thuyết (cụ thể là Coursera), ít phần thực hành và không đủ sâu. Tôi muốn một khóa học khắc phục được nhược điểm này.
Tiêu chí chọn khóa học?
Khi bạn bắt đầu đi tìm một chương trình học, có rất nhiều lựa chọn bày ra cho bạn, từ các thể loại degree đến certificate. Bạn có thể học master, college diploma (1-2 năm), Post graduate program, short course certificate…
Đối với tôi, do tôi không có nhu cầu đầu tư 1-2 năm thời gian vào một cái bằng master degree hoặc diploma, tôi chỉ muốn tìm hiểu và học nhiều về cách ứng dụng các thuật toán để làm predictive analytics (vì đây là cái tôi thấy hứng thú nhất), tôi nhắm tìm vào các khóa trên các platform kia, cũng như xem qua các quảng cáo hiện trên FB của tôi về các program của các trường nổi tiếng.
Tôi đọc rất kỹ về curriculum của họ xem case study là gì, có thú vị không? họ dạy tool gì? trường có danh tiếng không? chi phí có hợp lý không? Học theo kiểu cưỡi ngựa xem hoa hay học thật sự? Tôi nói về cưỡi ngựa xem hoa có nghĩa lfa có một số chương trinh học 2-3 tháng, mỗi tuần đòi hỏi 4-6 tiếng và cách dạy của họ mang tính lý thuyết nhiều hơn, những khóa học đó tôi không có hứng thú vì thấy hơi phí tiền (chi phí các khóa học này là 2.5-3k/ 3 tháng), nếu chỉ muốn cái certificate của mấy trường danh tiếng thì các bạn có thể cân nhắc. Chắc chắn là có cái hay trong các khóa học này, nhưng đó ko phải cái tôi cần.
Sau một thời gian bạn sẽ có mường tượng được công cụ/software/tool nào và kiểu học nào phù hợp với mình.
Tips của tôi là thường các khóa học có chữ Data Science thường sẽ nặng hơn về số, toán, có cả coding, nhưng với Business Analytics thì tập trung vào phân tích dữ liệu bằng các tools BI nhiều hơn, chương trình học không nặng lắm về technical như Data Science
Tại sao tôi chọn khóa học Post Graduate Program – Data Science and Business Analytics (PGDSBA)?
Quả thật tôi không nhớ vì sao mình biết tới khóa học này, có lẽ là do tôigoogle nên khóa học hiện ra. Có mấy lý do chính mà tôicân nhắc kỹ trước khi nộp tiền học :
-Khóa học tập trung nhiều vào Predictive Analytics (là cái tôi quan tâm)
-Có rất nhiều case study hay và thực tiễn, đọc problem statement là đã thấy thích và tò mò. Nếu có khó khăn thì có thể raise request hoặc chat với Mentor để hỏi thêm
-Cách dạy hybrid: Khóa học kết hợp cả self paced và live mentor session, best of both world, phù hợp với người đi làm và vẫn cần người hướng dẫn trực tiếp khi cần. Mình học bài mới qua pre recorded videos, sau đó làm quiz của mỗi tuần và cuối tuần sẽ có live mentor session giảng dạy lại các concept đã học và walk through một case study.
–Reviews của các sinh viên đã học hầu hết đều là positive (nhưng nhiều người kêu nặng và khó) và best program out there (mình đọc rất rất kỹ các reviews)
-Trường đại học Texas tại Austin có rank rất tốt và nổi tiếng.
–Chi phí hợp lý so với các khóa học khác mình đã xem và tham khảo.
-Sau khi học mình còn được support interview với mentor, sửa CV .
Cái tôi lo nhất đó là mình không biết tí gì về python, học một thứ mới toe và gấp rút để làm được các project liệu mình có làm nổi không? Tôi cân nhắc mãi rồi cứ đánh liều, nghĩ là thôi đóng tiền instalment mỗi tháng, nếu thấy khó quá thì nghỉ =))
Vậy là tôi đăng ký học.
Tôi bắt đầu học từ tháng 4 đến cuối tháng 12 thì kết thúc phần Data Science, Trong đó có 7 project lớn cần phải submit để chấm điểm. Sau khi học xong DS, các bạn sẽ được access khóa học Business Analytics để tự học. Các module của phần Business Analytics như sau (hoàn toàn self-paced)
Đây là giảng viên chính của khóa học, toàn là các giáo sư tốt nghiệp / đang dạy từ các trường ĐH lớn của mỹ
Curriculum – chương trình học – bạn sẽ học gì?
Phải nói là tôi rất thích Curriculum của khóa học, sắp xếp gọn gàng chặt chẽ, các bạn có thể xem kỹ các môn học ở dưới đây, Khóa học sẽ dạy nhiều về Machine learning để bạn xây dựng các model để dự đoán phân tích số liệu.nhưng về cơ bản là bạn sẽ học về Python và các library cơ bản của Python trong việc phân tích xử lý dữ liệu, tiếp đó là học về Statistics- một môn nền tảng không thể thiếu trong Machine learning và predictive analytics.
Tiếp sau đó bạn học về Supervised learning – Foundation, theo sau đó là Classification– một thể loại phân tích dự đoán dựa theo Decision Tree
Tiếp đó bạn học về các kỹ thuật nâng độ dự báo chính xác của Supervised learning thêm một tầng cao khác (Ensemble Technique và Model tuning).
Cuối cùng là học về Unsupervised Learning trong đó có 2 kỹ thuật chính là K-means và Hierachical Clustering
Sau mỗi một module là một Project, tổng cộng có 7 project bạn sẽ phải làm trên Jupyter notebook và một bài trình bày Powerpoint dành cho các non-technical audience để họ hiểu về dự án và đề xuất của bạn.
Mỗi một Project sẽ đi qua các bước rất chuẩn chỉnh : data checking, data cleaning, data transformation, EDA, build model (if relevent), recommendations. Làm xong mỗi project này bạn sẽ tự tin hơn nhiều khi đọc các project khác vì mình đã có cơ bản và kinh nghiệm thực chiến 😉
Trong suốt khóa học trường sẽ tổ chức 3 Hackathon để mọi người thi với nhau xem ai giải được problem nhanh nhất với độ chính xác cao nhất. Nếu bạn được giải thì đây là cách rất tốt để đánh bóng CV của bạn khi đi xin việc đó.
Về các dự án / Project thì trường có thể thay đổi thường xuyên, nhưng tôi cũng muốn chia sẻ về một vài dự án tôi đã làm để bạn tham khảo:
-Đánh giá khả năng vay nợ trả nợ của một nhóm khách hàng
-Đánh giá khả năng xin được visa Mỹ của một tập hồ sơ
-Phân tích và đưa ra các nhóm customer profile của các loại sản phẩm khác nhau
-Làm A/B testing để đánh giá tính khả thi của một trang web mới để xem có nên dùng trang web mới hay không
-Đánh giá các factors ảnh hưởng đến việc hủy booking của một khách sạn, xây dựng model dự đoán booking nào có thể bị hủy trước hạn, sau đó đề xuất chính sach liên quan đến việc hoàn tiền và hủy phòng.
Toàn là các vấn đề thực tiễn đúng không? Cái tôi thích hơn nữa là trong mỗi module đều có rất nhiều case study / guided project để mình tham khảo và học hỏi cho dự án mình sắp làm, cũng như để lưu lại trong tương lai nếu cần. Một nguồn dữ liệu dồi dào!!
Sau khi nộp bài, các industry expert sẽ chấm điểm và comment cho bạn cẩn thận. Mỗi dự án bạn sẽ mất tầm 1 tuần hoặ chơn để hoàn thành theo kinh nghiệm của mình.
Dành thời gian bao nhiêu để học mỗi tuần?
Trung bình tôi thấy cần dành 15-20 tiếng mỗi tuần để học, làm quiz, chuẩn bị cho dự án, học mentoring.. nếu bạn đang đi làm thì dự kiến là bạn sẽ phải học buổi tối và cuối tuần mới theo kịp bài vở một cách chỉn chu chất lượng.
Điểm tôi chưa thích ở khóa học này?
Không có khóa học nào là hoàn hảo , khóa PGDSBA cũng vậy. Có một số điểm tôi ko thích trong trải nghiệm của tôi :
-Các bạn mentor là người ấn nên nói tiếng anh khá khó nghe (bù lại mentor của tôi rất tận tụy)
-Đôi khi sau khi tôi raise câu hỏi trong platform thì 2-3 ngày sau mới có người trả lời, lúc đó tôi đã tự tìm câu trả lời được cho mình rồi
-Khóa học PGDSBA nặng, thật sự nặng về technical . Tuy nhiên phần Python lại dạy chưa đủ sâu , tôi nghĩ nên dành ít nhất 2 tháng để dạy Python và Pandas mới tạm đủ. Có giai đoạn tôi thấy thật sự ngợp và đuối!
-Một số quiz rất khó để hoàn thành trong thời gian 30′.
-Gần cuối khóa học có nhiều project liên tục dồn dập , nên chia bớt thời gian sẽ dễ thở hơn cho sinh viên
-Nếu nhóm học của bạn (10-12 người) mà không chăm học như bạn, học hành lớt phớt thì bạn sẽ thấy hơi cô đơn (giống tôi ). Tôi là người hỏi nhiều nhất trong cách mentor session và chắc là người raise nhiều câu hỏi nhất trong platform. May mà tôi đã tìm được một peer trong nhóm và hai đứa thường xuyên chat và hỏi nhau nên tôi thấy đỡ cô đơn và lạc lõng hơn rất nhiều.
Khóa học này phù hợp với những ai?
Khóa học này theo đánh giá của tôi là hay và khó với người có business background (không có IT / coding background), nhưng vẫn hoàn toàn có thể học được even nếu bạn là beginner như mình.
Theo tôi, bạn sẽ thích khóa học này nếu:
-Bạn muốn học chuẩn chỉ từ trường đại học danh tiếng, get your hands dirty, làm project thật sự tử tế, cảm thấy tự tin về kiến thức và kỹ năng hơn chỉ sau 8 tháng
-Bạn chủ động học, học qua Google, youtube về Python, hoặc có thể học qua DataCamp hoặc DataQuest trước, 2 platform này dạy khá kỹ về Python. Nếu có thể thì nên biết qua về Python trước để không bỡ ngỡ như tôi.
-Bạn có thể dành thời gian 15 tiếng mỗi tuần
-Bạn nghe được tiếng anh tốt và viết đủ dùng.
-Bạn có ham mê hoặc tò mò về Machine learning, ứng dụng của ML vào predictive analytics. Bạn mong muốn có những skill chính của Data Scientist chứ không chỉ dừng lại ở Data Analyst.
-Bạn muốn nỗ lực của mình cũng mang lại về một cái gì đó, ví dụ như một tấm bằng để sau này dễ xin việc hơn
Hiện giờ đôi khi tôi vẫn mở trang web ra để học hoặc xem lại các case cũ. Tôi đang tập luyện lại Panda, Python để tôi hiểu sâu hơn về các syntax và EDA. Có một điều tôi học được là syntax gần như ko thể học thuộc được và cũng không nên cố học thuộc làm gì, quan trọng là hiểu mình cần giải quyết vấn đề gì và google syntax mình cần. Sau khi làm nhiều nó sẽ quen, sẽ vẫn có những syntax dài kềnh càng để vẽ biểu đồ chẳng hạn, mình không thể nhớ nổi. Chỉ cần biết là trong các trường hợp này mình nên dùng Chart nào hay phải làm gì, sau đó đi tìm câu trả lời cho mình
Việc học là thế. Học chủ động, chứ ko thể học vẹt được. Tôi nghĩ vậy. Nghĩ lại trải nghiệm 12 năm học ở VN và 4 năm đại học là ngán ngẩm lắm lắm.
Hy vọng các bạn bật được ra tìm được con đường học chủ động cho riêng mình
Nếu các bạn muốn tìm hiểu thêm về khóa học để download curriculum mới nhất cũng như lấy Promo code được giảm 150-300 khi đăng ký học thì có thể vào tham khảo tại đây và đây
Đây là cerfiticate của tôi, cái tôi thấy tự hào nhất đó là tôi đã vượt được nỗi sợ của mình để bắt đầu một thứ hoàn toàn mới và “turn out” là nó rất hay ho, mở ra một ngách mới cho tôi khám phá!
Nếu các bạn có câu hỏi gì cứ để lại comment, tôi sẽ trả lời sau nhé.
Chúc các bạn học vui!
P/S: trong post này tôi có dùng Anh- Việt xen kẽ, hy vọng các bạn thông cảm vì nhiều từ dịch ra tiếng việt nghĩa nó không hoàn toàn giống tiếng anh, và cũng là do thói quen của tôi.
P/SS: Nếu có nhu cầu mentor/coaching với tôi, vui lòng xem chi tiết tại đây.
Leave a Reply