[Lời dẫn từ Ban Điều Hành] Đây là một bài trong loạt bài giới thiệu việc làm sau khi tốt nghiệp của sinh viên khoa toán. Ở bài này xin giới thiệu vị trí liên quan đến data (dữ liệu).

Bài viết này không có ý định phân biệt rõ ràng giữa các vị trí Data Scientist, Data Engineering và Data Analytist và dành cho các bạn sinh viên đang lựa chon chuyên ngành cũng như đang tìm kiếm hướng phát triển bản thân. Tôi (người viết) chỉ muốn chia sẻ những kinh nghiệm bản thân về các vị trí liên quan đến Data ở các công ty (cty),  không nhất thiết phải là công ty thuần túy tin học, mà có thể là các cty tài chính, quảng cáo ... cũng có vị trí này.

Để đơn giản, tôi xin tạm gộp chung các loại ngành cty lại với nhau để chia sẻ trước. Các vị trí liên quan data ở các cty thực chất chỉ có điểm chung là làm việc trên data, tất nhiên những cty khác nhau sẽ có những loại data khác nhau. Ví dụ các loại data thường gặp: ảnh (image), chữ (text), dữ liệu nhật ký (log) ...  Vị trí này thường nhằm mục đích hỗ trợ cho cấp quản lý và hỗ trợ cho ứng dụng của công ty. Mặc dù có nhiều kiểu data, nhưng khi làm việc với data,  nhìn chung sẽ có những bước như sau:  thu thập (collecting data),  tiền xử lý (pre-processing), xử lý (processing), học (learning) và đặc tả data (data visualization). Tất cả đòi hỏi những nền tảng chung về toán (giải tích, đại số, thống kê ...) và lập trình (hướng đối tượng, cơ sở dữ liệu, cấu trúc dữ liệu, design pattern [BĐH: không biết dịch là gì] ...).

Ở trên, tôi đã tạm gộp chung lại, nhưng điều này rất dễ gây ra hiểu lầm. Thực tế như đã nói, những loại data khác nhau cần có những kiến thức đặc thù khác nhau. Ví dụ, dữ liệu ở hướng tài chính (đa phần) chuỗi thời gian (time series) nên khi làm việc cần phải hiểu rõ đặc tính. Một ví dụ nữa là, rất nhiều dự án hay công ty làm việc trên ảnh, hiển nhiên khi xử lý trên ảnh cần thêm kiến thức xử lý ảnh. Khi đặc thù của nguồn data rất lớn, vị trí đòi hỏi có kiến thức về cơ sỡ dữ liệu (database), các nền tảng hỗ trợ như Hadoop, Amazon Cloud. Khi dữ liệu tồn tại trên mạng (internet), đòi hỏi phải có kiến thức về web, viết crawler. Đôi khi, chiến lược cty và mục đích của công việc đòi hỏi phải lập trình trên R, Python, Julia, C++, Java ... thay vì Matlab. Nói tóm lại, tùy vào data và hoàn cảnh sẽ có những đòi hỏi nhỏ khác nhau.

Để dễ hình dung, có một vài bài toán (vấn đề) mà cần phải có các vị trí đã nêu:

  1. Amazon, Walmart là một cty bán hàng. Họ mong muốn tăng doanh số bằng cách hiểu được người dùng thông qua hành vi của người dùng.  https://www.kaggle.com/c/walmart-recruiting-trip-type-classification
  2. Reddit là một mạng xã hội ở đó người dùng sẽ đăng câu hỏi lên và nhận được sự giúp đỡ từ cộng đồng.  Họ muốn tìm hiểu hành vi của người dùng thông qua dữ liệu gần 1.7 tỷ comments để đưa ra dịch vụ chất lượng. https://www.kaggle.com/c/reddit-comments-may-2015
  3. Để tạo ra chi giả bằng robot hoặc robot, điều khiển chúng bằng tín hiệu sinh học. https://www.kaggle.com/c/grasp-and-lift-eeg-detection https://emotiv.com/
  4. Dự đoán thị trường https://www.kaggle.com/c/rossmann-store-sales
  5. ...

Có thể xếp công việc liên quan data vào hạng mục R&D. Ở Sài Gòn cũng như Việt Nam, những cty chịu đầu vào mảng data có thể không nhiều nhưng chắc chắn không ít (làm thật sự), đa phần là cty nước ngoài, start-up. Có thể liệt kê dưới đây

  1. FPT, FPT R&D, khu công nghệ cao, Q.9
  2. TMA Solutions, TMR center, khu công nghệ phần mềm Quang Trung,  Q.12 http://goo.gl/T1w2jB
  3. Misfit Wearable, Q.4
  4. Adatao, Q.4 https://www.linkedin.com/jobs2/view/82122379?trk=jserp_job_details_text
  5. Faircare, Inc, Q.10 www.faircare.io
  6. Knorex Vietnam, Q. Bình Thạnh https://itviec.com/jobs/english-research-engineer-nlp-python-java--4
  7. Zalora  Vietnam https://itviec.com/jobs/database-data-scientist
  8. MobiVi
  9. KMS http://goo.gl/Neho03
  10. Sentifi
  11. Tenpoint7 http://tenpoint7.com/?page_id=17990
  12. ...

Sau đây tôi xin chia sẻ một video để hiểu thêm về công việc này

Owen Zhang gave a talk to very topic, in more depth in over-fitting problem, Gradient Boosting Machine’s parameter tuning, feature engineering and more.

Các bạn sinh viên có thể thắc mắc là chuyên ngành nào trong khoa Toán thích hợp nhất cho công việc này. Công bằng mà nói, chuyên ngành Giải Tích, Đại Số, Thống Kê, Tối Ưu,  Phương Pháp Toán ... đều được cả nhưng Phương Pháp Toán, Thống Kê, Tài Chính có thể thuận lợi nhất. Lý do là khoa Toán đã giúp sinh viên trang bị kiến thức toán, logic và lập trình và các chuyên ngành lợi thế thì có nhiều môn học rất sát với kiến thức được đòi hỏi. Chi tiết những đòi hỏi thế nào, các bạn có thể tự tìm hiểu theo thông tin đăng tuyển của các công ty.

Modern Data Scientist

Quy (quy@faircare.io)