my.ipynb บน Colab
ติดตั้ง package ที่ต้องการใช้งานให้กับ session
!pip install pythainlp
2. จัดการกับแหล่งข้อมูลโดยเชื่อมต่อกับ google drive หรือโอนถ่ายข้อมูลขึ้น Colab session
from google.colab import drive drive.mount('/content/drive')
3. โปรแกรมที่กำลังพัฒนาเพื่อสร้างโมเดล (… โดยย่อ)
import pandas as pd from pythainlp import word_tokenize ... listtext = [] with open('/content/drive/MyDrive/news.txt', 'r', encoding = 'utf8') as f: for line in f.readlines(): listtext.append(line.strip()) df = pd.DataFrame(listtext, columns=['text']) ... df['tokenized'] = df.text.apply(tokenize) embedding_model = word2vec.Word2Vec(...) embedding_model.build_vocab(df.tokenized) %time embedding_model.train(df.tokenized, total_examples = embedding_model.corpus_count, epochs = 15)
8. การทดสอบโมเดล
word = 'AI' embedding_model.wv.most_similar(word, topn = 15)
Colab-to-TARA
Common Steps | Colab | TARA |
---|---|---|
ติดตั้ง package ที่ต้องการใช้งานให้กับ session environment |
| การจัดการกับ environment บน HPC สามารถทำได้หลายรูปแบบ เช่น virtualenv / conda / Singularity container (อ่านเพิ่มเติมได้ที่นี่) ในตัวอย่างนี้ใช้ virtualenv
|
จัดการกับแหล่งข้อมูลโดยเชื่อมต่อกับ google drive หรือโอนถ่ายข้อมูลขึ้น Colab session | from google.colab import drive drive.mount('/content/drive') |
|
โปรแกรมที่กำลังพัฒนาเพื่อสร้างโมเดล | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | เตรียม word2vec.py โดยหากพัฒนาโปรแกรมเสร็จแล้วจาก Colab ก็สามารถ nbconvert file จาก Colab มาเป็น python file ได้เลย |
สั่งรันโปรแกรม | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | เตรียม sbatch submission script (submit.sh)
|
การทดสอบโมเดล | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | สามารถเรียกใช้งาน interactive mode เพื่อการทดสอบโมเดลได้ด้วยคำสั่ง
อ่านเพิ่มเติมเกี่ยวกับ sinteract ได้ที่นี่ |