ตัวอย่าง Colab to TARA HPC
my.ipynb บน Colab
ติดตั้ง package ที่ต้องการใช้งานให้กับ session
!pip install pythainlp
2. จัดการกับแหล่งข้อมูลโดยเชื่อมต่อกับ google drive หรือโอนถ่ายข้อมูลขึ้น Colab session
from google.colab import drive
drive.mount('/content/drive')
3. โปรแกรมที่กำลังพัฒนาเพื่อสร้างโมเดล (… โดยย่อ)
import pandas as pd
from pythainlp import word_tokenize
...
listtext = []
with open('/content/drive/MyDrive/news.txt', 'r', encoding = 'utf8') as f:
for line in f.readlines():
listtext.append(line.strip())
df = pd.DataFrame(listtext, columns=['text'])
...
df['tokenized'] = df.text.apply(tokenize)
embedding_model = word2vec.Word2Vec(...)
embedding_model.build_vocab(df.tokenized)
%time
embedding_model.train(df.tokenized, total_examples = embedding_model.corpus_count, epochs = 15)
8. การทดสอบโมเดล
Colab-to-TARA
Common Steps | Colab | TARA |
---|---|---|
ติดตั้ง package ที่ต้องการใช้งานให้กับ session environment |
| การจัดการกับ environment บน HPC สามารถทำได้หลายรูปแบบ เช่น virtualenv / conda / Singularity container (อ่านเพิ่มเติมได้ที่นี่) ในตัวอย่างนี้ใช้ virtualenv
|
จัดการกับแหล่งข้อมูลโดยเชื่อมต่อกับ google drive หรือโอนถ่ายข้อมูลขึ้น Colab session |
| |
โปรแกรมที่กำลังพัฒนาเพื่อสร้างโมเดล | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | เตรียม my.py โดยหากพัฒนาโปรแกรมเสร็จแล้วจาก Colab ก็สามารถ nbconvert file จาก Colab มาเป็น python file ได้เลย |
สั่งรันโปรแกรม | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | เตรียม sbatch submission script (submit.sh)
|
การทดสอบโมเดล | เป็น interactive session ผ่าน Jupyter notebook style บน Colab | สามารถเรียกใช้งาน interactive mode เพื่อการทดสอบโมเดลได้ด้วยคำสั่ง
อ่านเพิ่มเติมเกี่ยวกับ sinteract ได้ที่นี่ |