再帰型ニューラルネットを用いたCSの返答自動化の検討

࠶ؼܕχϡʔϥϧωοτΛ༻ ͍ͨCSͷฦ౴ࣗಈԽͷݕ౼ ాத Ժࣝ (Tanaka Yasunori)

About Me • ాத Ժࣝ (Tanaka Yasunori) • @yanak174 •
https://blog.codingecho.com • ॴଐ: גࣜձࣾenish • ΍ͬͯΔ͜ͱ: ήʔϜΞϓϦͷαʔόʔαΠυΤϯδχΞ

಺༰ 1. CS (ΧελϚʔαϙʔτ) ͷݱঢ় 2. ΍Γ͍ͨ͜ͱ 3. σʔληοτ 4.
࣭໰ςΩετͷલॲཧ 5. LSTMͰֶश 6. ·ͱΊ

CSͷݱঢ় • 1. ଟ͘ͷϢʔβʔ͕͢Δ࣭໰ͱɺ2. ൺֱతগͳ͍Ϣʔβʔ͕ ૺ۰͢Δ໰୊ʹର͢Δ࣭໰͕͋Δ • ଟ͘ͷϢʔβʔ͕͢Δ࣭໰ (ҎԼɺFAQ)͸ɺ͋Δఔ౓ܾΊΒΕ ͨϑΥʔϚοτʹैͬͯճ౴͞ΕΔ͜ͱ͕ଟ͍
• εϚʔτϑΥϯ޲͚ήʔϜͷதʹ͸ɺFAQʹ֘౰͢Δ࣭໰ͱ͠ ͯ՝ۚʹؔ͢Δෆ۩߹ͱΞΧ΢ϯτফࣦʹؔ͢Δ಺༰͕͋Δ • ͜ΕΒͷFAQ͸Ϣʔβʔʹରͯ͠ఆܕԽͨ͠ඞཁ߲໨ͷώΞ Ϧϯά͕ඞཁͱͳΔ

΍Γ͍ͨ͜ͱ • ඞཁ߲໨ͷώΞϦϯά෦෼ʹରͯࣗ͠ಈฦ౴͕ద༻ՄೳͰ ͋Δ͔ݕ౼͢Δ

Data set • ՝ۚʹؔ͢Δෆ۩߹ɺΞΧ΢ϯτফࣦɺͦͷଞͷ3ͭͷΧ ςΰϦʔͷ࣭໰Λར༻͢Δ • ֤ΧςΰϦʔ͸700αϯϓϧɺ߹ܭ໿2100αϯϓϧ • ϑΝΠϧ͸TSVͰid, question,
answer, categoryʹผΕͯ ͍Δ • question, categoryΛ࢖༻͢Δ

࣭໰ςΩετͷલॲཧ ه߸΍ϝʔϧΞυϨεɺ਺ࣈͳͲͷจࣈΛ࡟আ͢Δ ﬁltered_text = [] text = ["͓࣌ؒΛ௖ଷ͓ͯ͠Γ·͢ɻversion 1.2.3 ----------------------------------------"]
for t in issues: result = re.compile('-+').sub('', t) result = re.compile('[0-9]+').sub('0', result) result = re.compile('\s+').sub('', result) # ... ͜ͷΑ͏ͳஔ׵ॲཧ͕ෳ਺ܨ͕͍ͬͯ·͢ # ࣭໰ςΩετ͕ۭจࣈʹͳΔ͜ͱ͕͋ΔͷͰͦͷߦ͸ؚΊͳ͍Α͏ʹ͠·͢ if len(result) > 0: sub_texts.append(result) ﬁltered_text.append(result) print("text:%s" % result) # text:͓࣌ؒΛ௖ଷ͓ͯ͠Γ·͢ɻ

αϯϓϧͱϥϕϧΛ࡞੒ labels = [] samples = [] threshold = 700
cnt1 = 0 cnt2 = 0 cnt3 = 0 for i, row in enumerate(ﬁltered_samples): if 'Account' in row[2]: if cnt2 < threashold: cnt1 += 1 labels.append(2) samples.append(row[0]) elif 'Payment' in row[2]: if cnt3 < threashold: cnt3 += 1 labels.append(3) samples.append(row[0]) else: if cnt1 < threashold: cnt1 += 1 labels.append(1) samples.append(row[0])

MeCabͰ෼͔ͪॻ͖ import MeCab import re def tokenize(text): wakati = MeCab.Tagger("-O
wakati") wakati.parse("") words = wakati.parse(text) # Make word list if words[-1] == u"\n": words = words[:-1] return words texts = [tokenize(a) for a in samples] ௕Β͓࣌ؒ͘Λ௖ଷ͓ͯ͠Γ·͢ ௕Β͘ ͓ ࣌ؒ Λ ௖ଷ ͠ ͯ ͓Γ ·͢

Word embedding Deep Learning with Python: https://www.manning.com/books/deep-learning-with-python

LSTMͰֶश Deep Learning with Python: https://www.manning.com/books/deep-learning-with-python

LSTMͰֶश from keras.models import Sequential from keras.layers import Flatten, Dense,
Embedding from keras.layers import LSTM model = Sequential() model.add(Embedding(15000, 100, input_length=maxlen)) model.add(LSTM(32)) model.add(Dense(4, activation='sigmoid')) model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['acc']) model.summary() Word embedding΋ಉ࣌ʹֶश͢Δ

Results Validation accuracy 90%

LSTMͷจ຺ཧղ A. ͜ͷલ͸ΞΧ΢ϯτͷҾ͖ܧ͗ͷ໰୊ղܾ͋Γ͕ͱ͏͍͟͝·ͨ͠ɻࠓճ ͷෆ۩߹͸ΞΠςϜΛߪೖͨ͠ͷʹ൓ө͞Ε·ͤΜɻ͜ͷΑ͏ͳ͜ͱ͕ଓ ͘ͷ͸൵͍͠Ͱ͢ɻ B. ͜ͷલ͸ΞΠςϜߪೖͷ໰୊ղܾ͋Γ͕ͱ͏͍͟͝·ͨ͠ɻࠓճͷෆ۩߹ ͸ΞΧ΢ϯτͷҾ͖ܧ͕͗Ͱ͖ͳ͍໰୊Ͱ͢ɻ͜ͷΑ͏ͳ͜ͱ͕ଓ͘ͷ͸ ൵͍͠Ͱ͢ɻ

LSTMͷจ຺ཧղ

LSTMͷจ຺ཧղ • Aͷ࣭໰͸՝ۚෆ۩߹ʹؔ͢Δ࣭໰Ͱ͢ɻBͷ࣭໰͸ΞΧ΢ϯτফࣦʹؔ͢ Δ࣭໰Ͱ͢ɻ͜ΕΒͷ࣭໰ʹ͸෼ྨର৅ͷΧςΰϦʔ͕ࠞࡏ͍ͯ͠·͢ɻ2 ͭͷ࣭໰ͷจ຺Ͱ͸લޙͷΧςΰϦʔΛ൓సͤ͞Δ͜ͱͰɺޓ͍ʹٯͷҙຯ ʹͳΔΑ͏ʹ͍ͯ͠·͢ɻ • Ұ൪Լͷpredictions͸0࢝·ΓͰɺ1ྻ໨͕"ͦͷଞ"ɺ2ྻ໨͕"ΞΧ΢ϯτফ ࣦ”ɺ3ྻ໨͕"՝ۚ"ʹؔ͢Δ֬৴౓Λද͍ͯ͠·͢ɻ஋͕େ͖͍΄ͲͦͷΧ ςΰϦ͕ਖ਼ղͩͱ֬৴͍ͯ͠Δ͜ͱΛҙຯ͍ͯ͠·͢ɻ·ͨɺ2ͭͷ࣭໰͸
ΧςΰϦʔͷ෼ྨʹਖ਼ղ͍ͯ͠·͢ɻ • ͜ͷ਺஋ΛݟΔͱ2ͭͷ࣭໰ͱ΋ਖ਼ղͷΧςΰϦʔʹରͯ͠ɺଞͷෆਖ਼ղͷ ΧςΰϦͱେ͖ͳࠩΛ͚ͭͯਖ਼ղͷΧςΰϦΛਖ਼ղͰ͋Δͱ֬৴͍ͯ͠Δ͜ ͱ͕Θ͔Γ·͢ɻ

·ͱΊ • ະ஌ͷ࣭໰ʹରͯ͠90%ͷਫ਼౓Ͱ෼ྨͰ͖ͨ • LSTMͷจ຺ΛཧղͰ͖Δೳྗ͕෼ྨਫ਼౓ͷ޲্ʹظ଴Ͱ ͖Δ͜ͱ͕Θ͔ͬͨ • ςΩετͷલॲཧͱLSTM͕ࣗಈฦ౴ͷΞϓϩʔνͱͯ͠ ޮՌతͰ͋Δ͔΋͠Εͳ͍

ࠓޙͷ՝୊ A. ֶशࡁΈWord embeddingΛར༻ͨ͠৔߹ B. LSTMΛ1D-convolutional networkʹஔ͖׵͑Δ C. αϯϓϧ਺Λ૿΍͢ ਫ਼౓޲্ͷͨΊҎԼͷํ๏ͷݕূ͕ඞཁ

ࢀߟจݙ • Deep Learning with Python: https://www.manning.com/ books/deep-learning-with-python

再帰型ニューラルネットを用いたCSの返答自動化の検討

再帰型ニューラルネットを用いたCSの返答自動化の検討

Yasunori Tanaka

More Decks by Yasunori Tanaka

Other Decks in Technology

Featured

Transcript

࠶ؼܕχϡʔϥϧωοτΛ༻ ͍ͨCSͷฦ౴ࣗಈԽͷݕ౼ ాத Ժࣝ (Tanaka Yasunori)

About Me • ాத Ժࣝ (Tanaka Yasunori) • @yanak174 •

಺༰ 1. CS (ΧελϚʔαϙʔτ) ͷݱঢ় 2. ΍Γ͍ͨ͜ͱ 3. σʔληοτ 4.

CSͷݱঢ় • 1. ଟ͘ͷϢʔβʔ͕͢Δ࣭໰ͱɺ2. ൺֱతগͳ͍Ϣʔβʔ͕ ૺ۰͢Δ໰୊ʹର͢Δ࣭໰͕͋Δ • ଟ͘ͷϢʔβʔ͕͢Δ࣭໰ (ҎԼɺFAQ)͸ɺ͋Δఔ౓ܾΊΒΕ ͨϑΥʔϚοτʹैͬͯճ౴͞ΕΔ͜ͱ͕ଟ͍

΍Γ͍ͨ͜ͱ • ඞཁ߲໨ͷώΞϦϯά෦෼ʹରͯࣗ͠ಈฦ౴͕ద༻ՄೳͰ ͋Δ͔ݕ౼͢Δ

Data set • ՝ۚʹؔ͢Δෆ۩߹ɺΞΧ΢ϯτফࣦɺͦͷଞͷ3ͭͷΧ ςΰϦʔͷ࣭໰Λར༻͢Δ • ֤ΧςΰϦʔ͸700αϯϓϧɺ߹ܭ໿2100αϯϓϧ • ϑΝΠϧ͸TSVͰid, question,

࣭໰ςΩετͷલॲཧ ه߸΍ϝʔϧΞυϨεɺ਺ࣈͳͲͷจࣈΛ࡟আ͢Δ ﬁltered_text = [] text = ["͓࣌ؒΛ௖ଷ͓ͯ͠Γ·͢ɻversion 1.2.3 ----------------------------------------"]

αϯϓϧͱϥϕϧΛ࡞੒ labels = [] samples = [] threshold = 700

MeCabͰ෼͔ͪॻ͖ import MeCab import re def tokenize(text): wakati = MeCab.Tagger("-O

Word embedding Deep Learning with Python: https://www.manning.com/books/deep-learning-with-python

LSTMͰֶश Deep Learning with Python: https://www.manning.com/books/deep-learning-with-python

LSTMͰֶश from keras.models import Sequential from keras.layers import Flatten, Dense,

Results Validation accuracy 90%

LSTMͷจ຺ཧղ

·ͱΊ • ະ஌ͷ࣭໰ʹରͯ͠90%ͷਫ਼౓Ͱ෼ྨͰ͖ͨ • LSTMͷจ຺ΛཧղͰ͖Δೳྗ͕෼ྨਫ਼౓ͷ޲্ʹظ଴Ͱ ͖Δ͜ͱ͕Θ͔ͬͨ • ςΩετͷલॲཧͱLSTM͕ࣗಈฦ౴ͷΞϓϩʔνͱͯ͠ ޮՌతͰ͋Δ͔΋͠Εͳ͍

ࠓޙͷ՝୊ A. ֶशࡁΈWord embeddingΛར༻ͨ͠৔߹ B. LSTMΛ1D-convolutional networkʹஔ͖׵͑Δ C. αϯϓϧ਺Λ૿΍͢ ਫ਼౓޲্ͷͨΊҎԼͷํ๏ͷݕূ͕ඞཁ

ࢀߟจݙ • Deep Learning with Python: https://www.manning.com/ books/deep-learning-with-python