Low Dimensional Embeddings of
Words and Documents
And how they might apply to Single-Cell Data
Slide 2
Slide 2 text
Motivation
Slide 3
Slide 3 text
NLP has seen huge advances
recently
Slide 4
Slide 4 text
No content
Slide 5
Slide 5 text
No content
Slide 6
Slide 6 text
How far can we get with simple
methods?
Slide 7
Slide 7 text
Embeddings
Slide 8
Slide 8 text
The new NLP methods are based
around various “embeddings”.
But what are embeddings?
Slide 9
Slide 9 text
A mathematical representation
(often vectors)
+
A way to measure distance
between representations
Slide 10
Slide 10 text
A lot of focus falls on the first part
But distances are often critical
(as we will see)
Slide 11
Slide 11 text
Document Embeddings
Slide 12
Slide 12 text
How do we represent a
document mathematically?
Slide 13
Slide 13 text
The “bag-of-words” approach:
Discard order and count how
often each word occurs
Slide 14
Slide 14 text
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod
tempor incididunt ut labore et dolore magna aliqua.
Auctor elit sed vulputate mi sit amet mauris, quis vel eros donec ac odio
tempor orci
Slide 15
Slide 15 text
ac amet auctor
donec
elit eros
mauris mi
odio orci
quis
sed sit
tempor
vel vulputate
adipiscing aliqua amet
consectetur
do dolor dolore
eiusmod elit et
incididunt ipsum
labore lorem
magna
sed sit
tempor
ut
Slide 16
Slide 16 text
0 1 1 1 0 1 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 0 0
1 0 0 1 1 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 1
dolor
do
consectetur
auctor
amet
aliqua
adipiscing
ac
dolore
donec
eiusmod
elit
eros
et
incididunt
ipsum
labore
lorem
magna
mauris
mi
odio
orci
quis
sed
sit
tempor
ut
vel
vulputate
Slide 17
Slide 17 text
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Sociis natoque penatibus et
magnis dis parturient montes nascetur. Quis viverra nibh cras pulvinar mattis. Augue eget arcu dictum varius duis. Urna neque viverra justo nec ultrices dui
sapien eget. Fringilla ut morbi tincidunt augue interdum velit. Mauris in aliquam sem fringilla ut morbi. In hac habitasse platea dictumst vestibulum
rhoncus. Lobortis scelerisque fermentum dui faucibus in ornare quam. Eget nulla facilisi etiam dignissim diam quis. Venenatis lectus magna fringilla urna
porttitor rhoncus dolor.
Non pulvinar neque laoreet suspendisse. At varius vel pharetra vel turpis nunc eget. Ullamcorper morbi tincidunt ornare massa eget egestas purus viverra
accumsan. Eu tincidunt tortor aliquam nulla facilisi cras fermentum odio. Orci nulla pellentesque dignissim enim sit amet venenatis. Blandit cursus risus at
ultrices. Amet est placerat in egestas erat imperdiet sed. Consequat semper viverra nam libero justo laoreet sit. Mauris pharetra et ultrices neque ornare
aenean. Non consectetur a erat nam. Dolor sit amet consectetur adipiscing elit ut aliquam purus. Aliquet lectus proin nibh nisl. Dis parturient montes
nascetur ridiculus. Cras fermentum odio eu feugiat pretium nibh ipsum. Dui id ornare arcu odio ut. Risus nec feugiat in fermentum.
Elementum nibh tellus molestie nunc non blandit massa enim. Porttitor eget dolor morbi non arcu risus quis varius. Fermentum dui faucibus in ornare.
Suspendisse faucibus interdum posuere lorem ipsum dolor sit. Sit amet aliquam id diam maecenas ultricies mi eget mauris. Proin nibh nisl condimentum id
venenatis a condimentum vitae. Sit amet nisl suscipit adipiscing bibendum est ultricies. Duis convallis convallis tellus id interdum velit laoreet id donec.
Congue nisi vitae suscipit tellus mauris a diam maecenas. Sed euismod nisi porta lorem. Nisl rhoncus mattis rhoncus urna neque viverra justo. Eget magna
fermentum iaculis eu non diam phasellus vestibulum. Feugiat nibh sed pulvinar proin gravida hendrerit lectus. Ac turpis egestas maecenas pharetra
convallis. Amet commodo nulla facilisi nullam vehicula ipsum a arcu cursus.
Sed viverra tellus in hac habitasse platea. Pharetra massa massa ultricies mi quis hendrerit. Amet est placerat in egestas erat imperdiet sed euismod nisi. Id
velit ut tortor pretium viverra suspendisse potenti nullam. Sit amet nisl purus in mollis nunc sed id semper. Porttitor massa id neque aliquam. Felis eget velit
aliquet sagittis id. Consectetur a erat nam at lectus urna. Vel orci porta non pulvinar neque laoreet suspendisse interdum. Sit amet nisl suscipit adipiscing
bibendum est ultricies integer quis. Dapibus ultrices in iaculis nunc sed augue. Molestie at elementum eu facilisis sed odio morbi. Odio facilisis mauris sit
amet massa vitae tortor. Imperdiet nulla malesuada pellentesque elit eget.
Ornare quam viverra orci sagittis eu. Ornare massa eget egestas purus viverra. Porta non pulvinar neque laoreet suspendisse interdum. Netus et malesuada
fames ac turpis egestas sed. Congue nisi vitae suscipit tellus mauris. Vivamus arcu felis bibendum ut tristique et egestas. Suspendisse faucibus interdum
posuere lorem ipsum dolor sit amet. Congue quisque egestas diam in. Vestibulum morbi blandit cursus risus at ultrices. Venenatis urna cursus eget nunc
scelerisque viverra mauris. Sit amet cursus sit amet dictum sit amet justo. Mi eget mauris pharetra et ultrices neque. Massa tempor nec feugiat nisl pretium
fusce id. Tristique sollicitudin nibh sit amet commodo nulla facilisi nullam.
Slide 18
Slide 18 text
No content
Slide 19
Slide 19 text
No content
Slide 20
Slide 20 text
No content
Slide 21
Slide 21 text
Just large sparse matrices of
counts
This looks like a lot of other types
of data
Slide 22
Slide 22 text
How should we measure distance?
Documents are distributions of
words, so use a distance between
distributions.
Slide 23
Slide 23 text
Hellinger distance
Approximated by cosine distance
Slide 24
Slide 24 text
No content
Slide 25
Slide 25 text
Every domain has its domain
specific transformations
NLP uses “TF-IDF”